JP6450203B2 - 個人プロファイル生成装置及びそのプログラム、並びに、コンテンツ推薦装置 - Google Patents

個人プロファイル生成装置及びそのプログラム、並びに、コンテンツ推薦装置 Download PDF

Info

Publication number
JP6450203B2
JP6450203B2 JP2015013057A JP2015013057A JP6450203B2 JP 6450203 B2 JP6450203 B2 JP 6450203B2 JP 2015013057 A JP2015013057 A JP 2015013057A JP 2015013057 A JP2015013057 A JP 2015013057A JP 6450203 B2 JP6450203 B2 JP 6450203B2
Authority
JP
Japan
Prior art keywords
graph
tree structure
node
personal profile
personal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015013057A
Other languages
English (en)
Other versions
JP2016139229A (ja
Inventor
苗村 昌秀
昌秀 苗村
山内 結子
結子 山内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2015013057A priority Critical patent/JP6450203B2/ja
Publication of JP2016139229A publication Critical patent/JP2016139229A/ja
Application granted granted Critical
Publication of JP6450203B2 publication Critical patent/JP6450203B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本願発明は、キーワード同士がリンクされたリンク付きコーパスから、個人の嗜好に適応した個人プロファイルを生成する個人プロファイル生成装置及びそのプログラム、並びに、コンテンツ推薦装置に関する。
従来より、番組やWebページなどのコンテンツへのアクセス履歴から、個人の嗜好をモデル化した個人プロファイルを生成し、個人の嗜好に応じたコンテンツを推薦する技術が提案されている。
例えば、特許文献1に記載の発明は、コンテンツに関するキーワードについての嗜好度を個別に計算し、視聴中に特化した番組推薦を行うものである。このとき、特許文献1に記載の発明では、視聴中のコンテンツだけではなく、視聴していない裏番組から抽出したキーワードとの相対関係から、キーワードについての嗜好度の精度を向上させている。
また、特許文献2に記載の発明は、視聴者のニッチな嗜好を反映したコンテンツを推薦するため、番組の出演者情報を解析して出演者間の関係度合いを算出し、登場が少ない出演者にも視聴者の嗜好を反映させている。
また、特許文献3に記載の発明は、視聴者の嗜好を反映したコンテンツ推薦を行うため、アクセスしたコンテンツから抽出したキーワード毎にヒストグラムを算出し、そのヒストグラムに基づいてコンテンツを推薦するものである。
特開2006−259897号公報 特開2008−199406号公報 特開2011−107869号公報
前記した従来技術は、視聴者がアクセスしたコンテンツに関するキーワードを抽出して、それらキーワードに基づいて推薦を行っている。つまり、従来技術では、抽出したキーワードの意味を解釈せずに単なるシンボルとして処理するため、概念空間へのマッピングが伴っていない。
なお、概念空間とは、物事や事象の概念が付与された疑似的な空間である。
このため、従来技術では、抽出されたキーワードと概念的に同一であるが、抽出されなかった未知のキーワードを扱うことができない。その結果、従来技術では、広範な視聴者の嗜好が反映された個人プロファイルを生成できず、視聴者の嗜好に適したコンテンツを推薦できていないという問題がある。
そこで、本願発明は、広範な個人の嗜好が反映された個人プロファイルを生成できる個人プロファイル生成装置及びそのプログラム、並びに、コンテンツ推薦装置を提供することを課題とする。
前記した課題に鑑みて、本願発明に係る個人プロファイル生成装置は、第1キーワード同士がリンクされたリンク付きコーパスから、個人の嗜好に適応した個人プロファイルを生成する個人プロファイル生成装置であって、初期グラフ生成手段と、グループ化手段と、グループ木構造グラフ生成手段と、プロファイル生成手段と、を備える構成とした。
かかる構成によれば、個人プロファイル生成装置は、初期グラフ生成手段によって、リンク付きコーパスの第1キーワードをノードとして、リンクされた第1キーワード同士をエッジとして接続した第1初期グラフを生成する。
個人プロファイル生成装置は、グループ化手段によって、予め設定された終了条件を満たすまで第1初期グラフを再帰的にグループ化することで、木構造におけるノードの位置を表した位置情報が付加された第1グループ化グラフを生成する。
個人プロファイル生成装置は、グループ木構造グラフ生成手段によって、位置情報に基づいて第1グループ化グラフの各ノードを配置することで、第1グループ化グラフから、上位概念及び下位概念となるノード同士が木構造で階層化された第1グループ木構造グラフを生成する。
このように、個人プロファイル生成装置は、リンク付きコーパスの第1キーワードが表す概念を階層的にグループ化することで、第1グループ木構造グラフを生成する。言い換えるなら、個人プロファイル生成装置は、キーワードの意味するところをシンボル化して、擬似的な概念空間にキーワードをマッピングする。このようにして、個人プロファイル生成装置は、従来技術で困難であった概念空間までの拡張を実現している。
個人プロファイル生成装置は、プロファイル生成手段によって、個人が興味を持つコンテンツの内容を表した個人興味情報に基づいて、個人の嗜好を表す重みを第1グループ木構造グラフのノードに伝搬させることで、個人プロファイルを生成する。
また、本願発明に係るコンテンツ推薦装置は、本願発明の個人プロファイル生成装置と、個人プロファイルと推薦対象プロファイルとの一致度を算出し、算出した一致度の閾値判定によって、推薦対象のコンテンツを個人に推薦するか否かを判定するコンテンツ推薦手段と、を備える構成とした。
本願発明によれば、以下のような優れた効果を奏する。
本願発明に係る個人プロファイル生成装置は、擬似的な概念空間にキーワードをマッピングし、概念空間まで個人プロファイルを拡張できるので、広範な個人の嗜好が反映された個人プロファイルを生成することができる。
本願発明に係るコンテンツ推薦装置は、個人プロファイル生成装置が生成した個人プロファイルを用いて、視聴者の嗜好に適したコンテンツを推薦することができる。
本願発明の実施形態において、リンク付きコーパスを説明する説明図である。 本願発明の実施形態に係るコンテンツ推薦装置の構成を示すブロック図である。 本願発明の実施形態において、初期グラフの生成を説明する説明図である。 本願発明の実施形態において、初期グラフの初期化を説明する説明図である。 本願発明の実施形態において、1回目のグループ化処理を説明する説明図である。 本願発明の実施形態において、2回目のグループ化処理を説明する説明図である。 本願発明の実施形態において、グループ木構造グラフの生成を説明する説明図である。 本願発明の実施形態において、個人プロファイルの生成を説明する説明図である。 図2の個人プロファイル生成装置によるグループ木構造グラフ生成処理を示すフローチャートである。 図2の個人プロファイル生成装置によるプロファイル生成処理を示すフローチャートである。 図2のコンテンツ推薦装置によるコンテンツ推薦処理を示すフローチャートである。
以下、本願発明の実施形態について、適宜図面を参照しながら詳細に説明する。
まず、本願発明の実施形態に係るコンテンツ推薦装置2で利用されるリンク付きコーパスを説明した後、コンテンツ推薦装置2の構成を説明する。
[リンク付きコーパス]
リンク付きコーパスとは、キーワード同士がリンク付けられた辞書コーパスのことである。リンク付きコーパスの代表例としては、ウィキペディアがあげられる。ウィキペディアは、キーワード間のリンク、及び、カテゴリに属する上位概念や下位概念のキーワードが管理されているので、リンク付きコーパスとして簡単に利用できる。
例えば、ウィキペディアには、俳優“○○○○”に関するページがある。図1のように、俳優“○○○○”のページの下部には、この俳優が属するカテゴリのキーワードとして、“日本の俳優”、“日本の歌手”、“△△市出身の人物”などが表示されている。
ここで、各カテゴリでは、そのカテゴリに含まれる、上位概念又は下位概念となるキーワード同士がリンクされている。例えば、カテゴリのキーワード“日本の俳優”をクリックすると、“主要カテゴリ>…>俳優>各国の俳優>日本の俳優”と、“主要カテゴリ>…>日本の人物>日本の芸能人>日本の俳優”とが表示される。
主要カテゴリの不等号“>”は、左側のキーワードが右側のキーワードの上位概念であることを表す。1つ目のカテゴリでは、キーワード“俳優”及び“各国の俳優”が上位概念及び下位概念の関係でリンクされ、キーワード“各国の俳優”及び“日本の俳優”も上位概念及び下位概念の関係でリンクされている。また、2つ目のカテゴリでは、キーワード“日本の人物”及び“日本の芸能人”が上位概念及び下位概念の関係でリンクされ、キーワード“日本の芸能人”及び“日本の俳優”も上位概念及び下位概念の関係でリンクされている。
また、例えば、カテゴリのキーワード“△△市出身の人物”をクリックすると、“主要カテゴリ>…>△△県出身の人物>△△市出身の人物>△△市出身の力士”が表示される。つまり、キーワード“△△市出身の人物”は、“△△県出身の人物”という上位概念のキーワードにリンクされている。さらに、キーワード“△△市出身の人物”は、“△△市出身の力士”という下位概念のキーワードにリンクされている。
なお、ある主要カテゴリでは、上位概念及び下位概念となるキーワード同士が、別の主要カテゴリでは反対にリンクされることもある。このように、ウィキペディアでは、上位概念及び下位概念の関係に曖昧さが残り、擬似的な概念空間にキーワードをマッピングする際の妨げとなる。
[コンテンツ推薦装置の概略]
図2を参照し、コンテンツ推薦装置2の概略について説明する。
コンテンツ推薦装置2は、個人プロファイル生成装置1がリンク付きコーパスから個人プロファイルを生成し、生成した個人プロファイルに基づいて、コンテンツの推薦を行うものである。
コンテンツ推薦装置2では、大きく分けて、3つの処理が行われる。まず、個人プロファイル生成装置1は、リンク付きコーパスをグラフ化し、それを木構造グラフに変換する(グループ木構造グラフ生成処理)。このとき、個人プロファイル生成装置1は、グラフ解析における連結程度の粗密具合を判定するグループ化処理(コミュニティ検出)を再帰的に施す。
次に、個人プロファイル生成装置1は、各視聴者の嗜好を木構造グラフに反映した個人プロファイルを生成する(プロファイル生成処理)。このとき、コンテンツ推薦装置2は、木構造グラフを構成するノードに一致するキーワードを抽出し、そのノードに重みを加算すると同時に、木構造に沿ってその重みを伝搬する。これによって、各視聴者に適応した重み付き木構造グラフが生成され、個人プロファイルとして扱うことができる。
最後に、コンテンツ推薦装置2は、個人プロファイル生成装置1が生成した個人プロファイルを用いて、コンテンツの推薦を行う(コンテンツ推薦処理)。このとき、コンテンツ推薦装置2は、新たに生成した推薦対象プロファイルがどの程度個人プロファイルに一致しているかどうかで、推薦の可否を判定する。
[コンテンツ推薦装置の構成]
続いて、コンテンツ推薦装置2の構成について説明する。
図2のように、コンテンツ推薦装置2は、個人プロファイル生成装置1と、コンテンツ推薦手段70とを備える。
個人プロファイル生成装置1は、初期グラフ生成手段10と、グループ化手段20と、グループ木構造グラフ生成手段30と、グループ木構造グラフDB40と、プロファイル生成手段50と、プロファイルDB60とを備える。
初期グラフ生成手段10は、リンク付きコーパスが入力され、入力されたリンク付きコーパスのキーワード(第1キーワード)をノードとし、リンクされたキーワード同士をエッジとして接続した初期グラフ(第1初期グラフ、g_cat)を生成するものである。
<初期グラフの生成>
図1,図3を参照し、初期グラフの生成について、詳細に説明する(適宜図2参照)。
この例では、ウィキペディアにおける俳優“○○○○”のページから、初期グラフAを生成することとする。例えば、初期グラフ生成手段10は、俳優“○○○○”のページのHTML(Hyper Text Markup Language)を解析し、このページの下部に表示されているカテゴリのキーワードを取得する。ここでは、初期グラフ生成手段10は、カテゴリのキーワードとして、“日本の俳優”、“△△市出身の人物”を取得したこととし、“日本の歌手”については説明を省略する。
図1のように、初期グラフ生成手段10は、カテゴリのキーワード“日本の俳優”のリンクを辿り、2つのカテゴリから、キーワード“俳優”、“各国の俳優”、“日本の人物”、“日本の芸能人”を取得する。さらに、初期グラフ生成手段10は、カテゴリのキーワード“△△市出身の人物”のリンクを辿り、キーワード“△△県出身の人物”、“△△市出身の力士”を取得する。
この場合、図3のように、キーワード“俳優”、“各国の俳優”、“日本の人物”、“日本の芸能人”、“日本の俳優”、“△△県出身の人物”、“△△市出身の人物”、“△△市出身の力士”のそれぞれがノードとなる。
また、キーワード“俳優”と“各国の俳優”とのリンク、及び、キーワード“各国の俳優”と“日本の俳優”とのリンクがエッジとなる。また、キーワード“日本の人物”と“日本の芸能人”とのリンク、及び、キーワード“日本の芸能人”と“日本の俳優”とのリンクがエッジとなる。さらに、キーワード“△△県出身の人物”と“△△市出身の人物” とのリンク、及び、キーワード“△△市出身の人物”と“△△市出身の力士”とのリンクがエッジとなる。
この他、別の主要カテゴリにおいて、キーワード“各国の俳優”と“日本の人物”とのリンク、キーワード“日本の人物”と“△△県出身の人物”のリンクが存在していたので、これらリンクもエッジとなる。
従って、初期グラフ生成手段10は、前記したノードのそれぞれをエッジで接続し、図3のような初期グラフAを生成する。
図2に戻り、初期グラフ生成手段10について、説明を続ける。
また、初期グラフ生成手段10は、推薦対象情報が入力され、入力された推薦対象情報にキーワード抽出処理(例えば、形態素解析処理)を施し、推薦対象情報からキーワード(第3キーワード)を抽出する。そして、初期グラフ生成手段10は、推薦対象情報の第3キーワードのうち、リンク付きコーパスのキーワードに一致するものを抽出する(名寄せ処理)。
なお、推薦対象情報とは、推薦対象となるコンテンツの内容を表す情報である。例えば、推薦対象情報としては、推薦対象となる放送番組について、EPGの番組内容情報又は字幕情報があげられる。
さらに、初期グラフ生成手段10は、抽出された第3キーワードをノードとして、リンク付きコーパスにおけるキーワード同士のリンクにより、第3キーワード同士をエッジとして接続した第2初期グラフを生成する。このとき、初期グラフ生成手段10は、リンク付きコーパスのキーワードに一致する第3キーワードのみを抽出したため、リンク付きコーパスにおけるキーワード同士のリンクを利用して、第3キーワード同士を接続できる。
その後、初期グラフ生成手段10は、生成した初期グラフA及び第2初期グラフをグループ化手段20に出力する。
グループ化手段20は、初期グラフ生成手段10から入力された初期グラフAを再帰的にグループ化することで、位置情報が付加されたグループ化グラフ(第1グループ化グラフ、g_cat_tree)を生成するものである。
具体的には、グループ化手段20は、ノード間の連結粗密情報による再帰的グループ化処理を初期グラフAに施す。このとき、グループ化手段20は、再帰的グループ化処理によって、後記する位置情報を各ノードに付加する。この再帰的グループ化処理は、下記の参考文献に記載されている。
参考文献:Vincent D Blondel et.al,“Fast unfolding of communities in large networks”,“Journal of Statistical Mechanics:Theory and Experiment 2008(10),P10008(12pp)”
なお、連結粗密情報とは、対象となるノードが属するグループを表す指標であり、ノード同士の類似度と言うこともできる。前記参考文献に記載の手法では、連結粗密情報として、モジュラリティ(modularity)と呼ばれる指標を用いて、コミュニティ検出を行っている。
<再帰的グループ化処理>
図4〜図6を参照し、再帰的グループ化処理について、詳細に説明する(適宜図2参照)。
図4のように、グループ化手段20は、図3の初期グラフAのグループを初期化する。初期化された初期グラフAでは、全てのノードが同一のグループGに属する。
次に、グループ化手段20は、図4の初期グラフAに対し、グループGを親グループとして、1回目のグループ化処理を施す。このとき、グループ化手段20は、各グループの親子関係(従属関係)を抽出し、連結部分が密なノード同士を子グループとして纏める。
図5のように、グループ化手段20は、親グループGを、ノード“俳優”、“各国の俳優”、“日本の人物”、“日本の芸能人”、“日本の俳優”が纏まった子グループGと、ノード“△△県出身の人物”、“△△市出身の人物”、“△△市出身の力士”が纏まった子グループGとに分割する。
次に、グループ化手段20は、図5の初期グラフAに対し、子グループであったグループG,Gをそれぞれ親グループとして更新し、2回目のグループ化処理を施す。図6のように、グループ化手段20は、親グループGを、ノード“俳優”、“各国の俳優”が纏まった子グループG21と、ノード“日本の人物”、“日本の芸能人”、“日本の俳優”が纏まった子グループG22とに分割する。
なお、グループGは、分割されなかったこととする。
このように、グループ化手段20は、予め設定された終了条件を満たすまでグループ化処理を再帰的に施し、グループ化グラフBを生成する。このとき、グループ化手段20は、グループ化グラフBのグループ数を、後記するグループ木構造グラフの階層数以下にしたい。そこで、終了条件は、グループ化処理の実行回数が予め設定された回数(例えば、グループ木構造グラフの最大階層数)を超えた場合、グループ化処理を終了するという条件で設定される。
図2に戻り、グループ化手段20について、説明を続ける。
また、グループ化手段20は、初期グラフ生成手段10から入力された第2初期グラフを再帰的にグループ化することで、位置情報が付加された第2グループ化グラフを生成する。ここで、グループ化手段20は、グループ化グラフBと同様の手順で、第2グループ化グラフを生成できるため、説明を省略する。
その後、グループ化手段20は、生成したグループ化グラフB及び第2グループ化グラフをグループ木構造グラフ生成手段30に出力する。
グループ木構造グラフ生成手段30は、グループ化手段20から入力されたグループ化グラフBの各ノードに付加された位置情報に基づいて、各視聴者(各個人)に共通するグループ木構造グラフ(第1グループ木構造グラフ)を1つ生成するものである。
なお、グループ木構造グラフは、上位概念及び下位概念となるノード同士が木構造で階層化されたグラフである。
<グループ木構造グラフの生成>
以下、図7を参照し、グループ木構造グラフの生成について、説明する(適宜図2参照)。
前記したように、グループ化グラフBの各ノードには、再帰的グループ化処理により、位置情報が付加されている。この位置情報は、グループ木構造グラフにおけるノードの位置を表す情報であり、例えば、タプル形式で表される。タプル形式の位置情報は、左から順にカッコ内の各数値が、グループ木構造グラフの階層毎に辿るノードの位置を表している。
例えば、あるノードの位置情報が(0,2,25,11,2)であることとする。この場合、位置情報の先頭は、常にグループ木構造グラフのルートノードを表すため、‘0’になる。また、位置情報は、2番目の数値が‘2’であることから、グループ木構造グラフでルートノードから1つ下となる第1階層において、左から‘2’個目のノードを表す。また、位置情報は、3番目の数値が‘25’であることから、グループ木構造グラフの第2階層において、左から‘25’個目のノードを表す。また、位置情報は、4番目の数値が‘11’であることから、グループ木構造グラフの第3階層において、左から‘11’個目のノードを表す。また、位置情報は、5番目の数値が‘2’であることから、グループ木構造グラフの第4階層において、左から‘2’個目のノードを表す。
以上より、位置情報は、このノードが、第4階層に位置することを表す。そして、位置情報は、このノードが、ルートノード、第1階層で左から‘2’個目のノード、第2階層で左から‘25’個目のノード、第3階層で左から‘11’個目のノードを順に経由して、第4階層で左から‘2’個目のノードであることを表す。
なお、各ノードの位置情報は、グループ木構造グラフ内で異なる位置を表し、重複しない。
そこで、グループ木構造グラフ生成手段30は、グループ化グラフBの各ノードに付加された位置情報が示す位置にそのノードを配置する。このようにして、グループ木構造グラフ生成手段30は、図6のグループ化グラフBを、図7のようなグループ木構造グラフCに変換できる。
前記したように、ウィキペディアでは、上位概念及び下位概念の関係に曖昧さが残る。そこで、個人プロファイル生成装置1は、ウィキペディアの各キーワードを概念的に類似するキーワード同士でグループ化し、グループ木構造グラフCを生成する。このグループ木構造グラフCは、全ノードで木構造が保たれているため、上位概念及び下位概念の関係に曖昧さが残っていない。
図2に戻り、グループ木構造グラフ生成手段30について、説明を続ける。
また、グループ木構造グラフ生成手段30は、グループ化手段20から入力された第2グループ化グラフの各ノードに付加された位置情報に基づいて、第2グループ木構造グラフを生成する。ここで、第2グループ木構造グラフは、グループ木構造グラフCと同様の手順で生成できるため、説明を省略する。
その後、グループ木構造グラフ生成手段30は、グループ木構造グラフC及び第2グループ木構造グラフをグループ木構造グラフDB40に書き込む。
グループ木構造グラフDB40は、グループ木構造グラフC及び第2グループ木構造グラフを記憶するデータベースである。このグループ木構造グラフDB40は、後記するプロファイル生成手段50により、参照される。
プロファイル生成手段50は、アクセス履歴情報(個人興味情報)が入力され、入力されたアクセス履歴情報に基づいて、視聴者の嗜好を表した重みをグループ木構造グラフCのノードに伝搬させることで、視聴者毎に個人プロファイル(base_tree)を生成するものである。
ここで、アクセス履歴情報とは、視聴者が興味を持つコンテンツの内容を表す情報であり、各視聴者がコンテンツにアクセスした履歴である。例えば、アクセス履歴情報としては、各視聴者が視聴した放送番組について、EPG(Electronic Program Guide)の番組内容情報又は字幕情報があげられる。
なお、個人プロファイルは、グループ木構造グラフCを各視聴者に適応させたものであるから、個人適応型グループ木構造グラフと呼ぶこともできる。
<個人プロファイルの生成>
図8を参照し、個人プロファイルの生成について、詳細に説明する(適宜図2参照)。
まず、プロファイル生成手段50は、アクセス履歴情報にキーワード抽出処理(例えば、形態素解析処理)を施し、アクセス履歴情報からキーワード(第2キーワード)を抽出する。次に、プロファイル生成手段50は、抽出した各キーワードに一致するグループ木構造グラフCのノードを探索する。そして、プロファイル生成手段50は、この探索されたノード(基準ノード)に予め設定された重みを加える。
なお、この重みは、任意の値に設定することができる。
続いて、プロファイル生成手段50は、基準ノードから各ノードに到るまで階層が1つ上がる毎に上位係数αと階層が1つ下がる毎に下位係数βとが乗じられた重みを算出する。ここで、上位係数α及び下位係数βは、1以下の値で予め設定される。そして、プロファイル生成手段50は、算出した重みが予め設定された閾値以下になるまで、算出した重みを各ノードに加える。すなわち、プロファイル生成手段50は、上位係数α及び下位係数βが1の場合を除き、基準ノードから階層が離れる程に重みを小さくしながら、重みを伝搬させる。
例えば、アクセス履歴情報から“日本の俳優”というキーワードが抽出された場合を考える。この場合、プロファイル生成手段50は、図8のように、グループ木構造グラフCのノード“日本の俳優”を基準ノードとして探索する。そして、プロファイル生成手段50は、基準ノード“日本の俳優”に重みを加える。
なお、図8では、accumが重みを表す。
次に、プロファイル生成手段50は、基準ノード“日本の俳優”からノード“日本の芸能人”まで階層が1つ上がるので、ノード“日本の芸能人”に重み×上位係数αを加算する。そして、プロファイル生成手段50は、基準ノード“日本の俳優”からノード“日本の人物”まで階層が2つ上がるので、ノード“日本の人物”に重み×上位係数αを加算する。さらに、プロファイル生成手段50は、基準ノード“日本の俳優”からノード“△△県出身の人物”まで階層が2つ上がった後に1つ下がるので、ノード“△△県出身の人物”に重み×上位係数α×下位係数βを加算する。
ここで、プロファイル生成手段50は、重みが予め設定された閾値以下になるまで、算出した重みを各ノードに加算する。言い換えるなら、プロファイル生成手段50は、重みが閾値を超える範囲のノードには重みを加算し、重みが閾値以下になる範囲のノードには重みを加算しない。例えば、プロファイル生成手段50は、ノード“△△市出身の人物”では、重み×上位係数α×下位係数βの値が閾値以下になるので、ノード“△△市出身の人物”に重みを加算しない。
このようにして、プロファイル生成手段50は、各視聴者に最適化された個人プロファイルを生成する。これにより、個人プロファイル生成装置1は、キーワードの数が少なくても、視聴者の嗜好を表すキーワードの上位概念を見つけることが可能となる。
なお、プロファイル生成手段50は、ある視聴者がコンテンツを視聴する都度、視聴されたコンテンツのアクセス履歴情報が入力される。従って、プロファイル生成手段50は、アクセス履歴情報が入力される都度、前記手順でプロファイルDB60の個人プロファイルに反映させてもよい。
図2に戻り、プロファイル生成手段50について、説明を続ける。
また、プロファイル生成手段50は、第2グループ木構造グラフのノードに重み付けを行うことで、推薦対象プロファイル(target_tree)を生成する。ここで、プロファイル生成手段50は、第2グループ木構造グラフのノードに、任意の手法で重み付けを行うことができる。例えば、プロファイル生成手段50は、tf−idf(Term Frequency-Inverse Document Frequency)法で重み付けを行ってもよい。また、プロファイル生成手段50は、第2グループ木構造グラフのノードが固有名詞のときは一般名詞よりも大きく重み付けを行い、そのノードが一般名詞のときは固有名詞よりも小さく重み付けを行ってもよい。
その後、プロファイル生成手段50は、生成した個人プロファイル及び推薦対象プロファイルをプロファイルDB60に書き込む。
なお、推薦対象プロファイルは、個人プロファイルと同一の木構造を有するが、各ノードの重みが個人プロファイルで同一位置のノードと異なる。
プロファイルDB60は、個人プロファイル及び推薦対象プロファイルを記憶するデータベースである。このプロファイルDB60は、後記するコンテンツ推薦手段70により、参照される。
コンテンツ推薦手段70は、個人プロファイルと推薦対象プロファイルとの一致度を算出し、算出した一致度の閾値判定によって、推薦対象のコンテンツを視聴者に推薦するか否かを判定するものである。
<コンテンツの推薦>
以下、コンテンツの推薦について、詳細に説明する(適宜図2参照)。
本実施形態では、コンテンツ推薦手段70は、個人プロファイルと推薦対象プロファイルとの一致度として、推薦対象プロファイルが個人プロファイルにどの程度含まれているかを表す包含係数を算出する。
ここで、コンテンツ推薦手段70は、推薦対象プロファイル(target_tree)において、重みが‘0’を超えるリーフノードを全て抽出する。なお、リーフノードとは、推薦対象プロファイル及び個人プロファイルで最下層に位置するノードのことである。
また、コンテンツ推薦手段70は、抽出された各リーフノードを起点として、ルートノードまでの重みを表したベクトルtarget_vec[i]を算出する。ここで、iは、リーフノードの番号を表す1以上の整数である。例えば、i番目のリーフノードの位置情報が(0,1,2,3,4)であることとする。この場合、コンテンツ推薦手段70は、ベクトルtarget_vec[i]として、[(0,1,2,3,4)_accum,(0,1,2,3)_accum,(0,1,2)_accum,(0,1)_accum,(0)_accum]という5次元のベクトルを算出する。
なお、accumの前に各ノードの位置情報を記載した。例えば、(0,1,2,3,4)_accumがi番目のリーフノードの重みを表し、(0)_accumがルートノードの重みを表す。
続いて、コンテンツ推薦手段70は、個人プロファイル(base_tree)において、重みが‘0’を超えるリーフノードを全て抽出し、抽出した各リーフノードを起点として、ルートノードまでの重みを表したベクトルbase_vec[i]を算出する。ここで、コンテンツ推薦手段70は、ベクトルbase_vec[i]を、ベクトルtarget_vec[i]と同様に算出するため、説明を省略する。
そして、コンテンツ推薦手段70は、ベクトルbase_vec[i]の各要素を、個人プロファイルを生成したときの補正係数を用いて平準化する。例えば、コンテンツ推薦手段70は、補正係数が個人プロファイルのキーワード総数の場合、ベクトルbase_vec[i]の各要素をキーワード総数で除算する。
なお、コンテンツ推薦手段70は、ベクトルtarget_vec[i]の各要素を平準化してもよいし、平準化しなくともよい。
続いて、コンテンツ推薦手段70は、ベクトルtarget_vec[i]とベクトルbase_vec[i]との内積をベクトル類似度として算出する。さらに、コンテンツ推薦手段70は、包含係数として、i個のベクトル類似度の平均値を算出する。つまり、コンテンツ推薦手段70は、同じリーフノードからルートノードまでの経路で生成したベクトルの内積により、各経路の重なり具合を表した指標を算出する。
続いて、コンテンツ推薦手段70は、包含係数(一致度)が予め設定された閾値以上であるか否かを判定する。
包含係数が閾値以上の場合、コンテンツ推薦手段70は、推薦対象となるコンテンツを視聴者に推薦するという判定結果を出力する。
包含係数が閾値未満の場合、コンテンツ推薦手段70は、推薦対象となるコンテンツを視聴者に推薦しないという判定結果を出力する。
[個人プロファイル生成装置の動作:グループ木構造グラフ生成処理]
図9を参照し、個人プロファイル生成装置1のグループ木構造グラフ生成処理について、詳細に説明する(適宜図2参照)。
個人プロファイル生成装置1は、初期グラフ生成手段10によって、リンク付きコーパスのキーワードをノードとし、リンクされたキーワード同士をエッジとして接続した初期グラフAを生成する(ステップS1)。
個人プロファイル生成装置1は、グループ化手段20によって、全てのノードが同一の親グループに属するように、初期グラフAのグループを初期化する(ステップS2)。
個人プロファイル生成装置1は、グループ化手段20によって、ノード間の連結粗密情報に基づいて、親グループを2以上の子グループに分割する(ステップS3)。
個人プロファイル生成装置1は、グループ化手段20によって、各グループの親子関係を抽出する(ステップS4)。
個人プロファイル生成装置1は、グループ化手段20によって、終了条件を満たすか否かを判定する(ステップS5)。
終了条件を満たさない場合(ステップS5でNo)、個人プロファイル生成装置1は、グループ化手段20によって、ステップS4で抽出した子グループを親グループに更新し(ステップS6)、ステップS3の処理に戻る。
終了条件を満たす場合(ステップS5でYes)、個人プロファイル生成装置1は、グループ木構造グラフ生成手段30によって、ステップS2〜S4の処理で生成されたグループ化グラフBにおいて、位置情報が示す位置に各ノードを配置することで、グループ木構造グラフCを生成する(ステップS7)。
以上の手順により、個人プロファイル生成装置1は、グループ木構造グラフCを生成できる。
なお、個人プロファイル生成装置1は、推薦対象情報にキーワード抽出処理を施し、リンク付きコーパスにおけるキーワード同士のリンクを利用することで、第2初期グラフを生成できる(ステップS1A)。
以後、個人プロファイル生成装置1は、ステップS2〜S4と同様の処理で第2グループ木構造グラフを生成できるため、説明を省略する。
[個人プロファイル生成装置の動作:プロファイル生成処理]
図10を参照し、個人プロファイル生成装置1のプロファイル生成処理について、詳細に説明する(適宜図2参照)。
個人プロファイル生成装置1は、プロファイル生成手段50によって、アクセス履歴情報からキーワードを抽出する(ステップS11)。
個人プロファイル生成装置1は、プロファイル生成手段50によって、抽出したキーワードに一致するグループ木構造グラフCのノードを探索し、探索された基準ノードに重みを加える。
個人プロファイル生成装置1は、プロファイル生成手段50によって、上位係数αと下位係数βとが乗じられた重みが閾値以下になるまで、その重みをグループ木構造グラフCのノードに加える(ステップS12)。
ここで、個人プロファイル生成装置1は、アクセス履歴情報から抽出した全てのキーワードについて、ステップS11,S12の処理を行う。
以上の手順により、個人プロファイル生成装置1は、個人プロファイルを生成できる。
なお、個人プロファイル生成装置1は、ステップS11の処理を行わずに、第2グループ木構造グラフの各ノードに任意の手法で重み付けを行うことで、推薦対象プロファイルを生成できる(ステップS12A)。
[コンテンツ推薦装置の動作:コンテンツ推薦処理]
図11を参照し、コンテンツ推薦装置2のコンテンツ推薦処理について、詳細に説明する(適宜図2参照)。
コンテンツ推薦装置2は、コンテンツ推薦手段70によって、個人プロファイルと推薦対象プロファイルとをベクトル化する(ステップS21)。
コンテンツ推薦装置2は、コンテンツ推薦手段70によって、ステップS21でベクトル化された個人プロファイルと推薦対象プロファイルとの一致度を算出する(ステップS22)。
コンテンツ推薦装置2は、コンテンツ推薦手段70によって、ステップS22で算出した一致度が閾値以上であるか否かを判定する(ステップS23)。
一致度が閾値以上の場合(ステップS23でYes)、コンテンツ推薦手段70は、推薦対象となるコンテンツを推薦する(ステップS24)。
一致度が閾値未満の場合(ステップS23でNo)、又は、ステップS24の処理後、コンテンツ推薦手段70は、処理を終了する。
以上の手順により、コンテンツ推薦装置2は、コンテンツを推薦できる。
本願発明の実施形態に係るコンテンツ推薦装置2は、擬似的な概念空間にキーワードをマッピングするので、概念空間まで個人プロファイルを拡張可能とし、広範な視聴者の嗜好が反映された個人プロファイルを生成することができる。
すなわち、コンテンツ推薦装置2は、概念的な領域まで踏み込んで、視聴者の嗜好を個人プロファイル化することができる。その結果、コンテンツ推薦装置2は、表層的なキーワードでのマッチング処理で困難であったグループ単位での概念を基にした情報推薦が可能となり、未知のキーワードが出現しても、的確に視聴者の嗜好に応じたコンテンツを推薦できる。
以上、本願発明の各実施形態を詳述してきたが、本願発明は前記した実施形態に限られるものではなく、本願発明の要旨を逸脱しない範囲の設計変更なども含まれる。
前記した実施形態では、キーワードを扱って説明したが、本願発明は、キーワードに限られず画像特徴量などの情報リソースにも適用することができる。
また、前記した実施形態では、番組に関するコンテンツを推薦することとして説明したが、本願発明による個人プロファイルを用いて、番組以外のコンテンツ、例えばイベント情報、商品情報などを推薦することもできる。
前記した実施形態では、リンク付きコーパスがウィキペディアであることとして説明したが、本願発明は、これに限定されない。例えば、本願発明は、リンク付きコーパスとして、リンクが張られたホームページや、学術論文の引用情報も利用することができる。
前記した実施形態では、一致度の閾値判定により推薦の可否を判定したが、本願発明は、これに限定されない。例えば、本願発明は、推薦対象となるコンテンツ毎に一致度を算出し、一致度が高い順に視聴者に推薦してもよい。
前記した実施形態では、個人プロファイル生成装置1を独立したハードウェアとして説明したが、本願発明は、これに限定されない。例えば、個人プロファイル生成装置1は、コンピュータが備えるCPU、メモリ、ハードディスクなどのハードウェア資源を、前記した各手段として協調動作させる個人プロファイル生成プログラムで実現することもできる。このプログラムは、通信回線を介して配布してもよく、CD−ROMやフラッシュメモリなどの記録媒体に書き込んで配布してもよい。
1 個人プロファイル生成装置
2 コンテンツ推薦装置
10 初期グラフ生成手段
20 グループ化手段
30 グループ木構造グラフ生成手段
40 グループ木構造グラフDB
50 プロファイル生成手段
60 プロファイルDB
70 コンテンツ推薦手段

Claims (6)

  1. 第1キーワード同士がリンクされたリンク付きコーパスから、個人の嗜好に適応した個人プロファイルを生成する個人プロファイル生成装置であって、
    前記リンク付きコーパスの第1キーワードをノードとして、リンクされた前記第1キーワード同士をエッジとして接続した第1初期グラフを生成する初期グラフ生成手段と、
    予め設定された終了条件を満たすまで前記第1初期グラフを再帰的にグループ化することで、木構造における前記ノードの位置を表した位置情報が付加された第1グループ化グラフを生成するグループ化手段と、
    前記位置情報に基づいて前記第1グループ化グラフの各ノードを配置することで、前記第1グループ化グラフから、上位概念及び下位概念となる前記ノード同士が木構造で階層化された第1グループ木構造グラフを生成するグループ木構造グラフ生成手段と、
    前記個人が興味を持つコンテンツの内容を表す個人興味情報に基づいて、前記個人の嗜好を表した重みを前記第1グループ木構造グラフのノードに伝搬させることで、前記個人プロファイルを生成するプロファイル生成手段と、を備えることを特徴とする個人プロファイル生成装置。
  2. 前記グループ化手段は、前記ノード間の連結粗密情報による再帰的グループ化処理を前記第1初期グラフに施すことを特徴とする請求項1に記載の個人プロファイル生成装置。
  3. 前記プロファイル生成手段は、
    前記個人興味情報に含まれる第2キーワードを抽出し、
    抽出した前記第2キーワードに一致する前記第1グループ木構造グラフのノードである基準ノードに所定の重みを加え、
    前記基準ノードから前記第1グループ木構造グラフの各ノードに到るまで階層が1つ上がる毎に予め設定された1以下の上位係数と前記階層が1つ下がる毎に予め設定された1以下の下位係数とが乗じられた重みを算出し、
    算出した当該重みが予め設定された閾値以下になるまで、算出した当該重みを前記第1グループ木構造グラフの各ノードに加えることを特徴とする請求項1又は請求項2に記載の個人プロファイル生成装置。
  4. 前記初期グラフ生成手段は、推薦対象となるコンテンツの内容を表す推薦対象情報に含まれる第3キーワードのうち、前記第1キーワードに一致するものを抽出し、抽出された前記第3キーワードをノードとして、前記第1キーワード同士のリンクにより前記第3キーワード同士をエッジとして接続した第2初期グラフを生成し、
    前記グループ化手段は、前記終了条件を満たすまで前記第2初期グラフを再帰的にグループ化することで、前記位置情報が付加された第2グループ化グラフを生成し、
    前記グループ木構造グラフ生成手段は、前記位置情報に基づいて前記第2グループ化グラフの各ノードを配置することで、前記第2グループ化グラフから、上位概念及び下位概念となる前記ノード同士が木構造で階層化された第2グループ木構造グラフを生成し、
    前記プロファイル生成手段は、前記第2グループ木構造グラフのノードに重み付けを行うことで、推薦対象プロファイルを生成することを特徴とする請求項1から請求項3の何れか一項に記載の個人プロファイル生成装置。
  5. 請求項4に記載の個人プロファイル生成装置と、
    前記個人プロファイルと前記推薦対象プロファイルとの一致度を算出し、算出した前記一致度の閾値判定によって、前記推薦対象のコンテンツを前記個人に推薦するか否かを判定するコンテンツ推薦手段と、を備えることを特徴とするコンテンツ推薦装置。
  6. コンピュータを、請求項1から請求項4の何れか一項に記載の個人プロファイル生成装置として機能させるための個人プロファイル生成プログラム。
JP2015013057A 2015-01-27 2015-01-27 個人プロファイル生成装置及びそのプログラム、並びに、コンテンツ推薦装置 Expired - Fee Related JP6450203B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015013057A JP6450203B2 (ja) 2015-01-27 2015-01-27 個人プロファイル生成装置及びそのプログラム、並びに、コンテンツ推薦装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015013057A JP6450203B2 (ja) 2015-01-27 2015-01-27 個人プロファイル生成装置及びそのプログラム、並びに、コンテンツ推薦装置

Publications (2)

Publication Number Publication Date
JP2016139229A JP2016139229A (ja) 2016-08-04
JP6450203B2 true JP6450203B2 (ja) 2019-01-09

Family

ID=56560246

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015013057A Expired - Fee Related JP6450203B2 (ja) 2015-01-27 2015-01-27 個人プロファイル生成装置及びそのプログラム、並びに、コンテンツ推薦装置

Country Status (1)

Country Link
JP (1) JP6450203B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6739379B2 (ja) * 2017-03-10 2020-08-12 ヤフー株式会社 情報処理装置、情報処理方法、プログラム、および広告情報処理システム
JP7099976B2 (ja) * 2019-03-22 2022-07-12 株式会社日立製作所 情報管理装置および情報管理方法
CN110347926A (zh) * 2019-07-15 2019-10-18 北京百度网讯科技有限公司 用于推送信息的方法和装置
KR20220043534A (ko) * 2020-09-29 2022-04-05 삼성전자주식회사 컨텐츠 추천 서비스를 제공하는 전자 장치 및 그 방법
CN113268629B (zh) * 2021-04-29 2023-01-03 西安交通大学 一种融合节点偏好的异构图歌单多标签推荐方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7657907B2 (en) * 2002-09-30 2010-02-02 Sharp Laboratories Of America, Inc. Automatic user profiling
US7873616B2 (en) * 2006-07-07 2011-01-18 Ecole Polytechnique Federale De Lausanne Methods of inferring user preferences using ontologies

Also Published As

Publication number Publication date
JP2016139229A (ja) 2016-08-04

Similar Documents

Publication Publication Date Title
JP6450203B2 (ja) 個人プロファイル生成装置及びそのプログラム、並びに、コンテンツ推薦装置
US7519588B2 (en) Keyword characterization and application
JP5078173B2 (ja) 多義性解消方法とそのシステム
US20080301133A1 (en) Location recognition using informative feature vocabulary trees
US8812504B2 (en) Keyword presentation apparatus and method
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
WO2008016102A1 (fr) dispositif de calcul de similarité et dispositif de recherche d'informations
CN108280114A (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
JP6472573B2 (ja) データ分析手法候補決定装置
JP5477635B2 (ja) 情報処理装置および方法、並びにプログラム
KR102059743B1 (ko) 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
CN105005616A (zh) 基于文本图片特征交互扩充的文本图解方法及系统
CN110110220A (zh) 融合社交网络和用户评价的推荐模型
JP2006318398A (ja) ベクトル生成方法及び装置及び情報分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記憶媒体
JP2019128925A (ja) 事象提示システムおよび事象提示装置
Peiris et al. Synthesis and evaluation of a domain-specific large data set for dungeons & dragons
JP2012185654A (ja) 翻訳装置、翻訳プログラムおよび翻訳方法
JP4266584B2 (ja) テキストデータ群生成装置、テキストデータ群生成方法、プログラムおよび記録媒体
Nio et al. Improving the robustness of example-based dialog retrieval using recursive neural network paraphrase identification
CN113392245A (zh) 一种用于众测任务发布的文本摘要与图文检索生成方法
JP4982542B2 (ja) 共起行列生成装置、共起行列生成方法、共起行列生成プログラムおよびそのプログラムを記録した記録媒体
JP6632564B2 (ja) 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム
JP2010015394A (ja) リンク先提示装置およびコンピュータプログラム
JP4314271B2 (ja) 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181207

R150 Certificate of patent or registration of utility model

Ref document number: 6450203

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees