以下、本発明の実施形態を図面を参照して説明する。
実施形態1.
図1は、本発明の第1の実施形態の興味情報特定システムの例を示すブロック図である。第1の実施形態の興味情報特定システムは、抽出対象設定手段100と、アクセス履歴記憶手段200と、コンテンツ管理手段300と、特徴語履歴生成手段400と、出現頻度計算手段500と、出現間隔計算手段600と、特徴語評価手段700と、特徴語選択手段800と、興味情報提示手段900とを備える。
最初に、本発明の興味情報特定システムが予め記憶するアクセス履歴およびメタ情報と、それらの情報から生成される特徴語履歴について説明する。
興味情報特定システムは、予めアクセス履歴と各コンテンツのメタ情報とを記憶する。
アクセス履歴は、コンテンツの識別情報と、そのコンテンツの利用時刻と、そのコンテンツを利用した人物(以下、ユーザと記す。)またはグループの識別情報とを含む利用履歴である。アクセス履歴では、コンテンツの識別情報と、コンテンツの利用時刻と、そのコンテンツを利用したユーザまたはグループの識別情報とが対応付けられている。なお、コンテンツの利用の態様は特に限定されず、コンテンツの利用時刻は、ユーザまたはグループがコンテンツを閲覧した時刻、視聴した時刻、ダウンロードした時刻などのいずれであってもよい。また、コンテンツの利用時刻の単位も特に限定されない。例えば、利用時刻は秒単位として時分秒で表してもよく、あるいは、日単位として日付で表してもよい。あるいは、時単位や週単位などで表してもよい。また、コンテンツの識別情報および利用時刻に対して、ユーザおよびそのユーザが属するグループの両方の識別情報が対応付けられていてもよい。以下、ユーザ名をユーザの識別情報として用い、グループの名称(例えば所属部署名)をグループの識別情報として用いる場合を例にして説明する。
図2は、アクセス履歴の例を示す説明図である。図2に例示するアクセス履歴では、日付(利用時刻)と、文書ID(コンテンツの識別情報)と、ユーザ名と、そのユーザの所属部署名とが対応付けられている。例えば、図2に例示するアクセス履歴において、先頭行のデータは、「2007年9月1日」に、部署「SECTION1」に所属するユーザ「USER1」が、文書ID「ID001」の文書をダウンロードしたことを示している。
コンテンツのメタ情報は、コンテンツの付加的な情報であり、コンテンツ毎に用意される。メタ情報は、コンテンツの識別情報と、そのコンテンツの特徴を表す特徴語とを含み、コンテンツの識別情報と特徴語とが対応付けられている。また、メタ情報は、コンテンツの識別情報および特徴語とともに、他の情報(例えば、コンテンツ名、コンテンツの作成者、作成日時など)を含んでいてもよい。図3は、メタ情報の例を示す説明図である。図3に例示するメタ情報では、文書ID(コンテンツの識別情報)と、文書名(コンテンツ名)と、特徴語とが対応付けられている。例えば、図3に例示する文書ID「ID001」のメタ情報は、文書ID「ID001」の文書名が「○○提案資料」であり、その文書には「セキュリティ、ユビキタス、ネットワーク」が特徴語として定められていることを示している。
特徴語履歴は、あるユーザ(グループでもよい。)が利用したコンテンツの特徴を表す特徴語と、そのユーザ(またはそのグループ)が特徴語によって特徴が表される各コンテンツを利用した利用時刻とを含む情報である。特徴語履歴では、特徴語と利用時刻とが対応付けられている。図4は、特徴語履歴の例を示す説明図である。図4に示す例では、例えば、「セキュリティ」を特徴語とするコンテンツが、あるユーザ(またはグループ)によって、「2007/09/01」、「2007/09/01」、「2007/09/02」に利用されたことなどを示している。特徴語履歴は、アクセス履歴およびメタ情報から生成される。
本発明の興味情報特定システムは、アクセス履歴およびメタ情報から特徴語履歴を生成し、特徴語毎に、ユーザまたはグループの定常的な興味の度合いを表す評価値を計算する。図5は、各特徴語の評価値の例を示す説明図である。図5に示す例では、特徴語「セキュリティ」に対する評価値は「0.1」であり、特徴語「ユビキタス」に対する評価値は「1.0」である。評価値が大きいほうがユーザの興味が強いとすると、あるユーザ(またはあるグループ)は「ネットワーク」に最も興味を示していることを表す。
また、コンテンツの例として、文書(電子文書)が挙げられるが、コンテンツは、文書に限定されない。例えば、コンテンツは、ホームページや電子掲示板などのWEBページ、店舗情報や観光情報などの位置関連情報、テレビジョン放送やラジオ放送の番組情報、映像コンテンツや音楽コンテンツ、書籍情報などであってもよい。以下、コンテンツが文書(電子文書)である場合を例に説明する。
次に、本実施形態の各構成要素について説明する。
抽出対象設定手段100は、定常的な興味を表す興味情報として特徴語を特定する対象となるユーザまたはグループを設定する。例えば、抽出対象設定手段100は、ユーザまたはグループを示すユーザ名またはグループ名の入力を促す画面を出力し、その画面にユーザ名またはグループ名が入力されると、そのユーザ名またはグループ名によって特定されるユーザまたはグループを定常的興味の特定対象として決定してもよい。図6は、ユーザ名またはグループ名の入力画面の例である。図6に例示する画面は、ユーザ名入力とグループ名入力のいずれかを指定するラジオボタン401と、ユーザ名またはグループ名が入力される入力欄402とを含んでいる。抽出対象設定手段100は、図6に例示する入力画面を表示し、ユーザ名入力とグループ名入力のいずれかが指定され、その名称が入力欄402に入力されると、その入力された名称をユーザ名またはグループ名として決定する。
あるいは、抽出対象設定手段100は、クッキー(Cookie)などを用いて、以前入力されたユーザ名やグループ名により特定されるユーザまたはグループを定常的興味の特定対象として決定したり、他のシステムからユーザ名やグループ名を自動的に引き継ぎ、そのユーザ名やグループ名により特定されるユーザまたはグループを定常的興味の特定対象として決定してもよい。
アクセス履歴記憶手段200は、アクセス履歴を記憶する。例えば、アクセス履歴記憶手段200は、コンテンツ管理手段300に記憶される文書(コンテンツ)がアクセスされたとき(すなわち利用されたとき)、その文書の識別情報と、利用時刻と、その文書を利用したユーザのユーザ名とを対応付けて、アクセス履歴として追加していけばよい。既に説明したように、そのユーザが属するグループ名もアクセス履歴に含めてもよい。なお、アクセス履歴記憶手段200がアクセス履歴を取得する態様は特に限定されない。例えば、外部で作成されたアクセス履歴がアクセス履歴記憶手段200に入力され、アクセス履歴記憶手段200がそのアクセス履歴を記憶してもよい。
また、アクセス履歴記憶手段200は、ユーザ名またはグループ名が指定されると、指定されたユーザ名またはグループ名に対応する文書の識別情報(以下、文書IDと記す。)および利用時刻を、アクセス履歴から検索する。
コンテンツ管理手段300は、文書(コンテンツ)と、その文書のメタ情報と関連付けて記憶する。メタ情報には、文書IDと、その文書の特徴を表す特徴語とが含まれている。メタ情報には、文書名などの他の情報が含まれていてもよい。また、文書名を文書IDとしてもよい。また、コンテンツ管理手段300は、文書IDや文書名などをもとに文書を検索してもよい。
特徴語履歴生成手段400は、アクセス履歴記憶手段200に記憶されるアクセス履歴と、コンテンツ管理手段300に記憶される文書のメタ情報とを参照して、特徴語履歴を生成する。特徴語履歴生成手段400は、抽出対象設定手段100に設定されたユーザまたはグループが利用したコンテンツの特徴を表す特徴語を特定し、その特徴語に、そのコンテンツの利用時刻を対応付ける処理を行うことにより、特徴語履歴を生成する。
例えば、アクセス履歴記憶手段200が図2に例示するアクセス履歴を記憶し、コンテンツ管理手段300が図3に例示するメタ情報を記憶しているとする。なお、図2に例示するアクセス履歴は、2007年9月1日から2007年9月7日の期間におけるアクセス履歴であるものとする。また、抽出対象設定手段100が「USER1」を設定したとする。この場合の特徴語履歴の生成処理の例を説明する。
まず、特徴語履歴生成手段400は、抽出対象設定手段100に設定されたユーザ名またはグループ名に対応する文書IDおよび利用時刻を取得する。例えば、アクセス履歴記憶手段200に検索させる。本例では、特徴語履歴生成手段400は、「USER1」に対応する文書IDとして「ID001」、「ID002」、「ID003」、「ID005」を取得する(図2参照)。また、「ID001」の文書の利用時刻として、「2007/09/01」を取得する。他の文書の利用時刻も同様に取得する。
さらに、特徴語履歴生成手段400は、その文書ID毎に、文書IDに対応付けられている特徴語をメタ情報から抽出する。そして、特徴語履歴生成手段400は、その特徴語と、同一の文書IDに対応付けられている利用時刻とを対応付ける。例えば、特徴語履歴生成手段400は、上記の文書ID「ID001」に関して、コンテンツ管理手段300に記憶されているメタ情報から、「ID001」に対応する特徴語「セキュリティ、ユビキタス、ネットワーク」を抽出し、その各特徴語と、「ID001」に対応付けられていた利用時刻「2007/09/01」とを対応付ける。すなわち、「セキュリティ」、「ユビキタス」、「ネットワーク」それぞれに対し、「2007/09/01」を対応付ける。他の文書ID「ID002」、「ID003」、「ID005」に関しても、同様の処理を行う。図4は、上記のような処理の結果、得られた特徴語履歴を表している。また、アクセス履歴は、2007年9月1日から2007年9月7日の期間における履歴であるので、特徴語履歴の導出対象期間は、2007年9月1日から2007年9月7日の期間である。
出現頻度計算手段500は、特徴語履歴生成手段400が生成した特徴語履歴を参照して、各特徴語の特徴語出現頻度を求める。特徴語出現頻度は、特徴語により特徴が表される各コンテンツの利用頻度(利用回数)である。出現頻度計算手段500は、特徴語履歴を参照して、各特徴語毎に、特徴語に対応付けられた利用時刻の数をカウントし、そのカウント結果を特徴語出現頻度とすればよい。以下、特徴語出現頻度を単に出現頻度と記す。例えば、図4に例示する特徴語履歴が生成されたとする。この場合、「セキュリティ」の出現頻度は3回であり、「ユビキタス」の出現頻度は2回である。図7は、図4に例示する特徴語履歴に基づいて導出された出現頻度を示す。
出現間隔計算手段600は、特徴語履歴生成手段400が生成した特徴語履歴を参照して、各特徴語の出現時刻間隔を求める。出現時刻間隔は、特徴語により特徴が表される各コンテンツの利用時刻の間隔である。出現間隔計算手段600は、特徴語履歴を参照して、各特徴語毎に、特徴語に対応付けられた利用時刻同士の差を計算すればよい。また、出現間隔計算手段600は、各出現時刻間隔が生じた回数をカウントする。例えば、図4に例示する特徴語履歴が生成されたとする。「セキュリティ」は、「2007/09/01」に2回、「2007/09/02」に1回出現していることになる(図4参照)。この場合、出現間隔計算手段600は、「2007/09/01」同士の差として、「0日間隔」という出現時刻間隔を計算し、「0日間隔」が生じた回数「1回」をカウントする。また、「2007/09/01」と「2007/09/02」との差として、「1日間隔」という出現時刻間隔を計算し、「1日間隔」が生じた回数「1回」をカウントする。ここでは「セキュリティ」の出現時刻間隔を例示したが、他の特徴語についても同様に出現時刻間隔を求める。また、出現間隔計算手段600は、特徴語に対して、利用時刻が1つだけしか対応付けられていない場合には、すべての出現時刻間隔について、カウント数を0回とする。例えば、図4に例示する「サーバ」の場合、「0日間隔」、「1日間隔」などのいずれの出現時刻間隔についても「0回」とする。図8は、図4に例示する特徴語履歴に基づいて導出された出現時刻間隔を示す。
特徴語評価手段700は、特徴語履歴生成手段400が生成した特徴語履歴と出現間隔計算手段600が求めた特徴語の出現時刻間隔とを参照して、特徴語毎に評価値を計算する。この評価値は、設定されたユーザまたはグループの定常的な興味の度合いを表す値である。特徴語評価手段700は、出現時刻間隔の分布と、モデルとなる確率分布との差を計算し、その差に応じて特徴語の評価値を計算する。ここで、モデルとなる確率分布は、特徴語が一様に出現する(すなわち、特徴語により特徴が表される文書がランダムに利用される)と仮定したときの、出現時刻間隔の確率分布である。特徴語評価手段700は、各特徴語を順に選択し、選択した特徴語について評価値を計算する。
ランダムに事象が発生する場合、ある事象が起こった後、次の事象が起こるまでの時間は、指数分布に従うことが知られている。従って、特徴語が一様に出現すると仮定した場合の出現時刻間隔も指数分布に従う。そこで、本実施形態では、モデルとなる確率分布として、指数分布を用いる。
ある出現時刻間隔で特徴語が出現する確率(すなわち、特徴語により特徴が表される文書がある出現時刻間隔で利用される確率)は、実際にその出現時刻間隔で特徴語が出現した回数を、各出現時刻間隔で特徴語が出現した回数の和で除算した値である。すなわち、出現時刻間隔をtとすると、出現時刻間隔tで特徴語が出現する確率(P’(t)と記す。)は、以下に示す式(1)によって表される。
式(1)に示すf(t)は、出現時刻間隔tで特徴語が出現した回数であり、式(1)の右辺の分母は、各出現時刻間隔で特徴語が出現した回数の和である。
また、モデルとなる確率分布(指数分布)において、出現時刻間隔tで特徴語が出現する確率をP(t)とすると、P(t)は、以下に示す式(2)によって表される。
P(t)=(K/T)e−(K/T)t 式(2)
ここで、Kは、選択している特徴語の出現頻度である。また、Tは、特徴語履歴の導出対象期間(換言すれば、特徴語履歴を生成する基となったアクセス履歴を採取していた期間)である。
特徴語評価手段700は、選択している特徴語の各出現時刻間隔毎に、式(1)によりP’(t)を計算し、式(2)によりP(t)を計算し、その差分の絶対値|P(t)−P’(t)|を計算する。そして、特徴語評価手段700は、各出現時刻間隔毎に計算した差分の絶対値|P(t)−P’(t)|の総和を求め、その総和に応じた評価値を計算する。本実施形態では、特徴語評価手段700は、以下に示す式(3)の計算を行うことにより、選択している特徴語の評価値を計算する。
式(3)の左辺のVは、選択している特徴語の評価値である。また、式(3)の右辺の指数部分は、各出現時刻間隔毎に計算した差分の絶対値|P(t)−P’(t)|の総和に−1を乗じた値である。このように評価値を計算した場合、|P(t)−P’(t)|の総和が小さいほど、評価値Vは大きくなる。すなわち、出現時刻間隔の分布と、モデルとなる確率分布との差が小さいほど、評価値Vは大きくなる。
また、出現頻度が1回であり、出現時刻間隔が求まらない特徴語については、評価値を0と定める。すなわち、いずれのtについても生じた回数が0回となる場合には、V=0と定める。
特徴語評価手段700の処理の具体例を示す。特徴語履歴生成手段400が、ある特徴語Aについて、9月1日から9月14日までの間の特徴語履歴として、図9(a)に例示する特徴語履歴が生成されたとする。この場合、出現頻度計算手段500は、図9(b)に示すように、特徴語Aの出現頻度「9」を求める。また、出現間隔計算手段600は、出現時刻間隔を計算し、その出現時刻間隔が生じた回数をカウントする。例えば、図9(a)に示す特徴語履歴では、出現時刻間隔0日は3回生じ、出現時刻間隔1日は2回生じている。本例では、図9(c)に示す出現時刻間隔が得られる。
特徴語評価手段700は、各出現時刻間隔の実際の確率と、モデルとなる確率分布での確率との差の絶対値を求め、その総和を用いて評価値を計算する。図10は、この計算過程を示す説明図である。本例では、特徴語Aの出現頻度K=9である。また、特徴語履歴は9月1日から9月14日までの期間について求めているので、式(2)における期間T=14である。従って、K/T=0.642857である。
出現時刻間隔0日を例にして、その出現時刻間隔で実際に特徴語が出現する確率を求める。すなわち、t=0として、式(1)によりP’(0)を求める。図9(c)に示すように、出現時刻間隔0日の生じた回数f(0)=3である。また、各出現時刻間隔で特徴語が出現した回数の和は、3+2+1+1+1=8である(図9(c)参照)。よって、P’(0)=3/8=0.375である。
また、モデルとなる確率分布(指数分布)において、出現時刻間隔0日が生じる確率P(0)は、上記のK/Tを用いて、0.642857×e−0.642857×0=0.642857となる。よって、出現時刻間隔0日における実際の確率P’(0)と、モデルとなる確率分布での確率P(0)との差の絶対値は、|0.642857−0.375|=0.268となる。同様に、他の出現時刻間隔tについても|P(t)−P’(t)|を計算すると、図10に示すようになる。この総和を計算すると、0.570となる。なお、図10には、この差の絶対値を求める過程で計算されたP’(t)およびP(t)も示している。
特徴語評価手段700は、この総和を用いて、式(3)の計算を行い特徴語Aの評価値Vを計算する。本例では、V=e−0.570=0.565となる。ここでは、特徴語Aを例にして説明したが、他の特徴語についても同様に評価値を計算する。
ここでは、図9に示す例を用いて説明したが、図4に示す特徴語履歴から図7および図8に示す出現頻度、出現時刻間隔を求め、各特徴語の評価値を求めると、図11に示すようになる。「サーバ」、「ストレージ」は出現頻度が1回であり、出現時刻間隔が求まらないため、評価値を0とする。
本実施形態では、モデルとなる確率分布として指数分布を用いているが、モデルとなる確率分布は、指数分布に限定されず、特徴語がランダムに出現する場合の出現時刻間隔の分布を表すものであれば、指数分布以外の確率分布をモデルとしてもよい。
特徴語選択手段800は、特徴語評価手段700が求めた各特徴語の評価値に基づいて特徴語を特定する。本実施形態では、評価値が閾値以上となっている特徴語を選択する。このように特定される特徴語は、指定されたユーザまたはグループの定常的な興味を示す興味情報であり、特徴語選択手段800は、上記のように求められた評価値に基づいて特徴語を特定することにより、定常的な興味を示す興味情報を特定する。例えば、閾値が0.3であり、図11に示すように各特徴語の評価値が求められているとすると、特徴語選択手段800は、定常的な興味を表す特徴語として、「セキュリティ」および「ネットワーク」を選択する。
なお、ここでは、閾値を用いて特徴語を特定する場合を説明したが、特徴語選択手段800は他の方法で特徴語を特定してもよい。例えば、特徴語選択手段800は、評価値が降順になるように特徴語をソートし、評価値の大きい上位の特徴語を、予め定められた個数だけ選択してもよい。
興味情報提示手段900は、特徴語選択手段800が特定した特徴語をユーザに提示する。例えば、興味情報提示手段900は、特徴語をポータルサイトに表示してもよい。すなわち、ポータルサイトのトップ画面において、特徴語選択手段800が選択した特徴語を「おすすめ検索キーワード」として提示してもよい。また、本発明の興味情報特定システムは、図12に示すように、上記の各手段100〜900に加えて、特徴語を用いてコンテンツを検索する検索手段950を備えていてもよい。そして、検索手段950が、特徴語選択手段800に特定された特徴語を検索語としてコンテンツを検索し、興味情報提示手段900が、その検索結果もあわせて表示してもよい。
図13は、興味情報提示手段900が出力する画面の例を示す説明図である。図13(a)に示すように、ポータルサイトにおいて、特徴語選択手段800が選択した特徴語を「おすすめ検索キーワード」として表示し、検索手段950が検索した検索結果(図13(a)に示す例では「おすすめニュース」)も合わせて表示してもよい。図13(a)に例示するポータルサイトは、例えば、ログイン時などに、ログインした者に対して本人の定常的な興味を提示する場合に用いられる。また、本人の定常的な興味ではなく、他人や他のグループ(例えば、他部署)の定常的な興味を調べる用途に本発明を用いてもよい。例えば、ある者が、他人である「USER1」を抽出対象設定手段100に入力し、「USER1」の定常的な興味を調べるといった用途にも用いることができる。図13(b)は、この場合の、特徴語出力画面の例を示している。なお、図13に示す各画面に、他の情報も合わせて表示されていてもよい。
また、図12に示す検索手段950は、特徴語を検索語としてコンテンツを検索する場合、コンテンツ管理手段300に記憶されているコンテンツを検索対象としてもよく、あるいは、興味情報特定システム外部のコンテンツデータベースや、各種Webページを検索対象としてもよい。
なお、抽出対象設定手段100で、興味情報として特徴語を特定する対象としてグループ(例えば、部署)が設定された場合、興味情報特定システムは、そのグループに所属する各ユーザそれぞれについて各特徴語の評価値を計算し、特徴語毎に各ユーザの評価値を足し合わせてもよい。そして、その結果を、グループにおける特徴語の評価値としてもよい。あるいは、グループに所属するユーザ全員のアクセス履歴から、グループの特徴語履歴を一括して生成し、グループにおける特徴語の評価値を計算してもよい。
抽出対象設定手段100、アクセス履歴記憶手段200、コンテンツ管理手段300、特徴語履歴生成手段400、出現頻度計算手段500、出現間隔計算手段600、特徴語評価手段700、特徴語選択手段800、興味情報提示手段900、および検索手段950は、例えば、プログラム(興味情報特定用プログラム)に従って動作するCPUによって実現されていてもよい。そして、上記の各手段が同一のCPUによって実現されてもよい。プログラムは、例えば、興味情報特定システムが備える記憶装置に記憶され、CPUがプログラムを読み込み、そのプログラムに従って、抽出対象設定手段100、アクセス履歴記憶手段200、コンテンツ管理手段300、特徴語履歴生成手段400、出現頻度計算手段500、出現間隔計算手段600、特徴語評価手段700、特徴語選択手段800、興味情報提示手段900、および検索手段950として動作してもよい。なお、抽出態様設定手段100は、そのCPUと、キーボードなどの入力装置とにより実現されていてもよい。アクセス履歴記憶手段200およびコンテンツ管理手段300は、CPUと記憶装置とにより実現される。また、興味情報提示手段900は、CPUとディスプレイ装置とにより実現される。
ここでは、各手段が同一のコンピュータにより実現される場合を例示したが、本発明の興味情報特定システムの構成は、一台のコンピュータによって実現する場合に限定されない。以下に、その例を示す。
抽出対象設定手段100および興味情報提示手段900は、例えば、ディスプレイ装置と入力装置を備え、プログラムに従って動作するPDA(Personal Data Assistants)、パーソナルコンピュータ、携帯電話機などの情報処理装置によって実現されてもよい。
アクセス履歴記憶手段200は、アクセス履歴を記憶する記憶装置を備え、データベースプログラムに従って動作するパーソナルコンピュータやサーバ型のコンピュータによって実現されてもよい。コンテンツ管理手段300は、文書とメタ情報とを関連付けて記憶する記憶装置を備え、データベースプログラムに従って動作するパーソナルコンピュータやサーバ型のコンピュータによって実現されてもよい。
また、特徴語履歴生成手段400、出現頻度計算手段500、出現間隔計算手段600、特徴語評価手段700、特徴語選択手段800、検索手段950は、同じコンピュータによって実現されていてもよい。あるいは、異なるコンピュータによって実現され、TCP/IP(Transmission Control Protocol/Internet Protocol)などの通信プロトコルを使って通信を行って処理を進めてもよい。
次に、動作について説明する。図14は、第1の実施形態の興味情報特定システムの処理経過の例を示す流れ図である。
抽出対象設定手段100が、定常的な興味情報を特定する対象となるユーザまたはグループを設定する(ステップS1)。すると、特徴語履歴生成手段400は、アクセス履歴記憶手段200が記憶しているアクセス履歴とコンテンツ管理手段300が記憶しているメタ情報とを用いて、ステップS1で設定されたユーザまたはグループに関連する特徴語履歴を生成する(ステップS2)。出現頻度計算手段500は、その特徴語履歴を参照して、各特徴語の出現頻度を求め(ステップS3)、出現間隔計算手段600は、その特徴語履歴を参照して、各特徴語の出現時刻間隔を求める(ステップS4)。
続いて、特徴語評価手段700は、ステップS4で求めた出現時刻間隔を参照して、各出現時刻間隔で特徴語が出現する実際の確率を計算する(ステップS5)。すなわち、各出現時刻間隔毎に、式(1)の計算を行い、各出現時刻間隔についての確率P’(t)を計算する。
特徴語評価手段700は、ステップS3で求めた出現頻度とステップS4で求めた出現時刻間隔を参照し、モデルとなる確率分布(指数分布)においてそれぞれの出現時刻間隔で特徴語が出現する確率を計算する(ステップS6)。例えば、、出現頻度Kと、特徴語履歴の導出対象期間Tにより、K/Tを計算し、各出現時刻間隔毎に、式(2)の計算を行い、各出現時刻間隔についての確率P(t)を計算する。
続いて、特徴語評価手段700は、各出現時刻間隔について、ステップS5で求めた実際の出現確率と、ステップS6で求めた指数分布上での出現確率とのずれ量(差分の絶対値)を計算する(ステップS7)。さらに、特徴語評価手段700は、ステップS7で各出現時刻間隔毎に計算したずれ量の総和を計算し(ステップS8)、その総和を用いて特徴語の評価値を計算する(ステップS9)。ステップS9では、式(3)の計算を行って、評価値Vを計算すればよい。
特徴語評価手段700は、ステップS5〜S9の処理を各特徴語毎に行う。ステップS5〜S9のそれぞれのステップで、特徴語を順次、選択し、選択した特徴語毎に処理を行ってもよい。また、ステップS5の処理を実行する前に、特徴語を選択し、選択した特徴語についてステップS5〜S9の処理を行い、さらに次の特徴語を選択し、同様にステップS5〜S9の処理を行っていってもよい。
全ての特徴語について評価値を計算した後、特徴語選択手段800は、評価値に基づいて特徴語を特定することにより、ステップS1で設定されたユーザまたはグループの定常的な興味を示す興味情報を特定する(ステップS10)。ステップS10では、例えば、評価値が、予め定められた閾値以上である特徴語を選択すればよい。
興味情報提示手段900は、ステップS10で特定された特徴語を表示する(ステップS11)。この結果、興味情報特定システムの使用者は、設定したユーザまたはグループの定常的な興味を知ることができる。
上記の処理経過の具体例を以下に示す。以下の例では、マウスやキーボードなどの入力装置と、ボタンなどのユーザインタフェースや文字を表示するディスプレイ装置を備えたパーソナルコンピュータによって興味情報特定システムが実現されているもとのする。また、アクセス履歴記憶手段200およびコンテンツ管理手段300は、データベースプログラムにより動作しているものとする。また、アクセス履歴記憶手段200は、図2に示すアクセス履歴を記憶しているものとする。図2に示すアクセス履歴では、ユーザが文書を閲覧したりダウンロードした日付(利用時刻)と、文書IDと、ユーザ名と、所属部署名(グループ名)とが対応付けられている。また、図3に示すメタ情報を記憶している者とする。図3に示すメタ情報では、文書IDと、文書名と、特徴語とが対応付けられている。
抽出対象設定手段100は、ステップS1(図14参照)において、図6に例示する入力画面を表示し、ユーザ名または部署名の入力を促す。本例では、「USER1」が入力されたとする。抽出対象設定手段100は、入力された「USER1」を、興味情報特定対象として決定する。
ステップS2では、特徴語履歴生成手段400が、「USER1」に対応する日付および文書IDをアクセス履歴記憶手段200から取得し、その文書IDに対応する特徴語を文書管理手段300から取得し、その特徴語と日付とを対応付けることで、特徴語履歴を生成する。例えば、「USER1」に対応する日付および文書IDとして、「2007/09/01」および「ID001」がある(図2参照)。特徴語履歴生成手段400は、その文書ID「ID001」に対応する特徴語「セキュリティ」、「ユビキタス」、「ネットワーク」を文書管理手段300から取得して、その各特徴語に「2007/09/01」を対応付ける。特徴語履歴生成手段400は、アクセス履歴において「USER1」に対応付けられている全ての文書IDについて、この処理を行う。この結果、図4に示す特徴語履歴が生成される。
次のステップS3では、出現頻度計算手段500が、生成された特徴語履歴を用いて、各特徴語の出現頻度を求める。例えば、「セキュリティ」に関しては、「2007/09/01」、「2007/09/01」、「2007/09/02」に出現しているので、出現頻度を3回とする。他の特徴語についても出現頻度を求める。この結果、図7に示す出現頻度が得られる。
ステップS4では、出現間隔計算手段600が、生成された特徴語履歴を用いて、各特徴語の出現時刻間隔を求め、各出現時刻間隔が生じた回数をカウントする。例えば、「セキュリティ」に関しては、「2007/09/01」、「2007/09/01」、「2007/09/02」に出現しているので、出現時刻間隔0日が1回、出現時刻間隔1日が1回となる。他の特徴語に関しても同様の処理を行う。この結果、図8に示す結果が得られる。なお、文書が利用された日付が1つしかなければ、いずれの出現時刻間隔の発生回数も0回とする。
特徴語評価手段700は、ステップS5〜S9において、ステップS3で求めた出現頻度およびステップS4で求めた出現時刻間隔を用いて、図4に示す特徴語履歴中の特徴語の評価値を計算する。以下、特徴語「セキュリティ」の評価値を求める場合を例にして、評価値の計算過程の具体例を示す。図15は、この評価値の計算過程を示す説明図である。
ステップS5では、特徴語評価手段700は、図8に示す出現時刻間隔を用いて、出現時刻間隔tで特徴語が出現する実際の確率P’(t)を、各出現時刻間隔毎に計算する。また、出現時刻間隔tの発生回数が0回ということは、その出現時刻間隔tで文書が利用された回数0回であり、この場合、P’(t)=0とする。図8に示す「セキュリティ」に関しては、0日間隔(t=0)が1回、1日間隔(t=1)が1回となっているので、P’(0)およびP’(1)は、それぞれ0.5である。
ステップS6では、特徴語評価手段700は、特徴語履歴の対象期間Tと、出現頻度Kとを用いて、モデルとなる確率分布(指数分布)において出現時刻間隔tで特徴語が出現する確率P(t)を、各出現時刻間隔毎に計算する。本例では、特徴語履歴は、2007年9月1から2007年9月7日の期間のアクセス履歴から生成されているので、T=7となる。この期間Tは、例えば、アクセス履歴記憶手段200において、アクセス履歴の作成開始時および作成終了時を記録しておき、特徴語評価手段700がその開始時から終了時までの期間を計算して求めてもよい。あるいは、期間Tは外部から入力されてもよい。「セキュリティ」の出現頻度Kは3であり、T=7であるので、特徴語評価手段700は、K/T=0.4286を計算する。さらに、特徴語評価手段700は、この値を用いて、式(2)の計算を行いP(t)を求める。例えば、0日間隔(t=0)の場合、P(0)=0.4286×e−0.4286×0=0.4286となる。
ステップS7では、特徴語評価手段700は、それぞれの出現時刻間隔毎に、ずれ量|P(t)−P’(t)|を計算し、続くステップS8では、出現時刻間隔毎に計算した|P(t)−P’(t)|の総和を求める。本例では、図15に示すように、このずれ量の総和は0.670となる。
ステップS9では、特徴語評価手段700は、ステップS8で求めたずれ量の総和により、評価値Vを計算する。式(3)の計算を行い、評価値Vを求めると、V=e−0.670=0.512となる。ここでは、「セキュリティ」の評価値を求める場合を例示したが、他の特徴語についても同様に評価値を計算する。この結果、図11に示すように各特徴語の評価値が求まる。
ステップS10では、特徴語選択手段800は、評価値が閾値以上となっている特徴語を選択する。本例では、予め閾値が0.3に設定されているものとする。特徴語選択手段800は、評価値が0.3以上の「セキュリティ」および「ネットワーク」を選択する(図11参照)。
ステップS11では、興味情報提示手段900が、選択された特徴語「セキュリティ」および「ネットワーク」を、ユーザまたはグループの定常的な興味を示す語として表示する。例えば、「おすすめ検索キーワード」として表示してもよい。
なお、図12に示すように、興味情報特定システムが検索手段950を備え、検索手段950が、ステップS10で選択された特徴語を検索語として、検索語に合致する文書、Webページ、ニュース記事などを検索し、興味情報提示手段900が、特徴語とともに、それらの検索結果を表示してもよい。
あるいは、興味情報提示手段900がステップS11で特徴語を表示するときには、検索手段950は検索を行わず、特徴語の表示後に、表示した特徴語のうちいずれかが興味情報特定システムの使用者に指定されたときに、検索手段950が、指定された特徴語を検索語として各種コンテンツ(文書、Webページなど)を検索してもよい。この検索結果は、例えば、興味情報提示手段900が表示すればよい。この場合においても、コンテンツ管理手段300に記憶されているコンテンツを検索対象としてもよく、あるいは、興味情報特定システム外部のコンテンツデータベースや、各種Webページを検索対象としてもよい。
図16は、特徴語による検索を行う場合の画面例を示す説明図である。ステップS11において、興味情報提示手段900は、図16(a)に例示する画面1401を表示する。画面1401には、特定された特徴語1402および検索語の入力欄1403および検索ボタンを含む。表示した特徴語がクリックされたり、あるいは、入力欄1403に入力されて検索ボタンがクリックされるなどの操作によって、特徴語が指定されると、検索手段950は、指定された特徴語を検索語として文書などの検索を行い、興味情報提示手段900は、その検索結果を表示する。図16(b)に例示する画面1411は、検索結果表示画面の例を示す。画面1411では、例えば、ステップS10で特定された特徴語1412、検索結果1414とを含む。また、図16(b)では、入力欄1413に、指定された特徴語(本例では「セキュリティ」)を表示する場合を示している。
検索結果の表示画面1411では、最初に特徴語を表示する画面1401とは、異なる特徴語を表示してもよい。例えば、ステップS10で特定された特徴語のうち、最初の画面1401で表示していない特徴語を表示してもよい。あるいは、ステップS10で特徴語選択手段800が評価値の高い順に特徴語をソートし、興味情報提示手段900は、画面1401,1411のように画面を切り換えるときに、先の画面ほど上位の特徴語を表示するようにして、表示する特徴語を切り換えてもよい。
また、興味情報特定システムは、各ユーザ、各部署それぞれについて定常的な興味を表す特徴語を求め、列挙してもよい。
また、興味情報特定システムは、ユーザについての特徴語と、ユーザが所属するグループについての特徴語を特定して表示してもよい。さらに、一つの期間だけでなく、複数の期間について、それぞれステップS2〜S10の処理を行って、各期間毎に特徴語を提示してもよい。例えば、図17に例示する画面を表示してもよい。図17に例示する画面では、1ヶ月間の定常的な興味を示す特徴語1502と、1年間の定常的な興味を示す特徴語1503と、設定したユーザが所属するグループの定常的な興味を示す特徴語1504とを表示している。また、これらの特徴語のいずれか指定されると、検索手段950がその特徴語を検索語として検索を行い、図17に示すように、その検索結果1505を表示してもよい。
また、図17に示す例では、1ヶ月間および1年間の定常的な興味をそれぞれ示す場合を例示しているが、上半期・下半期、あるいは、1月・2月・3月といったように、期間毎に特徴語を特定して表示してもよい。
各期間毎の定常的な興味を示す特徴語を特定する場合、例えば、特徴語履歴生成手段400が期間を一つずつ選択し、選択した期間におけるアクセス履歴のみを抽出し、そのアクセス履歴を用いて、ステップS2以降の処理を行えばよい。また、ステップS7で用いる期間Tとして、選択した期間を用いればよい。そして、各期間を一つずつ選択し、期間毎の特徴語を特定すればよい。
また、特徴語選択手段800がステップS10で特徴語を特定するとき、評価値に基づいて特徴語を特定した後、検索手段950が、選択された各特徴語を検索語としてコンテンツの検索を行い、検索結果が0件であった特徴語は、選択した結果から除外してもよい。
また、検索手段950が検索対象とするコンテンツ集合と、コンテンツ管理手段300が記憶しているコンテンツ集合とが同一である場合、検索手段950が、使用者に指定された特徴語でコンテンツを検索した後、その検索結果を用いて、ステップS1から再度処理を行い、定常的な興味を示す特徴語を特定し、その特徴語を表示してもよい。
本実施形態では、蓄積されたアクセス履歴に基づいて、特徴語履歴を生成し、ある出現時刻間隔で特徴語が出現する確率P’(t)を、それぞれの出現時刻間隔毎に計算する。また、モデルとなる確率分布において、ある出現時刻間隔で特徴語が出現する確率P(t)を、それぞれの出現時刻間隔毎に計算する。そして、出現時刻間隔毎に、両者の差の絶対値|P(t)−P’(t)|を計算し、その総和に応じて特徴語の評価値を計算する。ここで、モデルとなる確率分布は、特徴語がランダムに出現した場合の確率分布であるので、評価値は、特徴語がどの程度ランダムに出現しているかの度合いとなる。本実施形態では、そのような評価値に基づいて特徴語を特定しているので、ある期間内で一時的に多く出現した特徴語よりも、ある期間内で満遍なくランダムに出現した特徴語を特定することができる。よって、本実施形態によれば、ある期間内でランダムに出現する特徴語を興味情報として特定することができる
また、第1の実施形態において、ずれ量の総和に基づいて評価値を計算する方法は、式(3)の計算に限定されない。例えば、各出現時刻間隔におけるずれ量|P(t)−P’(t)|の総和を評価値としてもよい。この場合、ランダムに出現する特徴語ほど、評価値は小さくなるので、特徴語選択手段800は、例えば、評価値が閾値以下となっている特徴語を選択すればよい。
また、上記の特徴語評価手段700の処理例では、出現時刻間隔毎のずれ量|P(t)−P’(t)|を計算し、それらの総和を求めているが、評価値の計算方法は、出現時刻間隔の分布とモデルとなる確率分布との乖離に応じて評価値を計算する方法であればよく、上記の計算方法に限定されるわけではない。
例えば、P(t)とP’(t)との比を用いて特徴語の評価値Vを計算してもよい。P(t)とP’(t)との比を用いた評価値Vの計算例について説明する。本例では、特徴語評価手段700は、ステップS7において、出現時刻間隔毎に、ずれ量としてP(t)/P’(t)を計算する。続くステップS8では、特徴語評価手段700は、出現時刻間隔毎に計算したP(t)/P’(t)をそれぞれ掛け合わせる。すなわち、特徴語評価手段700は、以下に示す式(4)の計算を行う。
式(4)の計算結果と1との差の絶対値は、出現時刻間隔の分布とモデルとなる確率分布とのずれの大きさを示し、式(4)の計算結果と1との差の絶対値が大きいほどずれが大きい。特徴語評価手段700は、式(4)の計算結果を用いて、以下に示す式(5)の計算を行い、特徴語の評価値Vを求めればよい。
式(5)の右辺の指数部分は、出現時刻間隔毎に計算したP(t)/P’(t)の積と、1との差の絶対値に−1を乗じた値である。P(t)とP’(t)との比を用いて評価値Vを計算する方法は、式(5)の計算方法に限定されない。例えば、出現時刻間隔毎に{log(P(t)/P’(t))}2を計算し、その値の積を用いて以下に示す式(6)の計算を行って、特徴語の評価値Vを求めてもよい。
式(6)の右辺の指数部分は、出現時刻間隔毎に計算した{log(P(t)/P’(t))}2の積に−1を乗じた値である。
また、式(5)および式(6)では、P(t)とP’(t)との比を用いる場合に、出現時刻間隔毎に求めた値の積を計算しているが、出現時刻間隔毎に求めた値を加算して評価値を求めてもよい。例えば、出現時刻間隔毎に|1−(P(t)/P’(t))|を計算し、その和を用いて以下に示す式(7)の計算を行って、特徴語の評価値Vを求めてもよい。
式(7)の右辺の指数部分は、出現時刻間隔毎に計算した|1−(P(t)/P’(t))|の和に−1を乗じた値である。
式(5)から式(7)に例示する計算で評価値Vを求める場合、出現時刻間隔の分布とモデルとなる確率分布との乖離が少ないほど、評価値Vの値は大きくなる。
式(3)における|P(t)−P’(t)|は、出現時刻間隔の分布とモデルとなる確率分布との乖離の程度を示す値の一例である。同様に、式(5)におけるP(t)/P’(t)、式(6)における{log(P(t)/P’(t))}2、および式(7)における|1−(P(t)/P’(t))|も、乖離の程度を示す値の例である。
実施形態2.
次に、本発明の第2の実施形態について説明する。第2の実施形態の興味情報特定システムも、第1の実施形態と同様に、抽出対象設定手段100と、アクセス履歴記憶手段200と、コンテンツ管理手段300と、特徴語履歴生成手段400と、出現頻度計算手段500と、出現間隔計算手段600と、特徴語評価手段700と、特徴語選択手段800と、興味情報提示手段900とを備える。また、検索手段950を備えていてもよい。以下、図1を参照して、第2の実施形態について説明する。
第2の実施形態では、特徴語評価手段700が評価値を計算する方法が、第1の実施形態と異なる。特徴語評価手段700以外の構成要素の動作は、第1の実施形態と同様であり、説明を省略する。
第2の実施形態では、特徴語評価手段700は、特徴語が定期的に出現する傾向が高いほど、値が大きくなるように特徴語の評価値を計算する。例えば、ある1日に集中して7回出現する特徴語と、7日間に渡って1日1回ずつ出現する特徴語とでは、後者の方が値が大きくなるように評価値を計算する。一時期に集中的に発生する特徴語よりも、定期的に出現することを繰り返す特徴語の方が、ユーザやグループの定常的興味を表していると言える。本実施形態では、そのような特徴語に高い評価値を付与するように計算する。具体的には、特徴語評価手段700は、出現期間が長く、出現時刻間隔の標準偏差および平均値が小さいほど、値が大きくなるように評価値を計算する。出現期間は、着目している特徴語が最初に出現した時から最後に出現した時までの期間である。すなわち、着目している特徴語により特徴が表されるコンテンツが最初に利用された時から最後に利用されたときまでの期間である。
特徴語評価手段700は、出現間隔計算手段600によって各特徴語の出現時刻間隔が求まると、各特徴語毎に、出現時刻間隔の標準偏差および平均値を計算する。なお、標準偏差は、標本分散を用いて計算してもよく、あるいは、不偏分散を用いて計算してもよい。この標準偏差をSTDEVと記し、平均値をAVEと記すことにする。また、各特徴語毎の最初の出現時刻をT0と記し、最後の出現時刻をTlastと記すことにする。また、第1の実施の形態と同様に、特徴語履歴の導出対象期間(特徴語履歴を生成する基となったアクセス履歴を採取していた期間)をTとする。特徴語評価手段700は、パラメータβを用いて、以下に示す式(8)の計算を行うことにより、特徴語の評価値Vを求める。
V={(Tlast−T0)/T}・e(−β・STDEV・AVE) 式(8)
パラメータβは、出現時刻間隔が短い特徴語を特に優先的に抽出しやすくするか否かを調整するためのパラメータである。βの値が大きいと、出現時刻間隔が短い場合に、出現時刻間隔が長い場合に比べて大きな評価値を付与することができ、出現時刻間隔が短い場合と長い場合とでの評価値の差を大きくすることができる。βの値は予め定められていてもよい。あるいは、例えば、抽出対象設定手段100を介して、興味情報特定システムの使用者によって入力されてもよい。βの値が入力されるタイミングは、式(8)の計算を行う前であればよく、例えば、ユーザ名やグループ名とともに入力されてもよい。
また、特徴語評価手段700は、出現頻度が定められた回数以下である特徴語に関しては、式(8)の計算を行わずに、評価値を所定値に定める。この所定値は、評価値が最も低いことを示す値であればよい。以下、この所定値が0であるものとして説明する。
また、出現頻度に関する上記の「定められた回数」は、例えば2回であるが、2回でなくてもよい。出現頻度が2回以下であるということは、出現時刻間隔が最大で1つしか求められない。出現時刻間隔が1つも求まらなければ、出現時刻間隔の標準偏差が求められない。また、出現頻度が2回であり、出現時刻間隔が1つ求められたとしても、不偏分散による標準偏差は求められず、また、標本分散による標準偏差は求めることができても標準偏差は0となるため、均一の間隔で特徴語が出現する場合と区別ができない。よって、出現頻度が例えば2回以下の場合、評価値を0とする。また、特徴語の出現頻度が2回より多い場合であっても、出現頻度が少なく、出現頻度から求められる出現時刻間隔の数が少ない場合には、標準偏差が0となることがある。よって、上記の「定められた回数」は2回より多くてもよい。上記の「定められた回数」は規定値であってもよく、あるいは、「定められた回数」を示す値が興味情報特定システムの使用者から入力されてもよい。以下の説明では、出現頻度が2回以下である特徴語の評価値を0とする場合を例にして説明する。
特徴語評価手段700は、特徴語履歴中の各特徴語を順次選択し、選択した特徴語の評価値を計算する。
第2の実施例における特徴語評価手段700の処理の具体例を示す。特徴語履歴生成手段400が、ある特徴語Aについて、9月1日から9月14日までの間の特徴語履歴として、図9(a)に例示する特徴語履歴が生成されたとする。この場合、出現頻度計算手段500は、図9(b)に示すように、特徴語Aの出現頻度「9」を求める。出現間隔計算手段600は、図9(c)に示す出現時刻間隔を求める。出現頻度は2回よりも多いので、特徴語評価手段700は、式(8)の計算を行って評価値を求める。ここではβ=0.1として説明する。
特徴語履歴は9月1日から9月14日までのアクセス履歴から生成されているので、 T=14である。また、図9(a)に示すように、特徴語Aの最後の出現時刻は9月1日であり、最後の出現時刻は9月12日であるので、Tlast−T0=11である。また、特徴語評価手段700は、図9(c)に示す各出現時刻間隔の標準偏差STDEVおよび平均値を計算する。本例では、AVE=1.375,STDEV=1.506である。よって、特徴語評価手段700は、(11/14)・e(−0.1×1.375×1.506)を計算することにより、特徴語Aの評価値Vを求める。本例では、V=0.639となる。
ここでは、図9に示す例を用いて説明したが、図4に示す特徴語履歴から図7および図8に示す出現頻度、出現時刻間隔を求め、各特徴語の評価値を求めると、図18に示すようになる。特徴語「ユビキタス」、「パソコン」、「サーバ」、「ストレージ」は、出現頻度が2回または1回であり、出現時刻間隔を求められないか、あるいは、1つしか求められないので、評価値を0.0と定める。
本例では、定期的に出現していて、定常的な興味を表していると言える特徴語に高い評価値を付与するので、特徴語選択手段800は、例えば、評価値が閾値以上となっている特徴語を選択すればよい。閾値が0.1であるとすると、特徴語選択手段800は、図18に示す各特徴語のうち、「セキュリティ」および「ネットワーク」を選択する。
次に、動作について説明する。図19は、第2の実施形態の興味情報特定システムの処理経過の例を示す流れ図である。図19に示すステップS1〜S4およびステップS10,S11は、第1の実施形態と同様の処理であり、説明を省略する。
ステップS4までの処理で各特徴語の出現頻度および出現時刻間隔が求められると、特徴語評価手段700は、各出現時刻間隔の平均値AVEおよび標準偏差STDEVを計算する(ステップS4a)。続いて、特徴語評価手段700は、ステップS4aで求めたAVEおよびSTDEVを用いて式(8)の計算を行い、特徴語の評価値Vを計算する(ステップS4b)。ステップS4bにおいて、特徴語評価手段700は、特徴語履歴を参照して、着目している特徴語の最初の出現時刻をT0とし、最後の出現時刻をTlastとすればよい。
特徴語評価手段700は、ステップS4a,S4bの処理を各特徴語毎に行う。ステップS4a,S4bのそれぞれのステップで、特徴語を順次選択し、選択した特徴語毎に処理を行ってもよい。また、ステップS4aの処理を実行する前に、特徴語を選択し、選択した特徴語についてステップS4a,S4bの処理を行い、さらに次の特徴語を選択し、同様にステップS4a,S4bの処理を行っていってもよい。
以降のステップS10,S11の処理は第1の実施の形態と同様である。また、第1の実施形態で説明した種々の変形例が第2の実施形態に適用されてもよい。
上記処理の具体例を以下に示す。なお、ステップS4までの処理は、第1の実施形態と同様であり、説明を省略する。ステップS2で図4に示す特徴語履歴を生成し、ステップS3で図7に示す出現頻度を計算し、ステップS4で図8に示す出現時刻間隔を求めたとする。また、以下の説明では、「セキュリティ」の評価値の計算過程を例示する。図20は、この計算過程を示す説明図である。
ステップS4aにおいて、特徴語評価手段700は、出現時刻間隔を用いて、各特徴語について、出現時刻間隔の平均値AVEおよび標準偏差STDEVを計算する。例えば、特徴語「セキュリティ」の場合、出現時刻間隔「0日」が1回あり、「1日」が1回ある。従って、平均値AVE=0.5となり、標準偏差STDEV=0.707となる。
次にステップS4bにおいて、特徴語評価手段700は、式(8)の計算を行い、特徴語の評価値Vを求める。特徴語「セキュリティ」の場合、Tlastは、「2007/09/02」であり、T0は「2007/09/01」である。よって、Tlast−T0=1である。また、特徴語履歴の導出対象期間T=7であるので、V=(1/7)・e(−0.1×0.5×0.707)=0.138となる。
同様に、他の特徴語についても評価値を求めると、図18に示すようになる。「ユビキタス」、「パソコン」、「サーバ」、「ストレージ」に関しては、出現頻度が2回または1回であり、出現時刻間隔を求められないか、あるいは、1つしか求められないので、評価値を0.0と定める。
各特徴語の評価値を計算した後、ステップS10,S11の処理を行う。この処理は第1の実施形態と同様である。
本実施形態では、式(8)により、各特徴語の評価値を計算するので、長い期間、出現間隔が概ね小さく、偏りがない特徴語に対してより高い評価値を付与する。そして、その評価値に基づいて特徴語を選択するので、短い期間に多く出現した特徴語よりも、長い期間で定期的に出現した特徴語を抽出することができ、ユーザやグループの定常的な興味を表す特徴語として利用できる。
また、パラメータβは、出現時刻間隔が短い特徴語を特に優先的に抽出しやすくするか否かを調整するためのパラメータであり、βの値を調整することにより、特徴語の出現時刻間隔が短い特徴語を優先的に抽出したり、あるいは、出現時刻間隔が短くなくても定期的に出現する特徴語に比較的高い評価値を付与して、そのような特徴語も抽出されやすくなるようにしたり調整することができる。よって、出現期間が長く、出現時刻間隔の標準偏差および平均値が小さいほど評価値が大きくなることを前提とした上で、βの値を大きくするほど、出現時刻間隔が短い特徴語と長い特徴語の評価値の差を大きくして、前者を抽出しやすくすることができる。
図21は、β=0.1の場合の評価値とβ=1.0の場合の評価値との比較を示す説明図である。図21に示す横軸は、出現時刻間隔であり、縦軸は評価値である。β=0.1の場合でも、β=1.0の場合でも出現時刻間隔が大きくなるほど、評価値は低下するが、β=1.0の場合の方が急激に低下する。すなわち、β=1.0では、出現時刻間隔が短い場合と長い場合とで評価値の差が大きくなる。例えば、β=1.0では、出現時刻間隔が5程度になると、評価値は0に近づき、出現時刻間隔が短い場合には、0に比べて大きな評価値が付与され、出現時刻間隔が短い場合と長い場合とで評価値の差が大きくなる。この結果、出現時刻間隔が短い評価値が抽出されやすくなる。
次に、本発明の概要について説明する。図22は、本発明の概要を示すブロック図である。本発明の興味情報特定システムは、出現頻度計算手段971と、出現間隔計算手段972と、特徴語評価手段973と、特徴語特定手段974とを備える。
出現頻度計算手段971(例えば、図1に示す出現頻度計算手段500)は、人物またはグループが利用したコンテンツの特徴を表す特徴語と、人物またはグループがその特徴語により特徴が表される各コンテンツを利用した利用時刻とを含む特徴語履歴を参照して、特徴語毎に、特徴語が表すコンテンツの利用頻度である特徴語出現頻度を求める。
出現間隔計算手段972(例えば、図1に示す出現間隔計算手段600)は、特徴語履歴を参照して、特徴語毎に、特徴語が表すコンテンツの利用時刻間隔である出現時刻間隔を求める。
特徴語評価手段973(例えば、図1に示す特徴語評価手段700)は、特徴語出現頻度および出現時刻間隔を参照し、特徴語毎に、出現時刻間隔の分布と、モデルとなる確率分布との乖離に応じて特徴語の評価値を求める。
特徴語特定手段974(例えば、図1に示す特徴語選択手段800)は、評価値に基づいて特徴語を特定する。
このような構成により、実際の確率分布と、モデルとなる確率分布との乖離に応じた特徴語の評価値を計算し、その評価値に基づいて特徴語を特定するので、ある期間においてランダムに出現する特徴語を特定することができる。従って、人物やグループの定常的な興味を特定することができる。
第1の実施形態では、特徴語評価手段が、特徴語をそれぞれ選択し、選択した特徴語におけるそれぞれの出現時刻間隔毎に、出現時刻間隔で特徴語が出現する確率と、モデルとなる確率分布にてその出現時刻間隔で特徴語が出現する確率との乖離の程度を示す値を計算し、出現時刻間隔毎に計算した乖離の程度を示す値に基づいて、選択した特徴語の評価値を求める構成が記載されている。
また、第1の実施形態では、特徴語評価手段が、特徴語をそれぞれ選択し、選択した特徴語におけるそれぞれの出現時刻間隔毎に、出現時刻間隔で特徴語が出現する確率と、モデルとなる確率分布にてその出現時刻間隔で特徴語が出現する確率との差分の絶対値を求め、出現時刻間隔毎に計算した差分の絶対値の総和に基づいて、選択した特徴語の評価値を求める構成が記載されている。
また、第1の実施形態では、特徴語評価手段が、出現時刻間隔をtとしたときに、出現時刻間隔tで特徴語が出現する確率を、出現時刻間隔tで特徴語が出現した回数をそれぞれの出現時刻間隔で特徴語が出現した回数の和で除算することにより計算し、特徴語履歴の導出対象期間をTとし、特徴語の出現頻度をKとしたときに、モデルとなる確率分布にて出現時刻間隔tで特徴語が出現する確率を、(K/T)e−(K/T)tを計算することによって求める構成が記載されている。
また、特徴語評価手段973は、特徴語毎に、出現時刻間隔の標準偏差および平均値を計算し、標準偏差をSTDEVとし、平均値をAVEとし、特徴語が表すコンテンツの最初の利用時刻および最後の利用時刻をそれぞれTlast,T0とし、特徴語履歴の導出対象期間をTとしたときに、パラメータβを用いて、{(Tlast−T0)/T}・e(−β・STDEV・AVE)を計算することにより、特徴語の評価値を求め、特徴語出現頻度が定められた回数以下である特徴語の評価値を所定値に定めてもよい。
この場合、出現期間が長く、出現時刻間隔の標準偏差および平均値が小さい特徴語に大きな評価値を付与し、その特徴語を特定することができる。よって、定期的に出現する特徴語を特定することにより、人物やグループの定常的な興味を特定できる。また、パラメータβの値を調整することにより、特徴語の出現時刻間隔が短い特徴語を優先的に抽出したり、あるいは、出現時刻間隔が短くなくても定期的に出現する特徴語に比較的高い評価値を付与して、そのような特徴語も抽出されやすくなるようにしたり調整することができる。
また、第2の実施形態では、パラメータβの値が入力されるパラメータ入力手段(例えば、抽出対象設定手段100により実現される。)を備える構成が開示されている。
また、各実施形態では、コンテンツの識別情報とコンテンツの利用時刻とコンテンツを利用した人物またはグループとを含む利用履歴を記憶する利用履歴記憶手段(例えば、アクセス履歴記憶手段200)と、コンテンツの識別情報とコンテンツの特徴を表す特徴語とを含むメタ情報を記憶するメタ情報記憶手段(例えば、コンテンツ管理手段300)と、利用履歴とメタ情報とを参照して、興味の特定対象となる人物またはグループが利用したコンテンツの特徴を表す特徴語を特定し、その特徴語に、コンテンツの利用時刻を対応付けることにより、特徴語履歴を生成する特徴語履歴生成手段(例えば、特徴語履歴生成手段400)とを備える構成が開示されている。
また、各実施形態では、興味情報の特定対象となる人物またはグループを設定する特定対象設定手段(例えば、抽出対象設定手段100)を備え、特徴語履歴生成手段が、利用履歴とメタ情報とを参照して、特定対象設定手段に設定された人物またはグループが利用したコンテンツの特徴を表す特徴語を特定し、その特徴語に、コンテンツの利用時刻を対応付けることにより、特徴語履歴を生成する構成が開示されている。
また、各実施形態では、特徴語特定手段が特定した特徴語を用いてコンテンツを検索する検索手段(例えば、図12に示す検索手段950)を備える構成が開示されている。
また、各実施形態では、特徴語特定手段が特定した特徴語を表示する表示手段(例えば、興味情報提示手段900)を備える構成が開示されている。
また、各実施形態では、表示手段が表示した特徴語のうち、指定された特徴語を用いてコンテンツを検索する検索手段(例えば、図12に示す検索手段950)を備える構成が開示されている。