JP5228584B2

JP5228584B2 - 興味情報特定システム、興味情報特定方法、および興味情報特定用プログラム

Info

Publication number: JP5228584B2
Application number: JP2008099613A
Authority: JP
Inventors: 陽司宮崎
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-04-07
Filing date: 2008-04-07
Publication date: 2013-07-03
Anticipated expiration: 2028-04-07
Also published as: JP2009251957A

Description

本発明は、興味情報特定システム、興味情報特定方法および興味情報特定用プログラムに関し、特に、人物やグループの定常的な興味を特定する興味情報特定システム、興味情報特定方法および興味情報特定用プログラムに関する。

文書、音楽、動画などのコンテンツを推薦するシステムにおいて、ユーザの過去のコンテンツの閲覧履歴、視聴履歴をもとにユーザの興味を捉え、ユーザに合ったコンテンツの推薦あるいは検索を支援するシステムがある。

このようなシステムでは、ユーザによる各コンテンツの閲覧回数と、ユーザが閲覧したコンテンツの特徴を表す特徴語とを用いてユーザの興味を表す情報を特定する。

例えば、特徴語が「提案書」、「ネットワーク」である文書１と、特徴語が「提案書」、「セキュリティ」である文書２とがある場合を考える。あるユーザＡが、文書１を２回、文書２を３回閲覧したとすると、「提案書」は５回出現し、「ネットワーク」は２回出現し、「セキュリティ」は３回出現したと考える。その出現回数が、ユーザＡの各特徴語に対する興味の強さを表しているとして、「提案書」、「ネットワーク」、「セキュリティ」に対する興味の強さを「５」、「２」、「３」と表現することができる。この興味の強さから、ユーザＡは、「ネットワーク」や「セキュリティ」に比べ、「提案書」に強い興味を持っていることが分かる。

さらに、利用者の興味遷移を考慮したコンテンツのレコメンドを可能とする情報レコメンド方法が提案されている（例えば、特許文献１参照）。特許文献１に記載の方法では、利用者の操作履歴と、コンテンツのメタデータ情報とに基づき、利用者の短期的な項目別志向情報を算出し、その情報を基に時間的興味遷移を考慮した利用者項目別志向情報を算出する。そして、その情報とコンテンツのメタデータ情報を基に、利用者の時間的興味遷移を考慮したコンテンツのレコメンドを実施する。

また、特許文献２には、短期と長期のユーザの嗜好情報を生成する情報処理装置が記載されている。特許文献２に記載された装置ではユーザの嗜好を示す嗜好情報データの更新が急速に進むか緩やかに進むかが、嗜好要素パラメータによって決定される。特許文献２に記載された装置は、操作嗜好値パラメータと嗜好要素パラメータとの積として嗜好加算値を算出し、嗜好値に加算する。この結果、嗜好要素パラメータを小さく定めれば、１回の視聴、操作では嗜好値があまり大きく増加せず、長期的な嗜好を表すことができる。また、嗜好要素パラメータを大きくすることで、１回の視聴、操作により嗜好値が大きく増加するので、短期的な嗜好を表すことができる。

また、特許文献３には、ユーザの操作により得られるキーワードを用いて、ユーザが潜在的に興味を抱いている情報をレコメンド情報として提供する潜在ニーズ推論装置が記載されている。特許文献３に記載の装置では、「発生頻度が高い」、「発生時刻の最大値と最小値の差が大きい」、「発生間隔の標準偏差が小さい」という性質を総合的に強く持つキーワードを特定する。

また、非特許文献１には、指数分布が、ある条件のもとで決められた事象が発生するまでの時間（待ち時間）の分布として知られていることが記載されている。

また、特許文献４には、入力文書画像の画像特徴量の分布と、登録画像の画像特徴量の分布とを比較することで、登録画像の入力画像に対する類似度スコアを計算する画像検索システムが記載されている。

特開２００５−２０８８９６号公報（段落００２８）特開２００５−８６４７２号公報（段落００６０，００６１，００７４−００８０）再公表特許ＷＯ０１／０３９１１８号（第６ページ、第１３ページ）特開２００７−１７２０７７号公報（段落００２１，００２３）松原望著、「入門確率過程」、第５刷、東京図書株式会社、２００７年５月１０日、ｐ．４６

単にコンテンツの閲覧回数に応じて、コンテンツの特徴を表す特徴語の出現回数をカウントするだけでは、人やグループの定常的な興味を特定することはできない。例えば、あるユーザが「Ｂ」という特徴語で表される事項に定常的に興味を有しているとする。そして、そのユーザがある特定の期間に、調査目的のためだけに特徴語「Ａ」を持つ文書を多数閲覧し、その後、特徴語「Ａ」を持つ文書の閲覧を停止したとする。この場合、調査目的のために一時的に特徴語「Ａ」に関連する文書を閲覧しただけにもかかわらず、特徴語「Ｂ」の出現回数が特徴語「Ａ」の出現回数を超えるまでの期間は、ユーザが特徴語「Ａ」に強い興味をもっていると判定されてしまう。

ここで、定常的な興味とは、短期間の間のみに生じる興味ではなく、ある程度長期的に人やグループが持っている興味である。

特許文献３に記載された発明では、「発生頻度が高い」、「発生時刻の最大値と最小値の差が大きい」、「発生間隔の標準偏差が小さい」という性質を総合的に強く持つキーワードを特定することで、ユーザの潜在的な興味を推定する。しかし、定常的な興味を示す特徴語の代表的な出現態様として、「ある期間内においてランダムに発生する」という出現態様があり、このような特徴語をより効果的に抽出できることが好ましい。

また、「発生時刻の最大値と最小値の差が大きい」、「発生間隔の標準偏差が小さい」などの性質を持つ特徴語を抽出する場合において、出現間隔の長さを考慮して特徴語を抽出できることがより好ましい。例えば、長期間にわたって毎日出現している特徴語に特化して抽出したり、毎日でなくても、長期間の間に数日おきに出現することが繰り返される特徴語であれば、定常的な興味を示す情報として抽出したりすることができることが好ましい。

そこで、本発明は、ある期間内でランダムに出現する特徴語を興味情報として特定することができる興味情報特定システム、興味情報特定方法、および興味情報特定用プログラムを提供することを目的とする。

また、本発明は、発生時刻の最大値と最小値の差が大きく、発生間隔の標準偏差が小さい特徴語を特定するときに、出現間隔の長さを考慮して特徴語を特定することができる興味情報特定システム、興味情報特定方法、および興味情報特定用プログラムを提供することを目的とする。

本発明の興味情報特定システムは、人物またはグループの興味を表す興味情報を特定する興味情報特定システムであって、人物またはグループが利用したコンテンツの特徴を表す特徴語と、人物またはグループがその特徴語により特徴が表される各コンテンツを利用した利用時刻とを含む特徴語履歴を参照して、特徴語毎に、特徴語が表すコンテンツの利用頻度である特徴語出現頻度を求める出現頻度計算手段と、特徴語履歴を参照して、特徴語毎に、特徴語が表すコンテンツの利用時刻間隔である出現時刻間隔を求める出現間隔計算手段と、特徴語出現頻度および出現時刻間隔を参照し、特徴語毎に、出現時刻間隔の分布と、モデルとなる確率分布との乖離に応じて特徴語の評価値を求める特徴語評価手段と、評価値に基づいて特徴語を特定する特徴語特定手段とを備えることを特徴とする。

また、本発明の興味情報特定システムは、人物またはグループの興味を表す興味情報を特定する興味情報特定システムであって、人物またはグループが利用したコンテンツの特徴を表す特徴語と、人物またはグループがその特徴語により特徴が表される各コンテンツを利用した利用時刻とを含む特徴語履歴を参照して、特徴語毎に、特徴語が表すコンテンツの利用頻度である特徴語出現頻度を求める出現頻度計算手段と、特徴語履歴を参照して、特徴語毎に、特徴語が表すコンテンツの利用時刻間隔である出現時刻間隔を求める出現間隔計算手段と、特徴語毎に、出現時刻間隔の標準偏差および平均値を計算し、標準偏差をＳＴＤＥＶとし、平均値をＡＶＥとし、特徴語が表すコンテンツの最初の利用時刻および最後の利用時刻をそれぞれＴ_ｌａｓｔ，Ｔ_０とし、特徴語履歴の導出対象期間をＴとしたときに、パラメータβを用いて、｛（Ｔ_ｌａｓｔ−Ｔ_０）／Ｔ｝・ｅ^{（−β・ＳＴＤＥＶ・ＡＶＥ）}を計算することにより、特徴語の評価値を求め、特徴語出現頻度が定められた回数以下である特徴語の評価値を所定値に定める特徴語評価手段と、評価値に基づいて特徴語を特定する特徴語特定手段とを備えることを特徴とする。

また、本発明の興味情報特定方法は、人物またはグループの興味を表す興味情報を特定する興味情報特定方法であって、興味情報特定システムが備える出現頻度計算手段が、人物またはグループが利用したコンテンツの特徴を表す特徴語と、人物またはグループがその特徴語により特徴が表される各コンテンツを利用した利用時刻とを含む特徴語履歴を参照して、特徴語毎に、特徴語が表すコンテンツの利用頻度である特徴語出現頻度を求める出現頻度計算ステップと、興味情報特定システムが備える出現間隔計算手段が、特徴語履歴を参照して、特徴語毎に、特徴語が表すコンテンツの利用時刻間隔である出現時刻間隔を求める出現間隔計算ステップと、興味情報特定システムが備える特徴語評価手段が、特徴語出現頻度および出現時刻間隔を参照し、特徴語毎に、出現時刻間隔の分布と、モデルとなる確率分布との乖離に応じて特徴語の評価値を求める特徴語評価ステップと、興味情報特定システムが備える特徴語特定手段が、評価値に基づいて特徴語を特定する特徴語特定ステップとを含むことを特徴とする。

また、本発明の興味情報特定方法は、人物またはグループの興味を表す興味情報を特定する興味情報特定方法であって、興味情報特定システムが備える出現頻度計算手段が、人物またはグループが利用したコンテンツの特徴を表す特徴語と、人物またはグループがその特徴語により特徴が表される各コンテンツを利用した利用時刻とを含む特徴語履歴を参照して、特徴語毎に、特徴語が表すコンテンツの利用頻度である特徴語出現頻度を求める出現頻度計算ステップと、興味情報特定システムが備える出現間隔計算手段が、特徴語履歴を参照して、特徴語毎に、特徴語が表すコンテンツの利用時刻間隔である出現時刻間隔を求める出現間隔計算ステップと、興味情報特定システムが備える特徴語評価手段が、特徴語毎に、出現時刻間隔の標準偏差および平均値を計算し、標準偏差をＳＴＤＥＶとし、平均値をＡＶＥとし、特徴語が表すコンテンツの最初の利用時刻および最後の利用時刻をそれぞれＴ_ｌａｓｔ，Ｔ_０とし、特徴語履歴の導出対象期間をＴとしたときに、パラメータβを用いて、｛（Ｔ_ｌａｓｔ−Ｔ_０）／Ｔ｝・ｅ^{（−β・ＳＴＤＥＶ・ＡＶＥ）}を計算することにより、特徴語の評価値を求め、特徴語出現頻度が定められた回数以下である特徴語の評価値を所定値に定める特徴語評価ステップと、興味情報特定システムが備える特徴語特定手段が、評価値に基づいて特徴語を特定する特徴語特定ステップとを含むことを特徴とする。

また、本発明の興味情報特定用プログラムは、人物またはグループの興味を表す興味情報を特定するコンピュータに搭載される興味情報特定用プログラムであって、コンピュータに、人物またはグループが利用したコンテンツの特徴を表す特徴語と、人物またはグループがその特徴語により特徴が表される各コンテンツを利用した利用時刻とを含む特徴語履歴を参照して、特徴語毎に、特徴語が表すコンテンツの利用頻度である特徴語出現頻度を求める出現頻度計算処理、特徴語履歴を参照して、特徴語毎に、特徴語が表すコンテンツの利用時刻間隔である出現時刻間隔を求める出現間隔計算処理、特徴語出現頻度および出現時刻間隔を参照し、特徴語毎に、出現時刻間隔の分布と、モデルとなる確率分布との乖離に応じて特徴語の評価値を求める特徴語評価処理、および、評価値に基づいて特徴語を特定する特徴語特定処理を実行させることを特徴とする。

また、本発明の興味情報特定用プログラムは、人物またはグループの興味を表す興味情報を特定するコンピュータに搭載される興味情報特定用プログラムであって、コンピュータに、人物またはグループが利用したコンテンツの特徴を表す特徴語と、人物またはグループがその特徴語により特徴が表される各コンテンツを利用した利用時刻とを含む特徴語履歴を参照して、特徴語毎に、特徴語が表すコンテンツの利用頻度である特徴語出現頻度を求める出現頻度計算処理、特徴語履歴を参照して、特徴語毎に、特徴語が表すコンテンツの利用時刻間隔である出現時刻間隔を求める出現間隔計算処理、特徴語毎に、出現時刻間隔の標準偏差および平均値を計算し、標準偏差をＳＴＤＥＶとし、平均値をＡＶＥとし、特徴語が表すコンテンツの最初の利用時刻および最後の利用時刻をそれぞれＴ_ｌａｓｔ，Ｔ_０とし、特徴語履歴の導出対象期間をＴとしたときに、パラメータβを用いて、｛（Ｔ_ｌａｓｔ−Ｔ_０）／Ｔ｝・ｅ^{（−β・ＳＴＤＥＶ・ＡＶＥ）}を計算することにより、特徴語の評価値を求め、特徴語出現頻度が定められた回数以下である特徴語の評価値を所定値に定める特徴語評価処理、および、評価値に基づいて特徴語を特定する特徴語特定処理を実行させることを特徴とする。

本発明によれば、ある期間内でランダムに出現する特徴語を興味情報として特定することができる。

また、本発明によれば、発生時刻の最大値と最小値の差が大きく、出現時刻間隔の標準偏差および平均値が小さいほど値が大きくなるように評価値を定めることができ、さらに、出現時刻間隔が短い特徴語を特に優先的に抽出しやすくするか否かを調整することができる。

以下、本発明の実施形態を図面を参照して説明する。

実施形態１．
図１は、本発明の第１の実施形態の興味情報特定システムの例を示すブロック図である。第１の実施形態の興味情報特定システムは、抽出対象設定手段１００と、アクセス履歴記憶手段２００と、コンテンツ管理手段３００と、特徴語履歴生成手段４００と、出現頻度計算手段５００と、出現間隔計算手段６００と、特徴語評価手段７００と、特徴語選択手段８００と、興味情報提示手段９００とを備える。

最初に、本発明の興味情報特定システムが予め記憶するアクセス履歴およびメタ情報と、それらの情報から生成される特徴語履歴について説明する。

興味情報特定システムは、予めアクセス履歴と各コンテンツのメタ情報とを記憶する。

アクセス履歴は、コンテンツの識別情報と、そのコンテンツの利用時刻と、そのコンテンツを利用した人物（以下、ユーザと記す。）またはグループの識別情報とを含む利用履歴である。アクセス履歴では、コンテンツの識別情報と、コンテンツの利用時刻と、そのコンテンツを利用したユーザまたはグループの識別情報とが対応付けられている。なお、コンテンツの利用の態様は特に限定されず、コンテンツの利用時刻は、ユーザまたはグループがコンテンツを閲覧した時刻、視聴した時刻、ダウンロードした時刻などのいずれであってもよい。また、コンテンツの利用時刻の単位も特に限定されない。例えば、利用時刻は秒単位として時分秒で表してもよく、あるいは、日単位として日付で表してもよい。あるいは、時単位や週単位などで表してもよい。また、コンテンツの識別情報および利用時刻に対して、ユーザおよびそのユーザが属するグループの両方の識別情報が対応付けられていてもよい。以下、ユーザ名をユーザの識別情報として用い、グループの名称（例えば所属部署名）をグループの識別情報として用いる場合を例にして説明する。

図２は、アクセス履歴の例を示す説明図である。図２に例示するアクセス履歴では、日付（利用時刻）と、文書ＩＤ（コンテンツの識別情報）と、ユーザ名と、そのユーザの所属部署名とが対応付けられている。例えば、図２に例示するアクセス履歴において、先頭行のデータは、「２００７年９月１日」に、部署「ＳＥＣＴＩＯＮ１」に所属するユーザ「ＵＳＥＲ１」が、文書ＩＤ「ＩＤ００１」の文書をダウンロードしたことを示している。

コンテンツのメタ情報は、コンテンツの付加的な情報であり、コンテンツ毎に用意される。メタ情報は、コンテンツの識別情報と、そのコンテンツの特徴を表す特徴語とを含み、コンテンツの識別情報と特徴語とが対応付けられている。また、メタ情報は、コンテンツの識別情報および特徴語とともに、他の情報（例えば、コンテンツ名、コンテンツの作成者、作成日時など）を含んでいてもよい。図３は、メタ情報の例を示す説明図である。図３に例示するメタ情報では、文書ＩＤ（コンテンツの識別情報）と、文書名（コンテンツ名）と、特徴語とが対応付けられている。例えば、図３に例示する文書ＩＤ「ＩＤ００１」のメタ情報は、文書ＩＤ「ＩＤ００１」の文書名が「○○提案資料」であり、その文書には「セキュリティ、ユビキタス、ネットワーク」が特徴語として定められていることを示している。

特徴語履歴は、あるユーザ（グループでもよい。）が利用したコンテンツの特徴を表す特徴語と、そのユーザ（またはそのグループ）が特徴語によって特徴が表される各コンテンツを利用した利用時刻とを含む情報である。特徴語履歴では、特徴語と利用時刻とが対応付けられている。図４は、特徴語履歴の例を示す説明図である。図４に示す例では、例えば、「セキュリティ」を特徴語とするコンテンツが、あるユーザ（またはグループ）によって、「２００７／０９／０１」、「２００７／０９／０１」、「２００７／０９／０２」に利用されたことなどを示している。特徴語履歴は、アクセス履歴およびメタ情報から生成される。

本発明の興味情報特定システムは、アクセス履歴およびメタ情報から特徴語履歴を生成し、特徴語毎に、ユーザまたはグループの定常的な興味の度合いを表す評価値を計算する。図５は、各特徴語の評価値の例を示す説明図である。図５に示す例では、特徴語「セキュリティ」に対する評価値は「０．１」であり、特徴語「ユビキタス」に対する評価値は「１．０」である。評価値が大きいほうがユーザの興味が強いとすると、あるユーザ（またはあるグループ）は「ネットワーク」に最も興味を示していることを表す。

また、コンテンツの例として、文書（電子文書）が挙げられるが、コンテンツは、文書に限定されない。例えば、コンテンツは、ホームページや電子掲示板などのＷＥＢページ、店舗情報や観光情報などの位置関連情報、テレビジョン放送やラジオ放送の番組情報、映像コンテンツや音楽コンテンツ、書籍情報などであってもよい。以下、コンテンツが文書（電子文書）である場合を例に説明する。

次に、本実施形態の各構成要素について説明する。
抽出対象設定手段１００は、定常的な興味を表す興味情報として特徴語を特定する対象となるユーザまたはグループを設定する。例えば、抽出対象設定手段１００は、ユーザまたはグループを示すユーザ名またはグループ名の入力を促す画面を出力し、その画面にユーザ名またはグループ名が入力されると、そのユーザ名またはグループ名によって特定されるユーザまたはグループを定常的興味の特定対象として決定してもよい。図６は、ユーザ名またはグループ名の入力画面の例である。図６に例示する画面は、ユーザ名入力とグループ名入力のいずれかを指定するラジオボタン４０１と、ユーザ名またはグループ名が入力される入力欄４０２とを含んでいる。抽出対象設定手段１００は、図６に例示する入力画面を表示し、ユーザ名入力とグループ名入力のいずれかが指定され、その名称が入力欄４０２に入力されると、その入力された名称をユーザ名またはグループ名として決定する。

あるいは、抽出対象設定手段１００は、クッキー（Ｃｏｏｋｉｅ）などを用いて、以前入力されたユーザ名やグループ名により特定されるユーザまたはグループを定常的興味の特定対象として決定したり、他のシステムからユーザ名やグループ名を自動的に引き継ぎ、そのユーザ名やグループ名により特定されるユーザまたはグループを定常的興味の特定対象として決定してもよい。

アクセス履歴記憶手段２００は、アクセス履歴を記憶する。例えば、アクセス履歴記憶手段２００は、コンテンツ管理手段３００に記憶される文書（コンテンツ）がアクセスされたとき（すなわち利用されたとき）、その文書の識別情報と、利用時刻と、その文書を利用したユーザのユーザ名とを対応付けて、アクセス履歴として追加していけばよい。既に説明したように、そのユーザが属するグループ名もアクセス履歴に含めてもよい。なお、アクセス履歴記憶手段２００がアクセス履歴を取得する態様は特に限定されない。例えば、外部で作成されたアクセス履歴がアクセス履歴記憶手段２００に入力され、アクセス履歴記憶手段２００がそのアクセス履歴を記憶してもよい。

また、アクセス履歴記憶手段２００は、ユーザ名またはグループ名が指定されると、指定されたユーザ名またはグループ名に対応する文書の識別情報（以下、文書ＩＤと記す。）および利用時刻を、アクセス履歴から検索する。

コンテンツ管理手段３００は、文書（コンテンツ）と、その文書のメタ情報と関連付けて記憶する。メタ情報には、文書ＩＤと、その文書の特徴を表す特徴語とが含まれている。メタ情報には、文書名などの他の情報が含まれていてもよい。また、文書名を文書ＩＤとしてもよい。また、コンテンツ管理手段３００は、文書ＩＤや文書名などをもとに文書を検索してもよい。

特徴語履歴生成手段４００は、アクセス履歴記憶手段２００に記憶されるアクセス履歴と、コンテンツ管理手段３００に記憶される文書のメタ情報とを参照して、特徴語履歴を生成する。特徴語履歴生成手段４００は、抽出対象設定手段１００に設定されたユーザまたはグループが利用したコンテンツの特徴を表す特徴語を特定し、その特徴語に、そのコンテンツの利用時刻を対応付ける処理を行うことにより、特徴語履歴を生成する。

例えば、アクセス履歴記憶手段２００が図２に例示するアクセス履歴を記憶し、コンテンツ管理手段３００が図３に例示するメタ情報を記憶しているとする。なお、図２に例示するアクセス履歴は、２００７年９月１日から２００７年９月７日の期間におけるアクセス履歴であるものとする。また、抽出対象設定手段１００が「ＵＳＥＲ１」を設定したとする。この場合の特徴語履歴の生成処理の例を説明する。

まず、特徴語履歴生成手段４００は、抽出対象設定手段１００に設定されたユーザ名またはグループ名に対応する文書ＩＤおよび利用時刻を取得する。例えば、アクセス履歴記憶手段２００に検索させる。本例では、特徴語履歴生成手段４００は、「ＵＳＥＲ１」に対応する文書ＩＤとして「ＩＤ００１」、「ＩＤ００２」、「ＩＤ００３」、「ＩＤ００５」を取得する（図２参照）。また、「ＩＤ００１」の文書の利用時刻として、「２００７／０９／０１」を取得する。他の文書の利用時刻も同様に取得する。

さらに、特徴語履歴生成手段４００は、その文書ＩＤ毎に、文書ＩＤに対応付けられている特徴語をメタ情報から抽出する。そして、特徴語履歴生成手段４００は、その特徴語と、同一の文書ＩＤに対応付けられている利用時刻とを対応付ける。例えば、特徴語履歴生成手段４００は、上記の文書ＩＤ「ＩＤ００１」に関して、コンテンツ管理手段３００に記憶されているメタ情報から、「ＩＤ００１」に対応する特徴語「セキュリティ、ユビキタス、ネットワーク」を抽出し、その各特徴語と、「ＩＤ００１」に対応付けられていた利用時刻「２００７／０９／０１」とを対応付ける。すなわち、「セキュリティ」、「ユビキタス」、「ネットワーク」それぞれに対し、「２００７／０９／０１」を対応付ける。他の文書ＩＤ「ＩＤ００２」、「ＩＤ００３」、「ＩＤ００５」に関しても、同様の処理を行う。図４は、上記のような処理の結果、得られた特徴語履歴を表している。また、アクセス履歴は、２００７年９月１日から２００７年９月７日の期間における履歴であるので、特徴語履歴の導出対象期間は、２００７年９月１日から２００７年９月７日の期間である。

出現頻度計算手段５００は、特徴語履歴生成手段４００が生成した特徴語履歴を参照して、各特徴語の特徴語出現頻度を求める。特徴語出現頻度は、特徴語により特徴が表される各コンテンツの利用頻度（利用回数）である。出現頻度計算手段５００は、特徴語履歴を参照して、各特徴語毎に、特徴語に対応付けられた利用時刻の数をカウントし、そのカウント結果を特徴語出現頻度とすればよい。以下、特徴語出現頻度を単に出現頻度と記す。例えば、図４に例示する特徴語履歴が生成されたとする。この場合、「セキュリティ」の出現頻度は３回であり、「ユビキタス」の出現頻度は２回である。図７は、図４に例示する特徴語履歴に基づいて導出された出現頻度を示す。

出現間隔計算手段６００は、特徴語履歴生成手段４００が生成した特徴語履歴を参照して、各特徴語の出現時刻間隔を求める。出現時刻間隔は、特徴語により特徴が表される各コンテンツの利用時刻の間隔である。出現間隔計算手段６００は、特徴語履歴を参照して、各特徴語毎に、特徴語に対応付けられた利用時刻同士の差を計算すればよい。また、出現間隔計算手段６００は、各出現時刻間隔が生じた回数をカウントする。例えば、図４に例示する特徴語履歴が生成されたとする。「セキュリティ」は、「２００７／０９／０１」に２回、「２００７／０９／０２」に１回出現していることになる（図４参照）。この場合、出現間隔計算手段６００は、「２００７／０９／０１」同士の差として、「０日間隔」という出現時刻間隔を計算し、「０日間隔」が生じた回数「１回」をカウントする。また、「２００７／０９／０１」と「２００７／０９／０２」との差として、「１日間隔」という出現時刻間隔を計算し、「１日間隔」が生じた回数「１回」をカウントする。ここでは「セキュリティ」の出現時刻間隔を例示したが、他の特徴語についても同様に出現時刻間隔を求める。また、出現間隔計算手段６００は、特徴語に対して、利用時刻が１つだけしか対応付けられていない場合には、すべての出現時刻間隔について、カウント数を０回とする。例えば、図４に例示する「サーバ」の場合、「０日間隔」、「１日間隔」などのいずれの出現時刻間隔についても「０回」とする。図８は、図４に例示する特徴語履歴に基づいて導出された出現時刻間隔を示す。

特徴語評価手段７００は、特徴語履歴生成手段４００が生成した特徴語履歴と出現間隔計算手段６００が求めた特徴語の出現時刻間隔とを参照して、特徴語毎に評価値を計算する。この評価値は、設定されたユーザまたはグループの定常的な興味の度合いを表す値である。特徴語評価手段７００は、出現時刻間隔の分布と、モデルとなる確率分布との差を計算し、その差に応じて特徴語の評価値を計算する。ここで、モデルとなる確率分布は、特徴語が一様に出現する（すなわち、特徴語により特徴が表される文書がランダムに利用される）と仮定したときの、出現時刻間隔の確率分布である。特徴語評価手段７００は、各特徴語を順に選択し、選択した特徴語について評価値を計算する。

ランダムに事象が発生する場合、ある事象が起こった後、次の事象が起こるまでの時間は、指数分布に従うことが知られている。従って、特徴語が一様に出現すると仮定した場合の出現時刻間隔も指数分布に従う。そこで、本実施形態では、モデルとなる確率分布として、指数分布を用いる。

ある出現時刻間隔で特徴語が出現する確率（すなわち、特徴語により特徴が表される文書がある出現時刻間隔で利用される確率）は、実際にその出現時刻間隔で特徴語が出現した回数を、各出現時刻間隔で特徴語が出現した回数の和で除算した値である。すなわち、出現時刻間隔をｔとすると、出現時刻間隔ｔで特徴語が出現する確率（Ｐ’（ｔ）と記す。）は、以下に示す式（１）によって表される。

式（１）に示すｆ（ｔ）は、出現時刻間隔ｔで特徴語が出現した回数であり、式（１）の右辺の分母は、各出現時刻間隔で特徴語が出現した回数の和である。

また、モデルとなる確率分布（指数分布）において、出現時刻間隔ｔで特徴語が出現する確率をＰ（ｔ）とすると、Ｐ（ｔ）は、以下に示す式（２）によって表される。

Ｐ（ｔ）＝（Ｋ／Ｔ）ｅ^{−（Ｋ／Ｔ）ｔ} 式（２）

ここで、Ｋは、選択している特徴語の出現頻度である。また、Ｔは、特徴語履歴の導出対象期間（換言すれば、特徴語履歴を生成する基となったアクセス履歴を採取していた期間）である。

特徴語評価手段７００は、選択している特徴語の各出現時刻間隔毎に、式（１）によりＰ’（ｔ）を計算し、式（２）によりＰ（ｔ）を計算し、その差分の絶対値｜Ｐ（ｔ）−Ｐ’（ｔ）｜を計算する。そして、特徴語評価手段７００は、各出現時刻間隔毎に計算した差分の絶対値｜Ｐ（ｔ）−Ｐ’（ｔ）｜の総和を求め、その総和に応じた評価値を計算する。本実施形態では、特徴語評価手段７００は、以下に示す式（３）の計算を行うことにより、選択している特徴語の評価値を計算する。

式（３）の左辺のＶは、選択している特徴語の評価値である。また、式（３）の右辺の指数部分は、各出現時刻間隔毎に計算した差分の絶対値｜Ｐ（ｔ）−Ｐ’（ｔ）｜の総和に−１を乗じた値である。このように評価値を計算した場合、｜Ｐ（ｔ）−Ｐ’（ｔ）｜の総和が小さいほど、評価値Ｖは大きくなる。すなわち、出現時刻間隔の分布と、モデルとなる確率分布との差が小さいほど、評価値Ｖは大きくなる。

また、出現頻度が１回であり、出現時刻間隔が求まらない特徴語については、評価値を０と定める。すなわち、いずれのｔについても生じた回数が０回となる場合には、Ｖ＝０と定める。

特徴語評価手段７００の処理の具体例を示す。特徴語履歴生成手段４００が、ある特徴語Ａについて、９月１日から９月１４日までの間の特徴語履歴として、図９（ａ）に例示する特徴語履歴が生成されたとする。この場合、出現頻度計算手段５００は、図９（ｂ）に示すように、特徴語Ａの出現頻度「９」を求める。また、出現間隔計算手段６００は、出現時刻間隔を計算し、その出現時刻間隔が生じた回数をカウントする。例えば、図９（ａ）に示す特徴語履歴では、出現時刻間隔０日は３回生じ、出現時刻間隔１日は２回生じている。本例では、図９（ｃ）に示す出現時刻間隔が得られる。

特徴語評価手段７００は、各出現時刻間隔の実際の確率と、モデルとなる確率分布での確率との差の絶対値を求め、その総和を用いて評価値を計算する。図１０は、この計算過程を示す説明図である。本例では、特徴語Ａの出現頻度Ｋ＝９である。また、特徴語履歴は９月１日から９月１４日までの期間について求めているので、式（２）における期間Ｔ＝１４である。従って、Ｋ／Ｔ＝０．６４２８５７である。

出現時刻間隔０日を例にして、その出現時刻間隔で実際に特徴語が出現する確率を求める。すなわち、ｔ＝０として、式（１）によりＰ’（０）を求める。図９（ｃ）に示すように、出現時刻間隔０日の生じた回数ｆ（０）＝３である。また、各出現時刻間隔で特徴語が出現した回数の和は、３＋２＋１＋１＋１＝８である（図９（ｃ）参照）。よって、Ｐ’（０）＝３／８＝０．３７５である。

また、モデルとなる確率分布（指数分布）において、出現時刻間隔０日が生じる確率Ｐ（０）は、上記のＫ／Ｔを用いて、０．６４２８５７×ｅ^{−０．６４２８５７×０}＝０．６４２８５７となる。よって、出現時刻間隔０日における実際の確率Ｐ’（０）と、モデルとなる確率分布での確率Ｐ（０）との差の絶対値は、｜０．６４２８５７−０．３７５｜＝０．２６８となる。同様に、他の出現時刻間隔ｔについても｜Ｐ（ｔ）−Ｐ’（ｔ）｜を計算すると、図１０に示すようになる。この総和を計算すると、０．５７０となる。なお、図１０には、この差の絶対値を求める過程で計算されたＰ’（ｔ）およびＰ（ｔ）も示している。

特徴語評価手段７００は、この総和を用いて、式（３）の計算を行い特徴語Ａの評価値Ｖを計算する。本例では、Ｖ＝ｅ^{−０．５７０}＝０．５６５となる。ここでは、特徴語Ａを例にして説明したが、他の特徴語についても同様に評価値を計算する。

ここでは、図９に示す例を用いて説明したが、図４に示す特徴語履歴から図７および図８に示す出現頻度、出現時刻間隔を求め、各特徴語の評価値を求めると、図１１に示すようになる。「サーバ」、「ストレージ」は出現頻度が１回であり、出現時刻間隔が求まらないため、評価値を０とする。

本実施形態では、モデルとなる確率分布として指数分布を用いているが、モデルとなる確率分布は、指数分布に限定されず、特徴語がランダムに出現する場合の出現時刻間隔の分布を表すものであれば、指数分布以外の確率分布をモデルとしてもよい。

特徴語選択手段８００は、特徴語評価手段７００が求めた各特徴語の評価値に基づいて特徴語を特定する。本実施形態では、評価値が閾値以上となっている特徴語を選択する。このように特定される特徴語は、指定されたユーザまたはグループの定常的な興味を示す興味情報であり、特徴語選択手段８００は、上記のように求められた評価値に基づいて特徴語を特定することにより、定常的な興味を示す興味情報を特定する。例えば、閾値が０．３であり、図１１に示すように各特徴語の評価値が求められているとすると、特徴語選択手段８００は、定常的な興味を表す特徴語として、「セキュリティ」および「ネットワーク」を選択する。

なお、ここでは、閾値を用いて特徴語を特定する場合を説明したが、特徴語選択手段８００は他の方法で特徴語を特定してもよい。例えば、特徴語選択手段８００は、評価値が降順になるように特徴語をソートし、評価値の大きい上位の特徴語を、予め定められた個数だけ選択してもよい。

興味情報提示手段９００は、特徴語選択手段８００が特定した特徴語をユーザに提示する。例えば、興味情報提示手段９００は、特徴語をポータルサイトに表示してもよい。すなわち、ポータルサイトのトップ画面において、特徴語選択手段８００が選択した特徴語を「おすすめ検索キーワード」として提示してもよい。また、本発明の興味情報特定システムは、図１２に示すように、上記の各手段１００〜９００に加えて、特徴語を用いてコンテンツを検索する検索手段９５０を備えていてもよい。そして、検索手段９５０が、特徴語選択手段８００に特定された特徴語を検索語としてコンテンツを検索し、興味情報提示手段９００が、その検索結果もあわせて表示してもよい。

図１３は、興味情報提示手段９００が出力する画面の例を示す説明図である。図１３（ａ）に示すように、ポータルサイトにおいて、特徴語選択手段８００が選択した特徴語を「おすすめ検索キーワード」として表示し、検索手段９５０が検索した検索結果（図１３（ａ）に示す例では「おすすめニュース」）も合わせて表示してもよい。図１３（ａ）に例示するポータルサイトは、例えば、ログイン時などに、ログインした者に対して本人の定常的な興味を提示する場合に用いられる。また、本人の定常的な興味ではなく、他人や他のグループ（例えば、他部署）の定常的な興味を調べる用途に本発明を用いてもよい。例えば、ある者が、他人である「ＵＳＥＲ１」を抽出対象設定手段１００に入力し、「ＵＳＥＲ１」の定常的な興味を調べるといった用途にも用いることができる。図１３（ｂ）は、この場合の、特徴語出力画面の例を示している。なお、図１３に示す各画面に、他の情報も合わせて表示されていてもよい。

また、図１２に示す検索手段９５０は、特徴語を検索語としてコンテンツを検索する場合、コンテンツ管理手段３００に記憶されているコンテンツを検索対象としてもよく、あるいは、興味情報特定システム外部のコンテンツデータベースや、各種Ｗｅｂページを検索対象としてもよい。

なお、抽出対象設定手段１００で、興味情報として特徴語を特定する対象としてグループ（例えば、部署）が設定された場合、興味情報特定システムは、そのグループに所属する各ユーザそれぞれについて各特徴語の評価値を計算し、特徴語毎に各ユーザの評価値を足し合わせてもよい。そして、その結果を、グループにおける特徴語の評価値としてもよい。あるいは、グループに所属するユーザ全員のアクセス履歴から、グループの特徴語履歴を一括して生成し、グループにおける特徴語の評価値を計算してもよい。

抽出対象設定手段１００、アクセス履歴記憶手段２００、コンテンツ管理手段３００、特徴語履歴生成手段４００、出現頻度計算手段５００、出現間隔計算手段６００、特徴語評価手段７００、特徴語選択手段８００、興味情報提示手段９００、および検索手段９５０は、例えば、プログラム（興味情報特定用プログラム）に従って動作するＣＰＵによって実現されていてもよい。そして、上記の各手段が同一のＣＰＵによって実現されてもよい。プログラムは、例えば、興味情報特定システムが備える記憶装置に記憶され、ＣＰＵがプログラムを読み込み、そのプログラムに従って、抽出対象設定手段１００、アクセス履歴記憶手段２００、コンテンツ管理手段３００、特徴語履歴生成手段４００、出現頻度計算手段５００、出現間隔計算手段６００、特徴語評価手段７００、特徴語選択手段８００、興味情報提示手段９００、および検索手段９５０として動作してもよい。なお、抽出態様設定手段１００は、そのＣＰＵと、キーボードなどの入力装置とにより実現されていてもよい。アクセス履歴記憶手段２００およびコンテンツ管理手段３００は、ＣＰＵと記憶装置とにより実現される。また、興味情報提示手段９００は、ＣＰＵとディスプレイ装置とにより実現される。

ここでは、各手段が同一のコンピュータにより実現される場合を例示したが、本発明の興味情報特定システムの構成は、一台のコンピュータによって実現する場合に限定されない。以下に、その例を示す。

抽出対象設定手段１００および興味情報提示手段９００は、例えば、ディスプレイ装置と入力装置を備え、プログラムに従って動作するＰＤＡ（ＰｅｒｓｏｎａｌＤａｔａＡｓｓｉｓｔａｎｔｓ）、パーソナルコンピュータ、携帯電話機などの情報処理装置によって実現されてもよい。

アクセス履歴記憶手段２００は、アクセス履歴を記憶する記憶装置を備え、データベースプログラムに従って動作するパーソナルコンピュータやサーバ型のコンピュータによって実現されてもよい。コンテンツ管理手段３００は、文書とメタ情報とを関連付けて記憶する記憶装置を備え、データベースプログラムに従って動作するパーソナルコンピュータやサーバ型のコンピュータによって実現されてもよい。

また、特徴語履歴生成手段４００、出現頻度計算手段５００、出現間隔計算手段６００、特徴語評価手段７００、特徴語選択手段８００、検索手段９５０は、同じコンピュータによって実現されていてもよい。あるいは、異なるコンピュータによって実現され、ＴＣＰ／ＩＰ（ＴｒａｎｓｍｉｓｓｉｏｎＣｏｎｔｒｏｌＰｒｏｔｏｃｏｌ／ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）などの通信プロトコルを使って通信を行って処理を進めてもよい。

次に、動作について説明する。図１４は、第１の実施形態の興味情報特定システムの処理経過の例を示す流れ図である。

抽出対象設定手段１００が、定常的な興味情報を特定する対象となるユーザまたはグループを設定する（ステップＳ１）。すると、特徴語履歴生成手段４００は、アクセス履歴記憶手段２００が記憶しているアクセス履歴とコンテンツ管理手段３００が記憶しているメタ情報とを用いて、ステップＳ１で設定されたユーザまたはグループに関連する特徴語履歴を生成する（ステップＳ２）。出現頻度計算手段５００は、その特徴語履歴を参照して、各特徴語の出現頻度を求め（ステップＳ３）、出現間隔計算手段６００は、その特徴語履歴を参照して、各特徴語の出現時刻間隔を求める（ステップＳ４）。

続いて、特徴語評価手段７００は、ステップＳ４で求めた出現時刻間隔を参照して、各出現時刻間隔で特徴語が出現する実際の確率を計算する（ステップＳ５）。すなわち、各出現時刻間隔毎に、式（１）の計算を行い、各出現時刻間隔についての確率Ｐ’（ｔ）を計算する。

特徴語評価手段７００は、ステップＳ３で求めた出現頻度とステップＳ４で求めた出現時刻間隔を参照し、モデルとなる確率分布（指数分布）においてそれぞれの出現時刻間隔で特徴語が出現する確率を計算する（ステップＳ６）。例えば、、出現頻度Ｋと、特徴語履歴の導出対象期間Ｔにより、Ｋ／Ｔを計算し、各出現時刻間隔毎に、式（２）の計算を行い、各出現時刻間隔についての確率Ｐ（ｔ）を計算する。

続いて、特徴語評価手段７００は、各出現時刻間隔について、ステップＳ５で求めた実際の出現確率と、ステップＳ６で求めた指数分布上での出現確率とのずれ量（差分の絶対値）を計算する（ステップＳ７）。さらに、特徴語評価手段７００は、ステップＳ７で各出現時刻間隔毎に計算したずれ量の総和を計算し（ステップＳ８）、その総和を用いて特徴語の評価値を計算する（ステップＳ９）。ステップＳ９では、式（３）の計算を行って、評価値Ｖを計算すればよい。

特徴語評価手段７００は、ステップＳ５〜Ｓ９の処理を各特徴語毎に行う。ステップＳ５〜Ｓ９のそれぞれのステップで、特徴語を順次、選択し、選択した特徴語毎に処理を行ってもよい。また、ステップＳ５の処理を実行する前に、特徴語を選択し、選択した特徴語についてステップＳ５〜Ｓ９の処理を行い、さらに次の特徴語を選択し、同様にステップＳ５〜Ｓ９の処理を行っていってもよい。

全ての特徴語について評価値を計算した後、特徴語選択手段８００は、評価値に基づいて特徴語を特定することにより、ステップＳ１で設定されたユーザまたはグループの定常的な興味を示す興味情報を特定する（ステップＳ１０）。ステップＳ１０では、例えば、評価値が、予め定められた閾値以上である特徴語を選択すればよい。

興味情報提示手段９００は、ステップＳ１０で特定された特徴語を表示する（ステップＳ１１）。この結果、興味情報特定システムの使用者は、設定したユーザまたはグループの定常的な興味を知ることができる。

上記の処理経過の具体例を以下に示す。以下の例では、マウスやキーボードなどの入力装置と、ボタンなどのユーザインタフェースや文字を表示するディスプレイ装置を備えたパーソナルコンピュータによって興味情報特定システムが実現されているもとのする。また、アクセス履歴記憶手段２００およびコンテンツ管理手段３００は、データベースプログラムにより動作しているものとする。また、アクセス履歴記憶手段２００は、図２に示すアクセス履歴を記憶しているものとする。図２に示すアクセス履歴では、ユーザが文書を閲覧したりダウンロードした日付（利用時刻）と、文書ＩＤと、ユーザ名と、所属部署名（グループ名）とが対応付けられている。また、図３に示すメタ情報を記憶している者とする。図３に示すメタ情報では、文書ＩＤと、文書名と、特徴語とが対応付けられている。

抽出対象設定手段１００は、ステップＳ１（図１４参照）において、図６に例示する入力画面を表示し、ユーザ名または部署名の入力を促す。本例では、「ＵＳＥＲ１」が入力されたとする。抽出対象設定手段１００は、入力された「ＵＳＥＲ１」を、興味情報特定対象として決定する。

ステップＳ２では、特徴語履歴生成手段４００が、「ＵＳＥＲ１」に対応する日付および文書ＩＤをアクセス履歴記憶手段２００から取得し、その文書ＩＤに対応する特徴語を文書管理手段３００から取得し、その特徴語と日付とを対応付けることで、特徴語履歴を生成する。例えば、「ＵＳＥＲ１」に対応する日付および文書ＩＤとして、「２００７／０９／０１」および「ＩＤ００１」がある（図２参照）。特徴語履歴生成手段４００は、その文書ＩＤ「ＩＤ００１」に対応する特徴語「セキュリティ」、「ユビキタス」、「ネットワーク」を文書管理手段３００から取得して、その各特徴語に「２００７／０９／０１」を対応付ける。特徴語履歴生成手段４００は、アクセス履歴において「ＵＳＥＲ１」に対応付けられている全ての文書ＩＤについて、この処理を行う。この結果、図４に示す特徴語履歴が生成される。

次のステップＳ３では、出現頻度計算手段５００が、生成された特徴語履歴を用いて、各特徴語の出現頻度を求める。例えば、「セキュリティ」に関しては、「２００７／０９／０１」、「２００７／０９／０１」、「２００７／０９／０２」に出現しているので、出現頻度を３回とする。他の特徴語についても出現頻度を求める。この結果、図７に示す出現頻度が得られる。

ステップＳ４では、出現間隔計算手段６００が、生成された特徴語履歴を用いて、各特徴語の出現時刻間隔を求め、各出現時刻間隔が生じた回数をカウントする。例えば、「セキュリティ」に関しては、「２００７／０９／０１」、「２００７／０９／０１」、「２００７／０９／０２」に出現しているので、出現時刻間隔０日が１回、出現時刻間隔１日が１回となる。他の特徴語に関しても同様の処理を行う。この結果、図８に示す結果が得られる。なお、文書が利用された日付が１つしかなければ、いずれの出現時刻間隔の発生回数も０回とする。

特徴語評価手段７００は、ステップＳ５〜Ｓ９において、ステップＳ３で求めた出現頻度およびステップＳ４で求めた出現時刻間隔を用いて、図４に示す特徴語履歴中の特徴語の評価値を計算する。以下、特徴語「セキュリティ」の評価値を求める場合を例にして、評価値の計算過程の具体例を示す。図１５は、この評価値の計算過程を示す説明図である。

ステップＳ５では、特徴語評価手段７００は、図８に示す出現時刻間隔を用いて、出現時刻間隔ｔで特徴語が出現する実際の確率Ｐ’（ｔ）を、各出現時刻間隔毎に計算する。また、出現時刻間隔ｔの発生回数が０回ということは、その出現時刻間隔ｔで文書が利用された回数０回であり、この場合、Ｐ’（ｔ）＝０とする。図８に示す「セキュリティ」に関しては、０日間隔（ｔ＝０）が１回、１日間隔（ｔ＝１）が１回となっているので、Ｐ’（０）およびＰ’（１）は、それぞれ０．５である。

ステップＳ６では、特徴語評価手段７００は、特徴語履歴の対象期間Ｔと、出現頻度Ｋとを用いて、モデルとなる確率分布（指数分布）において出現時刻間隔ｔで特徴語が出現する確率Ｐ（ｔ）を、各出現時刻間隔毎に計算する。本例では、特徴語履歴は、２００７年９月１から２００７年９月７日の期間のアクセス履歴から生成されているので、Ｔ＝７となる。この期間Ｔは、例えば、アクセス履歴記憶手段２００において、アクセス履歴の作成開始時および作成終了時を記録しておき、特徴語評価手段７００がその開始時から終了時までの期間を計算して求めてもよい。あるいは、期間Ｔは外部から入力されてもよい。「セキュリティ」の出現頻度Ｋは３であり、Ｔ＝７であるので、特徴語評価手段７００は、Ｋ／Ｔ＝０．４２８６を計算する。さらに、特徴語評価手段７００は、この値を用いて、式（２）の計算を行いＰ（ｔ）を求める。例えば、０日間隔（ｔ＝０）の場合、Ｐ（０）＝０．４２８６×ｅ^{−０．４２８６×０}＝０．４２８６となる。

ステップＳ７では、特徴語評価手段７００は、それぞれの出現時刻間隔毎に、ずれ量｜Ｐ（ｔ）−Ｐ’（ｔ）｜を計算し、続くステップＳ８では、出現時刻間隔毎に計算した｜Ｐ（ｔ）−Ｐ’（ｔ）｜の総和を求める。本例では、図１５に示すように、このずれ量の総和は０．６７０となる。

ステップＳ９では、特徴語評価手段７００は、ステップＳ８で求めたずれ量の総和により、評価値Ｖを計算する。式（３）の計算を行い、評価値Ｖを求めると、Ｖ＝ｅ^{−０．６７０}＝０．５１２となる。ここでは、「セキュリティ」の評価値を求める場合を例示したが、他の特徴語についても同様に評価値を計算する。この結果、図１１に示すように各特徴語の評価値が求まる。

ステップＳ１０では、特徴語選択手段８００は、評価値が閾値以上となっている特徴語を選択する。本例では、予め閾値が０．３に設定されているものとする。特徴語選択手段８００は、評価値が０．３以上の「セキュリティ」および「ネットワーク」を選択する（図１１参照）。

ステップＳ１１では、興味情報提示手段９００が、選択された特徴語「セキュリティ」および「ネットワーク」を、ユーザまたはグループの定常的な興味を示す語として表示する。例えば、「おすすめ検索キーワード」として表示してもよい。

なお、図１２に示すように、興味情報特定システムが検索手段９５０を備え、検索手段９５０が、ステップＳ１０で選択された特徴語を検索語として、検索語に合致する文書、Ｗｅｂページ、ニュース記事などを検索し、興味情報提示手段９００が、特徴語とともに、それらの検索結果を表示してもよい。

あるいは、興味情報提示手段９００がステップＳ１１で特徴語を表示するときには、検索手段９５０は検索を行わず、特徴語の表示後に、表示した特徴語のうちいずれかが興味情報特定システムの使用者に指定されたときに、検索手段９５０が、指定された特徴語を検索語として各種コンテンツ（文書、Ｗｅｂページなど）を検索してもよい。この検索結果は、例えば、興味情報提示手段９００が表示すればよい。この場合においても、コンテンツ管理手段３００に記憶されているコンテンツを検索対象としてもよく、あるいは、興味情報特定システム外部のコンテンツデータベースや、各種Ｗｅｂページを検索対象としてもよい。

図１６は、特徴語による検索を行う場合の画面例を示す説明図である。ステップＳ１１において、興味情報提示手段９００は、図１６（ａ）に例示する画面１４０１を表示する。画面１４０１には、特定された特徴語１４０２および検索語の入力欄１４０３および検索ボタンを含む。表示した特徴語がクリックされたり、あるいは、入力欄１４０３に入力されて検索ボタンがクリックされるなどの操作によって、特徴語が指定されると、検索手段９５０は、指定された特徴語を検索語として文書などの検索を行い、興味情報提示手段９００は、その検索結果を表示する。図１６（ｂ）に例示する画面１４１１は、検索結果表示画面の例を示す。画面１４１１では、例えば、ステップＳ１０で特定された特徴語１４１２、検索結果１４１４とを含む。また、図１６（ｂ）では、入力欄１４１３に、指定された特徴語（本例では「セキュリティ」）を表示する場合を示している。

検索結果の表示画面１４１１では、最初に特徴語を表示する画面１４０１とは、異なる特徴語を表示してもよい。例えば、ステップＳ１０で特定された特徴語のうち、最初の画面１４０１で表示していない特徴語を表示してもよい。あるいは、ステップＳ１０で特徴語選択手段８００が評価値の高い順に特徴語をソートし、興味情報提示手段９００は、画面１４０１，１４１１のように画面を切り換えるときに、先の画面ほど上位の特徴語を表示するようにして、表示する特徴語を切り換えてもよい。

また、興味情報特定システムは、各ユーザ、各部署それぞれについて定常的な興味を表す特徴語を求め、列挙してもよい。

また、興味情報特定システムは、ユーザについての特徴語と、ユーザが所属するグループについての特徴語を特定して表示してもよい。さらに、一つの期間だけでなく、複数の期間について、それぞれステップＳ２〜Ｓ１０の処理を行って、各期間毎に特徴語を提示してもよい。例えば、図１７に例示する画面を表示してもよい。図１７に例示する画面では、１ヶ月間の定常的な興味を示す特徴語１５０２と、１年間の定常的な興味を示す特徴語１５０３と、設定したユーザが所属するグループの定常的な興味を示す特徴語１５０４とを表示している。また、これらの特徴語のいずれか指定されると、検索手段９５０がその特徴語を検索語として検索を行い、図１７に示すように、その検索結果１５０５を表示してもよい。

また、図１７に示す例では、１ヶ月間および１年間の定常的な興味をそれぞれ示す場合を例示しているが、上半期・下半期、あるいは、１月・２月・３月といったように、期間毎に特徴語を特定して表示してもよい。

各期間毎の定常的な興味を示す特徴語を特定する場合、例えば、特徴語履歴生成手段４００が期間を一つずつ選択し、選択した期間におけるアクセス履歴のみを抽出し、そのアクセス履歴を用いて、ステップＳ２以降の処理を行えばよい。また、ステップＳ７で用いる期間Ｔとして、選択した期間を用いればよい。そして、各期間を一つずつ選択し、期間毎の特徴語を特定すればよい。

また、特徴語選択手段８００がステップＳ１０で特徴語を特定するとき、評価値に基づいて特徴語を特定した後、検索手段９５０が、選択された各特徴語を検索語としてコンテンツの検索を行い、検索結果が０件であった特徴語は、選択した結果から除外してもよい。

また、検索手段９５０が検索対象とするコンテンツ集合と、コンテンツ管理手段３００が記憶しているコンテンツ集合とが同一である場合、検索手段９５０が、使用者に指定された特徴語でコンテンツを検索した後、その検索結果を用いて、ステップＳ１から再度処理を行い、定常的な興味を示す特徴語を特定し、その特徴語を表示してもよい。

本実施形態では、蓄積されたアクセス履歴に基づいて、特徴語履歴を生成し、ある出現時刻間隔で特徴語が出現する確率Ｐ’（ｔ）を、それぞれの出現時刻間隔毎に計算する。また、モデルとなる確率分布において、ある出現時刻間隔で特徴語が出現する確率Ｐ（ｔ）を、それぞれの出現時刻間隔毎に計算する。そして、出現時刻間隔毎に、両者の差の絶対値｜Ｐ（ｔ）−Ｐ’（ｔ）｜を計算し、その総和に応じて特徴語の評価値を計算する。ここで、モデルとなる確率分布は、特徴語がランダムに出現した場合の確率分布であるので、評価値は、特徴語がどの程度ランダムに出現しているかの度合いとなる。本実施形態では、そのような評価値に基づいて特徴語を特定しているので、ある期間内で一時的に多く出現した特徴語よりも、ある期間内で満遍なくランダムに出現した特徴語を特定することができる。よって、本実施形態によれば、ある期間内でランダムに出現する特徴語を興味情報として特定することができる

また、第１の実施形態において、ずれ量の総和に基づいて評価値を計算する方法は、式（３）の計算に限定されない。例えば、各出現時刻間隔におけるずれ量｜Ｐ（ｔ）−Ｐ’（ｔ）｜の総和を評価値としてもよい。この場合、ランダムに出現する特徴語ほど、評価値は小さくなるので、特徴語選択手段８００は、例えば、評価値が閾値以下となっている特徴語を選択すればよい。

また、上記の特徴語評価手段７００の処理例では、出現時刻間隔毎のずれ量｜Ｐ（ｔ）−Ｐ’（ｔ）｜を計算し、それらの総和を求めているが、評価値の計算方法は、出現時刻間隔の分布とモデルとなる確率分布との乖離に応じて評価値を計算する方法であればよく、上記の計算方法に限定されるわけではない。

例えば、Ｐ（ｔ）とＰ’（ｔ）との比を用いて特徴語の評価値Ｖを計算してもよい。Ｐ（ｔ）とＰ’（ｔ）との比を用いた評価値Ｖの計算例について説明する。本例では、特徴語評価手段７００は、ステップＳ７において、出現時刻間隔毎に、ずれ量としてＰ（ｔ）／Ｐ’（ｔ）を計算する。続くステップＳ８では、特徴語評価手段７００は、出現時刻間隔毎に計算したＰ（ｔ）／Ｐ’（ｔ）をそれぞれ掛け合わせる。すなわち、特徴語評価手段７００は、以下に示す式（４）の計算を行う。

式（４）の計算結果と１との差の絶対値は、出現時刻間隔の分布とモデルとなる確率分布とのずれの大きさを示し、式（４）の計算結果と１との差の絶対値が大きいほどずれが大きい。特徴語評価手段７００は、式（４）の計算結果を用いて、以下に示す式（５）の計算を行い、特徴語の評価値Ｖを求めればよい。

式（５）の右辺の指数部分は、出現時刻間隔毎に計算したＰ（ｔ）／Ｐ’（ｔ）の積と、１との差の絶対値に−１を乗じた値である。Ｐ（ｔ）とＰ’（ｔ）との比を用いて評価値Ｖを計算する方法は、式（５）の計算方法に限定されない。例えば、出現時刻間隔毎に｛ｌｏｇ（Ｐ（ｔ）／Ｐ’（ｔ））｝^２を計算し、その値の積を用いて以下に示す式（６）の計算を行って、特徴語の評価値Ｖを求めてもよい。

式（６）の右辺の指数部分は、出現時刻間隔毎に計算した｛ｌｏｇ（Ｐ（ｔ）／Ｐ’（ｔ））｝^２の積に−１を乗じた値である。

また、式（５）および式（６）では、Ｐ（ｔ）とＰ’（ｔ）との比を用いる場合に、出現時刻間隔毎に求めた値の積を計算しているが、出現時刻間隔毎に求めた値を加算して評価値を求めてもよい。例えば、出現時刻間隔毎に｜１−（Ｐ（ｔ）／Ｐ’（ｔ））｜を計算し、その和を用いて以下に示す式（７）の計算を行って、特徴語の評価値Ｖを求めてもよい。

式（７）の右辺の指数部分は、出現時刻間隔毎に計算した｜１−（Ｐ（ｔ）／Ｐ’（ｔ））｜の和に−１を乗じた値である。

式（５）から式（７）に例示する計算で評価値Ｖを求める場合、出現時刻間隔の分布とモデルとなる確率分布との乖離が少ないほど、評価値Ｖの値は大きくなる。

式（３）における｜Ｐ（ｔ）−Ｐ’（ｔ）｜は、出現時刻間隔の分布とモデルとなる確率分布との乖離の程度を示す値の一例である。同様に、式（５）におけるＰ（ｔ）／Ｐ’（ｔ）、式（６）における｛ｌｏｇ（Ｐ（ｔ）／Ｐ’（ｔ））｝^２、および式（７）における｜１−（Ｐ（ｔ）／Ｐ’（ｔ））｜も、乖離の程度を示す値の例である。

実施形態２．
次に、本発明の第２の実施形態について説明する。第２の実施形態の興味情報特定システムも、第１の実施形態と同様に、抽出対象設定手段１００と、アクセス履歴記憶手段２００と、コンテンツ管理手段３００と、特徴語履歴生成手段４００と、出現頻度計算手段５００と、出現間隔計算手段６００と、特徴語評価手段７００と、特徴語選択手段８００と、興味情報提示手段９００とを備える。また、検索手段９５０を備えていてもよい。以下、図１を参照して、第２の実施形態について説明する。

第２の実施形態では、特徴語評価手段７００が評価値を計算する方法が、第１の実施形態と異なる。特徴語評価手段７００以外の構成要素の動作は、第１の実施形態と同様であり、説明を省略する。

第２の実施形態では、特徴語評価手段７００は、特徴語が定期的に出現する傾向が高いほど、値が大きくなるように特徴語の評価値を計算する。例えば、ある１日に集中して７回出現する特徴語と、７日間に渡って１日１回ずつ出現する特徴語とでは、後者の方が値が大きくなるように評価値を計算する。一時期に集中的に発生する特徴語よりも、定期的に出現することを繰り返す特徴語の方が、ユーザやグループの定常的興味を表していると言える。本実施形態では、そのような特徴語に高い評価値を付与するように計算する。具体的には、特徴語評価手段７００は、出現期間が長く、出現時刻間隔の標準偏差および平均値が小さいほど、値が大きくなるように評価値を計算する。出現期間は、着目している特徴語が最初に出現した時から最後に出現した時までの期間である。すなわち、着目している特徴語により特徴が表されるコンテンツが最初に利用された時から最後に利用されたときまでの期間である。

特徴語評価手段７００は、出現間隔計算手段６００によって各特徴語の出現時刻間隔が求まると、各特徴語毎に、出現時刻間隔の標準偏差および平均値を計算する。なお、標準偏差は、標本分散を用いて計算してもよく、あるいは、不偏分散を用いて計算してもよい。この標準偏差をＳＴＤＥＶと記し、平均値をＡＶＥと記すことにする。また、各特徴語毎の最初の出現時刻をＴ_０と記し、最後の出現時刻をＴ_ｌａｓｔと記すことにする。また、第１の実施の形態と同様に、特徴語履歴の導出対象期間（特徴語履歴を生成する基となったアクセス履歴を採取していた期間）をＴとする。特徴語評価手段７００は、パラメータβを用いて、以下に示す式（８）の計算を行うことにより、特徴語の評価値Ｖを求める。

Ｖ＝｛（Ｔ_ｌａｓｔ−Ｔ_０）／Ｔ｝・ｅ^{（−β・ＳＴＤＥＶ・ＡＶＥ）} 式（８）

パラメータβは、出現時刻間隔が短い特徴語を特に優先的に抽出しやすくするか否かを調整するためのパラメータである。βの値が大きいと、出現時刻間隔が短い場合に、出現時刻間隔が長い場合に比べて大きな評価値を付与することができ、出現時刻間隔が短い場合と長い場合とでの評価値の差を大きくすることができる。βの値は予め定められていてもよい。あるいは、例えば、抽出対象設定手段１００を介して、興味情報特定システムの使用者によって入力されてもよい。βの値が入力されるタイミングは、式（８）の計算を行う前であればよく、例えば、ユーザ名やグループ名とともに入力されてもよい。

また、特徴語評価手段７００は、出現頻度が定められた回数以下である特徴語に関しては、式（８）の計算を行わずに、評価値を所定値に定める。この所定値は、評価値が最も低いことを示す値であればよい。以下、この所定値が０であるものとして説明する。

また、出現頻度に関する上記の「定められた回数」は、例えば２回であるが、２回でなくてもよい。出現頻度が２回以下であるということは、出現時刻間隔が最大で１つしか求められない。出現時刻間隔が１つも求まらなければ、出現時刻間隔の標準偏差が求められない。また、出現頻度が２回であり、出現時刻間隔が１つ求められたとしても、不偏分散による標準偏差は求められず、また、標本分散による標準偏差は求めることができても標準偏差は０となるため、均一の間隔で特徴語が出現する場合と区別ができない。よって、出現頻度が例えば２回以下の場合、評価値を０とする。また、特徴語の出現頻度が２回より多い場合であっても、出現頻度が少なく、出現頻度から求められる出現時刻間隔の数が少ない場合には、標準偏差が０となることがある。よって、上記の「定められた回数」は２回より多くてもよい。上記の「定められた回数」は規定値であってもよく、あるいは、「定められた回数」を示す値が興味情報特定システムの使用者から入力されてもよい。以下の説明では、出現頻度が２回以下である特徴語の評価値を０とする場合を例にして説明する。

特徴語評価手段７００は、特徴語履歴中の各特徴語を順次選択し、選択した特徴語の評価値を計算する。

第２の実施例における特徴語評価手段７００の処理の具体例を示す。特徴語履歴生成手段４００が、ある特徴語Ａについて、９月１日から９月１４日までの間の特徴語履歴として、図９（ａ）に例示する特徴語履歴が生成されたとする。この場合、出現頻度計算手段５００は、図９（ｂ）に示すように、特徴語Ａの出現頻度「９」を求める。出現間隔計算手段６００は、図９（ｃ）に示す出現時刻間隔を求める。出現頻度は２回よりも多いので、特徴語評価手段７００は、式（８）の計算を行って評価値を求める。ここではβ＝０．１として説明する。

特徴語履歴は９月１日から９月１４日までのアクセス履歴から生成されているので、Ｔ＝１４である。また、図９（ａ）に示すように、特徴語Ａの最後の出現時刻は９月１日であり、最後の出現時刻は９月１２日であるので、Ｔ_ｌａｓｔ−Ｔ_０＝１１である。また、特徴語評価手段７００は、図９（ｃ）に示す各出現時刻間隔の標準偏差ＳＴＤＥＶおよび平均値を計算する。本例では、ＡＶＥ＝１．３７５，ＳＴＤＥＶ＝１．５０６である。よって、特徴語評価手段７００は、（１１／１４）・ｅ^{（−０．１×１．３７５×１．５０６）}を計算することにより、特徴語Ａの評価値Ｖを求める。本例では、Ｖ＝０．６３９となる。

ここでは、図９に示す例を用いて説明したが、図４に示す特徴語履歴から図７および図８に示す出現頻度、出現時刻間隔を求め、各特徴語の評価値を求めると、図１８に示すようになる。特徴語「ユビキタス」、「パソコン」、「サーバ」、「ストレージ」は、出現頻度が２回または１回であり、出現時刻間隔を求められないか、あるいは、１つしか求められないので、評価値を０．０と定める。

本例では、定期的に出現していて、定常的な興味を表していると言える特徴語に高い評価値を付与するので、特徴語選択手段８００は、例えば、評価値が閾値以上となっている特徴語を選択すればよい。閾値が０．１であるとすると、特徴語選択手段８００は、図１８に示す各特徴語のうち、「セキュリティ」および「ネットワーク」を選択する。

次に、動作について説明する。図１９は、第２の実施形態の興味情報特定システムの処理経過の例を示す流れ図である。図１９に示すステップＳ１〜Ｓ４およびステップＳ１０，Ｓ１１は、第１の実施形態と同様の処理であり、説明を省略する。

ステップＳ４までの処理で各特徴語の出現頻度および出現時刻間隔が求められると、特徴語評価手段７００は、各出現時刻間隔の平均値ＡＶＥおよび標準偏差ＳＴＤＥＶを計算する（ステップＳ４ａ）。続いて、特徴語評価手段７００は、ステップＳ４ａで求めたＡＶＥおよびＳＴＤＥＶを用いて式（８）の計算を行い、特徴語の評価値Ｖを計算する（ステップＳ４ｂ）。ステップＳ４ｂにおいて、特徴語評価手段７００は、特徴語履歴を参照して、着目している特徴語の最初の出現時刻をＴ_０とし、最後の出現時刻をＴ_ｌａｓｔとすればよい。

特徴語評価手段７００は、ステップＳ４ａ，Ｓ４ｂの処理を各特徴語毎に行う。ステップＳ４ａ，Ｓ４ｂのそれぞれのステップで、特徴語を順次選択し、選択した特徴語毎に処理を行ってもよい。また、ステップＳ４ａの処理を実行する前に、特徴語を選択し、選択した特徴語についてステップＳ４ａ，Ｓ４ｂの処理を行い、さらに次の特徴語を選択し、同様にステップＳ４ａ，Ｓ４ｂの処理を行っていってもよい。

以降のステップＳ１０，Ｓ１１の処理は第１の実施の形態と同様である。また、第１の実施形態で説明した種々の変形例が第２の実施形態に適用されてもよい。

上記処理の具体例を以下に示す。なお、ステップＳ４までの処理は、第１の実施形態と同様であり、説明を省略する。ステップＳ２で図４に示す特徴語履歴を生成し、ステップＳ３で図７に示す出現頻度を計算し、ステップＳ４で図８に示す出現時刻間隔を求めたとする。また、以下の説明では、「セキュリティ」の評価値の計算過程を例示する。図２０は、この計算過程を示す説明図である。

ステップＳ４ａにおいて、特徴語評価手段７００は、出現時刻間隔を用いて、各特徴語について、出現時刻間隔の平均値ＡＶＥおよび標準偏差ＳＴＤＥＶを計算する。例えば、特徴語「セキュリティ」の場合、出現時刻間隔「０日」が１回あり、「１日」が１回ある。従って、平均値ＡＶＥ＝０．５となり、標準偏差ＳＴＤＥＶ＝０．７０７となる。

次にステップＳ４ｂにおいて、特徴語評価手段７００は、式（８）の計算を行い、特徴語の評価値Ｖを求める。特徴語「セキュリティ」の場合、Ｔ_ｌａｓｔは、「２００７／０９／０２」であり、Ｔ_０は「２００７／０９／０１」である。よって、Ｔ_ｌａｓｔ−Ｔ_０＝１である。また、特徴語履歴の導出対象期間Ｔ＝７であるので、Ｖ＝（１／７）・ｅ^{（−０．１×０．５×０．７０７）}＝０．１３８となる。

同様に、他の特徴語についても評価値を求めると、図１８に示すようになる。「ユビキタス」、「パソコン」、「サーバ」、「ストレージ」に関しては、出現頻度が２回または１回であり、出現時刻間隔を求められないか、あるいは、１つしか求められないので、評価値を０．０と定める。

各特徴語の評価値を計算した後、ステップＳ１０，Ｓ１１の処理を行う。この処理は第１の実施形態と同様である。

本実施形態では、式（８）により、各特徴語の評価値を計算するので、長い期間、出現間隔が概ね小さく、偏りがない特徴語に対してより高い評価値を付与する。そして、その評価値に基づいて特徴語を選択するので、短い期間に多く出現した特徴語よりも、長い期間で定期的に出現した特徴語を抽出することができ、ユーザやグループの定常的な興味を表す特徴語として利用できる。

また、パラメータβは、出現時刻間隔が短い特徴語を特に優先的に抽出しやすくするか否かを調整するためのパラメータであり、βの値を調整することにより、特徴語の出現時刻間隔が短い特徴語を優先的に抽出したり、あるいは、出現時刻間隔が短くなくても定期的に出現する特徴語に比較的高い評価値を付与して、そのような特徴語も抽出されやすくなるようにしたり調整することができる。よって、出現期間が長く、出現時刻間隔の標準偏差および平均値が小さいほど評価値が大きくなることを前提とした上で、βの値を大きくするほど、出現時刻間隔が短い特徴語と長い特徴語の評価値の差を大きくして、前者を抽出しやすくすることができる。

図２１は、β＝０．１の場合の評価値とβ＝１．０の場合の評価値との比較を示す説明図である。図２１に示す横軸は、出現時刻間隔であり、縦軸は評価値である。β＝０．１の場合でも、β＝１．０の場合でも出現時刻間隔が大きくなるほど、評価値は低下するが、β＝１．０の場合の方が急激に低下する。すなわち、β＝１．０では、出現時刻間隔が短い場合と長い場合とで評価値の差が大きくなる。例えば、β＝１．０では、出現時刻間隔が５程度になると、評価値は０に近づき、出現時刻間隔が短い場合には、０に比べて大きな評価値が付与され、出現時刻間隔が短い場合と長い場合とで評価値の差が大きくなる。この結果、出現時刻間隔が短い評価値が抽出されやすくなる。

次に、本発明の概要について説明する。図２２は、本発明の概要を示すブロック図である。本発明の興味情報特定システムは、出現頻度計算手段９７１と、出現間隔計算手段９７２と、特徴語評価手段９７３と、特徴語特定手段９７４とを備える。

出現頻度計算手段９７１（例えば、図１に示す出現頻度計算手段５００）は、人物またはグループが利用したコンテンツの特徴を表す特徴語と、人物またはグループがその特徴語により特徴が表される各コンテンツを利用した利用時刻とを含む特徴語履歴を参照して、特徴語毎に、特徴語が表すコンテンツの利用頻度である特徴語出現頻度を求める。

出現間隔計算手段９７２（例えば、図１に示す出現間隔計算手段６００）は、特徴語履歴を参照して、特徴語毎に、特徴語が表すコンテンツの利用時刻間隔である出現時刻間隔を求める。

特徴語評価手段９７３（例えば、図１に示す特徴語評価手段７００）は、特徴語出現頻度および出現時刻間隔を参照し、特徴語毎に、出現時刻間隔の分布と、モデルとなる確率分布との乖離に応じて特徴語の評価値を求める。

特徴語特定手段９７４（例えば、図１に示す特徴語選択手段８００）は、評価値に基づいて特徴語を特定する。

このような構成により、実際の確率分布と、モデルとなる確率分布との乖離に応じた特徴語の評価値を計算し、その評価値に基づいて特徴語を特定するので、ある期間においてランダムに出現する特徴語を特定することができる。従って、人物やグループの定常的な興味を特定することができる。

第１の実施形態では、特徴語評価手段が、特徴語をそれぞれ選択し、選択した特徴語におけるそれぞれの出現時刻間隔毎に、出現時刻間隔で特徴語が出現する確率と、モデルとなる確率分布にてその出現時刻間隔で特徴語が出現する確率との乖離の程度を示す値を計算し、出現時刻間隔毎に計算した乖離の程度を示す値に基づいて、選択した特徴語の評価値を求める構成が記載されている。

また、第１の実施形態では、特徴語評価手段が、特徴語をそれぞれ選択し、選択した特徴語におけるそれぞれの出現時刻間隔毎に、出現時刻間隔で特徴語が出現する確率と、モデルとなる確率分布にてその出現時刻間隔で特徴語が出現する確率との差分の絶対値を求め、出現時刻間隔毎に計算した差分の絶対値の総和に基づいて、選択した特徴語の評価値を求める構成が記載されている。

また、第１の実施形態では、特徴語評価手段が、出現時刻間隔をｔとしたときに、出現時刻間隔ｔで特徴語が出現する確率を、出現時刻間隔ｔで特徴語が出現した回数をそれぞれの出現時刻間隔で特徴語が出現した回数の和で除算することにより計算し、特徴語履歴の導出対象期間をＴとし、特徴語の出現頻度をＫとしたときに、モデルとなる確率分布にて出現時刻間隔ｔで特徴語が出現する確率を、（Ｋ／Ｔ）ｅ^{−（Ｋ／Ｔ）ｔ}を計算することによって求める構成が記載されている。

また、特徴語評価手段９７３は、特徴語毎に、出現時刻間隔の標準偏差および平均値を計算し、標準偏差をＳＴＤＥＶとし、平均値をＡＶＥとし、特徴語が表すコンテンツの最初の利用時刻および最後の利用時刻をそれぞれＴ_ｌａｓｔ，Ｔ_０とし、特徴語履歴の導出対象期間をＴとしたときに、パラメータβを用いて、｛（Ｔ_ｌａｓｔ−Ｔ_０）／Ｔ｝・ｅ^{（−β・ＳＴＤＥＶ・ＡＶＥ）}を計算することにより、特徴語の評価値を求め、特徴語出現頻度が定められた回数以下である特徴語の評価値を所定値に定めてもよい。

この場合、出現期間が長く、出現時刻間隔の標準偏差および平均値が小さい特徴語に大きな評価値を付与し、その特徴語を特定することができる。よって、定期的に出現する特徴語を特定することにより、人物やグループの定常的な興味を特定できる。また、パラメータβの値を調整することにより、特徴語の出現時刻間隔が短い特徴語を優先的に抽出したり、あるいは、出現時刻間隔が短くなくても定期的に出現する特徴語に比較的高い評価値を付与して、そのような特徴語も抽出されやすくなるようにしたり調整することができる。

また、第２の実施形態では、パラメータβの値が入力されるパラメータ入力手段（例えば、抽出対象設定手段１００により実現される。）を備える構成が開示されている。

また、各実施形態では、コンテンツの識別情報とコンテンツの利用時刻とコンテンツを利用した人物またはグループとを含む利用履歴を記憶する利用履歴記憶手段（例えば、アクセス履歴記憶手段２００）と、コンテンツの識別情報とコンテンツの特徴を表す特徴語とを含むメタ情報を記憶するメタ情報記憶手段（例えば、コンテンツ管理手段３００）と、利用履歴とメタ情報とを参照して、興味の特定対象となる人物またはグループが利用したコンテンツの特徴を表す特徴語を特定し、その特徴語に、コンテンツの利用時刻を対応付けることにより、特徴語履歴を生成する特徴語履歴生成手段（例えば、特徴語履歴生成手段４００）とを備える構成が開示されている。

また、各実施形態では、興味情報の特定対象となる人物またはグループを設定する特定対象設定手段（例えば、抽出対象設定手段１００）を備え、特徴語履歴生成手段が、利用履歴とメタ情報とを参照して、特定対象設定手段に設定された人物またはグループが利用したコンテンツの特徴を表す特徴語を特定し、その特徴語に、コンテンツの利用時刻を対応付けることにより、特徴語履歴を生成する構成が開示されている。

また、各実施形態では、特徴語特定手段が特定した特徴語を用いてコンテンツを検索する検索手段（例えば、図１２に示す検索手段９５０）を備える構成が開示されている。

また、各実施形態では、特徴語特定手段が特定した特徴語を表示する表示手段（例えば、興味情報提示手段９００）を備える構成が開示されている。

また、各実施形態では、表示手段が表示した特徴語のうち、指定された特徴語を用いてコンテンツを検索する検索手段（例えば、図１２に示す検索手段９５０）を備える構成が開示されている。

本発明は、例えば、データベースに格納されたデータを検索する情報検索システムや、データベースに格納されたデータの中から適した情報を推薦する情報推薦システムに利用される興味情報特定システムに好適に適用される。また、インターネットあるいはイントラネット上でユーザの興味に合わせて情報をポータルサイトに表示したり、ユーザや社員の所属・活動・興味を検索するディレクトリサービスに利用される興味情報特定システムにも好適に適用可能である。

本発明の第１の実施形態の興味情報特定システムの例を示すブロック図である。アクセス履歴の例を示す説明図である。メタ情報の例を示す説明図である。特徴語履歴の例を示す説明図である。各特徴語の評価値の例を示す説明図である。ユーザ名またはグループ名の入力画面の例を示す説明図である。出現頻度の例を示す説明図である。出現時刻間隔の例を示す説明図である。評価値計算に用いる特徴語履歴、出現頻度および出現時刻間隔の例を示す説明図である。評価値の計算過程を示す説明図である。計算された評価値の例を示す説明図である。検索手段を備える興味情報特定システムの例を示すブロック図である。興味情報提示手段が出力する画面の例を示す説明図である。第１の実施形態の興味情報特定システムの処理経過の例を示す流れ図である。評価値の計算過程を示す説明図である。特徴語による検索を行う場合の画面例を示す説明図である。興味情報提示手段が出力する画面の例を示す説明図である。計算された評価値の例を示す説明図である。第２の実施形態の興味情報特定システムの処理経過の例を示す流れ図である。第２の実施形態における評価値の計算過程を示す説明図である。 β＝０．１の場合の評価値とβ＝１．０の場合の評価値との比較を示す説明図である。本発明の概要を示すブロック図である。

符号の説明

１００抽出対象設定手段
２００アクセス履歴記憶手段
３００コンテンツ管理手段
４００特徴語履歴生成手段
５００出現頻度計算手段
６００出現間隔計算手段
７００特徴語評価手段
８００特徴語選択手段
９００興味情報提示手段
９５０検索手段
９７１出現頻度計算手段
９７２出現間隔計算手段
９７３特徴語評価手段
９７４特徴語特定手段

Claims

人物またはグループの興味を表す興味情報を特定する興味情報特定システムであって、
人物またはグループが利用したコンテンツの特徴を表す特徴語と、前記人物またはグループが前記特徴語により特徴が表される各コンテンツを利用した利用時刻とを含む特徴語履歴を参照して、特徴語毎に、特徴語が表すコンテンツの利用頻度である特徴語出現頻度を求める出現頻度計算手段と、
前記特徴語履歴を参照して、特徴語毎に、特徴語が表すコンテンツの利用時刻間隔である出現時刻間隔を求める出現間隔計算手段と、
特徴語出現頻度および出現時刻間隔を参照し、特徴語毎に、出現時刻間隔の分布と、モデルとなる確率分布との乖離に応じて特徴語の評価値を求める特徴語評価手段と、
評価値に基づいて特徴語を特定する特徴語特定手段とを備える
ことを特徴とする興味情報特定システム。
特徴語評価手段は、
特徴語をそれぞれ選択し、選択した特徴語におけるそれぞれの出現時刻間隔毎に、出現時刻間隔で特徴語が出現する確率と、モデルとなる確率分布にて前記出現時刻間隔で特徴語が出現する確率との乖離の程度を示す値を計算し、出現時刻間隔毎に計算した前記乖離の程度を示す値に基づいて、前記選択した特徴語の評価値を求める
請求項１に記載の興味情報特定システム。
特徴語評価手段は、
特徴語をそれぞれ選択し、選択した特徴語におけるそれぞれの出現時刻間隔毎に、出現時刻間隔で特徴語が出現する確率と、モデルとなる確率分布にて前記出現時刻間隔で特徴語が出現する確率との差分の絶対値を求め、出現時刻間隔毎に計算した前記差分の絶対値の総和に基づいて、前記選択した特徴語の評価値を求める
請求項１または請求項２に記載の興味情報特定システム。
特徴語評価手段は、
出現時刻間隔をｔとしたときに、出現時刻間隔ｔで特徴語が出現する確率を、前記出現時刻間隔ｔで特徴語が出現した回数をそれぞれの出現時刻間隔で特徴語が出現した回数の和で除算することにより計算し、
特徴語履歴の導出対象期間をＴとし、前記特徴語の出現頻度をＫとしたときに、モデルとなる確率分布にて前記出現時刻間隔ｔで特徴語が出現する確率を、（Ｋ／Ｔ）ｅ^{−（Ｋ／Ｔ）ｔ}を計算することによって求める
請求項３に記載の興味情報特定システム。
人物またはグループの興味を表す興味情報を特定する興味情報特定システムであって、
人物またはグループが利用したコンテンツの特徴を表す特徴語と、前記人物またはグループが前記特徴語により特徴が表される各コンテンツを利用した利用時刻とを含む特徴語履歴を参照して、特徴語毎に、特徴語が表すコンテンツの利用頻度である特徴語出現頻度を求める出現頻度計算手段と、
前記特徴語履歴を参照して、特徴語毎に、特徴語が表すコンテンツの利用時刻間隔である出現時刻間隔を求める出現間隔計算手段と、
特徴語毎に、出現時刻間隔の標準偏差および平均値を計算し、前記標準偏差をＳＴＤＥＶとし、前記平均値をＡＶＥとし、特徴語が表すコンテンツの最初の利用時刻および最後の利用時刻をそれぞれＴ_ｌａｓｔ，Ｔ_０とし、特徴語履歴の導出対象期間をＴとしたときに、パラメータβを用いて、｛（Ｔ_ｌａｓｔ−Ｔ_０）／Ｔ｝・ｅ^{（−β・ＳＴＤＥＶ・ＡＶＥ）}を計算することにより、特徴語の評価値を求め、特徴語出現頻度が定められた回数以下である特徴語の評価値を所定値に定める特徴語評価手段と、
評価値に基づいて特徴語を特定する特徴語特定手段とを備える
ことを特徴とする興味情報特定システム。
パラメータβの値が入力されるパラメータ入力手段を備える
請求項５に記載の興味情報特定システム。
コンテンツの識別情報と前記コンテンツの利用時刻と前記コンテンツを利用した人物またはグループの識別情報とを含む利用履歴を記憶する利用履歴記憶手段と、
コンテンツの識別情報と前記コンテンツの特徴を表す特徴語とを含むメタ情報を記憶するメタ情報記憶手段と、
前記利用履歴と前記メタ情報とを参照して、興味の特定対象となる人物またはグループが利用したコンテンツの特徴を表す特徴語を特定し、前記特徴語に、前記コンテンツの利用時刻を対応付けることにより、特徴語履歴を生成する特徴語履歴生成手段とを備える
請求項１から請求項６のうちのいずれか１項に記載の興味情報特定システム。
興味情報の特定対象となる人物またはグループを設定する特定対象設定手段を備え、
特徴語履歴生成手段は、利用履歴とメタ情報とを参照して、特定対象設定手段に設定された人物またはグループが利用したコンテンツの特徴を表す特徴語を特定し、前記特徴語に、前記コンテンツの利用時刻を対応付けることにより、特徴語履歴を生成する
請求項７に記載の興味情報特定システム。
特徴語特定手段が特定した特徴語を用いてコンテンツを検索する検索手段を備える
請求項１から請求項８のうちのいずれか１項に記載の興味情報特定システム。
特徴語特定手段が特定した特徴語を表示する表示手段を備える
請求項１から請求項９のうちのいずれか１項に記載の興味情報特定システム。
表示手段が表示した特徴語のうち、指定された特徴語を用いてコンテンツを検索する検索手段を備える
請求項１０に記載の興味情報特定システム。
人物またはグループの興味を表す興味情報を特定する興味情報特定方法であって、
興味情報特定システムが備える出現頻度計算手段が、人物またはグループが利用したコンテンツの特徴を表す特徴語と、前記人物またはグループが前記特徴語により特徴が表される各コンテンツを利用した利用時刻とを含む特徴語履歴を参照して、特徴語毎に、特徴語が表すコンテンツの利用頻度である特徴語出現頻度を求める出現頻度計算ステップと、
前記興味情報特定システムが備える出現間隔計算手段が、前記特徴語履歴を参照して、特徴語毎に、特徴語が表すコンテンツの利用時刻間隔である出現時刻間隔を求める出現間隔計算ステップと、
前記興味情報特定システムが備える特徴語評価手段が、特徴語出現頻度および出現時刻間隔を参照し、特徴語毎に、出現時刻間隔の分布と、モデルとなる確率分布との乖離に応じて特徴語の評価値を求める特徴語評価ステップと、
前記興味情報特定システムが備える特徴語特定手段が、評価値に基づいて特徴語を特定する特徴語特定ステップとを含む
ことを特徴とする興味情報特定方法。
特徴語評価手段が、特徴語評価ステップで、
特徴語をそれぞれ選択し、選択した特徴語におけるそれぞれの出現時刻間隔毎に、出現時刻間隔で特徴語が出現する確率と、モデルとなる確率分布にて前記出現時刻間隔で特徴語が出現する確率との乖離の程度を示す値を計算し、出現時刻間隔毎に計算した前記乖離の程度を示す値に基づいて、前記選択した特徴語の評価値を求める
請求項１２に記載の興味情報特定方法。
特徴語評価手段が、特徴語評価ステップで、
特徴語をそれぞれ選択し、選択した特徴語におけるそれぞれの出現時刻間隔毎に、出現時刻間隔で特徴語が出現する確率と、モデルとなる確率分布にて前記出現時刻間隔で特徴語が出現する確率との差分の絶対値を求め、出現時刻間隔毎に計算した前記差分の絶対値の総和に基づいて、前記選択した特徴語の評価値を求める
請求項１２または請求項１３に記載の興味情報特定方法。
人物またはグループの興味を表す興味情報を特定する興味情報特定方法であって、
興味情報特定システムが備える出現頻度計算手段が、人物またはグループが利用したコンテンツの特徴を表す特徴語と、前記人物またはグループが前記特徴語により特徴が表される各コンテンツを利用した利用時刻とを含む特徴語履歴を参照して、特徴語毎に、特徴語が表すコンテンツの利用頻度である特徴語出現頻度を求める出現頻度計算ステップと、
前記興味情報特定システムが備える出現間隔計算手段が、前記特徴語履歴を参照して、特徴語毎に、特徴語が表すコンテンツの利用時刻間隔である出現時刻間隔を求める出現間隔計算ステップと、
前記興味情報特定システムが備える特徴語評価手段が、特徴語毎に、出現時刻間隔の標準偏差および平均値を計算し、前記標準偏差をＳＴＤＥＶとし、前記平均値をＡＶＥとし、特徴語が表すコンテンツの最初の利用時刻および最後の利用時刻をそれぞれＴ_ｌａｓｔ，Ｔ_０とし、特徴語履歴の導出対象期間をＴとしたときに、パラメータβを用いて、｛（Ｔ_ｌａｓｔ−Ｔ_０）／Ｔ｝・ｅ^{（−β・ＳＴＤＥＶ・ＡＶＥ）}を計算することにより、特徴語の評価値を求め、特徴語出現頻度が定められた回数以下である特徴語の評価値を所定値に定める特徴語評価ステップと、
前記興味情報特定システムが備える特徴語特定手段が、評価値に基づいて特徴語を特定する特徴語特定ステップとを含む
ことを特徴とする興味情報特定方法。
興味情報特定システムが備えるパラメータ入力手段が、パラメータβの値が入力されるパラメータ入力ステップを含む
請求項１５に記載の興味情報特定方法。
人物またはグループの興味を表す興味情報を特定するコンピュータに搭載される興味情報特定用プログラムであって、
前記コンピュータに、
人物またはグループが利用したコンテンツの特徴を表す特徴語と、前記人物またはグループが前記特徴語により特徴が表される各コンテンツを利用した利用時刻とを含む特徴語履歴を参照して、特徴語毎に、特徴語が表すコンテンツの利用頻度である特徴語出現頻度を求める出現頻度計算処理、
前記特徴語履歴を参照して、特徴語毎に、特徴語が表すコンテンツの利用時刻間隔である出現時刻間隔を求める出現間隔計算処理、
特徴語出現頻度および出現時刻間隔を参照し、特徴語毎に、出現時刻間隔の分布と、モデルとなる確率分布との乖離に応じて特徴語の評価値を求める特徴語評価処理、および、
評価値に基づいて特徴語を特定する特徴語特定処理
を実行させるための興味情報特定用プログラム。
コンピュータに、
特徴語評価処理で、
特徴語をそれぞれ選択させ、選択した特徴語におけるそれぞれの出現時刻間隔毎に、出現時刻間隔で特徴語が出現する確率と、モデルとなる確率分布にて前記出現時刻間隔で特徴語が出現する確率との乖離の程度を示す値を計算させ、出現時刻間隔毎に計算した前記乖離の程度を示す値に基づいて、前記選択した特徴語の評価値を求めさせる
請求項１７に記載の興味情報特定用プログラム。
コンピュータに、
特徴語評価処理で、
特徴語をそれぞれ選択させ、選択した特徴語におけるそれぞれの出現時刻間隔毎に、出現時刻間隔で特徴語が出現する確率と、モデルとなる確率分布にて前記出現時刻間隔で特徴語が出現する確率との差分の絶対値を求めさせ、出現時刻間隔毎に計算した前記差分の絶対値の総和に基づいて、前記選択した特徴語の評価値を求めさせる
請求項１７または請求項１８に記載の興味情報特定用プログラム。
人物またはグループの興味を表す興味情報を特定するコンピュータに搭載される興味情報特定用プログラムであって、
前記コンピュータに、
人物またはグループが利用したコンテンツの特徴を表す特徴語と、前記人物またはグループが前記特徴語により特徴が表される各コンテンツを利用した利用時刻とを含む特徴語履歴を参照して、特徴語毎に、特徴語が表すコンテンツの利用頻度である特徴語出現頻度を求める出現頻度計算処理、
前記特徴語履歴を参照して、特徴語毎に、特徴語が表すコンテンツの利用時刻間隔である出現時刻間隔を求める出現間隔計算処理、
特徴語毎に、出現時刻間隔の標準偏差および平均値を計算し、前記標準偏差をＳＴＤＥＶとし、前記平均値をＡＶＥとし、特徴語が表すコンテンツの最初の利用時刻および最後の利用時刻をそれぞれＴ_ｌａｓｔ，Ｔ_０とし、特徴語履歴の導出対象期間をＴとしたときに、パラメータβを用いて、｛（Ｔ_ｌａｓｔ−Ｔ_０）／Ｔ｝・ｅ^{（−β・ＳＴＤＥＶ・ＡＶＥ）}を計算することにより、特徴語の評価値を求め、特徴語出現頻度が定められた回数以下である特徴語の評価値を所定値に定める特徴語評価処理、および、
評価値に基づいて特徴語を特定する特徴語特定処理
を実行させるための興味情報特定用プログラム。
コンピュータに、
パラメータβの値が入力されるパラメータ入力処理
を実行させる請求項２０に記載の興味情報特定用プログラム。