JP4917061B2

JP4917061B2 - 特徴的キーワード検出装置、特徴的キーワード検出方法、プログラムおよび記録媒体

Info

Publication number: JP4917061B2
Application number: JP2008039674A
Authority: JP
Inventors: 光正近藤; 哲之森田; 匡内山
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-12-18
Filing date: 2008-02-21
Publication date: 2012-04-18
Anticipated expiration: 2028-02-21
Also published as: JP2009169924A

Description

本発明は、ユーザのＰＣ上の履歴から、ユーザの嗜好を考慮した特徴的なキーワードを抽出し、携帯端末や車載機器等のモバイル端末上で、特徴的なキーワードを提示することによって、ユーザは、キーワードを入力せずに、モバイル端末上で、様々な情報を検索することができるキーワード提示型モバイル検索技術に関する。

キーワード提示型検索技術として、以下の５点が知られている。

（１）検索エンジンのユーザ全体の検索キーワードの頻度や、ブログ等のＷｅｂページで頻出するキーワードを抽出し、この抽出されたキーワードを、お勧め検索キーワードとして、ユーザに提示する技術。

（２）現在閲覧している新聞記事やブログ記事等に含まれているキーワードを提示するキーワード提示型検索。

（３）従来技術においてよく用いられるキーワードは、形態素であり、名詞の形態素の連続語を複合語として、キーワードを抽出する。

（４）人名、地名、組織名等の固有表現を、特徴的なキーワードとして抽出する。

（５）ＰＣ上の操作履歴を取得する技術が発明されている。
戸田浩之、中渡瀬秀一、片岡良治著「特徴的な固有表現を用いたラベル指向ナビゲーション手法の提案」情報処理学会論文誌：データベース、Vol.46、No.SIG13（TOD27）、pp.40-52、2005年森田哲之、倉恒子、日高哲雄、大浦啓一郎、田中明通、加藤泰久、奥雅博著「Memory-Retriever：体験獲得情報を想起させる行動検索手法」情報処理学会論文誌、Vol48 No.3、pp.1197−1208、2007年

上記従来のキーワード提示型検索技術は、ある程度、特徴的であり、かつ話題となっているキーワードを提示できるという特徴があるが、ユーザの利便性を考えると、次の問題がある。

上記従来方法（１）では、話題となっているキーワードが、全てのユーザの嗜好に常に合うとは限らない。また、ユーザの興味のある分野が、他の分野と比べて、とても小さい場合、ユーザの嗜好に合うキーワードを抽出することができないという問題がある。

上記従来方法（２）では、該当する新聞記事やブログ記事のＷｅｂページを開かないと、キーワードを提示しないので、それらのページに辿り着くまでに時間がかかるという問題がある。

上記従来方法（３）では、単体の形態素のみをキーワードとして抽出すると、それらの文字列が何を表しているのかの意味合いが大変薄くなり、また一般的過ぎるので、クエリとしては不適切な場合が多いという問題がある。

上記従来方法（４）では、人名、地名、組織名等の固有表現は、特徴的なキーワードであるが、ユーザの興味を引くキーワードを全て網羅しているとは言い難く、さらなる広い範囲でキーワードを抽出する必要性があるという問題がある。

上記のように、上記従来方法では、ユーザ個々の好みを解析して提示するものではないので、ユーザ個々の嗜好を考慮したキーワードを提示できないという問題がある。

上記従来方法（５）では、ＰＣ上の操作履歴の取得は可能であるが、モバイル端末上では、性能的に端末操作の詳細な操作履歴を取得することが難しいという問題がある。

本発明は、モバイル端末上で、キーワードを入力せずに、複数の検索システム上で情報を検索することができる特徴的キーワード検出装置を提供することを目的とするものである。

本発明は、
所定のユーザが、所定のデバイスを操作した操作内容を検出する操作内容検出手段と；
上記所定のユーザがＰＣを操作した操作時間を検出する操作時間検出手段と；
上記検出された操作内容と操作時間とに基づいて、上記ユーザにとって特徴的なキーワードを抽出するキーワード抽出手段と；
上記検出された操作内容と操作時間とに基づいて、上記特徴的なキーワードの重要度を算出する特徴的キーワードの重要度算出手段と；
見出し語間でリンク構造を持つオンライン辞書サイトから、オンライン辞書サイト自体がもつリンク構造もしくはテキスト構造を解析することで辞書サイトの見出し語のリンクスコアを算出し、事前に決めた勾配係数によってゼロに減衰して収束するスコア関数により見出し語の最終スコアを算出し、見出し語をキーワードとして扱い最終スコアに基づいてキーワード固有の重要度を算出するキーワード固有の重要度算出手段と；
上記特徴的なキーワードの各々に対して、上記特徴的なキーワードの重要度と上記キーワード固有の重要度とに基づいて、最終的なキーワード重要度を決定する最終的キーワードの重要度決定手段と；
上記最終的なキーワード重要度に基づいて、端末上で、上記特徴的なキーワードを表示させる表示制御手段と；
を有することを特徴とする特徴的キーワード検出装置である。

本発明によれば、所定のユーザがＰＣを操作した操作内容を検出し、上記所定のユーザがＰＣ等を操作した操作時間を検出し、上記検出された操作内容と操作時間とに基づいて、上記ユーザにとって特徴的なキーワードを検出するので、モバイル端末上で、キーワードを入力せずに、複数の検索システム上で情報を検索することができるという効果を奏する。

発明を実施するための最良の形態は、以下の実施例である。

図１は、本発明の実施例１である操作履歴抽出装置ＥＸ１を示すブロック図である。

操作履歴抽出装置ＥＸ１は、情報端末ＴＥ１と、操作履歴蓄積サーバＳＶ１とに接続されている。

情報端末ＴＥＸ１は、具体的にはＰＣであり、操作履歴を取得する対象である。

操作履歴抽出装置ＥＸ１は、バックグラウンドで動作し、ユーザ操作を監視することによって、ユーザの操作履歴を取得する。操作履歴抽出装置ＥＸ１は、ユーザが日頃、情報端末ＴＥ１上で行っているインターネット検索等、種々の操作の履歴情報を取得する。

操作履歴抽出装置ＥＸ１は、操作履歴取得手段１１と、アクティブ期間抽出手段１２と、操作履歴データベース１３と、ファイル属性情報データベース１４と、ユーザが過去に見たファイルおよび過去に見たメールを格納する過去に見たファイル・メールのデータベース過去に見たファイル・メールのデータベース１５と、操作履歴送信手段１６とを有する。

操作履歴取得手段１１は、キーボードイベント、マウスイベント、アクティブになっているウィンドウの状態変化イベントが生じたときに、Ｗｉｎｄｏｗｓ（登録商標）ＯＳ上で、グローバルに通信されているウィンドウメッセージを取得し、どのプログラムがユーザによって操作されているかを特定し、また、どのウィンドウが、アクティブになったか、または非アクティブになったかを取得する。

アクティブ期間抽出手段１２は、操作履歴取得手段１１が取得／記録した操作履歴から、ウィンドウをアクティブにした時刻と、ウィンドウを非アクティブにした時刻と、アクティブなウィンドウに表示されているＷｅｂページとに基づいて、アクティブ期間を抽出する。この抽出手順は、Ｗｅｂアクティブ期間テーブルＴＢ３の各行にアクセスすることによって取得することができる。

操作履歴データベース１３は、Ｍｅｓｓａｇｅ−ＩＤと、このＭｅｓｓａｇｅ−ＩＤのメールの閲覧開始時刻、閲覧終了時刻を格納する。

ファイル属性情報データベース１４は、ファイルの属性情報を格納する。上記ファイルの属性情報は、閲覧したｈｔｍｌ文書と、ローカルに保存されている年・月・日・時間・日付つきのファイル名と、インターネット上のＵＲＬ、メールデータ、メールデータのファイル名とである。なお、閲覧したｈｔｍｌ文書と、ローカルに保存されているデータとは同じものである。

操作履歴送信手段１６は、抽出された操作履歴を送信する。

次に、操作履歴抽出装置ＥＸ１の操作履歴の取得・記録の動作について説明する。

図２は、操作履歴抽出装置ＥＸ１の操作履歴の取得・記録の動作を示す図である。

図３は、操作履歴加工サーバＳＶ２を示すブロック図である。

操作履歴加工サーバＳＶ２は、操作履歴抽出装置ＥＸ１から受け取った操作履歴から、特徴的なキーワードを抽出し、モバイル端末向けの画面に、上記特徴的なキーワードを表示させるサーバである。

操作履歴加工サーバＳＶ２は、受信した操作履歴と、辞書データベースＤＢ１から抽出したキーワード候補とに基づいて、ユーザにとって利用価値の高いキーワード（特徴的キーワード）を選択し、この選択されたキーワードの一覧を、モバイル端末ＭＴ１、ＭＴ２、ＭＴ３に送信する。

操作履歴加工サーバＳＶ２は、辞書データベースＤＢ１と、認証データベースＤＢ２と、コンテンツデータベースＤＢ３と、加工済み履歴データベースＤＢ４と、操作履歴受信手段２１と、ユーザ認証手段２２と、キーワード抽出手段２３と、キーワード重要度算出手段２４と、外部コンテンツ取得・蓄積手段２５と、画面表示制御手段２６と、お勧めキーワード出力手段２７とを有する。

辞書データベースＤＢ１は、キーワードと、関連語と、キーワード固有の重要度とを格納している。

認証データベースＤＢ２は、ユーザの認証用ＩＤを格納している。

コンテンツデータベースＤＢ３は、ニュース記事等のコンテンツを内部的に保持するデータベースであり、検索エンジンにアクセスせずに、キーワードに関連するニュース等を表示する場合に使用する。

加工済み履歴データベースＤＢ４は、加工済み履歴のデータを格納している。上記加工済み履歴のデータは、ユーザのＷｅｂ閲覧履歴、Ｗｅｂ閲覧履歴から抽出した重要度付きキーワードである。

操作履歴受信手段２１は、操作履歴抽出装置ＥＸ１、ＥＸ２、ＥＸ３から、操作履歴を受信する。

ユーザ認証手段２２は、ユーザが入力したパスワード等に基づいて、そのユーザを認証する。

キーワード抽出手段２３は、履歴テキスト中の辞書に含まれているキーワードを抽出する。

キーワード重要度算出手段２４は、抽出されたキーワードの重要度を決める。

外部コンテンツ取得・蓄積手段２５は、番組表、ニュース等の外部コンテンツを取得し、蓄積する。

画面表示制御手段２６は、期間毎に分けて、キーワードを表示する画面、お気に入りのキーワードを登録・一覧できる画面等、様々な視点から、キーワードを閲覧する画面を、モバイル端末ＭＴ１、ＭＴ２、ＭＴ３に表示させるように制御する。

すなわち、画面表示制御手段２６は、特徴的キーワード検出手段が検出した特徴的キーワードと、上記特徴的キーワードと関連する関連語とを、モバイル端末に送信し、上記モバイル端末の表示画面において、上記特徴的なキーワードを一覧表示させるように制御する画面表示制御手段の例である。

お勧めキーワード出力手段２７は、ユーザが登録している複数のキーワードから、ユーザの嗜好を考慮したキーワードを推薦し、モバイル端末ＭＴ１、ＭＴ２、ＭＴ３に出力する。

実施例１によって、ユーザにとって利用価値の高い検索用キーワードの一覧を、モバイル端末ＭＴ１、ＭＴ２、ＭＴ３上に表示させることができ、ユーザは、モバイル端末ＭＴ１、ＭＴ２、ＭＴ３上での煩雑なテキスト入力操作から解放される。

次に、操作履歴抽出装置ＥＸ１の操作履歴取得手段１１が、操作履歴を取得し、記録する動作について説明する。

操作履歴取得手段１１は、キーボードイベントやマウスイベントやアクティブになっているウィンドウの状態変化イベントが生じたときに、Ｗｉｎｄｏｗｓ（登録商標）ＯＳ上で、グローバルに通信されているウィンドウメッセージを取得（フック）する。そして、今、どのプログラムがユーザによって操作されているかを特定する。また、どのウィンドウが、アクティブになったか、または非アクティブになったかを取得する。実施例１では、Ｍｉｃｒｏｓｏｆｔ（登録商標）社のインターネットエクスプローラを使用しているとして説明する。

次に、プログラム間通信によって、インターネットエクスプローラであれば、通信し、インターネットエクスプローラのウィンドウ上で、現在表示しているホームページのＵＲＬと、表示している情報本体とを取得する。なお、上記情報本体は、メールを送信する際における情報の全てであり、メッセージＩＤと、メールのアドレスと、差出人と、メールヘッダーとを含む概念であり、多くの場合、ＨＴＭＬファイルである。

次に、上記情報本体のＭＤ５ハッシュ値（認証やデジタル署名に使用されるハッシュ関数の１つ）を計算し、この値が、コンテンツを一意に識別するＣｏｎｔｅｎｔ−ｋｅｙである。

図４は、ファイル属性情報データベース１４に格納されているテーブルの内容の例を示す図である。

なお、図４（２）のメールファイルテーブルＴＢ２は、ファイル属性情報データベース１４に相当する。

ファイル属性情報データベース１４には、ＷｅｂファイルテーブルＴＢ１と、メールファイルテーブルＴＢ２とが格納されている。

図５は、操作履歴データベース１３に格納されているテーブルの内容の例を示す図である。

操作履歴データベース１３には、Ｗｅｂアクティブ期間テーブルＴＢ３と、メールアクティブ期間テーブルＴＢ４と、ＩＭＥ入力テーブルＴＢ５と、印刷テーブルＴＢ６とが格納されている。

次に、上記表示している情報本体を、ＰＣ上に「過去に見たファイル」として、過去に見たファイル・メールのデータベース１５に保存する。次に、上記ウィンドウメッセージに含まれているウィンドウのアクティブ化の時刻を登録する。つまり、上記ウィンドウメッセージに含まれているウィンドウのアクティブ化の時刻を、上記ＵＲＬの閲覧を開始した時刻であると推定し、操作履歴データベース１３に格納されているＷｅｂアクティブ期間テーブルＴＢ３に、推定された閲覧開始時刻、情報本体のＭＤ５ハッシュ値を、登録する。

図６は、履歴の解析手順を示す図である。

次に、操作履歴取得手段１１は、上記情報本体を解析した結果と、既に取得した上記本体情報とを用い、情報本体の属性情報である作者、タイトル、更新日、情報本体のＭＤ５ハッシュ値、インターネットで公開されているＵＲＬ、該情報本体を保存したファイル名（フルパス）とを、ウェブファイルテーブルＴＢ１に保存する。

その後に、操作履歴取得手段１１が、上記ウィンドウメッセージに含まれているウィンドウを非アクティブ化するメッセージを受け取ると、この非アクティブ化のメッセージを受け取った時刻を、上記ＵＲＬの閲覧終了時刻であると推定し、Ｗｅｂアクティブ期間テーブルＴＢ３に、上記推定したＵＲＬの閲覧終了時刻を登録する。

上記と同様にして、ｅ−ｍａｉｌに関しても、プログラム間通信とメール文書との解析によって、Ｍｅｓｓａｇｅ−ＩＤと、このＭｅｓｓａｇｅ−ＩＤのメールの閲覧開始時刻と閲覧終了時刻と、表示しているまたは作成中のメール文書（＝情報本体）とを取得する。

ここで、Ｍｅｓｓａｇｅ−ＩＤを、コンテンツを一意に識別するＣｏｎｔｅｎｔ−ｋｅｙであるとする。この情報本体を、ＰＣ上に「過去に見たメール」として、過去に見たファイル・メールのデータベース１５に保存する。そして、Ｍｅｓｓａｇｅ−ＩＤと、このＭｅｓｓａｇｅ−ＩＤのメールの閲覧開始時刻、閲覧終了時刻を、操作履歴データベース１３に登録し、Ｍｅｓｓａｇｅ−ＩＤとメール本文とこの情報本体を保存したファイル名（フルパス）とを、メールファイルテーブルＴＢ２に保存する。なお、過去に見たファイル・メールのデータベース１５は、メールのヘッダ情報等の本文以外の情報が格納されているデータベースである。

また、上記ウィンドウメッセージを取得（フック）することによって、ＩＭＥ（登録商標）入力を、その発生時刻とともに、操作履歴データベース１３に保存する。また、プリンタスプールへ問い合わせすることによって、印刷イベントを、その発生時刻とともに操作履歴に保存する。

「アクティブ期間」は、１つのウィンドウが１つのＷｅｂページをアクティブに表示している期間である。このアクティブ期間が、ユーザの操作を、１つのまとまり（区切り）にする特徴的な単位であると考える。たとえば、Ｗｅｂブラウザに表示しているＷｅｂページを変更する度に、新しいアクティブ期間が発生する。

ユーザは、それぞれのアクティブ期間内に、Ｗｅｂページを閲覧し、注目した文章をコピーし、特に有用であると判断すれば、印刷する等、様々な操作を実行する。そこで、ユーザが多くの操作を実行していたアクティブ期間は、ユーザが注目した可能性が高いと仮定する。「アクティブ期間の注目度」は、アクティブ期間におけるユーザの注目の強さを示す度合いである。

次に、操作履歴抽出装置ＥＸ１が、アクティブ期間の注目度を決定する手順について説明する。

図７は、アクティブ期間の注目度の算出例を示す図である。

アクティブ期間抽出手段１２が、操作履歴を受け取った後の手順について、説明する。現在普及しているコンピュータの多くは、ウィンドウシステムを採用したオペレーションシステム（ＯＳ）を利用している。ユーザは、Ｗｅｂページをウィンドウ内に表示し、閲覧や作業を行う。アクティブなウィンドウに表示しているＷｅｂページを変更する、または、別のウィンドウをアクティブにすることによって、閲覧するＷｅｂページを切り替える。たとえば、興味のあるＷｅｂページを、リンククリックして探し、いくつか注目すべきＷｅｂページが見つかると、Ｗｅｂブラウザを複数起動し、両者を切り替えながら、Ｗｅｂページを比較する。

アクティブ期間抽出手段１２は、操作履歴取得手段１１が取得／記録した操作履歴に基づいて、ウィンドウをアクティブにした時刻と、ウィンドウを非アクティブにした時刻と、アクティブなウィンドウに表示されているＷｅｂページとに基づいて、アクティブ期間を抽出する。Ｗｅｂアクティブ期間テーブルＴＢ３の各行にアクセスすることによって、上記抽出手順を取得することができる。

アクティブ期間抽出手段１２は、アクティブ期間ａｐの注目度Ａｔｔ（ａｐ）を算出する。具体的には、アクティブ期間内に、ユーザが行った各操作について、印刷等、ユーザが意識的に実行した操作ほど、大きく重み付けされたポイントを与え、アクティブ期間内の全ての操作のポイントを積算することによって、アクティブ期間ａｐの注目度Ａｔｔ（ａｐ）を求める。この場合、次の式（１）によってアクティブ期間ａｐの注目度Ａｔｔ（ａｐ）を求める。

操作種類は、Ｗｅｂページ閲覧時間、コピー、印刷、マウス操作、キーボード入力、文字列選択である。

アクティブ期間抽出手段１２は、抽出したアクティブ期間を、操作履歴取得手段１１に送信する。

Ａｔｔ（ａｐ）：アクティブ期間ａｐの注目度、
Ｅ_ｉ：操作種類ｉの重み付け係数、
Ｆｒ_ｉ：アクティブ期間ａｐ内における操作種類ｉの発生回数、
ａｐ：アクティブ期間、
ｉ：操作期間。

次に、Ｗｅｂページｕｒｌの重要度を算出する。操作履歴抽出装置ＥＸ１が記録した全ての期間、または、指定した期間（今週、昨日、現在から１２時間以内等）におけるＷｅｂページｕｒｌの重要度（ＩＷ（ｕｒｌ，ｓｔ，ｅｔ））は、全ての期間、または指定された期間内に、Ｗｅｂページｕｒｌを表示していたアクティブ期間ａｐ_ｊの注目度の和であるとする。次の式（２）によって、Ｗｅｂページｕｒｌを表示していたアクティブ期間ａｐ_ｊの注目度の和を求める。

よって、注目度の高いアクティブ期間に、多く表示されたＷｅｂページが、高い重要度を持つ。

ＩＷ（ｕｒｌ，ｓｔ，ｅｔ）：期間［ｓｔ，ｅｔ］におけるＷｅｂページＵＲＬの重要度、
ａｐ_ｊ：期間［ｓｔ，ｅｔ］において、Ｗｅｂページｕｒｌ（ＵＲＬ）を表示していたアクティブ期間、
ｕｒｌ：Ｗｅｂページ、
ｊ：Ｗｅｂページｕｒｌの表示回数。

ここで、期間［ｓｔ，ｅｔ］は、１日単位の文書重要度を算出する場合、１日おきに設定し、１ヶ月単位で文書重要度を算出する場合、１ヶ月おきに設定する。

次に、操作履歴抽出装置ＥＸ１は、蓄積したデータを、操作履歴加工サーバＳＶ２に送信する。

操作履歴加工サーバＳＶ２は、受け取った操作履歴から、特徴的なキーワードを抽出し、モバイル端末ＭＴ１、ＭＴ２、ＭＴ３の表示画面を制御するサーバである。

操作履歴を加工する場合に、次の作業を行う。つまり、
１．操作履歴のテキスト中に含まれている特徴的なキーワードを抽出する作業と、
２．ユーザの操作履歴に基づいて、キーワードの重要度を決定する作業と、
を行う。

上記「特徴的なキーワード」は、固有の表現を持つ複合名詞（人名、地名、国名、企業名、製品名、政党名、公園名、施設名、惑星名、空港名、番組名、動物名、植物名、車名、乗り物名、観光名所名、話題名、事件名、競技名、大会名等、話題の５Ｗ１Ｈとなりやすい表現）や、検索エンジン等で検索される頻度の高いキーワードである。

上記「特徴的なキーワード」は、Ｗｉｋｉｐｅｄｉａ等のオンライン辞書サイトの見出し語等である。

キーワード抽出手段２３は、履歴テキスト中の辞書に含まれているキーワードを抽出する。また、辞書内のキーワードで、前後のどちらか一方が重複するキーワード（例：東京都、京都）があれば、より長いキーワードを抽出する。

以下、断りの無い限り、ここで定義した「特徴的なキーワード」を、「キーワード」と呼ぶ。

キーワード重要度算出手段２４は、抽出されたキーワードの重要度を決める。つまり、抽出したキーワードの重要度を決める場合、ユーザのＷｅｂページ等の電子ファイルの閲覧時間や、マウス、キーボード等の「ユーザ操作履歴を考慮したキーワード重要度」と、キーワードが予め持っている固有の重要度である「キーワード固有重要度」との双方を用いて、抽出したキーワードの重要度を決める。

また、ユーザの操作履歴を用いてキーワード重要度を算出する式は、次の４つである。

１．キーワードｋの重要度Ｈ（ｋ_{ｉｗ（ｕｒｌ，ｓｔ，ｅｔ）}）を決定する式は、閲覧時間、操作履歴、ＨＴＭＬ構造を考慮した式であり、次のとおりである。

キーワードｋの重要度Ｈ（ｋ_{ｉｗ（ｕｒｌ，ｓｔ，ｅｔ）}）＝ＩＷ（ｕｒｌ，ｓｔ，ｅｔ）×ｆｒｅｑ（ｋ_{ｉｗ（ｕｒｌ．ｓｔ．ｅｔ）}）×ＨＴＭＬ（ｋ_{ｉｗ（ｕｒｌ，ｓｔ，ｅｔ）}）
である。

なお、上記ｆｒｅｑ（ｋ_{ｉｗ（ｕｒｌ．ｓｔ．ｅｔ）}）は、キーワードｋの頻度である。上記ＨＴＭＬ（ｋ_{ｉｗ（ｕｒｌ，ｓｔ，ｅｔ）}）は、ＨＴＭＬ構造を考慮したキーワードｋ_{ｉｗ（ｕｒｌ．ｓｔ．ｅｔ）}）の重みである。上記ｋ_{ｉｗ（ｕｒｌ．ｓｔ．ｅｔ）}は、アクティブ期間ＩＷ（ｕｒｌ，ｓｔ，ｅｔ）に含まれているＷｅｂページ内にあるキーワードである。

２．キーワード重要度ＣＵ（ｋ）を決定する式は、ユーザが押したアンカーリンクに含まれているキーワードの重要度を決定する式である。つまり、通常のＷｅｂサーフィンにおいて、ユーザは、興味のあるアンカーリンクテキストを探し、このアンカーリンクをクリックする手順を踏みながら、Ｗｅｂサーフィンを行う。このために、アンカーリンクテキストに、キーワードが含まれていれば、アンカーリンクテキストに含まれているキーワードは、ユーザにとって興味のあるキーワードであると言える。

そこで、インターネットエクスプローラコンポーネントのリファラーを調べることによって、ユーザのクリックしたアンカーリンクテキストを取得する。また、アンカーリンクに含まれているテキストは、クリック数に応じて重要であるとする。

キーワード重要度ＣＵ（ｋ）は、アンカーリンクのクリック履歴を用いたキーワード重要度を算出する式であり、次の通りである。

キーワード重要度ＣＵ（ｋ）＝ｃｌｉｃｋ＿ｕｎｋｅｒ＿ｌｉｎｋ（ｋ）
である。

なお、上記キーワード重要度ＣＵ（ｋ）は、ユーザが押したアンカーリンクに含まれているキーワードｋの重要度である。上記ｃｌｉｃｋ＿ｕｎｋｅｒ＿ｌｉｎｋ（ｋ）は、キーワードｋを含むアンカーリンクを押した回数である。上記ｋは、キーワードである。

３．キーワードの重要度Ｂ（ｋ）を決定する式は、ブックマークしたページに含まれているキーワードの重要度Ｂ（ｋ）を決定する式であり、つぎの通りである。

キーワードの重要度Ｂ（ｋ）＝α×ｆｒｅｑ（ｋ）×ＨＴＭＬ（ｋ）
である。

つまり、ブックマークしたページは、ユーザにとって興味のあるページであるので、そのページに含まれているキーワードは、重要であると考えられる。ブックマークのデータを、ＩＤコンポーネントから取得する。

４．関連キーワードの重要度を決定する。

この手法（テキストに出現するキーワードの関連語を同様に重み付けすること（出現したキーワードと同様に扱うこと））によって、閲覧履歴には出現しないが、ユーザにとって重要である関連キーワードの重みを考慮することができ、これによって、より精度の高いキーワードの重要度を算出することができる。

関連キーワードについては、後述するが、閲覧履歴に出現したキーワードの関連キーワードの重要度を決定する。つまり、
関連キーワードｒｋの重みＲＫ（ｒｋ_{ＩＷ（ｕｒｌ，ｓｔ，ｅｔ）}）＝α・ＩＷ（ｕｒｌ，ｓｔ，ｅｔ）×ｆｒｅｑ（ｒｋ_{ＩＷ（ｕｒｌ，ｓｔ，ｅｔ）}）×ＨＴＭＬ（ｒｋ_{ＩＷ（ｕｒｌ，ｓｔ，ｅｔ）}）
である。

なお、上記ｒｋ_{ＩＷ（ｕｒｌ，ｓｔ，ｅｔ）}は、Ｗｅｂページｕｒｌに含まれているＷｅｂページ内にあるキーワードの関連キーワードである。

そして、上記ユーザの操作履歴を用いてキーワード重要度を算出する上記４つの式の線形和が、ユーザの操作履歴を考慮したキーワードの重要度である。このように、ユーザ毎にキーワード重要度を求めることによって、ユーザ毎に、各キーワードの重要度が変化するので、ユーザの嗜好を考慮したキーワードの重要度を決定することができる。

次に、キーワード固有重要度の決定手法について説明する。

以下に述べる５通りの尺度に基づいて、キーワード固有重要度を求める。なお、これらの処理は、キーワード抽出手段２３が実行する。また、以下では、断りの無い限り、係数α、β、γ、δは、各重要度を調整するパラメタであり、算出式毎に、パラメタの値は異なる。

１．検索エンジンのＨＩＴ数のｉｄｆ
検索エンジンに、キーワードを入力し、出力されたＷｅｂページのＨＩＴ数のｉｄｆ値を、キーワード固有の重要度であるとする。ＷｅｂページのＨＩＴ数が、高ければ高いほど、特徴的でないキーワードである可能性が高いので、この指標を導入する。

キーワードｋの重要度ＩＲ（ｋ）は、検索エンジンのＨＩＴ数を用いた算出式であり、次の通りである。

キーワードｋの重要度ＩＲ（ｋ）＝ｌｏｇ（Ｎ／ｎ_ｋ）
である。

なお、上記Ｎは、全体のＷｅｂページ数である。上記ｎ_ｋは、キーワードｋを入力したときにおける検索エンジンのＨＩＴ数である。

２．Ｗｉｋｉｐｅｄｉａ内でのリンク数
Ｗｉｋｉｐｅｄｉａは、見出し語（キーワード）毎に、ページを持つ特性がある。そして、各見出し語間は、互いに密なリンク構造を持っている。そこで、実施例１では、キーワードが、Ｗｉｋｉｐｅｄｉａの見出し語に存在していれば、Ｗｉｋｉｐｅｄｉａのハイパーリンク構造を考慮した重要度を、そのキーワードに付与する。

キーワード重要度ＷＬ（ｋ）は、Ｗｉｋｉｐｅｄｉａのリンク構造を用いたキーワード重要度であり、次の通りである。

また、リンク構造を持つ文書のランキングに用いられるＰａｇｅＲａｎｋやＨＩＴＳアルゴリズムを用いて、文書の重みを算出し、見出し語（キーワード）の重要度決定に使用する。

３．Ｗｉｋｉｐｅｄｉａ内におけるキーワード出現頻度
Ｗｉｋｉｐｅｄｉａ内において、出現頻度が特徴的なキーワードは、重要であると、予想される。そこで、Ｗｉｋｉｐｅｄｉａ内におけるキーワードのｄｆ、ｔｆ、ｉｄｆ、ｔｆ・ｉｄｆ値を用いて、キーワード重要度を算出する。

４．検索エンジンのクエリログ
ｇｏｏ（登録商標）等のポータルサイト内における検索クエリのログを用いて、キーワードの重要度を決定する。検索クエリの傾向として、主に長期にわたって頻繁に検索されているキーワードや、一時的に話題になり、急激に検索回数が上昇するキーワード等、検索クエリの傾向は、様々である。実施例１において、このような傾向を、キーワードの重要度として考慮する。キーワードｋの重要度ＩＲＦ（ｋ）は、検索エンジンのクエリログを用いたキーワードｋの重要度であり、次の通りである。

キーワードｋの重要度ＩＲＦ（ｋ）＝α・ｆｒｅｑ_ｙｅａｒ（ｋ）＋β・ｆｒｅｑ_{ｍｏｎｔｈ}（ｋ）＋γ・ｆｒｅｑ_ｗｅｅｋ（ｋ）＋δ・ｌｏｇ（ｆｒｅｑ_ｙｅａｒ（ｋ）＋ｆｒｅｑ_{ｍｏｎｔｈ}（ｋ）＋ｆｒｅｑ_ｗｅｅｋ（ｋ）／ｆｒｅｑ_ｙｅａｒ（ｋ）＋ｆｒｅｑ_{ｍｏｎｔｈ}（ｋ））
５．キーワードの長さ
一般的に、特徴的なキーワードは、長ければ長いほど、特徴的であると言える。たとえば、鈴木と鈴木太郎というキーワードがある場合、鈴木だけでは、同姓全体の鈴木を指すが、鈴木太郎は、鈴木太郎という個人を指す。このように、キーワードは長ければ長いほど、意味的に絞り込まれているキーワードであり、長ければ長いほど、文字単位での出現確率も低くなるので、長いキーワードほど特徴的である。

つまり、特徴的キーワードを検出する場合、ＰＣ上の操作履歴から、特徴的キーワードを検出し、上記特徴的キーワードとして、複合語を検出する。「鈴木太郎」という氏名に着目した場合、「鈴木」、「太郎」と分けてキーワードを作るのではなく、「鈴木太郎」という複合語として特長的キーワードを検出する。

そこで、Ｌｅｎ（ｋ）は、キーワードｋの文字長を考慮した重みであり、次の通りである。

なお、上記ｌｅｎｇｔｈ（ｋ）は、キーワードｋの文字長である。

そして、上記各重要度の線形和を、最終的なキーワード固有の重要度として算出する。最後に、ユーザの嗜好を考慮したキーワードの重要度と、キーワード固有の重要度との線形和を、ユーザのキーワード重要度として用いる。

次に、モバイル端末での画面表示制御手段２６について説明する。

画面表示制御手段２６は、画面表示において、期間毎に分けて、キーワードを表示する画面、お気に入りのキーワードを登録・一覧できる画面等、様々な視点から、キーワードを閲覧する画面を表示する。

キーワードを表示する際、先程算出したユーザのキーワード重要度順に、キーワードを並べる。そして、表示されているキーワードには、それぞれハイパーリンクが張られ、キーワードを選択すると、そのキーワードに基づいて、様々な検索エンジンを検索するための覧ページが表示される。

検索エンジンは、ニュース検索、画像検索、Ｗｉｋｉｐｅｄｉａ検索、ブログ検索、２ｃｈ検索、動画検索、ローカル検索、着メロ検索、テレビ番組検索、教えてｇｏｏ検索オークション検索等々、ＡＰＩとして公開されている様々な検索システムを含む。

そして、使用したい検索エンジンを選択することによって、そのキーワードを検索クエリとした検索結果が表示される。

上記実施例において、上記一連の作業によれば、ユーザは、検索キーワードを入力せずに、ユーザが興味を持っているキーワードを起点として、様々な情報検索が可能になり、ユーザは、様々な種類の検索エンジンを独立して使用せずに、さらに検索エンジンの種類や検索サイトのＵＲＬを知らなくても、思い通りの検索をスムーズに行うことができる。

図８は、加工済み履歴データベースＤＢ４の内容の例を示す図である。

図８には、操作履歴管理テーブルＴＢ１１と、ユーザ毎のキーワード重要度テーブルＴＢ１２が記載されている。

図９は、その他のデータベースの内容の例を示す図である。

図９には、その他のデータベースとして、特徴的キーワードテーブル（辞書）ＴＢ１３と、ユーザ認証テーブルＴＢ１３とが記載されている。

図１０は、コンテンツデータベースＤＢ３の内容の例を示す図である。

図１０には、外部コンテンツテーブルＴＢ１５と、Ｗｅｂページ保存テーブルＴＢ１６とが記載されている。

図１１、図１３、図１４は、実施例１における画面表示のイメージを示す図である。

図１５は、画面表示制御手段２６による表示例を示す図である。

図１５に示す画面表示制御手段２６の「マイメニュー」に含まれているお気に入りキーワード表示機能は、ユーザが興味をもったキーワードを、ユーザが登録することによって、本装置で検出されたキーワードと同様に、一連の検索を行うことが可能になる機能である。お気に入りキーワードを追加する場合、図１５に示す「マルチメディア検索」から追加する。なお、図１２に示すキーワード検索画面がこの機能である。

また、図１４の右側の画面（図１４（３））が、お気に入りキーワードからキーワードを選択する画面である。そして、お気に入りキーワードは、登録日、ジャンル、キーワードの３項目からなるお気に入りキーワードテーブルに記録される。

図１６は、お気に入りキーワードテーブルの例を示す図である。

また、キーワードに関連する関連キーワードを同時に表示することによって、ユーザは、新たに興味を持ったキーワードを探索することができる。さらに、そのキーワードの関連キーワードに基づいて、種となる初期表示キーワードから、新しく興味のあるキーワードを新しく発見することができ、そのキーワードに関連する新しい情報を得ることができる。

次に、実施例１において、関連キーワードの取得アルゴリズムについて記載する。

図１２は、関連キーワードの表示に関する画面イメージを示す図である。

実施例１では、Ｗｉｋｉｐｅｄｉａのリンク構造を用いて関連キーワードを抽出する手法と、共起頻度を用いて関連キーワードを抽出する手法とを採用している。

１．Ｗｉｋｉｐｅｄｉａのリンク構造を用いて関連キーワードを抽出する手法
Ｗｉｋｉｐｅｄｉａの見出し語のページには、複数のリンク構造があり、これらのリンク構造を用いて、キーワード固有重要度の高いものを、関連キーワードとして抽出する。関連キーワード抽出に使用するリンク構造は、以下のものである。

１−１：Ｗｉｋｉｐｅｄｉａの見出し語内のページに含まれるリンク、
１−２：Ｗｉｋｉｐｅｄｉａの見出し語内のページに含まれるリンク先のリンク、
１−３：Ｗｉｋｉｐｅｄｉａの見出し語内のページに含まれる双方向から張られている相互リンク、
１−４：Ｗｉｋｉｐｅｄｉａの見出し語の被リンク。

上記４通りのリンク構造を考慮した関連キーワード抽出アルゴリズムを用いるが、リンク構造内の重要度決定のバイアスとして、リンク１−３、１−１、１−４、１−２の順に重要である。

２．共起頻度を用いて関連キーワードを抽出する手法
Ｗｅｂニュースやブログ等、同一文書内において、互いに同時に頻出するキーワードを、関連キーワードとして抽出する。同時出現頻度が高ければ高いほど、そのキーワードは、関連があるとし、重要な関連キーワードであるとして扱う。

そして、最終的に、手法１と手法２と（上記Ｗｉｋｉｐｅｄｉａのリンク構造を用いて関連キーワードを抽出する手法と、共起頻度を用いて関連キーワードを抽出する手法と）によって取得した関連キーワードの重みの線形和を、関連キーワード重要度とし、重要な関連キーワードとして表示し易くする。

次に、お勧めキーワード出力手段２７について説明する。

お勧めキーワード出力手段２７は、お気に入りキーワードをユーザがキーワードリストに登録することによって、関連するニュース等を、キーワードリストから検索できるが、ユーザが登録している複数のキーワードから、ユーザの嗜好を考慮したキーワードを推薦する。

ユーザの嗜好を考慮したキーワードを推薦する場合、キーワードをアイテムとした協調フィルタリング的な手法を用いて実現する。

現在、主に使われている検索エンジンは、ユーザが検索キーワードを入力し、検索結果を得る手法が主流であるが、実施例１では、キーワードを入力する手間を省くことができ、さらに、種となるキーワードから、ユーザの潜在的な興味を引き出すことができるインタフェースを備えるシステムである。つまり、このインタフェースは、関連キーワードを表示する部分に相当する。

従来の履歴の可視化システムは、画面の広いＰＣ端末上で表示する手法が主流であり、画像ユーザの履歴から特徴的なキーワードを抽出し、日付毎に表示することによって、モバイル端末上で、履歴の可視化が可能になる。

上記実施例による直接的な効果は、次の通りである。すなわち、上記実施例によれば、キーワード抽出の質が向上する。つまり、上記実施例によれば、Ｗｉｋｉｐｅｄｉａ等の辞書サイトの見出し語を用いることによって、従来技術では抽出することが困難である話題的なキーワードや人名、地名、組織名等、固有表現の定義よりも広い範囲の固有の表現を、容易に抽出することができる。

また、上記実施例によれば、文書からキーワードを切り出す場合おけるキーワードの誤抽出が減る。

さらに、上記実施例によれば、ユーザの詳細なデバイス操作や操作時間を考慮するので、従来手法よりも、幅広くかつ精度の高い特徴的なキーワードを抽出することができる。

上記実施例によれば、モバイル端末における履歴を有効に活用することができる。つまり、ＰＣ上から、ユーザの詳細な操作履歴を取得し、サーバに送信することによって、モバイル端末上で、情報量が豊富で詳細なユーザの嗜好を反映する情報検索を実現することができる。

また、上記実施例によれば、ユーザの嗜好を考慮したキーワード提示型検索を実現することができる。つまり、ユーザがキーワードを入力せずに、個々のユーザの嗜好に合ったキーワードを自動的に提示することができ、これら提示されたキーワードに基づいて、ニュース検索、画像検索、Ｗｉｋｉｐｅｄｉａ検索、ブログ検索、２ｃｈ検索、動画検索、ローカル地域検索、着メロ検索、テレビ番組検索、教えてｇｏｏ検索、オークション検索等々、様々な検索システム上で検索することができる。モバイル端末において、キーワードを入力せずに、多くの情報を検索することができ、このキーワードを画像検索すると、どうなるのだろうという、ユーザの好奇心を刺激するキーワード提示型マルチメディア検索を実現することができる。

さらに、上記実施例によれば、ユーザの嗜好に合った関連キーワードを表示することができる。つまり、ユーザの嗜好にあったキーワードが表示されていなくても、ユーザの履歴に基づいて抽出したキーワードの関連キーワードを辿ることによって、ユーザの興味を引くキーワードを検索することができる。また、お勧めキーワード出力手段２７を用いたキーワード提示機能によって、ユーザが登録しているお気に入りキーワードリストや、ユーザ履歴から抽出したキーワードに応じて、新たにお勧めキーワードを提示することができる。

しかも、上記実施例によれば、特徴的なキーワードを用いたモバイル端末上における履歴を可視化することができる。つまり、従来の履歴可視化システムでは、ＰＣ上でＷｅｂ画像等を並べることによって、履歴の可視化を実現しているが、上記実施例では、特徴的なキーワードを抽出し、この抽出されたキーワードを表示するので、狭い画面でも直観的に履歴を可視化できる。

そして、上記実施例によれば、過去に見た話題を再追跡することができる。つまり、ある話題についてのニュースを、過去に見たことがあり、その話題についてのニュースが気になった場合、上記実施例では、操作履歴に基づいて、ユーザの興味あるキーワードを蓄積・提示するので、ニュースの再追跡が可能である。

また、上記実施例によれば、次のような間接的な効果を奏する。

まず、上記実施例によれば、キーワードと連動した広告表示回数を増加することができる。つまり、従来のキーワード連動型広告は、ユーザが入力したキーワードについて広告を表示する。上記実施例では、ユーザの履歴から抽出したユーザの興味の高いキーワードを並べ、それらを選択するだけで検索が可能になるので、検索回数の増加が見込まれ、より多くの広告を表示することができる。

また、上記実施例では、広告依頼者の広告キーワード設定が容易である。つまり、従来のキーワード連携型広告は、ユーザが入力するあらゆる広告キーワードに対して広告を用意する必要があるので、無限に存在する広告キーワードに対応する必要がある。しかし、上記実施例では、広告キーワードは、辞書に予め用意されているキーワード以外のキーワードが入力されず、かつキーワードの辞書数は有限であるので、広告表示の際の広告キーワード設定が容易であり、さらに関連キーワードを用いるので、ユーザが入力した広告キーワードについて広告を表示できないという問題が生じない。

さらに、上記実施例では、特徴的なキーワードのマルチメディア検索傾向を高い精度で調べることができる。つまり、従来の検索方法では、ユーザは検索目的を定めた後に、検索エンジンを指定し、検索したいキーワードを入力し、検索するという手順を実行する。しかし、上記実施例では、ユーザの嗜好を考慮したキーワードを最初に提示し、ユーザは、その中のキーワードに興味を示せば、複数の検索エンジンを表示し、ユーザは、検索エンジンを選択することによって検索する。この手順によれば、ユーザは、検索目的、使用する検索エンジン等を考える必要がなく、検索することができる。したがって、提示されたキーワードからどんな検索をしたいかというキーワード毎の検索傾向を、従来手法に比べて、高い精度で調べることができる。

しかも、上記実施例では、隙間時間を有効活用することができる。つまり、従来の検索方法では、ユーザが検索キーワードを入力することによって、該当する情報を探す作業を行う。しかし、様々な面白い情報サイト等の存在やＵＲＬを網羅しているユーザは少なく、さらに、電車やバスの待ち時間等の隙間時間に、とっさに興味のある検索キーワードを思いつくユーザも少ない。上記実施例では、ユーザに関係があり好奇心をそそるキーワードを並べ、多数の検索エンジンと連携することによって、日常生活の隙間時間を、知識の向上や趣味の情報検索等に有効活用することができる。上記実施例は、従来の「求める情報を探す」検索ではなく、「面白い情報を探す」新しい検索を実現する。また、面白い情報を提示すると、ユーザはその情報に沿った行動を起こすことが予測されるので、上記実施例は、行動意思決定補助装置であるとも言える。

そして、上記実施例は、隙間時間を消費することができる。つまり、上記とは対称的に、ユーザの好奇心をそそるキーワードを並べるインタフェースは、文字入力を不要とするので、何気なく画面を見て、ボタンを押すだけで、興味のある情報に辿り着くことができる可能性が高い。このように、特に目的のないユーザの隙間時間を、消費することができる。

上記実施例は、特定のデバイスから、特徴的なキーワードを抽出し、この抽出された特徴的なキーワードを、「別の」デバイス上で表示させる実施例である。そして、上記特徴的なキーワードのみを表示するようにすれば、画面の小さなモバイル端末で特に有効である。なお、上記特徴的なキーワードを表示する装置は、モバイル機器以外の装置でもよい。

すなわち、上記実施例は、所定のユーザが、所定のデバイスを操作した操作内容を検出する操作内容検出手段と、上記所定のユーザがＰＣを操作した操作時間を検出する操作時間検出手段と、上記検出された操作内容と操作時間とに基づいて、上記ユーザにとって特徴的なキーワードを検出する特徴的キーワード検出手段とを有する特徴的キーワード検出装置である。なお、上記所定のデバイスは、ＰＣ、携帯電話機、ＰＤＡ、カーナビゲーションシステム等、Ｗｅｂ閲覧が可能な全てのデバイスである。

また、上記実施例は、上記検出された操作内容と操作時間とに基づいて、特徴的キーワードの重要度を算出する特徴的キーワードの重要度算出手段と、キーワード固有の重要度を算出するキーワード固有の重要度算出手段と、上記算出された特徴的キーワードの重要度を、記憶装置に記憶する特徴的キーワードの重要度記憶手段と、上記操作内容と操作時間と、上記キーワード固有の重要度算出手段が算出したキーワード固有の重要度とに基づいて、最終的なキーワード重要度を決定する最終的キーワードの重要度決定手段と、キーワードに関連する関連キーワードを抽出する関連キーワード抽出手段と、モバイル端末上で、特徴的キーワードのみを並べて表示させる表示制御手段とを有する特徴的キーワード検出装置の例である。

また、上記実施例を方法の発明として把握することができる。つまり、上記実施例は、所定のユーザが、所定のデバイスを操作した操作内容を、操作内容検出手段が、検出し、記憶装置に記憶する操作内容検出工程と、上記所定のユーザがＰＣを操作した操作時間を、操作時間検出手段が、検出し、記憶装置に記憶する操作時間検出工程と、上記検出された操作内容と操作時間とに基づいて、上記ユーザにとって特徴的なキーワードを、特徴的キーワード検出手段が、検出し、記憶装置に記憶する特徴的キーワード検出工程とを有する特徴的キーワード検出方法の例である。

この場合、上記デバイスは、ＰＣであり、上記特徴的キーワード検出工程は、ＰＣ上の操作履歴から、特徴的キーワードを検出する工程であり、上記特徴的キーワードとして、複合語を検出する工程である。また、上記実施例は、上記特徴的キーワード検出工程で検出された特徴的キーワードと、上記特徴的キーワードと関連する関連語とを、画面表示制御手段が、モバイル端末に送信し、上記モバイル端末の表示画面において、上記特徴的なキーワードを一覧表示させるように制御する画面表示制御工程を有する例である。さらに、上記実施例は、上記検出された操作内容と操作時間とに基づいて、特徴的キーワードの重要度を、特徴的キーワードの重要度算出手段が算出する特徴的キーワードの重要度算出工程と、キーワード固有の重要度を、キーワード固有の重要度算出手段が、算出し、記憶装置に記憶するキーワード固有の重要度算出工程と、上記算出された特徴的キーワードの重要度を、記憶装置に記憶する特徴的キーワードの重要度記憶工程と、上記操作内容と操作時間と、上記キーワード固有の重要度算出工程が算出したキーワード固有の重要度とに基づいて、最終的キーワードの重要度決定手段が、最終的なキーワード重要度を決定し、記憶装置に記憶する最終的キーワードの重要度決定工程と、関連キーワード抽出手段が、キーワードに関連する関連キーワードを抽出し、記憶装置に記憶する関連キーワード抽出工程と、表示制御手段が、モバイル端末上で、特徴的キーワードのみを並べて表示させる表示制御工程とを有する特徴的キーワード検出方法の例である。

そして、上記実施例は、上記特徴的キーワード検出装置を構成する各手段として、コンピュータを機能させるプログラムの例である。

さらに、上記実施例は、上記プログラムを記録したコンピュータ読取可能な記録媒体の例である。上記記録媒体は、ＣＤ、ＤＶＤ、ＨＤ、光ディスク、光磁気ディスク、半導体メモリ等が考えられる。

［キーワード固有重要度算出方法］
１．検索エンジンのＨＩＴ数のＩＤＦ。

検索エンジンにキーワードを入力し、出力されたＷｅｂページのＨＩＴ数の改良ＩＤＦ値を、キーワード固有の重要度とする。なお、ＷｅｂページのＨＩＴ数の改良ＩＤＦ値は、通常のＩＤＦ値の算出方法とは異なるので、「改良」ＩＤＦと表記し、下記のキーワードｋの重要度ＷｅｂＩＤＦ（ｋ）である。Ｗｅｂページの検索ＨＩＴ数が高ければ高いほど、キーワードが特徴的でない可能性が高いので、検索エンジンのＨＩＴ数の改良ＩＤＦ（キーワードｋの重要度ＷｅｂＩＤＦ（ｋ））を導入する。なお、検索エンジンのＨＩＴ数のＩＤＦと、リンク解析を用いたキーワード重要度とが、キーワード固有の重要度である。

以下に、検索エンジンのＨＩＴ数を用いたキーワードｋの重要度ＷｅｂＩＤＦ（ｋ）について説明する。

ＷｅｂＩＤＦ（ｋ）＝ｌｏｇ_２（Ｎ／（ｎ_ｋ＋１）＋１）
なお、ＷｅｂＩＤＦ（ｋ）：検索エンジンのＨＩＴ数を用いたキーワードｋの重要度、
Ｎ：キーワードｋの検索エンジンのＨＩＴ数の閾値、
ｎ_ｋ：キーワードｋを入力したときの検索エンジンのＨＩＴ数
である。

ここで、キーワードｋの検索エンジンのＨＩＴ数の閾値Ｎとして、検索エンジンのＨＩＴ数ｎ_ｋを降順に並べて不必要なキーワードが少なくなった辺りにおける検索エンジンのＨＩＴ数ｎ_ｋの値を用いる。

閾値Ｎを、このようにする理由は、検索エンジンのＨＩＴ数ｎ_ｋが高ければ高いほど、一般的なキーワードである可能性が高く、閾値Ｎを設定すると、閾値Ｎ以上である検索エンジンのＨＩＴ数ｎ_ｋを持つキーワードｋの重要度ＷｅｂＩＤＦ値は、常に負になり、キーワードスコアとして低い値が算出されるからである。なお、実施例として、キーワードの閾値Ｎとして、２１００００００を用いた。

２．リンク解析を用いたキーワードの重要度。

次に、Ｗｉｋｉｐｅｄｉａのリンク構造を解析することによって得られるキーワード重要度決定手法について説明する。

一般的に、Ｗｅｂページの情報検索において、ＰａｇｅＲａｎｋやＨＩＴＳ等のリンク解析手法を用いて、Ｗｅｂページに重み付けをする。Ｗｅｂページを重み付けするので、結果的に、文書を重み付けしていると言える。上記実施例における手法は、重み付けの対象がキーワードである点が重要である。

本手法（リンク解析を用いたキーワードの重要度）は、ＨＩＴＳまたは、改良したＨＩＴＳアルゴリズムを用いて、Ｗｉｋｉｐｅｄｉａのページをランキングし、このページの順位から、見出し語の重要度を算出する。

ＨＩＴＳアルゴリズムは、全てのＷｅｂページが、権威のあるページ（ａｕｔｈｏｒｉｔｙ）と、リンク集であるページ（ｈｕｂ）との２通りで構成されていると定義する。そして、ＨＩＴＳアルゴリズムは、よいｈｕｂから多数リンクされているページほど、よいａｕｔｈｏｒｉｔｙであるという仮説と、よいｈｕｂは、多数のａｕｔｈｏｒｉｔｙのリンクを持っているという仮説とを、再帰的に繰り返すことによって、Ｗｅｂページをランキングする。

そして、ＨＩＴＳのアルゴリズムは、以下の式（５）で定義される。

なお、
ｈ（ｐ）：ページｐのｈｕｂ値、
ａ（ｐ）：ページｐのａｕｔｈｏｒｉｔｙ値。
である。

ここで、１番目の式であるページｐのｈｕｂ値ｈ（ｐ）においては、ページｐからページｐ’にリンクが張られている場合を考えている。２番目の式のａ（ｐ）であるページｐのａｕｔｈｏｒｉｔｙ値ａ（ｐ）においては、ページｐ’からページｐにリンクが張られている場合を考えている。

そして、これらの式に基づいて、Ｗｅｂページのランキングを行う。

ＰａｇｅＲａｎｋやＨＩＴＳアルゴリズムは、Ｗｅｂページのリンク構造をモデルにしたアルゴリズムであるので、リンク構造が密なＷｉｋｉｐｅｄｉａに、上記式（５）を適用すると、やや難がある。したがって、Ｗｉｋｉｐｅｄｉａのリンク構造に対応したアルゴリズムを定義する。

本アルゴリズムは、以下の式（６）で定義される。

常に、「ｈ（ｐ_１）→ａ（ｐ_２）」のグラフを考える。

なお、
ｈ（ｐ）：ページｐのｈｕｂ値、
ａ（ｐ）：ページｐのａｕｔｈｏｒｉｔｙ値、
ｆｌｉｎｋ（ｐ）：ページｐのリンク数、
ｂｌｉｎｋ（ｐ）：ページｐの被リンク数、
ｔｅｘｔ（ｐ）：ページｐに含まれているテキスト量、
ｒｅｄｉｒｅｃｔ（ｐ）：ページｐに張られているリダイレクト数、
ｍｕｌｔｉ（ｐ）：ページｐに含まれているＷｉｋｉｐｅｄｉａの多言語リンク数、
ｃａｔｅｇｏｒｙ（ｐ）：ページｐに含まれているＷｉｋｉｐｅｄｉａのカテゴリ数、
ｃｏｕｎｔ（ｐ）：ページｐ内の全てのリンク数合計。
である。

ここで、係数α、β、γ、δは、α＋β＋γ＋δ＝１を満たし、さらに１番目の式であるページｐのｈｕｂ値ｈ（ｐ）において、ページｐ’からページｐにリンクが張られている場合を考える。２番目の式であるページｐのａｕｔｈｏｒｉｔｙ値ａ（ｐ’）において、ページｐからページｐ’にリンクが張られている場合を考える。また、ｔｅｘｔ（ｐ）、ｒｅｄｉｒｅｃｔ（ｐ）、ｍｕｌｔｉ（ｐ）、ｃａｔｅｇｏｒｙ（ｐ）は、それぞれの値をラプラススムージングによって求めた値を用いる。ラプラススムージングは、以下の式（７）で表される。

なお、
ｗ_ｋ：キーワードｋの重要度、
Ｋ：キーワードｋの全体集合、またはキーワードの種類の数。
である。

ここで、係数αとして、０．５を用いる。なお、以下断りのない限り、ラプラススムージングを用いる際は、この定義（上記式（７））に従うものとする。

式（６）に示すページｐのａｕｔｈｏｒｉｔｙ値ａ（ｐ）のｌｏｇ（ｆｌｉｎｋ（ｐ）＋１）／ｌｏｇ（ｂｌｉｎｋ（ｐ）＋１）部分は、ページｐのリンク数と被リンク数との比率を表している。すなわち、被リンク数の量の割に、リンク数が多いページには、ページｐのａｕｔｈｏｒｉｔｙ値ａ（ｐ）として、低い値が付与される。一方、被リンク数は少ないが、リンク数が多い場合には、ページｐのａｕｔｈｏｒｉｔｙ値ａ（ｐ）として、高い値が付与される。

たとえば、地名等「日本」や「東京都」等のキーワードは、前者に該当し、デビュー間もない有名人等のキーワードは、後者に該当する。つまり、デビュー間もない有名人の場合、自分のページにリンクが多いが、社会的な有名度はまだ低いので、被リンク数が少ない。Ｗｉｋｉｐｅｄｉａのリンク構造は、時間を経るに連れて、密になる傾向があり、さらに地名等、広く使われるキーワードは、高い頻度でリンクが張られる傾向がある。これらの傾向は、ＨＩＴＳアルゴリズムにとって、好ましくないので、式（６）のようにして、改良を加えた。

つまり、ＨＩＴＳアルゴリズムは、リンクの数が多ければ多いほど、ページの重要度が大きく変化するアルゴリズムであり、地名やジャンル等の引用しやすいキーワード（リンクしやすいキーワード）は、ページの中身以上に多く引用される傾向があるので、これらのキーワードの重要度を適切な値にするために、式（６）に示すように改良を加えた。

また、ページｐのａｕｔｈｏｒｉｔｙ値ａ（ｐ）のページｐに含まれているテキスト量ｔｅｘｔ（ｐ）は、テキスト量が多ければ多いほど、高い値になる。すなわち、テキスト量ｔｅｘｔ（ｐ）は、多くの情報が記述されているキーワードは重要であるという指標である。Ｗｉｋｉｐｅｄｉａには、リンクは多数あるが、本文等の記述が殆どないページが多数ある。これらのサイトは、ｈｕｂであるとみなすことができ、ａｕｔｈｏｒｉｔｙ値を高くすると、アルゴリズム的に好ましくないので、このような指標（テキスト量ｔｅｘｔ（ｐ））を用いた。

つまり、このアルゴリズムは、最終的にａｕｔｈｏｒｉｔｙ値をキーワードの重要度とする。また、Ｗｅｂページにおいては、リンク集（ｈｕｂ）とａｕｔｈｏｒｉｔｙとの両方が重要なものとみなされるが、上記実施例では、ａｕｔｈｏｒｉｔｙのみをキーワードの重要度として用いるので、「〜一覧」、「○○○年の出来事」等のキーワードを、抽出対象外とするために、このようなアルゴリズムを適用する。ＨＩＴＳアルゴリズムは、よいｈｕｂとよいａｕｔｈｏｒｉｔｙとを抽出し、それらが相互に作用することでよいページをランキングする。したがって、ページのランキングの取得過程において、よいｈｕｂには、高いｈｕｂ値（ａｕｔｈｏｒｉｔｙ値は低い）がつき、よいａｕｔｈｏｒｉｔｙには、高いａｕｔｈｏｒｉｔｙ値（ｈｕｂ値は低い）がつき、これによって、アルゴリズムを実現する。

また、式（６）に示すページｐのａｕｔｈｏｒｉｔｙ値ａ（ｐ）におけるページｐに張られているリダイレクト数ｒｅｄｉｒｅｃｔ（ｐ）は、リダイレクトの数が多ければ多いほど、高い値になる。すなわち、リダイレクト数ｒｅｄｉｒｅｃｔ（ｐ）は、多くの呼ばれ方があるキーワードは重要であるという指標である。たとえば、「ダルビッシュ」というキーワードは、ダルビッシュ有やダルビッシュセファード・ファリード・有等、複数の呼び方があり、キーワードとして重要である。

また、式（６）に示すページｐのａｕｔｈｏｒｉｔｙ値ａ（ｐ）において、ページｐに含まれているＷｉｋｉｐｅｄｉａの多言語リンク数ｍｕｌｔｉ（ｐ）は、多言語でも多数取り上げられているキーワードは重要であるという指標である。たとえば、日本だけでなく海外でも評価の高い有名人等は、多言語リンク数ｍｕｌｔｉ（ｐ）が高い例として挙げられる。

Ｗｉｋｉｐｅｄｉａには、見出し語の多義性を考慮するために、リダイレクト（ｒｅｄｉｒｅｃｔ、転送リンク）が存在する。たとえば、図１７に示すように「イチロー」の見出し語には、「鈴木一朗」と「ＩＣＨＩＲＯ」のｒｅｄｉｒｅｃｔがある。ｒｅｄｉｒｅｃｔは、多義のキーワードを一意にまとめる効果だけでなく、キーワードの被リンクの数に大きな影響を持つので、図１８に示すように、ｒｅｄｉｒｅｃｔキーワードを親ノードにまとめることによって、多義キーワードの重要度を算出し、被リンク数の問題を解決する。

また、式（６）に示すページｐのａｕｔｈｏｒｉｔｙ値ａ（ｐ）のｃａｔｅｇｏｒｙは、Ｗｉｋｉｐｅｄｉａのカテゴリに多数含まれているキーワードほど重要であるという指標である。Ｗｉｋｉｐｅｄｉａのカテゴリは、キーワードを整理するために作成されているものが多く、多くのカテゴリに含まれているということは、幅広いジャンルを網羅していると言える。

ｈ（ｐ）の

部分（式（６）中の部分）は、ｈｕｂの持っているリンクの平均的な質を調べる指標である。多数のリンクを持っていても、リンク先のページの質が低ければ、そのｈｕｂの価値は低いと言えるので、上記指標（式（６））を導入した。

また、式（６）に示すページｐにおけるａｕｔｈｏｒｉｔｙ値ａ（ｐ）を計算する際に、次のように、キーワードの文字列から明らかにｈｕｂと思われるキーワードについては、常に、ページｐのａｕｔｈｏｒｉｔｙ値ａ（ｐ）＝１にする。明らかにｈｕｂと思われるキーワードの抽出規則の例を、以下に述べる。

・数値が並び、最後に「年」があるキーワード。（例）２００７年、
・数値が並び、最後に「年代」があるキーワード（例）１９８０年代、
・○月○日等のキーワード。（例）１２月２０日、
・○○の歴史等のキーワード。（例）アメリカの歴史、
・○○一覧等のキーワード。（例）日本の男優一覧、
・○○年の△△等のキーワード。（例）２００７年のＪリーグ。

そして、上記したＨＩＴＳまたは改良ＨＩＴＳアルゴリズムで求めたａｕｔｈｏｒｉｔｙ値とｈｕｂ値とを用いて、下のいずれかの式によって、キーワードのリンクスコアｌｉｎｋ＿ｓｃｏｒｅ（ｋ）を算出する。

ｌｉｎｋ＿ｓｃｏｒｅ（ｋ）＝ａ（ｐ_ｋ）
ｌｉｎｋ＿ｓｃｏｒｅ（ｋ）＝α・ｈ（ｐ_ｋ）＋β・ａ（ｐ_ｋ）
ｌｉｎｋ＿ｓｃｏｒｅ（ｋ）＝ｈ（ｐ_ｋ）×ａ（ｐ_ｋ）
ここで、係数αとβとは、α＋β＝１を満たす。

そして次に、上記で求めたリンクスコアを、降順に順位付けし、キーワードのリンクスコアの分布は、カンマ分布に従うと仮定し、以下の式によって、最終的なリンクスコアを算出する。

ｆｉｎａｌ＿ｌｉｎｋ＿ｓｃｏｒｅ（ｋ）＝ｅｘｐ（（ｌｏｇ（Ｒ＋１）・（ｔｏｔａｌ（Ｋ）−ｒａｎｋ（ｋ）＋１）^ａ）／（ｔｏｔａｌ（Ｋ））^ａ）−１
なお、
ｆｉｎａｌ＿ｌｉｎｋ＿ｓｃｏｒｅ（ｋ）：キーワードｋの最終リンクスコア、
ｒａｎｋ（ｋ）：リンクスコアから算出したキーワードｋの順位、
ｔｏｔａｌ（Ｋ）：キーワードの総数、
Ｒ：１位のキーワードの最終リンクスコア、
ａ：スコアの勾配係数。
である。

ここで、Ｒは、降順に順位付けした場合における１位（キーワードの順位が１位のａｕｔｈｏｒｉｔｙから算出した順位）のキーワードの最終リンクスコアである。

最終リンクスコアの最高スコアを１にしたければ、Ｒ＝１とする。最終リンクスコアの最高スコアを１００にしたければ、Ｒ＝１００とする。Ｒ＝１である場合またはＲ＝１００である場合に、最下位のリンクスコアは、限りなく０に近い値である。また、スコアの勾配係数ａの値が大きくなればなるほど、各順位におけるリンクスコアの差が大きくなる。実際の例において、スコアの勾配係数ａの値は、２〜５程度の値であることがよい。

このように、順位順に並べてスコアを算出することによって、値の正規化が可能になる。

［ユーザ操作履歴を考慮したキーワード重要度算出方法］
１．ユーザの押したアンカーリンクに含まれているキーワードの重要度決定。

通常のＷｅｂサーフィンにおいて、ユーザは、興味のあるアンカーリンクテキストを探し、この探したアンカーリンクをクリックする手順を実行し、Ｗｅｂサーフィンを行う。このために、アンカーリンクテキストに、キーワードが含まれていれば、このキーワードは、ユーザにとって興味のあるキーワードである。そこで、ＩＥコンポーネントのリファラー（現在いるページの１つ前のページのＵＲＬ）を調べることによって、ユーザがクリックしたアンカーリンクテキストを取得する。また、アンカーリンクに含まれているテキストは、クリック数に応じて重要である（テキストのクリック数が多いほど、重要である）。

次に、アンカーリンクのクリック履歴を用いたキーワード重要度（ユーザが押したアンカーリンクに含まれているキーワードｋの重要度Ｃｕ（ｋ））の算出式について説明する。

Ｃｕ（ｋ）＝ｃｌｉｃｋ＿ｕｎｋｅｒ＿ｌｉｎｋ（ｋ）、
なお、
Ｃｕ（ｋ）：ユーザが押したアンカーリンクに含まれているキーワードｋの重要度、
ｃｌｉｃｋ＿ｕｎｋｅｒ＿ｌｉｎｋ（ｋ）：キーワードｋを含むアンカーリンクを押した回数、
ｋ：キーワード。
である。

そして、最後に、操作履歴抽出装置が算出したＷｅｂページｐの重要度ＩＷを用いて、最終的なキーワード重要度を、以下の式（８）で算出する。

式（８）に示すＳｃｏｒｅ（ｋ）が、最終的なキーワードのランキングになる。ここで、ＩＷ（ｐ）の期間、ｓｔ，ｅｔは、ユーザが自由に指定できるものとし、記述を省略する。

なお、
ｐ：閲覧したＷｅｂページ、
Ｐ：閲覧した全てのＷｅｂページ集合、
ｋ_ｐ：閲覧したＷｅｂページｐに含まれているキーワードｋ、
Ｋ_ｔ：閲覧したＷｅｂページｐ中に含まれている全てのキーワードｋの集合、
ｔｆ（ｋ_ｐ）：閲覧したＷｅｂページｐ中に含まれているキーワードｋの頻度、
である。

なお、
ＩＷ（ｐ）：ＩＷ（ｐ，ｓｔ，ｅｔ）と同義。ｓｔ，ｅｔの記述は省略する、
Ｃｕ（ｋ_ｐ）：ユーザのクリックしたアンカーリンクにキーワードが含まれていれば、１を代入し、キーワードが含まれていなければ、０を代入する、
ａ：スコアの勾配係数。
である。

ここで、

は、キーワードの分布を考慮した重み付けである。一般的に多数の閲覧ページに広く分布するキーワードは、あまり重要でないと言える。そこで、勾配係数ａを、指数部分に設定することによって、出現ページが多ければ多いほど、キーワードのスコアを低くするように設定した。

本発明の実施例１である操作履歴抽出装置ＥＸ１を示すブロック図である。操作履歴抽出装置ＥＸ１の操作履歴の取得・記録の動作を示す図である。操作履歴加工サーバＳＶ２を示すブロック図である。ファイル属性情報データベース１４に格納されているテーブルの内容の例を示す図である。操作履歴データベース１３に格納されているテーブルの内容の例を示す図である。履歴の解析手順を示す図である。アクティブ期間の注目度の算出例を示す図である。加工済み履歴データベースＤＢ４の内容の例を示す図である。その他のデータベースの内容の例を示す図である。コンテンツデータベースＤＢ３の内容の例を示す図である。実施例１における画面表示のイメージを示す図である。関連キーワードの表示に関する画面イメージを示す図である。実施例１における画面表示のイメージを示す図である。実施例１における画面表示のイメージを示す図である。画面表示制御手段２６による表示例を示す図である。お気に入りキーワードテーブルの例を示す図である。実施例２において、リダイレクトの例を示す図である。実施例２において、リダイレクトを改良した後の例を示す図である。

符号の説明

ＴＥ１、ＴＥ２、ＴＥ３…ＰＣ端末、
ＥＸ１、ＥＸ２、ＥＸ３…操作履歴抽出装置、
ＳＶ２…操作履歴加工サーバ、
２１…操作履歴受信手段、
２２１…ユーザ認証手段、
２３…キーワード抽出手段、
２４…キーワード重要度算出手段、
２５…外部コンテンツ取得・蓄積手段、
２６…画面表示制御手段、
２７…お勧めキーワード出力手段、
ＤＢ１…辞書データベース、
ＤＢ２…認証データベース、
ＤＢ３…コンテンツデータベース、
ＤＢ４……加工済み履歴データベース、
ＭＴ１、ＭＴ２、ＭＴ３…モバイル端末。

Claims

所定のユーザが、所定のデバイスを操作した操作内容を検出する操作内容検出手段と；
上記所定のユーザがＰＣを操作した操作時間を検出する操作時間検出手段と；
上記検出された操作内容と操作時間とに基づいて、上記ユーザにとって特徴的なキーワードを抽出するキーワード抽出手段と；
上記検出された操作内容と操作時間とに基づいて、上記特徴的なキーワードの重要度を算出する特徴的キーワードの重要度算出手段と；
見出し語間でリンク構造を持つオンライン辞書サイトから、オンライン辞書サイト自体がもつリンク構造もしくはテキスト構造を解析することで辞書サイトの見出し語のリンクスコアを算出し、事前に決めた勾配係数によってゼロに減衰して収束するスコア関数により見出し語の最終スコアを算出し、見出し語をキーワードとして扱い最終スコアに基づいてキーワード固有の重要度を算出するキーワード固有の重要度算出手段と；
上記特徴的なキーワードの各々に対して、上記特徴的なキーワードの重要度と上記キーワード固有の重要度とに基づいて、最終的なキーワード重要度を決定する最終的キーワードの重要度決定手段と；
上記最終的なキーワード重要度に基づいて、端末上で、上記特徴的なキーワードを表示させる表示制御手段と；
を有することを特徴とする特徴的キーワード検出装置。
請求項１において、
キーワードに関連する関連キーワードを抽出する関連キーワード抽出手段と；
上記キーワード抽出手段が検出した特徴的なキーワードと、上記特徴的なキーワードと関連する関連語とを、モバイル端末に送信し、上記モバイル端末の表示画面において、上記特徴的なキーワードを、ユーザの指定した期間毎に、一覧表示させるように制御する画面表示制御手段と；
を有することを特徴とする特徴的キーワード検出装置。
請求項１または２において、
上記特徴的キーワードの重要度算出手段は、
上記特徴的なキーワードが上記所定のユーザが押したアンカーリンクに含まれている場合に、その頻度に応じて上記特徴的なキーワードの重要度を高く算出し、また、上記特徴的なキーワードが上記所定のユーザがブックマークしたページに含まれている場合に、その頻度に応じて上記特徴的なキーワードの重要度を高く算出する手段であることを特徴とする特徴的キーワード検出装置。
所定のユーザが、所定のデバイスを操作した操作内容を検出する操作内容検出工程と；
上記所定のユーザがＰＣを操作した操作時間を検出する操作時間検出工程と；
上記検出された操作内容と操作時間とに基づいて、上記ユーザにとって特徴的なキーワードを抽出するキーワード抽出工程と；
上記検出された操作内容と操作時間とに基づいて、上記特徴的なキーワードの重要度を算出する特徴的キーワードの重要度算出工程と；
見出し語間でリンク構造を持つオンライン辞書サイトから、オンライン辞書サイト自体がもつリンク構造もしくはテキスト構造を解析することで辞書サイトの見出し語のリンクスコアを算出し、事前に決めた勾配係数によってゼロに減衰して収束するスコア関数により見出し語の最終スコアを算出し、見出し語をキーワードとして扱い最終スコアに基づいてキーワード固有の重要度を算出するキーワード固有の重要度算出工程と；
上記特徴的なキーワードの各々に対して、上記特徴的なキーワードの重要度と上記キーワード固有の重要度とに基づいて、最終的なキーワード重要度を決定する最終的キーワードの重要度決定工程と；
上記最終的なキーワード重要度に基づいて、端末上で、上記特徴的なキーワードを表示させる表示制御工程と；
を有することを特徴とする特徴的キーワード検出方法。
請求項４において、
キーワードに関連する関連キーワードを抽出する関連キーワード抽出工程と；
上記キーワード抽出工程で検出された特徴的なキーワードと、上記特徴的なキーワードと関連する関連語とを、モバイル端末に送信し、上記モバイル端末の表示画面において、上記特徴的なキーワードを、ユーザの指定した期間毎に、一覧表示させるように制御する画面表示制御工程と；
を有することを特徴とする特徴的キーワード検出方法。
請求項４または５において、
上記特徴的キーワードの重要度算出工程は、
上記特徴的なキーワードが上記所定のユーザが押したアンカーリンクに含まれている場合に、その頻度に応じて上記特徴的なキーワードの重要度を高く算出し、また、上記特徴的なキーワードが上記所定のユーザがブックマークしたページに含まれている場合に、その頻度に応じて上記特徴的なキーワードの重要度を高く算出する工程であることを特徴とする特徴的キーワード検出方法。
請求項１〜請求項３のいずれか１項に記載の特徴的キーワード検出装置を構成する各手段として、コンピュータを機能させるプログラム。
請求項７に記載のプログラムを記録したコンピュータ読取可能な記録媒体。