JP4917061B2 - 特徴的キーワード検出装置、特徴的キーワード検出方法、プログラムおよび記録媒体 - Google Patents

特徴的キーワード検出装置、特徴的キーワード検出方法、プログラムおよび記録媒体 Download PDF

Info

Publication number
JP4917061B2
JP4917061B2 JP2008039674A JP2008039674A JP4917061B2 JP 4917061 B2 JP4917061 B2 JP 4917061B2 JP 2008039674 A JP2008039674 A JP 2008039674A JP 2008039674 A JP2008039674 A JP 2008039674A JP 4917061 B2 JP4917061 B2 JP 4917061B2
Authority
JP
Japan
Prior art keywords
keyword
importance
characteristic
user
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008039674A
Other languages
English (en)
Other versions
JP2009169924A (ja
Inventor
光正 近藤
哲之 森田
匡 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008039674A priority Critical patent/JP4917061B2/ja
Publication of JP2009169924A publication Critical patent/JP2009169924A/ja
Application granted granted Critical
Publication of JP4917061B2 publication Critical patent/JP4917061B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ユーザのPC上の履歴から、ユーザの嗜好を考慮した特徴的なキーワードを抽出し、携帯端末や車載機器等のモバイル端末上で、特徴的なキーワードを提示することによって、ユーザは、キーワードを入力せずに、モバイル端末上で、様々な情報を検索することができるキーワード提示型モバイル検索技術に関する。
キーワード提示型検索技術として、以下の5点が知られている。
(1)検索エンジンのユーザ全体の検索キーワードの頻度や、ブログ等のWebページで頻出するキーワードを抽出し、この抽出されたキーワードを、お勧め検索キーワードとして、ユーザに提示する技術。
(2)現在閲覧している新聞記事やブログ記事等に含まれているキーワードを提示するキーワード提示型検索。
(3)従来技術においてよく用いられるキーワードは、形態素であり、名詞の形態素の連続語を複合語として、キーワードを抽出する。
(4)人名、地名、組織名等の固有表現を、特徴的なキーワードとして抽出する。
(5)PC上の操作履歴を取得する技術が発明されている。
戸田浩之、中渡瀬秀一、片岡良治著「特徴的な固有表現を用いたラベル指向ナビゲーション手法の提案」情報処理学会論文誌:データベース、Vol.46、No.SIG13(TOD27)、pp.40-52、2005年 森田哲之、倉恒子、日高哲雄、大浦啓一郎、田中明通、加藤泰久、奥雅博著「Memory-Retriever:体験獲得情報を想起させる行動検索手法」情報処理学会論文誌、Vol48 No.3、pp.1197−1208、2007年
上記従来のキーワード提示型検索技術は、ある程度、特徴的であり、かつ話題となっているキーワードを提示できるという特徴があるが、ユーザの利便性を考えると、次の問題がある。
上記従来方法(1)では、話題となっているキーワードが、全てのユーザの嗜好に常に合うとは限らない。また、ユーザの興味のある分野が、他の分野と比べて、とても小さい場合、ユーザの嗜好に合うキーワードを抽出することができないという問題がある。
上記従来方法(2)では、該当する新聞記事やブログ記事のWebページを開かないと、キーワードを提示しないので、それらのページに辿り着くまでに時間がかかるという問題がある。
上記従来方法(3)では、単体の形態素のみをキーワードとして抽出すると、それらの文字列が何を表しているのかの意味合いが大変薄くなり、また一般的過ぎるので、クエリとしては不適切な場合が多いという問題がある。
上記従来方法(4)では、人名、地名、組織名等の固有表現は、特徴的なキーワードであるが、ユーザの興味を引くキーワードを全て網羅しているとは言い難く、さらなる広い範囲でキーワードを抽出する必要性があるという問題がある。
上記のように、上記従来方法では、ユーザ個々の好みを解析して提示するものではないので、ユーザ個々の嗜好を考慮したキーワードを提示できないという問題がある。
上記従来方法(5)では、PC上の操作履歴の取得は可能であるが、モバイル端末上では、性能的に端末操作の詳細な操作履歴を取得することが難しいという問題がある。
本発明は、モバイル端末上で、キーワードを入力せずに、複数の検索システム上で情報を検索することができる特徴的キーワード検出装置を提供することを目的とするものである。
本発明は、
所定のユーザが、所定のデバイスを操作した操作内容を検出する操作内容検出手段と;
上記所定のユーザがPCを操作した操作時間を検出する操作時間検出手段と;
上記検出された操作内容と操作時間とに基づいて、上記ユーザにとって特徴的なキーワードを抽出するキーワード抽出手段と;
上記検出された操作内容と操作時間とに基づいて、上記特徴的なキーワードの重要度を算出する特徴的キーワードの重要度算出手段と;
見出し語間でリンク構造を持つオンライン辞書サイトから、オンライン辞書サイト自体がもつリンク構造もしくはテキスト構造を解析することで辞書サイトの見出し語のリンクスコアを算出し、事前に決めた勾配係数によってゼロに減衰して収束するスコア関数により見出し語の最終スコアを算出し、見出し語をキーワードとして扱い最終スコアに基づいてキーワード固有の重要度を算出するキーワード固有の重要度算出手段と;
上記特徴的なキーワードの各々に対して、上記特徴的なキーワードの重要度と上記キーワード固有の重要度とに基づいて、最終的なキーワード重要度を決定する最終的キーワードの重要度決定手段と;
上記最終的なキーワード重要度に基づいて、端末上で、上記特徴的なキーワードを表示させる表示制御手段と;
を有することを特徴とする特徴的キーワード検出装置である。
本発明によれば、所定のユーザがPCを操作した操作内容を検出し、上記所定のユーザがPC等を操作した操作時間を検出し、上記検出された操作内容と操作時間とに基づいて、上記ユーザにとって特徴的なキーワードを検出するので、モバイル端末上で、キーワードを入力せずに、複数の検索システム上で情報を検索することができるという効果を奏する。
発明を実施するための最良の形態は、以下の実施例である。
図1は、本発明の実施例1である操作履歴抽出装置EX1を示すブロック図である。
操作履歴抽出装置EX1は、情報端末TE1と、操作履歴蓄積サーバSV1とに接続されている。
情報端末TEX1は、具体的にはPCであり、操作履歴を取得する対象である。
操作履歴抽出装置EX1は、バックグラウンドで動作し、ユーザ操作を監視することによって、ユーザの操作履歴を取得する。操作履歴抽出装置EX1は、ユーザが日頃、情報端末TE1上で行っているインターネット検索等、種々の操作の履歴情報を取得する。
操作履歴抽出装置EX1は、操作履歴取得手段11と、アクティブ期間抽出手段12と、操作履歴データベース13と、ファイル属性情報データベース14と、ユーザが過去に見たファイルおよび過去に見たメールを格納する過去に見たファイル・メールのデータベース過去に見たファイル・メールのデータベース15と、操作履歴送信手段16とを有する。
操作履歴取得手段11は、キーボードイベント、マウスイベント、アクティブになっているウィンドウの状態変化イベントが生じたときに、Windows(登録商標)OS上で、グローバルに通信されているウィンドウメッセージを取得し、どのプログラムがユーザによって操作されているかを特定し、また、どのウィンドウが、アクティブになったか、または非アクティブになったかを取得する。
アクティブ期間抽出手段12は、操作履歴取得手段11が取得/記録した操作履歴から、ウィンドウをアクティブにした時刻と、ウィンドウを非アクティブにした時刻と、アクティブなウィンドウに表示されているWebページとに基づいて、アクティブ期間を抽出する。この抽出手順は、Webアクティブ期間テーブルTB3の各行にアクセスすることによって取得することができる。
操作履歴データベース13は、Message−IDと、このMessage−IDのメールの閲覧開始時刻、閲覧終了時刻を格納する。
ファイル属性情報データベース14は、ファイルの属性情報を格納する。上記ファイルの属性情報は、閲覧したhtml文書と、ローカルに保存されている年・月・日・時間・日付つきのファイル名と、インターネット上のURL、メールデータ、メールデータのファイル名とである。なお、閲覧したhtml文書と、ローカルに保存されているデータとは同じものである。
操作履歴送信手段16は、抽出された操作履歴を送信する。
次に、操作履歴抽出装置EX1の操作履歴の取得・記録の動作について説明する。
図2は、操作履歴抽出装置EX1の操作履歴の取得・記録の動作を示す図である。
図3は、操作履歴加工サーバSV2を示すブロック図である。
操作履歴加工サーバSV2は、操作履歴抽出装置EX1から受け取った操作履歴から、特徴的なキーワードを抽出し、モバイル端末向けの画面に、上記特徴的なキーワードを表示させるサーバである。
操作履歴加工サーバSV2は、受信した操作履歴と、辞書データベースDB1から抽出したキーワード候補とに基づいて、ユーザにとって利用価値の高いキーワード(特徴的キーワード)を選択し、この選択されたキーワードの一覧を、モバイル端末MT1、MT2、MT3に送信する。
操作履歴加工サーバSV2は、辞書データベースDB1と、認証データベースDB2と、コンテンツデータベースDB3と、加工済み履歴データベースDB4と、操作履歴受信手段21と、ユーザ認証手段22と、キーワード抽出手段23と、キーワード重要度算出手段24と、外部コンテンツ取得・蓄積手段25と、画面表示制御手段26と、お勧めキーワード出力手段27とを有する。
辞書データベースDB1は、キーワードと、関連語と、キーワード固有の重要度とを格納している。
認証データベースDB2は、ユーザの認証用IDを格納している。
コンテンツデータベースDB3は、ニュース記事等のコンテンツを内部的に保持するデータベースであり、検索エンジンにアクセスせずに、キーワードに関連するニュース等を表示する場合に使用する。
加工済み履歴データベースDB4は、加工済み履歴のデータを格納している。上記加工済み履歴のデータは、ユーザのWeb閲覧履歴、Web閲覧履歴から抽出した重要度付きキーワードである。
操作履歴受信手段21は、操作履歴抽出装置EX1、EX2、EX3から、操作履歴を受信する。
ユーザ認証手段22は、ユーザが入力したパスワード等に基づいて、そのユーザを認証する。
キーワード抽出手段23は、履歴テキスト中の辞書に含まれているキーワードを抽出する。
キーワード重要度算出手段24は、抽出されたキーワードの重要度を決める。
外部コンテンツ取得・蓄積手段25は、番組表、ニュース等の外部コンテンツを取得し、蓄積する。
画面表示制御手段26は、期間毎に分けて、キーワードを表示する画面、お気に入りのキーワードを登録・一覧できる画面等、様々な視点から、キーワードを閲覧する画面を、モバイル端末MT1、MT2、MT3に表示させるように制御する。
すなわち、画面表示制御手段26は、特徴的キーワード検出手段が検出した特徴的キーワードと、上記特徴的キーワードと関連する関連語とを、モバイル端末に送信し、上記モバイル端末の表示画面において、上記特徴的なキーワードを一覧表示させるように制御する画面表示制御手段の例である。
お勧めキーワード出力手段27は、ユーザが登録している複数のキーワードから、ユーザの嗜好を考慮したキーワードを推薦し、モバイル端末MT1、MT2、MT3に出力する。
実施例1によって、ユーザにとって利用価値の高い検索用キーワードの一覧を、モバイル端末MT1、MT2、MT3上に表示させることができ、ユーザは、モバイル端末MT1、MT2、MT3上での煩雑なテキスト入力操作から解放される。
次に、操作履歴抽出装置EX1の操作履歴取得手段11が、操作履歴を取得し、記録する動作について説明する。
操作履歴取得手段11は、キーボードイベントやマウスイベントやアクティブになっているウィンドウの状態変化イベントが生じたときに、Windows(登録商標)OS上で、グローバルに通信されているウィンドウメッセージを取得(フック)する。そして、今、どのプログラムがユーザによって操作されているかを特定する。また、どのウィンドウが、アクティブになったか、または非アクティブになったかを取得する。実施例1では、Microsoft(登録商標)社のインターネットエクスプローラを使用しているとして説明する。
次に、プログラム間通信によって、インターネットエクスプローラであれば、通信し、インターネットエクスプローラのウィンドウ上で、現在表示しているホームページのURLと、表示している情報本体とを取得する。なお、上記情報本体は、メールを送信する際における情報の全てであり、メッセージIDと、メールのアドレスと、差出人と、メールヘッダーとを含む概念であり、多くの場合、HTMLファイルである。
次に、上記情報本体のMD5ハッシュ値(認証やデジタル署名に使用されるハッシュ関数の1つ)を計算し、この値が、コンテンツを一意に識別するContent−keyである。
図4は、ファイル属性情報データベース14に格納されているテーブルの内容の例を示す図である。
なお、図4(2)のメールファイルテーブルTB2は、ファイル属性情報データベース14に相当する。
ファイル属性情報データベース14には、WebファイルテーブルTB1と、メールファイルテーブルTB2とが格納されている。
図5は、操作履歴データベース13に格納されているテーブルの内容の例を示す図である。
操作履歴データベース13には、Webアクティブ期間テーブルTB3と、メールアクティブ期間テーブルTB4と、IME入力テーブルTB5と、印刷テーブルTB6とが格納されている。
次に、上記表示している情報本体を、PC上に「過去に見たファイル」として、過去に見たファイル・メールのデータベース15に保存する。次に、上記ウィンドウメッセージに含まれているウィンドウのアクティブ化の時刻を登録する。つまり、上記ウィンドウメッセージに含まれているウィンドウのアクティブ化の時刻を、上記URLの閲覧を開始した時刻であると推定し、操作履歴データベース13に格納されているWebアクティブ期間テーブルTB3に、推定された閲覧開始時刻、情報本体のMD5ハッシュ値を、登録する。
図6は、履歴の解析手順を示す図である。
次に、操作履歴取得手段11は、上記情報本体を解析した結果と、既に取得した上記本体情報とを用い、情報本体の属性情報である作者、タイトル、更新日、情報本体のMD5ハッシュ値、インターネットで公開されているURL、該情報本体を保存したファイル名(フルパス)とを、ウェブファイルテーブルTB1に保存する。
その後に、操作履歴取得手段11が、上記ウィンドウメッセージに含まれているウィンドウを非アクティブ化するメッセージを受け取ると、この非アクティブ化のメッセージを受け取った時刻を、上記URLの閲覧終了時刻であると推定し、Webアクティブ期間テーブルTB3に、上記推定したURLの閲覧終了時刻を登録する。
上記と同様にして、e−mailに関しても、プログラム間通信とメール文書との解析によって、Message−IDと、このMessage−IDのメールの閲覧開始時刻と閲覧終了時刻と、表示しているまたは作成中のメール文書(=情報本体)とを取得する。
ここで、Message−IDを、コンテンツを一意に識別するContent−keyであるとする。この情報本体を、PC上に「過去に見たメール」として、過去に見たファイル・メールのデータベース15に保存する。そして、Message−IDと、このMessage−IDのメールの閲覧開始時刻、閲覧終了時刻を、操作履歴データベース13に登録し、Message−IDとメール本文とこの情報本体を保存したファイル名(フルパス)とを、メールファイルテーブルTB2に保存する。なお、過去に見たファイル・メールのデータベース15は、メールのヘッダ情報等の本文以外の情報が格納されているデータベースである。
また、上記ウィンドウメッセージを取得(フック)することによって、IME(登録商標)入力を、その発生時刻とともに、操作履歴データベース13に保存する。また、プリンタスプールへ問い合わせすることによって、印刷イベントを、その発生時刻とともに操作履歴に保存する。
「アクティブ期間」は、1つのウィンドウが1つのWebページをアクティブに表示している期間である。このアクティブ期間が、ユーザの操作を、1つのまとまり(区切り)にする特徴的な単位であると考える。たとえば、Webブラウザに表示しているWebページを変更する度に、新しいアクティブ期間が発生する。
ユーザは、それぞれのアクティブ期間内に、Webページを閲覧し、注目した文章をコピーし、特に有用であると判断すれば、印刷する等、様々な操作を実行する。そこで、ユーザが多くの操作を実行していたアクティブ期間は、ユーザが注目した可能性が高いと仮定する。「アクティブ期間の注目度」は、アクティブ期間におけるユーザの注目の強さを示す度合いである。
次に、操作履歴抽出装置EX1が、アクティブ期間の注目度を決定する手順について説明する。
図7は、アクティブ期間の注目度の算出例を示す図である。
アクティブ期間抽出手段12が、操作履歴を受け取った後の手順について、説明する。現在普及しているコンピュータの多くは、ウィンドウシステムを採用したオペレーションシステム(OS)を利用している。ユーザは、Webページをウィンドウ内に表示し、閲覧や作業を行う。アクティブなウィンドウに表示しているWebページを変更する、または、別のウィンドウをアクティブにすることによって、閲覧するWebページを切り替える。たとえば、興味のあるWebページを、リンククリックして探し、いくつか注目すべきWebページが見つかると、Webブラウザを複数起動し、両者を切り替えながら、Webページを比較する。
アクティブ期間抽出手段12は、操作履歴取得手段11が取得/記録した操作履歴に基づいて、ウィンドウをアクティブにした時刻と、ウィンドウを非アクティブにした時刻と、アクティブなウィンドウに表示されているWebページとに基づいて、アクティブ期間を抽出する。Webアクティブ期間テーブルTB3の各行にアクセスすることによって、上記抽出手順を取得することができる。
アクティブ期間抽出手段12は、アクティブ期間apの注目度Att(ap)を算出する。具体的には、アクティブ期間内に、ユーザが行った各操作について、印刷等、ユーザが意識的に実行した操作ほど、大きく重み付けされたポイントを与え、アクティブ期間内の全ての操作のポイントを積算することによって、アクティブ期間apの注目度Att(ap)を求める。この場合、次の式(1)によってアクティブ期間apの注目度Att(ap)を求める。
操作種類は、Webページ閲覧時間、コピー、印刷、マウス操作、キーボード入力、文字列選択である。
アクティブ期間抽出手段12は、抽出したアクティブ期間を、操作履歴取得手段11に送信する。
Figure 0004917061

Att(ap):アクティブ期間apの注目度、
:操作種類iの重み付け係数、
Fr:アクティブ期間ap内における操作種類iの発生回数、
ap:アクティブ期間、
i:操作期間。
次に、Webページurlの重要度を算出する。操作履歴抽出装置EX1が記録した全ての期間、または、指定した期間(今週、昨日、現在から12時間以内等)におけるWebページurlの重要度(IW(url,st,et))は、全ての期間、または指定された期間内に、Webページurlを表示していたアクティブ期間apの注目度の和であるとする。次の式(2)によって、Webページurlを表示していたアクティブ期間apの注目度の和を求める。
よって、注目度の高いアクティブ期間に、多く表示されたWebページが、高い重要度を持つ。
Figure 0004917061

IW(url,st,et):期間[st,et]におけるWebページURLの重要度、
ap:期間[st,et]において、Webページurl(URL)を表示していたアクティブ期間、
url:Webページ、
j:Webページurlの表示回数。
ここで、期間[st,et]は、1日単位の文書重要度を算出する場合、1日おきに設定し、1ヶ月単位で文書重要度を算出する場合、1ヶ月おきに設定する。
次に、操作履歴抽出装置EX1は、蓄積したデータを、操作履歴加工サーバSV2に送信する。
操作履歴加工サーバSV2は、受け取った操作履歴から、特徴的なキーワードを抽出し、モバイル端末MT1、MT2、MT3の表示画面を制御するサーバである。
操作履歴を加工する場合に、次の作業を行う。つまり、
1.操作履歴のテキスト中に含まれている特徴的なキーワードを抽出する作業と、
2.ユーザの操作履歴に基づいて、キーワードの重要度を決定する作業と、
を行う。
上記「特徴的なキーワード」は、固有の表現を持つ複合名詞(人名、地名、国名、企業名、製品名、政党名、公園名、施設名、惑星名、空港名、番組名、動物名、植物名、車名、乗り物名、観光名所名、話題名、事件名、競技名、大会名等、話題の5W1Hとなりやすい表現)や、検索エンジン等で検索される頻度の高いキーワードである。
上記「特徴的なキーワード」は、Wikipedia等のオンライン辞書サイトの見出し語等である。
キーワード抽出手段23は、履歴テキスト中の辞書に含まれているキーワードを抽出する。また、辞書内のキーワードで、前後のどちらか一方が重複するキーワード(例:東京都、京都)があれば、より長いキーワードを抽出する。
以下、断りの無い限り、ここで定義した「特徴的なキーワード」を、「キーワード」と呼ぶ。
キーワード重要度算出手段24は、抽出されたキーワードの重要度を決める。つまり、抽出したキーワードの重要度を決める場合、ユーザのWebページ等の電子ファイルの閲覧時間や、マウス、キーボード等の「ユーザ操作履歴を考慮したキーワード重要度」と、キーワードが予め持っている固有の重要度である「キーワード固有重要度」との双方を用いて、抽出したキーワードの重要度を決める。
また、ユーザの操作履歴を用いてキーワード重要度を算出する式は、次の4つである。
1.キーワードkの重要度H(kiw(url,st,et))を決定する式は、閲覧時間、操作履歴、HTML構造を考慮した式であり、次のとおりである。
キーワードkの重要度H(kiw(url,st,et))=IW(url,st,et)×freq(kiw(url.st.et))×HTML(kiw(url,st,et)
である。
なお、上記freq(kiw(url.st.et))は、キーワードkの頻度である。上記HTML(kiw(url,st,et))は、HTML構造を考慮したキーワードkiw(url.st.et))の重みである。上記kiw(url.st.et)は、アクティブ期間IW(url,st,et)に含まれているWebページ内にあるキーワードである。
2.キーワード重要度CU(k)を決定する式は、ユーザが押したアンカーリンクに含まれているキーワードの重要度を決定する式である。つまり、通常のWebサーフィンにおいて、ユーザは、興味のあるアンカーリンクテキストを探し、このアンカーリンクをクリックする手順を踏みながら、Webサーフィンを行う。このために、アンカーリンクテキストに、キーワードが含まれていれば、アンカーリンクテキストに含まれているキーワードは、ユーザにとって興味のあるキーワードであると言える。
そこで、インターネットエクスプローラコンポーネントのリファラーを調べることによって、ユーザのクリックしたアンカーリンクテキストを取得する。また、アンカーリンクに含まれているテキストは、クリック数に応じて重要であるとする。
キーワード重要度CU(k)は、アンカーリンクのクリック履歴を用いたキーワード重要度を算出する式であり、次の通りである。
キーワード重要度CU(k)=click_unker_link(k)
である。
なお、上記キーワード重要度CU(k)は、ユーザが押したアンカーリンクに含まれているキーワードkの重要度である。上記click_unker_link(k)は、キーワードkを含むアンカーリンクを押した回数である。上記kは、キーワードである。
3.キーワードの重要度B(k)を決定する式は、ブックマークしたページに含まれているキーワードの重要度B(k)を決定する式であり、つぎの通りである。
キーワードの重要度B(k)=α×freq(k)×HTML(k)
である。
つまり、ブックマークしたページは、ユーザにとって興味のあるページであるので、そのページに含まれているキーワードは、重要であると考えられる。ブックマークのデータを、IDコンポーネントから取得する。
4.関連キーワードの重要度を決定する。
この手法(テキストに出現するキーワードの関連語を同様に重み付けすること(出現したキーワードと同様に扱うこと))によって、閲覧履歴には出現しないが、ユーザにとって重要である関連キーワードの重みを考慮することができ、これによって、より精度の高いキーワードの重要度を算出することができる。
関連キーワードについては、後述するが、閲覧履歴に出現したキーワードの関連キーワードの重要度を決定する。つまり、
関連キーワードrkの重みRK(rkIW(url,st,et))=α・IW(url,st,et)×freq(rkIW(url,st,et))×HTML(rkIW(url,st,et)
である。
なお、上記rkIW(url,st,et)は、Webページurlに含まれているWebページ内にあるキーワードの関連キーワードである。
そして、上記ユーザの操作履歴を用いてキーワード重要度を算出する上記4つの式の線形和が、ユーザの操作履歴を考慮したキーワードの重要度である。このように、ユーザ毎にキーワード重要度を求めることによって、ユーザ毎に、各キーワードの重要度が変化するので、ユーザの嗜好を考慮したキーワードの重要度を決定することができる。
次に、キーワード固有重要度の決定手法について説明する。
以下に述べる5通りの尺度に基づいて、キーワード固有重要度を求める。なお、これらの処理は、キーワード抽出手段23が実行する。また、以下では、断りの無い限り、係数α、β、γ、δは、各重要度を調整するパラメタであり、算出式毎に、パラメタの値は異なる。
1.検索エンジンのHIT数のidf
検索エンジンに、キーワードを入力し、出力されたWebページのHIT数のidf値を、キーワード固有の重要度であるとする。WebページのHIT数が、高ければ高いほど、特徴的でないキーワードである可能性が高いので、この指標を導入する。
キーワードkの重要度IR(k)は、検索エンジンのHIT数を用いた算出式であり、次の通りである。
キーワードkの重要度IR(k)=log(N/n
である。
なお、上記Nは、全体のWebページ数である。上記nは、キーワードkを入力したときにおける検索エンジンのHIT数である。
2.Wikipedia内でのリンク数
Wikipediaは、見出し語(キーワード)毎に、ページを持つ特性がある。そして、各見出し語間は、互いに密なリンク構造を持っている。そこで、実施例1では、キーワードが、Wikipediaの見出し語に存在していれば、Wikipediaのハイパーリンク構造を考慮した重要度を、そのキーワードに付与する。
キーワード重要度WL(k)は、Wikipediaのリンク構造を用いたキーワード重要度であり、次の通りである。
Figure 0004917061

また、リンク構造を持つ文書のランキングに用いられるPageRankやHITSアルゴリズムを用いて、文書の重みを算出し、見出し語(キーワード)の重要度決定に使用する。
3.Wikipedia内におけるキーワード出現頻度
Wikipedia内において、出現頻度が特徴的なキーワードは、重要であると、予想される。そこで、Wikipedia内におけるキーワードのdf、tf、idf、tf・idf値を用いて、キーワード重要度を算出する。
4.検索エンジンのクエリログ
goo(登録商標)等のポータルサイト内における検索クエリのログを用いて、キーワードの重要度を決定する。検索クエリの傾向として、主に長期にわたって頻繁に検索されているキーワードや、一時的に話題になり、急激に検索回数が上昇するキーワード等、検索クエリの傾向は、様々である。実施例1において、このような傾向を、キーワードの重要度として考慮する。キーワードkの重要度IRF(k)は、検索エンジンのクエリログを用いたキーワードkの重要度であり、次の通りである。
キーワードkの重要度IRF(k)=α・freqyear(k)+β・freqmonth(k)+γ・freqweek(k)+δ・log(freqyear(k)+freqmonth(k)+freqweek(k)/freqyear(k)+freqmonth(k))
5.キーワードの長さ
一般的に、特徴的なキーワードは、長ければ長いほど、特徴的であると言える。たとえば、鈴木と鈴木太郎というキーワードがある場合、鈴木だけでは、同姓全体の鈴木を指すが、鈴木太郎は、鈴木太郎という個人を指す。このように、キーワードは長ければ長いほど、意味的に絞り込まれているキーワードであり、長ければ長いほど、文字単位での出現確率も低くなるので、長いキーワードほど特徴的である。
つまり、特徴的キーワードを検出する場合、PC上の操作履歴から、特徴的キーワードを検出し、上記特徴的キーワードとして、複合語を検出する。「鈴木太郎」という氏名に着目した場合、「鈴木」、「太郎」と分けてキーワードを作るのではなく、「鈴木太郎」という複合語として特長的キーワードを検出する。
そこで、Len(k)は、キーワードkの文字長を考慮した重みであり、次の通りである。
Figure 0004917061

なお、上記length(k)は、キーワードkの文字長である。
そして、上記各重要度の線形和を、最終的なキーワード固有の重要度として算出する。最後に、ユーザの嗜好を考慮したキーワードの重要度と、キーワード固有の重要度との線形和を、ユーザのキーワード重要度として用いる。
次に、モバイル端末での画面表示制御手段26について説明する。
画面表示制御手段26は、画面表示において、期間毎に分けて、キーワードを表示する画面、お気に入りのキーワードを登録・一覧できる画面等、様々な視点から、キーワードを閲覧する画面を表示する。
キーワードを表示する際、先程算出したユーザのキーワード重要度順に、キーワードを並べる。そして、表示されているキーワードには、それぞれハイパーリンクが張られ、キーワードを選択すると、そのキーワードに基づいて、様々な検索エンジンを検索するための覧ページが表示される。
検索エンジンは、ニュース検索、画像検索、Wikipedia検索、ブログ検索、2ch検索、動画検索、ローカル検索、着メロ検索、テレビ番組検索、教えてgoo検索オークション検索等々、APIとして公開されている様々な検索システムを含む。
そして、使用したい検索エンジンを選択することによって、そのキーワードを検索クエリとした検索結果が表示される。
上記実施例において、上記一連の作業によれば、ユーザは、検索キーワードを入力せずに、ユーザが興味を持っているキーワードを起点として、様々な情報検索が可能になり、ユーザは、様々な種類の検索エンジンを独立して使用せずに、さらに検索エンジンの種類や検索サイトのURLを知らなくても、思い通りの検索をスムーズに行うことができる。
図8は、加工済み履歴データベースDB4の内容の例を示す図である。
図8には、操作履歴管理テーブルTB11と、ユーザ毎のキーワード重要度テーブルTB12が記載されている。
図9は、その他のデータベースの内容の例を示す図である。
図9には、その他のデータベースとして、特徴的キーワードテーブル(辞書)TB13と、ユーザ認証テーブルTB13とが記載されている。
図10は、コンテンツデータベースDB3の内容の例を示す図である。
図10には、外部コンテンツテーブルTB15と、Webページ保存テーブルTB16とが記載されている。
図11、図13、図14は、実施例1における画面表示のイメージを示す図である。
図15は、画面表示制御手段26による表示例を示す図である。
図15に示す画面表示制御手段26の「マイメニュー」に含まれているお気に入りキーワード表示機能は、ユーザが興味をもったキーワードを、ユーザが登録することによって、本装置で検出されたキーワードと同様に、一連の検索を行うことが可能になる機能である。お気に入りキーワードを追加する場合、図15に示す「マルチメディア検索」から追加する。なお、図12に示すキーワード検索画面がこの機能である。
また、図14の右側の画面(図14(3))が、お気に入りキーワードからキーワードを選択する画面である。そして、お気に入りキーワードは、登録日、ジャンル、キーワードの3項目からなるお気に入りキーワードテーブルに記録される。
図16は、お気に入りキーワードテーブルの例を示す図である。
また、キーワードに関連する関連キーワードを同時に表示することによって、ユーザは、新たに興味を持ったキーワードを探索することができる。さらに、そのキーワードの関連キーワードに基づいて、種となる初期表示キーワードから、新しく興味のあるキーワードを新しく発見することができ、そのキーワードに関連する新しい情報を得ることができる。
次に、実施例1において、関連キーワードの取得アルゴリズムについて記載する。
図12は、関連キーワードの表示に関する画面イメージを示す図である。
実施例1では、Wikipediaのリンク構造を用いて関連キーワードを抽出する手法と、共起頻度を用いて関連キーワードを抽出する手法とを採用している。
1.Wikipediaのリンク構造を用いて関連キーワードを抽出する手法
Wikipediaの見出し語のページには、複数のリンク構造があり、これらのリンク構造を用いて、キーワード固有重要度の高いものを、関連キーワードとして抽出する。関連キーワード抽出に使用するリンク構造は、以下のものである。
1−1:Wikipediaの見出し語内のページに含まれるリンク、
1−2:Wikipediaの見出し語内のページに含まれるリンク先のリンク、
1−3:Wikipediaの見出し語内のページに含まれる双方向から張られている相互リンク、
1−4:Wikipediaの見出し語の被リンク。
上記4通りのリンク構造を考慮した関連キーワード抽出アルゴリズムを用いるが、リンク構造内の重要度決定のバイアスとして、リンク1−3、1−1、1−4、1−2の順に重要である。
2.共起頻度を用いて関連キーワードを抽出する手法
Webニュースやブログ等、同一文書内において、互いに同時に頻出するキーワードを、関連キーワードとして抽出する。同時出現頻度が高ければ高いほど、そのキーワードは、関連があるとし、重要な関連キーワードであるとして扱う。
そして、最終的に、手法1と手法2と(上記Wikipediaのリンク構造を用いて関連キーワードを抽出する手法と、共起頻度を用いて関連キーワードを抽出する手法と)によって取得した関連キーワードの重みの線形和を、関連キーワード重要度とし、重要な関連キーワードとして表示し易くする。
次に、お勧めキーワード出力手段27について説明する。
お勧めキーワード出力手段27は、お気に入りキーワードをユーザがキーワードリストに登録することによって、関連するニュース等を、キーワードリストから検索できるが、ユーザが登録している複数のキーワードから、ユーザの嗜好を考慮したキーワードを推薦する。
ユーザの嗜好を考慮したキーワードを推薦する場合、キーワードをアイテムとした協調フィルタリング的な手法を用いて実現する。
現在、主に使われている検索エンジンは、ユーザが検索キーワードを入力し、検索結果を得る手法が主流であるが、実施例1では、キーワードを入力する手間を省くことができ、さらに、種となるキーワードから、ユーザの潜在的な興味を引き出すことができるインタフェースを備えるシステムである。つまり、このインタフェースは、関連キーワードを表示する部分に相当する。
従来の履歴の可視化システムは、画面の広いPC端末上で表示する手法が主流であり、画像ユーザの履歴から特徴的なキーワードを抽出し、日付毎に表示することによって、モバイル端末上で、履歴の可視化が可能になる。
上記実施例による直接的な効果は、次の通りである。すなわち、上記実施例によれば、キーワード抽出の質が向上する。つまり、上記実施例によれば、Wikipedia等の辞書サイトの見出し語を用いることによって、従来技術では抽出することが困難である話題的なキーワードや人名、地名、組織名等、固有表現の定義よりも広い範囲の固有の表現を、容易に抽出することができる。
また、上記実施例によれば、文書からキーワードを切り出す場合おけるキーワードの誤抽出が減る。
さらに、上記実施例によれば、ユーザの詳細なデバイス操作や操作時間を考慮するので、従来手法よりも、幅広くかつ精度の高い特徴的なキーワードを抽出することができる。
上記実施例によれば、モバイル端末における履歴を有効に活用することができる。つまり、PC上から、ユーザの詳細な操作履歴を取得し、サーバに送信することによって、モバイル端末上で、情報量が豊富で詳細なユーザの嗜好を反映する情報検索を実現することができる。
また、上記実施例によれば、ユーザの嗜好を考慮したキーワード提示型検索を実現することができる。つまり、ユーザがキーワードを入力せずに、個々のユーザの嗜好に合ったキーワードを自動的に提示することができ、これら提示されたキーワードに基づいて、ニュース検索、画像検索、Wikipedia検索、ブログ検索、2ch検索、動画検索、ローカル地域検索、着メロ検索、テレビ番組検索、教えてgoo検索、オークション検索等々、様々な検索システム上で検索することができる。モバイル端末において、キーワードを入力せずに、多くの情報を検索することができ、このキーワードを画像検索すると、どうなるのだろうという、ユーザの好奇心を刺激するキーワード提示型マルチメディア検索を実現することができる。
さらに、上記実施例によれば、ユーザの嗜好に合った関連キーワードを表示することができる。つまり、ユーザの嗜好にあったキーワードが表示されていなくても、ユーザの履歴に基づいて抽出したキーワードの関連キーワードを辿ることによって、ユーザの興味を引くキーワードを検索することができる。また、お勧めキーワード出力手段27を用いたキーワード提示機能によって、ユーザが登録しているお気に入りキーワードリストや、ユーザ履歴から抽出したキーワードに応じて、新たにお勧めキーワードを提示することができる。
しかも、上記実施例によれば、特徴的なキーワードを用いたモバイル端末上における履歴を可視化することができる。つまり、従来の履歴可視化システムでは、PC上でWeb画像等を並べることによって、履歴の可視化を実現しているが、上記実施例では、特徴的なキーワードを抽出し、この抽出されたキーワードを表示するので、狭い画面でも直観的に履歴を可視化できる。
そして、上記実施例によれば、過去に見た話題を再追跡することができる。つまり、ある話題についてのニュースを、過去に見たことがあり、その話題についてのニュースが気になった場合、上記実施例では、操作履歴に基づいて、ユーザの興味あるキーワードを蓄積・提示するので、ニュースの再追跡が可能である。
また、上記実施例によれば、次のような間接的な効果を奏する。
まず、上記実施例によれば、キーワードと連動した広告表示回数を増加することができる。つまり、従来のキーワード連動型広告は、ユーザが入力したキーワードについて広告を表示する。上記実施例では、ユーザの履歴から抽出したユーザの興味の高いキーワードを並べ、それらを選択するだけで検索が可能になるので、検索回数の増加が見込まれ、より多くの広告を表示することができる。
また、上記実施例では、広告依頼者の広告キーワード設定が容易である。つまり、従来のキーワード連携型広告は、ユーザが入力するあらゆる広告キーワードに対して広告を用意する必要があるので、無限に存在する広告キーワードに対応する必要がある。しかし、上記実施例では、広告キーワードは、辞書に予め用意されているキーワード以外のキーワードが入力されず、かつキーワードの辞書数は有限であるので、広告表示の際の広告キーワード設定が容易であり、さらに関連キーワードを用いるので、ユーザが入力した広告キーワードについて広告を表示できないという問題が生じない。
さらに、上記実施例では、特徴的なキーワードのマルチメディア検索傾向を高い精度で調べることができる。つまり、従来の検索方法では、ユーザは検索目的を定めた後に、検索エンジンを指定し、検索したいキーワードを入力し、検索するという手順を実行する。しかし、上記実施例では、ユーザの嗜好を考慮したキーワードを最初に提示し、ユーザは、その中のキーワードに興味を示せば、複数の検索エンジンを表示し、ユーザは、検索エンジンを選択することによって検索する。この手順によれば、ユーザは、検索目的、使用する検索エンジン等を考える必要がなく、検索することができる。したがって、提示されたキーワードからどんな検索をしたいかというキーワード毎の検索傾向を、従来手法に比べて、高い精度で調べることができる。
しかも、上記実施例では、隙間時間を有効活用することができる。つまり、従来の検索方法では、ユーザが検索キーワードを入力することによって、該当する情報を探す作業を行う。しかし、様々な面白い情報サイト等の存在やURLを網羅しているユーザは少なく、さらに、電車やバスの待ち時間等の隙間時間に、とっさに興味のある検索キーワードを思いつくユーザも少ない。上記実施例では、ユーザに関係があり好奇心をそそるキーワードを並べ、多数の検索エンジンと連携することによって、日常生活の隙間時間を、知識の向上や趣味の情報検索等に有効活用することができる。上記実施例は、従来の「求める情報を探す」検索ではなく、「面白い情報を探す」新しい検索を実現する。また、面白い情報を提示すると、ユーザはその情報に沿った行動を起こすことが予測されるので、上記実施例は、行動意思決定補助装置であるとも言える。
そして、上記実施例は、隙間時間を消費することができる。つまり、上記とは対称的に、ユーザの好奇心をそそるキーワードを並べるインタフェースは、文字入力を不要とするので、何気なく画面を見て、ボタンを押すだけで、興味のある情報に辿り着くことができる可能性が高い。このように、特に目的のないユーザの隙間時間を、消費することができる。
上記実施例は、特定のデバイスから、特徴的なキーワードを抽出し、この抽出された特徴的なキーワードを、「別の」デバイス上で表示させる実施例である。そして、上記特徴的なキーワードのみを表示するようにすれば、画面の小さなモバイル端末で特に有効である。なお、上記特徴的なキーワードを表示する装置は、モバイル機器以外の装置でもよい。
すなわち、上記実施例は、所定のユーザが、所定のデバイスを操作した操作内容を検出する操作内容検出手段と、上記所定のユーザがPCを操作した操作時間を検出する操作時間検出手段と、上記検出された操作内容と操作時間とに基づいて、上記ユーザにとって特徴的なキーワードを検出する特徴的キーワード検出手段とを有する特徴的キーワード検出装置である。なお、上記所定のデバイスは、PC、携帯電話機、PDA、カーナビゲーションシステム等、Web閲覧が可能な全てのデバイスである。
また、上記実施例は、上記検出された操作内容と操作時間とに基づいて、特徴的キーワードの重要度を算出する特徴的キーワードの重要度算出手段と、キーワード固有の重要度を算出するキーワード固有の重要度算出手段と、上記算出された特徴的キーワードの重要度を、記憶装置に記憶する特徴的キーワードの重要度記憶手段と、上記操作内容と操作時間と、上記キーワード固有の重要度算出手段が算出したキーワード固有の重要度とに基づいて、最終的なキーワード重要度を決定する最終的キーワードの重要度決定手段と、キーワードに関連する関連キーワードを抽出する関連キーワード抽出手段と、モバイル端末上で、特徴的キーワードのみを並べて表示させる表示制御手段とを有する特徴的キーワード検出装置の例である。
また、上記実施例を方法の発明として把握することができる。つまり、上記実施例は、所定のユーザが、所定のデバイスを操作した操作内容を、操作内容検出手段が、検出し、記憶装置に記憶する操作内容検出工程と、上記所定のユーザがPCを操作した操作時間を、操作時間検出手段が、検出し、記憶装置に記憶する操作時間検出工程と、上記検出された操作内容と操作時間とに基づいて、上記ユーザにとって特徴的なキーワードを、特徴的キーワード検出手段が、検出し、記憶装置に記憶する特徴的キーワード検出工程とを有する特徴的キーワード検出方法の例である。
この場合、上記デバイスは、PCであり、上記特徴的キーワード検出工程は、PC上の操作履歴から、特徴的キーワードを検出する工程であり、上記特徴的キーワードとして、複合語を検出する工程である。また、上記実施例は、上記特徴的キーワード検出工程で検出された特徴的キーワードと、上記特徴的キーワードと関連する関連語とを、画面表示制御手段が、モバイル端末に送信し、上記モバイル端末の表示画面において、上記特徴的なキーワードを一覧表示させるように制御する画面表示制御工程を有する例である。さらに、上記実施例は、上記検出された操作内容と操作時間とに基づいて、特徴的キーワードの重要度を、特徴的キーワードの重要度算出手段が算出する特徴的キーワードの重要度算出工程と、キーワード固有の重要度を、キーワード固有の重要度算出手段が、算出し、記憶装置に記憶するキーワード固有の重要度算出工程と、上記算出された特徴的キーワードの重要度を、記憶装置に記憶する特徴的キーワードの重要度記憶工程と、上記操作内容と操作時間と、上記キーワード固有の重要度算出工程が算出したキーワード固有の重要度とに基づいて、最終的キーワードの重要度決定手段が、最終的なキーワード重要度を決定し、記憶装置に記憶する最終的キーワードの重要度決定工程と、関連キーワード抽出手段が、キーワードに関連する関連キーワードを抽出し、記憶装置に記憶する関連キーワード抽出工程と、表示制御手段が、モバイル端末上で、特徴的キーワードのみを並べて表示させる表示制御工程とを有する特徴的キーワード検出方法の例である。
そして、上記実施例は、上記特徴的キーワード検出装置を構成する各手段として、コンピュータを機能させるプログラムの例である。
さらに、上記実施例は、上記プログラムを記録したコンピュータ読取可能な記録媒体の例である。上記記録媒体は、CD、DVD、HD、光ディスク、光磁気ディスク、半導体メモリ等が考えられる。
[キーワード固有重要度算出方法]
1.検索エンジンのHIT数のIDF。
検索エンジンにキーワードを入力し、出力されたWebページのHIT数の改良IDF値を、キーワード固有の重要度とする。なお、WebページのHIT数の改良IDF値は、通常のIDF値の算出方法とは異なるので、「改良」IDFと表記し、下記のキーワードkの重要度WebIDF(k)である。Webページの検索HIT数が高ければ高いほど、キーワードが特徴的でない可能性が高いので、検索エンジンのHIT数の改良IDF(キーワードkの重要度WebIDF(k))を導入する。なお、検索エンジンのHIT数のIDFと、リンク解析を用いたキーワード重要度とが、キーワード固有の重要度である。
以下に、検索エンジンのHIT数を用いたキーワードkの重要度WebIDF(k)について説明する。
WebIDF(k)=log(N/(n+1)+1)
なお、WebIDF(k):検索エンジンのHIT数を用いたキーワードkの重要度、
N:キーワードkの検索エンジンのHIT数の閾値、
:キーワードkを入力したときの検索エンジンのHIT数
である。
ここで、キーワードkの検索エンジンのHIT数の閾値Nとして、検索エンジンのHIT数nを降順に並べて不必要なキーワードが少なくなった辺りにおける検索エンジンのHIT数nの値を用いる。
閾値Nを、このようにする理由は、検索エンジンのHIT数nが高ければ高いほど、一般的なキーワードである可能性が高く、閾値Nを設定すると、閾値N以上である検索エンジンのHIT数nを持つキーワードkの重要度WebIDF値は、常に負になり、キーワードスコアとして低い値が算出されるからである。なお、実施例として、キーワードの閾値Nとして、21000000を用いた。
2.リンク解析を用いたキーワードの重要度。
次に、Wikipediaのリンク構造を解析することによって得られるキーワード重要度決定手法について説明する。
一般的に、Webページの情報検索において、PageRankやHITS等のリンク解析手法を用いて、Webページに重み付けをする。Webページを重み付けするので、結果的に、文書を重み付けしていると言える。上記実施例における手法は、重み付けの対象がキーワードである点が重要である。
本手法(リンク解析を用いたキーワードの重要度)は、HITSまたは、改良したHITSアルゴリズムを用いて、Wikipediaのページをランキングし、このページの順位から、見出し語の重要度を算出する。
HITSアルゴリズムは、全てのWebページが、権威のあるページ(authority)と、リンク集であるページ(hub)との2通りで構成されていると定義する。そして、HITSアルゴリズムは、よいhubから多数リンクされているページほど、よいauthorityであるという仮説と、よいhubは、多数のauthorityのリンクを持っているという仮説とを、再帰的に繰り返すことによって、Webページをランキングする。
そして、HITSのアルゴリズムは、以下の式(5)で定義される。
Figure 0004917061



なお、
h(p):ページpのhub値、
a(p):ページpのauthority値。
である。
ここで、1番目の式であるページpのhub値h(p)においては、ページpからページp’にリンクが張られている場合を考えている。2番目の式のa(p)であるページpのauthority値a(p)においては、ページp’からページpにリンクが張られている場合を考えている。
そして、これらの式に基づいて、Webページのランキングを行う。
PageRankやHITSアルゴリズムは、Webページのリンク構造をモデルにしたアルゴリズムであるので、リンク構造が密なWikipediaに、上記式(5)を適用すると、やや難がある。したがって、Wikipediaのリンク構造に対応したアルゴリズムを定義する。
本アルゴリズムは、以下の式(6)で定義される。
Figure 0004917061

常に、「h(p)→a(p)」のグラフを考える。
なお、
h(p):ページpのhub値、
a(p):ページpのauthority値、
flink(p):ページpのリンク数、
blink(p):ページpの被リンク数、
text(p):ページpに含まれているテキスト量、
redirect(p):ページpに張られているリダイレクト数、
multi(p):ページpに含まれているWikipediaの多言語リンク数、
category(p):ページpに含まれているWikipediaのカテゴリ数、
count(p):ページp内の全てのリンク数合計。
である。
ここで、係数α、β、γ、δは、α+β+γ+δ=1を満たし、さらに1番目の式であるページpのhub値h(p)において、ページp’からページpにリンクが張られている場合を考える。2番目の式であるページpのauthority値a(p’)において、ページpからページp’にリンクが張られている場合を考える。また、text(p)、redirect(p)、multi(p)、category(p)は、それぞれの値をラプラススムージングによって求めた値を用いる。ラプラススムージングは、以下の式(7)で表される。
Figure 0004917061

なお、
:キーワードkの重要度、
K:キーワードkの全体集合、またはキーワードの種類の数。
である。
ここで、係数αとして、0.5を用いる。なお、以下断りのない限り、ラプラススムージングを用いる際は、この定義(上記式(7))に従うものとする。
式(6)に示すページpのauthority値a(p)のlog(flink(p)+1)/log(blink(p)+1)部分は、ページpのリンク数と被リンク数との比率を表している。すなわち、被リンク数の量の割に、リンク数が多いページには、ページpのauthority値a(p)として、低い値が付与される。一方、被リンク数は少ないが、リンク数が多い場合には、ページpのauthority値a(p)として、高い値が付与される。
たとえば、地名等「日本」や「東京都」等のキーワードは、前者に該当し、デビュー間もない有名人等のキーワードは、後者に該当する。つまり、デビュー間もない有名人の場合、自分のページにリンクが多いが、社会的な有名度はまだ低いので、被リンク数が少ない。Wikipediaのリンク構造は、時間を経るに連れて、密になる傾向があり、さらに地名等、広く使われるキーワードは、高い頻度でリンクが張られる傾向がある。これらの傾向は、HITSアルゴリズムにとって、好ましくないので、式(6)のようにして、改良を加えた。
つまり、HITSアルゴリズムは、リンクの数が多ければ多いほど、ページの重要度が大きく変化するアルゴリズムであり、地名やジャンル等の引用しやすいキーワード(リンクしやすいキーワード)は、ページの中身以上に多く引用される傾向があるので、これらのキーワードの重要度を適切な値にするために、式(6)に示すように改良を加えた。
また、ページpのauthority値a(p)のページpに含まれているテキスト量text(p)は、テキスト量が多ければ多いほど、高い値になる。すなわち、テキスト量text(p)は、多くの情報が記述されているキーワードは重要であるという指標である。Wikipediaには、リンクは多数あるが、本文等の記述が殆どないページが多数ある。これらのサイトは、hubであるとみなすことができ、authority値を高くすると、アルゴリズム的に好ましくないので、このような指標(テキスト量text(p))を用いた。
つまり、このアルゴリズムは、最終的にauthority値をキーワードの重要度とする。また、Webページにおいては、リンク集(hub)とauthorityとの両方が重要なものとみなされるが、上記実施例では、authorityのみをキーワードの重要度として用いるので、「〜一覧」、「○○○年の出来事」等のキーワードを、抽出対象外とするために、このようなアルゴリズムを適用する。HITSアルゴリズムは、よいhubとよいauthorityとを抽出し、それらが相互に作用することでよいページをランキングする。したがって、ページのランキングの取得過程において、よいhubには、高いhub値(authority値は低い)がつき、よいauthorityには、高いauthority値(hub値は低い)がつき、これによって、アルゴリズムを実現する。
また、式(6)に示すページpのauthority値a(p)におけるページpに張られているリダイレクト数redirect(p)は、リダイレクトの数が多ければ多いほど、高い値になる。すなわち、リダイレクト数redirect(p)は、多くの呼ばれ方があるキーワードは重要であるという指標である。たとえば、「ダルビッシュ」というキーワードは、ダルビッシュ有やダルビッシュセファード・ファリード・有等、複数の呼び方があり、キーワードとして重要である。
また、式(6)に示すページpのauthority値a(p)において、ページpに含まれているWikipediaの多言語リンク数multi(p)は、多言語でも多数取り上げられているキーワードは重要であるという指標である。たとえば、日本だけでなく海外でも評価の高い有名人等は、多言語リンク数multi(p)が高い例として挙げられる。
Wikipediaには、見出し語の多義性を考慮するために、リダイレクト(redirect、転送リンク)が存在する。たとえば、図17に示すように「イチロー」の見出し語には、「鈴木一朗」と「ICHIRO」のredirectがある。redirectは、多義のキーワードを一意にまとめる効果だけでなく、キーワードの被リンクの数に大きな影響を持つので、図18に示すように、redirectキーワードを親ノードにまとめることによって、多義キーワードの重要度を算出し、被リンク数の問題を解決する。
また、式(6)に示すページpのauthority値a(p)のcategoryは、Wikipediaのカテゴリに多数含まれているキーワードほど重要であるという指標である。Wikipediaのカテゴリは、キーワードを整理するために作成されているものが多く、多くのカテゴリに含まれているということは、幅広いジャンルを網羅していると言える。
h(p)の
Figure 0004917061

部分(式(6)中の部分)は、hubの持っているリンクの平均的な質を調べる指標である。多数のリンクを持っていても、リンク先のページの質が低ければ、そのhubの価値は低いと言えるので、上記指標(式(6))を導入した。
また、式(6)に示すページpにおけるauthority値a(p)を計算する際に、次のように、キーワードの文字列から明らかにhubと思われるキーワードについては、常に、ページpのauthority値a(p)=1にする。明らかにhubと思われるキーワードの抽出規則の例を、以下に述べる。
・数値が並び、最後に「年」があるキーワード。(例)2007年、
・数値が並び、最後に「年代」があるキーワード(例)1980年代、
・○月○日等のキーワード。(例)12月20日、
・○○の歴史等のキーワード。(例)アメリカの歴史、
・○○一覧等のキーワード。(例)日本の男優一覧、
・○○年の△△等のキーワード。(例)2007年のJリーグ。
そして、上記したHITSまたは改良HITSアルゴリズムで求めたauthority値とhub値とを用いて、下のいずれかの式によって、キーワードのリンクスコアlink_score(k)を算出する。
link_score(k)=a(p
link_score(k)=α・h(p)+β・a(p
link_score(k)=h(p)×a(p
ここで、係数αとβとは、α+β=1を満たす。
そして次に、上記で求めたリンクスコアを、降順に順位付けし、キーワードのリンクスコアの分布は、カンマ分布に従うと仮定し、以下の式によって、最終的なリンクスコアを算出する。
final_link_score(k)=exp((log(R+1)・(total(K)−rank(k)+1))/(total(K)))−1
なお、
final_link_score(k):キーワードkの最終リンクスコア、
rank(k):リンクスコアから算出したキーワードkの順位、
total(K):キーワードの総数、
R:1位のキーワードの最終リンクスコア、
a:スコアの勾配係数。
である。
ここで、Rは、降順に順位付けした場合における1位(キーワードの順位が1位のauthorityから算出した順位)のキーワードの最終リンクスコアである。
最終リンクスコアの最高スコアを1にしたければ、R=1とする。最終リンクスコアの最高スコアを100にしたければ、R=100とする。R=1である場合またはR=100である場合に、最下位のリンクスコアは、限りなく0に近い値である。また、スコアの勾配係数aの値が大きくなればなるほど、各順位におけるリンクスコアの差が大きくなる。実際の例において、スコアの勾配係数aの値は、2〜5程度の値であることがよい。
このように、順位順に並べてスコアを算出することによって、値の正規化が可能になる。
[ユーザ操作履歴を考慮したキーワード重要度算出方法]
1.ユーザの押したアンカーリンクに含まれているキーワードの重要度決定。
通常のWebサーフィンにおいて、ユーザは、興味のあるアンカーリンクテキストを探し、この探したアンカーリンクをクリックする手順を実行し、Webサーフィンを行う。このために、アンカーリンクテキストに、キーワードが含まれていれば、このキーワードは、ユーザにとって興味のあるキーワードである。そこで、IEコンポーネントのリファラー(現在いるページの1つ前のページのURL)を調べることによって、ユーザがクリックしたアンカーリンクテキストを取得する。また、アンカーリンクに含まれているテキストは、クリック数に応じて重要である(テキストのクリック数が多いほど、重要である)。
次に、アンカーリンクのクリック履歴を用いたキーワード重要度(ユーザが押したアンカーリンクに含まれているキーワードkの重要度Cu(k))の算出式について説明する。
Cu(k)=click_unker_link(k)、
なお、
Cu(k):ユーザが押したアンカーリンクに含まれているキーワードkの重要度、
click_unker_link(k):キーワードkを含むアンカーリンクを押した回数、
k:キーワード。
である。
そして、最後に、操作履歴抽出装置が算出したWebページpの重要度IWを用いて、最終的なキーワード重要度を、以下の式(8)で算出する。
式(8)に示すScore(k)が、最終的なキーワードのランキングになる。ここで、IW(p)の期間、st,etは、ユーザが自由に指定できるものとし、記述を省略する。
Figure 0004917061

なお、
p:閲覧したWebページ、
P:閲覧した全てのWebページ集合、
:閲覧したWebページpに含まれているキーワードk、
:閲覧したWebページp中に含まれている全てのキーワードkの集合、
tf(k):閲覧したWebページp中に含まれているキーワードkの頻度、
である。
Figure 0004917061

なお、
IW(p):IW(p,st,et)と同義。st,etの記述は省略する、
Cu(k):ユーザのクリックしたアンカーリンクにキーワードが含まれていれば、1を代入し、キーワードが含まれていなければ、0を代入する、
a:スコアの勾配係数。
である。
ここで、
Figure 0004917061

は、キーワードの分布を考慮した重み付けである。一般的に多数の閲覧ページに広く分布するキーワードは、あまり重要でないと言える。そこで、勾配係数aを、指数部分に設定することによって、出現ページが多ければ多いほど、キーワードのスコアを低くするように設定した。
本発明の実施例1である操作履歴抽出装置EX1を示すブロック図である。 操作履歴抽出装置EX1の操作履歴の取得・記録の動作を示す図である。 操作履歴加工サーバSV2を示すブロック図である。 ファイル属性情報データベース14に格納されているテーブルの内容の例を示す図である。 操作履歴データベース13に格納されているテーブルの内容の例を示す図である。 履歴の解析手順を示す図である。 アクティブ期間の注目度の算出例を示す図である。 加工済み履歴データベースDB4の内容の例を示す図である。 その他のデータベースの内容の例を示す図である。 コンテンツデータベースDB3の内容の例を示す図である。 実施例1における画面表示のイメージを示す図である。 関連キーワードの表示に関する画面イメージを示す図である。 実施例1における画面表示のイメージを示す図である。 実施例1における画面表示のイメージを示す図である。 画面表示制御手段26による表示例を示す図である。 お気に入りキーワードテーブルの例を示す図である。 実施例2において、リダイレクトの例を示す図である。 実施例2において、リダイレクトを改良した後の例を示す図である。
符号の説明
TE1、TE2、TE3…PC端末、
EX1、EX2、EX3…操作履歴抽出装置、
SV2…操作履歴加工サーバ、
21…操作履歴受信手段、
221…ユーザ認証手段、
23…キーワード抽出手段、
24…キーワード重要度算出手段、
25…外部コンテンツ取得・蓄積手段、
26…画面表示制御手段、
27…お勧めキーワード出力手段、
DB1…辞書データベース、
DB2…認証データベース、
DB3…コンテンツデータベース、
DB4……加工済み履歴データベース、
MT1、MT2、MT3…モバイル端末。

Claims (8)

  1. 所定のユーザが、所定のデバイスを操作した操作内容を検出する操作内容検出手段と;
    上記所定のユーザがPCを操作した操作時間を検出する操作時間検出手段と;
    上記検出された操作内容と操作時間とに基づいて、上記ユーザにとって特徴的なキーワードを抽出するキーワード抽出手段と;
    上記検出された操作内容と操作時間とに基づいて、上記特徴的なキーワードの重要度を算出する特徴的キーワードの重要度算出手段と;
    見出し語間でリンク構造を持つオンライン辞書サイトから、オンライン辞書サイト自体がもつリンク構造もしくはテキスト構造を解析することで辞書サイトの見出し語のリンクスコアを算出し、事前に決めた勾配係数によってゼロに減衰して収束するスコア関数により見出し語の最終スコアを算出し、見出し語をキーワードとして扱い最終スコアに基づいてキーワード固有の重要度を算出するキーワード固有の重要度算出手段と;
    上記特徴的なキーワードの各々に対して、上記特徴的なキーワードの重要度と上記キーワード固有の重要度とに基づいて、最終的なキーワード重要度を決定する最終的キーワードの重要度決定手段と;
    上記最終的なキーワード重要度に基づいて、端末上で、上記特徴的なキーワードを表示させる表示制御手段と;
    を有することを特徴とする特徴的キーワード検出装置。
  2. 請求項1において、
    キーワードに関連する関連キーワードを抽出する関連キーワード抽出手段と;
    上記キーワード抽出手段が検出した特徴的なキーワードと、上記特徴的なキーワードと関連する関連語とを、モバイル端末に送信し、上記モバイル端末の表示画面において、上記特徴的なキーワードを、ユーザの指定した期間毎に、一覧表示させるように制御する画面表示制御手段と;
    を有することを特徴とする特徴的キーワード検出装置。
  3. 請求項1または2において、
    上記特徴的キーワードの重要度算出手段は、
    上記特徴的なキーワードが上記所定のユーザが押したアンカーリンクに含まれている場合に、その頻度に応じて上記特徴的なキーワードの重要度を高く算出し、また、上記特徴的なキーワードが上記所定のユーザがブックマークしたページに含まれている場合に、その頻度に応じて上記特徴的なキーワードの重要度を高く算出する手段であることを特徴とする特徴的キーワード検出装置。
  4. 所定のユーザが、所定のデバイスを操作した操作内容を検出する操作内容検出工程と;
    上記所定のユーザがPCを操作した操作時間を検出する操作時間検出工程と;
    上記検出された操作内容と操作時間とに基づいて、上記ユーザにとって特徴的なキーワードを抽出するキーワード抽出工程と;
    上記検出された操作内容と操作時間とに基づいて、上記特徴的なキーワードの重要度を算出する特徴的キーワードの重要度算出工程と;
    見出し語間でリンク構造を持つオンライン辞書サイトから、オンライン辞書サイト自体がもつリンク構造もしくはテキスト構造を解析することで辞書サイトの見出し語のリンクスコアを算出し、事前に決めた勾配係数によってゼロに減衰して収束するスコア関数により見出し語の最終スコアを算出し、見出し語をキーワードとして扱い最終スコアに基づいてキーワード固有の重要度を算出するキーワード固有の重要度算出工程と;
    上記特徴的なキーワードの各々に対して、上記特徴的なキーワードの重要度と上記キーワード固有の重要度とに基づいて、最終的なキーワード重要度を決定する最終的キーワードの重要度決定工程と;
    上記最終的なキーワード重要度に基づいて、端末上で、上記特徴的なキーワードを表示させる表示制御工程と;
    を有することを特徴とする特徴的キーワード検出方法。
  5. 請求項4において、
    キーワードに関連する関連キーワードを抽出する関連キーワード抽出工程と;
    上記キーワード抽出工程で検出された特徴的なキーワードと、上記特徴的なキーワードと関連する関連語とを、モバイル端末に送信し、上記モバイル端末の表示画面において、上記特徴的なキーワードを、ユーザの指定した期間毎に、一覧表示させるように制御する画面表示制御工程と;
    を有することを特徴とする特徴的キーワード検出方法。
  6. 請求項4または5において、
    上記特徴的キーワードの重要度算出工程は、
    上記特徴的なキーワードが上記所定のユーザが押したアンカーリンクに含まれている場合に、その頻度に応じて上記特徴的なキーワードの重要度を高く算出し、また、上記特徴的なキーワードが上記所定のユーザがブックマークしたページに含まれている場合に、その頻度に応じて上記特徴的なキーワードの重要度を高く算出する工程であることを特徴とする特徴的キーワード検出方法。
  7. 請求項1〜請求項3のいずれか1項に記載の特徴的キーワード検出装置を構成する各手段として、コンピュータを機能させるプログラム。
  8. 請求項7に記載のプログラムを記録したコンピュータ読取可能な記録媒体。

JP2008039674A 2007-12-18 2008-02-21 特徴的キーワード検出装置、特徴的キーワード検出方法、プログラムおよび記録媒体 Active JP4917061B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008039674A JP4917061B2 (ja) 2007-12-18 2008-02-21 特徴的キーワード検出装置、特徴的キーワード検出方法、プログラムおよび記録媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007326325 2007-12-18
JP2007326325 2007-12-18
JP2008039674A JP4917061B2 (ja) 2007-12-18 2008-02-21 特徴的キーワード検出装置、特徴的キーワード検出方法、プログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JP2009169924A JP2009169924A (ja) 2009-07-30
JP4917061B2 true JP4917061B2 (ja) 2012-04-18

Family

ID=40970974

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008039674A Active JP4917061B2 (ja) 2007-12-18 2008-02-21 特徴的キーワード検出装置、特徴的キーワード検出方法、プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP4917061B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5713567B2 (ja) * 2010-02-08 2015-05-07 Necパーソナルコンピュータ株式会社 情報処理装置、プログラム及び記録媒体
US10692093B2 (en) 2010-04-16 2020-06-23 Microsoft Technology Licensing, Llc Social home page
JP5092038B1 (ja) 2011-05-18 2012-12-05 株式会社東芝 情報処理装置の情報処理方法、情報処理装置およびプログラム。
KR20130065802A (ko) * 2011-11-30 2013-06-20 삼성전자주식회사 키워드를 이용한 애플리케이션 추천 시스템 및 방법
JP5881847B2 (ja) * 2011-12-13 2016-03-09 インテル・コーポレーション メタデータをベースとしたインフラストラクチャによる複数のメディアタイプのリアルタイムマッピング及びナビゲーション
JP5769648B2 (ja) * 2012-02-21 2015-08-26 株式会社Nttドコモ 関連語取得装置及び関連語取得方法
JP5583183B2 (ja) * 2012-09-03 2014-09-03 株式会社東芝 プログラム、情報処理装置および情報処理装置の情報処理方法
JP2016057767A (ja) * 2014-09-08 2016-04-21 Kddi株式会社 解析装置、解析方法およびコンピュータプログラム
KR101620779B1 (ko) * 2015-01-08 2016-05-17 네이버 주식회사 리타겟팅 검색 서비스를 제공하는 방법 및 시스템
JP6664580B2 (ja) * 2016-09-12 2020-03-13 ヤフー株式会社 算出装置、算出方法および算出プログラム
WO2023112170A1 (ja) * 2021-12-14 2023-06-22 日本電信電話株式会社 ログ出力装置、ログ出力方法およびログ出力プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62244259A (ja) * 1986-04-16 1987-10-24 Hitachi Ltd 永久磁石形電動機
JPS63244259A (ja) * 1987-03-31 1988-10-11 Matsushita Electric Ind Co Ltd キ−ワ−ド抽出装置
JP3607093B2 (ja) * 1998-09-10 2005-01-05 シャープ株式会社 情報管理装置、および、そのプログラムが記録された記録媒体
JP2003281159A (ja) * 2002-03-19 2003-10-03 Fuji Xerox Co Ltd 文書処理装置及び文書処理方法、文書処理プログラム
JP2003308324A (ja) * 2002-04-12 2003-10-31 Yomiuri Shimbun 検索語処理装置及び文書検索装置
JP2005018530A (ja) * 2003-06-27 2005-01-20 Toshiba Corp 情報処理装置、情報処理プログラム及び情報処理方法
US20060085181A1 (en) * 2004-10-20 2006-04-20 Kabushiki Kaisha Toshiba Keyword extraction apparatus and keyword extraction program
JP2007172174A (ja) * 2005-12-20 2007-07-05 Nippon Telegr & Teleph Corp <Ntt> 広告提示方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
JP2009169924A (ja) 2009-07-30

Similar Documents

Publication Publication Date Title
JP4917061B2 (ja) 特徴的キーワード検出装置、特徴的キーワード検出方法、プログラムおよび記録媒体
US8631001B2 (en) Systems and methods for weighting a search query result
US8060513B2 (en) Information processing with integrated semantic contexts
US9355185B2 (en) Infinite browse
KR101284875B1 (ko) 사용자의 웹 히스토리를 분석하기 위한 시스템 및 방법
US7966305B2 (en) Relevance-weighted navigation in information access, search and retrieval
US8131734B2 (en) Image based annotation and metadata generation system with experience based learning
US8661031B2 (en) Method and apparatus for determining the significance and relevance of a web page, or a portion thereof
US7747632B2 (en) Systems and methods for providing subscription-based personalization
US8484179B2 (en) On-demand search result details
US20100005087A1 (en) Facilitating collaborative searching using semantic contexts associated with information
US20030105589A1 (en) Media agent
US9116992B2 (en) Providing time series information with search results
WO2011080899A1 (ja) 情報推薦方法
US8301629B2 (en) Community-driven approach for solving the tag space littering problem
US11100181B2 (en) Providing continued searching and associated indicators
US20130204864A1 (en) Information provision device, information provision method, program, and information recording medium
US9064014B2 (en) Information provisioning device, information provisioning method, program, and information recording medium
US20140095465A1 (en) Method and apparatus for determining rank of web pages based upon past content portion selections
US20140149378A1 (en) Method and apparatus for determining rank of web pages based upon past content portion selections
JP2012043290A (ja) 情報提供装置、情報提供方法、プログラム、ならびに、情報記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090629

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110527

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110726

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110916

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111206

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20111214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120123

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120125

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150203

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4917061

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350