JP2005190065A - 情報検索収集用利用者端末、情報検索収集システム、および情報検索収集方法 - Google Patents

情報検索収集用利用者端末、情報検索収集システム、および情報検索収集方法 Download PDF

Info

Publication number
JP2005190065A
JP2005190065A JP2003429024A JP2003429024A JP2005190065A JP 2005190065 A JP2005190065 A JP 2005190065A JP 2003429024 A JP2003429024 A JP 2003429024A JP 2003429024 A JP2003429024 A JP 2003429024A JP 2005190065 A JP2005190065 A JP 2005190065A
Authority
JP
Japan
Prior art keywords
information
search
user terminal
collection
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003429024A
Other languages
English (en)
Inventor
Kei Ohigata
圭 大日方
Takahiko Murayama
隆彦 村山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003429024A priority Critical patent/JP2005190065A/ja
Publication of JP2005190065A publication Critical patent/JP2005190065A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 より多くのコンテンツの収集を行い、検索結果を精度良く評価することを可能にする、情報検索収集用利用者端末、情報検索収集システム、および情報検索収集方法を提供する。
【解決手段】 ホームページなどの情報を閲覧するブラウザ110と、ブラウザ110が閲覧した情報を取得するブラウザ連携モジュール121と、ブラウザ連携モジュール121からの閲覧した情報に対して、URLなどその情報を識別するための情報位置、および閲覧時間などの履歴情報に索引を付けて保存し、情報の閲覧順序と閲覧した情報が引用・相関関係を持つ場合、引用・相関関係の構造と実際に使われた引用・相関関係とを含めて保存する履歴管理モジュール124とを有する。
【選択図】 図1

Description

本発明は、www(world wide web)などのネットワークからコンテンツを収集し、検索する情報検索収集用利用者端末、情報検索収集システム、および情報検索収集方法に関する。
wwwなどのネットワークから情報を検索する場合、あらかじめ情報を収集する必要がある。情報の収集方法は大きく分けて2つある。1つは、ディレクトリ型といわれる方法である。この方法では、いくつかの階層になっているカテゴリに人間が手動で情報を分類して格納しておくものである。もう1つは、ロボット型といわれている方法である。この方法では、ロボットやクローラと呼ばれるプログラムがwwwのハイパーリンクを次々にたどり、索引を付けてサーバに収集していく。収集した情報の検索時には、収集時に付けた索引を基にキーワード検索を行っている。
wwwなどの検索では、多くの情報の中から単一の情報を検索するわけではなく、検索結果は複数の候補のリスト表示で出されることが多い。そのため、検索キーワードのマッチングだけでなく、そのコンテンツ自体の価値を評価することが重要である。評価方法として、
a1.多数のユーザが参照したページは価値が高い
という観点から、検索サイトの検索結果からのアクセス回数で評価する方法が知られている(評価方法1)。
インターネットのサーチエンジンであるGoogleでは、
b1.多数のページからリンクされているページは価値がある
b2.良質のページからリンクされているページはやはり良質である
という考え方からハイパーリンクの構造を解析し、評価している(非特許文献1)。一般化するならば、情報の引用関係による評価といえる(評価方法2)。
山名早人、近藤秀和、「解説:サーチエンジンGoogle」情報処理42巻8号(2001年8月)、pp.775−780
前述した収集方法には、次のような課題がある。ディレクトリ型の収集方法は、手動であるので、wwwの全コンテンツを収集することは不可能である。
ロボット型の情報収集方法でも全コンテンツを収集することは事実上不可能であることが明らかになっている。ある1つのグループ内で閉じていて、そこからリンクで入ることも出ることもできない「島」、および、wwwのハイパーリンクが片方向であるため、「出ることはできるが入ることができない場所」のwwwコンテンツ群が存在しているためである。ロボットの巡回を全ての「島」および「出ることはできるが入ることができない場所」から最低1箇所は開始地点を持たなければ、全コンテンツを収集することができない。しかし、そのような場所は検索できないため、予めその場所を全て知っていなければならない。検索の開始位置が少ないため、収集できる情報も少ないという課題がある(課題1)。
また、ロボット型では、収集の頻度の問題で、更新が頻繁に行われている情報を収集できないという問題もある(課題2)。
検索したコンテンツの評価方法の中の評価方法1では、検索サイトからのアクセスだけをカウントするため、検索サイトを経由しない通常のアクセスを含めた真のアクセス回数が分からない。このために、評価の精度が低くなっているという課題がある(課題3)。
一方、評価方法2には、ハイパーリンクが張られているだけで、評価を行っており、実際にそのハイパーリンクが利用者によって使われているかを判別することができない。このために、評価の精度が低くなっているという課題がある(課題4)。
最終的な検索結果の表示にあたっては、例えば検索サイトでは、ホームページのリストで表示されているが、ホームページ同士の関係は考慮されていない。このため、利用者は、整理された情報ではなく、次々と情報を自分で見ていくしか方法がなかった(課題5)。
また、引用・相関関係をたどり情報を閲覧していく場合がある。引用・相関関係による情報の閲覧は、ある情報を見た後で、リンクを利用して別の情報を見るというようなものである。引用・相関関係をたどり情報を閲覧していく過程では、ある情報から引用・相関関係で示される情報位置に情報がないことがある。これはwwwではリンク切れと言われるものである。つまり、過去に誰かが閲覧した情報であっても、現在なければ閲覧できないという課題がある(課題6)。
本発明は、前記の課題を解決し、より多くのコンテンツの収集を行い、検索結果を精度良く評価することを可能にする、情報検索収集用利用者端末、情報検索収集システム、および情報検索収集方法を提供することにある。
前記課題を解決するために、請求項1の発明は、ホームページなどの情報を閲覧することができ、閲覧した情報とURL(Uniform Resource Locator)などの情報位置、および閲覧時間などの履歴情報に索引をつけて保存する。情報の閲覧順序と閲覧した情報とが引用・相関関係を持つ場合は、引用・相関関係の構造と実際に使われた引用・相関関係(例えば情報Aを見た後にリンクBを利用し情報Cを見た、など)を含めて保存することができる情報検索収集用利用者端末である。
ここでいう「閲覧した情報」とは、たとえば、wwwではHTMLファイル、およびそれに付随する画像・動画などのファイルのことであり、「情報位置」とはURLであり、「引用・相関関係」とはリンクを示す。
請求項2の発明は、請求項1の利用者端末であって、以前閲覧したものと同じ情報位置を閲覧した場合で、情報が変更(更新)されている場合に、変更箇所が少なければ、差分だけを保存し、変更箇所がなければ、履歴情報だけを保存することが可能な情報検索収集用利用者端末である。
請求項3の発明は、請求項1に記載の利用者端末を複数台接続し、ある1つの利用者端末からキーワードなどを基に、自端末内および他の利用者端末に保存された情報を検索する情報検索収集システムである。
請求項4の発明は、請求項3に記載の情報検索収集システムであって、ある利用者端末から送信された情報や制御命令を送信された別の利用者端末が、次の利用者端末へと次々に中継していくことにより、情報をシステム全体へ送信することができることを特徴とする。
請求項5の発明は、請求項4に記載の情報検索収集システムを用い、ある利用者端末からキーワードを基に検索をする場合、利用者端末は隣接した1台以上の利用者端末に検索命令を送信する。送信された利用者端末は、端末内に保存された情報を検索し、その結果を命令の送信元に送信すると同時に、次の利用者端末に検索命令を送信していくことで、最終的に全ての利用者端末から検索結果を受信する情報検索収集方法である。
請求項6の発明は、自システム内にある利用者端末のリストを持っている検索サーバを1台以上持つ請求項3に記載の情報検索収集システムである。
請求項7の発明は、請求項6に情報検索収集システムを用いて、ある利用者端末からキーワードを基に検索をする場合、利用者端末は検索サーバに検索命令を送信する。検索サーバはリスト上にある他の利用者端末に検索命令を送信する。送信された利用者端末は、端末内に保存された情報を検索し、その結果を命令の送信元の端末に直接または検索サーバを経由して送信することを特徴とする情報検索収集方法である。
請求項8の発明は、収集の開始位置を請求項1の利用者端末に保存された情報位置から取得することができる情報の引用・相関関係を次々とたどって、情報を収集していく情報検索収集方法である。
請求項9の発明は、請求項8に記載の情報検索収集方法を備え、自端末の閲覧履歴から開始位置を取得し、情報を収集する請求項1に記載の情報検索収集用利用者端末である。
請求項10の発明は、請求項8に記載の情報収集方法で情報を収集する収集サーバを1台以上持つ請求項6に記載の情報検索収集システムであって、あるタイミングで複数の利用者端末と通信を行い、利用者端末に保存された情報位置を取得することを特徴とする。
請求項11の発明は、請求項3に記載の情報検索収集システムおよびその他の情報源から検索した情報を表示するにあたって、請求項1に記載の利用者端末複数台の閲覧情報と閲覧順序の情報を基に「情報を見た順番が近いものは相関が高い」という条件と、「同じ端末に格納されている情報同士は相関が高い」という条件から相関関係を得点付けし、相関関係の得点の高いものを同じグループとしてグループ化し、単一の情報のリストの他に、情報の集合のリストで表示することができることを特徴とする情報検索収集方法である。
請求項12の発明は、請求項3に記載の情報検索収集システムおよびその他の情報源から検索情報を表示するにあたって、請求項1に記載の利用者端末複数台の閲覧した情報を集計し、「多く見られている情報を価値が高く」と評価し、評価値の高いものを優先的に表示することを特徴とする情報検索収集方法である。
請求項13の発明は、請求項3に記載の情報検索収集システムおよびその他の情報源から検索情報を表示するにあたって、その情報同士がハイパーリンクなどの引用・相関関係を持つ場合、
第1の条件:多数引用される情報は評価が高い
第2の条件:重要な情報から引用されている、あるいは重要な情報と相関関係がある情報は評価が高い
第3の条件:前記第1の条件と第2の条件とで実際に利用された引用・相関関係は特に評価が高い
という第1〜第3の条件で評価値を設定し、評価値の高いものを優先的に表示することを特徴とする検索方法である。これは、例えば後述する図3のように、片方向の相関関係がある場合に、リンクされることによって評価が上昇し、リンクすることでリンク先の評価値を上昇させる。そして、実際によく利用されているリンクはリンク先の評価値をより多く上昇させるという評価方法である。
本発明によれば、情報収集においては、請求項1の発明の各利用者の履歴を請求項8と請求項9あるいは請求項8と請求項10のシステム・方法を用いて検索することによって、検索の開始位置を増やすことができ、より多くの情報を収集できる。これによって、前記の課題1が解決される。
また、ニュースサイトなど定期的に更新される更新頻度の高い情報は、利用者も定期的に閲覧し、更新を利用者に通知するアプリケーション(例えば、ベクター http://www.vector.co.jp/のサイトに何種類か登録されている)の存在からも、更新頻度の高い情報は利用者も頻繁に閲覧するといえる。利用者の履歴を利用する本発明では、更新頻度の高い情報の収集もれを少なくすることができるこれによって、前記の課題2が解決される。
情報の評価においては、請求項6の閲覧回数での評価は各利用者の閲覧回数が、既存の方法に比較して検索結果以外からの閲覧回数も把握できるため、精度の高い評価を行える。これによって、前記の課題3が解決される。また、評価方法2の方法においては、請求項7の発明によって、実際に利用されているハイパーリンクの重みを重くすることで、精度の高い評価を行える。これによって、前記の課題4が解決される。
また、請求項5の発明によって、検索結果を「単一の情報」のリストにして表示するのではなく、関連性の高い「情報群のリスト」として表示する。この結果、利用者は関連のある情報同士が整理された情報を閲覧できる。これによって、前記の課題5が解決される。
請求項3の情報検索収集システムは過去の履歴を保存しているため、過去に情報検索収集システムの参加者が閲覧した情報であれば、その情報を見ることができる。これによって、前記の課題6が解決される。
本発明によれば、より多くの検索のために情報を収集でき、更新が頻繁に行われていても、問題ないシステムを提供できる。過去の情報にもアクセス可能となる。また、検索した情報を評価方法するにあたっては、より正確なアクセス回数がわかり、一方、実際に利用された引用関係の重みを大きくすることで、精度の高い評価が実行できる。さらに、検索結果の表示では、関連性の高い「情報群のリスト」として表示することで、利用者の利便性を高めることができる。
つぎに、本発明の実施形態について説明する。
[実施形態1]
本実施形態による情報検索収集システムは、図1に示すように、複数の利用者端末1〜1と、それらを接続するP2P(Peer to Peer)ネットワークNW1とから構成される。
利用者端末1〜1は同じであるので、利用者端末1について説明する。利用者端末1は、利用者が利用する端末であり、プログラム等が格納されたハードディスクやフラッシュメモリなどの保存媒体11、自端末の制御などをするCPU(Central Processing Unit)12、および情報を一時的に記憶するRAM(Random Access Memory)13から構成されている。また、利用者端末1は、キーボード・マウスなどの入力装置14と、ディスプレイ等の出力装置15とを備えている。
保存媒体11には、利用者が情報を閲覧するためのブラウザ110と、収集・検索のアプリケーションプログラム120とが格納されている。ブラウザ110は、利用者が情報を閲覧するためのアプリケーションプログラムである。
アプリケーションプログラム120は、ブラウザ連携モジュール121、端末検索モジュール122、通信モジュール123、履歴管理モジュール124、評価モジュール125、利用者の入力管理モジュール126、およびネットワーク検索モジュール127から構成されている。
図2は、アプリケーションプログラム120の動作関連図である。図2では、図1と同じものには同じ番号が付けられている。ブラウザ連携モジュール121は、ブラウザ110と連携するためのモジュールであり、情報収集時には、利用者がブラウザ110で閲覧した情報を取得し、履歴管理モジュール124に送る。ブラウザ連携モジュール121は、検索結果を表示するとき、評価モジュール125から送られた検索結果をブラウザ110に表示する。また、入力管理モジュール126からの入力が、アプリケーションプログラム120ではなく、ブラウザ110に関するものであったとき、ブラウザ連携モジュール121は、その入力をブラウザ110に送信し、動作させる。
端末検索モジュール122は、通信モジュール123または入力管理モジュール126から検索の通知を受けて、履歴管理モジュール124に保存されている履歴とネットワーク検索モジュール127が収集した情報の中から検索し、結果を返す。
通信モジュール123は、他の利用者端末と通信を行うものである。通信モジュール123は、検索通知を受けた場合、次の利用者端末へ検索命令を送信し、自端末の端末検索モジュール122へ検索を通知する。端末検索モジュール122から検索結果が返ってきた場合、通信モジュール123は、検索通知を出した初めの端末に検索結果を送信する。自端末が送信元だった場合は、通信モジュール123は、送られてきた検索結果および自端末の検索結果を評価モジュール125に送信する。
履歴管理モジュール124は、ブラウザ連携モジュール121から送られた利用者の閲覧した情報に索引・閲覧時間情報と閲覧回数情報とを付けて、この送られてきた情報を保存する。また、URLなどの情報を識別するためのコードが過去に保存された情報と同じで、情報の内容が異なる場合、履歴管理モジュール124はそれを別に保存する。つまり、履歴管理モジュール124は、以前に閲覧したものと同じ情報位置を閲覧した場合、情報が変更または更新されているとき、変更または更新箇所が少なければ、差分だけを保存し、変更または更新箇所がなければ、履歴情報だけを保存する。
評価モジュール125は、通信モジュール123から送られてきた自端末および他の端末からの検索結果から評価値を計算する。評価モジュール125は、評価した検索結果をブラウザ連携モジュール121へ送信し、評価値の高いものを優先的に表示する。
評価値の計算方法の1つは、
A1.参照回数が多い情報を高評価にする
という評価方法である。もう1つは、図3に示すように、
B1.多数引用される情報は評価が高い
B2.重要な情報から引用される情報は評価が高い
B3.前記のB1、B2で実際に利用者によって利用されている(閲覧されている)引用関係は特に評価が高い
という方法である。引用されることで、評価値が流入し、引用することで流出する仕組みになっている。流入する評価値の合計と流出する評価値の合計とは同じである。これらの2つの評価方法を総合し、全体の評価とする。なお、図3では、括弧内の数字は、流れる評価値を示す。また、括弧の横の数字は、実際に利用された回数と全体回数との比率を示す。たとえば、数字が1/6なら、この引用関係は1回利用され、全体では6回の引用があったことを示す。
入力管理モジュール126は、利用者の入力を受けて、検索を開始するために通信モジュール123に検索通知を送信させる。
ネットワーク検索モジュール127は、利用者の操作による閲覧とは別に、履歴管理モジュール124に保存されている利用者の履歴を開始位置にして引用・参照関係をたどり、自動的に情報を収集する。
以下では、本実施形態の動作例を説明する。図4は利用者が情報を閲覧するときの流れ図である。利用者によってブラウザ110が操作され、情報が閲覧されると(ステップS1)、ブラウザ連携モジュール121は、閲覧された情報(例えば、HTMLファイルや画像など)と、この情報を識別するコード(例えば、URLなど)とを取得する(ステップS2)。ステップS2で取得した情報に付随する情報である、過去の閲覧回数、閲覧した時間を取得する(ステップS3)。
履歴管理モジュール124は、過去に保存された履歴と今取得した情報とを識別するコードが一致するものが、過去の履歴にあるかどうかを判断する(ステップS4)。ステップS4で一致するものがあれば、過去に閲覧した情報と今取得した情報とを比較し、同じかどうかを判断する(ステップS5)。ステップS5で全く同じならば、履歴管理モジュール124は、付随情報のみを追加して、情報を保存する(ステップS6)。
一方、ステップS4でコードが一致しない場合、または、ステップS5で情報が同じでない場合、履歴管理モジュール124は、情報(HTMLなど)と付随情報とに検索用の索引を付けて、保存する(ステップS7)。ステップS7の後、閲覧終了かどうかを判断する(ステップS8)。ステップS8で閲覧終了ならば終了し、そうでなければ、処理をステップS1に戻して閲覧を続ける。
一方、利用者が検索を行うときは、次のようになる。なお、利用者端末1は、あらかじめネットワークNW上にあるP2PネットワークNW1に参加しているものとする。このP2PネットワークNW1は、例えば図5のようになっており、利用者端末1は、他の利用者端末1〜1を介して、他の利用者端末1〜1と接続され、さらに、利用者端末1、1などと接続されている。そして、利用者端末1からの検索命令は、利用者端末1→利用者端末1→利用者端末1→利用者端末1→利用者端末1や、利用者端末1→利用者端末1→利用者端末1→利用者端末1→利用者端末1などの経路で、利用者端末1まで届く。このような状態の場合、利用者が検索を行うとき、図6に示すように、利用者がキーワードを入力すると、入力管理モジュール126がこれを受けて検索を開始する(ステップS11)。
通信モジュール123は、P2PネットワークNW1で隣接する端末全てに対して、検索通知とキーワード、自端末を識別するコード、および現在の時刻から作成される検索IDを送信する(ステップS12)。端末検索モジュール122は、履歴管理モジュール124、ネットワーク検索モジュール127の情報をキーワードで検索し、マッチングしたものを抽出する(ステップS13)。
一方、ステップS12で検索通知を受信した別の端末は、検索IDを比較し、以前に受信した検索IDかどうかを判断する(ステップS14)。ステップS14で以前に受信した検索IDであれば、検索通知を棄却する。ステップS14で、初めての受信であれば、さらに別の端末へ通知する(ステップS15)。ステップS15の後、別の端末は、端末内を検索し、検索通知を最初に出した端末へ、検索結果を送信する(ステップS16)。
検索を開始した端末では、他の端末からの検索結果を受信する(ステップS17)。そして、あらかじめ規定された終了条件(一定時間経過や、所定の数の端末から検索結果が送信されてきたなど)を満たすかどうかを判断する(ステップS18)。ステップS18で終了条件を満たさなければ、処理をステップS17に戻し、受信を続ける。また、この条件を満たせば、受信を打ち切り、送信されてきた検索結果の評価を、評価モジュール125が行う(ステップS19)。
評価モジュール125による評価値の計算方法は、先に述べたように、まず、
A1.参照回数が多い情報を高評価にする
ものである。もう1つは、
B1.多数引用される情報は評価が高い
B2.重要な情報から引用される情報は評価が高い
B3.前記のB1、B2で実際に利用者によって利用されている引用関係は重みが大きい
という方法である。検索結果を評価するための実際の計算は、情報の引用関係を行列の形で表し、ある情報iが別の情報jから引用されている場合、
ij>0
とする。つまり、
ij=0
であれば、情報の引用関係が無く、値が1に近づくほど引用関係が強くなる。そして、
Σain=1
の条件のもと、よく利用されている引用関係は重みを重くする。たとえば、図3を基にすると
Figure 2005190065
のような行列になる。この行列Aでは、例えば評価値「120」の情報では、評価値「50」の情報と評価値「70」の情報からリンクが張られており、その重みは「1」、「3/7」であるので、行列の第1列目は、
0 0 1 0 3/7 0
となる。同様にして、評価値「20」の情報では、評価値「70」の情報と評価値「10」の情報からリンクが張られており、その重みは、「4/7」、「1」であり、行列の第2列目は、
0 0 0 0 4/7 1
となる。重みは、ある情報から出るリンクが合計「1」になるように利用回数によって分配される。本実施形態では、単に利用回数の比を用いているが、なんらかの関数を用いてもよい。そして、それぞれの情報の評価値は最大の固有値に対応する固有ベクトルを正規化したものとして与えられる。
評価モジュール125は、前記の2つの評価方法を総合し、全体の評価とする。また、同じ端末で閲覧された情報を関連度が高いとし、その検索結果を「情報群のリスト」化しておく。ステップS19で評価が終了すると、ブラウザ連携モジュール121は、評価された検索結果を表示する(ステップS20)。ブラウザ110は検索結果を閲覧可能にする(ステップS21)。利用者が入力管理モジュール126から入力することで、検索結果を関連性の高い「情報群のリスト」として表示することもできる。
また、検索した情報を表示するとき、複数の利用者端末の閲覧情報と閲覧順序の情報とを基にして、
C1.情報を見た順番が近いものは相関が高い
C2.同じ端末に格納されている情報同士は相関が高い
という観点から相関関係を得点付けし、相関関係の得点の高いものを同じグループとしてグループ化し、単一の情報のリストの他に、情報の集合のリストで表示することもできる。
[実施形態2]
実施形態1ではサーバを持っていない場合を例としたが、本実施形態ではサーバを持つ場合を例としている。情報検索収集システムは、図7に示すように、ネットワークNW上にある複数の利用者端末2〜2、および検索管理サーバ3から構成される。
利用者端末2〜2は同じであるので、利用者端末2について説明する。利用者端末2は、利用者が利用する端末であり、プログラム等が格納されたハードディスクやフラッシュメモリなどの保存媒体21、自端末の制御などをするCPU22、および情報を一時的に記憶するRAM23から構成されている。また、キーボード・マウスなどの入力装置24とディスプレイ等の出力装置25とを備えている。
保存媒体21には、利用者が情報を閲覧するためのブラウザ210と、収集・検索のアプリケーションプログラム220とが格納されている。ブラウザ210は、利用者が情報を閲覧するためのアプリケーションプログラムである。
アプリケーションプログラム220は、ブラウザ連携モジュール221、端末検索モジュール222、通信モジュール223、履歴管理モジュール224、および入力管理モジュール225から構成される。検索管理サーバ3は、ネットワーク検索モジュール31、通信モジュール32、端末情報管理モジュール33、および評価モジュール34から構成される。
図8は、アプリケーションプログラム220の動作関連図である。図8では、図7と同じものには同じ番号が付けられている。また、図8では、利用者端末2、2を例とし、利用者端末2が検索を開始する端末であり、利用者端末2がその他の端末である。利用者端末2のブラウザ連携モジュール221は、ブラウザ210と連携するためのモジュールである。ブラウザ連携モジュール221は、情報収集時に、利用者がブラウザ210で閲覧した情報を取得し、利用者端末2の履歴管理モジュール224に送る。
検索結果を表示するとき、利用者端末2は、検索管理サーバ3の評価モジュール34から送られた結果をブラウザ210に表示する。また、入力管理モジュール225からの入力が、アプリケーションプログラム220ではなく、ブラウザ210に関するものであったときは、その入力をブラウザ210に送信し、動作させる。
端末検索モジュール222は、通信モジュール223または入力管理モジュール225から検索の通知を受けて、履歴管理モジュール224に保存されている履歴を検索し、結果を返す。
通信モジュール223は、検索管理サーバ3と通信を行うもので、検索通知を受けた場合、自端末の端末検索モジュール222へ検索を通知する。端末検索モジュール222から検索結果が返ってきた場合、検索管理サーバ3に検索結果を送信する。
履歴管理モジュール224は、ブラウザ連携モジュール221から送られた、利用者の閲覧した情報を、情報位置・索引・閲覧時間情報・閲覧回数情報を付けて保存する。URLなどの情報の位置が過去に保存された情報と同じで、情報の内容が異なる場合は、それを別に保存する。履歴情報のうち、情報位置はあるタイミングで検索管理サーバ3に送信される。
入力管理モジュール225は、利用者の入力を受けて、検索を開始するために、通信モジュール223から検索の通知を検索管理サーバ3に送信させる。
ネットワーク検索モジュール31は、利用者端末2から送られてきた情報位置を開始位置とし、情報の引用・相関関係を次々とたどって情報を収集していく。
通信モジュール32は利用者端末との通信を行う。たとえば、利用者端末2から検索通知が来た場合、通信モジュール32は、端末情報管理モジュール33が持っているリストの利用者端末、つまり、端末情報管理モジュール33にリストとして格納されている複数の端末に向って検索通知を発信する。検索結果が返ってくると、通信モジュール32は、評価モジュール34に結果を渡す。
端末情報管理モジュール33は、システムに組み込まれている端末を特定する情報(IPアドレスなど)を管理する。
評価モジュール34は、通信モジュール32から送られてきた結果から、評価値を計算し、通信モジュール32を経由して初めに検索通知を行った利用者端末に結果を返し、評価値の高いものを優先的に表示する。評価値の計算方法の1つは、
A1.参照回数が多い情報を高評価にする
という評価方法である。もう1つは、図3に示すように、
B1.多数引用される情報は評価が高い
B2.重要な情報から引用される情報は評価が高い
B3.前記のB1、B2で実際に利用者によって利用されている(閲覧されている)引用関係は重みが大きい
という方法である。引用されることで、評価値が流入し、引用することで流出する仕組みになっている。流入する評価値と流出する評価値とは同じである。評価モジュール34は、前記の2つの評価方法を総合し、全体の評価とする。
本実施形態によれば、実施形態1と同様に、より多くの検索のために情報を収集でき、更新が頻繁に行われていても、問題が発生することがなく、過去の情報にもアクセス可能となる。また、検索した情報を評価方法するにあたっては、より正確なアクセス回数がわかり、一方、実際に利用された引用関係の重みを大きくすることで、精度の高い評価が実行できる。
[実施形態3]
実施形態2ではサーバを持っている場合を例としたが、本実施形態では実施形態1からネットワーク検索機能をサーバとして別に置いている。本実施形態による情報検索収集システムを図9に示す。なお、図9では、先に説明した図1と同一もしくは同一と見なされる構成要素には、それと同じ参照符号を付けて、その説明を省略する。
本実施形態では、検索サーバ4がネットワーク検索機能を持つ。検索サーバ4は、ネットワーク検索モジュール41と通信モジュール42とで構成されている。ネットワーク検索モジュール41はネットワーク検索モジュール127と同じであり、通信モジュール42は通信モジュール123と同じである。
本実施形態によれば、実施形態1、2と同様に、より多くの検索のために情報を収集でき、更新が頻繁に行われていても、問題が発生することがなく、過去の情報にもアクセス可能となる。また、検索した情報を評価方法するにあたっては、より正確なアクセス回数がわかり、一方、実際に利用された引用関係の重みを大きくすることで、精度の高い評価が実行できる。
以上、本発明の実施形態を詳述してきたが、具体的な構成は前記の実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計の変更等があっても、本発明に含まれる。たとえば、実施形態1、2とも、収集・検索アプリケーションプログラムの内部にブラウザの機能を持っていても良いし、収集・検索アプリケーションプログラムがブラウザのアドオンする形式でも良い。また、利用者の入力が、全てブラウザを通じて行われる場合は、入力はブラウザからブラウザ連携モジュールを通じて行われ、入力管理モジュールを不要にすることができる。
また、実施形態1からネットワーク検索モジュールを取り除いた形態でも良い。この場合、端末検索モジュールは履歴管理モジュールの持つ履歴からのみ検索を行う。
さらに、実施形態2の検索管理サーバは、端末情報管理モジュールと通信モジュールとで構成される管理サーバと、ネットワーク検索モジュールと通信モジュールと評価モジュールとで構成される検索サーバの2つのサーバに分けても良い。
本発明の実施形態1による情報検索収集システムを示すシステム構成図である。 実施形態1によるアプリケーションプログラムの動作を説明する動作関連図である。 評価の算出方法の一例を説明する説明図である。 実施形態1による情報閲覧時の流れを示す流れ図である。 P2Pネットワークの構成の一例を示す図である。 実施形態1による情報検索時の流れを示す流れ図である。 本発明の実施形態2による情報検索収集システムを示すシステム構成図である。 実施形態2によるアプリケーションプログラムの動作を説明する動作関連図である。 本発明の実施形態3による情報検索収集システムを示すシステム構成図である。
符号の説明
〜1 利用者端末
11 保存媒体
110 ブラウザ
120 アプリケーションプログラム
121 ブラウザ連携モジュール
122 端末検索モジュール
123 通信モジュール
124 履歴管理モジュール
125 評価モジュール
126 入力管理モジュール
127 ネットワーク検索モジュール
12 CPU
13 RAM
14 入力装置
15 出力装置
〜2 利用者端末
21 保存媒体
210 ブラウザ
220 アプリケーションプログラム
221 ブラウザ連携モジュール
222 端末検索モジュール
223 通信モジュール
224 履歴管理モジュール
225 入力管理モジュール
22 CPU
23 RAM
24 入力装置
25 出力装置
3 検索管理サーバ
31 ネットワーク検索モジュール
32 通信モジュール
33 端末情報管理モジュール
34 評価モジュール
4 検索サーバ
41 ネットワーク検索モジュール
42 通信モジュール
NW ネットワーク
NW1 P2Pネットワーク

Claims (13)

  1. ホームページなどの情報を閲覧するブラウザ(110)と、
    前記ブラウザ(110)が閲覧した情報を取得するブラウザ連携手段(121)と、
    前記ブラウザ連携手段(121)からの閲覧した情報に対して、URLなどその情報を識別するための情報位置、および閲覧時間などの履歴情報に索引を付けて保存し、情報の閲覧順序と閲覧した情報が引用・相関関係を持つ場合、引用・相関関係の構造と実際に使われた引用・相関関係とを含めて保存する履歴管理手段(124)と、
    を有することを特徴とする情報検索収集用利用者端末。
  2. 前記履歴管理手段(124)は、以前に閲覧したものと同じ情報位置を閲覧した場合、情報が変更または更新されているとき、変更または更新箇所が少なければ、差分だけを保存し、変更または更新箇所がなければ、履歴情報だけを保存することを特徴とする請求項1に記載の情報検索収集用利用者端末。
  3. 請求項1に記載の利用者端末を複数台を接続し、
    前記各利用者端末は、ある1つの利用者端末からキーワードなどを基に自端末内および他の利用者端末に保存された情報を検索することを特徴とする情報検索収集システム。
  4. 1つの利用者端末から送信された情報や制御命令を受信した別の利用者端末が、次の利用者端末へ順次に中継していくことにより、情報をシステム全体へ送信することを特徴とする請求項3に記載の情報検索収集システム。
  5. 請求項4に記載した情報検索収集システムの中の1つの利用者端末からキーワードを基に検索する場合、この利用者端末は隣接した1台以上の別の利用者端末に検索命令を送信し、
    検索命令を受信した利用者端末は、自端末内に保存されている情報を検索し、その結果を検索命令の送信元に送信すると同時に、次の利用者端末に検索命令を送信していくことで、
    検索命令を送信した利用者端末は、全ての利用者端末から検索結果を受信することを特徴とする情報検索収集方法。
  6. 自システム内にある利用者端末のリストを持っている検索サーバを1台以上有することを特徴とする請求項3に記載の情報検索収集システム。
  7. 請求項6に記載した情報検索収集システムの中の1つの利用者端末からキーワードを基に検索する場合、この利用者端末は、前記検索サーバに検索命令を送信し、前記検索サーバは、リスト上にある他の利用者端末に検索命令を送信し、
    この検索命令を受信した利用者端末は、端末内に保存された情報を検索し、その結果を命令の送信元の端末に直接または検索サーバを経由して送信することを特徴とする情報検索収集方法。
  8. 請求項1に記載した利用者端末に保存された情報位置から、収集の開始位置を取得し、情報同士の引用・相関関係を順次にたどって情報を収集していくことを特徴とする情報検索収集方法。
  9. 前記履歴管理手段(124)に保存された情報位置から、収集の開始位置を取得し、情報同士の引用・相関関係を順次にたどって情報を収集していく検索手段を有することを特徴とする請求項1に記載の情報検索収集用利用者端末。
  10. あるタイミングで複数の利用者端末と通信を行い、この利用者端末に保存されている情報位置を取得し、この情報位置から、収集の開始位置を取得し、情報同士の引用・相関関係を順次にたどって情報を収集していく、少なくとも1台の収集サーバを有することを特徴とする請求項6に記載の情報検索収集システム。
  11. 請求項3に記載した情報検索収集システムおよびその他の情報源から検索した情報を表示するにあたって、請求項1に記載した利用者端末複数台の閲覧情報と閲覧順序の情報とを基に、情報を見た順番が近いものは相関が高いという条件と、同じ端末に格納されている情報同士は相関が高いという条件から相関関係を得点付けし、
    相関関係の得点の高いものを同じグループとしてグループ化し、
    単一の情報のリストの他に、情報の集合のリストで表示することを特徴とする情報検索収集方法。
  12. 請求項3に記載した情報検索収集システムおよびその他の情報源から検索情報を表示するにあたって、請求項1に記載した利用者端末複数台の閲覧した情報を集計し、
    多く見られている情報を価値が高く、という条件で情報を評価し、
    評価値の高いものを優先的に表示することを特徴とする情報検索収集方法。
  13. 請求項3に記載の情報検索収集システムおよびその他の情報源から検索情報を表示するにあたって、その情報同士がハイパーリンクなどの引用・相関関係を持つ場合、多数引用される情報は評価が高い、という第1の条件と、重要な情報から引用されている、あるいは重要な情報と相関関係がある情報は評価が高い、という第2の条件と、これら2つの条件で実際に利用された引用・相関関係は特に評価が高い、という第3の条件とで、情報の評価値を設定し、
    評価値の高いものを優先的に表示することを特徴とする情報検索収集方法。
JP2003429024A 2003-12-25 2003-12-25 情報検索収集用利用者端末、情報検索収集システム、および情報検索収集方法 Pending JP2005190065A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003429024A JP2005190065A (ja) 2003-12-25 2003-12-25 情報検索収集用利用者端末、情報検索収集システム、および情報検索収集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003429024A JP2005190065A (ja) 2003-12-25 2003-12-25 情報検索収集用利用者端末、情報検索収集システム、および情報検索収集方法

Publications (1)

Publication Number Publication Date
JP2005190065A true JP2005190065A (ja) 2005-07-14

Family

ID=34787805

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003429024A Pending JP2005190065A (ja) 2003-12-25 2003-12-25 情報検索収集用利用者端末、情報検索収集システム、および情報検索収集方法

Country Status (1)

Country Link
JP (1) JP2005190065A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100394727C (zh) * 2005-12-26 2008-06-11 阿里巴巴公司 一种日志分析方法和系统
JP2009048380A (ja) * 2007-08-17 2009-03-05 Yahoo Japan Corp 検索システム、検索装置、および検索方法
JP2009129178A (ja) * 2007-11-22 2009-06-11 Hitachi Ltd 情報検索システムおよびプログラム
JP2010117893A (ja) * 2008-11-13 2010-05-27 Nippon Telegr & Teleph Corp <Ntt> 大規模webサイトの評価装置、大規模webサイトの評価方法および大規模webサイトの評価プログラム
JP2011512597A (ja) * 2008-02-13 2011-04-21 マイクロソフト コーポレーション 関連するユーザのデータを使用したウェブ検索の向上
JP2012247918A (ja) * 2011-05-26 2012-12-13 Konica Minolta Business Technologies Inc ファイル名作成装置およびファイル名作成プログラム
CN103605738A (zh) * 2013-11-19 2014-02-26 北京国双科技有限公司 网页访问数据统计方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100394727C (zh) * 2005-12-26 2008-06-11 阿里巴巴公司 一种日志分析方法和系统
JP2009048380A (ja) * 2007-08-17 2009-03-05 Yahoo Japan Corp 検索システム、検索装置、および検索方法
JP2009129178A (ja) * 2007-11-22 2009-06-11 Hitachi Ltd 情報検索システムおよびプログラム
JP2011512597A (ja) * 2008-02-13 2011-04-21 マイクロソフト コーポレーション 関連するユーザのデータを使用したウェブ検索の向上
JP2010117893A (ja) * 2008-11-13 2010-05-27 Nippon Telegr & Teleph Corp <Ntt> 大規模webサイトの評価装置、大規模webサイトの評価方法および大規模webサイトの評価プログラム
JP2012247918A (ja) * 2011-05-26 2012-12-13 Konica Minolta Business Technologies Inc ファイル名作成装置およびファイル名作成プログラム
CN103605738A (zh) * 2013-11-19 2014-02-26 北京国双科技有限公司 网页访问数据统计方法及装置
CN103605738B (zh) * 2013-11-19 2017-03-15 北京国双科技有限公司 网页访问数据统计方法及装置

Similar Documents

Publication Publication Date Title
US8676830B2 (en) Keyword recommendation for internet search engines
JP5166949B2 (ja) レコメンド情報生成装置およびレコメンド情報生成方法
JP5778255B2 (ja) 垂直検索に基づいたクエリの方法、システム、および装置
CN101501628A (zh) 多载通信会话
JP2010508579A (ja) マクロを使用する個別化検索
JP2011192102A (ja) サマリ作成装置、サマリ作成方法及びプログラム
CN105095335A (zh) 用于网络上搜索结果的评级系统
JP2006331070A (ja) コミュニティ制御ノード装置、コミュニティ情報探索システム、コミュニティ情報探索方法
JP2006099341A (ja) 更新履歴生成装置及びプログラム
JP2010128928A (ja) 検索システム及び検索方法
KR100729184B1 (ko) 연상 키워드를 이용한 관계 정보 검색 방법 및 장치
JP2006309380A (ja) ウェブサイト閲覧支援システム及び方法並びにプログラム
KR101090819B1 (ko) 문자열의 자동완성 방법
JP2007034772A (ja) Webサイト検索結果の最適表示システム及びその装置及びその方法及びそのプログラム
JP4963619B2 (ja) 情報検索システム、情報検索装置、検索結果画面情報生成方法及び検索結果画面情報生成処理プログラム
JP2005190065A (ja) 情報検索収集用利用者端末、情報検索収集システム、および情報検索収集方法
JP5349032B2 (ja) 情報選別装置
JP2007128367A (ja) 情報検索ノウハウ管理システム
JP2005251157A (ja) 情報検索システムおよび情報検索方法ならびにプログラム
JP5122795B2 (ja) 検索システムおよび検索方法
JP5407336B2 (ja) 情報処理装置
JP5144185B2 (ja) 情報検索システム及び情報検索方法
JP5997738B2 (ja) 情報提供システム、情報提供サーバ、情報提供方法及びプログラム
US20110208718A1 (en) Method and system for adding anchor identifiers to search results
JP5538459B2 (ja) 情報処理装置及び方法