JP4633162B2

JP4633162B2 - インデックス生成システム、情報検索システム、及びインデックス生成方法

Info

Publication number: JP4633162B2
Application number: JP2008306728A
Authority: JP
Inventors: 雄大中山; 大祐鳥居
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2008-12-01
Filing date: 2008-12-01
Publication date: 2011-02-16
Anticipated expiration: 2028-12-01
Also published as: JP2010129061A; US20100138426A1; CN101901241B; CN101901241A; US8285723B2

Description

本発明は、インデックス生成システム、情報検索システム、及びインデックス生成方法に関するものである。

現在、インターネット（ＷＥＢ）上には膨大な情報が文書等として蓄積されており、ユーザは、キーワード検索等の方法により所望の情報にアクセスしている。従来の検索エンジンでは、ユーザが入力する検索条件と格納している文書群の単語分布等の文書情報との関係を用いて、条件に合致する文書を抽出し、抽出した複数の文書に優先順位を付してユーザに提供するものが一般的であった。近年では、携帯電話やＰＤＡ等の携帯端末から閲覧されることを前提とした携帯端末向け文書が数多くインターネット上に蓄積されるようになり、それらに対する検索のニーズが高まってきている。このような携帯端末向け文書の検索では、画面サイズや通信容量の制約により携帯端末向け文書のサイズが小さくて出現する単語が少ないといった関係上、従来の単語分布に基づく検索方法をそのまま用いたのでは、ユーザの要求に対して精度よく文書検索を行えないといった問題があった。

これに対して、特許文献１に記載された情報検索方法では、検索対象となる文書を、そのリンク先であり且つ内容が類似する他の文書と合成して集合文書とし、その集合文書に出現する単語により検索対象となる文書を特徴付けるように、検索インデックスの拡張が行われていた。この情報検索方法では、検索対象となる文書に出現しない単語も検索インデックスに含まれるので、検索キーワード（クエリー語ともいう）と適合する文書抽出の可能性を高めることが期待されていた。
特許第３５９８７３８号公報

ところで、特許文献１に記載された情報検索方法では、出現単語の分布に基づき文書間の内容の類似度を計算して、検索インデックスを拡張しているので、相対的に出現単語数が多いインターネット上の一般的な文書の検索には適用することができるものの、相対的に出現単語数が少なくてサイズの小さい携帯端末向けの文書の検索にはそのまま適用することが難しかった。つまり、携帯端末向けの文書では、例えば、ユーザナビゲーションに使われる語（ページのスクロールポインタやリンクを示す「下へ」、「このページの最初へ」、「次頁」、「戻る」、「ここをクリック」等）やサイトを運営する企業名・団体名や広告バナーの頻度が高く、コンテンツ本来の内容を構成する単語が相対的に少なくなる傾向があった。そのため、従来の情報検索方法では、携帯端末向け文書の検索インデックスを適切に拡張できないといった問題があった。

そこで、本発明は、かかる課題に鑑みて為されたものであり、各文書間の内容の類似度を精度よく推定することにより、精度の高い情報検索を可能とする、インデックス生成システム、情報検索システム、及びインデックス生成方法を提供することを目的とする。

上記課題を解決するため、本発明者らは鋭意研究を重ねる過程で、各文書にアクセスする個々のユーザは、それぞれ何らかの目的を持ってインターネット上の各文書（例えば携帯端末向け文書）にアクセスしていることに着眼した。そして、このようなアクセス傾向を考慮すると、各ユーザが同一のセッション時といったような所定の期間内にアクセスしている各文書間の関連性は高いと推定することができる。さらに、携帯電話のサービスプロバイダーにより大量の文書アクセス情報を収集できれば、このようなアクセス傾向が平坦化されて、各文書間の関連性の推定度を一層高めることも可能となる。そこで、本発明者らは、ユーザによるアクセス履歴を用いて各文書間でのアクセス履歴の類似度を算出すれば、その類似度を用いて文書間の内容の関連性（類似度）を推定できるとの知見を得て、本発明を完成するに至った。

上記課題を解決するため、本発明のインデックス生成システムは、文書検索用の検索インデックスを生成するインデックス生成システムであって、ユーザの各文書に対するアクセス履歴を示す履歴情報を格納するアクセス履歴格納手段と、アクセス履歴格納手段に格納された履歴情報に基づいて各文書間でのアクセス履歴の類似度を示すアクセス類似度を算出する類似度算出手段と、各文書それぞれがリンクするように構成されるハイパーテキストシステム上の各文書間のリンク構造を解析して、リンク遷移による各文書間のリンク距離を算出するリンク距離算出手段と、検索対象となる一の文書に類似する類似文書をアクセス類似度に基づいて特定する類似文書特定手段と、検索対象となる一の文書及び類似文書からなる集合文書に出現する語から検索対象となる一の文書に対する検索インデックスを生成する検索インデックス生成手段と、を有し、アクセス履歴格納手段は、各文書に対するユーザ毎のアクセス頻度を当該ユーザの識別情報に対応付けた頻度情報を履歴情報として格納し、類似度算出手段は、アクセス履歴格納手段に格納された頻度情報に基づいてアクセス類似度を算出し、類似文書特定手段は、リンク距離算出手段を用いて検索対象となる一の文書から所定の距離以下のリンク距離にある文書を文書群として特定すると共に、文書群に含まれる文書と検索対象となる文書との間のアクセス類似度を類似判定閾値と比較して類似文書を特定することを特徴とする。

また、本発明のインデックス生成方法は、文書検索用の検索インデックスを生成するインデックス生成方法であって、アクセス履歴格納手段が、ユーザの各文書に対するアクセス履歴を示す履歴情報を格納するアクセス履歴格納ステップと、類似度算出手段が、アクセス履歴格納ステップで格納された履歴情報に基づいて各文書間でのアクセス履歴の類似度を示すアクセス類似度を算出する類似度算出ステップと、リンク距離算出手段が、各文書それぞれがリンクするように構成されるハイパーテキストシステム上の各文書間のリンク構造を解析して、リンク遷移による各文書間のリンク距離を算出するリンク距離算出ステップと、類似文書特定手段が、検索対象となる一の文書に類似する類似文書をアクセス類似度に基づいて特定する類似文書特定ステップと、検索インデックス生成手段が、検索対象となる一の文書及び類似文書からなる集合文書に出現する語から検索対象となる一の文書に対する検索インデックスを生成する検索インデックス生成ステップと、を含み、アクセス履歴格納ステップでは、アクセス履歴格納手段が、各文書に対するユーザ毎のアクセス頻度を当該ユーザの識別情報に対応付けた頻度情報を履歴情報として格納し、類似度算出ステップでは、類似度算出手段が、アクセス履歴格納ステップで格納された頻度情報に基づいてアクセス類似度を算出し、類似文書特定ステップでは、類似文書特定手段が、リンク距離算出ステップで算出されるリンク距離を用いて検索対象となる一の文書から所定の距離以下のリンク距離にある文書を文書群として特定すると共に、文書群に含まれる文書と検索対象となる文書との間のアクセス類似度を類似判定閾値と比較して類似文書を特定することを特徴とする。

このようなインデックス生成システムやインデックス生成方法によれば、ユーザの各文書に対するアクセス履歴を示す履歴情報に基づいて各文書間でのアクセス履歴の類似度を示すアクセス類似度を算出して、このアクセス類似度に基づいて、検索対象となる一の文書に類似する類似文書を特定して、検索対象となる一の文書と類似文書とからなる集合文書に出現する語から検索対象となる一の文書に対する検索インデックスを生成することができる。精度よく推定された類似文書を含めた領域まで検索インデックスを拡張していることから、このような検索インデックス生成システムやインデックス生成方法を用いれば、精度の高い情報検索が可能となる。

また、上述したインデックス生成システムやインデックス生成方法では、アクセス履歴格納手段が、各文書に対するユーザ毎のアクセス頻度を当該ユーザの識別情報に対応付けた頻度情報を履歴情報として格納し、類似度算出手段は、アクセス履歴格納手段に格納された頻度情報に基づいてアクセス類似度を算出し、類似文書特定手段は、アクセス類似度を類似判定閾値と比較して類似文書を特定している。アクセス頻度は比較的容易に取得することができるので、かかる構成によれば、類似文書の特定が容易に行える。

また、上述したインデックス生成システムやインデックス生成方法は、リンク距離算出手段やリンク距離算出ステップを備え、類似文書特定手段は、リンク距離算出手段等を用いて検索対象となる一の文書から所定の距離以下のリンク距離にある文書を文書群として特定すると共に、文書群に含まれる文書と検索対象となる一の文書との間のアクセス類似度を類似判定閾値と比較して類似文書を特定している。かかる構成によれば、意味的にまとまりのある文書群から類似文書を特定するので、文書間の内容の類似性の推定精度を向上させることができる。

また、上述した類似度算出手段は、リンク距離算出手段により算出されるリンク距離が大きくなるにつれて低下するようにアクセス類似度を算出することが好ましい。かかる構成によれば、ユーザにリンク遷移という負荷をより多く強いる文書の影響を小さくして、類似文書を特定することができ、文書間の内容の類似性の推定精度を更に向上できる。

また、上述したアクセス履歴格納手段は、アクセス頻度それぞれに対応するアクセス時間を含む頻度情報を履歴情報として格納し、類似度算出手段は、頻度情報におけるアクセス頻度をアクセス時間に基づいて増減して、アクセス類似度を算出してもよい。かかる構成によれば、ユーザが長時間閲覧した文書に対して重み付けをすることができ、実際のユーザ行動に即した類似文書を特定することができる。

また、上述した類似文書特定手段は、類似判定閾値を複数有しており、且つ、複数の類似判定閾値のそれぞれに対応する類似文書をそれぞれ特定し、検索インデックス生成手段は、複数の類似判定閾値それぞれに対応する各類似文書に応じて特定される文書集合それぞれに出現する語から、検索対象となる一の文書に対する検索インデックスを複数パターン生成することが好ましい。かかる構成によれば、文書検索を行う際、検索適合度を制御することができるため、検索件数を調整することが可能となる。

また、上記課題を解決するため、本発明の情報検索システムは、文書を検索する情報検索システムであって、上述したインデックス生成システムにより生成された検索インデックスを用いて、検索クエリーに適合する適合文書を検索する情報検索手段を有することが好ましい。このような情報検索システムによれば、上述したインデックス生成システムによって生成された精度よい検索インデックスを用いて情報検索を行うことが可能となる。

また、上述した情報検索手段は、類似判定閾値を複数有するインデックス生成システムにより生成された複数パターンの内の一のパターンの検索インデックスを用いて検索要求に適合する適合文書を検索すると共に、検索された適合文書の数に応じて複数パターンの内の別のパターンの検索インデックスを選択して用いることが好ましい。かかる構成によれば、上述したインデックス生成システムによって検索適合度を制御しながら、検索件数を調整することができる。

また、本発明の情報検索システムは、同一サイト内の複数の文書が適合文書として情報検索手段により検索された場合に、検索要求との類似度が大きい文書を優先させる絞込みを行う検索結果絞込手段や、検索インデックスを構成する語の数が多い文書を優先させる絞込みを行う検索結果絞込手段や、複数の文書の内、文書パスが上位の文書を優先させる絞込みを行う検索結果絞込手段や、アクセス履歴格納手段に格納されている履歴情報に基づいて文書アクセス数が上位の文書を優先させる絞込みを行う検索結果絞込手段や、アクセス履歴格納手段に格納されている履歴情報に基づいてユーザによる各セッションにおけるアクセス開始文書を優先させる絞込みを行う検索結果絞込手段を備えるようにしてもよい。かかる構成によれば、検索結果を適切に絞り込むことが可能となる。

本発明によれば、文書間の内容の類似度を精度よく推定して類似文書を特定することにより、精度の高い情報検索を行うことができる。

以下、図面とともに本発明にかかるインデックス生成システム、情報検索システム、及びインデックス生成方法の好適な実施形態について詳細に説明する。なお、図面の説明においては同一の要素には同一符号を付し、重複する説明を省略する。
［第１実施形態］

まず、本発明の第１実施形態にかかる情報検索システム１０の全体構成について、図１を参照しながら説明する。図１に示すように、情報検索システム１０は、ネットワークアクセスサーバ２０、インデックス生成装置３０、及び情報検索装置４０から構成され、ＰＣ（不図示）や携帯端末Ｐからの接続要求に応じてインターネット等のネットワークＮＷと有線又は無線により通信可能となっている。携帯端末Ｐは、一般的な通話機能に加え、ＷＷＷブラウザ等のネットワークに接続するデータ通信機能を備えている。この情報検索システム１０でネットワークＮＷ上の文書等の情報を検索しようとした場合、所定のキーワードがユーザにより携帯端末Ｐから入力され、携帯端末Ｐは、そのキーワードに基づいた検索要求をネットワークアクセスサーバ２０を介して情報検索装置４０に出力する。検索要求を受けた情報検索装置４０は、インデックス生成装置３０を用いて、この検索要求に応じた検索処理を実行し、携帯端末Ｐに検索結果を返信する。そして、携帯端末Ｐのディスプレイ等の表示部に検索結果が表示され、表示された検索結果の中からユーザによって選択された文書等の情報に対してアクセスが為される。

ここで、ネットワークアクセスサーバ２０は、例えばゲートウエイやプロクシであり、複数の携帯端末Ｐ（例えばＰ１〜Ｐ３など）のＷＷＷブラウザ等に入力された各ユーザからの接続指示情報を各携帯端末Ｐそれぞれから受信して、その接続指示を中継することにより、携帯端末ＰをネットワークＮＷへアクセスさせるものである。このネットワークＮＷは、インターネット上に構築されるＷＷＷ（World Wide Web）であって、各文書が互いにリンクされた構成を有するハイパーテキストシステムを構成している。図１のネットワークＮＷでは、図示矢印で示すように、文書Ｄ１が文書Ｄ２，Ｄ３にリンクし、文書Ｄ２が文書Ｄ３にリンクし、文書Ｄ３は文書Ｄ４にリンクしている。このようなハイパーテキストシステムには、ＰＣからだけでなく、携帯電話やＰＤＡ等の携帯端末Ｐからもアクセスが可能である。なお、図１に示すハイパーテキストシステムでは、説明の便宜上、携帯端末向けの文書Ｄ１〜Ｄ４からなるＷＷＷとしているが、本実施形態の対象となる文書の数はこれらに限定されるわけではなく、インターネット上の多数の文書が対象となり、また、各文書は、ｈｔｍｌファイル、ｘｍｌファイル、シンプルテキスト、リッチテキスト、画像等の様々な形式のデータからなっている。

また、ネットワークアクセスサーバ２０は、携帯端末Ｐからの接続指示やその応答等に基づいて各ユーザのアクセス履歴を示す履歴情報を収集するアクセス履歴収集部２１を備えている。アクセス履歴収集部２１は、携帯端末ＰからのネットワークＮＷにおけるアクセス先文書情報をユーザの識別情報と合わせて収集する。このアクセス先文書情報としては、例えばＵＲＬ情報がある。また、ユーザの識別情報としては、例えばネットワークアクセス時のログインネームやＳＩＭ（Subscriber Identity Module）又はＵＩＭ（User Identity Module）の契約者識別番号やＩＰアドレスやＩＭＥＩ（International Mobile Equipment Identity）等の端末識別番号がある。アクセス履歴収集部２１は、上記情報に加え、アクセス時刻、アクセス時間、アクセス文書内容や通信エラーコード等の情報を付加して収集することも可能である。なお、図１では、ネットワークアクセスサーバ２０に３台の携帯端末Ｐ１〜Ｐ３が対応しているが、文書間の内容の類似度をより精度よく推定するには、例えば携帯端末Ｐが１００万台程度あったほうが好ましい。

インデックス生成装置３０は、各文書間がリンクされた構成を有するハイパーテキストシステムから文書検索用の検索インデックスを生成する装置である。インデックス生成装置３０は、機能的には、アクセス履歴格納部（アクセス履歴格納手段）３１、類似度算出部（類似度算出手段）３２、リンク距離算出部（リンク距離算出手段）３３、類似文書特定部（類似文書特定手段）３４、検索インデックス生成部（検索インデックス生成手段）３５、検索インデックス格納部３６を備えて構成される。このインデックス生成装置３０は、ネットワークアクセスサーバ２０、情報検索装置４０、及びネットワークＮＷと双方向に接続され、互いに情報をやりとりすることができるようになっている。

このインデックス生成装置３０は、図２に示されるハードウェアにより構成される。図２は、インデックス生成装置３０のハードウェア構成図である。図１に示されるインデックス生成装置３０は、物理的には、図２に示すように、ＣＰＵ３０ａ、主記憶装置であるＲＡＭ３０ｂ及びＲＯＭ３０ｃ、入力装置３０ｄ、ディスプレイ等の出力装置３０ｅ、ネットワークカード等のデータ送受信デバイスである通信モジュール３０ｆ、ハードディスク装置等の補助記憶装置３０ｇなどを含むコンピュータシステムとして構成されている。詳細を後述するインデックス生成装置３０の各機能は、図２に示すＣＰＵ３０ａ、ＲＡＭ３０ｂ等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ３０ａの制御のもとで入力装置３０ｄ、出力装置３０ｅ、通信モジュール３０ｆを動作させるとともに、ＲＡＭ３０ｂや補助記憶装置３０ｇにおけるデータの読み出し及び書き込みを行うことで実現される。なお、上述したネットワークアクセスサーバ２０や後述する情報検索装置４０も同様のハードウェア構成をとるものであり、プログラムにしたがって、各種機能を実行することができるように構成されている。

アクセス履歴格納部３１は、ユーザの各文書に対するアクセス履歴を示す履歴情報を格納する部分である。アクセス履歴格納部３１は、アクセス履歴収集部２１から各種の履歴情報を取得すると、各文書Ｄ１〜Ｄ４に対するユーザ毎（すなわち携帯端末Ｐ１〜Ｐ３毎）のアクセス頻度を当該ユーザの識別情報に対応付けた頻度情報を、履歴情報として格納する。図３は、このような格納データの一例を示すものであり、各ユーザ（Ｕ００１〜Ｕ００３）による文書Ｄ１〜Ｄ４へのアクセス数（以下「アクセス頻度」という場合もある）を示している。この格納データでは、ユーザＵ００１（携帯端末Ｐ１）が文書Ｄ１に６回、文書Ｄ２に０回、文書Ｄ３に５回、文書Ｄ４に５回アクセスし、ユーザＵ００２（携帯端末Ｐ２）が文書Ｄ１に２回、文書Ｄ２に０回、文書Ｄ３に２回、文書Ｄ４に１回アクセスし、ユーザＵ００３（携帯端末Ｐ３）が文書Ｄ１に４回、文書Ｄ２に１回、文書Ｄ３に３回、文書Ｄ４に２回アクセスしていることが具体的に示されている。

類似度算出部３２は、アクセス履歴格納部３１に格納された履歴情報に基づいて各文書間でのアクセス履歴（アクセス傾向）の類似度を示すアクセス類似度を算出する部分である。類似度算出部３２は、所定時間毎にアクセス履歴格納部３１から頻度情報といった履歴情報を取得する。そして、類似度算出部３２は、アクセス類似度を算出するために、まず、各ユーザによる各文書へのアクセス数を、各文書の特徴を示すベクトルとして（つまりユーザ毎のアクセス数をベクトルの成分に対応させる）、各ベクトルの大きさが１となるように正規化の計算を行う。例えばアクセス履歴格納部３１から取得した履歴情報が図３に示されるデータであった場合、ユーザＵ００１における文書Ｄ１のデータを正規化させるには、文書Ｄ１に対する全ユーザＵ００１〜Ｕ００３のアクセス数（６回、２回、４回）をそれぞれ２乗してから加算して、この加算した合計値の平方根（６²＋２²＋４²）^1/2を分母とし、文書Ｄ１に対するユーザＵ００１のアクセス数（６回）を分子として算出して、正規化後のデータとして、６／（６²＋２²＋４²）^1/2＝０．８０を得る。このような正規化の計算をそれぞれデータについて行うと、図４に示されるように、各ユーザＵ００１〜Ｕ００３における文書Ｄ１の正規化後のデータは、０．８０，０．２７，０．５３（１つのベクトル）となる。同様に、各ユーザＵ００１〜Ｕ００３における文書Ｄ２の正規化後のデータは、０，０，１．００となり、文書Ｄ３の正規化後のデータは、０．８１，０．３２，０．４９となり、文書Ｄ４の正規化後のデータは０．９１，０．１８，０．３６となる。

類似度算出部３２は、続いて、各ベクトル間の内積値を下記式（１）に基づいて算出する。このように算出される内積値は、各文書間のアクセス類似度を示す値とされる。

例えば、類似度算出部３２が図４に示される正規化後のデータに基づいて各ベクトル間の内積値の算出を上記式（１）に基づいて行うと、図５に示されるように、文書Ｄ１，Ｄ２間のアクセス類似度が０．５３、文書Ｄ１，Ｄ３間のアクセス類似度が０．９９、文書Ｄ１，Ｄ４間のアクセス類似度が０．９７、文書Ｄ２，Ｄ３間のアクセス類似度が０．４９、文書Ｄ２，Ｄ４間のアクセス類似度が０．３６、文書Ｄ３，Ｄ４間のアクセス類似度が０．９７として、それぞれ算出される。類似度算出部３２は、このようにして算出したアクセス類似度を類似文書特定部３４へ出力する。

リンク距離算出部３３は、ハイパーテキストシステム上の各文書間のリンク構造を解析して、リンク遷移による各文書間のリンク距離を算出する部分である。リンク距離算出部３３は、ハイパーテキストシステム上の文書にアクセスして、各文書Ｄ１〜Ｄ４のリンク構造を解析する。そして、リンク距離算出部３３は、各文書Ｄ１〜Ｄ４間の最短到達距離であるリンク距離（最小のリンク遷移数）を算出する。なお、このようなリンク距離の算出には、ＷＷＷクローラーと同様の方法でリンクを幅優先で探索しながら到達距離を求めてもよいし、上述した履歴情報に記録されているパス情報（ＵＲＬ情報）を順に探索して各文書Ｄ１〜Ｄ４のリンク先を個別に解析するようにしてもよい。このような解析によれば、例えば、図１に示すハイパーテキストシステム上の文書Ｄ１からリンク距離すなわちリンク遷移数１で到達できるのは、文書Ｄ２と文書Ｄ３であり、リンク遷移数２で到達できるのは文書Ｄ４となる。

類似文書特定部３４は、検索対象となる一の文書に類似する類似文書を上述したアクセス類似度等に基づいて特定する部分である。類似文書特定部３４は、検索対象となる一の文書（以下「検索対象文書」と記す）が与えられると、まず、リンク距離算出部３３によるリンク距離の算出結果を用いて、検索対象文書から予め定められたリンク距離閾値以下（複数あってもよい）でリンク遷移可能な文書を文書群として特定する。類似文書特定部３４は、このような文書群に含まれる文書と検索対象文書との間の各アクセス類似度を類似度算出部３２から入力されたアクセス類似度から抽出し、抽出された各アクセス類似度を、両文書の内容が類似していると推定される類似判定閾値ＴＨと比較する。そして、このような比較を行った類似文書特定部３４は、類似判定閾値ＴＨより大きいアクセス類似度の文書を、検索対象文書に内容が類似する類似文書として特定する。

類似文書特定部３４は、例えば、検索対象文書が文書Ｄ１でリンク距離閾値が２であった場合、まず、リンク距離が２以下である文書Ｄ２，Ｄ３，Ｄ４を文書群として特定する。そして、類似文書特定部３４は、類似判定閾値ＴＨが０．９であった場合、この文書群からアクセス類似度が０．５３である文書Ｄ２を除外し、アクセス類似度が０．９９である文書Ｄ３と０．９７である文書Ｄ４とを類似文書として特定する。また、検索対象文書が文書Ｄ１でリンク距離閾値が１であった場合、類似文書特定部３４は、文書Ｄ２，Ｄ３を文書群として特定し、類似判定閾値ＴＨが０．９であれば、文書Ｄ２を除外して文書Ｄ３を類似文書として特定する。類似文書特定部３４は、検索対象文書と特定された類似文書とにかかる情報を検索インデックス生成部３５に出力する。

検索インデックス生成部３５は、検索対象文書とその類似文書とからなる集合文書に出現する単語の分布から検索対象文書に対する検索インデックスを生成する部分である。検索インデックス生成部３５は、類似文書特定部３４から類似文書等の情報が入力されると、ネットワークＮＷにアクセスして文書内容にかかる情報を取得して、類似文書に応じて特定される文書集合に出現する語から検索対象文書に対する検索インデックスを生成する。このように検索インデックスを生成する際、出現単語の活用形や派生語や異表記語を検索インデックスに含むように変形してもよい。また、検索インデックス生成部３５は、タグによるマークアップによる重み付けを検索インデックスに反映させてもよいし、単語の分布ではなくて文書に出現する文字列の分布（例えばＮ−ＧＲＡＭ）から検索インデックスを生成してもよい。また、本実施形態における検索インデックスの構造には特段の制約はなく、転置ファイルやＢ−ＴＲＥＥ等の既知のものを適宜採用することができる。検索インデックス生成部３５は、上述した各種方法により集合文書から生成された検索インデックスを検索インデックス格納部３６に出力する。

検索インデックス格納部３６は、検索インデックス生成部３５で生成されて出力された各文書（検索対象文書）に対する検索インデックスを各文書に対応させて格納する部分である。この検索インデックス格納部３６は、情報検索装置４０との間で相互に接続されており、情報検索装置４０が検索インデックスにアクセスできるようになっている。なお、本実施形態では、検索インデックス格納部３６は、インデックス生成装置３０内に配置されているが、インデックス生成装置３０の外部に配置されるように構成されてもよい。

情報検索装置４０は、ユーザの携帯端末Ｐから検索キーワード情報といったクエリー（検索要求）を受信すると、そのクエリーに適合するネットワークＮＷ上の文書を検索して、検索結果情報をその携帯端末Ｐに送信するものである。情報検索装置４０は、情報検索部４１と検索結果絞込部４２とを備えている。

情報検索部４１は、インデックス生成装置３０により生成された検索インデックスを用いて、クエリーに適合する適合文書を検索する部分である。情報検索部４１は、携帯端末Ｐからクエリーを受信すると、インデックス生成装置３０の検索インデックス格納部３６にアクセスし、格納されている検索インデックスを用いて、クエリーに適合する適合文書を検索する。例えば、情報検索部４１は、クエリーを受信すると、クエリーに含まれるキーワード情報を抽出する。そして、情報検索部４１は、抽出したキーワード情報を、検索インデックス格納部３６に格納されている各種の検索インデックスに照合し、クエリーに適合する適合文書を選び出す。情報検索部４１は、このようにして得られた適合文書についての情報（ＵＲＬ情報や文書の一部内容等の情報）を検索結果情報として、検索要求のあった携帯端末Ｐへ送信する。

検索結果絞込部４２は、同一サイト内の複数の文書が適合文書として情報検索部４１により検索された場合に、クエリーとの類似度が大きい文書を優先させる部分である。検索結果絞込部４２は、情報検索部４１が同一サイト内の複数の文書を検索結果とした場合に、クエリー（例えば１語以上の検索キーワードからなるクエリー）と上記の同一サイト内の複数の文書それぞれとの類似度を、例えばｔｆ・ｉｄｆ法により計算する。そして、検索結果絞込部４２は、これら複数の文書の中から最も類似度が高いものを選択し、残りの文書を検索結果から破棄する処理を行う。そして、検索結果絞込部４２は、同一サイト内の複数の文書のうち類似度が高い文書のみが含まれた検索結果を情報検索部４１に出力し、検索要求のあった携帯端末Ｐへ送信するようにする。なお、同一サイト内の複数の文書の絞込みは、必ずしも１つの文書への絞込みである必要はなく、２つ以上の少数の文書に絞込むようにしてもよい。

続いて、上記した情報検索システム１０によるインデックス生成方法を含む検索方法について説明する。図６は、本実施形態の情報検索システム１０による検索方法を示すフローチャートである。図６に示すように、まず、アクセス履歴収集部２１は、複数の携帯端末Ｐ１〜Ｐ３のユーザによる文書Ｄ１〜Ｄ４に対するアクセス履歴を示す各種の履歴情報を収集する（Ｓ１０１）。この履歴情報には、アクセス先文書情報（ＵＲＬ情報、アクセス頻度、アクセス時刻、アクセス時間、アクセス文書内容等）がユーザの識別情報に対応付けられて含まれている。そして、アクセス履歴収集部２１は、これら履歴情報をアクセス履歴格納部３１に出力し、アクセス履歴格納部３１は、このような履歴情報を格納する（アクセス履歴格納ステップ、Ｓ１０２）。具体的には、アクセス履歴格納部３１は、各文書Ｄ１〜Ｄ４に対するユーザ毎のアクセス頻度を当該ユーザの識別情報に対応付けた頻度情報（図３参照）を、履歴情報として格納する。

次に、類似度算出部３２は、ステップＳ１０２で格納された履歴情報に基づいて各文書間でのアクセス履歴の類似度を示すアクセス類似度を算出する（類似度算出ステップ、Ｓ１０３）。アクセス類似度を算出するために、類似度算出部３２は、各ユーザによる各文書Ｄ１〜Ｄ４へのアクセス数を各文書Ｄ１〜Ｄ４の特徴を示すベクトルとし、各ベクトルの大きさが１となるように正規化の計算を行う（図４参照）。そして、類似度算出部３２は、各ベクトル間の内積値を算出し（図５参照）、この算出された内積値を各文書間のアクセス類似度とする。類似度算出部３２は、このようにして算出したアクセス類似度を、類似文書特定部３４へ出力する。また、リンク距離算出部３３は、ハイパーテキストシステム上の各文書間のリンク構造を解析して、リンク遷移による各文書間のリンク距離を算出し（Ｓ１０４）、類似文書特定部３４へ出力する。

続いて、類似文書特定部３４は、図６のフローチャートが始まる時点で既に与えられている検索対象文書に対し、まず、リンク距離算出部３３によるリンク距離の算出結果を用いて、検索対象文書から予め定められたリンク距離閾値以下でリンク遷移可能な文書を文書群として特定する（Ｓ１０５）。そして、類似文書特定部３４は、このような文書群に含まれる文書と検索対象文書との間の各アクセス類似度をステップＳ１０３で算出されたアクセス類似度から抽出し、抽出された各アクセス類似度を類似判定閾値ＴＨと比較する。そして、類似文書特定部３４は、類似判定閾値より大きいアクセス類似度の文書を、検索対象文書に内容が類似する類似文書として特定する（類似文書特定ステップ、Ｓ１０６）。なお、検索対象文書の与え方としては、アクセス履歴に出現する全ての文書としたり、コンベンショナルなＷＷＷクローラで収集したＵＲＬ集合としたり、これら両方の組合せとしたりすることができる。

続いて、検索インデックス生成部３５は、検索対象文書とその類似文書とからなる集合文書に出現する単語の分布から検索対象文書に対する検索インデックスを生成する（検索インデックス生成ステップ、Ｓ１０７）。検索インデックス生成部３５は、ステップＳ１０７で生成した検索インデックスを検索インデックス格納部３６に格納させる。そして、インデックス生成装置３０は、このようなインデックスの生成を繰り返し、ネットワークＮＷ上の各種文書の検索インデックスを生成する。情報検索装置４０は、このようにして作成された検索インデックスを用いて、携帯端末Ｐからの検索要求に応じて検索を行い、検索結果を携帯端末Ｐへ返信するようになっている（Ｓ１０８）。

以上、説明したように、情報検索システム１０によれば、ユーザの各文書Ｄ１〜Ｄ４に対するアクセス履歴を示す履歴情報に基づいて各文書Ｄ１〜Ｄ４間でのアクセス履歴の類似度を示すアクセス類似度を算出して、このアクセス類似度に基づいて、検索対象文書に類似する類似文書を特定して、検索対象文書と類似文書とからなる集合文書に出現する語から検索対象文書に対する検索インデックスを生成することができる。このように、実際にユーザが検索対象文書と同時にアクセスする傾向が強い文書の情報も用いて、検索対象文書だけから生成される検索インデックスよりも大規模なインデックスを生成できるので、検索漏れを防止することができる。つまり、精度よく推定された類似文書を含めた領域まで検索インデックスを拡張していることから、このような検索インデックス生成システムやインデックス生成方法を用いれば、精度の高い情報検索が可能となる。なお、上述したインデックス生成装置３０や情報検索装置４０等の各機能は、個別の装置毎に配置されている必要はなく、システム上にあればよく、その場合、これら機能によりインデックス生成システム等が構成される。以下の実施形態でも同様である。

また、アクセス履歴格納部３１は、各文書に対するユーザ毎のアクセス頻度を当該ユーザの識別情報に対応付けた頻度情報を履歴情報として格納し、類似度算出部３２は、アクセス履歴格納部３１に格納された頻度情報に基づいてアクセス類似度を算出し、類似文書特定部３４は、アクセス類似度を類似判定閾値ＴＨと比較して、類似判定閾値ＴＨより大きいアクセス類似度の文書を類似文書として特定している。アクセス頻度は、比較的、容易に取得することができ、また、類似判定閾値ＴＨを用いて判定するので、かかる構成によれば、類似文書の特定が容易に行える。

また、情報検索システム１０は、各文書Ｄ１〜Ｄ４それぞれがリンクするように構成されるハイパーテキストシステム上の各文書Ｄ１〜Ｄ４間のリンク構造を解析して、リンク遷移による各文書Ｄ１〜Ｄ４間のリンク距離を算出するリンク距離算出部３３を備え、類似文書特定部３４は、リンク距離算出部３３を用いて検索対象文書から所定の距離以下のリンク距離にある文書を文書群として特定すると共に、この文書群に含まれる文書と検索対象文書との間のアクセス類似度を類似判定閾値ＴＨと比較して類似文書を特定している。かかる構成によれば、意味的にまとまりのある文書群から類似文書を特定することができるので、文書間の内容の類似性の推定精度を向上させることができる。
［第２実施形態］

続いて、本発明の第２実施形態にかかる情報検索システム１０について説明する。本実施形態では、第１実施形態における類似度算出部３２が、リンク距離算出部３３により算出されるリンク距離が大きくなるにつれて低下するようにアクセス類似度を算出する類似度算出部３２ａとなっている。その他の構成は、第１実施形態と同様である。

類似度算出部３２ａは、履歴情報に基づいてアクセス類似度を算出する際に、各文書Ｄ１〜Ｄ４の特徴を示すベクトルの内積値を算出する点は、第１実施形態における類似度算出部３２と同様である。類似度算出部３２ａは、更に、この内積値に対して、１／Ｎ（Ｎは文書間移動に要するリンク遷移数）を乗じて、アクセス類似度としている（図７の「修正類似度」参照）。例えば、第１実施形態では、リンク距離閾値を２、類似判定閾値ＴＨを０．９として文書Ｄ１の類似文書を特定した際、文書Ｄ３と文書Ｄ４とが特定されたが、本実施形態によれば、文書Ｄ４は修正類似度が０．４９となって除外され、文書Ｄ３のみが類似文書として特定される。つまり、文書間移動に要するリンク遷移数を一種のペナルティとして与えており、遷移により多くのコスト（ユーザによるリンククリック）を要する文書による影響を、検索インデックスの生成から除外することができる。なお、上述した１／Ｎに代えて、１／logＮや１／Ｎ²を内積値に乗じてアクセス類似度としてもよい。
［第３実施形態］

続いて、本発明の第３実施形態に係る情報検索システム１２の全体構成について説明する。本実施形態では、図８に示すように、第１実施形態におけるアクセス履歴格納部３１〜類似文書特定部３４に代えて、アクセス履歴格納部（アクセス履歴格納手段）５１、類似度算出部（類似度算出手段）５２、類似文書特定部（類似文書特定手段）５３を備えている。なお、アクセス履歴格納部５１、類似度算出部５２、及び類似文書特定部５３の基本的な機能は、第１実施形態のアクセス履歴格納部３１、類似度算出部３２、及び類似文書特定部３４と同様である。以下、第１実施形態と相違する点を中心として説明する。

アクセス履歴格納部５１は、ユーザの各文書に対するアクセス履歴を示す履歴情報を格納する部分である。アクセス履歴格納部５１は、アクセス履歴収集部２１から各種の履歴情報を取得すると、各文書Ｄ１〜Ｄ４に対するユーザ毎のアクセス状況（アクセスの有無）を当該ユーザの識別情報とアクセス時刻とに対応付けて時系列化されたアクセス情報を、履歴情報として格納する。具体的には、同一サイト内で行う文書アクセスをアクセス順に並べたセッション毎のアクセス情報を、履歴情報として格納する。このセッション毎のアクセス情報は、アクセス時刻等に基づいて判定され、文書アクセス時刻が一定時間（例えば３０分）行われないとセッションが終わったものと判定される。なお、上記のセッション毎のアクセス情報は、同一サイト内でのアクセスに限定せずに、一定時間内であれば異なるサイト内でのアクセスであっても同一セッションとしてもよい。

図９は、このようなセッション毎のアクセス情報の格納データの一例を示すものである。この格納データでは、ユーザＵ００１が３回のセッションを行っており、１回目のセッションでは文書Ｄ１→文書Ｄ３→文書Ｄ４の順でアクセスし、２回目のセッションでは文書Ｄ１→文書Ｄ３の順でアクセスし、３回目のセッションでは文書Ｄ１→文書Ｄ３→文書Ｄ４の順でアクセスしている。同様に、ユーザＵ００２は、３回のセッションを行っており、１回目のセッションでは文書Ｄ１→文書Ｄ３→文書Ｄ４の順でアクセスし、２回目のセッションでは文書Ｄ１にアクセスし、３回目のセッションでは文書Ｄ１→文書Ｄ３の順でアクセスしている。また、ユーザＵ００３は２回のセッションを行っており、１回目のセッションでは文書Ｄ１→文書Ｄ２→文書Ｄ３→文書Ｄ４の順でアクセスし、２回目のセッションでは文書Ｄ２→文書Ｄ３の順でアクセスしている。

類似度算出部５２は、アクセス履歴格納部５１に格納された履歴情報に基づいて各文書間でのアクセス履歴の類似度を示すアクセス類似度を算出する部分である。類似度算出部５２は、同一セッション内で、ある文書へのアクセス以後に別の文書にアクセスされる確率を下記の式（２）に基づいて、個々の文書に対して算出する。下記の式（２）は、例えば、文書Ｄ１及び文書Ｄ２間のアクセス類似度の算出式であり、アクセス順を考慮したものとなっている。なお、他の文書間のアクセス類似度を算出する場合には、式（２）中の「文書」を、算出する文書に置き換える。

類似度算出部５２は、このような算出式（２）に基づいて、例えば、図９に示すようなアクセス情報から各文書Ｄ１〜Ｄ４間のアクセス類似度を算出する。図１０には、このようにして算出された各文書間のアクセス類似度が示されており、具体的には、Ｄ１→Ｄ２へのアクセス類似度が０．１４、Ｄ１→Ｄ３へのアクセス類似度が０．８６、Ｄ１→Ｄ４へのアクセス類似度が０．５７、Ｄ２→Ｄ１へのアクセス類似度が０、Ｄ２→Ｄ３へのアクセス類似度が１．０、Ｄ２→Ｄ４へのアクセス類似度が０．５となっている。類似度算出部５２は、このようにして算出したアクセス類似度を類似文書特定部５３へ出力する。なお、類似度算出部５２でアクセス類似度を算出する際、アクセス順を考慮せずに、同一セッション内でのアクセス数を用いてアクセス類似度を算出するようにしてもよい。

類似文書特定部５３は、検索対象となる一の文書に類似する類似文書を上述したアクセス類似度に基づいて特定する部分である。類似文書特定部５３は、検索対象文書が与えられると、類似度算出部５２から入力されたアクセス類似度を用いて、検索対象文書と他の文書との内容が類似していると推定される類似判定閾値ＴＨと比較する。そして、類似文書特定部３４は、類似判定閾値ＴＨより大きいアクセス類似度の文書を、検索対象文書に内容が類似する類似文書として特定する。

類似文書特定部５３は、例えば、検索対象文書が文書Ｄ１で類似判定閾値が０．３であった場合、アクセス類似度が０．１４である文書Ｄ２を除外し、アクセス類似度が０．８６である文書Ｄ３と０．５７である文書Ｄ４とを類似文書として特定する。類似文書特定部５３は、検索対象文書と特定された類似文書とにかかる情報を検索インデックス生成部３５に出力して、検索インデックス生成部３５は、入力された類似文書等に基づいて検索インデックスを生成する。

このような情報検索システム１２によるインデックス生成方法を含む情報検索方法は、アクセス順に並べたセッション毎のアクセス情報を履歴情報として用いている点を除き、第１実施形態の情報検索方法と略同様である。すなわち、本実施形態に係る情報検索システム１２による情報検索方法では、第１実施形態のステップＳ１０２において、アクセス履歴格納部５１が、アクセス順に並べたセッション毎のアクセス情報を履歴情報として格納し、ステップＳ１０３において、類似度算出部５２が、このアクセス情報に基づいて上述したようにアクセス類似度を算出し、ステップＳ１０６において、類似文書特定部５３が、このアクセス類似度に基づいて検索対象文書に類似する類似文書を特定する点が相違している。なお、本実施形態にかかる検索方法では、第１実施形態におけるリンク距離を算出するステップＳ１０４，Ｓ１０５に相当するステップを含まない。

以上、説明したように、情報検索システム１２によれば、アクセス履歴格納部５１は、各文書に対するユーザ毎のアクセス状況を当該ユーザの識別情報とアクセス時刻とに対応付けて時系列化されたセッション毎のアクセス情報を履歴情報として格納し、類似度算出部５２は、アクセス履歴格納部５１に格納されたアクセス情報に基づいてアクセス類似度を算出し、類似文書特定部５３は、アクセス類似度を類似判定閾値ＴＨと比較して、類似判定閾値ＴＨより大きいアクセス類似度の文書を類似文書として特定している。所定の時刻等における各ユーザのアクセスは、比較的、関連する内容の文書に対して行われる可能性が高いため、かかる構成によれば、各文書間の内容の類似度を精度よく推定して類似文書を特定することができる。また、類似判定閾値ＴＨを用いて判定するので、類似文書の特定が容易に行える。さらに、本実施形態によれば、文書間のリンク解析を省略できるので、処理の高速化やリンク距離閾値の設定等の手間を削減できる。
［第４実施形態］

続いて、本発明の第４実施形態に係る情報検索システム１２について説明する。本実施形態では、第３実施形態におけるアクセス履歴格納部５１〜類似文書特定部５３に代えて、アクセス履歴格納部５１ａ、類似度算出部５２ａ、類似文書特定部５３ａを備えている。なお、アクセス履歴格納部５１ａ〜類似文書特定部５３ａの基本的な機能は、第３実施形態のアクセス履歴格納部５１〜類似文書特定部５３と同様である。以下、第３実施形態と相違する点を中心として説明する。

アクセス履歴格納部５１ａは、第３実施形態のアクセス履歴格納部５１がセッション毎のアクセス状況（アクセスの有無）に基づいた履歴情報（図９参照）を格納していたのに対し、各文書におけるアクセス滞留時間を含むアクセス状況のセッション毎の履歴情報を格納する部分である。例えば、アクセス履歴格納部５１ａは、図１１に示すように、ユーザＵ００１が３回のセッションを行っており、１回目のセッションでは文書Ｄ１（5.2 sec）→文書Ｄ３（2.2sec）→文書Ｄ４（3.6 sec）の順でアクセスし、２回目のセッションでは文書Ｄ１（1.2 sec）→文書Ｄ３（4.4sec）の順でアクセスし、３回目のセッションでは文書Ｄ１（0.9 sec）→文書Ｄ３（1.2sec）→文書Ｄ４（5.8 sec）の順でアクセスしている。同様に、ユーザＵ００２は、３回のセッションを行っており、１回目のセッションでは文書Ｄ１（2.2 sec）→文書Ｄ３（2.2sec）→文書Ｄ４（5.2 sec）の順でアクセスし、２回目のセッションでは文書Ｄ１（5.4 sec）にアクセスし、３回目のセッションでは文書Ｄ１（3.6 sec）→文書Ｄ３（7.0sec）の順でアクセスしている。また、ユーザＵ００３は２回のセッションを行っており、１回目のセッションでは文書Ｄ１（1.2 sec）→文書Ｄ２（3.2sec）→文書Ｄ３（8.2 sec）→文書Ｄ４（9.6sec）の順でアクセスし、２回目のセッションでは文書Ｄ２（5.2 sec）→文書Ｄ３（6.2sec）の順でアクセスしている。

類似度算出部５２ａは、アクセス履歴格納部５１ａに格納されているアクセス滞留時間を含む履歴情報に基づいて、各文書間でのアクセス履歴の類似度を示すアクセス類似度を算出する部分である。類似度算出部５２ａは、同一セッション内で、ある文書へのアクセス以後に別の文書にアクセスされる際の滞留時間を下記の式（３）に基づいて、個々の文書に対して算出する。下記の式（３）は、例えば、文書Ｄ１及び文書Ｄ２間のアクセス類似度の算出式であり、アクセス順を考慮したものとなっている。なお、他の文書間のアクセス類似度を算出する場合には、式（３）中の「文書」を、算出する文書に置き換える。

類似度算出部５２ａは、このような算出式（３）に基づいて、例えば、図１１に示すようなアクセス情報から各文書Ｄ１〜Ｄ４間のアクセス類似度を算出する。図１２には、このようにして算出された各文書間のアクセス類似度が示されており、具体的には、Ｄ１→Ｄ２へのアクセス類似度が０．１６、Ｄ１→Ｄ３へのアクセス類似度が１．２８、Ｄ１→Ｄ４へのアクセス類似度が１．２３、Ｄ２→Ｄ１へのアクセス類似度が０、Ｄ２→Ｄ３へのアクセス類似度が０．９８、Ｄ２→Ｄ４へのアクセス類似度が１．８８となっている。類似度算出部５２ａは、このようにして算出したアクセス類似度を類似文書特定部５３ａへ出力する。類似文書特定部５３ａは、このように滞留時間を基にして算出されたアクセス類似度に基づいて、類似文書特定部５３と同様に類似文書を特定する。なお、アクセス順を考慮せずに、同一セッション内でのアクセス滞留時間を用いてアクセス類似度を算出するようにしてもよい。

以上、説明したように、情報検索システム１２によれば、各文書に対するユーザのアクセス時間に基づいてアクセス情報におけるアクセス状況が加減（増減）されている。かかる構成によれば、ユーザが長時間閲覧した文書に対して重み付けをすることができ、実際のユーザ行動に即した類似文書を特定することができる。なお、第１実施形態における情報検索システム１０において、このようなアクセス時間を考慮し、アクセス頻度が、各文書に対するユーザのアクセス時間に基づいて加減されるようにしてもよい。
［第５実施形態］

続いて、本発明の第５実施形態に係る情報検索システム１０について説明する。本実施形態では、第１実施形態における、類似文書特定部３４と検索インデックス生成部３５に代えて、類似文書特定部３４ａと検索インデックス生成部３５ａを備えている。類似文書特定部３４ａと検索インデックス生成部３５ａの基本的な機能は、類似文書特定部３４及び検索インデックス生成部３５と同様である。以下、第１実施形態と相違する点を中心として説明する。

類似文書特定部３４ａは、検索対象となる一の文書に類似する文書をアクセス類似度等に基づいて特定する部分である。この類似文書特定部３４ａは、類似文書を特定する際の類似判定閾値ＴＨを複数備えている。すなわち、類似文書特定部３４ａは、複数の類似判定閾値（ＴＨ１、ＴＨ２、・・・、ＴＨｎ）を備えており、各類似判定閾値に対応する複数パターンで類似文書（ＳＤ１、ＳＤ２、・・・、ＳＤｎ）を特定する。類似文書特定部３４ａは、このようにして特定した複数パターンの類似文書等にかかる情報を検索インデックス生成部３５ａに出力する。

検索インデックス生成部３５ａは、複数パターンからなる類似文書と検索対象文書とからなる集合文書それぞれに出現する単語の分布から検索対象文書に対する複数パターンの検索インデックスを生成する部分である。検索インデックス生成部３５ａは、類似文書特定部３４ａから複数パターンの類似文書（ＳＤ１、ＳＤ２、・・・、ＳＤｎ）等の情報が入力されると、類似文書に応じて特定される文書集合それぞれに出現する語から検索対象文書に対する複数パターンの検索インデックス（ＩＤ１、ＩＤ２、・・・、ＩＤｎ）を生成する。なお、検索インデックスに出現するキーワード数は、類似文書に含まれる文書数が増えるにつれ、多くなる傾向にある。つまり、類似文書に含まれる文書が多いほど、検索要求であるクエリーに適合する可能性を高めることができる。また、検索インデックス生成部３５ａは、生成された複数パターンの検索インデックスを検索インデックス格納部３６に出力して格納させる。

続いて、このように一の検索対象文書に対して複数パターンの検索インデックスを格納した検索インデックス格納部３６を用いて情報検索装置４０により行う情報検索方法について図１３を用いて説明する。

まず、情報検索装置４０は、複数パターンの検索インデックスのうちの一の検索インデックスを示す値Ｋ、適合文書数の最小数Ｈmin、適合文書の最大数Ｈmaxを初期値として設定する（Ｓ２０１）。ここで、用いる値Ｋは、値が大きくなるほど、検索対象文書に対する検索インデックスに含まれるキーワードが増えるような関係を有している（つまり、値Ｋが大きくなるほど、検索要求であるクエリーＱに適合する適合文書数が増加する）。

続いて、情報検索装置４０は、携帯端末Ｐより、クエリーＱを受信して取得する（Ｓ２０２）。このクエリーＱは、例えば１語または複数語からなる検索キーワードであり、携帯端末Ｐのユーザによって携帯端末Ｐに入力されるものである。情報検索装置４０は、クエリーＱが入力されると、初期値として設定された検索インデックスＩＤｋを、検索インデックス格納部３６から取得する（Ｓ２０３）。そして、検索インデックスＩＤｋを用いてクエリーＱに適合する適合文書を検索する（Ｓ２０４）。この検索は従来の検索方法を用いることで実現される。ステップＳ２０４による検索後、適合文書の数Ｎを算出する（Ｓ２０５）。

続いて、情報検索装置４０は、適合文書の数Ｎを算出すると、この文書数Ｎを初期値として設定した適合文書の最小文書数Ｈminと比較し（Ｓ２０６）、文書数Ｎが最小文書数Ｈmin以上であれば、ステップＳ２０７に進む。一方、文書数Ｎが最小文書数Ｈminに満たないようであれば、情報検索装置４０は、値Ｋを１増加し（Ｓ２０８）、この増加した値Ｋに対応する検索インデックスＩＤｋが検索インデックス格納部３６にあるかどうかを判定する（Ｓ２０９）。そして、検索インデックスＩＤｋがあれば、ステップＳ２０３に戻り、適合文書の検索を繰り返し、検索インデックスＩＤｋがなければ、ステップＳ２１０に進みエラー出力をして処理を終了する。

一方、ステップＳ２０７では、文書数Ｎを初期値として設定した適合文書の最大文書数Ｈmaxと比較し、文書数Ｎが最大文書数Ｈmax以下であれば、ステップＳ２１１に進んで適合文書を出力する。適合文書を出力する際には、クエリーＱと類似する順に出力するようにしてもよい。そして、情報検索装置４０は、検索要求のあった携帯端末Ｐに対して出力結果を送信する。なお、文書数Ｎが最大文書数Ｈmaxを越えるようであれば、情報検索装置４０は、値Ｋを１減少し（Ｓ２１２）、この減少した値Ｋに対応する検索インデックスＩＤｋが検索インデックス格納部３６にあるかどうかを判定する（Ｓ２１３）。そして、検索インデックスＩＤｋがあれば、ステップＳ２０３に戻り、適合文書の検索を繰り返し、検索インデックスＩＤｋがなければ、ステップＳ２１４に進みエラー出力をして処理を終了する。出力されたエラー出力も、検索要求のあった携帯端末Ｐに対して送信される。エラー出力は、定められた範囲の文書数を検索できなかったことを示す。

以上、説明したように、情報検索システム１０によれば、類似文書特定部３４ａが類似判定閾値を複数有しており且つ複数の類似判定閾値に応じた複数パターンにて類似文書を特定し、検索インデックス生成部３５ａは、複数パターンからなる類似文書に応じて特定される文書集合それぞれに出現する語から検索対象文書に対する複数パターンの検索インデックスを生成するようになっている。そして、情報検索装置４０は、このように生成された複数パターンの検索インデックスを用いて、フィードバック制御を行うことにより、検索件数を制御することでき、検索結果が多すぎて絞り込みに苦労したり、検索結果が少なすぎて所望の文書がみつからないといったことを解決することができる。なお、上記した値Ｋ、最小文書数Ｈmin、及び最大文書数Ｈmaxをユーザが携帯端末Ｐを用いて設定するようにしてもよい。例えば、ユーザが検索された文書数を減らしたい場合には、ユーザは、最大文書数Ｈmaxを小さくすることで対応できる。
［変形例］

次に、第１実施形態〜第５実施形態における変形例について説明する。上記各実施形態では、アクセス履歴格納部３１，５１等で各種履歴情報を格納する際、特に時間的な制限を設けずに履歴情報を得ていたが、直近のＴ時間（例えば２４時間）内のアクセスにかかるアクセス履歴から履歴情報を得て、上記した各種の処理を行うようにしてもよい。このような時間制限を行うことにより、新規に公開されてアクセス数（累積）が少ない文書であっても、新規であることによる不利益部分を補正させることができる。また、このようなＴ時間を複数用意しておき、アクセス履歴格納部３１，５１等において、複数の履歴情報を保持するようにしてもよい。この場合、類似度算出部３２，５２等は、複数の履歴情報から適切なものを選択し、新規文書に対するアクセス類似度の不利益部分を補正することができる。更に、直近のＴ時間を分割し、それぞれのアクセス頻度の比を求め、比が大きいもの（アクセス数が急増しているもの）について、アクセス履歴格納部３１等に格納する頻度情報を補正（例えば意図的に増加）させてもよい。

また、上記第１実施形態等では、検索結果絞込部４２がｔｆ・ｉｄｆ法を用いて検索要求との類似度が大きい文書を優先させる絞込みを行っていたが、検索インデックスを生成する際に使用した集合文書と検索要求との類似度を算出して、最も類似度が高いものを選択するような絞込みを行ってもよい。また、検索インデックスを生成する際に使用した集合文書を構成する文書数を算出して、構成文書数が多いものを選択するような絞込みを行ってもよい。また、検索インデックスを生成する際に使用した集合文書に出現する単語または所定のキーワードの数を算出して、単語数またはキーワード数の多いものを選択するような絞込みを行ってもよい。また、検索インデックスを構成する単語（キーワード）の数を算出し、単語数またはキーワード数の多いものを選択するような絞込みを行ってもよい。

また、文書配信用のサーバ（ＷＷＷサーバ）に置かれている論理的ディレクトリのパス（ＵＲＬ）を求め、このパスが上位にあるものを選択するような絞込みを行ってもよい。また、アクセス履歴格納部３１，５１等を参照して、文書へのアクセス数を算出し、算出数が最大のものを選択するような絞込みを行ってもよい。また、アクセス履歴格納部３１，５１等を参照して、ユーザからのアクセスセッションの最初に現れる文書（アクセス開始文書）となる頻度を算出して、頻度数の多いもの選択するような絞込みを行ってもよい。また、アクセス履歴格納部３１，５１等を参照して、ユーザからのアクセスセッションの最初からＭ個までに現れる文書となる頻度を算出して、この頻度数の多いものを選択するような絞込みを行ってもよい。この場合、１個〜Ｍ個まで順に減少するようなスコアを予め定めておき、単に頻度を算出するのではなくスコアを累積していくようにしてもよい。この場合、スコアが最大のものを選択するような絞込みを行う。

以上、本発明をその実施形態に基づき具体的に説明したが、本発明は、上記実施形態に限定されるものではない。例えば、携帯端末Ｐからのアクセスに基づいて検索インデックスを生成したが、ＰＣ等の計算機からのアクセスに基づいて検索インデックスを生成してもよいし、また、ＰＣ等の計算機からの検索に用いてももちろんよい。また、類似度算出部３２，５２等で文書間の類似度を算出する際、文書へのアクセスが最近のものであるかどうかを区別して類似度を算出したり、文書へのアクセス増加傾向に基づいて類似度を算出したりするようにしてもよい。このようにすれば、新規に作成された文書に対するアクセス数が少なく検索インデックスの生成に反映されにくいといった問題を解決することができる。

また、アクセス履歴格納部３１，５１等を、インデックス生成装置３０，５０等内に配置したが、ネットワークアクセスサーバ２０内等その他の場所に配置してもよい。また、情報検索装置４０は、ネットワークアクセスサーバ２０を経由して携帯端末Ｐに接続されるようになっているが、ネットワークアクセスサーバ２０とは別のサーバを経由して携帯端末Ｐと接続されてもよい。更に、上記したインデックス生成装置３０，５０の各機能部や情報検索装置４０の各機能部は、情報検索システム１０，１２のいずれかにあればよく、必ずしも各装置が分かれている必要はないし、各機能部が別々の装置内に存在していてもよい。すなわち、各機能部は、情報検索システムやインデックス生成システムとして存在していればよい。

第１実施形態に係る情報検索システムの構成概要図である。検索インデックス生成装置のハードウェア構成図である。第１実施形態で格納される履歴情報データの一例である。図３に示す履歴情報データに正規化の処理を行ったデータの一例である。図３に示す履歴情報データに基づくアクセス類似度を示すデータの一例である。第１実施形態に係る情報検索システムによる情報検索方法を示すフローチャートである。第２実施形態でのアクセス類似度を示すデータの一例である。第３実施形態に係る情報検索システムの構成概要図である。第３実施形態で格納される履歴情報データの一例である。図９に示す履歴情報データに基づくアクセス類似度を示すデータの一例である。第４実施形態で格納される履歴情報データの一例である。図１１で示す履歴情報データに基づくアクセス類似度を示すデータの一例である。第５実施形態に係る情報検索システムによる情報検索方法を示すフローチャートである。

符号の説明

１０，１２…情報検索システム、２０…ネットワークアクセスサーバ、３０，５０…インデックス生成装置、３１，５１…アクセス履歴格納部、３２，５２…類似度算出部，３３…リンク距離算出部、３４，５３…類似文書特定部、３５…検索インデックス生成部、３６…検索インデックス格納部、４０…情報検索装置、４１…情報検索部、４２…検索結果絞込部、ＮＷ…ネットワーク、Ｐ…携帯端末。

Claims

文書検索用の検索インデックスを生成するインデックス生成システムであって、
ユーザの各文書に対するアクセス履歴を示す履歴情報を格納するアクセス履歴格納手段と、
前記アクセス履歴格納手段に格納された前記履歴情報に基づいて各文書間でのアクセス履歴の類似度を示すアクセス類似度を算出する類似度算出手段と、
各文書それぞれがリンクするように構成されるハイパーテキストシステム上の各文書間のリンク構造を解析して、リンク遷移による各文書間のリンク距離を算出するリンク距離算出手段と、
検索対象となる一の文書に類似する類似文書を前記アクセス類似度に基づいて特定する類似文書特定手段と、
前記検索対象となる一の文書及び前記類似文書からなる集合文書に出現する語から前記検索対象となる一の文書に対する検索インデックスを生成する検索インデックス生成手段と、を有し、
前記アクセス履歴格納手段は、各文書に対するユーザ毎のアクセス頻度を当該ユーザの識別情報に対応付けた頻度情報を前記履歴情報として格納し、
前記類似度算出手段は、前記アクセス履歴格納手段に格納された前記頻度情報に基づいて前記アクセス類似度を算出し、
前記類似文書特定手段は、前記リンク距離算出手段を用いて前記検索対象となる一の文書から所定の距離以下のリンク距離にある文書を文書群として特定すると共に、前記文書群に含まれる文書と前記検索対象となる文書との間の前記アクセス類似度を類似判定閾値と比較して前記類似文書を特定する、ことを特徴とするインデックス生成システム。
前記類似度算出手段は、前記リンク距離算出手段により算出されるリンク距離が大きくなるにつれて低下するように前記アクセス類似度を算出する、ことを特徴とする請求項１記載のインデックス生成システム。
前記アクセス履歴格納手段は、前記アクセス頻度それぞれに対応するアクセス時間を含む前記頻度情報を前記履歴情報として格納し、
前記類似度算出手段は、前記頻度情報における前記アクセス頻度を前記アクセス時間に基づいて増減して、前記アクセス類似度を算出する、ことを特徴とする請求項１又は２記載のインデックス生成システム。
前記類似文書特定手段は、前記類似判定閾値を複数有しており、且つ、前記複数の類似判定閾値のそれぞれに対応する前記類似文書をそれぞれ特定し、
前記検索インデックス生成手段は、前記複数の類似判定閾値それぞれに対応する各前記類似文書に応じて特定される前記文書集合それぞれに出現する語から、前記検索対象となる一の文書に対する検索インデックスを複数パターン生成する、ことを特徴とする請求項１〜３のいずれか一項記載のインデックス生成システム。
文書を検索する情報検索システムであって、
請求項１〜４のいずれか一項記載のインデックス生成システムにより生成された前記検索インデックスを用いて、検索要求に適合する適合文書を検索する情報検索手段を有することを特徴とする情報検索システム。
前記情報検索手段は、請求項４記載のインデックス生成システムにより生成された前記複数パターンの内の一のパターンの前記検索インデックスを用いて検索要求に適合する適合文書を検索すると共に、検索された適合文書の数に応じて複数パターンの内の別のパターンの前記検索インデックスを選択して用いることを特徴とする請求項５記載の情報検索システム。
同一サイト内の複数の文書が前記適合文書として前記情報検索手段により検索された場合に、前記検索要求との類似度が大きい文書を優先させる絞込みを行う検索結果絞込手段を更に備えたことを特徴とする請求項５又は６記載の情報検索システム。
同一サイト内の複数の文書が前記適合文書として前記情報検索手段により検索された場合に、前記検索インデックスを構成する語の数が多い文書を優先させる絞込みを行う検索結果絞込手段を更に備えたことを特徴とする請求項５又は６記載の情報検索システム。
同一サイト内の複数の文書が前記適合文書として前記情報検索手段により検索された場合に、前記複数の文書の内、文書パスが上位の文書を優先させる絞込みを行う検索結果絞込手段を更に備えたことを特徴とする請求項５又は６記載の情報検索システム。
同一サイト内の複数の文書が前記適合文書として前記情報検索手段により検索された場合に、前記アクセス履歴格納手段に格納されている前記履歴情報に基づいて文書アクセス数が上位の文書を優先させる絞込みを行う検索結果絞込手段を更に備えたことを特徴とする請求項５又は６記載の情報検索システム。
同一サイト内の複数の文書が前記適合文書として前記情報検索手段により検索された場合に、前記アクセス履歴格納手段に格納されている前記履歴情報に基づいてユーザによる各セッションにおけるアクセス開始文書を優先させる絞込みを行う検索結果絞込手段を更に備えたことを特徴とする請求項５又は６記載の情報検索システム。
文書検索用の検索インデックスを生成するインデックス生成方法であって、
アクセス履歴格納手段が、ユーザの各文書に対するアクセス履歴を示す履歴情報を格納するアクセス履歴格納ステップと、
類似度算出手段が、前記アクセス履歴格納ステップで格納された前記履歴情報に基づいて各文書間でのアクセス履歴の類似度を示すアクセス類似度を算出する類似度算出ステップと、
リンク距離算出手段が、各文書それぞれがリンクするように構成されるハイパーテキストシステム上の各文書間のリンク構造を解析して、リンク遷移による各文書間のリンク距離を算出するリンク距離算出ステップと、
類似文書特定手段が、検索対象となる一の文書に類似する類似文書を前記アクセス類似度に基づいて特定する類似文書特定ステップと、
検索インデックス生成手段が、前記検索対象となる一の文書及び前記類似文書からなる集合文書に出現する語から前記検索対象となる一の文書に対する検索インデックスを生成する検索インデックス生成ステップと、を含み、
前記アクセス履歴格納ステップでは、前記アクセス履歴格納手段が、各文書に対するユーザ毎のアクセス頻度を当該ユーザの識別情報に対応付けた頻度情報を前記履歴情報として格納し、
前記類似度算出ステップでは、前記類似度算出手段が、前記アクセス履歴格納ステップで格納された前記頻度情報に基づいて前記アクセス類似度を算出し、
前記類似文書特定ステップでは、前記類似文書特定手段が、前記リンク距離算出ステップで算出されるリンク距離を用いて前記検索対象となる一の文書から所定の距離以下のリンク距離にある文書を文書群として特定すると共に、前記文書群に含まれる文書と前記検索対象となる文書との間の前記アクセス類似度を類似判定閾値と比較して前記類似文書を特定する、ことを特徴とするインデックス生成方法。