JP4633162B2 - インデックス生成システム、情報検索システム、及びインデックス生成方法 - Google Patents

インデックス生成システム、情報検索システム、及びインデックス生成方法 Download PDF

Info

Publication number
JP4633162B2
JP4633162B2 JP2008306728A JP2008306728A JP4633162B2 JP 4633162 B2 JP4633162 B2 JP 4633162B2 JP 2008306728 A JP2008306728 A JP 2008306728A JP 2008306728 A JP2008306728 A JP 2008306728A JP 4633162 B2 JP4633162 B2 JP 4633162B2
Authority
JP
Japan
Prior art keywords
document
search
access
similarity
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008306728A
Other languages
English (en)
Other versions
JP2010129061A (ja
Inventor
雄大 中山
大祐 鳥居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2008306728A priority Critical patent/JP4633162B2/ja
Priority to US12/626,779 priority patent/US8285723B2/en
Priority to CN2009102466999A priority patent/CN101901241B/zh
Publication of JP2010129061A publication Critical patent/JP2010129061A/ja
Application granted granted Critical
Publication of JP4633162B2 publication Critical patent/JP4633162B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Description

本発明は、インデックス生成システム、情報検索システム、及びインデックス生成方法に関するものである。
現在、インターネット(WEB)上には膨大な情報が文書等として蓄積されており、ユーザは、キーワード検索等の方法により所望の情報にアクセスしている。従来の検索エンジンでは、ユーザが入力する検索条件と格納している文書群の単語分布等の文書情報との関係を用いて、条件に合致する文書を抽出し、抽出した複数の文書に優先順位を付してユーザに提供するものが一般的であった。近年では、携帯電話やPDA等の携帯端末から閲覧されることを前提とした携帯端末向け文書が数多くインターネット上に蓄積されるようになり、それらに対する検索のニーズが高まってきている。このような携帯端末向け文書の検索では、画面サイズや通信容量の制約により携帯端末向け文書のサイズが小さくて出現する単語が少ないといった関係上、従来の単語分布に基づく検索方法をそのまま用いたのでは、ユーザの要求に対して精度よく文書検索を行えないといった問題があった。
これに対して、特許文献1に記載された情報検索方法では、検索対象となる文書を、そのリンク先であり且つ内容が類似する他の文書と合成して集合文書とし、その集合文書に出現する単語により検索対象となる文書を特徴付けるように、検索インデックスの拡張が行われていた。この情報検索方法では、検索対象となる文書に出現しない単語も検索インデックスに含まれるので、検索キーワード(クエリー語ともいう)と適合する文書抽出の可能性を高めることが期待されていた。
特許第3598738号公報
ところで、特許文献1に記載された情報検索方法では、出現単語の分布に基づき文書間の内容の類似度を計算して、検索インデックスを拡張しているので、相対的に出現単語数が多いインターネット上の一般的な文書の検索には適用することができるものの、相対的に出現単語数が少なくてサイズの小さい携帯端末向けの文書の検索にはそのまま適用することが難しかった。つまり、携帯端末向けの文書では、例えば、ユーザナビゲーションに使われる語(ページのスクロールポインタやリンクを示す「下へ」、「このページの最初へ」、「次頁」、「戻る」、「ここをクリック」等)やサイトを運営する企業名・団体名や広告バナーの頻度が高く、コンテンツ本来の内容を構成する単語が相対的に少なくなる傾向があった。そのため、従来の情報検索方法では、携帯端末向け文書の検索インデックスを適切に拡張できないといった問題があった。
そこで、本発明は、かかる課題に鑑みて為されたものであり、各文書間の内容の類似度を精度よく推定することにより、精度の高い情報検索を可能とする、インデックス生成システム、情報検索システム、及びインデックス生成方法を提供することを目的とする。
上記課題を解決するため、本発明者らは鋭意研究を重ねる過程で、各文書にアクセスする個々のユーザは、それぞれ何らかの目的を持ってインターネット上の各文書(例えば携帯端末向け文書)にアクセスしていることに着眼した。そして、このようなアクセス傾向を考慮すると、各ユーザが同一のセッション時といったような所定の期間内にアクセスしている各文書間の関連性は高いと推定することができる。さらに、携帯電話のサービスプロバイダーにより大量の文書アクセス情報を収集できれば、このようなアクセス傾向が平坦化されて、各文書間の関連性の推定度を一層高めることも可能となる。そこで、本発明者らは、ユーザによるアクセス履歴を用いて各文書間でのアクセス履歴の類似度を算出すれば、その類似度を用いて文書間の内容の関連性(類似度)を推定できるとの知見を得て、本発明を完成するに至った。
上記課題を解決するため、本発明のインデックス生成システムは、文書検索用の検索インデックスを生成するインデックス生成システムであって、ユーザの各文書に対するアクセス履歴を示す履歴情報を格納するアクセス履歴格納手段と、アクセス履歴格納手段に格納された履歴情報に基づいて各文書間でのアクセス履歴の類似度を示すアクセス類似度を算出する類似度算出手段と、各文書それぞれがリンクするように構成されるハイパーテキストシステム上の各文書間のリンク構造を解析して、リンク遷移による各文書間のリンク距離を算出するリンク距離算出手段と、検索対象となる一の文書に類似する類似文書をアクセス類似度に基づいて特定する類似文書特定手段と、検索対象となる一の文書及び類似文書からなる集合文書に出現する語から検索対象となる一の文書に対する検索インデックスを生成する検索インデックス生成手段と、を有し、アクセス履歴格納手段は、各文書に対するユーザ毎のアクセス頻度を当該ユーザの識別情報に対応付けた頻度情報を履歴情報として格納し、類似度算出手段は、アクセス履歴格納手段に格納された頻度情報に基づいてアクセス類似度を算出し、類似文書特定手段は、リンク距離算出手段を用いて検索対象となる一の文書から所定の距離以下のリンク距離にある文書を文書群として特定すると共に、文書群に含まれる文書と検索対象となる文書との間のアクセス類似度を類似判定閾値と比較して類似文書を特定することを特徴とする。
また、本発明のインデックス生成方法は、文書検索用の検索インデックスを生成するインデックス生成方法であって、アクセス履歴格納手段が、ユーザの各文書に対するアクセス履歴を示す履歴情報を格納するアクセス履歴格納ステップと、類似度算出手段が、アクセス履歴格納ステップで格納された履歴情報に基づいて各文書間でのアクセス履歴の類似度を示すアクセス類似度を算出する類似度算出ステップと、リンク距離算出手段が、各文書それぞれがリンクするように構成されるハイパーテキストシステム上の各文書間のリンク構造を解析して、リンク遷移による各文書間のリンク距離を算出するリンク距離算出ステップと、類似文書特定手段が、検索対象となる一の文書に類似する類似文書をアクセス類似度に基づいて特定する類似文書特定ステップと、検索インデックス生成手段が、検索対象となる一の文書及び類似文書からなる集合文書に出現する語から検索対象となる一の文書に対する検索インデックスを生成する検索インデックス生成ステップと、を含み、アクセス履歴格納ステップでは、アクセス履歴格納手段が、各文書に対するユーザ毎のアクセス頻度を当該ユーザの識別情報に対応付けた頻度情報を履歴情報として格納し、類似度算出ステップでは、類似度算出手段が、アクセス履歴格納ステップで格納された頻度情報に基づいてアクセス類似度を算出し、類似文書特定ステップでは、類似文書特定手段が、リンク距離算出ステップで算出されるリンク距離を用いて検索対象となる一の文書から所定の距離以下のリンク距離にある文書を文書群として特定すると共に、文書群に含まれる文書と検索対象となる文書との間のアクセス類似度を類似判定閾値と比較して類似文書を特定することを特徴とする。
このようなインデックス生成システムやインデックス生成方法によれば、ユーザの各文書に対するアクセス履歴を示す履歴情報に基づいて各文書間でのアクセス履歴の類似度を示すアクセス類似度を算出して、このアクセス類似度に基づいて、検索対象となる一の文書に類似する類似文書を特定して、検索対象となる一の文書と類似文書とからなる集合文書に出現する語から検索対象となる一の文書に対する検索インデックスを生成することができる。精度よく推定された類似文書を含めた領域まで検索インデックスを拡張していることから、このような検索インデックス生成システムやインデックス生成方法を用いれば、精度の高い情報検索が可能となる。
また、上述したインデックス生成システムやインデックス生成方法では、アクセス履歴格納手段、各文書に対するユーザ毎のアクセス頻度を当該ユーザの識別情報に対応付けた頻度情報を履歴情報として格納し、類似度算出手段は、アクセス履歴格納手段に格納された頻度情報に基づいてアクセス類似度を算出し、類似文書特定手段は、アクセス類似度を類似判定閾値と比較して類似文書を特定している。アクセス頻度は比較的容易に取得することができるので、かかる構成によれば、類似文書の特定が容易に行える。
また、上述したインデックス生成システムやインデックス生成方法は、リンク距離算出手段やリンク距離算出ステップを備え、類似文書特定手段は、リンク距離算出手段を用いて検索対象となる一の文書から所定の距離以下のリンク距離にある文書を文書群として特定すると共に、文書群に含まれる文書と検索対象となる一の文書との間のアクセス類似度を類似判定閾値と比較して類似文書を特定している。かかる構成によれば、意味的にまとまりのある文書群から類似文書を特定するので、文書間の内容の類似性の推定精度を向上させることができる。
また、上述した類似度算出手段は、リンク距離算出手段により算出されるリンク距離が大きくなるにつれて低下するようにアクセス類似度を算出することが好ましい。かかる構成によれば、ユーザにリンク遷移という負荷をより多く強いる文書の影響を小さくして、類似文書を特定することができ、文書間の内容の類似性の推定精度を更に向上できる。
また、上述したアクセス履歴格納手段は、アクセス頻度それぞれに対応するアクセス時間を含む頻度情報を履歴情報として格納し、類似度算出手段は、頻度情報におけるアクセス頻度をアクセス時間に基づいて増減して、アクセス類似度を算出してもよい。かかる構成によれば、ユーザが長時間閲覧した文書に対して重み付けをすることができ、実際のユーザ行動に即した類似文書を特定することができる。
また、上述した類似文書特定手段は、類似判定閾値を複数有しており、且つ、複数の類似判定閾値のそれぞれに対応する類似文書をそれぞれ特定し、検索インデックス生成手段は、複数の類似判定閾値それぞれに対応する各類似文書に応じて特定される文書集合それぞれに出現する語から検索対象となる一の文書に対する検索インデックスを複数パターン生成することが好ましい。かかる構成によれば、文書検索を行う際、検索適合度を制御することができるため、検索件数を調整することが可能となる。
また、上記課題を解決するため、本発明の情報検索システムは、文書を検索する情報検索システムであって、上述したインデックス生成システムにより生成された検索インデックスを用いて、検索クエリーに適合する適合文書を検索する情報検索手段を有することが好ましい。このような情報検索システムによれば、上述したインデックス生成システムによって生成された精度よい検索インデックスを用いて情報検索を行うことが可能となる。
また、上述した情報検索手段は、類似判定閾値を複数有するインデックス生成システムにより生成された複数パターンの内の一のパターンの検索インデックスを用いて検索要求に適合する適合文書を検索すると共に、検索された適合文書の数に応じて複数パターンの内の別のパターンの検索インデックスを選択して用いることが好ましい。かかる構成によれば、上述したインデックス生成システムによって検索適合度を制御しながら、検索件数を調整することができる。
また、本発明の情報検索システムは、同一サイト内の複数の文書が適合文書として情報検索手段により検索された場合に、検索要求との類似度が大きい文書を優先させる絞込みを行う検索結果絞込手段や、検索インデックスを構成する語の数が多い文書を優先させる絞込みを行う検索結果絞込手段や、複数の文書の内、文書パスが上位の文書を優先させる絞込みを行う検索結果絞込手段や、アクセス履歴格納手段に格納されている履歴情報に基づいて文書アクセス数が上位の文書を優先させる絞込みを行う検索結果絞込手段や、アクセス履歴格納手段に格納されている履歴情報に基づいてユーザによる各セッションにおけるアクセス開始文書を優先させる絞込みを行う検索結果絞込手段を備えるようにしてもよい。かかる構成によれば、検索結果を適切に絞り込むことが可能となる。
本発明によれば、文書間の内容の類似度を精度よく推定して類似文書を特定することにより、精度の高い情報検索を行うことができる。
以下、図面とともに本発明にかかるインデックス生成システム、情報検索システム、及びインデックス生成方法の好適な実施形態について詳細に説明する。なお、図面の説明においては同一の要素には同一符号を付し、重複する説明を省略する。
[第1実施形態]
まず、本発明の第1実施形態にかかる情報検索システム10の全体構成について、図1を参照しながら説明する。図1に示すように、情報検索システム10は、ネットワークアクセスサーバ20、インデックス生成装置30、及び情報検索装置40から構成され、PC(不図示)や携帯端末Pからの接続要求に応じてインターネット等のネットワークNWと有線又は無線により通信可能となっている。携帯端末Pは、一般的な通話機能に加え、WWWブラウザ等のネットワークに接続するデータ通信機能を備えている。この情報検索システム10でネットワークNW上の文書等の情報を検索しようとした場合、所定のキーワードがユーザにより携帯端末Pから入力され、携帯端末Pは、そのキーワードに基づいた検索要求をネットワークアクセスサーバ20を介して情報検索装置40に出力する。検索要求を受けた情報検索装置40は、インデックス生成装置30を用いて、この検索要求に応じた検索処理を実行し、携帯端末Pに検索結果を返信する。そして、携帯端末Pのディスプレイ等の表示部に検索結果が表示され、表示された検索結果の中からユーザによって選択された文書等の情報に対してアクセスが為される。
ここで、ネットワークアクセスサーバ20は、例えばゲートウエイやプロクシであり、複数の携帯端末P(例えばP1〜P3など)のWWWブラウザ等に入力された各ユーザからの接続指示情報を各携帯端末Pそれぞれから受信して、その接続指示を中継することにより、携帯端末PをネットワークNWへアクセスさせるものである。このネットワークNWは、インターネット上に構築されるWWW(World Wide Web)であって、各文書が互いにリンクされた構成を有するハイパーテキストシステムを構成している。図1のネットワークNWでは、図示矢印で示すように、文書D1が文書D2,D3にリンクし、文書D2が文書D3にリンクし、文書D3は文書D4にリンクしている。このようなハイパーテキストシステムには、PCからだけでなく、携帯電話やPDA等の携帯端末Pからもアクセスが可能である。なお、図1に示すハイパーテキストシステムでは、説明の便宜上、携帯端末向けの文書D1〜D4からなるWWWとしているが、本実施形態の対象となる文書の数はこれらに限定されるわけではなく、インターネット上の多数の文書が対象となり、また、各文書は、htmlファイル、xmlファイル、シンプルテキスト、リッチテキスト、画像等の様々な形式のデータからなっている。
また、ネットワークアクセスサーバ20は、携帯端末Pからの接続指示やその応答等に基づいて各ユーザのアクセス履歴を示す履歴情報を収集するアクセス履歴収集部21を備えている。アクセス履歴収集部21は、携帯端末PからのネットワークNWにおけるアクセス先文書情報をユーザの識別情報と合わせて収集する。このアクセス先文書情報としては、例えばURL情報がある。また、ユーザの識別情報としては、例えばネットワークアクセス時のログインネームやSIM(Subscriber Identity Module)又はUIM(User Identity Module)の契約者識別番号やIPアドレスやIMEI(International Mobile Equipment Identity)等の端末識別番号がある。アクセス履歴収集部21は、上記情報に加え、アクセス時刻、アクセス時間、アクセス文書内容や通信エラーコード等の情報を付加して収集することも可能である。なお、図1では、ネットワークアクセスサーバ20に3台の携帯端末P1〜P3が対応しているが、文書間の内容の類似度をより精度よく推定するには、例えば携帯端末Pが100万台程度あったほうが好ましい。
インデックス生成装置30は、各文書間がリンクされた構成を有するハイパーテキストシステムから文書検索用の検索インデックスを生成する装置である。インデックス生成装置30は、機能的には、アクセス履歴格納部(アクセス履歴格納手段)31、類似度算出部(類似度算出手段)32、リンク距離算出部(リンク距離算出手段)33、類似文書特定部(類似文書特定手段)34、検索インデックス生成部(検索インデックス生成手段)35、検索インデックス格納部36を備えて構成される。このインデックス生成装置30は、ネットワークアクセスサーバ20、情報検索装置40、及びネットワークNWと双方向に接続され、互いに情報をやりとりすることができるようになっている。
このインデックス生成装置30は、図2に示されるハードウェアにより構成される。図2は、インデックス生成装置30のハードウェア構成図である。図1に示されるインデックス生成装置30は、物理的には、図2に示すように、CPU30a、主記憶装置であるRAM30b及びROM30c、入力装置30d、ディスプレイ等の出力装置30e、ネットワークカード等のデータ送受信デバイスである通信モジュール30f、ハードディスク装置等の補助記憶装置30gなどを含むコンピュータシステムとして構成されている。詳細を後述するインデックス生成装置30の各機能は、図2に示すCPU30a、RAM30b等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU30aの制御のもとで入力装置30d、出力装置30e、通信モジュール30fを動作させるとともに、RAM30bや補助記憶装置30gにおけるデータの読み出し及び書き込みを行うことで実現される。なお、上述したネットワークアクセスサーバ20や後述する情報検索装置40も同様のハードウェア構成をとるものであり、プログラムにしたがって、各種機能を実行することができるように構成されている。
アクセス履歴格納部31は、ユーザの各文書に対するアクセス履歴を示す履歴情報を格納する部分である。アクセス履歴格納部31は、アクセス履歴収集部21から各種の履歴情報を取得すると、各文書D1〜D4に対するユーザ毎(すなわち携帯端末P1〜P3毎)のアクセス頻度を当該ユーザの識別情報に対応付けた頻度情報を、履歴情報として格納する。図3は、このような格納データの一例を示すものであり、各ユーザ(U001〜U003)による文書D1〜D4へのアクセス数(以下「アクセス頻度」という場合もある)を示している。この格納データでは、ユーザU001(携帯端末P1)が文書D1に6回、文書D2に0回、文書D3に5回、文書D4に5回アクセスし、ユーザU002(携帯端末P2)が文書D1に2回、文書D2に0回、文書D3に2回、文書D4に1回アクセスし、ユーザU003(携帯端末P3)が文書D1に4回、文書D2に1回、文書D3に3回、文書D4に2回アクセスしていることが具体的に示されている。
類似度算出部32は、アクセス履歴格納部31に格納された履歴情報に基づいて各文書間でのアクセス履歴(アクセス傾向)の類似度を示すアクセス類似度を算出する部分である。類似度算出部32は、所定時間毎にアクセス履歴格納部31から頻度情報といった履歴情報を取得する。そして、類似度算出部32は、アクセス類似度を算出するために、まず、各ユーザによる各文書へのアクセス数を、各文書の特徴を示すベクトルとして(つまりユーザ毎のアクセス数をベクトルの成分に対応させる)、各ベクトルの大きさが1となるように正規化の計算を行う。例えばアクセス履歴格納部31から取得した履歴情報が図3に示されるデータであった場合、ユーザU001における文書D1のデータを正規化させるには、文書D1に対する全ユーザU001〜U003のアクセス数(6回、2回、4回)をそれぞれ2乗してから加算して、この加算した合計値の平方根(62+22+421/2を分母とし、文書D1に対するユーザU001のアクセス数(6回)を分子として算出して、正規化後のデータとして、6/(62+22+421/2=0.80を得る。このような正規化の計算をそれぞれデータについて行うと、図4に示されるように、各ユーザU001〜U003における文書D1の正規化後のデータは、0.80,0.27,0.53(1つのベクトル)となる。同様に、各ユーザU001〜U003における文書D2の正規化後のデータは、0,0,1.00となり、文書D3の正規化後のデータは、0.81,0.32,0.49となり、文書D4の正規化後のデータは0.91,0.18,0.36となる。
類似度算出部32は、続いて、各ベクトル間の内積値を下記式(1)に基づいて算出する。このように算出される内積値は、各文書間のアクセス類似度を示す値とされる。


例えば、類似度算出部32が図4に示される正規化後のデータに基づいて各ベクトル間の内積値の算出を上記式(1)に基づいて行うと、図5に示されるように、文書D1,D2間のアクセス類似度が0.53、文書D1,D3間のアクセス類似度が0.99、文書D1,D4間のアクセス類似度が0.97、文書D2,D3間のアクセス類似度が0.49、文書D2,D4間のアクセス類似度が0.36、文書D3,D4間のアクセス類似度が0.97として、それぞれ算出される。類似度算出部32は、このようにして算出したアクセス類似度を類似文書特定部34へ出力する。
リンク距離算出部33は、ハイパーテキストシステム上の各文書間のリンク構造を解析して、リンク遷移による各文書間のリンク距離を算出する部分である。リンク距離算出部33は、ハイパーテキストシステム上の文書にアクセスして、各文書D1〜D4のリンク構造を解析する。そして、リンク距離算出部33は、各文書D1〜D4間の最短到達距離であるリンク距離(最小のリンク遷移数)を算出する。なお、このようなリンク距離の算出には、WWWクローラーと同様の方法でリンクを幅優先で探索しながら到達距離を求めてもよいし、上述した履歴情報に記録されているパス情報(URL情報)を順に探索して各文書D1〜D4のリンク先を個別に解析するようにしてもよい。このような解析によれば、例えば、図1に示すハイパーテキストシステム上の文書D1からリンク距離すなわちリンク遷移数1で到達できるのは、文書D2と文書D3であり、リンク遷移数2で到達できるのは文書D4となる。
類似文書特定部34は、検索対象となる一の文書に類似する類似文書を上述したアクセス類似度等に基づいて特定する部分である。類似文書特定部34は、検索対象となる一の文書(以下「検索対象文書」と記す)が与えられると、まず、リンク距離算出部33によるリンク距離の算出結果を用いて、検索対象文書から予め定められたリンク距離閾値以下(複数あってもよい)でリンク遷移可能な文書を文書群として特定する。類似文書特定部34は、このような文書群に含まれる文書と検索対象文書との間の各アクセス類似度を類似度算出部32から入力されたアクセス類似度から抽出し、抽出された各アクセス類似度を、両文書の内容が類似していると推定される類似判定閾値THと比較する。そして、このような比較を行った類似文書特定部34は、類似判定閾値THより大きいアクセス類似度の文書を、検索対象文書に内容が類似する類似文書として特定する。
類似文書特定部34は、例えば、検索対象文書が文書D1でリンク距離閾値が2であった場合、まず、リンク距離が2以下である文書D2,D3,D4を文書群として特定する。そして、類似文書特定部34は、類似判定閾値THが0.9であった場合、この文書群からアクセス類似度が0.53である文書D2を除外し、アクセス類似度が0.99である文書D3と0.97である文書D4とを類似文書として特定する。また、検索対象文書が文書D1でリンク距離閾値が1であった場合、類似文書特定部34は、文書D2,D3を文書群として特定し、類似判定閾値THが0.9であれば、文書D2を除外して文書D3を類似文書として特定する。類似文書特定部34は、検索対象文書と特定された類似文書とにかかる情報を検索インデックス生成部35に出力する。
検索インデックス生成部35は、検索対象文書とその類似文書とからなる集合文書に出現する単語の分布から検索対象文書に対する検索インデックスを生成する部分である。検索インデックス生成部35は、類似文書特定部34から類似文書等の情報が入力されると、ネットワークNWにアクセスして文書内容にかかる情報を取得して、類似文書に応じて特定される文書集合に出現する語から検索対象文書に対する検索インデックスを生成する。このように検索インデックスを生成する際、出現単語の活用形や派生語や異表記語を検索インデックスに含むように変形してもよい。また、検索インデックス生成部35は、タグによるマークアップによる重み付けを検索インデックスに反映させてもよいし、単語の分布ではなくて文書に出現する文字列の分布(例えばN−GRAM)から検索インデックスを生成してもよい。また、本実施形態における検索インデックスの構造には特段の制約はなく、転置ファイルやB−TREE等の既知のものを適宜採用することができる。検索インデックス生成部35は、上述した各種方法により集合文書から生成された検索インデックスを検索インデックス格納部36に出力する。
検索インデックス格納部36は、検索インデックス生成部35で生成されて出力された各文書(検索対象文書)に対する検索インデックスを各文書に対応させて格納する部分である。この検索インデックス格納部36は、情報検索装置40との間で相互に接続されており、情報検索装置40が検索インデックスにアクセスできるようになっている。なお、本実施形態では、検索インデックス格納部36は、インデックス生成装置30内に配置されているが、インデックス生成装置30の外部に配置されるように構成されてもよい。
情報検索装置40は、ユーザの携帯端末Pから検索キーワード情報といったクエリー(検索要求)を受信すると、そのクエリーに適合するネットワークNW上の文書を検索して、検索結果情報をその携帯端末Pに送信するものである。情報検索装置40は、情報検索部41と検索結果絞込部42とを備えている。
情報検索部41は、インデックス生成装置30により生成された検索インデックスを用いて、クエリーに適合する適合文書を検索する部分である。情報検索部41は、携帯端末Pからクエリーを受信すると、インデックス生成装置30の検索インデックス格納部36にアクセスし、格納されている検索インデックスを用いて、クエリーに適合する適合文書を検索する。例えば、情報検索部41は、クエリーを受信すると、クエリーに含まれるキーワード情報を抽出する。そして、情報検索部41は、抽出したキーワード情報を、検索インデックス格納部36に格納されている各種の検索インデックスに照合し、クエリーに適合する適合文書を選び出す。情報検索部41は、このようにして得られた適合文書についての情報(URL情報や文書の一部内容等の情報)を検索結果情報として、検索要求のあった携帯端末Pへ送信する。
検索結果絞込部42は、同一サイト内の複数の文書が適合文書として情報検索部41により検索された場合に、クエリーとの類似度が大きい文書を優先させる部分である。検索結果絞込部42は、情報検索部41が同一サイト内の複数の文書を検索結果とした場合に、クエリー(例えば1語以上の検索キーワードからなるクエリー)と上記の同一サイト内の複数の文書それぞれとの類似度を、例えばtf・idf法により計算する。そして、検索結果絞込部42は、これら複数の文書の中から最も類似度が高いものを選択し、残りの文書を検索結果から破棄する処理を行う。そして、検索結果絞込部42は、同一サイト内の複数の文書のうち類似度が高い文書のみが含まれた検索結果を情報検索部41に出力し、検索要求のあった携帯端末Pへ送信するようにする。なお、同一サイト内の複数の文書の絞込みは、必ずしも1つの文書への絞込みである必要はなく、2つ以上の少数の文書に絞込むようにしてもよい。
続いて、上記した情報検索システム10によるインデックス生成方法を含む検索方法について説明する。図6は、本実施形態の情報検索システム10による検索方法を示すフローチャートである。図6に示すように、まず、アクセス履歴収集部21は、複数の携帯端末P1〜P3のユーザによる文書D1〜D4に対するアクセス履歴を示す各種の履歴情報を収集する(S101)。この履歴情報には、アクセス先文書情報(URL情報、アクセス頻度、アクセス時刻、アクセス時間、アクセス文書内容等)がユーザの識別情報に対応付けられて含まれている。そして、アクセス履歴収集部21は、これら履歴情報をアクセス履歴格納部31に出力し、アクセス履歴格納部31は、このような履歴情報を格納する(アクセス履歴格納ステップ、S102)。具体的には、アクセス履歴格納部31は、各文書D1〜D4に対するユーザ毎のアクセス頻度を当該ユーザの識別情報に対応付けた頻度情報(図3参照)を、履歴情報として格納する。
次に、類似度算出部32は、ステップS102で格納された履歴情報に基づいて各文書間でのアクセス履歴の類似度を示すアクセス類似度を算出する(類似度算出ステップ、S103)。アクセス類似度を算出するために、類似度算出部32は、各ユーザによる各文書D1〜D4へのアクセス数を各文書D1〜D4の特徴を示すベクトルとし、各ベクトルの大きさが1となるように正規化の計算を行う(図4参照)。そして、類似度算出部32は、各ベクトル間の内積値を算出し(図5参照)、この算出された内積値を各文書間のアクセス類似度とする。類似度算出部32は、このようにして算出したアクセス類似度を、類似文書特定部34へ出力する。また、リンク距離算出部33は、ハイパーテキストシステム上の各文書間のリンク構造を解析して、リンク遷移による各文書間のリンク距離を算出し(S104)、類似文書特定部34へ出力する。
続いて、類似文書特定部34は、図6のフローチャートが始まる時点で既に与えられている検索対象文書に対し、まず、リンク距離算出部33によるリンク距離の算出結果を用いて、検索対象文書から予め定められたリンク距離閾値以下でリンク遷移可能な文書を文書群として特定する(S105)。そして、類似文書特定部34は、このような文書群に含まれる文書と検索対象文書との間の各アクセス類似度をステップS103で算出されたアクセス類似度から抽出し、抽出された各アクセス類似度を類似判定閾値THと比較する。そして、類似文書特定部34は、類似判定閾値より大きいアクセス類似度の文書を、検索対象文書に内容が類似する類似文書として特定する(類似文書特定ステップ、S106)。なお、検索対象文書の与え方としては、アクセス履歴に出現する全ての文書としたり、コンベンショナルなWWWクローラで収集したURL集合としたり、これら両方の組合せとしたりすることができる。
続いて、検索インデックス生成部35は、検索対象文書とその類似文書とからなる集合文書に出現する単語の分布から検索対象文書に対する検索インデックスを生成する(検索インデックス生成ステップ、S107)。検索インデックス生成部35は、ステップS107で生成した検索インデックスを検索インデックス格納部36に格納させる。そして、インデックス生成装置30は、このようなインデックスの生成を繰り返し、ネットワークNW上の各種文書の検索インデックスを生成する。情報検索装置40は、このようにして作成された検索インデックスを用いて、携帯端末Pからの検索要求に応じて検索を行い、検索結果を携帯端末Pへ返信するようになっている(S108)。
以上、説明したように、情報検索システム10によれば、ユーザの各文書D1〜D4に対するアクセス履歴を示す履歴情報に基づいて各文書D1〜D4間でのアクセス履歴の類似度を示すアクセス類似度を算出して、このアクセス類似度に基づいて、検索対象文書に類似する類似文書を特定して、検索対象文書と類似文書とからなる集合文書に出現する語から検索対象文書に対する検索インデックスを生成することができる。このように、実際にユーザが検索対象文書と同時にアクセスする傾向が強い文書の情報も用いて、検索対象文書だけから生成される検索インデックスよりも大規模なインデックスを生成できるので、検索漏れを防止することができる。つまり、精度よく推定された類似文書を含めた領域まで検索インデックスを拡張していることから、このような検索インデックス生成システムやインデックス生成方法を用いれば、精度の高い情報検索が可能となる。なお、上述したインデックス生成装置30や情報検索装置40等の各機能は、個別の装置毎に配置されている必要はなく、システム上にあればよく、その場合、これら機能によりインデックス生成システム等が構成される。以下の実施形態でも同様である。
また、アクセス履歴格納部31は、各文書に対するユーザ毎のアクセス頻度を当該ユーザの識別情報に対応付けた頻度情報を履歴情報として格納し、類似度算出部32は、アクセス履歴格納部31に格納された頻度情報に基づいてアクセス類似度を算出し、類似文書特定部34は、アクセス類似度を類似判定閾値THと比較して、類似判定閾値THより大きいアクセス類似度の文書を類似文書として特定している。アクセス頻度は、比較的、容易に取得することができ、また、類似判定閾値THを用いて判定するので、かかる構成によれば、類似文書の特定が容易に行える。
また、情報検索システム10は、各文書D1〜D4それぞれがリンクするように構成されるハイパーテキストシステム上の各文書D1〜D4間のリンク構造を解析して、リンク遷移による各文書D1〜D4間のリンク距離を算出するリンク距離算出部33を備え、類似文書特定部34は、リンク距離算出部33を用いて検索対象文書から所定の距離以下のリンク距離にある文書を文書群として特定すると共に、この文書群に含まれる文書と検索対象文書との間のアクセス類似度を類似判定閾値THと比較して類似文書を特定している。かかる構成によれば、意味的にまとまりのある文書群から類似文書を特定することができるので、文書間の内容の類似性の推定精度を向上させることができる。
[第2実施形態]
続いて、本発明の第2実施形態にかかる情報検索システム10について説明する。本実施形態では、第1実施形態における類似度算出部32が、リンク距離算出部33により算出されるリンク距離が大きくなるにつれて低下するようにアクセス類似度を算出する類似度算出部32aとなっている。その他の構成は、第1実施形態と同様である。
類似度算出部32aは、履歴情報に基づいてアクセス類似度を算出する際に、各文書D1〜D4の特徴を示すベクトルの内積値を算出する点は、第1実施形態における類似度算出部32と同様である。類似度算出部32aは、更に、この内積値に対して、1/N(Nは文書間移動に要するリンク遷移数)を乗じて、アクセス類似度としている(図7の「修正類似度」参照)。例えば、第1実施形態では、リンク距離閾値を2、類似判定閾値THを0.9として文書D1の類似文書を特定した際、文書D3と文書D4とが特定されたが、本実施形態によれば、文書D4は修正類似度が0.49となって除外され、文書D3のみが類似文書として特定される。つまり、文書間移動に要するリンク遷移数を一種のペナルティとして与えており、遷移により多くのコスト(ユーザによるリンククリック)を要する文書による影響を、検索インデックスの生成から除外することができる。なお、上述した1/Nに代えて、1/logNや1/N2を内積値に乗じてアクセス類似度としてもよい。
[第3実施形態]
続いて、本発明の第3実施形態に係る情報検索システム12の全体構成について説明する。本実施形態では、図8に示すように、第1実施形態におけるアクセス履歴格納部31〜類似文書特定部34に代えて、アクセス履歴格納部(アクセス履歴格納手段)51、類似度算出部(類似度算出手段)52、類似文書特定部(類似文書特定手段)53を備えている。なお、アクセス履歴格納部51、類似度算出部52、及び類似文書特定部53の基本的な機能は、第1実施形態のアクセス履歴格納部31、類似度算出部32、及び類似文書特定部34と同様である。以下、第1実施形態と相違する点を中心として説明する。
アクセス履歴格納部51は、ユーザの各文書に対するアクセス履歴を示す履歴情報を格納する部分である。アクセス履歴格納部51は、アクセス履歴収集部21から各種の履歴情報を取得すると、各文書D1〜D4に対するユーザ毎のアクセス状況(アクセスの有無)を当該ユーザの識別情報とアクセス時刻とに対応付けて時系列化されたアクセス情報を、履歴情報として格納する。具体的には、同一サイト内で行う文書アクセスをアクセス順に並べたセッション毎のアクセス情報を、履歴情報として格納する。このセッション毎のアクセス情報は、アクセス時刻等に基づいて判定され、文書アクセス時刻が一定時間(例えば30分)行われないとセッションが終わったものと判定される。なお、上記のセッション毎のアクセス情報は、同一サイト内でのアクセスに限定せずに、一定時間内であれば異なるサイト内でのアクセスであっても同一セッションとしてもよい。
図9は、このようなセッション毎のアクセス情報の格納データの一例を示すものである。この格納データでは、ユーザU001が3回のセッションを行っており、1回目のセッションでは文書D1→文書D3→文書D4の順でアクセスし、2回目のセッションでは文書D1→文書D3の順でアクセスし、3回目のセッションでは文書D1→文書D3→文書D4の順でアクセスしている。同様に、ユーザU002は、3回のセッションを行っており、1回目のセッションでは文書D1→文書D3→文書D4の順でアクセスし、2回目のセッションでは文書D1にアクセスし、3回目のセッションでは文書D1→文書D3の順でアクセスしている。また、ユーザU003は2回のセッションを行っており、1回目のセッションでは文書D1→文書D2→文書D3→文書D4の順でアクセスし、2回目のセッションでは文書D2→文書D3の順でアクセスしている。
類似度算出部52は、アクセス履歴格納部51に格納された履歴情報に基づいて各文書間でのアクセス履歴の類似度を示すアクセス類似度を算出する部分である。類似度算出部52は、同一セッション内で、ある文書へのアクセス以後に別の文書にアクセスされる確率を下記の式(2)に基づいて、個々の文書に対して算出する。下記の式(2)は、例えば、文書D1及び文書D2間のアクセス類似度の算出式であり、アクセス順を考慮したものとなっている。なお、他の文書間のアクセス類似度を算出する場合には、式(2)中の「文書」を、算出する文書に置き換える。

類似度算出部52は、このような算出式(2)に基づいて、例えば、図9に示すようなアクセス情報から各文書D1〜D4間のアクセス類似度を算出する。図10には、このようにして算出された各文書間のアクセス類似度が示されており、具体的には、D1→D2へのアクセス類似度が0.14、D1→D3へのアクセス類似度が0.86、D1→D4へのアクセス類似度が0.57、D2→D1へのアクセス類似度が0、D2→D3へのアクセス類似度が1.0、D2→D4へのアクセス類似度が0.5となっている。類似度算出部52は、このようにして算出したアクセス類似度を類似文書特定部53へ出力する。なお、類似度算出部52でアクセス類似度を算出する際、アクセス順を考慮せずに、同一セッション内でのアクセス数を用いてアクセス類似度を算出するようにしてもよい。
類似文書特定部53は、検索対象となる一の文書に類似する類似文書を上述したアクセス類似度に基づいて特定する部分である。類似文書特定部53は、検索対象文書が与えられると、類似度算出部52から入力されたアクセス類似度を用いて、検索対象文書と他の文書との内容が類似していると推定される類似判定閾値THと比較する。そして、類似文書特定部34は、類似判定閾値THより大きいアクセス類似度の文書を、検索対象文書に内容が類似する類似文書として特定する。
類似文書特定部53は、例えば、検索対象文書が文書D1で類似判定閾値が0.3であった場合、アクセス類似度が0.14である文書D2を除外し、アクセス類似度が0.86である文書D3と0.57である文書D4とを類似文書として特定する。類似文書特定部53は、検索対象文書と特定された類似文書とにかかる情報を検索インデックス生成部35に出力して、検索インデックス生成部35は、入力された類似文書等に基づいて検索インデックスを生成する。
このような情報検索システム12によるインデックス生成方法を含む情報検索方法は、アクセス順に並べたセッション毎のアクセス情報を履歴情報として用いている点を除き、第1実施形態の情報検索方法と略同様である。すなわち、本実施形態に係る情報検索システム12による情報検索方法では、第1実施形態のステップS102において、アクセス履歴格納部51が、アクセス順に並べたセッション毎のアクセス情報を履歴情報として格納し、ステップS103において、類似度算出部52が、このアクセス情報に基づいて上述したようにアクセス類似度を算出し、ステップS106において、類似文書特定部53が、このアクセス類似度に基づいて検索対象文書に類似する類似文書を特定する点が相違している。なお、本実施形態にかかる検索方法では、第1実施形態におけるリンク距離を算出するステップS104,S105に相当するステップを含まない。
以上、説明したように、情報検索システム12によれば、アクセス履歴格納部51は、各文書に対するユーザ毎のアクセス状況を当該ユーザの識別情報とアクセス時刻とに対応付けて時系列化されたセッション毎のアクセス情報を履歴情報として格納し、類似度算出部52は、アクセス履歴格納部51に格納されたアクセス情報に基づいてアクセス類似度を算出し、類似文書特定部53は、アクセス類似度を類似判定閾値THと比較して、類似判定閾値THより大きいアクセス類似度の文書を類似文書として特定している。所定の時刻等における各ユーザのアクセスは、比較的、関連する内容の文書に対して行われる可能性が高いため、かかる構成によれば、各文書間の内容の類似度を精度よく推定して類似文書を特定することができる。また、類似判定閾値THを用いて判定するので、類似文書の特定が容易に行える。さらに、本実施形態によれば、文書間のリンク解析を省略できるので、処理の高速化やリンク距離閾値の設定等の手間を削減できる。
[第4実施形態]
続いて、本発明の第4実施形態に係る情報検索システム12について説明する。本実施形態では、第3実施形態におけるアクセス履歴格納部51〜類似文書特定部53に代えて、アクセス履歴格納部51a、類似度算出部52a、類似文書特定部53aを備えている。なお、アクセス履歴格納部51a〜類似文書特定部53aの基本的な機能は、第3実施形態のアクセス履歴格納部51〜類似文書特定部53と同様である。以下、第3実施形態と相違する点を中心として説明する。
アクセス履歴格納部51aは、第3実施形態のアクセス履歴格納部51がセッション毎のアクセス状況(アクセスの有無)に基づいた履歴情報(図9参照)を格納していたのに対し、各文書におけるアクセス滞留時間を含むアクセス状況のセッション毎の履歴情報を格納する部分である。例えば、アクセス履歴格納部51aは、図11に示すように、ユーザU001が3回のセッションを行っており、1回目のセッションでは文書D1(5.2 sec)→文書D3(2.2sec)→文書D4(3.6 sec)の順でアクセスし、2回目のセッションでは文書D1(1.2 sec)→文書D3(4.4sec)の順でアクセスし、3回目のセッションでは文書D1(0.9 sec)→文書D3(1.2sec)→文書D4(5.8 sec)の順でアクセスしている。同様に、ユーザU002は、3回のセッションを行っており、1回目のセッションでは文書D1(2.2 sec)→文書D3(2.2sec)→文書D4(5.2 sec)の順でアクセスし、2回目のセッションでは文書D1(5.4 sec)にアクセスし、3回目のセッションでは文書D1(3.6 sec)→文書D3(7.0sec)の順でアクセスしている。また、ユーザU003は2回のセッションを行っており、1回目のセッションでは文書D1(1.2 sec)→文書D2(3.2sec)→文書D3(8.2 sec)→文書D4(9.6sec)の順でアクセスし、2回目のセッションでは文書D2(5.2 sec)→文書D3(6.2sec)の順でアクセスしている。
類似度算出部52aは、アクセス履歴格納部51aに格納されているアクセス滞留時間を含む履歴情報に基づいて、各文書間でのアクセス履歴の類似度を示すアクセス類似度を算出する部分である。類似度算出部52aは、同一セッション内で、ある文書へのアクセス以後に別の文書にアクセスされる際の滞留時間を下記の式(3)に基づいて、個々の文書に対して算出する。下記の式(3)は、例えば、文書D1及び文書D2間のアクセス類似度の算出式であり、アクセス順を考慮したものとなっている。なお、他の文書間のアクセス類似度を算出する場合には、式(3)中の「文書」を、算出する文書に置き換える。

類似度算出部52aは、このような算出式(3)に基づいて、例えば、図11に示すようなアクセス情報から各文書D1〜D4間のアクセス類似度を算出する。図12には、このようにして算出された各文書間のアクセス類似度が示されており、具体的には、D1→D2へのアクセス類似度が0.16、D1→D3へのアクセス類似度が1.28、D1→D4へのアクセス類似度が1.23、D2→D1へのアクセス類似度が0、D2→D3へのアクセス類似度が0.98、D2→D4へのアクセス類似度が1.88となっている。類似度算出部52aは、このようにして算出したアクセス類似度を類似文書特定部53aへ出力する。類似文書特定部53aは、このように滞留時間を基にして算出されたアクセス類似度に基づいて、類似文書特定部53と同様に類似文書を特定する。なお、アクセス順を考慮せずに、同一セッション内でのアクセス滞留時間を用いてアクセス類似度を算出するようにしてもよい。
以上、説明したように、情報検索システム12によれば、各文書に対するユーザのアクセス時間に基づいてアクセス情報におけるアクセス状況が加減(増減)されている。かかる構成によれば、ユーザが長時間閲覧した文書に対して重み付けをすることができ、実際のユーザ行動に即した類似文書を特定することができる。なお、第1実施形態における情報検索システム10において、このようなアクセス時間を考慮し、アクセス頻度が、各文書に対するユーザのアクセス時間に基づいて加減されるようにしてもよい。
[第5実施形態]
続いて、本発明の第5実施形態に係る情報検索システム10について説明する。本実施形態では、第1実施形態における、類似文書特定部34と検索インデックス生成部35に代えて、類似文書特定部34aと検索インデックス生成部35aを備えている。類似文書特定部34aと検索インデックス生成部35aの基本的な機能は、類似文書特定部34及び検索インデックス生成部35と同様である。以下、第1実施形態と相違する点を中心として説明する。
類似文書特定部34aは、検索対象となる一の文書に類似する文書をアクセス類似度等に基づいて特定する部分である。この類似文書特定部34aは、類似文書を特定する際の類似判定閾値THを複数備えている。すなわち、類似文書特定部34aは、複数の類似判定閾値(TH1、TH2、・・・、THn)を備えており、各類似判定閾値に対応する複数パターンで類似文書(SD1、SD2、・・・、SDn)を特定する。類似文書特定部34aは、このようにして特定した複数パターンの類似文書等にかかる情報を検索インデックス生成部35aに出力する。
検索インデックス生成部35aは、複数パターンからなる類似文書と検索対象文書とからなる集合文書それぞれに出現する単語の分布から検索対象文書に対する複数パターンの検索インデックスを生成する部分である。検索インデックス生成部35aは、類似文書特定部34aから複数パターンの類似文書(SD1、SD2、・・・、SDn)等の情報が入力されると、類似文書に応じて特定される文書集合それぞれに出現する語から検索対象文書に対する複数パターンの検索インデックス(ID1、ID2、・・・、IDn)を生成する。なお、検索インデックスに出現するキーワード数は、類似文書に含まれる文書数が増えるにつれ、多くなる傾向にある。つまり、類似文書に含まれる文書が多いほど、検索要求であるクエリーに適合する可能性を高めることができる。また、検索インデックス生成部35aは、生成された複数パターンの検索インデックスを検索インデックス格納部36に出力して格納させる。
続いて、このように一の検索対象文書に対して複数パターンの検索インデックスを格納した検索インデックス格納部36を用いて情報検索装置40により行う情報検索方法について図13を用いて説明する。
まず、情報検索装置40は、複数パターンの検索インデックスのうちの一の検索インデックスを示す値K、適合文書数の最小数Hmin、適合文書の最大数Hmaxを初期値として設定する(S201)。ここで、用いる値Kは、値が大きくなるほど、検索対象文書に対する検索インデックスに含まれるキーワードが増えるような関係を有している(つまり、値Kが大きくなるほど、検索要求であるクエリーQに適合する適合文書数が増加する)。
続いて、情報検索装置40は、携帯端末Pより、クエリーQを受信して取得する(S202)。このクエリーQは、例えば1語または複数語からなる検索キーワードであり、携帯端末Pのユーザによって携帯端末Pに入力されるものである。情報検索装置40は、クエリーQが入力されると、初期値として設定された検索インデックスIDkを、検索インデックス格納部36から取得する(S203)。そして、検索インデックスIDkを用いてクエリーQに適合する適合文書を検索する(S204)。この検索は従来の検索方法を用いることで実現される。ステップS204による検索後、適合文書の数Nを算出する(S205)。
続いて、情報検索装置40は、適合文書の数Nを算出すると、この文書数Nを初期値として設定した適合文書の最小文書数Hminと比較し(S206)、文書数Nが最小文書数Hmin以上であれば、ステップS207に進む。一方、文書数Nが最小文書数Hminに満たないようであれば、情報検索装置40は、値Kを1増加し(S208)、この増加した値Kに対応する検索インデックスIDkが検索インデックス格納部36にあるかどうかを判定する(S209)。そして、検索インデックスIDkがあれば、ステップS203に戻り、適合文書の検索を繰り返し、検索インデックスIDkがなければ、ステップS210に進みエラー出力をして処理を終了する。
一方、ステップS207では、文書数Nを初期値として設定した適合文書の最大文書数Hmaxと比較し、文書数Nが最大文書数Hmax以下であれば、ステップS211に進んで適合文書を出力する。適合文書を出力する際には、クエリーQと類似する順に出力するようにしてもよい。そして、情報検索装置40は、検索要求のあった携帯端末Pに対して出力結果を送信する。なお、文書数Nが最大文書数Hmaxを越えるようであれば、情報検索装置40は、値Kを1減少し(S212)、この減少した値Kに対応する検索インデックスIDkが検索インデックス格納部36にあるかどうかを判定する(S213)。そして、検索インデックスIDkがあれば、ステップS203に戻り、適合文書の検索を繰り返し、検索インデックスIDkがなければ、ステップS214に進みエラー出力をして処理を終了する。出力されたエラー出力も、検索要求のあった携帯端末Pに対して送信される。エラー出力は、定められた範囲の文書数を検索できなかったことを示す。
以上、説明したように、情報検索システム10によれば、類似文書特定部34aが類似判定閾値を複数有しており且つ複数の類似判定閾値に応じた複数パターンにて類似文書を特定し、検索インデックス生成部35aは、複数パターンからなる類似文書に応じて特定される文書集合それぞれに出現する語から検索対象文書に対する複数パターンの検索インデックスを生成するようになっている。そして、情報検索装置40は、このように生成された複数パターンの検索インデックスを用いて、フィードバック制御を行うことにより、検索件数を制御することでき、検索結果が多すぎて絞り込みに苦労したり、検索結果が少なすぎて所望の文書がみつからないといったことを解決することができる。なお、上記した値K、最小文書数Hmin、及び最大文書数Hmaxをユーザが携帯端末Pを用いて設定するようにしてもよい。例えば、ユーザが検索された文書数を減らしたい場合には、ユーザは、最大文書数Hmaxを小さくすることで対応できる。
[変形例]
次に、第1実施形態〜第5実施形態における変形例について説明する。上記各実施形態では、アクセス履歴格納部31,51等で各種履歴情報を格納する際、特に時間的な制限を設けずに履歴情報を得ていたが、直近のT時間(例えば24時間)内のアクセスにかかるアクセス履歴から履歴情報を得て、上記した各種の処理を行うようにしてもよい。このような時間制限を行うことにより、新規に公開されてアクセス数(累積)が少ない文書であっても、新規であることによる不利益部分を補正させることができる。また、このようなT時間を複数用意しておき、アクセス履歴格納部31,51等において、複数の履歴情報を保持するようにしてもよい。この場合、類似度算出部32,52等は、複数の履歴情報から適切なものを選択し、新規文書に対するアクセス類似度の不利益部分を補正することができる。更に、直近のT時間を分割し、それぞれのアクセス頻度の比を求め、比が大きいもの(アクセス数が急増しているもの)について、アクセス履歴格納部31等に格納する頻度情報を補正(例えば意図的に増加)させてもよい。
また、上記第1実施形態等では、検索結果絞込部42がtf・idf法を用いて検索要求との類似度が大きい文書を優先させる絞込みを行っていたが、検索インデックスを生成する際に使用した集合文書と検索要求との類似度を算出して、最も類似度が高いものを選択するような絞込みを行ってもよい。また、検索インデックスを生成する際に使用した集合文書を構成する文書数を算出して、構成文書数が多いものを選択するような絞込みを行ってもよい。また、検索インデックスを生成する際に使用した集合文書に出現する単語または所定のキーワードの数を算出して、単語数またはキーワード数の多いものを選択するような絞込みを行ってもよい。また、検索インデックスを構成する単語(キーワード)の数を算出し、単語数またはキーワード数の多いものを選択するような絞込みを行ってもよい。
また、文書配信用のサーバ(WWWサーバ)に置かれている論理的ディレクトリのパス(URL)を求め、このパスが上位にあるものを選択するような絞込みを行ってもよい。また、アクセス履歴格納部31,51等を参照して、文書へのアクセス数を算出し、算出数が最大のものを選択するような絞込みを行ってもよい。また、アクセス履歴格納部31,51等を参照して、ユーザからのアクセスセッションの最初に現れる文書(アクセス開始文書)となる頻度を算出して、頻度数の多いもの選択するような絞込みを行ってもよい。また、アクセス履歴格納部31,51等を参照して、ユーザからのアクセスセッションの最初からM個までに現れる文書となる頻度を算出して、この頻度数の多いものを選択するような絞込みを行ってもよい。この場合、1個〜M個まで順に減少するようなスコアを予め定めておき、単に頻度を算出するのではなくスコアを累積していくようにしてもよい。この場合、スコアが最大のものを選択するような絞込みを行う。
以上、本発明をその実施形態に基づき具体的に説明したが、本発明は、上記実施形態に限定されるものではない。例えば、携帯端末Pからのアクセスに基づいて検索インデックスを生成したが、PC等の計算機からのアクセスに基づいて検索インデックスを生成してもよいし、また、PC等の計算機からの検索に用いてももちろんよい。また、類似度算出部32,52等で文書間の類似度を算出する際、文書へのアクセスが最近のものであるかどうかを区別して類似度を算出したり、文書へのアクセス増加傾向に基づいて類似度を算出したりするようにしてもよい。このようにすれば、新規に作成された文書に対するアクセス数が少なく検索インデックスの生成に反映されにくいといった問題を解決することができる。
また、アクセス履歴格納部31,51等を、インデックス生成装置30,50等内に配置したが、ネットワークアクセスサーバ20内等その他の場所に配置してもよい。また、情報検索装置40は、ネットワークアクセスサーバ20を経由して携帯端末Pに接続されるようになっているが、ネットワークアクセスサーバ20とは別のサーバを経由して携帯端末Pと接続されてもよい。更に、上記したインデックス生成装置30,50の各機能部や情報検索装置40の各機能部は、情報検索システム10,12のいずれかにあればよく、必ずしも各装置が分かれている必要はないし、各機能部が別々の装置内に存在していてもよい。すなわち、各機能部は、情報検索システムやインデックス生成システムとして存在していればよい。
第1実施形態に係る情報検索システムの構成概要図である。 検索インデックス生成装置のハードウェア構成図である。 第1実施形態で格納される履歴情報データの一例である。 図3に示す履歴情報データに正規化の処理を行ったデータの一例である。 図3に示す履歴情報データに基づくアクセス類似度を示すデータの一例である。 第1実施形態に係る情報検索システムによる情報検索方法を示すフローチャートである。 第2実施形態でのアクセス類似度を示すデータの一例である。 第3実施形態に係る情報検索システムの構成概要図である。 第3実施形態で格納される履歴情報データの一例である。 図9に示す履歴情報データに基づくアクセス類似度を示すデータの一例である。 第4実施形態で格納される履歴情報データの一例である。 図11で示す履歴情報データに基づくアクセス類似度を示すデータの一例である。 第5実施形態に係る情報検索システムによる情報検索方法を示すフローチャートである。
符号の説明
10,12…情報検索システム、20…ネットワークアクセスサーバ、30,50…インデックス生成装置、31,51…アクセス履歴格納部、32,52…類似度算出部,33…リンク距離算出部、34,53…類似文書特定部、35…検索インデックス生成部、36…検索インデックス格納部、40…情報検索装置、41…情報検索部、42…検索結果絞込部、NW…ネットワーク、P…携帯端末。

Claims (12)

  1. 文書検索用の検索インデックスを生成するインデックス生成システムであって、
    ユーザの各文書に対するアクセス履歴を示す履歴情報を格納するアクセス履歴格納手段と、
    前記アクセス履歴格納手段に格納された前記履歴情報に基づいて各文書間でのアクセス履歴の類似度を示すアクセス類似度を算出する類似度算出手段と、
    各文書それぞれがリンクするように構成されるハイパーテキストシステム上の各文書間のリンク構造を解析して、リンク遷移による各文書間のリンク距離を算出するリンク距離算出手段と、
    検索対象となる一の文書に類似する類似文書を前記アクセス類似度に基づいて特定する類似文書特定手段と、
    前記検索対象となる一の文書及び前記類似文書からなる集合文書に出現する語から前記検索対象となる一の文書に対する検索インデックスを生成する検索インデックス生成手段と、を有し、
    前記アクセス履歴格納手段は、各文書に対するユーザ毎のアクセス頻度を当該ユーザの識別情報に対応付けた頻度情報を前記履歴情報として格納し、
    前記類似度算出手段は、前記アクセス履歴格納手段に格納された前記頻度情報に基づいて前記アクセス類似度を算出し、
    前記類似文書特定手段は、前記リンク距離算出手段を用いて前記検索対象となる一の文書から所定の距離以下のリンク距離にある文書を文書群として特定すると共に、前記文書群に含まれる文書と前記検索対象となる文書との間の前記アクセス類似度を類似判定閾値と比較して前記類似文書を特定する、ことを特徴とするインデックス生成システム。
  2. 前記類似度算出手段は、前記リンク距離算出手段により算出されるリンク距離が大きくなるにつれて低下するように前記アクセス類似度を算出する、ことを特徴とする請求項記載のインデックス生成システム。
  3. 前記アクセス履歴格納手段は、前記アクセス頻度それぞれに対応するアクセス時間を含む前記頻度情報を前記履歴情報として格納し、
    前記類似度算出手段は、前記頻度情報における前記アクセス頻度を前記アクセス時間に基づいて増減して、前記アクセス類似度を算出する、ことを特徴とする請求項1又は2記載のインデックス生成システム。
  4. 前記類似文書特定手段は、前記類似判定閾値を複数有しており、且つ、前記複数の類似判定閾値のそれぞれに対応する前記類似文書をそれぞれ特定し、
    前記検索インデックス生成手段は、前記複数の類似判定閾値それぞれに対応する各前記類似文書に応じて特定される前記文書集合それぞれに出現する語から前記検索対象となる一の文書に対する検索インデックスを複数パターン生成する、ことを特徴とする請求項1〜3のいずれか一項記載のインデックス生成システム。
  5. 文書を検索する情報検索システムであって、
    請求項1〜のいずれか一項記載のインデックス生成システムにより生成された前記検索インデックスを用いて、検索要求に適合する適合文書を検索する情報検索手段を有することを特徴とする情報検索システム。
  6. 前記情報検索手段は、請求項記載のインデックス生成システムにより生成された前記複数パターンの内の一のパターンの前記検索インデックスを用いて検索要求に適合する適合文書を検索すると共に、検索された適合文書の数に応じて複数パターンの内の別のパターンの前記検索インデックスを選択して用いることを特徴とする請求項記載の情報検索システム。
  7. 同一サイト内の複数の文書が前記適合文書として前記情報検索手段により検索された場合に、前記検索要求との類似度が大きい文書を優先させる絞込みを行う検索結果絞込手段を更に備えたことを特徴とする請求項又は記載の情報検索システム。
  8. 同一サイト内の複数の文書が前記適合文書として前記情報検索手段により検索された場合に、前記検索インデックスを構成する語の数が多い文書を優先させる絞込みを行う検索結果絞込手段を更に備えたことを特徴とする請求項又は記載の情報検索システム。
  9. 同一サイト内の複数の文書が前記適合文書として前記情報検索手段により検索された場合に、前記複数の文書の内、文書パスが上位の文書を優先させる絞込みを行う検索結果絞込手段を更に備えたことを特徴とする請求項又は記載の情報検索システム。
  10. 同一サイト内の複数の文書が前記適合文書として前記情報検索手段により検索された場合に、前記アクセス履歴格納手段に格納されている前記履歴情報に基づいて文書アクセス数が上位の文書を優先させる絞込みを行う検索結果絞込手段を更に備えたことを特徴とする請求項又は記載の情報検索システム。
  11. 同一サイト内の複数の文書が前記適合文書として前記情報検索手段により検索された場合に、前記アクセス履歴格納手段に格納されている前記履歴情報に基づいてユーザによる各セッションにおけるアクセス開始文書を優先させる絞込みを行う検索結果絞込手段を更に備えたことを特徴とする請求項又は記載の情報検索システム。
  12. 文書検索用の検索インデックスを生成するインデックス生成方法であって、
    アクセス履歴格納手段が、ユーザの各文書に対するアクセス履歴を示す履歴情報を格納するアクセス履歴格納ステップと、
    類似度算出手段が、前記アクセス履歴格納ステップで格納された前記履歴情報に基づいて各文書間でのアクセス履歴の類似度を示すアクセス類似度を算出する類似度算出ステップと、
    リンク距離算出手段が、各文書それぞれがリンクするように構成されるハイパーテキストシステム上の各文書間のリンク構造を解析して、リンク遷移による各文書間のリンク距離を算出するリンク距離算出ステップと、
    類似文書特定手段が、検索対象となる一の文書に類似する類似文書を前記アクセス類似度に基づいて特定する類似文書特定ステップと、
    検索インデックス生成手段が、前記検索対象となる一の文書及び前記類似文書からなる集合文書に出現する語から前記検索対象となる一の文書に対する検索インデックスを生成する検索インデックス生成ステップと、を含み、
    前記アクセス履歴格納ステップでは、前記アクセス履歴格納手段が、各文書に対するユーザ毎のアクセス頻度を当該ユーザの識別情報に対応付けた頻度情報を前記履歴情報として格納し、
    前記類似度算出ステップでは、前記類似度算出手段が、前記アクセス履歴格納ステップで格納された前記頻度情報に基づいて前記アクセス類似度を算出し、
    前記類似文書特定ステップでは、前記類似文書特定手段が、前記リンク距離算出ステップで算出されるリンク距離を用いて前記検索対象となる一の文書から所定の距離以下のリンク距離にある文書を文書群として特定すると共に、前記文書群に含まれる文書と前記検索対象となる文書との間の前記アクセス類似度を類似判定閾値と比較して前記類似文書を特定する、ことを特徴とするインデックス生成方法。
JP2008306728A 2008-12-01 2008-12-01 インデックス生成システム、情報検索システム、及びインデックス生成方法 Expired - Fee Related JP4633162B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008306728A JP4633162B2 (ja) 2008-12-01 2008-12-01 インデックス生成システム、情報検索システム、及びインデックス生成方法
US12/626,779 US8285723B2 (en) 2008-12-01 2009-11-27 System and method for indexing documents and retrieving similar document based on link transition count distance calculations
CN2009102466999A CN101901241B (zh) 2008-12-01 2009-12-01 索引生成系统、信息检索系统以及索引生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008306728A JP4633162B2 (ja) 2008-12-01 2008-12-01 インデックス生成システム、情報検索システム、及びインデックス生成方法

Publications (2)

Publication Number Publication Date
JP2010129061A JP2010129061A (ja) 2010-06-10
JP4633162B2 true JP4633162B2 (ja) 2011-02-16

Family

ID=42223736

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008306728A Expired - Fee Related JP4633162B2 (ja) 2008-12-01 2008-12-01 インデックス生成システム、情報検索システム、及びインデックス生成方法

Country Status (3)

Country Link
US (1) US8285723B2 (ja)
JP (1) JP4633162B2 (ja)
CN (1) CN101901241B (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11048765B1 (en) 2008-06-25 2021-06-29 Richard Paiz Search engine optimizer
US11423018B1 (en) * 2010-04-21 2022-08-23 Richard Paiz Multivariate analysis replica intelligent ambience evolving system
US11379473B1 (en) * 2010-04-21 2022-07-05 Richard Paiz Site rank codex search patterns
JP5373710B2 (ja) * 2010-06-30 2013-12-18 ヤフー株式会社 インデックス更新装置及びその方法
US8620907B2 (en) 2010-11-22 2013-12-31 Microsoft Corporation Matching funnel for large document index
US8713024B2 (en) 2010-11-22 2014-04-29 Microsoft Corporation Efficient forward ranking in a search engine
US9529908B2 (en) 2010-11-22 2016-12-27 Microsoft Technology Licensing, Llc Tiering of posting lists in search engine index
US9424351B2 (en) 2010-11-22 2016-08-23 Microsoft Technology Licensing, Llc Hybrid-distribution model for search engine indexes
US9342582B2 (en) * 2010-11-22 2016-05-17 Microsoft Technology Licensing, Llc Selection of atoms for search engine retrieval
US9195745B2 (en) 2010-11-22 2015-11-24 Microsoft Technology Licensing, Llc Dynamic query master agent for query execution
US8478704B2 (en) 2010-11-22 2013-07-02 Microsoft Corporation Decomposable ranking for efficient precomputing that selects preliminary ranking features comprising static ranking features and dynamic atom-isolated components
US9158767B2 (en) * 2011-04-08 2015-10-13 Microsoft Technology Licensing, Llc Lock-free indexing of documents
US8402030B1 (en) * 2011-11-21 2013-03-19 Raytheon Company Textual document analysis using word cloud comparison
US9721039B2 (en) * 2011-12-16 2017-08-01 Palo Alto Research Center Incorporated Generating a relationship visualization for nonhomogeneous entities
JP5701846B2 (ja) * 2012-11-28 2015-04-15 京セラドキュメントソリューションズ株式会社 画像形成装置
JP5900356B2 (ja) * 2013-01-08 2016-04-06 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
US11741090B1 (en) 2013-02-26 2023-08-29 Richard Paiz Site rank codex search patterns
US11809506B1 (en) * 2013-02-26 2023-11-07 Richard Paiz Multivariant analyzing replicating intelligent ambience evolving system
US9164667B2 (en) * 2013-03-15 2015-10-20 Luminoso Technologies, Inc. Word cloud rotatable through N dimensions via user interface
WO2016006276A1 (ja) * 2014-07-10 2016-01-14 日本電気株式会社 インデックス生成装置及びインデックス生成方法
US9965788B2 (en) 2014-09-26 2018-05-08 Wal-Mart Stores, Inc. System and method for prioritized product index searching
US20160092519A1 (en) * 2014-09-26 2016-03-31 Wal-Mart Stores, Inc. System and method for capturing seasonality and newness in database searches
CN109299348B (zh) * 2018-11-28 2021-09-28 北京字节跳动网络技术有限公司 一种数据查询方法、装置、电子设备及存储介质
JP6675742B1 (ja) * 2019-02-15 2020-04-01 国立大学法人大阪大学 文書検索装置、文書検索方法、及び、文書検索プログラム
CN113468278B (zh) * 2021-06-30 2023-09-08 杭州云深科技有限公司 获取目标用户关联关系的系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000172665A (ja) * 1998-12-04 2000-06-23 Fuji Xerox Co Ltd ハイパーテキスト解析装置及び方法、ハイパーテキスト解析プログラムを記録した記憶媒体
JP2000242626A (ja) * 1999-02-23 2000-09-08 Hitachi Ltd 電子商取引履歴分析方法
JP2001052017A (ja) * 1999-08-11 2001-02-23 Fuji Xerox Co Ltd ハイパーテキスト解析装置
JP2005018530A (ja) * 2003-06-27 2005-01-20 Toshiba Corp 情報処理装置、情報処理プログラム及び情報処理方法
JP2008117267A (ja) * 2006-11-07 2008-05-22 Yafoo Japan Corp 閲覧履歴提供システム、閲覧履歴提供装置、閲覧履歴提供方法、および閲覧履歴提供プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3470861B2 (ja) * 1997-07-17 2003-11-25 株式会社日立情報システムズ 参照アクセス情報の取得システム
JP3849318B2 (ja) 1998-09-10 2006-11-22 富士ゼロックス株式会社 情報検索装置、情報検索方法及び情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US7213198B1 (en) * 1999-08-12 2007-05-01 Google Inc. Link based clustering of hyperlinked documents
US20030004996A1 (en) * 2001-06-29 2003-01-02 International Business Machines Corporation Method and system for spatial information retrieval for hyperlinked documents
US7523096B2 (en) * 2003-12-03 2009-04-21 Google Inc. Methods and systems for personalized network searching
GB0610119D0 (en) * 2006-05-20 2006-06-28 Ibm Internet browser and method of bookmarking in same
CN100524307C (zh) 2006-06-27 2009-08-05 国际商业机器公司 一种建立文档间关联关系的方法和装置
JP5340751B2 (ja) 2008-04-22 2013-11-13 株式会社エヌ・ティ・ティ・ドコモ 文書処理装置および文書処理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000172665A (ja) * 1998-12-04 2000-06-23 Fuji Xerox Co Ltd ハイパーテキスト解析装置及び方法、ハイパーテキスト解析プログラムを記録した記憶媒体
JP2000242626A (ja) * 1999-02-23 2000-09-08 Hitachi Ltd 電子商取引履歴分析方法
JP2001052017A (ja) * 1999-08-11 2001-02-23 Fuji Xerox Co Ltd ハイパーテキスト解析装置
JP2005018530A (ja) * 2003-06-27 2005-01-20 Toshiba Corp 情報処理装置、情報処理プログラム及び情報処理方法
JP2008117267A (ja) * 2006-11-07 2008-05-22 Yafoo Japan Corp 閲覧履歴提供システム、閲覧履歴提供装置、閲覧履歴提供方法、および閲覧履歴提供プログラム

Also Published As

Publication number Publication date
CN101901241A (zh) 2010-12-01
US20100138426A1 (en) 2010-06-03
US8285723B2 (en) 2012-10-09
CN101901241B (zh) 2012-09-19
JP2010129061A (ja) 2010-06-10

Similar Documents

Publication Publication Date Title
JP4633162B2 (ja) インデックス生成システム、情報検索システム、及びインデックス生成方法
US8051080B2 (en) Contextual ranking of keywords using click data
US7693904B2 (en) Method and system for determining relation between search terms in the internet search system
US20170116200A1 (en) Trust propagation through both explicit and implicit social networks
US9171078B2 (en) Automatic recommendation of vertical search engines
JP5632124B2 (ja) 格付け方法、検索結果並び替え方法、格付けシステム及び検索結果並び替えシステム
JP5431727B2 (ja) 関連性判定方法、情報収集方法、オブジェクト組織化方法及び検索システム
JP4909334B2 (ja) サービス提案装置及びその方法、サービス提案システム、ユーザのお気に入りベースに基づくサービス提案装置及びその方法
KR100522029B1 (ko) 실시간 급상승 검색어 검출 방법 및 실시간 급상승 검색어검출 시스템
US20100241647A1 (en) Context-Aware Query Recommendations
CN105069103B (zh) App搜索引擎利用用户评论的方法及系统
US20090125549A1 (en) Method and system for calculating competitiveness metric between objects
JP4746439B2 (ja) 文書検索サーバおよび文書検索方法
JP5379978B2 (ja) 検索システム及び検索方法
JP5084858B2 (ja) サマリ作成装置、サマリ作成方法及びプログラム
JP2007188352A (ja) ページリランキング装置、ページリランキングプログラム
US8838616B2 (en) Server device for creating list of general words to be excluded from search result
JP2009122807A (ja) 連想検索システム
Choudhary et al. Role of ranking algorithms for information retrieval
JP4759600B2 (ja) 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体
JP2019003406A (ja) 情報収集装置、情報収集方法、および情報収集プログラム
JP5777663B2 (ja) 検索支援装置及び検索支援プログラム
JP2010282403A (ja) 文書検索方法
Makris et al. Personalized Hotlink Assignment using Social Networks
JP5903370B2 (ja) 情報検索装置、情報検索方法、及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101012

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101109

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101116

R150 Certificate of patent or registration of utility model

Ref document number: 4633162

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131126

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees