JP2007188134A

JP2007188134A - 索引ファイルを用いた文書検索の方法

Info

Publication number: JP2007188134A
Application number: JP2006003420A
Authority: JP
Inventors: Sumio Fujita; 澄男藤田
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2006-01-11
Filing date: 2006-01-11
Publication date: 2007-07-26
Anticipated expiration: 2026-01-11
Also published as: JP4728125B2

Abstract

【課題】文書ファイルの検索の精度を向上することにより、ユーザの検索効率を向上し得る方法を提供すること。
【解決手段】検索サーバ３０は、ユーザ端末２０から検索キー文書ファイルを受信し、オリジナル文書管理サーバ１０から収集・記憶した検索対象文書ファイルと関連付けて予め記憶した検索対象索引ファイルと、前記検索キー文書ファイルに基づいて生成した検索キー索引ファイルと、を比較する。このとき、検索サーバ３０は、内容データ同士の一致のみならず、属性データと内容データの組み合わせ同士の一致や、属性データ同士の一致も評価点としてカウントして、当該評価点に基づいて当該検索対象文書ファイルへのアクセスキー情報を含むデータをソートしてユーザ端末２０に送信する。
【選択図】図３

Description

本発明は、索引ファイルを用いて文書を検索する方法、サーバ、及びプログラムに関する。

従来、文書ファイルの検索を効率的に行う方法が提案されてきた。特に、通信ネットワークを介して世界中の文書ファイルにアクセスすることができるＷｅｂ環境においては、様々な手法が研究されている。

こうした中で、近年、Ｗｅｂ文書ファイルに含まれる内容のそれぞれに対応する当該内容の属性を表すタグを組み合せて記載し、一般的な文書ファイルを構造化することが可能なＸＭＬ文書ファイルが急速に普及しつつある。

一方、特許文献１によると、階層データ構造を持つ文書データベースの全文検索を高速化するための技術が開示されている。具体的には、オリジナルデータベースを、抽象度の低い下位階層のデータが、そのデータに対応する２つの同じ抽象度の高い上位階層のデータによって挟まれる形でデータを保持するように作り変える。このことによって、入力検索キーが複数の連続した抽象化データを指定するキーであるような場合には、全文検索を１回実行するだけで、求める検索結果を得ることが可能となり、検索が高速化され得る。
特開２００２−１３２８０７号公報

しかしながら、上述の特許文献１で開示されている技術は、文書検索の高速化に関して効果が期待され得るものの、膨大な量の文書の中から目的の文書を探し当てる検索精度の向上に関して効果が期待できるわけではない。さらに、検索キーに類似したデータを含む文書の検索には効果が無い。

本発明は、上記の課題に鑑み、文書ファイルの検索の精度を向上することにより、ユーザの検索効率を向上し得る方法を提供することを目的とする。さらに、検索キーと類似度の高い文書ファイルを効率的に検索する方法を提供することを目的とする。

具体的には、以下のようなものを提供する。

（１）端末と通信ネットワークを介して接続されたサーバに、内容データ、あるいは、内容データと当該内容データの属性を示す属性データ（ＸＭＬタグデータ等）との組合せ、を含んで構成した検索対象文書ファイル（ＸＭＬ文書ファイル等）の検索をさせる方法であって、
前記検索対象文書ファイルから、前記内容データと前記属性データと前記組合せのデータとを、それぞれ検索対象索引単位として抽出させるステップと、
抽出した前記検索対象索引単位の全てを含むファイルを検索対象索引ファイルとして前記検索対象文書ファイルに関連付けて記憶させるステップと、
前記端末から、検索キー文書ファイル（ＸＭＬ文書ファイル等）として、前記内容データ、あるいは前記属性データ、あるいは前記内容データと前記属性データとの組合せを含んで構成した文書ファイルを受信させるステップと、
受信した前記検索キー文書ファイルから、前記内容データと、前記属性データと、前記組合せのデータと、前記組合せを構成する内容データ及び属性データと、をそれぞれ検索キー索引単位として抽出させるステップと、
抽出した前記検索キー索引単位の全てを含むファイルを検索キー索引ファイルとして前記検索キー文書ファイルに関連付けて記憶させるステップと、
前記検索対象文書ファイルのそれぞれについて、関連付けられた検索対象索引ファイルに含まれる検索対象索引単位のそれぞれに関して、前記検索キー索引ファイルに含まれる検索キー索引単位との比較をさせ、当該比較において一致する回数に応じた評価点を演算して記憶させるステップと、
予め記憶した前記検索対象文書ファイルへのアクセスキー情報（ＵＲＬ）を含むデータを、記憶した前記評価点に基づいてソートし、前記端末に送信させるステップと、を含む方法。

（１）の発明によれば、当該サーバは、前記検索対象文書ファイルから、前記内容データと前記属性データと前記組合せのデータとを、それぞれ検索対象索引単位として抽出し、抽出した前記検索対象索引単位の全てを含むファイルを検索対象索引ファイルとして前記検索対象文書ファイルに関連付けて記憶し、前記端末から、検索キー文書ファイルとして、前記内容データ、あるいは前記属性データ、あるいは前記内容データと前記属性データとの組合せを含んで構成した文書ファイルを受信し、受信した前記検索キー文書ファイルから、前記内容データと、前記属性データと、前記組合せのデータと、前記組合せを構成する内容データ及び属性データと、をそれぞれ検索キー索引単位として抽出し、抽出した前記検索キー索引単位の全てを含むファイルを検索キー索引ファイルとして前記検索キー文書ファイルに関連付けて記憶し、前記検索対象文書ファイルのそれぞれについて、関連付けられた検索対象索引ファイルに含まれる検索対象索引単位のそれぞれに関して、前記検索キー索引ファイルに含まれる検索キー索引単位との比較をし、当該比較において一致する回数に応じた評価点を演算して記憶し、予め記憶した前記検索対象文書ファイルへのアクセスキー情報を含むデータを、記憶した前記評価点に基づいてソートし、前記端末に送信する。

このことにより、内容データ同士の一致のみならず、属性データと内容データの組み合わせ同士の一致や、属性データ同士の一致も評価点としてカウントして、当該評価点に基づいて当該ファイルへのアクセスキー情報を含むデータをソートして端末に送信することができる。従って、内容データの一致のみをカウントする方法と比べて、目的の文書を探し当てる検索の精度を向上させることができる。

（２）前記検索対象索引単位として抽出させるステップにおいて、
前記検索対象文書ファイルに含まれる前記属性データが階層構造をなしている場合に、前記サーバに、前記階層構造を構成する属性データから選択可能な全ての属性データの組合せをそれぞれ前記検索対象索引単位として抽出させる（１）に記載の方法。

（２）の発明によれば、前記サーバは、前記検索対象索引単位として抽出させるステップにおいて、前記検索対象文書ファイルに含まれる前記属性データが階層構造をなしている場合に、前記階層構造を構成する属性データから選択可能な全ての属性データの組合せをそれぞれ前記検索対象索引単位として抽出する。

このことにより、前記内容データと組み合わされる属性データの種類が増えるので、前記検索対象索引単位と前記検索キー索引単位とが一致する可能性が高まるため、検索漏れの可能性を減らすことができる。

（３）前記検索キー索引単位として抽出させるステップにおいて、
前記検索キー文書ファイルに含まれる前記属性データが階層構造をなしている場合に、前記サーバに、前記階層構造を構成する属性データから選択可能な全ての属性データの組合せを前記検索キー索引単位として抽出させる（１）または（２）に記載の方法。

（３）の発明によれば、前記サーバは、前記検索キー索引単位として抽出させるステップにおいて、前記検索キー文書ファイルに含まれる前記属性データが階層構造をなしている場合に、前記階層構造を構成する属性データから選択可能な全ての属性データの組合せを前記検索キー索引単位として抽出する。

このことにより、検索キー索引単位の種類が増えるので、前記検索対象索引単位と一致する可能性が高まり、検索漏れの可能性を減らすことができる。

（４）前記サーバに、前記属性データ（ＸＭＬタグデータ等）を含まない第２の検索対象文書ファイル（平文文書ファイル）を形態素に分解させるステップと、
分解した前記形態素の各々について、前記形態素をキーとして、あらかじめ記憶した形態素の分類データを含む分類テーブルを参照させて、前記形態素に対応する分類データを選択させるステップと、
前記分類データを前記属性データ（ＸＭＬタグデータ等）として、また当該形態素を表すデータを前記内容データとして、それぞれを組み合わせて前記検索対象索引ファイルとして前記第２の検索対象文書ファイル（ＸＭＬ文書ファイル等）に関連付けて記憶させるステップと、を含む（１）から（３）のいずれかに記載の方法。

（４）の発明によれば、前記サーバは、前記属性データを含まない第２の検索対象文書ファイル（平文文書ファイル）を形態素に分解し、分解した前記形態素の各々について、前記形態素をキーとして、あらかじめ記憶した形態素の分類データを含む分類テーブルを参照し、前記形態素に対応する分類データを選択し、前記分類データを前記属性データとして、また当該形態素を表すデータを前記内容データとして、それぞれを組み合わせて前記検索対象索引ファイルとして前記第２の検索対象文書ファイルに関連付けて記憶する。

このことにより、属性データを含まない平文文書ファイルであっても、本発明に係る検索の対象とすることができる。

（５）前記サーバに、前記属性データをキーとして、あらかじめ記憶した類義語とそれらを代表する単語とで構成される代表語テーブルを参照させて、前記属性データに対応する代表語データを選択させるステップと、
前記代表語データを属性データ（ＸＭＬタグデータ等）として、前記内容データと関連付けて前記検索対象索引ファイルとして記憶させるステップと、を含む（１）から（４）のいずれかに記載の方法。

（５）の発明によれば、前記サーバは、前記属性データをキーとして、あらかじめ記憶した類義語とそれらを代表する単語とで構成される代表語テーブルを参照し、前記属性データに対応する代表語データを選択し、前記代表語データを属性データとして、前記内容データと関連付けて前記検索対象索引ファイルとして記憶する。

このことにより、複数の類義語による属性データを一つに集約できるので、それぞれが区別されることがなくなり、検索漏れの可能性を減らすことができる。

（６）前記サーバに、前記属性データをキーとして、あらかじめ記憶した類義語とそれらを代表する単語とで構成される代表語テーブルを参照させて、前記属性データに対応する代表語データを選択させるステップと、
前記代表語データを属性データ（ＸＭＬタグデータ等）として、前記内容データと関連付けて前記検索キー索引ファイルとして記憶させるステップと、を含む（１）から（５）のいずれかに記載の方法。

（６）の発明によれば、前記サーバは、前記属性データをキーとして、あらかじめ記憶した類義語とそれらを代表する単語とで構成される代表語テーブルを参照し、前記属性データに対応する代表語データを選択し、前記代表語データを属性データとして、前記内容データと関連付けて前記検索キー索引ファイルとして記憶する。

このことにより、検索キー文書ファイルに含まれる属性データについても、複数の類義語を一つに集約できるので、それぞれが区別されることがなくなり、検索漏れの可能性を減らすことができる。

（７）前記サーバに、前記検索対象文書ファイルの所定のグループについて、前記検索対象文書ファイルに含まれる前記検索対象索引単位それぞれの、前記検索対象ファイル内での出現回数及び前記グループに含まれる文書数に応じた重要度を表す重み係数を算出して記憶させるステップと、
前記検索対象索引ファイルの検索対象索引単位と前記検索キー索引ファイルの検索キー索引単位との比較において、一致した場合に、当該検索対象索引単位の前記重み係数に応じた評価点を演算して記憶させるステップと、を含む（１）から（６）のいずれかに記載の方法。

（７）の発明によれば、前記サーバは、前記検索対象文書ファイルの所定のグループについて、前記検索対象文書ファイルに含まれる前記検索対象索引単位それぞれの、前記検索対象ファイル内での出現回数及び前記グループに含まれる文書数に応じた重要度を表す重み係数を算出して記憶し、前記検索対象索引ファイルの検索対象索引単位と前記検索キー索引ファイルの検索キー索引単位との比較において、一致した場合に、当該検索対象索引単位の前記重み係数に応じた評価点を演算して記憶する。

このことにより、重み係数に基づいて検索対象文書ファイルの評価点を演算できるので、重み係数の大きな検索対象索引単位が一致した場合には、重み係数の小さな検索対象索引単位が一致した場合よりも優先的に当該検索対象文書がソートされる。

その結果、重み係数の大きな、即ち一致した場合の絞込効果が高い索引単位の一致を優先的に取り扱うことができる。

（８）端末と通信ネットワークを介して接続され、内容データ、あるいは、内容データと当該内容データの属性を示す属性データ（ＸＭＬタグデータ等）との組合せ、を含んで構成した検索対象文書ファイル（ＸＭＬ文書ファイル等）の検索をするサーバであって、
前記検索対象文書ファイルから、前記内容データと前記属性データと前記組合せのデータとを、それぞれ検索対象索引単位として抽出する手段と、
抽出した前記検索対象索引単位の全てを含むファイルを検索対象索引ファイルとして前記検索対象文書ファイルに関連付けて記憶する手段と、
前記端末から、検索キー文書ファイル（ＸＭＬ文書ファイル等）として、前記内容データ、あるいは前記属性データ、あるいは前記内容データと前記属性データとの組合せを含んで構成した文書ファイルを受信する手段と、
受信した前記検索キー文書ファイルから、前記内容データと、前記属性データと、前記組合せのデータと、前記組合せを構成する内容データ及び属性データと、をそれぞれ検索キー索引単位として抽出する手段と、
抽出した前記検索キー索引単位の全てを含むファイルを検索キー索引ファイルとして前記検索キー文書ファイルに関連付けて記憶する手段と、
前記検索対象文書ファイルのそれぞれについて、関連付けられた検索対象索引ファイルに含まれる検索対象索引単位のそれぞれに関して、前記検索キー索引ファイルに含まれる検索キー索引単位との比較をし、当該比較において一致する回数に応じた評価点を演算して記憶する手段と、
予め記憶した前記検索対象文書ファイルへのアクセスキー情報（ＵＲＬ）を含むデータを、記憶した前記評価点に基づいてソートし、前記端末に送信する手段と、を備えるサーバ。

（８）の発明によれば、当該サーバを運用することにより、（１）と同様の効果が期待できる。

（９）前記検索対象索引単位として抽出する手段において、
前記検索対象文書ファイルに含まれる前記属性データが階層構造をなしている場合に、前記階層構造を構成する属性データから選択可能な全ての属性データの組合せをそれぞれ前記検索対象索引単位として抽出する（８）に記載のサーバ。

（９）の発明によれば、当該サーバを運用することにより、（２）と同様の効果が期待できる。

（１０）前記検索キー索引単位として抽出する手段において、
前記検索キー文書ファイルに含まれる前記属性データが階層構造をなしている場合に、前記階層構造を構成する属性データから選択可能な全ての属性データの組合せを前記検索キー索引単位として抽出する（８）または（９）に記載のサーバ。

（１０）の発明によれば、当該サーバを運用することにより、（３）と同様の効果が期待できる。

（１１）前記属性データ（ＸＭＬタグデータ等）を含まない第２の検索対象文書ファイル（平文文書ファイル）を形態素に分解する手段と、
分解した前記形態素の各々について、前記形態素をキーとして、あらかじめ記憶した形態素の分類データを含む分類テーブルを参照して、前記形態素に対応する分類データを選択する手段と、
前記分類データを前記属性データ（ＸＭＬタグデータ等）として、また当該形態素を表すデータを前記内容データとして、それぞれを組み合わせて前記検索対象索引ファイルとして前記第２の検索対象文書ファイル（ＸＭＬ文書ファイル等）に関連付けて記憶する手段と、を備える（８）から（１０）のいずれかに記載のサーバ。

（１１）の発明によれば、当該サーバを運用することにより、（４）と同様の効果が期待できる。

（１２）前記属性データをキーとして、あらかじめ記憶した類義語とそれらを代表する単語とで構成される代表語テーブルを参照して、前記属性データに対応する代表語データを選択する手段と、
前記代表語データを属性データ（ＸＭＬタグデータ等）として、前記内容データと関連付けて前記検索対象索引ファイルとして記憶する手段と、を備える（８）から（１１）のいずれかに記載のサーバ。

（１２）の発明によれば、当該サーバを運用することにより、（５）と同様の効果が期待できる。

（１３）前記属性データをキーとして、あらかじめ記憶した類義語とそれらを代表する単語とで構成される代表語テーブルを参照して、前記属性データに対応する代表語データを選択する手段と、
前記代表語データを属性データ（ＸＭＬタグデータ等）として、前記内容データと関連付けて前記検索キー索引ファイルとして記憶する手段と、を備える（８）から（１２）のいずれかに記載のサーバ。

（１３）の発明によれば、当該サーバを運用することにより、（６）と同様の効果が期待できる。

（１４）前記検索対象文書ファイルの所定のグループについて、前記検索対象文書ファイルに含まれる前記検索対象索引単位それぞれの、前記検索対象ファイル内での出現回数及び前記グループに含まれる文書数に応じた重要度を表す重み係数を算出して記憶する手段と、
前記検索対象索引ファイルの検索対象索引単位と前記検索キー索引ファイルの検索キー索引単位との比較において、一致した場合に、当該検索対象索引単位の前記重み係数に応じた評価点を演算して記憶する手段と、を備える（８）から（１３）のいずれかに記載のサーバ。

（１４）の発明によれば、当該サーバを運用することにより、（７）と同様の効果が期待できる。

（１５）端末と通信ネットワークを介して接続されたサーバに、内容データ、あるいは、内容データと当該内容データの属性を示す属性データ（ＸＭＬタグデータ等）との組合せ、を含んで構成した検索対象文書ファイル（ＸＭＬ文書ファイル等）の検索を実行させるプログラムであって、
前記検索対象文書ファイルから、前記内容データと前記属性データと前記組合せのデータとを、それぞれ検索対象索引単位として抽出させるステップと、
抽出した前記検索対象索引単位の全てを含むファイルを検索対象索引ファイルとして前記検索対象文書ファイルに関連付けて記憶させるステップと、
前記端末から、検索キー文書ファイル（ＸＭＬ文書ファイル等）として、前記内容データ、あるいは前記属性データ、あるいは前記内容データと前記属性データとの組合せを含んで構成した文書ファイルを受信させるステップと、
受信した前記検索キー文書ファイルから、前記内容データと、前記属性データと、前記組合せのデータと、前記組合せを構成する内容データ及び属性データと、をそれぞれ検索キー索引単位として抽出させるステップと、
抽出した前記検索キー索引単位の全てを含むファイルを検索キー索引ファイルとして前記検索キー文書ファイルに関連付けて記憶させるステップと、
前記検索対象文書ファイルのそれぞれについて、関連付けられた検索対象索引ファイルに含まれる検索対象索引単位のそれぞれに関して、前記検索キー索引ファイルに含まれる検索キー索引単位との比較をさせ、当該比較において一致する回数に応じた評価点を演算して記憶させるステップと、
予め記憶した前記検索対象文書ファイルへのアクセスキー情報（ＵＲＬ）を含むデータを、記憶した前記評価点に基づいてソートし、前記端末に送信させるステップと、を実行させるプログラム。

（１５）の発明によれば、当該プログラムを実行することにより、（１）と同様の効果が期待できる。

（１６）前記検索対象索引単位として抽出するステップにおいて、
前記検索対象文書ファイルに含まれる前記属性データが階層構造をなしている場合に、前記サーバに、前記階層構造を構成する属性データから選択可能な全ての属性データの組合せをそれぞれ前記検索対象索引単位として抽出させる（１５）に記載のプログラム。

（１６）の発明によれば、当該プログラムを実行することにより、（２）と同様の効果が期待できる。

（１７）前記検索キー索引単位として抽出するステップにおいて、
前記検索キー文書ファイルに含まれる前記属性データが階層構造をなしている場合に、前記サーバに、前記階層構造を構成する属性データから選択可能な全ての属性データの組合せを前記検索キー索引単位として抽出させる（１５）または（１６）に記載のプログラム。

（１７）の発明によれば、当該プログラムを実行することにより、（３）と同様の効果が期待できる。

（１８）前記サーバに、前記属性データ（ＸＭＬタグデータ等）を含まない第２の検索対象文書ファイル（平文文書ファイル）を形態素に分解させるステップと、
分解した前記形態素の各々について、前記形態素をキーとして、あらかじめ記憶した形態素の分類データを含む分類テーブルを参照して、前記形態素に対応する分類データを選択させるステップと、
前記分類データを前記属性データ（ＸＭＬタグデータ等）として、また当該形態素を表すデータを前記内容データとして、それぞれを組み合わせて前記検索対象索引ファイルとして前記第２の検索対象文書ファイル（ＸＭＬ文書ファイル等）に関連付けて記憶させるステップと、を実行させる（１５）から（１７）のいずれかに記載のプログラム。

（１８）の発明によれば、当該プログラムを実行することにより、（４）と同様の効果が期待できる。

（１９）前記サーバに、前記属性データをキーとして、あらかじめ記憶した類義語とそれらを代表する単語とで構成される代表語テーブルを参照して、前記属性データに対応する代表語データを選択させるステップと、
前記代表語データを属性データ（ＸＭＬタグデータ等）として、前記内容データと関連付けて前記検索対象索引ファイルとして記憶させるステップと、を実行させる（１５）から（１８）のいずれかに記載のプログラム。

（１９）の発明によれば、当該プログラムを実行することにより、（５）と同様の効果が期待できる。

（２０）前記サーバに、前記属性データをキーとして、あらかじめ記憶した類義語とそれらを代表する単語とで構成される代表語テーブルを参照して、前記属性データに対応する代表語データを選択させるステップと、
前記代表語データを属性データ（ＸＭＬタグデータ等）として、前記内容データと関連付けて前記検索キー索引ファイルとして記憶させるステップと、を実行させる（１５）から（１９）のいずれかに記載のプログラム。

（２０）の発明によれば、当該プログラムを実行することにより、（６）と同様の効果が期待できる。

（２１）前記サーバに、前記検索対象文書ファイルの所定のグループについて、前記検索対象文書ファイルに含まれる前記検索対象索引単位それぞれの、前記検索対象ファイル内での出現回数及び前記グループに含まれる文書数に応じた重要度を表す重み係数を算出して記憶させるステップと、
前記検索対象索引ファイルの検索対象索引単位と前記検索キー索引ファイルの検索キー索引単位との比較において、一致した場合に、当該検索対象索引単位の前記重み係数に応じた評価点を演算して記憶させるステップと、を実行させる（１５）から（２０）のいずれかに記載のプログラム。

（２１）の発明によれば、当該プログラムを実行することにより、（７）と同様の効果が期待できる。

本発明によれば、第一に、検索対象文書ファイルに対して検索対象索引ファイルを生成し、内容データの比較だけではなく、属性データの比較や、属性データと内容データとの組み合わせの比較もすることにより、目的の文書ファイルを探し当てる検索精度を向上させることができる。

第二に、属性データも含めて検索対象文書ファイルと検索キー文書ファイルとの類似度を評価することにより、類似した文書を効率的に検索することができる。

本発明に係る好適な実施形態の一例について、図面に基づいて以下に説明する。

［システムの全体構成］
図１は、本発明の好適な実施形態の一例に係る方法を実現するコンピュータシステム１の全体構成図である。

コンピュータシステム１は、検索対象となるオリジナル文書を管理するオリジナル文書管理サーバ１０と、検索処理を要求するユーザ端末２０と、検索を実行する検索サーバ３０と、を備える。オリジナル文書管理サーバ１０とユーザ端末２０と検索サーバ３０とは、通信ネットワーク４０を介して接続される。

オリジナル文書管理サーバ１０は、オリジナル文書を管理しており、検索サーバ３０は定期的に当該オリジナル文書管理サーバ１０にアクセスしてオリジナル文書に関する情報を収集して記憶し、ユーザ端末２０からの検索要求に応じて、当該収集した情報を検索する。なお、検索対象のオリジナル文書はＷｅｂドキュメントであってよい。

オリジナル文書管理サーバ１０は、通信ネットワーク４０に接続して通信を実現する通信部１１０と、オリジナル文書管理サーバ１０における各種データ処理を行う制御部１２０と、オリジナル文書管理サーバ１０が実行するデータ処理のプログラムやユーザ端末２０に送信するための文書データ等を記憶する記憶部１３０と、当該文書データや制御指示のデータ等の入力を受け付ける入力部１４０と、各種データを表示する表示部１５０と、を備える。なお、オリジナル文書管理サーバ１０の数はこれに限られない。

ユーザ端末２０は、検索サーバ３０に文書の検索をさせるための検索キー文書ファイル（１つまたは複数の検索キーワードの組）の入力を受け付け、検索サーバ３０に当該検索キー文書ファイルを送信する。そして、検索サーバ３０から当該検索の結果を受信し、表示する。

ユーザ端末２０は、通信ネットワーク４０に接続して通信を実現する通信部２１０と、ユーザ端末２０における各種データ処理を行う制御部２２０と、ユーザ端末２０が実行するデータ処理のプログラム等を記憶する記憶部２３０と、前記検索キー文書ファイル等の入力を受け付ける入力部２４０と、前記検索の結果等を表示する表示部２５０と、を備える。なお、ユーザ端末２０の数はこれに限られない。

検索サーバ３０は、ユーザ端末２０から前記検索キー文書ファイルを受信し、オリジナル文書管理サーバ１０が記憶しているオリジナル文書に関する情報から、前記検索キー文書ファイル中のキーワードに関連するものを検索する。そして、当該検索の結果に関するデータをユーザ端末２０に送信する。なお、処理の詳細については後述する。

検索サーバ３０は、通信ネットワーク４０に接続して通信を実現する通信部３１０と、検索サーバ３０における各種データ処理を行う制御部３２０と、検索サーバ３０が実行する各種データ処理のプログラムや、検索対象索引ファイル等の後述する本発明に係る機能を実現するためのデータ等を記憶する記憶部３３０と、制御指示のデータ等の入力を受け付ける入力部３４０と、各種データを表示する表示部３５０と、を備える。

コンピュータ（オリジナル文書管理サーバ１０、ユーザ端末２０、及び検索サーバ３０）の制御部１２０、２２０、３２０は、情報の演算、処理を行う情報演算処理装置（ＣＰＵ）であり、当該コンピュータ全体の制御を行う。

ここで、制御部１２０は、情報の演算、処理を行う情報演算処理装置（ＣＰＵ）であり、検索サーバ３０全体の制御を行う。制御部１２０は、記憶部１３０に記憶された各種プログラムを適宜読み出して実行することにより、上述のハードウエアと協働し、本発明に係る各種機能を実現している。

記憶部１３０、２３０、３３０は、それぞれ制御部１２０、２２０、３２０と組み合わせてプログラムの実行に使用するローカルメモリ、大容量のバルクメモリ、および当該バルクメモリの検索を効率的に行うために使用するキャッシュメモリを含んでよい。記憶部１３０、２３０、３３０を実現するコンピュータ可読媒体としては、電気的、磁気的、光学的、電磁的に実現するものを含んでよい。より具体的には、半導体記憶装置、磁気テープ、フロッピー（登録商標）ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、リードオンリー・メモリ（ＲＯＭ）、ＣＤ−ＲＯＭとＣＤ−Ｒ／ＷとＤＶＤとを含む光ディスクが含まれる。

入力部１４０、２４０、３４０は、ユーザによる入力の受付を行うものであり、キーボード、ポインティングデバイス等を含んでよい。入力部１４０、２４０、３４０は、直接または介在Ｉ／Ｏコントローラを介してコンピュータと接続することができる。

表示部１５０、２５０、３５０は、ユーザにデータの入力を受け付ける画面を表示したり、データ処理の結果の画面を表示したりするものであり、ブラウン管表示装置（ＣＲＴ）、液晶表示装置（ＬＣＤ）等のディスプレイ装置を含む。

通信部１１０、２１０、３１０は、当該コンピュータを専用ネットワークまたは公共ネットワークを介して別の演算処理システムまたは記憶装置と接続できるようにするためのネットワーク・アダプタである。通信部１１０、２１０、３１０は、モデム、ケーブル・モデムおよびイーサネット（登録商標）・アダプタを含んでよい。

通信ネットワーク４０は、専用線、モデムやターミナルアダプタを介して接続するダイヤルアップネットワーク、ＡＤＳＬ、光ケーブルによるものを含む有線によるネットワークにより実現してもよい。また、無線ＬＡＮ、携帯電話等の携帯端末向け無線ネットワークを含む無線によるネットワークにより実現してもよい。

また、通信ネットワーク４０を実現するための通信プロトコルとしては、ＴＣＰ／ＩＰ等のインターネットプロトコルをはじめとして、本発明を実施するために必要な情報通信を実現する様々な通信プロトコルが採用されてよい。さらに、ＳＯＡＰ（ＳｉｍｐｌｅＯｂｊｅｃｔＡｃｃｅｓｓＰｒｏｔｏｃｏｌ）等のＷｅｂサービス用のプロトコルを用いて実現してもよい。

［索引作成処理］
図２は、検索サーバ３０が実行する索引作成処理を示すフローチャートである。

検索サーバ３０は、予め定められたタイミングで定期的に、文書ファイルに対するリンクデータ及び詳しくは後述する検索対象索引ファイルの作成・更新を行う。例えば、検索サーバ３０は、オリジナル文書管理サーバ１０を巡回（ロボット型検索）して収集・記憶したオリジナル文書ファイル（検索対象文書ファイル）に関するデータに基づいて、当該検索対象索引ファイルを更新し、最新の状態を保つ。ここで、検索対象索引ファイルは、検索対象文書ファイルを特徴付ける索引単位（キーワード）及び当該索引単位の重要度を表す重み係数を含み、後述する検索処理にて使用する。

まず、ステップＳ１０５では、検索サーバ３０は、オリジナル文書管理サーバ１０から検索対象の文書ファイルを受信する。

ステップＳ１１０では、検索サーバ３０は、前記受信をした検索対象文書ファイルから、検索対象索引単位の抽出をする。具体的には、例えば当該文書ファイルに含まれる文書を形態素に分解することにより、内容データ（例えば、Ｗｅｂページに表示される文章の中の単語）を抽出する。また、ＸＭＬ文書のタグ情報のような属性データが当該内容データと紐付いている場合には、当該属性データに加えて、当該属性データと当該内容データを例えば「＃」等の記号で連結した文字列を抽出する。図９の例では、例えば「＜色＞青」の部分について、「青」、「色＃」、「色＃青」という検索対象索引単位を抽出する。

ステップＳ１１５では、検索サーバ３０は、前記検索対象文書ファイルの中の前記属性データの階層構造を判別し、当該階層構造を構成する要素の組合せを前記検索対象索引単位として抽出する。具体的には、例えば内容データＡに属性データＢが紐付いており、さらに属性データＢに属性データＣが紐付いている場合に、前記検索対象索引単位として、「Ａ」、「Ｂ＃」、「Ｃ＃」、「Ｂ＃Ａ」、「Ｃ＃Ａ」、「Ｃ＃Ｂ」、及び「Ｃ＃Ｂ＃Ａ」を抽出する。

ステップＳ１２０では、検索サーバ３０は、前記属性データの変換を行って検索対象索引単位として記憶する。具体的には例えば、図１１にあるように、文書中にある内容データ「上等の」を「ＧＯＯＤ＃」と変換する。当該変換には、例えば図６に示す代表語テーブル５０を使用する。つまり、前記属性データが代表語テーブル５０の類義語フィールドに存在する場合、当該属性データを対応する代表語フィールドのデータに変換する。

ステップＳ１２５では、検索サーバ３０は、前記内容データまたは前記属性データに紐付く属性データを新たに検索対象索引単位として付与する。具体的には例えば、図１０にあるように、文書中にある内容データ「六本木」に対して、属性データ「港区＃」を付与する。さらに、属性データ「港区＃」に対して、属性データ「東京＃」を付与する。当該付与には、例えば図７に示す分類テーブル６０を使用する。つまり、前記内容データまたは前記属性データが分類テーブルの単語フィールドに存在する場合、対応する分類フィールドの値を属性データとして付与する。検索サーバ３０は、これら一連の処理を紐付く属性データがなくなるまで繰り返し実行する。

ステップＳ１３０では、検索サーバ３０は、索引ファイルの生成を行う。具体的には、上述のステップにおいて抽出・変換・付与した、それぞれの検索対象索引単位の組と、当該検索対象文書ファイルにアクセスするためのリンクデータと、を当該検索対象文書ファイルに関連付けて検索対象索引ファイルとして記憶する。なお、検索対象索引単位それぞれについて、文書中における出現位置や出現回数等をあわせて記憶することとしてよい。これにより、前記検索の結果を表示する際に当該出現位置を強調して示すことができ、また、当該出現回数に応じた前記重み係数を演算するために利用できる。

ステップＳ１３５では、検索サーバ３０は、検索対象とする文書ファイル群の全てについて、前記検索対象索引ファイルを作成したか否かを判別する。全ての検索対象文書ファイルについて前記検索対象索引ファイルを作成し終えるまで、ステップＳ１０５の処理に戻す。

ステップＳ１４０では、統計データとして前記重み係数の演算をし、前記検索対象索引単位とあわせて前記検索対象索引ファイルに記憶する。具体的には例えば、前記重み係数はＴＦ−ＩＤＦに基づく重み、あるいは情報エントロピーに基づく重みとしてよく、前記検索対象索引単位の前記検索対象文書ファイル中での出現回数と、全文書ファイル群の中での出現文書数に基づいて演算する。

［メイン処理］
図３は、検索サーバ３０が実行するメイン処理を示すフローチャートである。

検索サーバ３０は、ユーザ端末２０からの検索キーワードを含む検索キー文書ファイルの受信に応じて、前記検索対象索引ファイルを検索し、ユーザ端末２０に当該検索の結果に関するデータを送信する。

まず、ステップＳ２０５では、検索サーバ３０は、ユーザ端末２０からの検索キー文書ファイルの受信を判別する。当該受信をした場合に、検索サーバ３０はステップＳ２１０に処理を移す。

ステップＳ２１０の検索キー作成処理では、検索サーバ３０は、前記検索キー文書ファイルから、検索キー索引単位（検索に用いるキーワード）の組を抽出し、検索キー索引ファイルを作成する（詳細は後述する）。

ステップＳ２１５の検索処理では、検索サーバ３０は、前記検索キー索引ファイルに基づいて、前記検索対象索引ファイルから前記検索対象文書ファイルを検索し、それぞれの類似度を表す評価点を演算する（詳細は後述する）。

ステップＳ２２０では、検索サーバ３０は、ステップＳ２１５にて検索した結果をユーザ端末２０にて表示するためのデータを生成する。具体的には例えば、前記評価点に基づいて前記検索対象文書ファイル対するリンクデータを並べた結果表示データを生成する。ここで、前記検索キー索引単位の出現位置を示すデータ（出現位置前後の文章等）を当該結果表示データに含めることとしてもよい。

ステップＳ２２５では、検索サーバ３０は、ステップＳ２２０にて生成した結果表示データをユーザ端末２０に送信する。

［検索キー作成処理］
図４は、検索サーバ３０がメイン処理の中で実行する検索キー作成処理を示すフローチャートである。

検索サーバ３０は、前述のメイン処理（図３）のステップＳ２０５にて受信した検索キー文書ファイルから、検索キー索引単位（検索に用いるキーワード）の組を抽出し、検索キー索引ファイルを作成する。

まず、ステップＳ３０５では、検索サーバ３０は、前記受信した検索キー文書ファイルから、検索キー索引単位の抽出をする。具体的には、前述の索引作成処理（図２）における検索対象索引単位の抽出と同様であり、属性データ、内容データ、及び属性データと内容データの組合せを抽出する。なお、前記検索キー文書ファイルには、前記検索対象文書ファイルとは異なり、属性データのみを指定できることとしてよい。

ステップＳ３１０では、検索サーバ３０は、前記検索キー文書ファイルの中の前記属性データの階層構造を判別し、当該階層構造を構成する要素の組合せを前記検索キー索引単位として抽出する。具体的には、前述の索引作成処理（図２）における構造の判別と同様であり、例えば内容データＡに属性データＢが紐付いており、さらに属性データＢに属性データＣが紐付いている場合に、前記索引単位として、「Ａ」、「Ｂ＃」、「Ｃ＃」、「Ｂ＃Ａ」、「Ｃ＃Ａ」、「Ｃ＃Ｂ」、及び「Ｃ＃Ｂ＃Ａ」を抽出する。

ステップＳ３１５では、検索サーバ３０は、前記属性データの変換を行って検索キー索引単位として記憶する。具体的には、前述の索引作成処理（図２）における属性データの変換と同様であり、図１１の例によると、例えば「おいしいワイン」という検索キーワードの指定がなされた場合に、検索キー索引単位として、「おいしい＃ワイン」を「ＧＯＯＤ＃ワイン」に変換する。このような変換を行った結果、検索対象索引単位の「ＧＯＯＤ＃ワイン」と一致することになり、オリジナル文書としては検索し得なかった（類似度ゼロ）ものについても、一定の類似度を与えて評価することができる。

ステップＳ３２０では、検索サーバ３０は、検索キー索引ファイルの生成を行う。具体的には、上述のステップにおいて抽出・変換されたそれぞれの検索キー索引単位の組を、検索キー索引ファイルとして記憶する。

［検索処理］
図５は、検索サーバ３０がメイン処理の中で実行する検索処理を示すフローチャートである。

検索サーバ３０は、前述のメイン処理（図３）のステップＳ２１０にて作成した検索キー索引ファイルに基づいて、前記検索対象索引ファイルから前記検索対象文書ファイルを検索し、それぞれの類似度を表す評価点を演算する。

まず、ステップＳ４０５では、検索サーバ３０は、前述の検索キー作成処理にて生成した検索キー索引単位（検索要求キーワード）の一つを読み出し、前述の索引作成処理にて生成した検索対象索引単位（検索される文書の索引）と一致するか否かを判別する。一致する場合にはステップＳ４１０に処理を移し、一致しない場合にはステップＳ４１５に処理を移す。

ステップＳ４１０では、検索サーバ３０は、前記検索対象文書ファイルにおける検索要求に対する類似度を表す評価点を演算して記憶する。具体的には例えば、図８の類似度評価テーブル７０において、前記検索対象文書ファイルを示す文書ＩＤに対応する評価点フィールドの値を更新する。ここで、当該評価点の演算は、前述の索引作成処理（図２）において生成した索引ファイルに含まれる重み係数に応じた演算を行ってよい。

ステップＳ４１５では、全ての前記検索キー索引単位についてステップＳ４０５の処理をしたか否かを判別する。処理していない前記検索キー索引単位が残っている場合には、ステップＳ４０５及びステップＳ４１０の処理を繰り返す。

ステップＳ４２０では、全ての前記検索対象文書ファイルについてステップＳ４１５の処理をしたか否かを判別する。処理していない前記検索対象文書ファイルが残っている場合には、ステップＳ４０５からステップＳ４１５の処理を繰り返す。

このようにして、検索要求キーワードに対する文書の類似度が、図８の類似度評価テーブル７０の評価点により順位付けできる。ここで、例えばユーザ端末２０にて表示する結果を上位所定の件数に限る場合には、当該評価点の上位所定の件数のみを抽出して検索結果データとしてよい。

以上の実施形態によれば、検索を要求するユーザは、文章に埋め込まれた属性データを組み合わせた検索キーワードの指定が可能となる。

図９の例では、例えば「色＃青、メーカ＃ＡＢＣ自動車」といった検索要求により、単なる内容データの組のみによる「青、ＡＢＣ自動車」といった検索要求よりも、一致度が高く検索されやすくなる。

図１０の例では、「東京＃」、「港区＃」、といった属性データが索引に付与されたため、例えば「東京の病院」といった検索要求に対して一致度が高くなり、優先的に検索される。

図１１の例では、元の文章から属性データ「上等の」が「ＧＯＯＤ＃」に変換されている。例えば「おいしいワインの店」といった検索要求により、「おいしい」についても前述の検索キー作成処理（図４）の属性データ変換により「ＧＯＯＤ＃」に変換されれば、索引と一致するため、優先的に検索される。

図１２の例では、「姓＃」、「名＃」といった属性データが組み合わされていることにより、「姓＃今子」といった検索要求と、「名＃今子」といった検索要求とを使い分けることができる。

図１３は、例えば「国家機関＃、人事、役職＃」といった検索要求により優先的に検索される文書の例である。内容データを特定せずに属性データのみを検索キー単位として指定した場合においても、効果的に検索される。

このように、本発明の方法を用いれば、膨大な量の文書の中から目的の文書を探し当てる検索の精度を向上させ、ユーザの検索効率を向上し得る。さらに、検索キーと類似度の高い文書ファイルを効率的に検索できる。

また、本発明の方法は、文書の著者、キーワード、発行日等のプロファイルによるマッチングを行う場合においても、これらの属性データを含んだ索引ファイルを活用することにより好適に適用できる。

さらに、本発明の方法は、クラシファイやクラスタリングといった文書の仕分け・分類を行う場合に、前記評価点を用いることにより、類似度による仕分け・分類が精度良く、効果的に行える可能性がある。

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。

本発明の好適な実施形態の一例に係る方法を実現するコンピュータシステム１の全体構成図である。検索サーバ３０が実行する索引作成処理を示すフローチャートである。検索サーバ３０が実行するメイン処理を示すフローチャートである。検索サーバ３０がメイン処理の中で実行する検索キー作成処理を示すフローチャートである。検索サーバ３０がメイン処理の中で実行する検索処理を示すフローチャートである。本発明の好適な実施形態の一例に係る代表語テーブル５０を示す図である。本発明の好適な実施形態の一例に係る分類テーブル６０を示す図である。本発明の好適な実施形態の一例に係る類似度評価テーブル７０を示す図である。本発明の好適な実施形態の一例に係る検索対象索引ファイルの作成例を示す図である。本発明の好適な実施形態の一例に係る検索対象索引ファイルの作成例を示す図である。本発明の好適な実施形態の一例に係る検索対象索引ファイルの作成例を示す図である。本発明の好適な実施形態の一例に係る検索対象索引ファイルの作成例を示す図である。本発明の好適な実施形態の一例に係る検索対象索引ファイルの作成例を示す図である。

符号の説明

１コンピュータシステム
１０オリジナル文書管理サーバ
２０ユーザ端末
３０検索サーバ
４０通信ネットワーク
５０代表語テーブル
６０分類テーブル
７０類似度評価テーブル
１１０通信部
１２０制御部
１３０記憶部
１４０入力部
１５０表示部
２１０通信部
２２０制御部
２３０記憶部
２４０入力部
２５０表示部
３１０通信部
３２０制御部
３３０記憶部
３４０入力部
３５０表示部

Claims

端末と通信ネットワークを介して接続されたサーバに、内容データ、あるいは、内容データと当該内容データの属性を示す属性データとの組合せ、を含んで構成した検索対象文書ファイルの検索をさせる方法であって、
前記検索対象文書ファイルから、前記内容データと前記属性データと前記組合せのデータとを、それぞれ検索対象索引単位として抽出させるステップと、
抽出した前記検索対象索引単位の全てを含むファイルを検索対象索引ファイルとして前記検索対象文書ファイルに関連付けて記憶させるステップと、
前記端末から、検索キー文書ファイルとして、前記内容データ、あるいは前記属性データ、あるいは前記内容データと前記属性データとの組合せを含んで構成した文書ファイルを受信させるステップと、
受信した前記検索キー文書ファイルから、前記内容データと、前記属性データと、前記組合せのデータと、前記組合せを構成する内容データ及び属性データと、をそれぞれ検索キー索引単位として抽出させるステップと、
抽出した前記検索キー索引単位の全てを含むファイルを検索キー索引ファイルとして前記検索キー文書ファイルに関連付けて記憶させるステップと、
前記検索対象文書ファイルのそれぞれについて、関連付けられた検索対象索引ファイルに含まれる検索対象索引単位のそれぞれに関して、前記検索キー索引ファイルに含まれる検索キー索引単位との比較をさせ、当該比較において一致する回数に応じた評価点を演算して記憶させるステップと、
予め記憶した前記検索対象文書ファイルへのアクセスキー情報を含むデータを、記憶した前記評価点に基づいてソートし、前記端末に送信させるステップと、を含む方法。
前記検索対象索引単位として抽出させるステップにおいて、
前記検索対象文書ファイルに含まれる前記属性データが階層構造をなしている場合に、前記サーバに、前記階層構造を構成する属性データから選択可能な全ての属性データの組合せをそれぞれ前記検索対象索引単位として抽出させる請求項１に記載の方法。
前記検索キー索引単位として抽出させるステップにおいて、
前記検索キー文書ファイルに含まれる前記属性データが階層構造をなしている場合に、前記サーバに、前記階層構造を構成する属性データから選択可能な全ての属性データの組合せを前記検索キー索引単位として抽出させる請求項１または請求項２に記載の方法。
前記サーバに、前記属性データを含まない第２の検索対象文書ファイルを形態素に分解させるステップと、
分解した前記形態素の各々について、前記形態素をキーとして、あらかじめ記憶した形態素の分類データを含む分類テーブルを参照させて、前記形態素に対応する分類データを選択させるステップと、
前記分類データを前記属性データとして、また当該形態素を表すデータを前記内容データとして、それぞれを組み合わせて前記検索対象索引ファイルとして前記第２の検索対象文書ファイルに関連付けて記憶させるステップと、を含む請求項１から請求項３のいずれかに記載の方法。
前記サーバに、前記属性データをキーとして、あらかじめ記憶した類義語とそれらを代表する単語とで構成される代表語テーブルを参照させて、前記属性データに対応する代表語データを選択させるステップと、
前記代表語データを属性データとして、前記内容データと関連付けて前記検索対象索引ファイルとして記憶させるステップと、を含む請求項１から請求項４のいずれかに記載の方法。
前記サーバに、前記属性データをキーとして、あらかじめ記憶した類義語とそれらを代表する単語とで構成される代表語テーブルを参照させて、前記属性データに対応する代表語データを選択させるステップと、
前記代表語データを属性データとして、前記内容データと関連付けて前記検索キー索引ファイルとして記憶させるステップと、を含む請求項１から請求項５のいずれかに記載の方法。
前記サーバに、前記検索対象文書ファイルの所定のグループについて、前記検索対象文書ファイルに含まれる前記検索対象索引単位それぞれの、前記検索対象文書ファイル内での出現回数及び前記グループに含まれる文書数に応じた重要度を表す重み係数を算出して記憶させるステップと、
前記検索対象索引ファイルの検索対象索引単位と前記検索キー索引ファイルの検索キー索引単位との比較において、一致した場合に、当該検索対象索引単位の前記重み係数に応じた評価点を演算して記憶させるステップと、を含む請求項１から請求項６のいずれかに記載の方法。
端末と通信ネットワークを介して接続され、内容データ、あるいは、内容データと当該内容データの属性を示す属性データとの組合せ、を含んで構成した検索対象文書ファイルの検索をするサーバであって、
前記検索対象文書ファイルから、前記内容データと前記属性データと前記組合せのデータとを、それぞれ検索対象索引単位として抽出する手段と、
抽出した前記検索対象索引単位の全てを含むファイルを検索対象索引ファイルとして前記検索対象文書ファイルに関連付けて記憶する手段と、
前記端末から、検索キー文書ファイルとして、前記内容データ、あるいは前記属性データ、あるいは前記内容データと前記属性データとの組合せを含んで構成した文書ファイルを受信する手段と、
受信した前記検索キー文書ファイルから、前記内容データと、前記属性データと、前記組合せのデータと、前記組合せを構成する内容データ及び属性データと、をそれぞれ検索キー索引単位として抽出する手段と、
抽出した前記検索キー索引単位の全てを含むファイルを検索キー索引ファイルとして前記検索キー文書ファイルに関連付けて記憶する手段と、
前記検索対象文書ファイルのそれぞれについて、関連付けられた検索対象索引ファイルに含まれる検索対象索引単位のそれぞれに関して、前記検索キー索引ファイルに含まれる検索キー索引単位との比較をし、当該比較において一致する回数に応じた評価点を演算して記憶する手段と、
予め記憶した前記検索対象文書ファイルへのアクセスキー情報を含むデータを、記憶した前記評価点に基づいてソートし、前記端末に送信する手段と、を備えるサーバ。
前記検索対象索引単位として抽出する手段において、
前記検索対象文書ファイルに含まれる前記属性データが階層構造をなしている場合に、前記階層構造を構成する属性データから選択可能な全ての属性データの組合せをそれぞれ前記検索対象索引単位として抽出する請求項８に記載のサーバ。
前記検索キー索引単位として抽出する手段において、
前記検索キー文書ファイルに含まれる前記属性データが階層構造をなしている場合に、前記階層構造を構成する属性データから選択可能な全ての属性データの組合せを前記検索キー索引単位として抽出する請求項８または請求項９に記載のサーバ。
前記属性データを含まない第２の検索対象文書ファイルを形態素に分解する手段と、
分解した前記形態素の各々について、前記形態素をキーとして、あらかじめ記憶した形態素の分類データを含む分類テーブルを参照して、前記形態素に対応する分類データを選択する手段と、
前記分類データを前記属性データとして、また当該形態素を表すデータを前記内容データとして、それぞれを組み合わせて前記検索対象索引ファイルとして前記第２の検索対象文書ファイルに関連付けて記憶する手段と、を備える請求項８から請求項１０のいずれかに記載のサーバ。
前記属性データをキーとして、あらかじめ記憶した類義語とそれらを代表する単語とで構成される代表語テーブルを参照して、前記属性データに対応する代表語データを選択する手段と、
前記代表語データを属性データとして、前記内容データと関連付けて前記検索対象索引ファイルとして記憶する手段と、を備える請求項８から請求項１１のいずれかに記載のサーバ。
前記属性データをキーとして、あらかじめ記憶した類義語とそれらを代表する単語とで構成される代表語テーブルを参照して、前記属性データに対応する代表語データを選択する手段と、
前記代表語データを属性データとして、前記内容データと関連付けて前記検索キー索引ファイルとして記憶する手段と、を備える請求項８から請求項１２のいずれかに記載のサーバ。
前記検索対象文書ファイルの所定のグループについて、前記検索対象文書ファイルに含まれる前記検索対象索引単位それぞれの、前記検索対象文書ファイル内での出現回数及び前記グループに含まれる文書数に応じた重要度を表す重み係数を算出して記憶する手段と、
前記検索対象索引ファイルの検索対象索引単位と前記検索キー索引ファイルの検索キー索引単位との比較において、一致した場合に、当該検索対象索引単位の前記重み係数に応じた評価点を演算して記憶する手段と、を備える請求項８から請求項１３のいずれかに記載のサーバ。
端末と通信ネットワークを介して接続されたサーバに、内容データ、あるいは、内容データと当該内容データの属性を示す属性データとの組合せ、を含んで構成した検索対象文書ファイルの検索を実行させるプログラムであって、
前記検索対象文書ファイルから、前記内容データと前記属性データと前記組合せのデータとを、それぞれ検索対象索引単位として抽出させるステップと、
抽出した前記検索対象索引単位の全てを含むファイルを検索対象索引ファイルとして前記検索対象文書ファイルに関連付けて記憶させるステップと、
前記端末から、検索キー文書ファイルとして、前記内容データ、あるいは前記属性データ、あるいは前記内容データと前記属性データとの組合せを含んで構成した文書ファイルを受信させるステップと、
受信した前記検索キー文書ファイルから、前記内容データと、前記属性データと、前記組合せのデータと、前記組合せを構成する内容データ及び属性データと、をそれぞれ検索キー索引単位として抽出させるステップと、
抽出した前記検索キー索引単位の全てを含むファイルを検索キー索引ファイルとして前記検索キー文書ファイルに関連付けて記憶させるステップと、
前記検索対象文書ファイルのそれぞれについて、関連付けられた検索対象索引ファイルに含まれる検索対象索引単位のそれぞれに関して、前記検索キー索引ファイルに含まれる検索キー索引単位との比較をさせ、当該比較において一致する回数に応じた評価点を演算して記憶させるステップと、
予め記憶した前記検索対象文書ファイルへのアクセスキー情報を含むデータを、記憶した前記評価点に基づいてソートし、前記端末に送信させるステップと、を実行させるプログラム。
前記検索対象索引単位として抽出するステップにおいて、
前記検索対象文書ファイルに含まれる前記属性データが階層構造をなしている場合に、前記サーバに、前記階層構造を構成する属性データから選択可能な全ての属性データの組合せをそれぞれ前記検索対象索引単位として抽出させる請求項１５に記載のプログラム。
前記検索キー索引単位として抽出するステップにおいて、
前記検索キー文書ファイルに含まれる前記属性データが階層構造をなしている場合に、前記サーバに、前記階層構造を構成する属性データから選択可能な全ての属性データの組合せを前記検索キー索引単位として抽出させる請求項１５または請求項１６に記載のプログラム。
前記サーバに、前記属性データを含まない第２の検索対象文書ファイルを形態素に分解させるステップと、
分解した前記形態素の各々について、前記形態素をキーとして、あらかじめ記憶した形態素の分類データを含む分類テーブルを参照して、前記形態素に対応する分類データを選択させるステップと、
前記分類データを前記属性データとして、また当該形態素を表すデータを前記内容データとして、それぞれを組み合わせて前記検索対象索引ファイルとして前記第２の検索対象文書ファイルに関連付けて記憶させるステップと、を実行させる請求項１５から請求項１７のいずれかに記載のプログラム。
前記サーバに、前記属性データをキーとして、あらかじめ記憶した類義語とそれらを代表する単語とで構成される代表語テーブルを参照して、前記属性データに対応する代表語データを選択させるステップと、
前記代表語データを属性データとして、前記内容データと関連付けて前記検索対象索引ファイルとして記憶させるステップと、を実行させる請求項１５から請求項１８のいずれかに記載のプログラム。
前記サーバに、前記属性データをキーとして、あらかじめ記憶した類義語とそれらを代表する単語とで構成される代表語テーブルを参照して、前記属性データに対応する代表語データを選択させるステップと、
前記代表語データを属性データとして、前記内容データと関連付けて前記検索キー索引ファイルとして記憶させるステップと、を実行させる請求項１５から請求項１９のいずれかに記載のプログラム。
前記サーバに、前記検索対象文書ファイルの所定のグループについて、前記検索対象文書ファイルに含まれる前記検索対象索引単位それぞれの、前記検索対象文書ファイル内での出現回数及び前記グループに含まれる文書数に応じた重要度を表す重み係数を算出して記憶させるステップと、
前記検索対象索引ファイルの検索対象索引単位と前記検索キー索引ファイルの検索キー索引単位との比較において、一致した場合に、当該検索対象索引単位の前記重み係数に応じた評価点を演算して記憶させるステップと、を実行させる請求項１５から請求項２０のいずれかに記載のプログラム。