JP2006172372A

JP2006172372A - 検索装置および方法

Info

Publication number: JP2006172372A
Application number: JP2004367478A
Authority: JP
Inventors: Kazuya Takeda; 和也武田
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2004-12-20
Filing date: 2004-12-20
Publication date: 2006-06-29
Anticipated expiration: 2024-12-20
Also published as: JP4549839B2

Abstract

【課題】漏れが少なく、かつ有効な文書を優先的に抽出することが可能な検索装置および方法を提供する。
【解決手段】検索対象とする文書（ａ）に対して、文字種分けを行った後（ｂ）、設定された文字数単位で切り出しを行う（ｃ）。切り出し後の各文字列について、その前後の文字列との文字種の異同を比較し、異なる場合「１」同一の場合「２」存在しない場合「０」を付与し（ｄ）、同一の場合の得点を低くして、文書全体の得点を算出し、得点の高い文書を優先的に出力する。
【選択図】図１

Description

本発明は、目的とする文字列を有する文書の検索を行うための技術に関する。

従来より、コンピュータを利用してデータベースに記録された文書の検索を行うことが行われている。検索の手法としては、検索対象のテキストに対し、単語単位で区切って検索に利用する手法と、文字列の長さ単位で区切って検索に利用する手法がある。

一般に、前者の単語単位で区切って検索に利用する手法では、単語の区切りを誤ると検索漏れを生じてしまうという問題がある。そのため、漏れを防ぐ検索を行う場合には、後者の文字列の長さ単位で区切って検索に利用する手法が用いられている。このような手法は、一般にＮ−グラムと呼ばれている。また、このようなＮ−グラムを応用した検索方法も提案されている（例えば、特許文献１参照）。

特許第３０９５５５２号

しかしながら、上記Ｎ−グラムを用いた手法では、検索漏れを防ぐことはできるが、不要な文書を優先度が高いものとして検索してしまうという問題がある。ここで、従来のＮ−グラムを用いた手法により文書の検索を行った結果を図１０に示す。図１０においては、検索キーとする検索文字列「ＩＣ」により検索を行ってその結果優先度が高い順に上から表示されている。従来のＮ−グラムを用いた手法では、検索文字列と一致する文字列の頻度によって優先順位が付けられる。また、この例では、大文字、小文字の区別はしないこととしている。すると、図１０に示すように、「ＩＣ」もしくは「ｉｃ」を多く含む文書が優先順位が高いものとして表示される。すなわち、文書０２は３個、文書０３は２個、文書０１は１個含んでいるため、この順で優先順位が高いものとして表示されるのである。

「ＩＣ」を検索キーとして指定した場合には、検索者は、文書０２に示すような文書でなく、文書０１や文書０３のような文書を探すことを目的としているはずである。それにもかかわらず、従来の手法では、目的としていない文書が優先的に抽出されてしまうという問題があるのである。

図１０の例で、「Ｏｆｆｉｃｅ」がヒットするような、目的としていない文書が抽出される場合、検索文字列「ＩＣ」と対応する文字列「ｉｃ」の前後の文字種が同じ場合が多い。一方、「ＩＣタグ」がヒットするような、目的としている文書が抽出される場合は、検索文字列「ＩＣ」と対応する文字列「ＩＣ」の前後の文字種が異なる場合が多い。

上記のような点に鑑み、本発明は、漏れが少なく、かつ有効な文書を優先的に抽出することが可能な検索装置および方法を提供することを課題とする。

上記課題を解決するため、本発明第１の態様では、検索対象とする文書データを蓄積した文書記憶手段と、前記文書記憶手段に記憶された各文書データについて、文書データ内の文字種別で分離した文字列から、所定の数Ｎにより、連続するＮ文字を、先頭を１文字ずつずらして切り取って作られる文字列を索引Ｎ文字列とし、当該各索引Ｎ文字列ごとに前後の索引Ｎ文字列との文字種の異同を示す文字種異同情報を有するインデックスを記録したインデックス記憶手段と、検索キーとなる文字列である検索文字列を入力する検索文字列入力手段と、前記入力された検索文字列を用いて前記インデックス記憶手段内の索引Ｎ文字列と照合し、一致する索引Ｎ文字列または一致する索引Ｎ文字列の連なりを検出する文字列照合手段と、前記検出した索引Ｎ文字列の文字種異同情報に基づいて、各索引Ｎ文字列を含む文書に優先度を付与する優先度決定手段と、前記決定した優先度に従って、前記索引Ｎ文字列を含む文書データを出力する文書出力手段を有する検索装置を提供する。

また、本発明第２の態様では、第１の態様において、優先度決定手段が、前記検出した索引Ｎ文字列の文字種異同情報が隣接する文字列と同一でないことを示すものである場合に、隣接する文字列と同一であることを示すものである場合よりも高い得点を与えて文書別に得点を付与し、付与した得点にしたがって文書に優先度を付与するものであることを特徴とする。

また、本発明第３の態様では、第２の態様において、優先度決定手段が、一致する索引Ｎ文字列または一致する索引Ｎ文字列の連なりが同一文書内に複数検出された場合には、各索引Ｎ文字列ごとの得点を加算して得点を算出するものであることを特徴とする。

また、本発明第４の態様では、第１の態様において、前記優先度決定手段が、前記検出した索引Ｎ文字列のうち、文字種異同情報が前後いずれの文字列とも同一でないことを示している索引Ｎ文字列を含む文書と含まない文書を分類し、文字種異同情報が前後いずれの文字列とも同一でないことを示している索引Ｎ文字列を含む文書の優先度を高く設定することにより優先度を付与するものであることを特徴とする。

また、本発明第５の態様では、文書データ内の文字種別で分離した文字列から、所定の数Ｎにより、連続するＮ文字を、先頭を１文字ずつずらして切り取って作られる文字列を索引Ｎ文字列とし、当該各索引Ｎ文字列ごとに前後の索引Ｎ文字列との文字種の異同を示す文字種異同情報を有するインデックスを利用して、文書データの検索を行う方法であって、検索キーとして入力された検索文字列を用いてインデックス内の索引Ｎ文字列と照合し、一致する索引Ｎ文字列または一致する索引Ｎ文字列の連なりを検出する文字列照合段階と、前記検出した索引Ｎ文字列の文字種異同情報に基づいて、各索引Ｎ文字列を含む文書に優先度を付与する優先度決定段階と、前記決定した優先度に従って、前記索引Ｎ文字列を含む文書データを出力する出力段階を有する検索方法を提供する。

本発明によれば、文書データを文字種別の文字列に分離した後、所定文字数の文字列に切り出して索引Ｎ文字列とし、各索引Ｎ文字列ごとに前後の文字列との文字種の異同を示す文字種異同情報を有するインデックスを作成しておき、このインデックスを利用して、検索文字列と一致する文字列を有する文書の優先度を文字種異同情報に基づいて決定し、優先度の高い文書順に出力するようにしている。

本発明によれば、漏れが少なく、かつ有効な文書を優先的に抽出することが可能となる。

（１．インデックスの作成）
以下、本発明の実施形態について図面を参照して詳細に説明する。まず、検索用のインデックスの作成について説明する。図１（ａ）に検索対象とする文書の一例を示す。これは、図１０において示した文書０１と同一のものである。インデックスの作成は、コンピュータが専用のプログラムを実行することにより行われる。図２は、インデックス作成処理の概要を示すフローチャートである。まず、コンピュータが検索対象とする文書を読み込むと、読み込んだ文書の文字種分けを行う（Ｓ１）。文字種とは、分類のための文字の種別を示すものであり、本実施形態では、英数、カタカナ、ひらがな、漢字、その他に分類している。例えば、図１（ａ）に示した文書の場合、図１（ｂ）に示すように文字種分けされる。これは、文字数に関係なく、文字種が変化する部分において分けられる。文字種分けが終わったら、続いて、文字の切り出し処理を行う（Ｓ２）。文字の切り出しはＮ文字単位で行う。なお、Ｎは１以上の整数である。このＮの値、すなわち、何文字単位で切り出すかについては、適宜設定することが可能である。本実施形態では、Ｎ＝２と設定した場合について説明する。文字の切り出しは、Ｓ１による文字種分けにより既にＮ文字以下となっている文字列に対しては行わない。したがって、図１（ｂ）の例では、「ソリューション」の文字列に対してのみ行う。文字の切り出しは、１文字ずつ移動させながら行う。この結果、図１（ｃ）に示したような文字列が得られることになる。

次に、切り出した各文字列の前後の文字列との文字種の異同を判断し、文字種異同情報を付与する（Ｓ３）。具体的には、まず、切り出し後の各文字列について、前後の文字列と文字種が「同じ」か、「異なる」か、または「文字列が存在しない」かの判断を行う。文字種が同じか異なっているかは、切り出した各文字列の文字コードを比較することにより判断することができる。文字コードのコード形式としては、シフトＪＩＳ、ＡＳＣＩＩコードなど様々なものが利用されているが、いずれのコード形式であっても、文字コードは、同一の文字種について連続して割り当てられている。したがって、利用するコード形式に従って、文字種別の文字コードの範囲を設定しておけば良い。文字種の異同が判断できたら、文字種異同情報を与える。本実施形態では、「同じ」場合は「１」、「異なる」場合は「２」、「文字列が存在しない」場合は「０」を文字種異同情報として与えることにしている。例えば、図１（ｃ）に示した文字列の場合は、図１（ｄ）に示すような文字種異同情報が付与されることになる。各文字列について文字種異同情報を付与したら、次に切り出した各文字列を索引Ｎ文字列としてインデックスに登録する（Ｓ４）。インデックスには、文字種別に各索引Ｎ文字列、各索引Ｎ文字列が出現する文書ＩＤ、文書ＩＤ中の出現位置、Ｓ３において取得した文字種前、文字種後の文字種異同情報、重要度を登録する。作成されたインデックスの一例を図３に示す。図３に示したようなインデックス情報は検索対象とするデータベース（文書記憶手段１０）に記録された全ての文書について作成されることになる。図３に示すインデックス中、「出現位置」は各文書において文頭から数えた文字数である。また、「重要度」は、以下の〔数式１〕に従って算出されるものである。ただし、図３の例では、説明の便宜上、重要度は全て「１」としている。

〔数式１〕
（重要度）＝（文書中の索引Ｎ文字列の出現頻度）／（索引Ｎ文字列が特定の文書に偏って出現する頻度）

同様に、他の検索対象とする文書の一例を図４（ａ）に示す。これは、図１０において示した文書０２と同一のものである。図４（ａ）に示した文書の場合、図４（ｂ）に示すように文字種分けされ（Ｓ１）、続いて、図４（ｃ）に示すように文字の切り出しが行われる（Ｓ２）。さらに、切り出した各文字列の前後の文字列との文字種の異同を示す文字種異同情報を付与する（Ｓ３）。そして、インデックスに登録される（Ｓ４）。なお、「スペース（空白）」は文字種「その他」として文字種分けを行う。図１０に示した文書０３についても同様に処理を行うことができる。図５に、文書０１〜文書０３に対してインデックス作成処理を行った場合の、索引Ｎ文字列「ＩＣ」のみについてのインデックスを示す。図５に示すように、「ＩＣ」という文字列は、文書０１に１つ、文書０２に３つ、文書０３に２つ含まれていることが記録されることになる。

（２．検索装置の構成）
次に、本発明に係る検索装置について説明する。図６は、本発明に係る検索装置の一実施形態を示す構成図である。図６において、１０は文書記憶手段、２０はインデックス記憶手段、３０は検索文字列入力手段、４０は文字列照合手段、５０は優先度決定手段、６０は文書出力手段である。

文書記憶手段１０は、多数の文書データを蓄積したものであり、各文書データには、各文書を特定する文書ＩＤが付されており、この文書ＩＤを特定することにより対応する文書データの抽出が可能となっている。インデックス記憶手段２０は、文書記憶手段１０に蓄積された文書データのインデックスを記録したものである。このインデックスは、検索対象とする文書データに対して、上記インデックス作成処理を実行することにより作成されたものであり、図３、図５に示したように、各索引Ｎ文字列について文書ＩＤと対応付けた形式で記録されている。文書記憶手段１０、インデックス記憶手段２０は図６の例では分離して示しているが、物理的には１つの記憶装置に設けられていても、複数の記憶装置に分離して設けられていても良い。現実には、コンピュータに接続されたハードディスク等の外部記憶装置にそれぞれ所定の領域を確保して設けられることになる。

検索文字列入力手段３０は、検索キーとなる文字列である検索文字列を入力する機能を有しており、キーボード等の入力機器を用いて指定された検索文字列を入力する。文字列照合手段４０は、入力された検索文字列を用いて、インデックス記憶手段２０内のインデックスを参照し、一致する索引Ｎ文字列が存在するかどうかを照合し、検索文字列と一致する索引Ｎ文字列を検出する機能を有している。優先度決定手段５０は、検索文字列と一致するものとして検出された索引Ｎ文字列の文字種異同情報（文字種前・文字種後）を基に文書ＩＤ別に得点を算出し、この得点に基づいて優先度を決定する機能を有している。文書出力手段６０は、索引Ｎ文字列を含む文書ＩＤの文書データを抽出し、決定した優先度に従って、順位付けして出力する機能を有している。図６に示した装置は、現実には、コンピュータに専用プログラムを記録しておき、この専用プログラムをコンピュータが実行することにより実現される。

（３．処理動作）
次に、図６に示した検索装置の処理動作と共に、本発明に係る検索方法を図７のフローチャートに従って説明する。まず、検索文字列入力手段３０から検索文字列が入力されると、文字列照合手段４０は、入力された検索文字列の文字種分けを行う（Ｓ１１）。これは、上記図２に示したＳ１と同様の処理である。文字種分けが終わったら、続いて、文字列照合手段４０は、文字の切り出し処理を行う（Ｓ１２）。これも上記図２に示したＳ２と同様に行われる。続いて、切り出した検索文字列とインデックス記憶手段２０内のインデックスの各索引Ｎ文字列との照合を行う（Ｓ１３）。照合の結果、一致する索引Ｎ文字列が存在した場合には、優先度決定手段５０が、その文字種異同情報を基に文書別に得点を算出し、優先度を決定する（Ｓ１４）。続いて、出力手段６０が、一致した索引Ｎ文字列が存在する文書ＩＤの文書データを文書記憶手段１０から抽出し、決定した優先度に従って、ディスプレイ装置に表示出力する（Ｓ１５）。

例えば、検索文字列「ＩＣ」により、上記文書０１〜０３を検索する場合について具体的に説明する。この場合、検索文字列「ＩＣ」の文字種は「英数」のみであるため、Ｓ１１の文字種分けは行われず、文字数も２文字であるため、Ｎ＝２と設定されている場合には、Ｓ１２の文字の切り出し処理も行われない。したがって、Ｓ１３においては、「ＩＣ」とインデックス記憶手段２０内のインデックスの索引Ｎ文字列との照合が行われる。図５に示したようなインデックスであった場合、文字列照合手段４０は、インデックス内の索引Ｎ文字列「ＩＣ」を検出するので、Ｓ１４において、優先度決定手段５０は、この索引Ｎ文字列「ＩＣ」文字種異同情報を基に得点を文書別に算出する。得点算出のための重み付けについては、事前に設定しておくことができる。本実施形態では、文字種が同じ場合は得点「１」、文字種が異なる場合は得点「８」、文字が存在しない場合は得点「１０」と設定している。また、算出手法は、出現位置ごとに文字種前と文字種後の得点を加算し、文書別に全ての出現位置の得点を加算することとしている。

例えば、図５に示した例であれば、文書０１については、索引Ｎ文字列「ＩＣ」は１つしか存在せず、文字種前が「０」であるので得点「１０」、文字種後が「１」であるので得点「８」であるため、合計の得点は「１８」となる。文書０２については、索引Ｎ文字列「ＩＣ」は３つしか存在する。１つ目は、文字種前が「２」であるので得点「１」、文字種後が「１」であるので得点「８」であるため、合計の得点は「９」となり、２つ目は、文字種前が「２」であるので得点「１」、文字種後が「２」であるので得点「１」であるため、合計の得点は「２」となり、３つ目も、文字種前が「２」であるので得点「１」、文字種後が「２」であるので得点「１」であるため、合計の得点は「２」となる。したがって、文書０２の得点は「１３」となる。すなわち、優先度決定手段５０は、文書０１の得点は「１８」、文書０２の得点は「１３」として算出することになる。同様に、文書０３については、得点「３４」となる。

出力手段６０は、検索文字列と一致した索引Ｎ文字列が存在する文書のみ出力する処理を行う。この例では、検索文字列「ＩＣ」が含まれる上記文書０１〜文書０３の全てが出力されることになる。すなわち、出力手段６０が文書ＩＤ「０１」「０２」「０３」の文書データを文書記憶手段１０から抽出し、ディスプレイ装置に表示出力する。文書データが表示された状態の画面の様子を図８に示す。図８に示すように、得点が高い文書データから順に上から表示することになる。図８の結果から明らかなように、検索文字列として「ＩＣ」を指定した意図に近い文書が優先的に抽出されることになる。

（４．検索文字列が切り出し文字数Ｎより長い場合）
次に、検索文字列「ソリューション」で検索を行う場合について説明する。まず、Ｓ１１の文字種分けの結果、「ソリューション」の文字種はカタカナとなる。文字列照合手段４０は、文字の切り出し処理を行う（Ｓ１２）。この結果、「ソリ」「リュ」「ュー」「ーシ」「ショ」「ョン」の文字列が切り出される。検索文字列からＮ文字ずつ切り出した文字列を検索Ｎ文字列と呼ぶことにする。続いて、切り出した各検索Ｎ文字列と、インデックス記憶手段２０内のインデックスの各索引Ｎ文字列との照合を行う（Ｓ１３）。具体的には、まず、切り出した各検索Ｎ文字列「ソリ」「リュ」「ュー」「ーシ」「ショ」「ョン」と索引Ｎ文字列が同一文書内に存在するかどうかを照合する。照合方法は、全ての検索Ｎ文字列と一致する索引Ｎ文字列に同一の文書ＩＤが付与されているかを判別し、同一の文書ＩＤが付与されていれば、さらに出現位置が連続しているかどうかも判断する。この結果、切り出した全ての検索Ｎ文字列が同一の文書に含まれ、出現位置も連続していると判断される場合には、優先度決定手段５０が、その文字種情報を基に文書別に得点を算出する（Ｓ１４）。具体的には、まず、各索引Ｎ文字列の重要度および検索Ｎ文字列数に基づいて以下の〔数式２〕により重要度係数を算出する。

〔数式２〕
重要度係数＝（Σ（重要度））／（検索Ｎ文字列数）

例えば、検索文字列「ソリューション」の場合、図３に示すように、各（重要度）が１であるため、６文字分積算して〔数式２〕における分子は６となる。また、分母の（検索Ｎ文字列数）は６であるので、重要度係数は「１」として算出される。また、優先度決定手段５０は、さらに、一致した索引Ｎ文字列のうち、先頭の索引Ｎ文字列の文字種前と最後の索引Ｎ文字列の文字種後に対応する得点を加算し、これに重要度係数を乗算する。上記の例と同様に、文字種が異なる場合「８」、文字列が存在しない場合「１０」とすると、重要度係数が１である場合には、（８＋１０）×１＝１８として算出される。同様にして同一文書内に存在した検索Ｎ文字列分だけ加算して文書別の得点を算出する。そして、得点の高い順に優先度が付与される。優先度が決定したら、上記の例と同様に出力手段６０が、文書ＩＤに対応する文書データを文書記憶手段１０から抽出し、ディスプレイ装置に優先度順に表示出力する（Ｓ１５）。

（５．優先度決定の他の手法）
上記実施形態では、Ｓ１４において優先度決定手段５０は、文字種異同情報の状態により異なる得点を与え、文書別の得点を算出し、これを基に優先度を決定するようにしたが、本発明では、他の手法により優先度を決定することも可能である。具体的には、上記Ｓ１４において優先度決定手段５０は、検索文字列と一致する索引Ｎ文字列が存在する場合に、その索引Ｎ文字列の文字種異同情報の文字種前、文字種後のいずれも「同一」となっていない索引Ｎ文字列が存在するかどうかで分類し、文字種前、文字種後のいずれも「同一」でない索引Ｎ文字列が存在する文書に高い優先度を付与する。さらに、分類したそれぞれの文書間においては、検索文字列と一致する索引Ｎ文字列の出現頻度が多いものに高い優先度を付与する。

例えば、上記文書０１〜文書０３に対して検索文字列「ＩＣ」で検索したとすると、図５に示すように、文書０１については、文字種前、文字種後のいずれも「同一」でない索引Ｎ文字列が１つ存在する。文書０２については、検索文字列と一致する索引Ｎ文字列は３つ存在するが、文字種前、文字種後のいずれも「同一」でない索引Ｎ文字列は１つも存在しない。文書０３については、文字種前、文字種後のいずれも「同一」でない索引Ｎ文字列が２つ存在する。この場合、条件を満たす索引Ｎ文字列を２つ有する文書０３、条件を満たす索引Ｎ文字列を１つ有する文書０１、条件を満たす索引Ｎ文字列を有さない文書０２の順に高い優先度が付与されることになる。この結果を図９に示す。図９に示すように、破線より上側には、文字種前、文字種後のいずれも「同一」でない索引Ｎ文字列を含む文書０３と文書０１が表示され、破線より下側には、文字種前、文字種後のいずれも「同一」でない索引Ｎ文字列を含まない文書０２が表示されることになる。

文書０１についてのインデックス作成の様子を示す図である。インデックス作成処理の概要を示すフローチャートである。作成されたインデックスの一例を示す図である。文書０２についてのインデックス作成の様子を示す図である。インデックスの文字列ＩＣ部分を示す図である。本発明に係る検索装置の一実施形態を示す構成図である。本発明に係る検索方法の概要を示すフローチャートである。本発明による検索結果を示す図である。本発明の他の手法による検索結果を示す図である。従来の手法による検索結果を示す図である。

符号の説明

１０・・・文書記憶手段
２０・・・インデックス記憶手段
３０・・・検索文字列入力手段
４０・・・文字列照合手段
５０・・・優先度決定手段
６０・・・文書出力手段

Claims

検索対象とする文書データを蓄積した文書記憶手段と、
前記文書記憶手段に記憶された各文書データについて、文書データ内の文字種別で分離した文字列から、所定の数Ｎにより、連続するＮ文字を、先頭を１文字ずつずらして切り取って作られる文字列を索引Ｎ文字列とし、当該各索引Ｎ文字列ごとに前後の索引Ｎ文字列との文字種の異同を示す文字種異同情報を有するインデックスを記録したインデックス記憶手段と、
検索キーとなる文字列である検索文字列を入力する検索文字列入力手段と、
前記入力された検索文字列を用いて前記インデックス記憶手段内の索引Ｎ文字列と照合し、一致する索引Ｎ文字列または一致する索引Ｎ文字列の連なりを検出する文字列照合手段と、
前記検出した索引Ｎ文字列の文字種異同情報に基づいて、各索引Ｎ文字列を含む文書に優先度を付与する優先度決定手段と、
前記決定した優先度に従って、前記索引Ｎ文字列を含む文書データを出力する文書出力手段と、
を有することを特徴とする検索装置。
前記優先度決定手段は、前記検出した索引Ｎ文字列の文字種異同情報が隣接する文字列と同一でないことを示すものである場合に、隣接する文字列と同一であることを示すものである場合よりも高い得点を与えて文書別に得点を付与し、付与した得点にしたがって文書に優先度を付与するものであることを特徴とする請求項１に記載の検索装置。
前記優先度決定手段は、一致する索引Ｎ文字列または一致する索引Ｎ文字列の連なりが同一文書内に複数検出された場合には、各索引Ｎ文字列ごとの得点を加算して得点を算出するものであることを特徴とする請求項２に記載の検索装置。
前記優先度決定手段は、前記検出した索引Ｎ文字列のうち、文字種異同情報が前後いずれの文字列とも同一でないことを示している索引Ｎ文字列を含む文書と含まない文書を分類し、文字種異同情報が前後いずれの文字列とも同一でないことを示している索引Ｎ文字列を含む文書の優先度を高く設定することにより優先度を付与するものであることを特徴とする請求項１に記載の検索装置。
文書データ内の文字種別で分離した文字列から、所定の数Ｎにより、連続するＮ文字を、先頭を１文字ずつずらして切り取って作られる文字列を索引Ｎ文字列とし、当該各索引Ｎ文字列ごとに前後の索引Ｎ文字列との文字種の異同を示す文字種異同情報を有するインデックスを利用して、文書データの検索を行う方法であって、
検索キーとして入力された検索文字列を用いてインデックス内の索引Ｎ文字列と照合し、一致する索引Ｎ文字列または一致する索引Ｎ文字列の連なりを検出する文字列照合段階と、
前記検出した索引Ｎ文字列の文字種異同情報に基づいて、各索引Ｎ文字列を含む文書に優先度を付与する優先度決定段階と、
前記決定した優先度に従って、前記索引Ｎ文字列を含む文書データを出力する出力段階と、
を有することを特徴とする検索方法。