JP2008084132A

JP2008084132A - 文書検索装置、文書検索方法および文書検索プログラム

Info

Publication number: JP2008084132A
Application number: JP2006265094A
Authority: JP
Inventors: Takayuki Miyazawa; 隆幸宮澤
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-09-28
Filing date: 2006-09-28
Publication date: 2008-04-10
Also published as: US20080177729A1

Abstract

【課題】検索速度の低下を防ぎつつ、ユーザの希望に合った検索条件に対する検索を行うことのできる文書検索装置を提供する。
【解決手段】正規形の文字と、異表記形の文字と、正規形の文字に変換する際に利用する変換規則を識別する規則識別情報とを対応付けて保持する第１の保持手段２０１と、文書に含まれる文字に対応する正規形の文字と、規則識別情報と、文書識別情報と、前記文字の位置情報とを対応付けて保持する第３の保持手段２０２と、ユーザにより入力された検索語と検索条件とを取得する取得手段１０５と、検索語を正規形の検索語に変換する第１の変換手段１０６と、正規形の検索語および検索条件それぞれを、第３の保持手段２０２において対応付けられている正規形の文字および規則識別情報と比較することにより、文字を検索する検索手段１０７とを備えた。
【選択図】図１

Description

本発明は、登録された文書を検索する文書検索装置、文書検索方法および文書検索プログラムに関するものである。

従来から、登録された文書群から検索キーワードとして指定された文字列を含む文書を検索する、いわゆる全文検索システムが知られている。この全文検索システムを実現する方法としては、（１）登録文をｎ文字ごとに切り出した単語単位で索引を作る方法（ｎ−ｇｒａｍ法）と、（２）形態素解析を用いて認識された単語単位で索引を作る方法と、（３）索引は作らずに文書そのものを直接検索する方法の３つが代表的なものである。

全文検索システムの機能の一つとして、異表記検索機能と呼ばれる機能がある。これは検索漏れの可能性を減らすため、検索キーワードに含まれる異表記形、例えば英大文字と英小文字とか、漢字の旧字体と新字体などを区別せずに検索を実行する機能である。

このような異表記検索をｎ−ｇｒａｍ法で実行する方法も知られている。例えば、「特許文献１」では、ｎ−ｇｒａｍ索引と形態素索引の両方の索引を使用した場合の異表記検索方法として、形態素索引の方は表記を正規化して格納し、ｎ−ｇｒａｍ索引では検索時に表記を展開する方法が提案されている。

また、「特許文献２」では、異表記文字に異表記形と正規形それぞれにコード番号を振り、それぞれに対して逆引き索引を用意しておき、検索時に異表記検索を行う場合は正規形のコード番号で、また異表記検索を行わない場合は異表記形のコード番号で逆引き索引を引くことで、検索時に異表記検索を行うか行わないかの指定を可能にしている。

特開２００３−２２８５７９号公報特開２００４−１９９２８２号公報

このように、ｎ−ｇｒａｍ法で異表記検索を行う方法として、索引作成時に表記を正規化して格納する方法や、原文表記と正規化表記のを両方索引として登録する方法、検索時に可能な表記を展開して検索する方法がある。

格納時に正規化する場合、厳密一致検索のためには索引の情報だけでは検索できず、原文の表記を確認する必要がある。また、検索時に表記を展開する場合は、展開する表記毎に索引参照回数が増え、かつ表記ごとの索引検索結果をマージする処理が発生するため速度が低下する。

一方、多様な異表記形を同一文字として、または別の文字として検索するなどユーザの希望に合った検索条件を指定したいという要求がある。

本発明は、上記に鑑みてなされたものであって、検索速度の低下を防ぎつつ、ユーザの希望に合った検索条件に対する検索を行うことのできる文書検索装置、文書検索方法および文書検索プログラムを提供する。

上述した課題を解決し、目的を達成するために、本発明は、文書検索装置であって、予め定められた表記形である正規形の文字と、前記正規形以外の表記形である異表記形の文字と、前記異表記形の文字を前記正規形の文字に変換する際に利用する変換規則を識別する規則識別情報とを対応付けて保持する第１の保持手段と、検索対象となる文書を保持する第２の保持手段と、前記第２の保持手段が保持する前記文書に含まれる文字に対応する前記正規形の文字と、前記規則識別情報と、前記文書を識別する文書識別情報と、前記文書に含まれる前記文字の位置情報とを対応付けて保持する第３の保持手段と、ユーザにより入力された検索語を取得する第１の取得手段と、前記検索語の表記に関する検索条件を取得する第２の取得手段と、前記第１の保持手段において対応付けられている前記正規形の文字と前記異表記形の文字とに基づいて、前記検索語を前記正規形で表記された検索語に変換する第１の変換手段と、前記第１の変換手段により得られた前記検索語および前記検索条件それぞれを、前記第３の保持手段において対応付けられている前記正規形の文字および前記規則識別情報と比較することにより、前記文書に含まれる文字を検索する検索手段とを備えたことを特徴とする。

また、本発明の他の形態は、文書検索装置であって、文字の表記形を変換する変換規則を複数取得する取得手段と、前記取得手段が取得した前記変換規則に基づいて、予め定められた表記形である正規形とは異なる表記形である異表記形の文字を前記正規形の文字に変換する第１の変換手段と、前記異表記形の文字と、前記正規形の文字と、前記第１の変換手段が当該正規形の文字に変換するときに利用した前記変換規則を識別する規則識別情報とを対応付けて保持する第１の保持手段と、検索対象となる文書を保持する第２の保持手段と、前記第２の保持手段が保持する前記文書を分割し、文字を得る分割手段と、前記第１の保持手段において対応付けられている前記異表記形の文字と前記正規形の文字とに基づいて、前記分割手段により得られた前記文字を前記正規形の文字に変換する第２の変換手段と、前記第２の変換手段により得られた前記正規形の文字と、前記規則識別情報と、前記文書を識別する識別情報と、前記文字の位置情報とを対応付けて保持する第３の保持手段とを備えたことを特徴とする。

また、本発明の他の形態は、文書検索方法であって、ユーザにより入力された検索語を取得する第１の取得ステップと、前記検索語の表記に関する検索条件を取得する第２の取得ステップと、予め定められた表記形である正規形の文字と、前記正規形以外の表記形である異表記形の文字と、前記異表記形の文字を前記正規形の文字に変換する際に利用する変換規則を識別する規則識別情報とを対応付けて保持する第１の保持手段において対応付けられている前記正規形の文字と前記異表記形の文字とに基づいて、前記検索語を前記正規形で表記された検索語に変換する変換ステップと、検索対象となる文書に含まれる文字に対応する前記正規形の文字と、前記規則識別情報と、前記文書を識別する文書識別情報と、前記文書に含まれる前記文字の位置情報とを対応付けて保持する第２の保持手段において対応付けられている前記正規形の文字および前記規則識別情報それぞれと、前記変換ステップにおいて得られた前記検索語および前記検索条件とを比較することにより、前記文書に含まれる前記文字を検索する検索ステップとを有することを特徴とする。

また、本発明の他の形態は、文書検索方法であって、文字の表記形を変換する変換規則を複数取得する取得ステップと、前記取得ステップにおいて取得した前記変換規則に基づいて、予め定められた表記形である正規形とは異なる表記形である異表記形の文字を前記正規形の文字に変換する第１の変換ステップと、前記異表記形の文字と、前記正規形の文字と、前記第１の変換ステップにおいて当該正規形の文字に変換するときに利用した前記変換規則を識別する規則識別情報とを対応付けて第１の保持手段に登録する第１の登録ステップと、検索対象となる文書を第２の保持手段に登録する第２の登録ステップと、前記第２の保持手段が保持する前記文書を分割し、文字を得る分割ステップと、前記第１の保持手段において対応付けられている前記異表記形の文字と前記正規形の文字とに基づいて、前記分割手段により得られた前記文字を前記正規形の文字に変換する第２の変換ステップと、前記第２の変換ステップにより得られた前記正規形の文字と、前記規則識別情報と、前記文書の文書識別情報と、前記文書に含まれる前記文字の位置情報とを対応付けて第３の保持手段に登録する第３の登録ステップとを有することを特徴とする。

また、本発明の他の形態は、文書検索処理をコンピュータに実行させる文書検索プログラムであって、ユーザにより入力された検索語を取得する第１の取得ステップと、前記検索語の表記に関する検索条件を取得する第２の取得ステップと、予め定められた表記形である正規形の文字と、前記正規形以外の表記形である異表記形の文字と、前記異表記形の文字を前記正規形の文字に変換する際に利用する変換規則を識別する規則識別情報とを対応付けて保持する第１の保持手段において対応付けられている前記正規形の文字と前記異表記形の文字とに基づいて、前記検索語を前記正規形で表記された検索語に変換する変換ステップと、検索対象となる文書に含まれる文字に対応する前記正規形の文字と、前記規則識別情報と、前記文書を識別する文書識別情報と、前記文書に含まれる前記文字の位置情報とを対応付けて保持する第２の保持手段において対応付けられている前記正規形の文字および前記規則識別情報それぞれと、前記変換ステップにおいて得られた前記検索語および前記検索条件とを比較することにより、前記文書に含まれる前記文字を検索する検索ステップとを有することを特徴とする。

また、本発明の他の形態は、文書検索処理をコンピュータに実行させる文書検索プログラムであって、文字の表記形を変換する変換規則を複数取得する取得ステップと、前記取得ステップにおいて取得した前記変換規則に基づいて、予め定められた表記形である正規形とは異なる表記形である異表記形の文字を前記正規形の文字に変換する第１の変換ステップと、前記異表記形の文字と、前記正規形の文字と、前記第１の変換ステップにおいて当該正規形の文字に変換するときに利用した前記変換規則を識別する規則識別情報とを対応付けて第１の保持手段に登録する第１の登録ステップと、検索対象となる文書を第２の保持手段に登録する第２の登録ステップと、前記第２の保持手段が保持する前記文書を分割し、文字を得る分割ステップと、前記第１の保持手段において対応付けられている前記異表記形の文字と前記正規形の文字とに基づいて、前記分割手段により得られた前記文字を前記正規形の文字に変換する第２の変換ステップと、前記第２の変換ステップにより得られた前記正規形の文字と、前記規則識別情報と、前記文書の文書識別情報と、前記文書に含まれる前記文字の位置情報とを対応付けて第３の保持手段に登録する第３の登録ステップとを有することを特徴とする。

本発明にかかる文書検索装置によれば、第１の保持手段が、予め定められた表記形である正規形の文字と、正規形以外の表記形である異表記形の文字と、異表記形の文字を正規形の文字に変換する際に利用する変換規則を識別する規則識別情報とを対応付けて保持し、第２の保持手段が、検索対象となる文書を保持し、第３の保持手段が、第２の保持手段が保持する文書に含まれる文字に対応する正規形の文字と、規則識別情報と、文書を識別する文書識別情報と、文書に含まれる文字の位置情報とを対応付けて保持し、第１の取得手段が、ユーザにより入力された検索語を取得し、第２の取得手段が、検索語の表記に関する検索条件を取得し、第１の変換手段が、第１の保持手段において対応付けられている正規形の文字と異表記形の文字とに基づいて、検索語を正規形で表記された検索語に変換し、検索手段が、第１の変換手段により得られた検索語および検索条件それぞれを、第３の保持手段において対応付けられている正規形の文字および規則識別情報と比較することにより、文書に含まれる文字を検索するので、検索速度の低下を防ぎつつ、ユーザの希望に合った検索条件に対する検索を行うことができるという効果を奏する。

また、本発明の他の形態にかかる文書検索装置によれば、取得手段が、文字の表記形を変換する変換規則を複数取得し、第１の変換手段が、取得手段が取得した変換規則に基づいて、予め定められた表記形である正規形とは異なる表記形である異表記形の文字を正規形の文字に変換し、第１の保持手段が、異表記形の文字と、正規形の文字と、第１の変換手段が当該正規形の文字に変換するときに利用した変換規則を識別する規則識別情報とを対応付けて保持し、第２の保持手段が、検索対象となる文書を保持し、分割手段が、第２の保持手段が保持する文書を分割し、文字を得て、第２の変換手段が、第１の保持手段において対応付けられている異表記形の文字と正規形の文字とに基づいて、分割手段により得られた文字を正規形の文字に変換し、第３の保持手段が、第２の変換手段により得られた正規形の文字と、規則識別情報と、文書を識別する識別情報と、文字の位置情報とを対応付けて保持するので、検索速度の低下を防ぎつつ、ユーザの希望に合った検索条件に対する検索を行うことができるという効果を奏する。

また、本発明の他の形態にかかる文書検索方法によれば、第１の取得ステップにおいて、ユーザにより入力された検索語を取得し、第２の取得ステップにおいて、検索語の表記に関する検索条件を取得し、変換ステップにおいて、予め定められた表記形である正規形の文字と、正規形以外の表記形である異表記形の文字と、異表記形の文字を正規形の文字に変換する際に利用する変換規則を識別する規則識別情報とを対応付けて保持する第１の保持手段において対応付けられている正規形の文字と異表記形の文字とに基づいて、検索語を正規形で表記された検索語に変換し、検索ステップにおいて、検索対象となる文書に含まれる文字に対応する正規形の文字と、規則識別情報と、文書を識別する文書識別情報と、文書に含まれる文字の位置情報とを対応付けて保持する第２の保持手段において対応付けられている正規形の文字および規則識別情報それぞれと、変換ステップにおいて得られた検索語および検索条件とを比較することにより、文書に含まれる文字を検索するので、検索速度の低下を防ぎつつ、ユーザの希望に合った検索条件に対する検索を行うことができるという効果を奏する。

また、本発明の他の形態にかかる文書検索方法によれば、取得ステップにおいて、文字の表記形を変換する変換規則を複数取得し、第１の変換ステップにおいて、取得ステップにおいて取得した変換規則に基づいて、予め定められた表記形である正規形とは異なる表記形である異表記形の文字を正規形の文字に変換し、第１の登録ステップにおいて、異表記形の文字と、正規形の文字と、第１の変換ステップにおいて当該正規形の文字に変換するときに利用した変換規則を識別する規則識別情報とを対応付けて第１の保持手段に登録し、第２の登録ステップにおいて、検索対象となる文書を第２の保持手段に登録し、分割ステップにおいて、第２の保持手段が保持する文書を分割し、文字を得て、第２の変換ステップにおいて、第１の保持手段において対応付けられている異表記形の文字と正規形の文字とに基づいて、分割手段により得られた文字を正規形の文字に変換し、第３の登録ステップにおいて、第２の変換ステップにより得られた正規形の文字と、規則識別情報と、文書の文書識別情報と、文書に含まれる文字の位置情報とを対応付けて第３の保持手段に登録するので、検索速度の低下を防ぎつつ、ユーザの希望に合った検索条件に対する検索を行うことができるという効果を奏する。

また、本発明の他の形態にかかる文書検索プログラムによれば、第１の取得ステップにおいて、ユーザにより入力された検索語を取得し、第２の取得ステップにおいて、検索語の表記に関する検索条件を取得し、変換ステップにおいて、予め定められた表記形である正規形の文字と、正規形以外の表記形である異表記形の文字と、異表記形の文字を正規形の文字に変換する際に利用する変換規則を識別する規則識別情報とを対応付けて保持する第１の保持手段において対応付けられている正規形の文字と異表記形の文字とに基づいて、検索語を正規形で表記された検索語に変換し、検索ステップにおいて、検索対象となる文書に含まれる文字に対応する正規形の文字と、規則識別情報と、文書を識別する文書識別情報と、文書に含まれる文字の位置情報とを対応付けて保持する第２の保持手段において対応付けられている正規形の文字および規則識別情報それぞれと、変換ステップにおいて得られた検索語および検索条件とを比較することにより、文書に含まれる文字を検索するので、検索速度の低下を防ぎつつ、ユーザの希望に合った検索条件に対する検索を行うことができるという効果を奏する。

また、本発明の他の形態にかかる文書検索プログラムによれば、取得ステップにおいて、文字の表記形を変換する変換規則を複数取得し、第１の変換ステップにおいて、取得ステップにおいて取得した変換規則に基づいて、予め定められた表記形である正規形とは異なる表記形である異表記形の文字を正規形の文字に変換し、第１の登録ステップにおいて、異表記形の文字と、正規形の文字と、第１の変換ステップにおいて当該正規形の文字に変換するときに利用した変換規則を識別する規則識別情報とを対応付けて第１の保持手段に登録し、第２の登録ステップにおいて、検索対象となる文書を第２の保持手段に登録し、分割ステップにおいて、第２の保持手段が保持する文書を分割し、文字を得て、第２の変換ステップにおいて、第１の保持手段において対応付けられている異表記形の文字と正規形の文字とに基づいて、分割手段により得られた文字を正規形の文字に変換し、第３の登録ステップにおいて、第２の変換ステップにより得られた正規形の文字と、規則識別情報と、文書の文書識別情報と、文書に含まれる文字の位置情報とを対応付けて第３の保持手段に登録するので、検索速度の低下を防ぎつつ、ユーザの希望に合った検索条件に対する検索を行うことができるという効果を奏する。

以下に、本発明にかかる文書検索装置、文書検索方法および文書検索プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。

図１は、実施の形態にかかる文書検索装置１０の機能構成を示すブロック図である。文書検索装置１０は、変換規則管理部１００と、文書取得部１０１と、ｎ−ｇｒａｍ分割部１０２と、正規化情報適用部１０３と、文書登録部１０４と、検索条件取得部１０５と、規則検索条件作成部１０６と、検索実行部１０７と、検索結果出力部１０８と、正規化情報記憶部２０１と、ｎ−ｇｒａｍ索引記憶部２０２と、文書記憶部２０３とを備えている。

変換規則管理部１００は、複数の変換規則を取得する。ここで、変換規則とは、所定の文字の表記形を異なる表記形に変換するための規則である。例えば、変換規則は、「澤」を異なる字体である「沢」に変換するための規則である。文字には、数字も含む。変換の対象は、異なる表記の存在するものであればよく、広く適用可能である。

変換規則を利用することにより、各文字の表記形を正規形に変換することができる。ここで、正規形とは、文書検索装置１０における検索処理において基準とする表記形である。なお、正規形以外の表記形を異表記形と称する。

図２は、変換規則管理部１００が取得する変換規則を説明するための図である。図２には、規則１から規則６の変換規則を示している。規則１は、英字全角を英字半角に変換する変換規則である。規則２は、英字大文字半角を英字小文字半角に変換する変換規則である。規則３は、英数字全角を英数字半角に変換する変換規則である。規則４は、漢数字を英数字全角に変換する変換規則である。規則５は、カタカナ小文字をカタカナ大文字に変換する変換規則である。規則６は、漢字旧字体を漢字新字体に変換する変換規則である。このように、各変換規則において、変換前後の文字は、１対１に対応している。

規則１および規則２は、それぞれ同一文字である「Ａ」に関する異なる変換規則である。このように、変換規則管理部１００が取得する変換規則には、同一の文字に関する異なる変換規則も含まれている。

さらに、変換規則管理部１００が取得する変換規則には、異表記形を正規形に変換する変換規則のみならず、異表記形から他の異表記形に変換する変換規則も含まれている。例えば、英字は小文字半角が正規形であるが、図２に示す規則１は、英字大文字全角を英字大文字半角に変換するものであり、所定の異表記形から他の異表記形に変換する変換規則である。このように他の異表記形への変換規則も利用するのは、多様な検索を可能とするためである。詳細については後述する。

変換規則管理部１００は、さらに、変換規則を利用して正規化情報を作成し、ｎ−ｇｒａｍ索引記憶部２０２に登録する。ここで、正規化情報とは、各文字の異表記形を正規形に変換する際に参照するテーブルである。

例えば、英字大文字全角の「Ａ」を正規形である英字小文字半角の「a」に変換する場合には、規則１と規則２とを利用する。したがって、異表記形「Ａ（全角）」と、正規形「a（半角）」と、規則１および規則２とを対応付けて正規化情報に登録する。

図３は、正規化情報記憶部２０１に格納される正規化情報のデータ構成を模式的に示す図である。正規化情報においては、異表記形と、正規形と、適用規則ＩＤとが対応付けられている。ここで適用規則ＩＤとは、異表記形を正規形に変換する際に利用する変換規則の規則ＩＤである。

再び説明を図１に戻す。文書取得部１０１は、検索の対象となる文書を取得する。ｎ−ｇｒａｍ分割部１０２は、この文書を文書文字列であるｎ−ｇｒａｍに分割する。ここで、ｎ−ｇｒａｍは、ｎ文字列すなわちｎ文字単位の文字列のことである（以下、単にグラムと称する）。ｎ−ｇｒａｍ分割においては、文字列のはじめと終わりはｎ以下の文字列に分割される。例えば、「ＸＭＬドキュメント」という文字列は、ｎ＝３の場合には、「Ｘ」、「ＸＭ」、「ＸＭＬ」、「ＭＬド」、「Ｌドキ」、「ドキュ」、「キュメ」、「ュメン」、「メント」、「ント」、「ト」の１１のグラムに分割される。

正規化情報適用部１０３は、ｎ−ｇｒａｍ分割部１０２により得られたグラム内に正規化の対象となる表記形が含まれているか否かを調べる。すなわち、異表記形を検出する。異表記形を検出した場合には、正規化情報記憶部２０１を参照し、異表記形を正規形に変換する。例えば、「ａ（全角）」を検出した場合には、正規化情報記憶部２０１において「ａ（全角）」を検出する。そして、対応付けられている正規形「a（半角）」に変換する。さらに、正規化情報記憶部２０１において「ａ（半角）」に対応付けられている適用規則ＩＤを特定する。

グラムに複数の文字が含まれている場合には、文字ごとに規則ＩＤを特定する。正規形への変換に複数の変換規則を利用する場合には、複数の変換規則それぞれに対する規則ＩＤを特定する。

例えば、「ＸＭＬ（すべて全角）」というグラムが対象となる場合には、各文字について上記処理を行う。具体的には、正規化情報記憶部２０１において、「Ｘ（全角）」に対応付けられている正規形「x（半角）」と、適用規則ＩＤ１，２を特定する。同様に、「Ｍ（全角）」に対応付けられている正規形「m（半角）」と、適用規則ＩＤ１，２を特定し、「Ｌ（全角）」に対応付けられている正規形「l（半角）」と、適用規則ＩＤ１，２を特定する。なお、正規化情報適用部１０３は、文書文字列変換手段として機能する。

文書登録部１０４は、文書取得部１０１が取得した文書を文書記憶部２０３に登録する。さらに、ｎ−ｇｒａｍ索引記憶部２０２に文書の逆引き索引であるｎ−ｇｒａｍ索引を登録する。逆引き索引とは、検索条件として取得する検索文字列から対応する文字を含む文書位置を特定するための索引である。

図４は、文書記憶部２０３のデータ構成を模式的に示す図である。文書記憶部２０３は、文書を識別する文書ＩＤと、文書とを対応付けて保持している。図５は、ｎ−ｇｒａｍ索引記憶部２０２のデータ構成を模式的に示す図である。ｎ−ｇｒａｍ索引記憶部２０２は、逆引き索引として、グラムの正規形と、グラム位置と、規則情報とを対応付けて格納している。グラム位置は、グラムを含む文書を識別する文書ＩＤと、文書におけるオフセットとを含んでいる。ここで、オフセットとは、文書の先頭からの距離である。規則情報は、グラム中の各文字を特定するための情報と、各文字を正規化する際に利用した規則ＩＤを含んでいる。

図５においては、（）内にグラム位置を示し、〔〕内に規則情報を示している。例えば、グラム「x」には、（１，０）〔１，２〕が対応付けられている。（１，０）は、文書ＩＤが「１」でオフセットが「０」であることを示している。すなわち、「x」は、文書ＩＤ１の文書の先頭に「x」が記載されていることがわかる。

また、〔１,２〕は、「x」に正規化するために利用する変換規則が規則１と規則２であることを示している。これにより、文書中においては、「x」は、「Ｘ（全角）」と記載されていたことがわかる。このように、規則情報に基づいて、文書中に実際に記載されている表記を特定することができる。

また、グラム「mlド」には、規則情報〔１，２：１，２：０〕が対応付けられている。コロン「：」によりグラム内の各文字に対応する規則ＩＤを区切っている。１つめのコロンの前に記載された番号は、グラム中の１文字目に適用する規則ＩＤを示している。１つめのコロンと２つめのコロンの間に記載された番号は、グラム中の２文字目に適用する規則ＩＤを示している。

例えば、グラム中の文字「m」には、規則１と規則２が対応付けられている。グラム中の文字「l」にも規則１と規則２が対応付けられている。グラム中の文字「ド」には、０が対応付けられている。ここで、０は、規則を適用しないことを意味する。このように、グラム中の文字それぞれについての規則ＩＤを、対応する文字を識別可能に格納している。

規則情報は、ビット列で表現することとしてもよい。例えば５種類の正規化規則があり、３グラムで索引を作成するとする。この場合には、３×５＝１５ビットで各文字の規則ＩＤを表現することができる。これにより、規則情報を保持するための記憶量を低減することができる。

さらに、本実施の形態にかかる変換規則のように、例えば、数字や英字など文字の種類により利用する変換規則が異なる場合には、文字の種類を識別する情報をさらに利用することにより、必要なビット数をより低減することができる。例えば本実施の形態においては、規則１と規則２は英文字にのみ適用される。規則３と規則４は数字にのみ適用される。規則５はカタカナにのみ適用される。規則６は漢字にのみ適用される。すなわち、文字は３種類であり、各種類についての規則は最大２つである。このため、文字種の情報の他に２ビットあれば、適用した変換規則を表現できる。この場合、２×３＝６ビットで各文字の規則ＩＤを表現することができる。

再び説明を図１に戻す。検索条件取得部１０５は、検索文字列と表記形検索条件とを取得する。ここで、表記形検索条件とは、表記形に関する検索条件である。表記形検索条件としては、例えば、検索文字列と一致する表記形のみの検索を指定する「字面通り」や、検索文字列の表記形を限定しない検索を指定する「全半角大小文字同一視」などがある。

ここで、「字面通り」とは、例えば、「ｘ（全角）」が検索文字列として得られた場合には、全角小文字の「ｘ」のみを検索対象とし、大文字や半角について異なる文字と見なすという条件である。また、「大小文字全半角同一視」とは、例えば「ｘ（全角）」が検索文字列として得られた場合には、全角小文字の「ｘ」のみならず、全角大文字、半角大文字、半角小文字を検索対象とするという条件である。

検索文字列は、ｎ−ｇｒａｍ分割部１０２によりグラムに分割され、規則検索条件作成部１０６に渡される。すなわち、本実施の形態にかかるｎ−ｇｒａｍ分割部１０２は、検索語分割手段として機能する。

規則検索条件作成部１０６は、グラム内の各文字を、正規化情報記憶部２０１において各文字に対応付けられている正規形に変換する。規則検索条件作成部１０６は、また表記形検索条件を取得する。規則検索条件作成部１０６は、表記形検索条件から規則検索条件を生成する。ここで、規則検索条件とは、ｎ−ｇｒａｍ索引記憶部２０２に格納されている逆引き索引を使用するための計算方法である。具体的には、表記形検索条件を満たす表記形を検索するために利用する規則ＩＤを示す情報である。すなわち、本実施の形態にかかる規則検索条件作成部１０６は、検索後表記変換手段として機能する。

図６は、検索文字列、表記形検索条件、正規形検索文字列、および規則検索条件を説明するための図である。例えば、検索文字列が「XML（XMLは半角）」であり、表記形検索条件が字面通りであるとする。この場合には、規則検索条件作成部１０６は、検索文字列中の各文字を正規化し、正規形検索文字列「xml（xmlは半角）」を得る。

規則検索条件作成部１０６はさらに、字面通りという表記形検索条件から規則検索条件を生成する。具体的には、検索文字列の正規化に利用した変換規則のみを規則検索条件とする。検索文字列「XML（XMLは半角）」と正規形検索文字列「xml（xmlは半角）」の各文字の組み合わせは、正規化情報記憶部２０１において規則２に対応付けられている。したがって、〔２：２：２〕（全文字に対して規則２のみ適用）という規則検索条件を生成する。

また例えば、検索文字列が「XML（XMLは半角）」であり、表記形検索条件が全半角大小文字同一視であるとする。この場合には、規則検索条件作成部１０６は、検索文字列を正規化し正規形検索文字列「xml（xmlは半角）」を得る。

さらに、全半角大小文字同一視という表記形検索条件から規則検索条件を生成する。大小文字全半角同一視の場合には、英字に関するすべての変換規則を適用するという規則検索条件を生成する。図２に示す例においては、英字に関する変換規則としては、規則１と規則２とが存在する。そこで、これらを適用する。さらに、変換規則を利用しない場合についても含める。すなわち、正規形の文字列も検索対象とする。

以上により、この場合には、正規形検索文字列「xml（xmlは半角）」と、〔０＋１＋２：０＋１＋２：０＋１＋２〕（全文字に対して規則利用なしｏｒ規則１ｏｒ規則２を適用）という規則検索条件を生成する。

また例えば、検索文字列が「ＸMl（Ｘは全角、Mは半角、lは半角）」であり、表記形検索条件が字面通りであるとする。この場合、規則検索条件作成部１０６は、検索文字列を正規化し、正規形検索文字列「xml（xmlは半角）」を得る。

さらに、字面通りという表記形検索条件から規則検索条件を生成する。「Ｘ」の正規形への変換は、英字大文字全角から英字小文字半角への変換である。したがって、図２に示す規則１および規則２が適用される。また、「M」の正規形への変換は、英字大文字半角から英字小文字半角への変換である。したがって、規則２が適用される。「l」の正規形への変換は、英字小文字半角、すなわち正規形である。したがって、変換規則は適用されない。

以上により、正規形検索文字列「xml（xmlは半角）」と、〔１＊２：２：０〕（１文字目に対して規則１および規則２適用、２文字目に対して規則２適用、３文字目に対して規則利用なし）という検索表記条件を含む規則検索条件を生成する。

このように、ユーザにより指定された表記条件に基づいて、各文字に対する検索条件とする規則ＩＤを決定することができる。また、半角のみの検索や、全半角とも含む検索など、検索に含めるべき表記の指定を、表記の変換規則を指定することにより実現することができる。

本実施の形態においては、「字面通り」や、「大小文字全半角同一視」などの指定に基づいて、規則ＩＤを決定したが、ユーザから取得する情報は、規則ＩＤを決定するための情報であればよく、これに限定されるものではない。

検索実行部１０７は、規則検索条件作成部１０６により得られた正規形検索文字列と規則検索条件とに基づいて、ｎ−ｇｒａｍ索引記憶部２０２に格納されている逆引き索引を利用して、規則検索条件に合致した文字列を検索する。検索結果出力部１０８は、検索実行部１０７から検索結果を取得し、対応する文書を正規化情報記憶部２０１から抽出し、出力する。

図７は、文書検索装置１０による正規化情報登録処理を示すフローチャートである。まず変換規則管理部１００は、変換規則が記載された変換規則設定ファイルを読み込む（ステップＳ１００）。

図８は、変換規則管理部１００が取得する変換規則設定ファイルのデータ構成を示す図である。変換規則設定ファイルには、規則ＩＤと、この規則ＩＤにおける変換前後の表記形とが記載されている。変換前後の表記形は、それぞれ「：」の左側と右側に記載されている。

変換規則管理部１００は、変換規則設定ファイルを一行ずつ読み込む。読み込んだ１行の内容が、規則ＩＤの宣言だった場合には（ステップＳ１０２，Ｙｅｓ）、規則ＩＤを宣言された値にセットする（ステップＳ１０３）。そして、ステップＳ１０６へ進む。例えば、図８に示す変換規則設定ファイルにおいては、〔ｒｕｌｅ：１〕の行が規則ＩＤの宣言の行である。

一方、読み込んだ１行の内容が、変換前後の表記形であった場合には、変換前後の表記形と、規則ＩＤとを対応付けて正規化情報記憶部２０１に格納する（ステップＳ１０４）。次に、この変換後の表記形が同一の変換規則における他の表記形の変換後の表記形になっていないかチェックする。すなわち、同一の変換規則において、異なる複数の文字が同一の文字に変換されていないかチェックする。

複数の文字が同一の文字に変換されている場合には（ステップＳ１０５，Ｙｅｓ）、エラーを通知して（ステップＳ１０６）、終了する。

一方、複数の文字が同一の文字に変換されていない場合には（ステップＳ１０５，Ｎｏ）、次の行があれば（ステップＳ１０７，Ｙｅｓ）、ステップＳ１００に戻り、次の行に対し処理を行う（ステップＳ１００〜１０５）。以上により、規則に含まれるすべての文字について、変換前後の表記形と適用規則ＩＤとを対応付けることができる。

図９は、ステップＳ１００からステップＳ１０７の処理により生成された正規化情報を示す図である。図９に示す正規化情報においては、例えば、「A（半角）」は、規則１における変換後の文字であり、かつ規則２における変換前の文字である。このように、第１の変換規則における変換後の文字と第２の変換規則における変換前の文字とが一致する場合には（ステップＳ１１０，Ｙｅｓ）、変換後の文字は正規形になっていないので、さらに編集を行う（ステップＳ１１１）。

具体的には、第１の変換規則における変換前の文字と第２の変換規則における変換後の文字とをそれぞれ異表記形および正規形として登録し、適用規則ＩＤとして１と２を対応付ける。図９に示す例においては、「Ａ（全角）」および「a（半角）」がそれぞれ異表記形および正規形として登録され、適用規則ＩＤとして１，２が登録される。これを正規化情報に登録されているすべての文字に対して行い、正規化規則テーブル登録処理が完了する。

ステップＳ１１１において、例えば、第１の変換規則における変換後の文字と第２の変換規則における変換前の文字とが一致し、かつ第２の変換規則における変換後の文字が、第１の変換規則における変換前の文字と一致する場合には、変換規則に循環定義が存在しているので、エラーを通知して終了する。

正規化情報は、文書の登録前に作成しておくこととする。後から正規化情報の内容を追加した場合には、追加した内容中の各表記形の文字について、ｎ−ｇｒａｍ索引記憶部２０２の索引を作り直す必要がある。

図１０は、文書検索装置１０による文書登録処理を示すフローチャートである。まず、文書取得部１０１は、文書を読み込む（ステップＳ２０１）。次に、文書登録部１０４は、文書取得部１０１が読み込んだ文書を文書記憶部２０３に登録する（ステップＳ２０２）。さらに、ｎ−ｇｒａｍ分割部１０２は、文書に対し、ｎ−ｇｒａｍ分割を行う（ステップＳ２０３）。次に、グラム中に正規化対象となる文字、すなわち異表記形が含まれている場合には（ステップＳ２０４，Ｙｅｓ）、これを正規化情報記憶部２０１を参照して、正規形に変換する（ステップＳ２０５）。さらに、正規化に利用する変換規則の規則ＩＤを含む規則情報を生成する（ステップＳ２０６）。

次に、正規形グラムと、グラム位置と、規則情報を対応付けてｎ−ｇｒａｍ索引記憶部２０２に登録する（ステップＳ２０７）。文書中のすべてのグラムについてステップＳ２０４からステップＳ２０７を繰り返すと（ステップＳ２０８，Ｎｏ）、文書登録処理が完了する。

図１１は、文書検索装置１０による文書検索処理を示すフローチャートである。まず、規則検索条件作成部１０６は、検索文字列と表記形検索条件とを読み込む（ステップＳ３００）。次に、ｎ−ｇｒａｍ分割部１０２は、検索文字列に対し、ｎ−ｇｒａｍ分割を行う（ステップＳ３０２）。グラム中に正規化の対象となる文字が存在する場合、すなわち異表記形が存在する場合には（ステップＳ３０３，Ｙｅｓ）、正規化情報記憶部２０１を参照し、正規形に変換する（ステップＳ３０４）。さらに、表記形検索条件と、正規形に変換する際に利用した変換規則とに基づいて、規則検索条件を作成する（ステップＳ３０５）。

次に、検索実行部１０７は、ｎ−ｇｒａｍ索引記憶部２０２から規則検索条件に合致するグラムを抽出する（ステップＳ３０６）。次に、検索結果をマージする（ステップＳ３０７）。具体的には、例えば、「ＸＭＬドキュメント」という検索文字列である場合には、この検索文字列の配列を満たすようなオフセットに対応付けられている複数のグラムを抽出する。検索文字列中のすべてのグラムについてステップＳ３０３からステップＳ３０７を繰り返すと（ステップＳ３０８，Ｎｏ）、検索結果出力部１０８は検索結果を出力し（ステップＳ３０９）、文書検索処理が完了する。

以上のように、本実施の形態にかかる文書検索装置１０は、変換規則を複数定義しておき、文書登録時にｎ−ｇｒａｍ索引記憶部２０２にグラムの正規形と、グラム位置と規則情報とを記録しておく。したがって、検索時には、グラムの正規形と検索文字列の正規形とを比較し、規則検索条件と規則情報とを比較することにより、検索を行うことができる。

さらに、表記を限定した検索条件に対応するような複数の変換規則が定義されているので、複数の変換規則に基づいて、表記を限定した検索を行うことができる。検索において異なる文字または同一文字として検索したい表記形を変換ことができる。変換規則管理部１００に読み込ませることにより、短い検索時間で細かい検索を行うことができる。

例えば、従来のシステムにおいては、格納時に英字・数字の全角半角、英字の大文字小文字をそれぞれ格納しておくものがある。この場合には、数字については全角半角を区別せず、英字については全角半角を区別するような検索や、英字の大小文字を区別せず、全半角を区別するような検索を行う場合には、登録された文書を参照する必要がある。

これに対し、本実施の形態にかかる文書検索装置１０によれば、このような検索を行う場合であっても、正規形と適用規則ＩＤのみを参照することにより、検索結果を求めることができる。これにより、従来のように、登録された文書を参照する必要がなくなり、検索の高速化を図ることができる。

また、従来のシステムにおいては、格納時には原文表記のまま格納し、検索時に展開するものがある。この場合には、検索するグラムに含まれる異表記の種類により、複数の索引を検索して結果をマージする処理が必要である。たとえば英字の全角半角・大文字小文字を区別しない検索を行う場合、１文字あたり４種類の展開が行われるため、例えば３グラムで索引を作成している場合、最大で４＾３＝６４種類のグラムの索引を参照する必要がある。展開するグラムの種類の数が増えればそれに比例してそれぞれのグラムの検索結果のマージが必要となる。その分相当の計算量が必要となり、検索速度が低下し、マージに必要なメモリ消費が増加する。

これに対し、本実施の形態にかかる文書検索装置１０においてはｎ−ｇｒａｍ索引記憶部２０２に格納された正規形のグラム１つを参照し、その規則情報でフィルタリングするだけで結果を求めることができる。これにより、ｎ−ｇｒａｍ索引へのアクセス回数、中間バッファとして必要となるメモリ、およびマージの計算量を減らすことができる。

図１２は、実施の形態にかかる文書検索装置１０のハードウェア構成を示す図である。文書検索装置１０は、ハードウェア構成として、文書検索装置１０における文書検索処理を実行する文書検索プログラムなどが格納されているＲＯＭ５２と、ＲＯＭ５２内のプログラムに従って文書検索装置１０の各部を制御するＣＰＵ５１と、正規化情報記憶部２０１、ｎ−ｇｒａｍ索引記憶部２０２および文書記憶部２０３が記憶する情報を格納する外部記憶装置５４と、文書検索装置１０の制御に必要な種々のデータを記憶し、さらに外部記憶装置５４から読み出された情報が格納されるＲＡＭ５３と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５７と、各部を接続するバス６２とを備えている。

先に述べた文書検索装置１０における文書検索プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フロッピー（登録商標）ディスク（ＦＤ）、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録されて提供されてもよい。

この場合には、文書検索プログラムは、文書検索装置１０において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。

また、本実施の形態の文書検索プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。

以上、本発明を実施の形態を用いて説明したが、上記実施の形態に多様な変更または改良を加えることができる。

文書検索装置１０の機能構成を示すブロック図である。変換規則管理部１００が取得する変換規則を説明するための図である。正規化情報記憶部２０１に格納される正規化情報のデータ構成を模式的に示す図である。文書記憶部２０３のデータ構成を模式的に示す図である。ｎ−ｇｒａｍ索引記憶部２０２のデータ構成を模式的に示す図である。検索文字列、表記形検索条件、正規形検索文字列、および規則検索条件を説明するための図である。文書検索装置１０による正規化情報登録処理を示すフローチャートである。変換規則管理部１００が取得する変換規則設定ファイルのデータ構成を示す図である。ステップＳ１００からステップＳ１０７の処理により生成された正規化情報を示す図である。文書検索装置１０による文書登録処理を示すフローチャートである。文書検索装置１０による文書検索処理を示すフローチャートである。実施の形態１にかかる文書検索装置１０のハードウェア構成を示す図である。

符号の説明

１０文書検索装置
５１ＣＰＵ
５２ＲＯＭ
５３ＲＡＭ
５４外部記憶装置
５５通信Ｉ／Ｆ
５６バス
１００変換規則管理部
１０１文書取得部
１０２ｎ−ｇｒａｍ分割部
１０３正規化情報適用部
１０４文書登録部
１０５検索条件取得部
１０６規則検索条件作成部
１０７検索実行部
１０８検索結果出力部
２０１正規化情報記憶部
２０２ｎ−ｇｒａｍ索引記憶部
２０３文書記憶部

Claims

予め定められた表記形である正規形の文字と、前記正規形以外の表記形である異表記形の文字と、前記異表記形の文字を前記正規形の文字に変換する際に利用する変換規則を識別する規則識別情報とを対応付けて保持する第１の保持手段と、
検索対象となる文書を保持する第２の保持手段と、
前記第２の保持手段が保持する前記文書に含まれる文字に対応する前記正規形の文字と、前記規則識別情報と、前記文書を識別する文書識別情報と、前記文書に含まれる前記文字の位置情報とを対応付けて保持する第３の保持手段と、
ユーザにより入力された検索語を取得する第１の取得手段と、
前記検索語の表記に関する検索条件を取得する第２の取得手段と、
前記第１の保持手段において対応付けられている前記正規形の文字と前記異表記形の文字とに基づいて、前記検索語を前記正規形で表記された検索語に変換する第１の変換手段と、
前記第１の変換手段により得られた前記検索語および前記検索条件それぞれを、前記第３の保持手段において対応付けられている前記正規形の文字および前記規則識別情報と比較することにより、前記文書に含まれる文字を検索する検索手段と
を備えたことを特徴とする文書検索装置。
前記第１の保持手段は、前記異表記形の文字を前記正規形の文字に変換する際に複数の変換規則を利用する場合、前記複数の変換規則それぞれの前記規則識別情報を前記正規形の文字に対応付けて保持することを特徴とする請求項１に記載の文書検索装置。
異なる複数の変換規則を取得する第３の取得手段と、
前記第３の取得手段が取得した前記変換規則に基づいて、前記異表記形の文字を前記正規形の文字に変換する第２の変換手段と、
前記第２の変換手段による変換前の前記異表記形の文字と、前記第２の変換手段による変換後の前記正規形の文字と、前記第２の変換手段が当該正規形の文字に変換するときに利用した前記変換規則の前記規則識別情報とを対応付けて前記第１の保持手段に登録する第１の登録手段と
を備えたことを特徴とする請求項１または２に記載の文書検索装置。
前記第３の取得手段は、同一の文字に対する異なる複数の変換規則を取得することを特徴とする請求項３に記載の文書検索装置。
前記第３の取得手段は、所定の異表記形の文字を他の異表記形の文字に変換する第１規則と、前記異表記形の文字から前記正規形の文字に変換する第２規則とを取得し、
前記第１の登録手段は、前記第２の変換手段が前記第１規則と前記第２規則とを利用して前記異表記形の文字を前記正規形の文字に変換した場合には、前記第１規則と前記第２規則それぞれの規則識別情報を前記正規形の文字に対応付けて前記第１の保持手段に登録することを特徴とする請求項３に記載の文書検索装置。
前記文書を取得する第４の取得手段と、
前記第４の取得手段が取得した前記文書を前記第２の保持手段に登録する第２の登録手段と、
前記第４の取得手段が取得した前記文書を分割し前記文字を得る第１の分割手段と、
前記第１の保持手段において対応付けられている前記異表記形の文字と前記正規形の文字とに基づいて、前記第１の分割手段により得られた前記文字を前記正規形の文字に変換する第３の変換手段と、
前記第３の変換手段により得られた前記正規形の文字と、前記第１の保持手段において、前記異表記形の文字および前記正規形の文字に対応付けられている前記規則識別情報と、前記第４の取得手段が取得した前記文書識別情報と、前記第１の分割手段により得られた前記文字の前記位置情報とを対応付けて前記第３の保持手段に登録する第３の登録手段と
をさらに備えたことを特徴とする請求項１から５のいずれか一項に記載の文書検索装置。
前記第３の保持手段は、前記正規形の文字として、ｎ文字単位の文字列であるグラムを保持することを特徴とする請求項１から６のいずれか一項に記載の文書検索装置。
前記第１の取得手段が取得した前記検索語を前記グラムに分割する第２の分割手段をさらに備え、
前記検索手段は、前記グラムを利用して検索を行うことを特徴とする請求項７に記載の文書検索装置。
文字の表記形を変換する変換規則を複数取得する取得手段と、
前記取得手段が取得した前記変換規則に基づいて、予め定められた表記形である正規形とは異なる表記形である異表記形の文字を前記正規形の文字に変換する第１の変換手段と、
前記異表記形の文字と、前記正規形の文字と、前記第１の変換手段が当該正規形の文字に変換するときに利用した前記変換規則を識別する規則識別情報とを対応付けて保持する第１の保持手段と、
検索対象となる文書を保持する第２の保持手段と、
前記第２の保持手段が保持する前記文書を分割し、文字を得る分割手段と、
前記第１の保持手段において対応付けられている前記異表記形の文字と前記正規形の文字とに基づいて、前記分割手段により得られた前記文字を前記正規形の文字に変換する第２の変換手段と、
前記第２の変換手段により得られた前記正規形の文字と、前記規則識別情報と、前記文書を識別する識別情報と、前記文字の位置情報とを対応付けて保持する第３の保持手段と
を備えたことを特徴とする文書検索装置。
ユーザにより入力された検索語を取得する第１の取得ステップと、
前記検索語の表記に関する検索条件を取得する第２の取得ステップと、
予め定められた表記形である正規形の文字と、前記正規形以外の表記形である異表記形の文字と、前記異表記形の文字を前記正規形の文字に変換する際に利用する変換規則を識別する規則識別情報とを対応付けて保持する第１の保持手段において対応付けられている前記正規形の文字と前記異表記形の文字とに基づいて、前記検索語を前記正規形で表記された検索語に変換する変換ステップと、
検索対象となる文書に含まれる文字に対応する前記正規形の文字と、前記規則識別情報と、前記文書を識別する文書識別情報と、前記文書に含まれる前記文字の位置情報とを対応付けて保持する第２の保持手段において対応付けられている前記正規形の文字および前記規則識別情報それぞれと、前記変換ステップにおいて得られた前記検索語および前記検索条件とを比較することにより、前記文書に含まれる前記文字を検索する検索ステップと
を有することを特徴とする文書検索方法。
文字の表記形を変換する変換規則を複数取得する取得ステップと、
前記取得ステップにおいて取得した前記変換規則に基づいて、予め定められた表記形である正規形とは異なる表記形である異表記形の文字を前記正規形の文字に変換する第１の変換ステップと、
前記異表記形の文字と、前記正規形の文字と、前記第１の変換ステップにおいて当該正規形の文字に変換するときに利用した前記変換規則を識別する規則識別情報とを対応付けて第１の保持手段に登録する第１の登録ステップと、
検索対象となる文書を第２の保持手段に登録する第２の登録ステップと、
前記第２の保持手段が保持する前記文書を分割し、文字を得る分割ステップと、
前記第１の保持手段において対応付けられている前記異表記形の文字と前記正規形の文字とに基づいて、前記分割手段により得られた前記文字を前記正規形の文字に変換する第２の変換ステップと、
前記第２の変換ステップにより得られた前記正規形の文字と、前記規則識別情報と、前記文書の文書識別情報と、前記文書に含まれる前記文字の位置情報とを対応付けて第３の保持手段に登録する第３の登録ステップと
を有することを特徴とする文書検索方法。
文書検索処理をコンピュータに実行させる文書検索プログラムであって、
ユーザにより入力された検索語を取得する第１の取得ステップと、
前記検索語の表記に関する検索条件を取得する第２の取得ステップと、
予め定められた表記形である正規形の文字と、前記正規形以外の表記形である異表記形の文字と、前記異表記形の文字を前記正規形の文字に変換する際に利用する変換規則を識別する規則識別情報とを対応付けて保持する第１の保持手段において対応付けられている前記正規形の文字と前記異表記形の文字とに基づいて、前記検索語を前記正規形で表記された検索語に変換する変換ステップと、
検索対象となる文書に含まれる文字に対応する前記正規形の文字と、前記規則識別情報と、前記文書を識別する文書識別情報と、前記文書に含まれる前記文字の位置情報とを対応付けて保持する第２の保持手段において対応付けられている前記正規形の文字および前記規則識別情報それぞれと、前記変換ステップにおいて得られた前記検索語および前記検索条件とを比較することにより、前記文書に含まれる前記文字を検索する検索ステップと
を有することを特徴とする文書検索プログラム。
文書検索処理をコンピュータに実行させる文書検索プログラムであって、
文字の表記形を変換する変換規則を複数取得する取得ステップと、
前記取得ステップにおいて取得した前記変換規則に基づいて、予め定められた表記形である正規形とは異なる表記形である異表記形の文字を前記正規形の文字に変換する第１の変換ステップと、
前記異表記形の文字と、前記正規形の文字と、前記第１の変換ステップにおいて当該正規形の文字に変換するときに利用した前記変換規則を識別する規則識別情報とを対応付けて第１の保持手段に登録する第１の登録ステップと、
検索対象となる文書を第２の保持手段に登録する第２の登録ステップと、
前記第２の保持手段が保持する前記文書を分割し、文字を得る分割ステップと、
前記第１の保持手段において対応付けられている前記異表記形の文字と前記正規形の文字とに基づいて、前記分割手段により得られた前記文字を前記正規形の文字に変換する第２の変換ステップと、
前記第２の変換ステップにより得られた前記正規形の文字と、前記規則識別情報と、前記文書の文書識別情報と、前記文書に含まれる前記文字の位置情報とを対応付けて第３の保持手段に登録する第３の登録ステップと
を有することを特徴とする文書検索プログラム。