JP4255253B2 - 文書検索システム及び方法 - Google Patents
文書検索システム及び方法 Download PDFInfo
- Publication number
- JP4255253B2 JP4255253B2 JP2002214832A JP2002214832A JP4255253B2 JP 4255253 B2 JP4255253 B2 JP 4255253B2 JP 2002214832 A JP2002214832 A JP 2002214832A JP 2002214832 A JP2002214832 A JP 2002214832A JP 4255253 B2 JP4255253 B2 JP 4255253B2
- Authority
- JP
- Japan
- Prior art keywords
- notation
- character string
- different notation
- pattern
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、文書データベースからユーザが所望する文書データを検索する文書検索システム、文書検索方法に関し、特に代表表記への正規化や、異表記展開処理を行なう検索システムに関する。
【0002】
【従来の技術】
日本語のように単語の区切りが明確でない言語で記述された文書データを対象として全文検索を行なう場合、文書データをインデックスに登録する方法として、任意の文字数による文字列単位に分割して登録する方法や、形態素解析による単語単位に分割する方法が用いられる。ユーザが入力した問い合わせテキストも、インデックスと同様の方法で分割される。
【0003】
一方、文書検索やキーワード検索に関しては、同一単語に対する異表記による検索洩れの問題がある。例えば、「ベネチア」を検索語として入力しても、異表記である「ベネツィア」を含む文書は検索できない。また、「インク」を検索語として入力しても、異表記である「インキ」を含む文書は検索できない。
【0004】
懸かる問題を解決する従来技術としては、特開平7−65013号公報がある。この手法では、入力キーワードと類語辞書の見出し語との異表記による不一致を回避するために、異表記辞書を用いて入力キーワードと見出し語をそれぞれ代表語に正規化している。
【0005】
【発明が解決しようとする課題】
しかしながら、このような手法を全文検索、特に文書データを文字列単位に分割する場合に用いることには、次のような問題がある。ここでは、「インク」「インキ」を異表記群とし、「インク」を代表表記とする異表記パターンを想定する。
【0006】
例えば、「アクリルインキ」という文字列を形態素解析で分割する場合、「アクリル」「インキ」という2単語に分割してから、「インキ」を代表表記である「インク」に正規化することができる。ところが、任意の文字数(ここでは2文字とする)で分割する場合、分割後に異表記処理を適用すると、「イン」「キ」のように分割されて、「インキ」を対象とする異表記パターンと一致しなくなってしまうため、分割前に異表記処理を適用して、「アクリルインク」と正規化した後に、分割する必要がある。
【0007】
一方、「メインキーボード」という文字列の場合、形態素解析を用いる場合は、「メイン」「キーボード」に分割されるため、「インキ」を対象とする異表記パターンとは一致しない。ところが、任意の文字数による分割の場合は、分割前に正規化が実施されるため、誤って「メインクーボード」のように正規化されてしまう。検索対象の文書データが、このように誤って正規化されて、インデックスに登録された場合、「キーボード」を検索語としても、検索できないことになる。
【0008】
本発明は、以上の問題を鑑みてなされたもので、文書データをインデックスに登録する際のテキスト分割手段に応じて、適切な異表記処理手段を提供することにより、異表記処理による検索洩れを回避することを目的とする。
また、共通の異表記パターンから、必要に応じたデータ形式を生成する手段を備えることにより、データ管理コストを低減することを目的とする。
【0009】
更には、検索洩れが生じやすいテキスト分割と異表記処理との組合せを回避することを目的とし、異表記パターンの効率的な使い分けを可能とすること、文字列単位のテキスト分割手段において、正規化による検索洩れを回避すると同時に、ある程度の検索効率と省メモリー化を実現すること、正規化による検索洩れを回避すると同時に、全ての異表記パターンを正規化した場合と同等の検索精度を得ること、を目的とする。
【0013】
【課題を解決するための手段】
請求項1の発明は、文書データ(文書データベースに格納された文書)に対して識別子を付与して格納する文書格納手段と、前記文書データからユーザが所望する文書(ユーザが検索したい文書)を検索するためのテキスト及びユーザが所望する分割単位を入力する入力手段と、前記分割単位として単語単位分割が指定された場合に、前記文書データ及び前記テキストを形態素解析による単語単位に分割し、分割した単語単位の文字列を該文字列の出現位置情報と共に抽出し、前記分割単位として文字列単位分割が指定された場合に、前記文書データ及び前記テキストを任意の文字数による文字列単位に分割し、分割した文字列単位の文字列を該文字列の出現位置情報と共に抽出する情報抽出手段と、前記情報抽出手段により抽出された文字列を類型化し、この文字列が出現する文書データの識別子及び出現位置情報を該類型化した文字列に対応付けてインデックスに記憶する索引登録手段と、前記入力手段によって入力されたテキストから前記情報抽出手段により抽出された文字列をもとにして検索条件を作成する検索条件作成手段と、前記索引登録手段に記憶されたインデックスを参照して前記検索条件作成手段により作成された検索条件を満たす文書データを検索する検索処理手段と、前記文書格納手段に格納された文書データから、前記検索処理手段により検索された文書データを取り出し、該取り出した文書データを出力する出力処理手段と、任意の文字列に対する異表記群及び該異表記群中の1表記を代表表記とする表記を対応付けて、異表記パターンとして格納する異表記パターン格納手段と、前記異表記パターンに基づき各異表記から代表表記への正規化規則及び各異表記から異表記群への展開規則を生成するための異表記規則生成手段と、を含み、単語単位分割が指定された場合に、前記情報抽出手段が、前記文字列を抽出してから、前記異表記規則生成手段は、前記正規化規則により前記文書データ及び前記テキストを代表表記に正規化して、前記展開規則を生成し、文字列単位分割が指定された場合に、前記異表記規則生成手段は、前記展開規則により前記テキストを異表記群に展開してから、前記情報抽出手段は、前記文字列を抽出し、前記異表記パターン格納手段は、前記異表記パターンについて代表表記への正規化により検索洩れが生じる危険度を正規化危険度として該異表記パターン及び該正規化危険度を対応付けて格納し、前記異表記規則生成手段は、前記異表記パターンに対応付けられた正規化危険度が設定された値を下回る場合には、該異表記パターンを対象として正規化規則を生成し、前記文書データ及び前記テキストを代表表記に正規化し、前記異表記規則生成手段は、前記異表記パターンに対応付けられた正規化危険度が設定された値以上である場合には、該設定値以上である異表記パターンを正規化し、該正規化されたパターンから展開規則を生成することを特徴とする。
【0017】
請求項2の発明は、文書格納手段が文書データに対して識別子を付与して格納する文書格納ステップと、入力手段が前記文書データからユーザが所望する文書を検索するためのテキスト及びユーザが所望する分割単位を入力する入力ステップと、情報抽出手段が前記分割単位として単語単位分割が指定された場合に、前記文書データ及び前記テキストを形態素解析による単語単位に分割し、分割した単語単位の文字列を該文字列の出現位置情報と共に抽出し、前記分割単位として文字列単位分割が指定された場合に、前記文書データ及び前記テキストを任意の文字数による文字列単位に分割し、分割した文字列単位の文字列を該文字列の出現位置情報と共に抽出する情報抽出ステップと、索引登録手段が前記情報抽出手段により抽出された文字列を類型化し、この文字列が出現する文書データの識別子及び出現位置情報を該類型化した文字列に対応付けてインデックスに記憶する索引登録ステップと、検索条件作成手段が前記入力ステップにより入力されたテキストから前記情報抽出ステップにより抽出された文字列をもとにして検索条件を作成する検索条件作成ステップと、検索処理手段が前記索引登録ステップに記憶されたインデックスを参照して前記検索条件作成ステップにより作成された検索条件を満たす文書データを検索する検索処理ステップと、出力処理手段が前記文書格納ステップに格納された文書データから、前記検索処理ステップにより検索された文書データを取り出し、該取り出した文書データを出力する出力処理ステップと、異表記パターン格納手段が任意の文字列に対する異表記群及び該異表記群中の1表記を代表表記とする表記を対応付けて、異表記パターンとして格納する異表記パターン格納ステップと、異表記規則生成手段が前記異表記パターンに基づき各異表記から代表表記への正規化規則及び各異表記から異表記群への展開規則を生成するための異表記規則生成ステップと、を含み、前記情報抽出ステップにおいて単語単位分割が指定された場合に、前記文字列を抽出してから、前記異表記規則生成ステップは、前記正規化規則により前記文書データ及び前記テキストを代表表記に正規化して、前記展開規則を生成し、前記情報抽出ステップにおいて文字列単位分割が指定された場合に、前記異表記規則生成ステップは、前記展開規則により前記テキストを異表記群に展開してから、該情報抽出ステップは、前記文字列を抽出し、前記異表記パターン格納ステップは、前記異表記パターンについて代表表記への正規化により検索洩れが生じる危険度を正規化危険度として該異表記パターン及び該正規化危険度を対応付けて格納し、
前記異表記規則生成ステップは、前記異表記パターンに対応付けられた正規化危険度が設定された値を下回る場合には、該異表記パターンを対象として正規化規則を生成し、前記文書データ及び前記テキストを代表表記に正規化し、前記異表記規則生成ステップは、前記異表記パターンに対応付けられた正規化危険度が設定された値以上である場合には、該設定値以上である異表記パターンを正規化し、該正規化されたパターンから展開規則を生成することを特徴とする。
【0023】
【発明の実施の形態】
図1は、本発明による文書検索システムのハードウェア構成を概略的に示すブロック図である。同図に示すように、この文書検索システム1は、各部を制御する機能を有する中央処理装置(CPU)2、ROMやRAM等で構成されるメモリ3、ハードディスク4、キーボードやマウス等で種々の指示を与える入力部5、CRT又は液晶ディスプレイ(LCD)等の表示部6、フロッピー(登録商標)ディスク(FD)に対するデータの読み書きを行なうフロッピー(登録商標)ディスクドライブ(FDD)7、CD−ROMからのデータの読み出しを行なうCD−ROMドライブ8等をそれぞれバス9によって接続して構成されている。
【0024】
図2は、本発明による文書検索システムの機能構成を概略的に示すブロック図である。同図に示すように、メモリ3には入力処理部10、テキスト処理部11、登録処理部12、検索条件作成部13、検索処理部14、出力処理部15が設けられ、中央処理装置2によって実行を制御される。また、ハードディスク4には、多数の文書データを文書データベースとして格納する文書データベース16、各文書データの索引(インデックス)を格納する索引登録手段(インデックス格納部)17、テキスト処理部11で使用される異表記パターン格納部18、および、テキスト処理部11において形態素解析処理を実施する場合に使用される形態素解析辞書19が形成されている。
【0025】
まず、このような構成における索引登録処理の概略を示す。入力処理部10は、入力部5から入力された登録の指示を登録処理部12に送る。登録処理部12は、入力処理部10から送られた指示に従って、文書データベース16から1文書ずつ文書データを読み出し、その読み出された文書データをテキスト処理部11に送る。テキスト処理部11は、システム起動時に指定されたテキスト分割処理のパラメータ(以下、テキスト分割パラメータ)に応じて、送られたデータを処理して索引語(文字列)を抽出し、出現位置情報と共に登録処理部12に返す。テキスト分割パラメータとして、単語単位の分割が指定された場合は、形態素解析辞書19を参照して形態素解析処理を行なう。
更に、テキスト処理部11は、テキスト分割パラメータに応じて、異表記パターン格納部18に格納された異表記パターンを元に正規化規則を生成してメモリ3に読み込み、異表記処理を行なう。
なお、本実施例では、索引登録時には展開規則は生成されない。
【0026】
次に、検索処理の概略を示す。入力処理部10は、入力部5から入力された検索の問い合わせテキストを、検索条件作成部13に送る。検索条件作成部13は、問い合わせテキストをテキスト処理部11に送る。テキスト処理部11は、索引登録時に指定されたテキスト分割処理のパラメータを参照し、これに応じて送られた問い合わせテキストを、索引登録時と同様に処理して検索語(文字列)を抽出し、検索条件作成部13に送る。テキスト分割パラメータとして、単語単位の分割が指定された場合は、形態素解析辞書19を参照して形態素解析処理を行なう。
更に、テキスト処理部11は、テキスト分割パラメータに応じて、異表記パターン格納部18に格納された異表記パターンを元に正規化規則もしくは展開規則を生成してメモリ3に読み込み、異表記処理を行い、検索条件作成部13に送る。検索条件作成部13は、送られた検索語を演算子の形式に変換し、検索処理部14が処理可能な検索条件を作成する。検索処理部14は、この検索条件に従って、インデックス格納部17に格納されたインデックスを検索し、検索条件を満たす文書を特定する。出力処理部15では、検索処理部14で検索されたインデックスに基づく文書の情報を表示部6へ表示する。必要であれば、文書データベース16にアクセスして、文書データを出力する。
【0027】
更に、記憶媒体であるハードディスク4、フロッピー(登録商標)ディスク(FD)、又はCD−ROMには、文書検索プログラム等の各種プログラムが記憶されており、文書検索システム1のシステム起動時にメモリ3に書き込まれる。
【0028】
図3は、登録処理部における文書登録処理の流れを概略的に示すフローチャートである。同図に示すように、文書登録処理は、まず、ハードディスク4の文書データベースに格納された文書データの中に、インデックス未作成の文書があるか否かを判断する(S1)。インデックス未作成の文書がない場合には(S1のN)、全ての検索対象の文書データのインデックスが作成されているので、文書登録処理を終了する。
【0029】
一方、インデックス未作成の文書がある場合には(S1のY)、インデックス未作成文書を読み込み(S2)、文書データベース16に格納された各文書をユニークに示す文書IDを取得し(S3)、文書データを文字列情報抽出処理に送る(S4)。終了指示であれば(S5のY)、処理中の文書は終了したことを示すので、S1に戻って登録処理を繰り返す。終了指示でなければ(S5のN)、文字列情報抽出処理から返された文字列情報をインデックスに登録し(S6)、S4に戻って文字列情報抽出処理を繰り返す。
【0030】
図4は、テキスト処理部における登録時の文字列情報抽出処理の流れを概略的に示すフローチャートである。同図に示すように、文字列情報抽出処理は、まず、登録モード指定か否かをチェックし、そうでなければ検索モードの処理を行なう(S10のN)。登録モードが指定されていれば(S10のY)、出現位置をゼロにセット(初期化)し(S11)、開始位置をセットする(S12)。文書末尾に達していれば(S13のY)、終了指示をリターンして(S14)、処理を終了する。文書末尾に達していない場合は(S13のN)、テキスト分割パラメータに応じて、文書を文字列単位もしくは単語単位に分割し、次のステップに進む。
【0031】
次のステップ(S15)では、テキスト分割パラメータをチェックし、単語単位分割であれば、索引語を抽出してから(S16)、異表記処理を行い(S17)、文字列単位分割であれば、異表記処理を行ってから(S18)、索引語を抽出する(S19)。単語単位分割が指定された場合は、抽出された索引語を代表表記に正規化する。文字列単位分割が指定されている場合は、索引語に対しては異表記処理を行なわないので、S18をスキップしてS19に進む。次のステップ(S20)では、抽出した索引語表記と出現位置を返し、出現位置を1つ進めて(S21)、S12に戻って処理を繰り返す。
【0032】
図5は、検索条件作成部から出力処理部における文書検索処理の流れを概略的に示すフローチャートである。同図に示すように、文書検索処理は、まず、入力部5から入力された問い合わせテキストを入力処理部10が検索条件作成部13に送り(S22)、検索条件作成部13は、送られた問い合わせテキストを文字列情報抽出処理に送る(S23)。文字列情報抽出処理から終了指示がなければ(S24のN)、文字列情報抽出処理が返した検索語を記憶し(S25)、S23に戻って処理を繰り返す。終了指示が返された場合(S24のY)、検索条件を作成して検索処理を行ない(S26)、検索結果を出力する(S27)。
【0033】
図6は、テキスト処理部における検索時の文字列情報抽出処理の流れを概略的に示すフローチャートである。同図に示すように、文字列情報抽出処理は、まず、検索モード指定か否かをチェックし、そうでなければ(S30のN)、登録モードの処理を行なう。
検索モードが指定されていれば(S30のY)、開始位置をセットし(S31)、テキスト末尾に達していれば(S32のY)、終了指示を返して(S33)、処理を終了する。テキスト末尾に達していない場合は(S32のN)、次のステップに進む。
【0034】
次のステップ(S34)では、テキスト分割パラメータをチェックし、単語単位分割であれば、検索語を抽出してから(S35)、異表記処理を行い(S36)、文字列単位分割であれば、異表記処理を行ってから(S37)、検索語を抽出する(S38)。単語単位分割が指定されている場合は、抽出された検索語を代表表記に正規化する。文字列単位分割が指定されている場合は、検索語を異表記群に展開する。次のステップ(S39)では、抽出した検索語を返し、S31に戻って処理を繰り返す。
【0035】
図7は、異表記パターン格納部に格納された異表記パターンの例を示す図である。この例では、代表表記を先頭としてコンマ「、」で区切られた異表記群と、0〜2の段階で表された正規化危険度とが対応付けられて格納されている。
本実施例では、格納されたパターンにおける文字列が、任意の単語末尾と、該単語に後続する単語先頭との連続に一致する可能性に応じて、請求項2に記載の危険度を設定している。具体的には、カタカナ1文字もしくは2文字目以降がカタカナ小文字または長音記号である文字列の場合は危険度0(検索洩れが発生する危険性がない)とし、危険度0には該当しないが、単語末尾・先頭の連続に一致する可能性が低い文字列の場合は危険度1(検索洩れが発生する危険性が低い)とし、危険度0に該当せず、単語末尾・先頭の連続に一致する可能性が高い文字列の場合は危険度2(検索洩れが発生する危険性が高い)とする。
図7においては、カタカナ1文字もしくは2文字目以降がカタカナ小文字である文字列で構成されるパターンDには危険度0が、危険度0には該当しないが、単語末尾・先頭の連続に一致する可能性が低いパターンB、Cには危険度1が、危険度0に該当せず、かつ、「イン」で終わる単語(例:メイン)および「ク」「キ」で始まる単語(例:キーボード)の末尾・先頭に一致する可能性が高いパターンAには危険度2を付与している。なお、大規模コーパスに基づいて単語末尾・先頭に生じやすい文字列の頻度を精密に測定するなどして、危険度の段階を更に詳細化することができる。
【0036】
図8は、異表記規則生成手段における、単語単位分割が選択された場合の正規化規則生成処理の流れを概略的に示すフローチャートである。
まず、テキスト分割パラメータで単語単位分割が指定されたかどうかをチェックし(S40)、そうでなければ(S40のN)、図10に示す文字列単位分割が選択された場合の展開規則生成処理に進む。単語単位分割が指定された場合は(S40のY)、最初に格納されている異表記パターンの第2表記から、同パターンの第1表記への変換を正規化規則としてメモリ3に書き出し、同パターンに記述されている表記数だけ、この処理を繰り返す(S41〜S44)。
格納されている全てのパターンについて上記処理を繰り返す(S45、S46)。
【0037】
図9は、図7に示した異表記パターンから、図8の正規化規則生成処理によって生成された正規化規則のイメージの例を示す図である。パターンAからは規則9−1が、パターンBからは規則9−2〜4が、パターンCからは規則9−5が、パターンDからは規則9−6が、それぞれ生成される。
【0038】
図10は、異表記規則生成手段における、文字列単位分割が選択された場合の展開規則生成処理の流れを概略的に示すフローチャートである。
最初に格納されている異表記パターンの第1表記から、同パターンの表記群への変換を展開規則としてメモリ3に書き出し、同パターンに記述されている表記数だけ、この処理を繰り返す(S50〜S53)。格納されている全てのパターンについて上記処理を繰り返す(S54、S55)。
【0039】
図11は、図7に示した異表記パターンから、図10の展開規則生成処理によって生成された展開規則のイメージの例を示す図である。パターンAからは規則11−1〜2が、パターンBからは規則11−3〜6が、パターンCからは規則11−7〜8が、パターンDからは規則11−9〜10が、それぞれ生成される。
【0040】
図12は、異表記規則生成手段における、正規化規則生成処理の流れを概略的に示すフローチャートである。ここで、正規化危険度に関する設定値をTとする。
最初に格納されている異表記パターンの正規化危険度がTを下回る場合は(S60のY)、同パターンの第2表記から第1表記への変換を正規化規則としてメモリ3に書き出し、同パターンに記述されている表記数だけ、この処理を繰り返す(S61〜S64)。格納されている全てのパターンについて上記処理を繰り返す(S65、S66)。
【0041】
図13は、異表記規則生成手段における、展開規則生成処理の流れを概略的に示すフローチャートである。
最初に格納されている異表記パターンの正規化危険度がT以上の場合は(S70のY)、同パターンの各表記を正規化し同一表記をまとめる(S71)。
次に、第1表記から、同パターンの表記群への変換を展開規則としてメモリ3に書き出し、同パターンに記述されている表記数だけ、この処理を繰り返す(S72〜S75)。格納されている全てのパターンについて上記処理を繰り返す(S76、S77)。
【0042】
図14は、図7に示した異表記パターンから、図12の正規化規則生成処理によって、T=1の設定で生成された正規化規則のイメージの例を示す図である。正規化危険度が1よりも小さいパターンDから、規則14−1が生成される。
【0043】
図15は、図7に示した異表記パターンから、図13の展開規則生成処理によって、T=1の設定で生成された展開規則のイメージの例を示す図である。正規化危険度が1以上であるパターンAからは規則15−1〜2が、パターンBからは規則15−3〜4が、パターンCからは規則15−5〜6が、それぞれ生成される。
パターンBについては、規則14−1によって。第3、第4表記の「ヴェネチア」「ヴェネツィア」が、それぞれ「ベネチア」「ベネツィア」に正規化されて、第1、第2表記と同一になるため、まとめられて規則が簡略化されている。
【0044】
図16は、図7に示した異表記パターンから、図12の正規化規則生成処理によって、T=2の設定で生成された正規化規則のイメージの例を示す図である。正規化危険度が2よりも小さいパターンBから、規則16−1〜3が、パターンCから規則16−4が、パターンDから規則16−5が、それぞれ生成される。
【0045】
図17は、図7に示した異表記パターンから、図13の展開規則生成処理によって、T=2の設定で生成された展開規則のイメージの例を示す図である。正規化危険度が2以上であるパターンAから規則17−1〜2が生成される。
【0046】
次に、本実施例による文書検索処理の具体例を示す。
1.検索語「インク」で「アクリルインキ」を含む文書を検索する場合
a.単語単位分割で、図9の規則による正規化処理を行なう場合
索引登録時には、「アクリルインキ」は「アクリル」「インキ」と分割され、規則9−1により、「インキ」は「インク」に正規化されて、インデックスに登録される。検索語「インク」と索引語「インク」がマッチし、文書が検索される。
b.文字列単位分割で、図11の規則による展開処理を行なう場合
索引登録時には正規化処理は行なわず、「アクリルインキ」はそのまま任意の文字数に分割されて、インデックスに登録される。検索語「インク」は、規則11−1により「インク」「インキ」に展開され、後者が索引語「インキ」とマッチし(実際には部分文字列の連続としてマッチする)、文書が検索される。
c.文字列単位分割で、図14の規則による正規化処理と図15の規則による展開処理を行なう場合
図14でマッチする規則はないため、bの場合と同様である。
d.文字列単位分割で、図16の規則による正規化処理と図17の規則による展開処理を行なう場合
図16でマッチする規則はないため、bの場合と同様である。
【0047】
2.検索語「キーボード」で「メインキーボード」を含む文書を検索する場合
a.単語単位分割で、図9の規則による正規化処理を行なう場合
索引登録時には、「メインキーボード」は「メイン」「キーボード」と分割されて、インデックスに登録される(図9でマッチする規則はない)。検索語「キーボード」と索引語「キーボード」がマッチし、文書が検索される。
b.文字列単位分割で、図11の規則による展開処理を行なう場合
索引登録時には正規化処理は行なわず、「メインキーボード」はそのまま任意の文字数に分割されて、インデックスに登録される。検索語「キーボード」と索引語「キーボード」がマッチし(実際には部分文字列の連続としてマッチする)、文書が検索される。
(索引登録時に正規化処理を行なった場合、規則9−1により「メインクーボード」に正規化される弊害が生じてしまうが、この場合は回避される。)
c.文字列単位分割で、図14の規則による正規化処理と図15の規則による展開処理を行なう場合
図14でマッチする規則はないため、bの場合と同様である。
d.文字列単位分割で、図16の規則による正規化処理と図17の規則による展開処理を行なう場合
図16でマッチする規則はないため、bの場合と同様である。
【0048】
3.検索語「ベネチア」で「ヴェネツィア」を含む文書を検索する場合
a.単語単位分割で、図9の規則による正規化処理を行なう場合
索引登録時には、規則9−1により「ヴェネツィア」は「ベネチア」に正規化されて、インデックスに登録される。(1語であるため分割されない。)検索語「ベネチア」と索引語「ベネチア」がマッチし、文書が検索される。
b.文字列単位分割で、図11の規則による展開処理を行なう場合
索引登録時には正規化処理は行なわず、「ヴェネツィア」はそのまま任意の文字数に分割されて、インデックスに登録される。検索語「ベネチア」は、規則11−3により「ベネチア」「ベネツィア」「ヴェネチア」「ヴェネツィア」に展開され、4番目の表記が索引語「ヴェネツィア」とマッチし(実際には部分文字列の連続としてマッチする)、文書が検索される。
c.文字列単位分割で、図14の規則による正規化処理と図15の規則による展開処理を行なう場合
索引登録時には、規則14−1により「ヴェネツィア」は「ベネツィア」に正規化されて、インデックスに登録される。検索語「ベネチア」は、規則15−3により「ベネチア」「ベネツィア」に展開され、後者が索引語「ベネツィア」とマッチし(実際には部分文字列の連続としてマッチする)、文書が検索される。検索結果はbと同じだが、検索語の展開数が抑えられるため、bよりも高速に検索できる。
d.文字列単位分割で、図16の規則による正規化処理と図17の規則による展開処理を行なう場合
索引登録時に、規則16−3により「ヴェネツィア」は「ベネチア」に正規化されて、インデックスに登録される。検索語「ベネチア」と索引語「ベネチア」がマッチし、文書が検索される。この場合、正規化処理の対象となる「ヴェネツィア」が単語末尾・先頭の連続に一致する可能性がある場合、末尾あるいは先頭の単語が単独で検索語となった場合に検索洩れが生じる可能性があるが、「ネツィア」もしくは「ツィア」で始まる単語は滅多にないことが予想されるため、検索洩れが生じる可能性は低い。
【0049】
なお、本実施の形態においては、文書検索システム1としてスタンドアロン環境のシステムを示したが、これに限るものではなく、クライアント/サーバ・システムとして文書検索システム1を構築するようにしても良い。その場合、文書検索システム1はサーバ側に設け、クライアントの入力部5からの検索条件等の入力をサーバにある文書検索システム1の入力処理部10へ送信し、検索結果は出力処理部15から要求元のクライアントへ返信する。クライアントはその結果をディスプレイ等の表示部6へ表示するように構成する。
【0050】
以上、本発明の文書検索システムにおける各実施形態における各機能を中心に説明してきたが、本発明は、文書検索方法としての形態をとることも可能である。また、この各機能を有する文書検索システムと同様に、コンピュータに文書検索システムとして機能させるためのプログラムとしての形態も、あるいは、そのプログラムを記録したコンピュータ読み取り可能な記録媒体としての形態も可能である。
【0051】
本発明による文書検索の機能を実現させるためのプログラムを記憶した記録媒体の実施形態を説明する。記録媒体としては、具体的には、CD−ROM、光磁気ディスク、DVD−ROM、FD、フラッシュメモリ、メモリカードや、メモリスティック及びその他各種ROMやRAMが想定でき、これら記録媒体に上述した本発明の各実施形態のシステムの機能をコンピュータに実行させ、文書検索の機能を実現するためのプログラムを記録して流通させることにより、当該機能の実現を容易にする。そしてコンピュータ等の情報処理装置に上記のごとくの記録媒体を装着して情報処理装置によりプログラムを読み出すか、若しくは情報処理装置が備えている記憶媒体に当該プログラムを記憶させておき、必要に応じて読み出すことにより、本発明に関わる文書検索の機能を実行することができる。
【0052】
【発明の効果】
上記のように、本発明により、文書データをインデックスに登録する際のテキスト分割手段に応じて、適切な異表記処理手段を提供することが可能となり、異表記処理による検索洩れを回避することができる。
また、共通の異表記パターンから、必要に応じたデータ形式を生成することが可能となり、データ管理コストを低減することができる。
より具体的には、検索洩れが生じやすいテキスト分割と異表記処理との組合せを回避することが可能となる。
異表記パターンの効率的な使い分けが可能となる。
文字列単位のテキスト分割において、正規化による検索洩れを回避すると同時に、ある程度の検索効率と省メモリー化を実現することが可能となる。
正規化による検索洩れを回避すると同時に、全ての異表記パターンを正規化した場合と同等の検索精度を得ることが可能となる。
【図面の簡単な説明】
【図1】 本発明による文書検索システムのハードウェア構成を概略的に示すブロック図である。
【図2】 本発明による文書検索システムの機能構成を概略的に示すブロック図である。
【図3】 登録処理部における文書登録処理の流れを概略的に示すフローチャートである。
【図4】 テキスト処理部における登録時の文字列情報抽出処理の流れを概略的に示すフローチャートである。
【図5】 検索条件作成部から出力処理部における文書検索処理の流れを概略的に示すフローチャートである。
【図6】 テキスト処理部における検索時の文字列情報抽出処理の流れを概略的に示すフローチャートである。
【図7】 異表記パターン格納部に格納された異表記パターンの例を示す図である。
【図8】 異表記規則生成手段における、単語単位分割が指定された場合の正規化規則生成処理の流れを概略的に示すフローチャートである。
【図9】 図7に示した異表記パターンから、図8の正規化規則生成処理を用いて生成した正規化規則のイメージの図を示す図である。
【図10】 異表記規則生成手段における、文字列単位分割が指定された場合の展開規則生成処理の流れを概略的に示すフローチャートである。
【図11】 図7に示したパターンから、図10の展開規則生成処理を用いて生成した展開規則のイメージの例を示す図である。
【図12】 異表記規則生成手段における、正規化規則生成処理の流れを概略的に示すフローチャートである。
【図13】 異表記規則生成手段における、展開規則生成処理の流れを概略的に示すフローチャートである。
【図14】 図7に示した異表記パターンから、図12の正規化規則生成処理によって、T=1の設定で生成した正規化規則のイメージの例を示す図である。
【図15】 図7に示した異表記パターンから、図13の展開規則生成処理によって、T=1の設定で生成した展開規則のイメージの例を示す図である。
【図16】 図7に示した異表記パターンから、図12の正規化規則生成処理によって、T=2の設定で生成した正規化規則のイメージの例を示す図である。
【図17】 図7に示した異表記パターンから、図13の展開規則生成処理によって、T=2の設定で生成した展開規則のイメージの例を示す図である。
【符号の説明】
1…文書検索システム、2…中央処理装置(CPU)、3…メモリ、4…ハードディスク、5…入力部、6…表示部、7…フロッピー(登録商標)ディスクドライブ(FDD)、8…CD−ROMドライブ、9…バス、10…入力処理部、11…テキスト処理部、12…登録処理部、13…検索条件作成部、14…検索処理部、15…出力処理部、16…文書格納手段(文書データベース)、17…索引登録手段(インデックス格納部)、18…異表記パターン格納部、19…形態素解析辞書。
Claims (2)
- 文書データに対して識別子を付与して格納する文書格納手段と、
前記文書データからユーザが所望する文書を検索するためのテキスト及びユーザが所望する分割単位を入力する入力手段と、
前記分割単位として単語単位分割が指定された場合に、前記文書データ及び前記テキストを形態素解析による単語単位に分割し、分割した単語単位の文字列を該文字列の出現位置情報と共に抽出し、前記分割単位として文字列単位分割が指定された場合に、前記文書データ及び前記テキストを任意の文字数による文字列単位に分割し、分割した文字列単位の文字列を該文字列の出現位置情報と共に抽出する情報抽出手段と、
前記情報抽出手段により抽出された文字列を類型化し、この文字列が出現する文書データの識別子及び出現位置情報を該類型化した文字列に対応付けてインデックスに記憶する索引登録手段と、
前記入力手段によって入力されたテキストから前記情報抽出手段により抽出された文字列をもとにして検索条件を作成する検索条件作成手段と、
前記索引登録手段に記憶されたインデックスを参照して前記検索条件作成手段により作成された検索条件を満たす文書データを検索する検索処理手段と、
前記文書格納手段に格納された文書データから、前記検索処理手段により検索された文書データを取り出し、該取り出した文書データを出力する出力処理手段と、
任意の文字列に対する異表記群及び該異表記群中の1表記を代表表記とする表記を対応付けて、異表記パターンとして格納する異表記パターン格納手段と、
前記異表記パターンに基づき各異表記から代表表記への正規化規則及び各異表記から異表記群への展開規則を生成するための異表記規則生成手段と、
を含み、
単語単位分割が指定された場合に、前記情報抽出手段が、前記文字列を抽出してから、前記異表記規則生成手段は、前記正規化規則により前記文書データ及び前記テキストを代表表記に正規化して、前記展開規則を生成し、
文字列単位分割が指定された場合に、前記異表記規則生成手段は、前記展開規則により前記テキストを異表記群に展開してから、前記情報抽出手段は、前記文字列を抽出し、
前記異表記パターン格納手段は、前記異表記パターンについて代表表記への正規化により検索洩れが生じる危険度を正規化危険度として該異表記パターン及び該正規化危険度を対応付けて格納し、
前記異表記規則生成手段は、前記異表記パターンに対応付けられた正規化危険度が設定された値を下回る場合には、該異表記パターンを対象として正規化規則を生成し、前記文書データ及び前記テキストを代表表記に正規化し、
前記異表記規則生成手段は、前記異表記パターンに対応付けられた正規化危険度が設定された値以上である場合には、該設定値以上である異表記パターンを正規化し、該正規化されたパターンから展開規則を生成することを特徴とする文書検索システム。 - 文書格納手段が文書データに対して識別子を付与して格納する文書格納ステップと、
入力手段が前記文書データからユーザが所望する文書を検索するためのテキスト及びユーザが所望する分割単位を入力する入力ステップと、
情報抽出手段が前記分割単位として単語単位分割が指定された場合に、前記文書データ及び前記テキストを形態素解析による単語単位に分割し、分割した単語単位の文字列を該文字列の出現位置情報と共に抽出し、前記分割単位として文字列単位分割が指定された場合に、前記文書データ及び前記テキストを任意の文字数による文字列単位に分割し、分割した文字列単位の文字列を該文字列の出現位置情報と共に抽出する情報抽出ステップと、
索引登録手段が前記情報抽出手段により抽出された文字列を類型化し、この文字列が出現する文書データの識別子及び出現位置情報を該類型化した文字列に対応付けてインデックスに記憶する索引登録ステップと、
検索条件作成手段が前記入力ステップにより入力されたテキストから前記情報抽出ステップにより抽出された文字列をもとにして検索条件を作成する検索条件作成ステップと、
検索処理手段が前記索引登録ステップに記憶されたインデックスを参照して前記検索条件作成ステップにより作成された検索条件を満たす文書データを検索する検索処理ステップと、
出力処理手段が前記文書格納ステップに格納された文書データから、前記検索処理ステップにより検索された文書データを取り出し、該取り出した文書データを出力する出力処理ステップと、
異表記パターン格納手段が任意の文字列に対する異表記群及び該異表記群中の1表記を代表表記とする表記を対応付けて、異表記パターンとして格納する異表記パターン格納ステップと、
異表記規則生成手段が前記異表記パターンに基づき各異表記から代表表記への正規化規則及び各異表記から異表記群への展開規則を生成するための異表記規則生成ステップと、
を含み、
前記情報抽出ステップにおいて単語単位分割が指定された場合に、前記文字列を抽出してから、前記異表記規則生成ステップは、前記正規化規則により前記文書データ及び前記テキストを代表表記に正規化して、前記展開規則を生成し、
前記情報抽出ステップにおいて文字列単位分割が指定された場合に、前記異表記規則生成ステップは、前記展開規則により前記テキストを異表記群に展開してから、該情報抽出ステップは、前記文字列を抽出し、
前記異表記パターン格納ステップは、前記異表記パターンについて代表表記への正規化により検索洩れが生じる危険度を正規化危険度として該異表記パターン及び該正規化危険度を対応付けて格納し、
前記異表記規則生成ステップは、前記異表記パターンに対応付けられた正規化危険度が設定された値を下回る場合には、該異表記パターンを対象として正規化規則を生成し、前記文書データ及び前記テキストを代表表記に正規化し、
前記異表記規則生成ステップは、前記異表記パターンに対応付けられた正規化危険度が設定された値以上である場合には、該設定値以上である異表記パターンを正規化し、該正規化されたパターンから展開規則を生成することを特徴とする文書検索システムによる文書検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002214832A JP4255253B2 (ja) | 2001-11-27 | 2002-07-24 | 文書検索システム及び方法 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001-360207 | 2001-11-27 | ||
JP2001360207 | 2001-11-27 | ||
JP2002214832A JP4255253B2 (ja) | 2001-11-27 | 2002-07-24 | 文書検索システム及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003228579A JP2003228579A (ja) | 2003-08-15 |
JP4255253B2 true JP4255253B2 (ja) | 2009-04-15 |
Family
ID=27759308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002214832A Expired - Fee Related JP4255253B2 (ja) | 2001-11-27 | 2002-07-24 | 文書検索システム及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4255253B2 (ja) |
-
2002
- 2002-07-24 JP JP2002214832A patent/JP4255253B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2003228579A (ja) | 2003-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4366108B2 (ja) | 文書検索装置、文書検索方法及びコンピュータプログラム | |
JP3598211B2 (ja) | 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体 | |
JP2007517338A (ja) | サーチ品質の改善システムおよび改善方法 | |
JP4160548B2 (ja) | 文書要約作成システム、方法、及びプログラム | |
JP4001283B2 (ja) | 形態素解析装置および自然言語処理装置 | |
JPH11224258A (ja) | 画像検索装置及びその方法、コンピュータ可読メモリ | |
JP4065346B2 (ja) | 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4255253B2 (ja) | 文書検索システム及び方法 | |
WO2009113289A1 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
JP2004334341A (ja) | 文書検索装置、文書検索方法及び記録媒体 | |
JP2002251412A (ja) | 文書検索装置および方法ならびに記憶媒体 | |
JPH09198404A (ja) | 文書処理方法及び装置 | |
JP2004086307A (ja) | 情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラム | |
JP2003303194A (ja) | 慣用句辞書作成装置、検索用インデックス作成装置、文書検索装置、それらの方法、プログラム及び記録媒体 | |
JP2002132789A (ja) | 文書検索方法 | |
JP5733285B2 (ja) | 検索装置、検索方法及びプログラム | |
JP2004259210A (ja) | 文書検索装置、文書検索方法、文書検索プログラム、及び記憶媒体 | |
JP2010146273A (ja) | 文書検索装置およびプログラム | |
JP2000029901A (ja) | 画像検索装置及び方法 | |
JPH10283368A (ja) | 情報処理装置及びその方法 | |
JP2005158044A (ja) | 情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置 | |
JP2004318328A (ja) | 情報検索方法 | |
JP3511724B2 (ja) | 文書検索方法 | |
JP7022789B2 (ja) | 文書検索装置、文書検索方法およびコンピュータプログラム | |
JP2011154602A (ja) | 文字列管理装置、文字列登録方法、文字列検索方法および文字列管理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050322 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080609 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080617 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080812 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081111 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090127 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090127 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120206 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130206 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130206 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140206 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |