JP2008084132A - 文書検索装置、文書検索方法および文書検索プログラム - Google Patents

文書検索装置、文書検索方法および文書検索プログラム Download PDF

Info

Publication number
JP2008084132A
JP2008084132A JP2006265094A JP2006265094A JP2008084132A JP 2008084132 A JP2008084132 A JP 2008084132A JP 2006265094 A JP2006265094 A JP 2006265094A JP 2006265094 A JP2006265094 A JP 2006265094A JP 2008084132 A JP2008084132 A JP 2008084132A
Authority
JP
Japan
Prior art keywords
character
document
rule
conversion
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006265094A
Other languages
English (en)
Inventor
Takayuki Miyazawa
隆幸 宮澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006265094A priority Critical patent/JP2008084132A/ja
Priority to US11/889,707 priority patent/US20080177729A1/en
Publication of JP2008084132A publication Critical patent/JP2008084132A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】検索速度の低下を防ぎつつ、ユーザの希望に合った検索条件に対する検索を行うことのできる文書検索装置を提供する。
【解決手段】正規形の文字と、異表記形の文字と、正規形の文字に変換する際に利用する変換規則を識別する規則識別情報とを対応付けて保持する第1の保持手段201と、文書に含まれる文字に対応する正規形の文字と、規則識別情報と、文書識別情報と、前記文字の位置情報とを対応付けて保持する第3の保持手段202と、ユーザにより入力された検索語と検索条件とを取得する取得手段105と、検索語を正規形の検索語に変換する第1の変換手段106と、正規形の検索語および検索条件それぞれを、第3の保持手段202において対応付けられている正規形の文字および規則識別情報と比較することにより、文字を検索する検索手段107とを備えた。
【選択図】 図1

Description

本発明は、登録された文書を検索する文書検索装置、文書検索方法および文書検索プログラムに関するものである。
従来から、登録された文書群から検索キーワードとして指定された文字列を含む文書を検索する、いわゆる全文検索システムが知られている。この全文検索システムを実現する方法としては、(1)登録文をn文字ごとに切り出した単語単位で索引を作る方法(n−gram法)と、(2)形態素解析を用いて認識された単語単位で索引を作る方法と、(3)索引は作らずに文書そのものを直接検索する方法の3つが代表的なものである。
全文検索システムの機能の一つとして、異表記検索機能と呼ばれる機能がある。これは検索漏れの可能性を減らすため、検索キーワードに含まれる異表記形、例えば英大文字と英小文字とか、漢字の旧字体と新字体などを区別せずに検索を実行する機能である。
このような異表記検索をn−gram法で実行する方法も知られている。例えば、「特許文献1」では、n−gram索引と形態素索引の両方の索引を使用した場合の異表記検索方法として、形態素索引の方は表記を正規化して格納し、n−gram索引では検索時に表記を展開する方法が提案されている。
また、「特許文献2」では、異表記文字に異表記形と正規形それぞれにコード番号を振り、それぞれに対して逆引き索引を用意しておき、検索時に異表記検索を行う場合は正規形のコード番号で、また異表記検索を行わない場合は異表記形のコード番号で逆引き索引を引くことで、検索時に異表記検索を行うか行わないかの指定を可能にしている。
特開2003−228579号公報 特開2004−199282号公報
このように、n−gram法で異表記検索を行う方法として、索引作成時に表記を正規化して格納する方法や、原文表記と正規化表記のを両方索引として登録する方法、検索時に可能な表記を展開して検索する方法がある。
格納時に正規化する場合、厳密一致検索のためには索引の情報だけでは検索できず、原文の表記を確認する必要がある。また、検索時に表記を展開する場合は、展開する表記毎に索引参照回数が増え、かつ表記ごとの索引検索結果をマージする処理が発生するため速度が低下する。
一方、多様な異表記形を同一文字として、または別の文字として検索するなどユーザの希望に合った検索条件を指定したいという要求がある。
本発明は、上記に鑑みてなされたものであって、検索速度の低下を防ぎつつ、ユーザの希望に合った検索条件に対する検索を行うことのできる文書検索装置、文書検索方法および文書検索プログラムを提供する。
上述した課題を解決し、目的を達成するために、本発明は、文書検索装置であって、予め定められた表記形である正規形の文字と、前記正規形以外の表記形である異表記形の文字と、前記異表記形の文字を前記正規形の文字に変換する際に利用する変換規則を識別する規則識別情報とを対応付けて保持する第1の保持手段と、検索対象となる文書を保持する第2の保持手段と、前記第2の保持手段が保持する前記文書に含まれる文字に対応する前記正規形の文字と、前記規則識別情報と、前記文書を識別する文書識別情報と、前記文書に含まれる前記文字の位置情報とを対応付けて保持する第3の保持手段と、ユーザにより入力された検索語を取得する第1の取得手段と、前記検索語の表記に関する検索条件を取得する第2の取得手段と、前記第1の保持手段において対応付けられている前記正規形の文字と前記異表記形の文字とに基づいて、前記検索語を前記正規形で表記された検索語に変換する第1の変換手段と、前記第1の変換手段により得られた前記検索語および前記検索条件それぞれを、前記第3の保持手段において対応付けられている前記正規形の文字および前記規則識別情報と比較することにより、前記文書に含まれる文字を検索する検索手段とを備えたことを特徴とする。
また、本発明の他の形態は、文書検索装置であって、文字の表記形を変換する変換規則を複数取得する取得手段と、前記取得手段が取得した前記変換規則に基づいて、予め定められた表記形である正規形とは異なる表記形である異表記形の文字を前記正規形の文字に変換する第1の変換手段と、前記異表記形の文字と、前記正規形の文字と、前記第1の変換手段が当該正規形の文字に変換するときに利用した前記変換規則を識別する規則識別情報とを対応付けて保持する第1の保持手段と、検索対象となる文書を保持する第2の保持手段と、前記第2の保持手段が保持する前記文書を分割し、文字を得る分割手段と、前記第1の保持手段において対応付けられている前記異表記形の文字と前記正規形の文字とに基づいて、前記分割手段により得られた前記文字を前記正規形の文字に変換する第2の変換手段と、前記第2の変換手段により得られた前記正規形の文字と、前記規則識別情報と、前記文書を識別する識別情報と、前記文字の位置情報とを対応付けて保持する第3の保持手段とを備えたことを特徴とする。
また、本発明の他の形態は、文書検索方法であって、ユーザにより入力された検索語を取得する第1の取得ステップと、前記検索語の表記に関する検索条件を取得する第2の取得ステップと、予め定められた表記形である正規形の文字と、前記正規形以外の表記形である異表記形の文字と、前記異表記形の文字を前記正規形の文字に変換する際に利用する変換規則を識別する規則識別情報とを対応付けて保持する第1の保持手段において対応付けられている前記正規形の文字と前記異表記形の文字とに基づいて、前記検索語を前記正規形で表記された検索語に変換する変換ステップと、検索対象となる文書に含まれる文字に対応する前記正規形の文字と、前記規則識別情報と、前記文書を識別する文書識別情報と、前記文書に含まれる前記文字の位置情報とを対応付けて保持する第2の保持手段において対応付けられている前記正規形の文字および前記規則識別情報それぞれと、前記変換ステップにおいて得られた前記検索語および前記検索条件とを比較することにより、前記文書に含まれる前記文字を検索する検索ステップとを有することを特徴とする。
また、本発明の他の形態は、文書検索方法であって、文字の表記形を変換する変換規則を複数取得する取得ステップと、前記取得ステップにおいて取得した前記変換規則に基づいて、予め定められた表記形である正規形とは異なる表記形である異表記形の文字を前記正規形の文字に変換する第1の変換ステップと、前記異表記形の文字と、前記正規形の文字と、前記第1の変換ステップにおいて当該正規形の文字に変換するときに利用した前記変換規則を識別する規則識別情報とを対応付けて第1の保持手段に登録する第1の登録ステップと、検索対象となる文書を第2の保持手段に登録する第2の登録ステップと、前記第2の保持手段が保持する前記文書を分割し、文字を得る分割ステップと、前記第1の保持手段において対応付けられている前記異表記形の文字と前記正規形の文字とに基づいて、前記分割手段により得られた前記文字を前記正規形の文字に変換する第2の変換ステップと、前記第2の変換ステップにより得られた前記正規形の文字と、前記規則識別情報と、前記文書の文書識別情報と、前記文書に含まれる前記文字の位置情報とを対応付けて第3の保持手段に登録する第3の登録ステップとを有することを特徴とする。
また、本発明の他の形態は、文書検索処理をコンピュータに実行させる文書検索プログラムであって、ユーザにより入力された検索語を取得する第1の取得ステップと、前記検索語の表記に関する検索条件を取得する第2の取得ステップと、予め定められた表記形である正規形の文字と、前記正規形以外の表記形である異表記形の文字と、前記異表記形の文字を前記正規形の文字に変換する際に利用する変換規則を識別する規則識別情報とを対応付けて保持する第1の保持手段において対応付けられている前記正規形の文字と前記異表記形の文字とに基づいて、前記検索語を前記正規形で表記された検索語に変換する変換ステップと、検索対象となる文書に含まれる文字に対応する前記正規形の文字と、前記規則識別情報と、前記文書を識別する文書識別情報と、前記文書に含まれる前記文字の位置情報とを対応付けて保持する第2の保持手段において対応付けられている前記正規形の文字および前記規則識別情報それぞれと、前記変換ステップにおいて得られた前記検索語および前記検索条件とを比較することにより、前記文書に含まれる前記文字を検索する検索ステップとを有することを特徴とする。
また、本発明の他の形態は、文書検索処理をコンピュータに実行させる文書検索プログラムであって、文字の表記形を変換する変換規則を複数取得する取得ステップと、前記取得ステップにおいて取得した前記変換規則に基づいて、予め定められた表記形である正規形とは異なる表記形である異表記形の文字を前記正規形の文字に変換する第1の変換ステップと、前記異表記形の文字と、前記正規形の文字と、前記第1の変換ステップにおいて当該正規形の文字に変換するときに利用した前記変換規則を識別する規則識別情報とを対応付けて第1の保持手段に登録する第1の登録ステップと、検索対象となる文書を第2の保持手段に登録する第2の登録ステップと、前記第2の保持手段が保持する前記文書を分割し、文字を得る分割ステップと、前記第1の保持手段において対応付けられている前記異表記形の文字と前記正規形の文字とに基づいて、前記分割手段により得られた前記文字を前記正規形の文字に変換する第2の変換ステップと、前記第2の変換ステップにより得られた前記正規形の文字と、前記規則識別情報と、前記文書の文書識別情報と、前記文書に含まれる前記文字の位置情報とを対応付けて第3の保持手段に登録する第3の登録ステップとを有することを特徴とする。
本発明にかかる文書検索装置によれば、第1の保持手段が、予め定められた表記形である正規形の文字と、正規形以外の表記形である異表記形の文字と、異表記形の文字を正規形の文字に変換する際に利用する変換規則を識別する規則識別情報とを対応付けて保持し、第2の保持手段が、検索対象となる文書を保持し、第3の保持手段が、第2の保持手段が保持する文書に含まれる文字に対応する正規形の文字と、規則識別情報と、文書を識別する文書識別情報と、文書に含まれる文字の位置情報とを対応付けて保持し、第1の取得手段が、ユーザにより入力された検索語を取得し、第2の取得手段が、検索語の表記に関する検索条件を取得し、第1の変換手段が、第1の保持手段において対応付けられている正規形の文字と異表記形の文字とに基づいて、検索語を正規形で表記された検索語に変換し、検索手段が、第1の変換手段により得られた検索語および検索条件それぞれを、第3の保持手段において対応付けられている正規形の文字および規則識別情報と比較することにより、文書に含まれる文字を検索するので、検索速度の低下を防ぎつつ、ユーザの希望に合った検索条件に対する検索を行うことができるという効果を奏する。
また、本発明の他の形態にかかる文書検索装置によれば、取得手段が、文字の表記形を変換する変換規則を複数取得し、第1の変換手段が、取得手段が取得した変換規則に基づいて、予め定められた表記形である正規形とは異なる表記形である異表記形の文字を正規形の文字に変換し、第1の保持手段が、異表記形の文字と、正規形の文字と、第1の変換手段が当該正規形の文字に変換するときに利用した変換規則を識別する規則識別情報とを対応付けて保持し、第2の保持手段が、検索対象となる文書を保持し、分割手段が、第2の保持手段が保持する文書を分割し、文字を得て、第2の変換手段が、第1の保持手段において対応付けられている異表記形の文字と正規形の文字とに基づいて、分割手段により得られた文字を正規形の文字に変換し、第3の保持手段が、第2の変換手段により得られた正規形の文字と、規則識別情報と、文書を識別する識別情報と、文字の位置情報とを対応付けて保持するので、検索速度の低下を防ぎつつ、ユーザの希望に合った検索条件に対する検索を行うことができるという効果を奏する。
また、本発明の他の形態にかかる文書検索方法によれば、第1の取得ステップにおいて、ユーザにより入力された検索語を取得し、第2の取得ステップにおいて、検索語の表記に関する検索条件を取得し、変換ステップにおいて、予め定められた表記形である正規形の文字と、正規形以外の表記形である異表記形の文字と、異表記形の文字を正規形の文字に変換する際に利用する変換規則を識別する規則識別情報とを対応付けて保持する第1の保持手段において対応付けられている正規形の文字と異表記形の文字とに基づいて、検索語を正規形で表記された検索語に変換し、検索ステップにおいて、検索対象となる文書に含まれる文字に対応する正規形の文字と、規則識別情報と、文書を識別する文書識別情報と、文書に含まれる文字の位置情報とを対応付けて保持する第2の保持手段において対応付けられている正規形の文字および規則識別情報それぞれと、変換ステップにおいて得られた検索語および検索条件とを比較することにより、文書に含まれる文字を検索するので、検索速度の低下を防ぎつつ、ユーザの希望に合った検索条件に対する検索を行うことができるという効果を奏する。
また、本発明の他の形態にかかる文書検索方法によれば、取得ステップにおいて、文字の表記形を変換する変換規則を複数取得し、第1の変換ステップにおいて、取得ステップにおいて取得した変換規則に基づいて、予め定められた表記形である正規形とは異なる表記形である異表記形の文字を正規形の文字に変換し、第1の登録ステップにおいて、異表記形の文字と、正規形の文字と、第1の変換ステップにおいて当該正規形の文字に変換するときに利用した変換規則を識別する規則識別情報とを対応付けて第1の保持手段に登録し、第2の登録ステップにおいて、検索対象となる文書を第2の保持手段に登録し、分割ステップにおいて、第2の保持手段が保持する文書を分割し、文字を得て、第2の変換ステップにおいて、第1の保持手段において対応付けられている異表記形の文字と正規形の文字とに基づいて、分割手段により得られた文字を正規形の文字に変換し、第3の登録ステップにおいて、第2の変換ステップにより得られた正規形の文字と、規則識別情報と、文書の文書識別情報と、文書に含まれる文字の位置情報とを対応付けて第3の保持手段に登録するので、検索速度の低下を防ぎつつ、ユーザの希望に合った検索条件に対する検索を行うことができるという効果を奏する。
また、本発明の他の形態にかかる文書検索プログラムによれば、第1の取得ステップにおいて、ユーザにより入力された検索語を取得し、第2の取得ステップにおいて、検索語の表記に関する検索条件を取得し、変換ステップにおいて、予め定められた表記形である正規形の文字と、正規形以外の表記形である異表記形の文字と、異表記形の文字を正規形の文字に変換する際に利用する変換規則を識別する規則識別情報とを対応付けて保持する第1の保持手段において対応付けられている正規形の文字と異表記形の文字とに基づいて、検索語を正規形で表記された検索語に変換し、検索ステップにおいて、検索対象となる文書に含まれる文字に対応する正規形の文字と、規則識別情報と、文書を識別する文書識別情報と、文書に含まれる文字の位置情報とを対応付けて保持する第2の保持手段において対応付けられている正規形の文字および規則識別情報それぞれと、変換ステップにおいて得られた検索語および検索条件とを比較することにより、文書に含まれる文字を検索するので、検索速度の低下を防ぎつつ、ユーザの希望に合った検索条件に対する検索を行うことができるという効果を奏する。
また、本発明の他の形態にかかる文書検索プログラムによれば、取得ステップにおいて、文字の表記形を変換する変換規則を複数取得し、第1の変換ステップにおいて、取得ステップにおいて取得した変換規則に基づいて、予め定められた表記形である正規形とは異なる表記形である異表記形の文字を正規形の文字に変換し、第1の登録ステップにおいて、異表記形の文字と、正規形の文字と、第1の変換ステップにおいて当該正規形の文字に変換するときに利用した変換規則を識別する規則識別情報とを対応付けて第1の保持手段に登録し、第2の登録ステップにおいて、検索対象となる文書を第2の保持手段に登録し、分割ステップにおいて、第2の保持手段が保持する文書を分割し、文字を得て、第2の変換ステップにおいて、第1の保持手段において対応付けられている異表記形の文字と正規形の文字とに基づいて、分割手段により得られた文字を正規形の文字に変換し、第3の登録ステップにおいて、第2の変換ステップにより得られた正規形の文字と、規則識別情報と、文書の文書識別情報と、文書に含まれる文字の位置情報とを対応付けて第3の保持手段に登録するので、検索速度の低下を防ぎつつ、ユーザの希望に合った検索条件に対する検索を行うことができるという効果を奏する。
以下に、本発明にかかる文書検索装置、文書検索方法および文書検索プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
図1は、実施の形態にかかる文書検索装置10の機能構成を示すブロック図である。文書検索装置10は、変換規則管理部100と、文書取得部101と、n−gram分割部102と、正規化情報適用部103と、文書登録部104と、検索条件取得部105と、規則検索条件作成部106と、検索実行部107と、検索結果出力部108と、正規化情報記憶部201と、n−gram索引記憶部202と、文書記憶部203とを備えている。
変換規則管理部100は、複数の変換規則を取得する。ここで、変換規則とは、所定の文字の表記形を異なる表記形に変換するための規則である。例えば、変換規則は、「澤」を異なる字体である「沢」に変換するための規則である。文字には、数字も含む。変換の対象は、異なる表記の存在するものであればよく、広く適用可能である。
変換規則を利用することにより、各文字の表記形を正規形に変換することができる。ここで、正規形とは、文書検索装置10における検索処理において基準とする表記形である。なお、正規形以外の表記形を異表記形と称する。
図2は、変換規則管理部100が取得する変換規則を説明するための図である。図2には、規則1から規則6の変換規則を示している。規則1は、英字全角を英字半角に変換する変換規則である。規則2は、英字大文字半角を英字小文字半角に変換する変換規則である。規則3は、英数字全角を英数字半角に変換する変換規則である。規則4は、漢数字を英数字全角に変換する変換規則である。規則5は、カタカナ小文字をカタカナ大文字に変換する変換規則である。規則6は、漢字旧字体を漢字新字体に変換する変換規則である。このように、各変換規則において、変換前後の文字は、1対1に対応している。
規則1および規則2は、それぞれ同一文字である「A」に関する異なる変換規則である。このように、変換規則管理部100が取得する変換規則には、同一の文字に関する異なる変換規則も含まれている。
さらに、変換規則管理部100が取得する変換規則には、異表記形を正規形に変換する変換規則のみならず、異表記形から他の異表記形に変換する変換規則も含まれている。例えば、英字は小文字半角が正規形であるが、図2に示す規則1は、英字大文字全角を英字大文字半角に変換するものであり、所定の異表記形から他の異表記形に変換する変換規則である。このように他の異表記形への変換規則も利用するのは、多様な検索を可能とするためである。詳細については後述する。
変換規則管理部100は、さらに、変換規則を利用して正規化情報を作成し、n−gram索引記憶部202に登録する。ここで、正規化情報とは、各文字の異表記形を正規形に変換する際に参照するテーブルである。
例えば、英字大文字全角の「A」を正規形である英字小文字半角の「a」に変換する場合には、規則1と規則2とを利用する。したがって、異表記形「A(全角)」と、正規形「a(半角)」と、規則1および規則2とを対応付けて正規化情報に登録する。
図3は、正規化情報記憶部201に格納される正規化情報のデータ構成を模式的に示す図である。正規化情報においては、異表記形と、正規形と、適用規則IDとが対応付けられている。ここで適用規則IDとは、異表記形を正規形に変換する際に利用する変換規則の規則IDである。
再び説明を図1に戻す。文書取得部101は、検索の対象となる文書を取得する。n−gram分割部102は、この文書を文書文字列であるn−gramに分割する。ここで、n−gramは、n文字列すなわちn文字単位の文字列のことである(以下、単にグラムと称する)。n−gram分割においては、文字列のはじめと終わりはn以下の文字列に分割される。例えば、「XMLドキュメント」という文字列は、n=3の場合には、「X」、「XM」、「XML」、「MLド」、「Lドキ」、「ドキュ」、「キュメ」、「ュメン」、「メント」、「ント」、「ト」の11のグラムに分割される。
正規化情報適用部103は、n−gram分割部102により得られたグラム内に正規化の対象となる表記形が含まれているか否かを調べる。すなわち、異表記形を検出する。異表記形を検出した場合には、正規化情報記憶部201を参照し、異表記形を正規形に変換する。例えば、「a(全角)」を検出した場合には、正規化情報記憶部201において「a(全角)」を検出する。そして、対応付けられている正規形「a(半角)」に変換する。さらに、正規化情報記憶部201において「a(半角)」に対応付けられている適用規則IDを特定する。
グラムに複数の文字が含まれている場合には、文字ごとに規則IDを特定する。正規形への変換に複数の変換規則を利用する場合には、複数の変換規則それぞれに対する規則IDを特定する。
例えば、「XML(すべて全角)」というグラムが対象となる場合には、各文字について上記処理を行う。具体的には、正規化情報記憶部201において、「X(全角)」に対応付けられている正規形「x(半角)」と、適用規則ID1,2を特定する。同様に、「M(全角)」に対応付けられている正規形「m(半角)」と、適用規則ID1,2を特定し、「L(全角)」に対応付けられている正規形「l(半角)」と、適用規則ID1,2を特定する。なお、正規化情報適用部103は、文書文字列変換手段として機能する。
文書登録部104は、文書取得部101が取得した文書を文書記憶部203に登録する。さらに、n−gram索引記憶部202に文書の逆引き索引であるn−gram索引を登録する。逆引き索引とは、検索条件として取得する検索文字列から対応する文字を含む文書位置を特定するための索引である。
図4は、文書記憶部203のデータ構成を模式的に示す図である。文書記憶部203は、文書を識別する文書IDと、文書とを対応付けて保持している。図5は、n−gram索引記憶部202のデータ構成を模式的に示す図である。n−gram索引記憶部202は、逆引き索引として、グラムの正規形と、グラム位置と、規則情報とを対応付けて格納している。グラム位置は、グラムを含む文書を識別する文書IDと、文書におけるオフセットとを含んでいる。ここで、オフセットとは、文書の先頭からの距離である。規則情報は、グラム中の各文字を特定するための情報と、各文字を正規化する際に利用した規則IDを含んでいる。
図5においては、( )内にグラム位置を示し、〔 〕内に規則情報を示している。例えば、グラム「x」には、(1,0)〔1,2〕が対応付けられている。(1,0)は、文書IDが「1」でオフセットが「0」であることを示している。すなわち、「x」は、文書ID1の文書の先頭に「x」が記載されていることがわかる。
また、〔1,2〕は、「x」に正規化するために利用する変換規則が規則1と規則2であることを示している。これにより、文書中においては、「x」は、「X(全角)」と記載されていたことがわかる。このように、規則情報に基づいて、文書中に実際に記載されている表記を特定することができる。
また、グラム「mlド」には、規則情報〔1,2:1,2:0〕が対応付けられている。コロン「:」によりグラム内の各文字に対応する規則IDを区切っている。1つめのコロンの前に記載された番号は、グラム中の1文字目に適用する規則IDを示している。1つめのコロンと2つめのコロンの間に記載された番号は、グラム中の2文字目に適用する規則IDを示している。
例えば、グラム中の文字「m」には、規則1と規則2が対応付けられている。グラム中の文字「l」にも規則1と規則2が対応付けられている。グラム中の文字「ド」には、0が対応付けられている。ここで、0は、規則を適用しないことを意味する。このように、グラム中の文字それぞれについての規則IDを、対応する文字を識別可能に格納している。
規則情報は、ビット列で表現することとしてもよい。例えば5種類の正規化規則があり、3グラムで索引を作成するとする。この場合には、3×5=15ビットで各文字の規則IDを表現することができる。これにより、規則情報を保持するための記憶量を低減することができる。
さらに、本実施の形態にかかる変換規則のように、例えば、数字や英字など文字の種類により利用する変換規則が異なる場合には、文字の種類を識別する情報をさらに利用することにより、必要なビット数をより低減することができる。例えば本実施の形態においては、規則1と規則2は英文字にのみ適用される。規則3と規則4は数字にのみ適用される。規則5はカタカナにのみ適用される。規則6は漢字にのみ適用される。すなわち、文字は3種類であり、各種類についての規則は最大2つである。このため、文字種の情報の他に2ビットあれば、適用した変換規則を表現できる。この場合、2×3=6ビットで各文字の規則IDを表現することができる。
再び説明を図1に戻す。検索条件取得部105は、検索文字列と表記形検索条件とを取得する。ここで、表記形検索条件とは、表記形に関する検索条件である。表記形検索条件としては、例えば、検索文字列と一致する表記形のみの検索を指定する「字面通り」や、検索文字列の表記形を限定しない検索を指定する「全半角大小文字同一視」などがある。
ここで、「字面通り」とは、例えば、「x(全角)」が検索文字列として得られた場合には、全角小文字の「x」のみを検索対象とし、大文字や半角について異なる文字と見なすという条件である。また、「大小文字全半角同一視」とは、例えば「x(全角)」が検索文字列として得られた場合には、全角小文字の「x」のみならず、全角大文字、半角大文字、半角小文字を検索対象とするという条件である。
検索文字列は、n−gram分割部102によりグラムに分割され、規則検索条件作成部106に渡される。すなわち、本実施の形態にかかるn−gram分割部102は、検索語分割手段として機能する。
規則検索条件作成部106は、グラム内の各文字を、正規化情報記憶部201において各文字に対応付けられている正規形に変換する。規則検索条件作成部106は、また表記形検索条件を取得する。規則検索条件作成部106は、表記形検索条件から規則検索条件を生成する。ここで、規則検索条件とは、n−gram索引記憶部202に格納されている逆引き索引を使用するための計算方法である。具体的には、表記形検索条件を満たす表記形を検索するために利用する規則IDを示す情報である。すなわち、本実施の形態にかかる規則検索条件作成部106は、検索後表記変換手段として機能する。
図6は、検索文字列、表記形検索条件、正規形検索文字列、および規則検索条件を説明するための図である。例えば、検索文字列が「XML(XMLは半角)」であり、表記形検索条件が字面通りであるとする。この場合には、規則検索条件作成部106は、検索文字列中の各文字を正規化し、正規形検索文字列「xml(xmlは半角)」を得る。
規則検索条件作成部106はさらに、字面通りという表記形検索条件から規則検索条件を生成する。具体的には、検索文字列の正規化に利用した変換規則のみを規則検索条件とする。検索文字列「XML(XMLは半角)」と正規形検索文字列「xml(xmlは半角)」の各文字の組み合わせは、正規化情報記憶部201において規則2に対応付けられている。したがって、〔2:2:2〕(全文字に対して規則2のみ適用)という規則検索条件を生成する。
また例えば、検索文字列が「XML(XMLは半角)」であり、表記形検索条件が全半角大小文字同一視であるとする。この場合には、規則検索条件作成部106は、検索文字列を正規化し正規形検索文字列「xml(xmlは半角)」を得る。
さらに、全半角大小文字同一視という表記形検索条件から規則検索条件を生成する。大小文字全半角同一視の場合には、英字に関するすべての変換規則を適用するという規則検索条件を生成する。図2に示す例においては、英字に関する変換規則としては、規則1と規則2とが存在する。そこで、これらを適用する。さらに、変換規則を利用しない場合についても含める。すなわち、正規形の文字列も検索対象とする。
以上により、この場合には、正規形検索文字列「xml(xmlは半角)」と、〔0+1+2:0+1+2:0+1+2〕(全文字に対して規則利用なしor規則1or規則2を適用)という規則検索条件を生成する。
また例えば、検索文字列が「XMl(Xは全角、Mは半角、lは半角)」であり、表記形検索条件が字面通りであるとする。この場合、規則検索条件作成部106は、検索文字列を正規化し、正規形検索文字列「xml(xmlは半角)」を得る。
さらに、字面通りという表記形検索条件から規則検索条件を生成する。「X」の正規形への変換は、英字大文字全角から英字小文字半角への変換である。したがって、図2に示す規則1および規則2が適用される。また、「M」の正規形への変換は、英字大文字半角から英字小文字半角への変換である。したがって、規則2が適用される。「l」の正規形への変換は、英字小文字半角、すなわち正規形である。したがって、変換規則は適用されない。
以上により、正規形検索文字列「xml(xmlは半角)」と、〔1*2:2:0〕(1文字目に対して規則1および規則2適用、2文字目に対して規則2適用、3文字目に対して規則利用なし)という検索表記条件を含む規則検索条件を生成する。
このように、ユーザにより指定された表記条件に基づいて、各文字に対する検索条件とする規則IDを決定することができる。また、半角のみの検索や、全半角とも含む検索など、検索に含めるべき表記の指定を、表記の変換規則を指定することにより実現することができる。
本実施の形態においては、「字面通り」や、「大小文字全半角同一視」などの指定に基づいて、規則IDを決定したが、ユーザから取得する情報は、規則IDを決定するための情報であればよく、これに限定されるものではない。
検索実行部107は、規則検索条件作成部106により得られた正規形検索文字列と規則検索条件とに基づいて、n−gram索引記憶部202に格納されている逆引き索引を利用して、規則検索条件に合致した文字列を検索する。検索結果出力部108は、検索実行部107から検索結果を取得し、対応する文書を正規化情報記憶部201から抽出し、出力する。
図7は、文書検索装置10による正規化情報登録処理を示すフローチャートである。まず変換規則管理部100は、変換規則が記載された変換規則設定ファイルを読み込む(ステップS100)。
図8は、変換規則管理部100が取得する変換規則設定ファイルのデータ構成を示す図である。変換規則設定ファイルには、規則IDと、この規則IDにおける変換前後の表記形とが記載されている。変換前後の表記形は、それぞれ「:」の左側と右側に記載されている。
変換規則管理部100は、変換規則設定ファイルを一行ずつ読み込む。読み込んだ1行の内容が、規則IDの宣言だった場合には(ステップS102,Yes)、規則IDを宣言された値にセットする(ステップS103)。そして、ステップS106へ進む。例えば、図8に示す変換規則設定ファイルにおいては、〔rule:1〕の行が規則IDの宣言の行である。
一方、読み込んだ1行の内容が、変換前後の表記形であった場合には、変換前後の表記形と、規則IDとを対応付けて正規化情報記憶部201に格納する(ステップS104)。次に、この変換後の表記形が同一の変換規則における他の表記形の変換後の表記形になっていないかチェックする。すなわち、同一の変換規則において、異なる複数の文字が同一の文字に変換されていないかチェックする。
複数の文字が同一の文字に変換されている場合には(ステップS105,Yes)、エラーを通知して(ステップS106)、終了する。
一方、複数の文字が同一の文字に変換されていない場合には(ステップS105,No)、次の行があれば(ステップS107,Yes)、ステップS100に戻り、次の行に対し処理を行う(ステップS100〜105)。以上により、規則に含まれるすべての文字について、変換前後の表記形と適用規則IDとを対応付けることができる。
図9は、ステップS100からステップS107の処理により生成された正規化情報を示す図である。図9に示す正規化情報においては、例えば、「A(半角)」は、規則1における変換後の文字であり、かつ規則2における変換前の文字である。このように、第1の変換規則における変換後の文字と第2の変換規則における変換前の文字とが一致する場合には(ステップS110,Yes)、変換後の文字は正規形になっていないので、さらに編集を行う(ステップS111)。
具体的には、第1の変換規則における変換前の文字と第2の変換規則における変換後の文字とをそれぞれ異表記形および正規形として登録し、適用規則IDとして1と2を対応付ける。図9に示す例においては、「A(全角)」および「a(半角)」がそれぞれ異表記形および正規形として登録され、適用規則IDとして1,2が登録される。これを正規化情報に登録されているすべての文字に対して行い、正規化規則テーブル登録処理が完了する。
ステップS111において、例えば、第1の変換規則における変換後の文字と第2の変換規則における変換前の文字とが一致し、かつ第2の変換規則における変換後の文字が、第1の変換規則における変換前の文字と一致する場合には、変換規則に循環定義が存在しているので、エラーを通知して終了する。
正規化情報は、文書の登録前に作成しておくこととする。後から正規化情報の内容を追加した場合には、追加した内容中の各表記形の文字について、n−gram索引記憶部202の索引を作り直す必要がある。
図10は、文書検索装置10による文書登録処理を示すフローチャートである。まず、文書取得部101は、文書を読み込む(ステップS201)。次に、文書登録部104は、文書取得部101が読み込んだ文書を文書記憶部203に登録する(ステップS202)。さらに、n−gram分割部102は、文書に対し、n−gram分割を行う(ステップS203)。次に、グラム中に正規化対象となる文字、すなわち異表記形が含まれている場合には(ステップS204,Yes)、これを正規化情報記憶部201を参照して、正規形に変換する(ステップS205)。さらに、正規化に利用する変換規則の規則IDを含む規則情報を生成する(ステップS206)。
次に、正規形グラムと、グラム位置と、規則情報を対応付けてn−gram索引記憶部202に登録する(ステップS207)。文書中のすべてのグラムについてステップS204からステップS207を繰り返すと(ステップS208,No)、文書登録処理が完了する。
図11は、文書検索装置10による文書検索処理を示すフローチャートである。まず、規則検索条件作成部106は、検索文字列と表記形検索条件とを読み込む(ステップS300)。次に、n−gram分割部102は、検索文字列に対し、n−gram分割を行う(ステップS302)。グラム中に正規化の対象となる文字が存在する場合、すなわち異表記形が存在する場合には(ステップS303,Yes)、正規化情報記憶部201を参照し、正規形に変換する(ステップS304)。さらに、表記形検索条件と、正規形に変換する際に利用した変換規則とに基づいて、規則検索条件を作成する(ステップS305)。
次に、検索実行部107は、n−gram索引記憶部202から規則検索条件に合致するグラムを抽出する(ステップS306)。次に、検索結果をマージする(ステップS307)。具体的には、例えば、「XMLドキュメント」という検索文字列である場合には、この検索文字列の配列を満たすようなオフセットに対応付けられている複数のグラムを抽出する。検索文字列中のすべてのグラムについてステップS303からステップS307を繰り返すと(ステップS308,No)、検索結果出力部108は検索結果を出力し(ステップS309)、文書検索処理が完了する。
以上のように、本実施の形態にかかる文書検索装置10は、変換規則を複数定義しておき、文書登録時にn−gram索引記憶部202にグラムの正規形と、グラム位置と規則情報とを記録しておく。したがって、検索時には、グラムの正規形と検索文字列の正規形とを比較し、規則検索条件と規則情報とを比較することにより、検索を行うことができる。
さらに、表記を限定した検索条件に対応するような複数の変換規則が定義されているので、複数の変換規則に基づいて、表記を限定した検索を行うことができる。検索において異なる文字または同一文字として検索したい表記形を変換ことができる。変換規則管理部100に読み込ませることにより、短い検索時間で細かい検索を行うことができる。
例えば、従来のシステムにおいては、格納時に英字・数字の全角半角、英字の大文字小文字をそれぞれ格納しておくものがある。この場合には、数字については全角半角を区別せず、英字については全角半角を区別するような検索や、英字の大小文字を区別せず、全半角を区別するような検索を行う場合には、登録された文書を参照する必要がある。
これに対し、本実施の形態にかかる文書検索装置10によれば、このような検索を行う場合であっても、正規形と適用規則IDのみを参照することにより、検索結果を求めることができる。これにより、従来のように、登録された文書を参照する必要がなくなり、検索の高速化を図ることができる。
また、従来のシステムにおいては、格納時には原文表記のまま格納し、検索時に展開するものがある。この場合には、検索するグラムに含まれる異表記の種類により、複数の索引を検索して結果をマージする処理が必要である。たとえば英字の全角半角・大文字小文字を区別しない検索を行う場合、1文字あたり4種類の展開が行われるため、例えば3グラムで索引を作成している場合、最大で4^3=64種類のグラムの索引を参照する必要がある。展開するグラムの種類の数が増えればそれに比例してそれぞれのグラムの検索結果のマージが必要となる。その分相当の計算量が必要となり、検索速度が低下し、マージに必要なメモリ消費が増加する。
これに対し、本実施の形態にかかる文書検索装置10においてはn−gram索引記憶部202に格納された正規形のグラム1つを参照し、その規則情報でフィルタリングするだけで結果を求めることができる。これにより、n−gram索引へのアクセス回数、中間バッファとして必要となるメモリ、およびマージの計算量を減らすことができる。
図12は、実施の形態にかかる文書検索装置10のハードウェア構成を示す図である。文書検索装置10は、ハードウェア構成として、文書検索装置10における文書検索処理を実行する文書検索プログラムなどが格納されているROM52と、ROM52内のプログラムに従って文書検索装置10の各部を制御するCPU51と、正規化情報記憶部201、n−gram索引記憶部202および文書記憶部203が記憶する情報を格納する外部記憶装置54と、文書検索装置10の制御に必要な種々のデータを記憶し、さらに外部記憶装置54から読み出された情報が格納されるRAM53と、ネットワークに接続して通信を行う通信I/F57と、各部を接続するバス62とを備えている。
先に述べた文書検索装置10における文書検索プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フロッピー(登録商標)ディスク(FD)、DVD等のコンピュータで読み取り可能な記録媒体に記録されて提供されてもよい。
この場合には、文書検索プログラムは、文書検索装置10において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。
また、本実施の形態の文書検索プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。
以上、本発明を実施の形態を用いて説明したが、上記実施の形態に多様な変更または改良を加えることができる。
文書検索装置10の機能構成を示すブロック図である。 変換規則管理部100が取得する変換規則を説明するための図である。 正規化情報記憶部201に格納される正規化情報のデータ構成を模式的に示す図である。 文書記憶部203のデータ構成を模式的に示す図である。 n−gram索引記憶部202のデータ構成を模式的に示す図である。 検索文字列、表記形検索条件、正規形検索文字列、および規則検索条件を説明するための図である。 文書検索装置10による正規化情報登録処理を示すフローチャートである。 変換規則管理部100が取得する変換規則設定ファイルのデータ構成を示す図である。 ステップS100からステップS107の処理により生成された正規化情報を示す図である。 文書検索装置10による文書登録処理を示すフローチャートである。 文書検索装置10による文書検索処理を示すフローチャートである。 実施の形態1にかかる文書検索装置10のハードウェア構成を示す図である。
符号の説明
10 文書検索装置
51 CPU
52 ROM
53 RAM
54 外部記憶装置
55 通信I/F
56 バス
100 変換規則管理部
101 文書取得部
102 n−gram分割部
103 正規化情報適用部
104 文書登録部
105 検索条件取得部
106 規則検索条件作成部
107 検索実行部
108 検索結果出力部
201 正規化情報記憶部
202 n−gram索引記憶部
203 文書記憶部

Claims (13)

  1. 予め定められた表記形である正規形の文字と、前記正規形以外の表記形である異表記形の文字と、前記異表記形の文字を前記正規形の文字に変換する際に利用する変換規則を識別する規則識別情報とを対応付けて保持する第1の保持手段と、
    検索対象となる文書を保持する第2の保持手段と、
    前記第2の保持手段が保持する前記文書に含まれる文字に対応する前記正規形の文字と、前記規則識別情報と、前記文書を識別する文書識別情報と、前記文書に含まれる前記文字の位置情報とを対応付けて保持する第3の保持手段と、
    ユーザにより入力された検索語を取得する第1の取得手段と、
    前記検索語の表記に関する検索条件を取得する第2の取得手段と、
    前記第1の保持手段において対応付けられている前記正規形の文字と前記異表記形の文字とに基づいて、前記検索語を前記正規形で表記された検索語に変換する第1の変換手段と、
    前記第1の変換手段により得られた前記検索語および前記検索条件それぞれを、前記第3の保持手段において対応付けられている前記正規形の文字および前記規則識別情報と比較することにより、前記文書に含まれる文字を検索する検索手段と
    を備えたことを特徴とする文書検索装置。
  2. 前記第1の保持手段は、前記異表記形の文字を前記正規形の文字に変換する際に複数の変換規則を利用する場合、前記複数の変換規則それぞれの前記規則識別情報を前記正規形の文字に対応付けて保持することを特徴とする請求項1に記載の文書検索装置。
  3. 異なる複数の変換規則を取得する第3の取得手段と、
    前記第3の取得手段が取得した前記変換規則に基づいて、前記異表記形の文字を前記正規形の文字に変換する第2の変換手段と、
    前記第2の変換手段による変換前の前記異表記形の文字と、前記第2の変換手段による変換後の前記正規形の文字と、前記第2の変換手段が当該正規形の文字に変換するときに利用した前記変換規則の前記規則識別情報とを対応付けて前記第1の保持手段に登録する第1の登録手段と
    を備えたことを特徴とする請求項1または2に記載の文書検索装置。
  4. 前記第3の取得手段は、同一の文字に対する異なる複数の変換規則を取得することを特徴とする請求項3に記載の文書検索装置。
  5. 前記第3の取得手段は、所定の異表記形の文字を他の異表記形の文字に変換する第1規則と、前記異表記形の文字から前記正規形の文字に変換する第2規則とを取得し、
    前記第1の登録手段は、前記第2の変換手段が前記第1規則と前記第2規則とを利用して前記異表記形の文字を前記正規形の文字に変換した場合には、前記第1規則と前記第2規則それぞれの規則識別情報を前記正規形の文字に対応付けて前記第1の保持手段に登録することを特徴とする請求項3に記載の文書検索装置。
  6. 前記文書を取得する第4の取得手段と、
    前記第4の取得手段が取得した前記文書を前記第2の保持手段に登録する第2の登録手段と、
    前記第4の取得手段が取得した前記文書を分割し前記文字を得る第1の分割手段と、
    前記第1の保持手段において対応付けられている前記異表記形の文字と前記正規形の文字とに基づいて、前記第1の分割手段により得られた前記文字を前記正規形の文字に変換する第3の変換手段と、
    前記第3の変換手段により得られた前記正規形の文字と、前記第1の保持手段において、前記異表記形の文字および前記正規形の文字に対応付けられている前記規則識別情報と、前記第4の取得手段が取得した前記文書識別情報と、前記第1の分割手段により得られた前記文字の前記位置情報とを対応付けて前記第3の保持手段に登録する第3の登録手段と
    をさらに備えたことを特徴とする請求項1から5のいずれか一項に記載の文書検索装置。
  7. 前記第3の保持手段は、前記正規形の文字として、n文字単位の文字列であるグラムを保持することを特徴とする請求項1から6のいずれか一項に記載の文書検索装置。
  8. 前記第1の取得手段が取得した前記検索語を前記グラムに分割する第2の分割手段をさらに備え、
    前記検索手段は、前記グラムを利用して検索を行うことを特徴とする請求項7に記載の文書検索装置。
  9. 文字の表記形を変換する変換規則を複数取得する取得手段と、
    前記取得手段が取得した前記変換規則に基づいて、予め定められた表記形である正規形とは異なる表記形である異表記形の文字を前記正規形の文字に変換する第1の変換手段と、
    前記異表記形の文字と、前記正規形の文字と、前記第1の変換手段が当該正規形の文字に変換するときに利用した前記変換規則を識別する規則識別情報とを対応付けて保持する第1の保持手段と、
    検索対象となる文書を保持する第2の保持手段と、
    前記第2の保持手段が保持する前記文書を分割し、文字を得る分割手段と、
    前記第1の保持手段において対応付けられている前記異表記形の文字と前記正規形の文字とに基づいて、前記分割手段により得られた前記文字を前記正規形の文字に変換する第2の変換手段と、
    前記第2の変換手段により得られた前記正規形の文字と、前記規則識別情報と、前記文書を識別する識別情報と、前記文字の位置情報とを対応付けて保持する第3の保持手段と
    を備えたことを特徴とする文書検索装置。
  10. ユーザにより入力された検索語を取得する第1の取得ステップと、
    前記検索語の表記に関する検索条件を取得する第2の取得ステップと、
    予め定められた表記形である正規形の文字と、前記正規形以外の表記形である異表記形の文字と、前記異表記形の文字を前記正規形の文字に変換する際に利用する変換規則を識別する規則識別情報とを対応付けて保持する第1の保持手段において対応付けられている前記正規形の文字と前記異表記形の文字とに基づいて、前記検索語を前記正規形で表記された検索語に変換する変換ステップと、
    検索対象となる文書に含まれる文字に対応する前記正規形の文字と、前記規則識別情報と、前記文書を識別する文書識別情報と、前記文書に含まれる前記文字の位置情報とを対応付けて保持する第2の保持手段において対応付けられている前記正規形の文字および前記規則識別情報それぞれと、前記変換ステップにおいて得られた前記検索語および前記検索条件とを比較することにより、前記文書に含まれる前記文字を検索する検索ステップと
    を有することを特徴とする文書検索方法。
  11. 文字の表記形を変換する変換規則を複数取得する取得ステップと、
    前記取得ステップにおいて取得した前記変換規則に基づいて、予め定められた表記形である正規形とは異なる表記形である異表記形の文字を前記正規形の文字に変換する第1の変換ステップと、
    前記異表記形の文字と、前記正規形の文字と、前記第1の変換ステップにおいて当該正規形の文字に変換するときに利用した前記変換規則を識別する規則識別情報とを対応付けて第1の保持手段に登録する第1の登録ステップと、
    検索対象となる文書を第2の保持手段に登録する第2の登録ステップと、
    前記第2の保持手段が保持する前記文書を分割し、文字を得る分割ステップと、
    前記第1の保持手段において対応付けられている前記異表記形の文字と前記正規形の文字とに基づいて、前記分割手段により得られた前記文字を前記正規形の文字に変換する第2の変換ステップと、
    前記第2の変換ステップにより得られた前記正規形の文字と、前記規則識別情報と、前記文書の文書識別情報と、前記文書に含まれる前記文字の位置情報とを対応付けて第3の保持手段に登録する第3の登録ステップと
    を有することを特徴とする文書検索方法。
  12. 文書検索処理をコンピュータに実行させる文書検索プログラムであって、
    ユーザにより入力された検索語を取得する第1の取得ステップと、
    前記検索語の表記に関する検索条件を取得する第2の取得ステップと、
    予め定められた表記形である正規形の文字と、前記正規形以外の表記形である異表記形の文字と、前記異表記形の文字を前記正規形の文字に変換する際に利用する変換規則を識別する規則識別情報とを対応付けて保持する第1の保持手段において対応付けられている前記正規形の文字と前記異表記形の文字とに基づいて、前記検索語を前記正規形で表記された検索語に変換する変換ステップと、
    検索対象となる文書に含まれる文字に対応する前記正規形の文字と、前記規則識別情報と、前記文書を識別する文書識別情報と、前記文書に含まれる前記文字の位置情報とを対応付けて保持する第2の保持手段において対応付けられている前記正規形の文字および前記規則識別情報それぞれと、前記変換ステップにおいて得られた前記検索語および前記検索条件とを比較することにより、前記文書に含まれる前記文字を検索する検索ステップと
    を有することを特徴とする文書検索プログラム。
  13. 文書検索処理をコンピュータに実行させる文書検索プログラムであって、
    文字の表記形を変換する変換規則を複数取得する取得ステップと、
    前記取得ステップにおいて取得した前記変換規則に基づいて、予め定められた表記形である正規形とは異なる表記形である異表記形の文字を前記正規形の文字に変換する第1の変換ステップと、
    前記異表記形の文字と、前記正規形の文字と、前記第1の変換ステップにおいて当該正規形の文字に変換するときに利用した前記変換規則を識別する規則識別情報とを対応付けて第1の保持手段に登録する第1の登録ステップと、
    検索対象となる文書を第2の保持手段に登録する第2の登録ステップと、
    前記第2の保持手段が保持する前記文書を分割し、文字を得る分割ステップと、
    前記第1の保持手段において対応付けられている前記異表記形の文字と前記正規形の文字とに基づいて、前記分割手段により得られた前記文字を前記正規形の文字に変換する第2の変換ステップと、
    前記第2の変換ステップにより得られた前記正規形の文字と、前記規則識別情報と、前記文書の文書識別情報と、前記文書に含まれる前記文字の位置情報とを対応付けて第3の保持手段に登録する第3の登録ステップと
    を有することを特徴とする文書検索プログラム。
JP2006265094A 2006-09-28 2006-09-28 文書検索装置、文書検索方法および文書検索プログラム Pending JP2008084132A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006265094A JP2008084132A (ja) 2006-09-28 2006-09-28 文書検索装置、文書検索方法および文書検索プログラム
US11/889,707 US20080177729A1 (en) 2006-09-28 2007-08-15 Apparatus, method and computer program product for searching document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006265094A JP2008084132A (ja) 2006-09-28 2006-09-28 文書検索装置、文書検索方法および文書検索プログラム

Publications (1)

Publication Number Publication Date
JP2008084132A true JP2008084132A (ja) 2008-04-10

Family

ID=39354924

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006265094A Pending JP2008084132A (ja) 2006-09-28 2006-09-28 文書検索装置、文書検索方法および文書検索プログラム

Country Status (2)

Country Link
US (1) US20080177729A1 (ja)
JP (1) JP2008084132A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823761B (zh) * 2014-03-09 2017-01-25 林虎 一种提升终端黑名单容量和检索速度的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4314204B2 (ja) * 2005-03-11 2009-08-12 株式会社東芝 文書管理方法、システム及びプログラム

Also Published As

Publication number Publication date
US20080177729A1 (en) 2008-07-24

Similar Documents

Publication Publication Date Title
US7752193B2 (en) System and method for building and retrieving a full text index
KR100318762B1 (ko) 외래어 음차표기의 음성적 거리 계산방법
US9852122B2 (en) Method of automated analysis of text documents
JP2005352888A (ja) 表記揺れ対応辞書作成システム
JP4160548B2 (ja) 文書要約作成システム、方法、及びプログラム
JP4237813B2 (ja) 構造化文書管理システム
JP3689954B2 (ja) 異種コード文字列転記装置および電子辞書
JP3784060B2 (ja) データベース検索システム、その検索方法及びプログラム
JP6538563B2 (ja) 入力支援装置、入力支援方法及びプログラム
JP4439496B2 (ja) 検索処理装置及びプログラム
WO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP6589704B2 (ja) 文境界推定装置、方法およびプログラム
JP4734400B2 (ja) 文書検索装置およびプログラム
JP2008084132A (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP4646328B2 (ja) 関係情報抽出装置及びその方法
JP2007133682A (ja) 全文検索システム、及び、その全文検索方法
JP2002132789A (ja) 文書検索方法
JP4489034B2 (ja) 構造化文書処理装置、構造化文書処理方法および構造化文書処理プログラム
JP4283038B2 (ja) 文書登録装置、文書検索装置、プログラム及び記憶媒体
JPH10283368A (ja) 情報処理装置及びその方法
JP4304146B2 (ja) 辞書登録装置、辞書登録方法および辞書登録プログラム
JP4206266B2 (ja) 全文検索装置、処理方法、処理プログラム及び記録媒体
JP7083473B2 (ja) 入力支援装置
JP4304226B2 (ja) 構造化文書管理システム、構造化文書管理方法及びプログラム
JP4294386B2 (ja) 異表記正規化処理装置、異表記正規化処理プログラムおよび記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080701

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080901

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081111