JP2001043228A - 文書検索システム、文書検索方法及び記憶媒体 - Google Patents
文書検索システム、文書検索方法及び記憶媒体Info
- Publication number
- JP2001043228A JP2001043228A JP11213391A JP21339199A JP2001043228A JP 2001043228 A JP2001043228 A JP 2001043228A JP 11213391 A JP11213391 A JP 11213391A JP 21339199 A JP21339199 A JP 21339199A JP 2001043228 A JP2001043228 A JP 2001043228A
- Authority
- JP
- Japan
- Prior art keywords
- word
- character string
- language
- document
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
述された文書データにおいて、n文字単位で作成される
索引(インデックス)本体には手を加えることなく、か
つ、従来の文字列検索も効率を悪化させずに、単語検索
を実現する。 【解決手段】 検索語とインデックスとの照合結果にお
ける部分文字列もしくは部分文字列連続における先頭文
字列の出現位置情報Pが英単語先頭位置インデックスの
英単語の先頭位置情報と一致するか否かをチェックし
(S41)、一致しない照合結果は削除する(S4
2)。次に、出現位置情報Pに検索語の文字数から1を
引いた数を加えた位置が英単語末尾位置インデックスの
英単語の末尾位置情報と一致するか否かをチェックし
(S43)、一致しない照合結果は削除する(S4
4)。これにより、n文字単位で作成される索引本体に
は手を加えることなく、かつ、従来の文字列検索も効率
を悪化させずに、単語検索を実現することができる。
Description
からユーザが所望する文書データを検索する文書検索シ
ステム、文書検索方法及び記憶媒体に関し、特に日本語
と英語との組み合わせのような表記上の特徴が異なる複
数の言語によって記述された文書データの検索システ
ム、文書検索方法及び記憶媒体に関する。
い言語で記述された文書データを含む文書データベース
を対象として全文検索を行なう場合、文書をn文字単位
の(n=任意の整数)部分文字列に分割して、出現位置
情報と共に索引(インデックス)として登録し、検索時
には、検索語をやはりn文字単位に分割し、インデック
スの登録文字列と位置情報との照合により、合致した文
字列を含む文書を検索結果として得る方法が知られてい
る。
ように単語の区切りが明確な言語で記述された文書、あ
るいはそのような言語記述を含む文書の検索において
は、検索ノイズを生じがちである。例えば、“act”と
いう英単語が検索語の場合、“fraction”、“cactu
s”、“bacteria”など、“act”を部分文字列として含
む多くの英単語が合致してしまい、これらを含む検索語
とは無関係な文書が、検索結果として得られてしまう。
れる英文字列を検索対象とする場合には、単語区切りを
意識した検索(以下、単語検索と呼ぶ。)が可能である
ことが求められる。そこで、英文字列を検索対象として
単語検索を実施するための技術が、特開平10-269231号
公報や特開平10-283368号公報において提案されてい
る。特開平10-269231号公報において提案されている技
術は、文書全体をn文字単位でインデクシングした後、
英文字列を抽出して単語単位で登録し、英文字列を含む
n文字連鎖はインデックスから削除するようにしてい
る。また、特開平10-283368号公報において提案されて
いる技術は、n文字単位のインデックスと単語単位のイ
ンデックスとの両方を有し、英文字列は単語単位のイン
デックスとして登録し、英文字列以外はn文字単位のイ
ンデックスとして登録するようにしている。
その複合語である“overact”や派生語である“actio
n”なども一括して検索したい場合には、敢えて単語区
切りを無視した検索(以下、文字列検索と呼ぶ。)もで
きるなど、柔軟な処理が可能であることが望ましい。
平10-283368号公報において提案されている技術におい
ては、英文字列に対して単語検索のみを実施する場合は
都合が良いが、英文字列に関する部分文字列情報がない
ため、文字列検索は不可能になっている。
能とするための技術が、特開平8-16617号公報や特開平9
-259140号公報において提案されている。特開平8-16617
号公報において提案されている技術は、英文字列につい
ては単語単位でインデックスに登録し、更に前後にデリ
ミタを付加した英文字列を登録した単語テーブルを設
け、検索時には、検索語先頭末尾のワイルドカードの有
無に応じて検索語にデリミタを付加し、まずは単語テー
ブルを検索し、合致した単語を新たに検索語としてイン
デックスを検索するようにしている。また、特開平9-25
9140号公報において提案されている技術は、英文字列の
先頭および末尾に、各々の位置をマークする特殊な文字
を付加し、付加された文字も含めて部分文字列に分割
し、インデックスとして登録するようにしている。
8-16617号公報において提案されている技術において
は、単語検索と文字列検索とのいずれの場合において
も、最初に単語テーブルを検索しなければならず、非効
率的である。更に、検索語が前後にワイルドカードを伴
う短い文字列(例:*at*)の場合には、非常に多く
の単語に合致し、それら全てを検索語とすることによ
り、極端に検索効率が悪化する可能性がある。
されている技術においては、英文字列の比率が高い文書
ではインデックス本体の容量が増加したり、また、先頭
末尾をマークする文字の設定は適用されるシステムに応
じて不都合のない文字に設定しなければならず、汎用性
が低下するなどのデメリットがある。
み合わせのような表記上の特徴が異なる複数の言語によ
って記述された文書データにおいて、n文字単位で作成
される索引(インデックス)本体には手を加えることな
く、かつ、従来の文字列検索も効率を悪化させずに、単
語検索を実現することである。
文字列検索とを使い分けることである。
書検索システムは、表記上の特徴が異なる複数の言語に
よって記述されて電子化された文書データに対して識別
子を付与して格納する文書格納手段と、この文書格納手
段に格納されている前記文書データを構成する文字を所
定の区切り文字数で区切った部分文字列とこの部分文字
列の出現位置情報とを抽出する文字列情報抽出手段と、
この文字列情報抽出手段により抽出された部分文字列を
類型化し、この部分文字列が出現する文書データの識別
子と出現位置情報とをその類型化した部分文字列に対応
付けて記憶する文字列記憶手段と、前記文書データに含
まれる一の言語の単語の先頭位置情報をその文書データ
と対応付けて記憶する単語先頭位置記憶手段と、前記文
書データに含まれる前記一の言語の単語の末尾位置情報
をその文書データと対応付けて記憶する単語末尾位置記
憶手段と、検索条件を入力させる入力処理部と、この入
力処理部より入力された検索条件と前記文字列記憶手段
に記憶された前記部分文字列とを照合する索引照合手段
と、この索引照合手段の照合により前記検索条件に含ま
れる検索語に合致した部分文字列もしくは部分文字列連
続における先頭文字列の出現位置情報が前記単語先頭位
置記憶手段に記憶された単語の前記先頭位置情報と合致
した場合、この合致した部分文字列の出現位置情報およ
び検索語の文字数から検索語に合致した部分文字列もし
くは部分文字列連続の末尾位置を算定し、その末尾位置
が前記単語末尾位置記憶手段に記憶された単語の前記末
尾位置情報と合致した場合、この合致した部分文字列に
対応する文書データの識別子を前記検索条件に合致した
前記文書データの識別子とする単語位置照合手段と、を
備える。
わせのような表記上の特徴が異なる複数の言語によって
記述された文書データにおいて、n文字単位で作成され
る索引(インデックス)本体には手を加えることなく、
かつ、従来の文字列検索も効率を悪化させずに、単語単
位の電子化文書検索が可能となる。
書検索システムにおいて、前記一の言語を単語の区切り
が明確な言語とし、前記単語先頭位置記憶手段では文書
データ先頭の前記一の言語の文字又は前記一の言語の文
字以外の文字に後続する前記一の言語の文字の前記出現
位置情報を単語の前記先頭位置情報として記憶し、前記
単語末尾位置記憶手段では文書データ末尾の前記一の言
語の文字又は前記一の言語の文字以外の文字に先行する
前記一の言語の文字の前記出現位置情報を単語の前記末
尾位置情報として記憶し、前記検索条件が前記一の言語
の文字列で構成されている場合にのみ前記単語位置照合
手段を実行する。
が高い文字列に対して、単語検索が可能となる。
書検索システムにおいて、前記一の言語をアルファベッ
トで構成される言語とする。
を意識する必要性が高い英文字列に対して、単語検索が
可能となる。
のいずれか一記載の文書検索システムにおいて、前記単
語位置照合手段を選択的に実行する選択手段を備える。
字列検索とを使い分けることが可能となる。
記上の特徴が異なる複数の言語によって記述されて電子
化された文書データに対して識別子を付与して文書格納
手段に格納する文書格納工程と、前記文書格納手段に識
別子を付与されて格納された文書データを構成する文字
を所定の区切り文字数で区切った部分文字列とこの部分
文字列の出現位置情報とを抽出させる文字列情報抽出工
程と、抽出された前記部分文字列を類型化し、この部分
文字列が出現する文書データの識別子と出現位置情報と
をその類型化された部分文字列に対応付けて文字列記憶
手段に記憶させる文字列記憶工程と、前記文書データに
含まれる一の言語の単語の先頭位置情報をその文書デー
タと対応付けて単語先頭位置記憶手段に記憶させる単語
先頭位置記憶工程と、前記文書データに含まれる前記一
の言語の前記単語の末尾位置情報をその文書データと対
応付けて単語末尾位置記憶手段に記憶させる単語末尾位
置記憶工程と、検索条件を入力させる入力工程と、入力
された検索条件と前記文字列記憶手段に記憶された前記
部分文字列とを照合させる索引照合工程と、照合により
前記検索条件に含まれる検索語に合致した部分文字列も
しくは部分文字列連続における先頭文字列の出現位置情
報が記憶された単語の前記先頭位置情報と合致した場
合、この合致した部分文字列の出現位置情報および検索
語の文字数から検索語に合致した部分文字列もしくは部
分文字列連続の末尾位置を算定し、その末尾位置が記憶
された単語の前記末尾位置情報と合致した場合、この合
致した部分文字列に対応する文書データの識別子を前記
検索条件に合致した前記文書データの識別子とする単語
位置照合工程と、を備える。
(インデックス)本体には手を加えることなく、かつ、
従来の文字列検索も効率を悪化させずに、単語単位の電
子化文書検索が可能となる。
書検索方法において、前記一の言語を単語の区切りが明
確な言語とし、文書データ先頭の前記一の言語の文字又
は前記一の言語の文字以外の文字に後続する前記一の言
語の文字の前記出現位置情報を単語の前記先頭位置情報
として記憶させ、文書データ末尾の前記一の言語の文字
又は前記一の言語の文字以外の文字に先行する前記一の
言語の文字の前記出現位置情報を単語の前記末尾位置情
報として記憶させ、前記検索条件が前記一の言語の文字
列で構成されている場合にのみ、前記単語位置照合工程
を行なわせる。
が高い文字列に対して、単語検索が可能となる。
書検索方法において、前記一の言語をアルファベットで
構成される言語とする。
を意識する必要性が高い英文字列に対して、単語検索が
可能となる。
のいずれか一記載の文書検索方法において、前記単語位
置照合工程を選択的に実行させる選択工程を備える。
字列検索とを使い分けることが可能となる。
ュータを動作させるプログラムを記憶したコンピュータ
読み取り可能な記憶媒体であって、前記プログラムは、
表記上の特徴が異なる複数の言語によって記述されて電
子化された文書データに対して識別子を付与して文書格
納手段に格納する文書格納工程と、前記文書格納手段に
識別子を付与されて格納された文書データを構成する文
字を所定の区切り文字数で区切った部分文字列とこの部
分文字列の出現位置情報とを抽出させる文字列情報抽出
工程と、抽出された前記部分文字列を類型化し、この部
分文字列が出現する文書データの識別子と出現位置情報
とをその類型化された部分文字列に対応付けて文字列記
憶手段に記憶させる文字列記憶工程と、前記文書データ
に含まれる一の言語の単語の先頭位置情報をその文書デ
ータと対応付けて単語先頭位置記憶手段に記憶させる単
語先頭位置記憶工程と、前記文書データに含まれる前記
一の言語の前記単語の末尾位置情報をその文書データと
対応付けて単語末尾位置記憶手段に記憶させる単語末尾
位置記憶工程と、検索条件を入力させる入力工程と、入
力された検索条件と前記文字列記憶手段に記憶された前
記部分文字列とを照合させる索引照合工程と、照合によ
り前記検索条件に含まれる検索語に合致した部分文字列
もしくは部分文字列連続における先頭文字列の出現位置
情報が記憶された単語の前記先頭位置情報と合致した場
合、この合致した部分文字列の出現位置情報および検索
語の文字数から検索語に合致した部分文字列もしくは部
分文字列連続の末尾位置を算定し、その末尾位置が記憶
された単語の前記末尾位置情報と合致した場合、この合
致した部分文字列に対応する文書データの識別子を前記
検索条件に合致した前記文書データの識別子とする単語
位置照合工程と、を前記コンピュータに実行させる。
(インデックス)本体には手を加えることなく、かつ、
従来の文字列検索も効率を悪化させずに、単語単位の電
子化文書検索が可能となる。
記憶媒体において、前記一の言語を単語の区切りが明確
な言語とし、文書データ先頭の前記一の言語の文字又は
前記一の言語の文字以外の文字に後続する前記一の言語
の文字の前記出現位置情報を単語の前記先頭位置情報と
して記憶させ、文書データ末尾の前記一の言語の文字又
は前記一の言語の文字以外の文字に先行する前記一の言
語の文字の前記出現位置情報を単語の前記末尾位置情報
として記憶させ、前記検索条件が前記一の言語の文字列
で構成されている場合にのみ、前記単語位置照合工程を
前記コンピュータに実行させる。
が高い文字列に対して、単語検索が可能となる。
の記憶媒体において、前記一の言語をアルファベットで
構成される言語として前記コンピュータに実行させる。
を意識する必要性が高い英文字列に対して、単語検索が
可能となる。
11のいずれか一記載の記憶媒体において、前記単語位
置照合工程を選択的に実行させる選択工程を前記コンピ
ュータに実行させる。
字列検索とを使い分けることが可能となる。
し図10に基づいて説明する。ここで、図1は文書検索
システム1のハードウェア構成を概略的に示すブロック
図である。図1に示すように、この文書検索システム1
は、各部を制御する機能を有する中央処理装置(CP
U)2、ROMやRAM等で構成されるメモリ3、記憶
媒体であるハードディスク4、キーボードやマウス等で
種々の指示を与える入力装置5、CRT又は液晶ディス
プレイ(LCD)等の表示装置6、フロッピー(登録商
標)ディスク(FD)に対するデータの読み書きを行な
うフロッピーディスクドライブ(FDD)7、CD−R
OMからのデータの読み出しを行なうCD−ROMドラ
イブ8等をそれぞれバス9によって接続して構成されて
いる。ハードディスク4、フロッピーディスク(F
D)、又はCD−ROMには、文書検索プログラム等の
各種プログラムが記憶されており、文書検索システム1
のシステム起動時にメモリ3に書き込まれる。
構成を概略的に示すブロック図である。図2に示すよう
に、メモリ3には入力処理部10、登録処理部11、検
索処理部12、出力処理部13が設けられ、中央演算装
置2によって実行を制御される。また、図2に示すよう
に、ハードディスク4には、多数の文書データを文書デ
ータベースとして格納する文書格納手段14、各文書デ
ータの索引(インデックス)を格納する索引記憶手段1
5が形成されている。索引記憶手段15に格納されるイ
ンデックスとしては、後述する単語先頭位置記憶手段と
して機能する英単語先頭位置インデックスX(図5参
照)、単語末尾位置記憶手段として機能する英単語末尾
位置インデックスY(図6参照)、文字列記憶手段とし
て機能するインデックスZ(図8参照)等がある。この
ような構成において、入力処理部10は、入力装置5か
らの入力を処理し、登録処理部11及び検索処理部12
に指示を送る。また、登録処理部11は、入力処理部1
0から送られた指示に従って、文書格納手段14から文
書データを読み出し、その読み出された文書データの各
種インデックスを作成して索引記憶手段15に格納す
る。また、検索処理部12は、入力処理部10から送ら
れた指示に従って、索引記憶手段15に格納された各種
インデックスを検索する。なお、必要な場合は、後述す
る本発明の特長である英単語先頭位置および英単語末尾
位置の照合も行なって、検索語を含む文書を特定する。
出力処理部13では、検索処理部12で検索されたイン
デックスに基づく文書の情報を表示装置6へ表示する。
必要であれば、文書格納手段14にアクセスして、文書
データを出力する。
ログラムに従って中央処理装置2が実行する文書登録処
理及び文書検索処理について説明する。まず、文書登録
処理について具体例を用いて説明する。ここで、図3は
登録対象文書の具体例を模式的に示す平面図、図4は登
録処理部11における文書登録処理の流れを概略的に示
すフローチャートである。図3に示すように、文書A
は、文書先頭に“fraction”なる英単語を含む日本語の
文書データであって、文書Aをユニークに示す識別子で
ある文書IDは“1”を付与されている。文書Bは、文
書先頭に“overact”なる英単語を含む日本語の文書デ
ータであって、文書Bをユニークに示す識別子である文
書IDは“2”を付与されている。文書Cは、文中に
“act”なる英単語を含む日本語の文書データであっ
て、文書Cをユニークに示す識別子である文書IDは
“3”を付与されている。文書Dは、文書末尾に“acti
on”なる英単語を含む日本語の文書データであって、文
書Dをユニークに示す識別子である文書IDは“4”を
付与されている。これらの文書A,B,C,Dはいずれ
もインデックス未作成の文書であって、ハードディスク
4の文書格納手段14に格納されている。
ず、ハードディスク4の文書格納手段14に格納された
文書データの中に、インデックス未作成の文書があるか
否かを判断する(ステップS1)。インデックス未作成
の文書がない場合には(ステップS1のN)、全ての検
索対象の文書データのインデックスが作成されているの
で、文書登録処理を終了する。
合には(ステップS1のY)、インデックス未作成文書
を読み込み(ステップS2)、文書格納手段14に格納
された各文書をユニークに示す文書IDを取得し(ステ
ップS3)、先頭文字にポインタをセットする(ステッ
プS4)。
示す先頭文字が英文字(アルファベット)か否かを判断
する。例えば文書先頭に“fraction”なる英単語を含ん
でいる文書Aのようにポインタの示す単語先頭文字
“f”が英文字(アルファベット)の場合(ステップS
5のY)、英単語先頭位置がセット済みであるか否かを
示す単語フラグをチェックする(ステップS6)。英単
語先頭位置がセット済みでなく英単語フラグがオフの場
合(ステップS6のY)、ポインタの位置を英単語の先
頭位置情報として文書IDと共に単語先頭位置記憶手段
として機能する英単語先頭位置インデックスXに登録す
る(ステップS7)。ここで、図5は英単語先頭位置イ
ンデックスXに登録された文書IDと英単語先頭位置と
の一例を示す模式図である。図5に示すように、英単語
先頭位置インデックスXには、文書A及び文書Bでは文
書先頭が、文書C及び文書Dでは英文字列の先頭が、そ
れぞれ登録されることになる。その後、英単語フラグを
オンにして英単語先頭位置がセット済みであるものとし
(ステップS8)、次のステップS9に進む。一方、ス
テップS6において英単語フラグがオンの場合には(ス
テップS6のN)、そのままステップS9に進む。
から所定の区切り文字数であるn文字(n=任意の整
数)の切り出しが可能か否かをチェックする。ポインタ
の位置からn文字の切り出しが可能な場合(ステップS
9のY)、n文字を切り出して文書IDと出現位置情報
と共にインデックスZに登録し(ステップS10)、ポ
インタを次の文字に移動する(ステップS11)。つま
り、ステップS10において、文字列情報抽出手段の機
能が実行される。続くステップS12においては、ポイ
ンタが文書末尾に達したか否かを判断する。ポインタが
文書末尾に達していない場合(ステップS12のN)、
ステップS5からの処理を繰り返す。
置する“fraction”なる英単語の場合、単語先頭文字
“f”から単語末尾文字“n”に至るまで、ステップS
5〜S12の処理が順に繰り返されることになる。
英単語を含んでいる文書AについてステップS5〜S1
2の処理を単語末尾文字“n”まで順に繰り返した場合
や先頭文字が英文字(アルファベット)ではない文書D
のように、ポインタの示す文字が英文字(アルファベッ
ト)ではない場合(ステップS5のN)には、英単語先
頭位置がセット済みであるか否かを示す英単語フラグを
チェックする(ステップS13)。例えば文書先頭に
“fraction”なる英単語を含んでいる文書Aについてス
テップS5〜S12の処理を単語末尾文字“n”まで順
に繰り返しており英単語フラグがオンの場合には(ステ
ップS13のY)、ポインタの直前の位置を英単語の末
尾位置情報として文書IDと共に単語末尾位置記憶手段
として機能する英単語末尾位置インデックスYに登録す
る(ステップS14)。ここで、図6は英単語末尾位置
インデックスYに登録された文書IDと英単語末尾位置
との一例を示す模式図である。図6に示すように、英単
語末尾位置インデックスYには、文書A,文書B,文書
Cでは英文字列の末尾がそれぞれ登録されることにな
る。その後、英単語フラグをオフにし(ステップS1
5)、ステップS9に進む。
ベット)ではない文書Dのような場合には英単語フラグ
がオフであるので(ステップS13のN)、そのままス
テップS9に進む。
プS9〜S12における処理は、英単語フラグがオンの
状態でのステップS9〜S12における処理となんら変
わるものではないため説明を省略する。
ついて説明する。ポインタから文書末尾までがn文字に
満たないためにポインタの位置からn文字の切り出しが
不可能な場合(ステップS9のN)、末尾の文字までを
切り出し(ステップS16)、ポインタを文書末尾に移
動する(ステップS17)。つまり、ステップS16に
おいても、文字列情報抽出手段の機能が実行される。
動した場合やポインタが文書末尾に達した場合には(ス
テップS12のY)、ステップS18に進む。ステップ
S18においては、英単語先頭位置がセット済みである
か否かを示す英単語フラグをチェックする。例えば文書
末尾に“action”なる英単語を含んでいる文書Dのよう
に英単語フラグがオンの場合(ステップS18のY)、
ポインタの直前の位置を英単語の末尾位置情報として文
書IDと共に英単語末尾位置インデックスYに登録する
(ステップS19)。したがって、図6に示すように、
英単語末尾位置インデックスYには、文書Dでは文書末
尾が英文字列の末尾として登録されることになる。その
後、英単語フラグをオフにし(ステップS20)、ステ
ップS1からの処理を繰り返す。一方、例えば文書先頭
に“fraction”なる英単語を含んでいる文書Aのように
文書末尾が英文字(アルファベット)ではなく英単語フ
ラグがオフの場合には(ステップS18のN)、そのま
まステップS1からの処理を繰り返す。
抽出された英文字列の部分文字列を示す模式図である。
なお、本実施の形態においては、部分文字列はn文字
(n=3)とする。図7に示すように、文書Aでは、英
文字列“fraction”に対して6つの3文字連鎖が得られ
る。文書Bでは、英文字列“overact”に対して5つの
3文字連鎖が得られる。文書Cでは、英文字列“act”
に対して3つの3文字連鎖が得られる。文書Dでは、英
文字列“action”に対して4つの3文字連鎖が得られ
る。なお、図7には英文字列の部分文字列のみを示す
が、実際には英文字列以外の文字列(例えば、日本語や
記号の文字列)の部分文字列も各文書A,B,C,Dか
ら抽出されている。
とした英文字列の部分文字列から作成されるインデック
スZを示す模式図である。文字列記憶手段として機能す
るインデックスZには、文字列をキーとして、出現する
文書IDと、各文書における出現位置情報とが格納され
ている。なお、図8には英文字列の部分文字列から作成
されるインデックスZのみを示すが、実際には英文字列
以外の文字列(例えば、日本語や記号の文字列)の部分
文字列から作成されるインデックスも格納されている。
は、入力装置5から入力された文書登録指定などの指示
に基づき、メモリ3に書き込まれた文書検索プログラム
の手順に従って、ハードディスク4に格納された文書格
納手段14から文書データを読み出してインデックスZ
を作成し、インデックスZをハードディスク4の索引記
憶手段15に格納する。加えて、中央処理装置2は、英
単語先頭位置インデックスX及び英単語末尾位置インデ
ックスYの作成もインデックスZの作成と同時に実行
し、これらの英単語先頭位置インデックスX及び英単語
末尾位置インデックスYの情報もハードディスク4の索
引記憶手段15に格納する。なお、中央処理装置2は、
文書登録時に登録処理の経過や異常が発生した場合の通
知などを出力処理部13から表示装置6に表示する。
こで、図9は検索処理部12における文書検索処理の流
れを概略的に示すフローチャートである。図9に示すよ
うに、文書検索処理は、まず、例えば入力装置5によっ
て検索終了が指示されたか否かを判断する(ステップS
31)。検索終了が指示された場合には(ステップS3
1のY)、文書検索処理を終了する。また、検索終了が
指示されない場合には(ステップS31のN)、ステッ
プS32において検索条件であるn文字連鎖(nはイン
デックス作成時と同じ値)の検索条件の入力があるまで
待機する。
場合には(ステップS32のY)、その入力された検索
条件から取り出した検索語とハードディスク4の索引記
憶手段15に格納されたインデックスZとの照合を行な
う(ステップS33)。ここに、索引照合手段の機能が
実行される。
文字列か否かをチェックする。検索語が英文字列でない
場合には(ステップS34のN)、ステップS37に進
む。一方、検索語が英文字列である場合には(ステップ
S34のY)、ステップS35に進み、英単語検索が指
示されたか否かをチェックする。なお、本実施の形態に
おいては、ユーザが英単語検索を指示する場合は検索条
件を[ ]で囲むものとする。ここに、選択手段の機能が
実行される。
プS35のY)、ステップS36に進み、単語位置照合
処理を実行する。ここで、図10は単語位置照合処理の
流れを概略的に示すフローチャートである。図10に示
すように、単語位置照合処理は、まず、ステップS33
での各照合結果における部分文字列もしくは部分文字列
連続における先頭文字列の出現位置情報(P)が索引記
憶手段15に格納されている英単語先頭位置インデック
スXの英単語の先頭位置情報と一致するか否かをチェッ
クし(ステップS41)、一致しない照合結果は削除す
る(ステップS42)。次に、ステップS41で得られ
た出現位置情報Pに検索語の文字数から1を引いた数を
加えた位置が索引記憶手段15に格納されている英単語
末尾位置インデックスYの英単語の末尾位置情報と一致
するか否かをチェックし(ステップS43)、一致しな
い照合結果は削除する(ステップS44)。したがっ
て、ステップS36の単語位置照合処理を実行すること
により、単語位置照合手段の機能が実行される。
が指示されない場合には(ステップS35のN)、文字
列検索のみで良いと判断し、単語位置照合処理(ステッ
プS36)は実行せずにステップS37に進む。
力する。なお、単語位置照合処理(ステップS36)を
実行せずに検索結果を出力する場合には、ステップS3
3のインデックス照合処理の結果がそのまま検索結果
(文字列検索)として出力されることになる。
索条件が“act”の場合と“[act]”の場合とにつ
いての検索例をそれぞれ説明する。
つまり、英単語検索が指示されない場合の処理について
説明する。入力装置5によって検索条件“act”が入
力された場合には、入力処理部10は、文字列検索の指
示と解釈し、検索語 “act”として、検索処理部1
2に指示を送る。まず、検索処理部12は、検索語から
n文字連鎖(n=3)を抽出する。この場合は、1つの
3文字連鎖“act”が抽出される。次に、抽出された
文字列“act”とインデックスZとが照合され、対応
する文書IDと出現位置情報とが得られる。図8に示す
ように、文字列“act”は全ての文書(文書A,B,
C,D)に出現しており、ID1からID4の文書が検
索結果として出力される。この場合、検索語“act”
により、“action”,“overact”までも検索対象にし
ているユーザにとっては都合が良いが、“fraction”を
含む文書Aは、検索ノイズとなる可能性が高い。
“act”,“cti”,“tio”,“ion”の4つの3文字連鎖
が抽出される。ステップS33のインデックス照合処理
では、これらの文字列を全て含み、かつ、出現位置情報
がこの順番で隣接している文書を出力する。この場合
は、ID1とID4の文書が検索結果となる。
合、つまり、英単語検索が指示された場合について説明
する。入力装置5によって検索条件“[act]”が入力
された場合には、入力処理部10は、[ ]で囲まれた検
索条件を英単語検索の指示と解釈し、検索処理部12に
指示を送る。更に、検索条件“[act]”から[ ]を削
除し、検索語を“act”とする。ステップS33のイ
ンデックス照合処理における結果は、前述した英単語検
索が指示されない場合と同様である。この場合、検索語
が英文字列で、かつ、英単語検索が指示されているの
で、インデックス照合の結果に対し、ステップS36の
単語位置照合処理を行なう。
インデックス照合結果のうち、ID1とID2の文書で
は、文字列“act”の出現位置情報が英単語先頭位置
インデックスXの英単語の先頭位置情報と一致しないた
め、照合結果から削除される。
位置のチェックでは、出現位置情報に“検索語の文字数
- 1”を加えた位置がチェックされるが、“act”の
文字数は“3”であるため“2”が加えられる。ID4
の文書では、出現位置情報に2を加えた位置が英単語末
尾位置インデックスYの英単語の末尾位置情報と一致し
ないため、照合結果から削除される。
列を含む、ID3の文書だけが検索結果として出力され
ることになる。
は、入力装置5から入力された検索条件に基づき、メモ
リ3に書き込まれた文書検索プログラムの手順に従っ
て、入力された検索語を処理し、ハードディスク4の索
引記憶手段15に格納されたインデックスZとの照合を
行なって検索語を含む文書を特定する。加えて、中央処
理装置2は、インデックスZとの照合結果とハードディ
スク4の索引記憶手段15に格納された英単語先頭位置
インデックスX及び英単語末尾位置インデックスYの情
報との照合を実行し、それらの検索結果を出力処理部1
3から表示装置6に表示する。なお、検索結果は、出力
処理部13からプリンタやプロッタ等の印刷装置による
印字によって出力するようにしても良い。
施する場合には、ユーザが特別なマーク付き([ ]で囲
む)の検索語を入力するものとして説明したが、英文字
列の検索に関して、英単語検索のニーズが高いと判断さ
れる場合には、検索語がマーク無しの英文字列の場合は
英単語検索の指示ありとし、部分文字列の場合に特別な
マークを付加するように実装することも可能である。
英語が混在している文書について説明したが、これに限
るものではない。例えば、フランス語やドイツ語等のよ
うにアルファベットを用いて単語区切りが明確な言語で
あれば、同様に本発明を適用することができる。さら
に、日本語文字とアルファベットとによって記述された
文書に限定されるのではなく、表記上の特徴が異なる複
数の言語によって記述された文書であれば本発明を適用
することができる。
プログラムを記憶する記憶媒体としてハードディスク
4、フロッピーディスク(FD)、又はCD−ROMを
用いたが、これに限るものではなく、例えば光ディスク
(CD−R、CD−RW、DVD等)、光磁気ディス
ク、磁気テープ、不揮発性のメモリカード、ROM等の
記憶媒体であっても良い。
手段14をハードディスク4に格納するようにしたが、
これに限るものではなく、フロッピーディスクドライブ
7に挿入されたフロッピーディスク(FD)、CD−R
OMドライブ8に挿入されたCD−ROM等に格納する
ようにしても良い。
索システム1としてスタンドアロン環境のシステムを示
したが、これに限るものではなく、クライアント/サー
バ・システムとして文書検索システム1を構築するよう
にしても良い。その場合、文書検索システム1はサーバ
ー側に設け、クライアントの入力装置5からの検索条件
等の入力をサーバーにある文書検索システム1の入力処
理部10へ送信し、検索結果は出力処理部13から要求
元のクライアントへ返信する。クライアントはその結果
をディスプレイ等の表示装置6へ表示するように構成す
る。
によれば、n文字単位で作成される索引(インデック
ス)本体には手を加えることなく、かつ、従来の文字列
検索も効率を悪化させずに、単語単位の電子化文書検索
をすることができる。
載の文書検索システムにおいて、単語区切りを意識する
必要性が高い文字列に対して、単語検索をすることがで
きる。
載の文書検索システムにおいて、特に英語のように単語
区切りを意識する必要性が高い英文字列に対して、単語
検索をすることができる。
いし3のいずれか一記載の文書検索システムにおいて、
必要に応じて、単語検索と文字列検索とを使い分けるこ
とができる。
ば、n文字単位で作成される索引(インデックス)本体
には手を加えることなく、かつ、従来の文字列検索も効
率を悪化させずに、単語単位の電子化文書検索をするこ
とができる。
載の文書検索方法において、単語区切りを意識する必要
性が高い文字列に対して、単語検索をすることができ
る。
載の文書検索方法において、特に英語のように単語区切
りを意識する必要性が高い英文字列に対して、単語検索
をすることができる。
いし7のいずれか一記載の文書検索方法において、必要
に応じて、単語検索と文字列検索とを使い分けることが
できる。
n文字単位で作成される索引(インデックス)本体には
手を加えることなく、かつ、従来の文字列検索も効率を
悪化させずに、単語単位の電子化文書検索をすることが
できる。
記載の記憶媒体において、単語区切りを意識する必要性
が高い文字列に対して、単語検索をすることができる。
0記載の記憶媒体において、特に英語のように単語区切
りを意識する必要性が高い英文字列に対して、単語検索
をすることができる。
ないし11のいずれか一記載の記憶媒体において、必要
に応じて、単語検索と文字列検索とを使い分けることが
できる。
ードウェア構成を概略的に示すブロック図である。
ロック図である。
ある。
的に示すフローチャートである。
IDと英単語先頭位置との一例を示す模式図である。
IDと英単語末尾位置との一例を示す模式図である。
示す模式図である。
作成されるインデックスを示す模式図である。
的に示すフローチャートである。
ーチャートである。
Claims (12)
- 【請求項1】 表記上の特徴が異なる複数の言語によっ
て記述されて電子化された文書データに対して識別子を
付与して格納する文書格納手段と、 この文書格納手段に格納されている前記文書データを構
成する文字を所定の区切り文字数で区切った部分文字列
とこの部分文字列の出現位置情報とを抽出する文字列情
報抽出手段と、 この文字列情報抽出手段により抽出された部分文字列を
類型化し、この部分文字列が出現する文書データの識別
子と出現位置情報とをその類型化した部分文字列に対応
付けて記憶する文字列記憶手段と、 前記文書データに含まれる一の言語の単語の先頭位置情
報をその文書データと対応付けて記憶する単語先頭位置
記憶手段と、 前記文書データに含まれる前記一の言語の単語の末尾位
置情報をその文書データと対応付けて記憶する単語末尾
位置記憶手段と、 検索条件を入力させる入力処理部と、 この入力処理部より入力された検索条件と前記文字列記
憶手段に記憶された前記部分文字列とを照合する索引照
合手段と、 この索引照合手段の照合により前記検索条件に含まれる
検索語に合致した部分文字列もしくは部分文字列連続に
おける先頭文字列の出現位置情報が前記単語先頭位置記
憶手段に記憶された単語の前記先頭位置情報と合致した
場合、この合致した部分文字列の出現位置情報および検
索語の文字数から検索語に合致した部分文字列もしくは
部分文字列連続の末尾位置を算定し、その末尾位置が前
記単語末尾位置記憶手段に記憶された単語の前記末尾位
置情報と合致した場合、この合致した部分文字列に対応
する文書データの識別子を前記検索条件に合致した前記
文書データの識別子とする単語位置照合手段と、を備え
る文書検索システム。 - 【請求項2】 前記一の言語を単語の区切りが明確な言
語とし、前記単語先頭位置記憶手段では文書データ先頭
の前記一の言語の文字又は前記一の言語の文字以外の文
字に後続する前記一の言語の文字の前記出現位置情報を
単語の前記先頭位置情報として記憶し、前記単語末尾位
置記憶手段では文書データ末尾の前記一の言語の文字又
は前記一の言語の文字以外の文字に先行する前記一の言
語の文字の前記出現位置情報を単語の前記末尾位置情報
として記憶し、前記検索条件が前記一の言語の文字列で
構成されている場合にのみ前記単語位置照合手段を実行
する請求項1記載の文書検索システム。 - 【請求項3】 前記一の言語をアルファベットで構成さ
れる言語とする請求項2記載の文書検索システム。 - 【請求項4】 前記単語位置照合手段を選択的に実行す
る選択手段を備える請求項1ないし3のいずれか一記載
の文書検索システム。 - 【請求項5】 表記上の特徴が異なる複数の言語によっ
て記述されて電子化された文書データに対して識別子を
付与して文書格納手段に格納する文書格納工程と、 前記文書格納手段に識別子を付与されて格納された文書
データを構成する文字を所定の区切り文字数で区切った
部分文字列とこの部分文字列の出現位置情報とを抽出さ
せる文字列情報抽出工程と、 抽出された前記部分文字列を類型化し、この部分文字列
が出現する文書データの識別子と出現位置情報とをその
類型化された部分文字列に対応付けて文字列記憶手段に
記憶させる文字列記憶工程と、 前記文書データに含まれる一の言語の単語の先頭位置情
報をその文書データと対応付けて単語先頭位置記憶手段
に記憶させる単語先頭位置記憶工程と、 前記文書データに含まれる前記一の言語の前記単語の末
尾位置情報をその文書データと対応付けて単語末尾位置
記憶手段に記憶させる単語末尾位置記憶工程と、 検索条件を入力させる入力工程と、 入力された検索条件と前記文字列記憶手段に記憶された
前記部分文字列とを照合させる索引照合工程と、 照合により前記検索条件に含まれる検索語に合致した部
分文字列もしくは部分文字列連続における先頭文字列の
出現位置情報が記憶された単語の前記先頭位置情報と合
致した場合、この合致した部分文字列の出現位置情報お
よび検索語の文字数から検索語に合致した部分文字列も
しくは部分文字列連続の末尾位置を算定し、その末尾位
置が記憶された単語の前記末尾位置情報と合致した場
合、この合致した部分文字列に対応する文書データの識
別子を前記検索条件に合致した前記文書データの識別子
とする単語位置照合工程と、を備える文書検索方法。 - 【請求項6】 前記一の言語を単語の区切りが明確な言
語とし、文書データ先頭の前記一の言語の文字又は前記
一の言語の文字以外の文字に後続する前記一の言語の文
字の前記出現位置情報を単語の前記先頭位置情報として
記憶させ、文書データ末尾の前記一の言語の文字又は前
記一の言語の文字以外の文字に先行する前記一の言語の
文字の前記出現位置情報を単語の前記末尾位置情報とし
て記憶させ、前記検索条件が前記一の言語の文字列で構
成されている場合にのみ、前記単語位置照合工程を行な
わせる請求項5記載の文書検索方法。 - 【請求項7】 前記一の言語をアルファベットで構成さ
れる言語とする請求項6記載の文書検索方法。 - 【請求項8】 前記単語位置照合工程を選択的に実行さ
せる選択工程を備える請求項5ないし7のいずれか一記
載の文書検索方法。 - 【請求項9】 コンピュータを動作させるプログラムを
記憶したコンピュータ読み取り可能な記憶媒体であっ
て、前記プログラムは、 表記上の特徴が異なる複数の言語によって記述されて電
子化された文書データに対して識別子を付与して文書格
納手段に格納する文書格納工程と、 前記文書格納手段に識別子を付与されて格納された文書
データを構成する文字を所定の区切り文字数で区切った
部分文字列とこの部分文字列の出現位置情報とを抽出さ
せる文字列情報抽出工程と、 抽出された前記部分文字列を類型化し、この部分文字列
が出現する文書データの識別子と出現位置情報とをその
類型化された部分文字列に対応付けて文字列記憶手段に
記憶させる文字列記憶工程と、 前記文書データに含まれる一の言語の単語の先頭位置情
報をその文書データと対応付けて単語先頭位置記憶手段
に記憶させる単語先頭位置記憶工程と、 前記文書データに含まれる前記一の言語の前記単語の末
尾位置情報をその文書データと対応付けて単語末尾位置
記憶手段に記憶させる単語末尾位置記憶工程と、 検索条件を入力させる入力工程と、 入力された検索条件と前記文字列記憶手段に記憶された
前記部分文字列とを照合させる索引照合工程と、 照合により前記検索条件に含まれる検索語に合致した部
分文字列もしくは部分文字列連続における先頭文字列の
出現位置情報が記憶された単語の前記先頭位置情報と合
致した場合、この合致した部分文字列の出現位置情報お
よび検索語の文字数から検索語に合致した部分文字列も
しくは部分文字列連続の末尾位置を算定し、その末尾位
置が記憶された単語の前記末尾位置情報と合致した場
合、この合致した部分文字列に対応する文書データの識
別子を前記検索条件に合致した前記文書データの識別子
とする単語位置照合工程と、を前記コンピュータに実行
させる記憶媒体。 - 【請求項10】 前記一の言語を単語の区切りが明確な
言語とし、文書データ先頭の前記一の言語の文字又は前
記一の言語の文字以外の文字に後続する前記一の言語の
文字の前記出現位置情報を単語の前記先頭位置情報とし
て記憶させ、文書データ末尾の前記一の言語の文字又は
前記一の言語の文字以外の文字に先行する前記一の言語
の文字の前記出現位置情報を単語の前記末尾位置情報と
して記憶させ、前記検索条件が前記一の言語の文字列で
構成されている場合にのみ、前記単語位置照合工程を前
記コンピュータに実行させる請求項9記載の記憶媒体。 - 【請求項11】 前記一の言語をアルファベットで構成
される言語として前記コンピュータに実行させる請求項
10記載の記憶媒体。 - 【請求項12】 前記単語位置照合工程を選択的に実行
させる選択工程を前記コンピュータに実行させる請求項
9ないし11のいずれか一記載の記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11213391A JP2001043228A (ja) | 1999-07-28 | 1999-07-28 | 文書検索システム、文書検索方法及び記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11213391A JP2001043228A (ja) | 1999-07-28 | 1999-07-28 | 文書検索システム、文書検索方法及び記憶媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001043228A true JP2001043228A (ja) | 2001-02-16 |
Family
ID=16638436
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11213391A Pending JP2001043228A (ja) | 1999-07-28 | 1999-07-28 | 文書検索システム、文書検索方法及び記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2001043228A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006031243A (ja) * | 2004-07-14 | 2006-02-02 | Ricoh Co Ltd | データベースマネジメントシステム、データベース管理方法、プログラムおよび記録媒体 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06259481A (ja) * | 1993-03-03 | 1994-09-16 | Hitachi Ltd | 同一文字種最長一致照合機能を備えた文字列照合方法および装置 |
JPH0816617A (ja) * | 1994-06-28 | 1996-01-19 | Hitachi Ltd | 文書検索方法及び装置 |
JPH08249354A (ja) * | 1995-03-15 | 1996-09-27 | Matsushita Electric Ind Co Ltd | 単語索引および単語索引作成装置および文書検索装置 |
JPH09259140A (ja) * | 1996-03-25 | 1997-10-03 | Internatl Business Mach Corp <Ibm> | 情報検索方法、情報検索装置及び情報検索プログラムを格納する媒体 |
JPH10269231A (ja) * | 1997-03-25 | 1998-10-09 | Hitachi Ltd | 日英混在文書における文書検索方法 |
JPH10283368A (ja) * | 1997-04-10 | 1998-10-23 | Canon Inc | 情報処理装置及びその方法 |
-
1999
- 1999-07-28 JP JP11213391A patent/JP2001043228A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06259481A (ja) * | 1993-03-03 | 1994-09-16 | Hitachi Ltd | 同一文字種最長一致照合機能を備えた文字列照合方法および装置 |
JPH0816617A (ja) * | 1994-06-28 | 1996-01-19 | Hitachi Ltd | 文書検索方法及び装置 |
JPH08249354A (ja) * | 1995-03-15 | 1996-09-27 | Matsushita Electric Ind Co Ltd | 単語索引および単語索引作成装置および文書検索装置 |
JPH09259140A (ja) * | 1996-03-25 | 1997-10-03 | Internatl Business Mach Corp <Ibm> | 情報検索方法、情報検索装置及び情報検索プログラムを格納する媒体 |
JPH10269231A (ja) * | 1997-03-25 | 1998-10-09 | Hitachi Ltd | 日英混在文書における文書検索方法 |
JPH10283368A (ja) * | 1997-04-10 | 1998-10-23 | Canon Inc | 情報処理装置及びその方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006031243A (ja) * | 2004-07-14 | 2006-02-02 | Ricoh Co Ltd | データベースマネジメントシステム、データベース管理方法、プログラムおよび記録媒体 |
JP4646289B2 (ja) * | 2004-07-14 | 2011-03-09 | 株式会社リコー | データベースマネジメントシステム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5062074A (en) | Information retrieval system and method | |
US6496820B1 (en) | Method and search method for structured documents | |
JPH1153384A (ja) | キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体 | |
JPH06215029A (ja) | テキスト検索方法 | |
JPH0776969B2 (ja) | 文書処理装置 | |
JP4160548B2 (ja) | 文書要約作成システム、方法、及びプログラム | |
JP2000181920A (ja) | 質問ワ―ドを用いて多数のワ―ドグル―プのうちの1つを識別する方法 | |
JP2005043977A (ja) | 文書間の類似度算出方法および装置 | |
JP3022539B1 (ja) | 文書検索装置 | |
JPH0484271A (ja) | 文書内情報検索装置 | |
JP2005038395A (ja) | データベース検索装置 | |
JPH08147311A (ja) | 構造化文書検索方法及び装置 | |
JP3784060B2 (ja) | データベース検索システム、その検索方法及びプログラム | |
JPH0869476A (ja) | 検索システム | |
JPH10269233A (ja) | 文書データベースの検索結果表示方法及び装置 | |
JP2001043228A (ja) | 文書検索システム、文書検索方法及び記憶媒体 | |
JP2004342016A (ja) | 情報探索プログラム及び情報探索プログラムを記録した媒体 | |
JPH0877196A (ja) | 文書情報抽出装置 | |
JPH0877179A (ja) | 文書索引生成装置 | |
JPH0782500B2 (ja) | 未登録語獲得方式 | |
JPH1145238A (ja) | 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
EP1072986A2 (en) | System and method for extracting data from semi-structured text | |
JP3666066B2 (ja) | 多言語文書登録検索装置 | |
JP2001022782A (ja) | ガイドidを持たないメッセージの詳細説明の検索・表示方法 | |
JPS63228326A (ja) | キ−ワ−ド自動抽出方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041130 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20050609 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080129 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080331 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080513 |