JP2001043228A

JP2001043228A - 文書検索システム、文書検索方法及び記憶媒体

Info

Publication number: JP2001043228A
Application number: JP11213391A
Authority: JP
Inventors: Sakiko Honma; 咲子本間
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1999-07-28
Filing date: 1999-07-28
Publication date: 2001-02-16

Abstract

(57)【要約】【課題】表記上の特徴が異なる複数の言語によって記
述された文書データにおいて、ｎ文字単位で作成される
索引（インデックス）本体には手を加えることなく、か
つ、従来の文字列検索も効率を悪化させずに、単語検索
を実現する。【解決手段】検索語とインデックスとの照合結果にお
ける部分文字列もしくは部分文字列連続における先頭文
字列の出現位置情報Ｐが英単語先頭位置インデックスの
英単語の先頭位置情報と一致するか否かをチェックし
（Ｓ４１）、一致しない照合結果は削除する（Ｓ４
２）。次に、出現位置情報Ｐに検索語の文字数から１を
引いた数を加えた位置が英単語末尾位置インデックスの
英単語の末尾位置情報と一致するか否かをチェックし
（Ｓ４３）、一致しない照合結果は削除する（Ｓ４
４）。これにより、ｎ文字単位で作成される索引本体に
は手を加えることなく、かつ、従来の文字列検索も効率
を悪化させずに、単語検索を実現することができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文書データベース
からユーザが所望する文書データを検索する文書検索シ
ステム、文書検索方法及び記憶媒体に関し、特に日本語
と英語との組み合わせのような表記上の特徴が異なる複
数の言語によって記述された文書データの検索システ
ム、文書検索方法及び記憶媒体に関する。

【０００２】

【従来の技術】日本語のように単語の区切りが明確でな
い言語で記述された文書データを含む文書データベース
を対象として全文検索を行なう場合、文書をｎ文字単位
の（ｎ＝任意の整数）部分文字列に分割して、出現位置
情報と共に索引（インデックス）として登録し、検索時
には、検索語をやはりｎ文字単位に分割し、インデック
スの登録文字列と位置情報との照合により、合致した文
字列を含む文書を検索結果として得る方法が知られてい
る。

【０００３】ｎ文字単位でのインデクシングは、英語の
ように単語の区切りが明確な言語で記述された文書、あ
るいはそのような言語記述を含む文書の検索において
は、検索ノイズを生じがちである。例えば、“act”と
いう英単語が検索語の場合、“fraction”、“cactu
s”、“bacteria”など、“act”を部分文字列として含
む多くの英単語が合致してしまい、これらを含む検索語
とは無関係な文書が、検索結果として得られてしまう。

【０００４】このように、特にアルファベットで構成さ
れる英文字列を検索対象とする場合には、単語区切りを
意識した検索（以下、単語検索と呼ぶ。）が可能である
ことが求められる。そこで、英文字列を検索対象として
単語検索を実施するための技術が、特開平10-269231号
公報や特開平10-283368号公報において提案されてい
る。特開平10-269231号公報において提案されている技
術は、文書全体をｎ文字単位でインデクシングした後、
英文字列を抽出して単語単位で登録し、英文字列を含む
ｎ文字連鎖はインデックスから削除するようにしてい
る。また、特開平10-283368号公報において提案されて
いる技術は、ｎ文字単位のインデックスと単語単位のイ
ンデックスとの両方を有し、英文字列は単語単位のイン
デックスとして登録し、英文字列以外はｎ文字単位のイ
ンデックスとして登録するようにしている。

【０００５】ところで、例えば検索語“act”により、
その複合語である“overact”や派生語である“actio
n”なども一括して検索したい場合には、敢えて単語区
切りを無視した検索（以下、文字列検索と呼ぶ。）もで
きるなど、柔軟な処理が可能であることが望ましい。

【０００６】ところが、特開平10-269231号公報や特開
平10-283368号公報において提案されている技術におい
ては、英文字列に対して単語検索のみを実施する場合は
都合が良いが、英文字列に関する部分文字列情報がない
ため、文字列検索は不可能になっている。

【０００７】そこで、単語検索と文字列検索の両方を可
能とするための技術が、特開平8-16617号公報や特開平9
-259140号公報において提案されている。特開平8-16617
号公報において提案されている技術は、英文字列につい
ては単語単位でインデックスに登録し、更に前後にデリ
ミタを付加した英文字列を登録した単語テーブルを設
け、検索時には、検索語先頭末尾のワイルドカードの有
無に応じて検索語にデリミタを付加し、まずは単語テー
ブルを検索し、合致した単語を新たに検索語としてイン
デックスを検索するようにしている。また、特開平9-25
9140号公報において提案されている技術は、英文字列の
先頭および末尾に、各々の位置をマークする特殊な文字
を付加し、付加された文字も含めて部分文字列に分割
し、インデックスとして登録するようにしている。

【０００８】

【発明が解決しようとする課題】しかしながら、特開平
8-16617号公報において提案されている技術において
は、単語検索と文字列検索とのいずれの場合において
も、最初に単語テーブルを検索しなければならず、非効
率的である。更に、検索語が前後にワイルドカードを伴
う短い文字列（例：＊ａｔ＊）の場合には、非常に多く
の単語に合致し、それら全てを検索語とすることによ
り、極端に検索効率が悪化する可能性がある。

【０００９】また、特開平9-259140号公報において提案
されている技術においては、英文字列の比率が高い文書
ではインデックス本体の容量が増加したり、また、先頭
末尾をマークする文字の設定は適用されるシステムに応
じて不都合のない文字に設定しなければならず、汎用性
が低下するなどのデメリットがある。

【００１０】本発明の目的は、特に日本語と英語との組
み合わせのような表記上の特徴が異なる複数の言語によ
って記述された文書データにおいて、ｎ文字単位で作成
される索引（インデックス）本体には手を加えることな
く、かつ、従来の文字列検索も効率を悪化させずに、単
語検索を実現することである。

【００１１】本発明の目的は、必要に応じて単語検索と
文字列検索とを使い分けることである。

【００１２】

【課題を解決するための手段】請求項１記載の発明の文
書検索システムは、表記上の特徴が異なる複数の言語に
よって記述されて電子化された文書データに対して識別
子を付与して格納する文書格納手段と、この文書格納手
段に格納されている前記文書データを構成する文字を所
定の区切り文字数で区切った部分文字列とこの部分文字
列の出現位置情報とを抽出する文字列情報抽出手段と、
この文字列情報抽出手段により抽出された部分文字列を
類型化し、この部分文字列が出現する文書データの識別
子と出現位置情報とをその類型化した部分文字列に対応
付けて記憶する文字列記憶手段と、前記文書データに含
まれる一の言語の単語の先頭位置情報をその文書データ
と対応付けて記憶する単語先頭位置記憶手段と、前記文
書データに含まれる前記一の言語の単語の末尾位置情報
をその文書データと対応付けて記憶する単語末尾位置記
憶手段と、検索条件を入力させる入力処理部と、この入
力処理部より入力された検索条件と前記文字列記憶手段
に記憶された前記部分文字列とを照合する索引照合手段
と、この索引照合手段の照合により前記検索条件に含ま
れる検索語に合致した部分文字列もしくは部分文字列連
続における先頭文字列の出現位置情報が前記単語先頭位
置記憶手段に記憶された単語の前記先頭位置情報と合致
した場合、この合致した部分文字列の出現位置情報およ
び検索語の文字数から検索語に合致した部分文字列もし
くは部分文字列連続の末尾位置を算定し、その末尾位置
が前記単語末尾位置記憶手段に記憶された単語の前記末
尾位置情報と合致した場合、この合致した部分文字列に
対応する文書データの識別子を前記検索条件に合致した
前記文書データの識別子とする単語位置照合手段と、を
備える。

【００１３】したがって、特に日本語と英語との組み合
わせのような表記上の特徴が異なる複数の言語によって
記述された文書データにおいて、ｎ文字単位で作成され
る索引（インデックス）本体には手を加えることなく、
かつ、従来の文字列検索も効率を悪化させずに、単語単
位の電子化文書検索が可能となる。

【００１４】請求項２記載の発明は、請求項１記載の文
書検索システムにおいて、前記一の言語を単語の区切り
が明確な言語とし、前記単語先頭位置記憶手段では文書
データ先頭の前記一の言語の文字又は前記一の言語の文
字以外の文字に後続する前記一の言語の文字の前記出現
位置情報を単語の前記先頭位置情報として記憶し、前記
単語末尾位置記憶手段では文書データ末尾の前記一の言
語の文字又は前記一の言語の文字以外の文字に先行する
前記一の言語の文字の前記出現位置情報を単語の前記末
尾位置情報として記憶し、前記検索条件が前記一の言語
の文字列で構成されている場合にのみ前記単語位置照合
手段を実行する。

【００１５】したがって、単語区切りを意識する必要性
が高い文字列に対して、単語検索が可能となる。

【００１６】請求項３記載の発明は、請求項２記載の文
書検索システムにおいて、前記一の言語をアルファベッ
トで構成される言語とする。

【００１７】したがって、特に英語のように単語区切り
を意識する必要性が高い英文字列に対して、単語検索が
可能となる。

【００１８】請求項４記載の発明は、請求項１ないし３
のいずれか一記載の文書検索システムにおいて、前記単
語位置照合手段を選択的に実行する選択手段を備える。

【００１９】したがって、必要に応じて、単語検索と文
字列検索とを使い分けることが可能となる。

【００２０】請求項５記載の発明の文書検索方法は、表
記上の特徴が異なる複数の言語によって記述されて電子
化された文書データに対して識別子を付与して文書格納
手段に格納する文書格納工程と、前記文書格納手段に識
別子を付与されて格納された文書データを構成する文字
を所定の区切り文字数で区切った部分文字列とこの部分
文字列の出現位置情報とを抽出させる文字列情報抽出工
程と、抽出された前記部分文字列を類型化し、この部分
文字列が出現する文書データの識別子と出現位置情報と
をその類型化された部分文字列に対応付けて文字列記憶
手段に記憶させる文字列記憶工程と、前記文書データに
含まれる一の言語の単語の先頭位置情報をその文書デー
タと対応付けて単語先頭位置記憶手段に記憶させる単語
先頭位置記憶工程と、前記文書データに含まれる前記一
の言語の前記単語の末尾位置情報をその文書データと対
応付けて単語末尾位置記憶手段に記憶させる単語末尾位
置記憶工程と、検索条件を入力させる入力工程と、入力
された検索条件と前記文字列記憶手段に記憶された前記
部分文字列とを照合させる索引照合工程と、照合により
前記検索条件に含まれる検索語に合致した部分文字列も
しくは部分文字列連続における先頭文字列の出現位置情
報が記憶された単語の前記先頭位置情報と合致した場
合、この合致した部分文字列の出現位置情報および検索
語の文字数から検索語に合致した部分文字列もしくは部
分文字列連続の末尾位置を算定し、その末尾位置が記憶
された単語の前記末尾位置情報と合致した場合、この合
致した部分文字列に対応する文書データの識別子を前記
検索条件に合致した前記文書データの識別子とする単語
位置照合工程と、を備える。

【００２１】したがって、ｎ文字単位で作成される索引
（インデックス）本体には手を加えることなく、かつ、
従来の文字列検索も効率を悪化させずに、単語単位の電
子化文書検索が可能となる。

【００２２】請求項６記載の発明は、請求項５記載の文
書検索方法において、前記一の言語を単語の区切りが明
確な言語とし、文書データ先頭の前記一の言語の文字又
は前記一の言語の文字以外の文字に後続する前記一の言
語の文字の前記出現位置情報を単語の前記先頭位置情報
として記憶させ、文書データ末尾の前記一の言語の文字
又は前記一の言語の文字以外の文字に先行する前記一の
言語の文字の前記出現位置情報を単語の前記末尾位置情
報として記憶させ、前記検索条件が前記一の言語の文字
列で構成されている場合にのみ、前記単語位置照合工程
を行なわせる。

【００２３】したがって、単語区切りを意識する必要性
が高い文字列に対して、単語検索が可能となる。

【００２４】請求項７記載の発明は、請求項６記載の文
書検索方法において、前記一の言語をアルファベットで
構成される言語とする。

【００２５】したがって、特に英語のように単語区切り
を意識する必要性が高い英文字列に対して、単語検索が
可能となる。

【００２６】請求項８記載の発明は、請求項５ないし７
のいずれか一記載の文書検索方法において、前記単語位
置照合工程を選択的に実行させる選択工程を備える。

【００２７】したがって、必要に応じて、単語検索と文
字列検索とを使い分けることが可能となる。

【００２８】請求項９記載の発明の記憶媒体は、コンピ
ュータを動作させるプログラムを記憶したコンピュータ
読み取り可能な記憶媒体であって、前記プログラムは、
表記上の特徴が異なる複数の言語によって記述されて電
子化された文書データに対して識別子を付与して文書格
納手段に格納する文書格納工程と、前記文書格納手段に
識別子を付与されて格納された文書データを構成する文
字を所定の区切り文字数で区切った部分文字列とこの部
分文字列の出現位置情報とを抽出させる文字列情報抽出
工程と、抽出された前記部分文字列を類型化し、この部
分文字列が出現する文書データの識別子と出現位置情報
とをその類型化された部分文字列に対応付けて文字列記
憶手段に記憶させる文字列記憶工程と、前記文書データ
に含まれる一の言語の単語の先頭位置情報をその文書デ
ータと対応付けて単語先頭位置記憶手段に記憶させる単
語先頭位置記憶工程と、前記文書データに含まれる前記
一の言語の前記単語の末尾位置情報をその文書データと
対応付けて単語末尾位置記憶手段に記憶させる単語末尾
位置記憶工程と、検索条件を入力させる入力工程と、入
力された検索条件と前記文字列記憶手段に記憶された前
記部分文字列とを照合させる索引照合工程と、照合によ
り前記検索条件に含まれる検索語に合致した部分文字列
もしくは部分文字列連続における先頭文字列の出現位置
情報が記憶された単語の前記先頭位置情報と合致した場
合、この合致した部分文字列の出現位置情報および検索
語の文字数から検索語に合致した部分文字列もしくは部
分文字列連続の末尾位置を算定し、その末尾位置が記憶
された単語の前記末尾位置情報と合致した場合、この合
致した部分文字列に対応する文書データの識別子を前記
検索条件に合致した前記文書データの識別子とする単語
位置照合工程と、を前記コンピュータに実行させる。

【００２９】したがって、ｎ文字単位で作成される索引
（インデックス）本体には手を加えることなく、かつ、
従来の文字列検索も効率を悪化させずに、単語単位の電
子化文書検索が可能となる。

【００３０】請求項１０記載の発明は、請求項９記載の
記憶媒体において、前記一の言語を単語の区切りが明確
な言語とし、文書データ先頭の前記一の言語の文字又は
前記一の言語の文字以外の文字に後続する前記一の言語
の文字の前記出現位置情報を単語の前記先頭位置情報と
して記憶させ、文書データ末尾の前記一の言語の文字又
は前記一の言語の文字以外の文字に先行する前記一の言
語の文字の前記出現位置情報を単語の前記末尾位置情報
として記憶させ、前記検索条件が前記一の言語の文字列
で構成されている場合にのみ、前記単語位置照合工程を
前記コンピュータに実行させる。

【００３１】したがって、単語区切りを意識する必要性
が高い文字列に対して、単語検索が可能となる。

【００３２】請求項１１記載の発明は、請求項１０記載
の記憶媒体において、前記一の言語をアルファベットで
構成される言語として前記コンピュータに実行させる。

【００３３】したがって、特に英語のように単語区切り
を意識する必要性が高い英文字列に対して、単語検索が
可能となる。

【００３４】請求項１２記載の発明は、請求項９ないし
１１のいずれか一記載の記憶媒体において、前記単語位
置照合工程を選択的に実行させる選択工程を前記コンピ
ュータに実行させる。

【００３５】したがって、必要に応じて、単語検索と文
字列検索とを使い分けることが可能となる。

【００３６】

【発明の実施の形態】本発明の実施の一形態を図１ない
し図１０に基づいて説明する。ここで、図１は文書検索
システム１のハードウェア構成を概略的に示すブロック
図である。図１に示すように、この文書検索システム１
は、各部を制御する機能を有する中央処理装置（ＣＰ
Ｕ）２、ＲＯＭやＲＡＭ等で構成されるメモリ３、記憶
媒体であるハードディスク４、キーボードやマウス等で
種々の指示を与える入力装置５、ＣＲＴ又は液晶ディス
プレイ（ＬＣＤ）等の表示装置６、フロッピー（登録商
標）ディスク（ＦＤ）に対するデータの読み書きを行な
うフロッピーディスクドライブ（ＦＤＤ）７、ＣＤ−Ｒ
ＯＭからのデータの読み出しを行なうＣＤ−ＲＯＭドラ
イブ８等をそれぞれバス９によって接続して構成されて
いる。ハードディスク４、フロッピーディスク（Ｆ
Ｄ）、又はＣＤ−ＲＯＭには、文書検索プログラム等の
各種プログラムが記憶されており、文書検索システム１
のシステム起動時にメモリ３に書き込まれる。

【００３７】ここで、図２は文書検索システム１の機能
構成を概略的に示すブロック図である。図２に示すよう
に、メモリ３には入力処理部１０、登録処理部１１、検
索処理部１２、出力処理部１３が設けられ、中央演算装
置２によって実行を制御される。また、図２に示すよう
に、ハードディスク４には、多数の文書データを文書デ
ータベースとして格納する文書格納手段１４、各文書デ
ータの索引（インデックス）を格納する索引記憶手段１
５が形成されている。索引記憶手段１５に格納されるイ
ンデックスとしては、後述する単語先頭位置記憶手段と
して機能する英単語先頭位置インデックスＸ（図５参
照）、単語末尾位置記憶手段として機能する英単語末尾
位置インデックスＹ（図６参照）、文字列記憶手段とし
て機能するインデックスＺ（図８参照）等がある。この
ような構成において、入力処理部１０は、入力装置５か
らの入力を処理し、登録処理部１１及び検索処理部１２
に指示を送る。また、登録処理部１１は、入力処理部１
０から送られた指示に従って、文書格納手段１４から文
書データを読み出し、その読み出された文書データの各
種インデックスを作成して索引記憶手段１５に格納す
る。また、検索処理部１２は、入力処理部１０から送ら
れた指示に従って、索引記憶手段１５に格納された各種
インデックスを検索する。なお、必要な場合は、後述す
る本発明の特長である英単語先頭位置および英単語末尾
位置の照合も行なって、検索語を含む文書を特定する。
出力処理部１３では、検索処理部１２で検索されたイン
デックスに基づく文書の情報を表示装置６へ表示する。
必要であれば、文書格納手段１４にアクセスして、文書
データを出力する。

【００３８】次に、メモリ３に書き込まれた文書検索プ
ログラムに従って中央処理装置２が実行する文書登録処
理及び文書検索処理について説明する。まず、文書登録
処理について具体例を用いて説明する。ここで、図３は
登録対象文書の具体例を模式的に示す平面図、図４は登
録処理部１１における文書登録処理の流れを概略的に示
すフローチャートである。図３に示すように、文書Ａ
は、文書先頭に“fraction”なる英単語を含む日本語の
文書データであって、文書Ａをユニークに示す識別子で
ある文書ＩＤは“１”を付与されている。文書Ｂは、文
書先頭に“overact”なる英単語を含む日本語の文書デ
ータであって、文書Ｂをユニークに示す識別子である文
書ＩＤは“２”を付与されている。文書Ｃは、文中に
“act”なる英単語を含む日本語の文書データであっ
て、文書Ｃをユニークに示す識別子である文書ＩＤは
“３”を付与されている。文書Ｄは、文書末尾に“acti
on”なる英単語を含む日本語の文書データであって、文
書Ｄをユニークに示す識別子である文書ＩＤは“４”を
付与されている。これらの文書Ａ，Ｂ，Ｃ，Ｄはいずれ
もインデックス未作成の文書であって、ハードディスク
４の文書格納手段１４に格納されている。

【００３９】図４に示すように、文書登録処理は、ま
ず、ハードディスク４の文書格納手段１４に格納された
文書データの中に、インデックス未作成の文書があるか
否かを判断する（ステップＳ１）。インデックス未作成
の文書がない場合には（ステップＳ１のＮ）、全ての検
索対象の文書データのインデックスが作成されているの
で、文書登録処理を終了する。

【００４０】一方、インデックス未作成の文書がある場
合には（ステップＳ１のＹ）、インデックス未作成文書
を読み込み（ステップＳ２）、文書格納手段１４に格納
された各文書をユニークに示す文書ＩＤを取得し（ステ
ップＳ３）、先頭文字にポインタをセットする（ステッ
プＳ４）。

【００４１】続くステップＳ５においては、ポインタの
示す先頭文字が英文字（アルファベット）か否かを判断
する。例えば文書先頭に“fraction”なる英単語を含ん
でいる文書Ａのようにポインタの示す単語先頭文字
“ｆ”が英文字（アルファベット）の場合（ステップＳ
５のＹ）、英単語先頭位置がセット済みであるか否かを
示す単語フラグをチェックする（ステップＳ６）。英単
語先頭位置がセット済みでなく英単語フラグがオフの場
合（ステップＳ６のＹ）、ポインタの位置を英単語の先
頭位置情報として文書ＩＤと共に単語先頭位置記憶手段
として機能する英単語先頭位置インデックスＸに登録す
る（ステップＳ７）。ここで、図５は英単語先頭位置イ
ンデックスＸに登録された文書ＩＤと英単語先頭位置と
の一例を示す模式図である。図５に示すように、英単語
先頭位置インデックスＸには、文書Ａ及び文書Ｂでは文
書先頭が、文書Ｃ及び文書Ｄでは英文字列の先頭が、そ
れぞれ登録されることになる。その後、英単語フラグを
オンにして英単語先頭位置がセット済みであるものとし
（ステップＳ８）、次のステップＳ９に進む。一方、ス
テップＳ６において英単語フラグがオンの場合には（ス
テップＳ６のＮ）、そのままステップＳ９に進む。

【００４２】ステップＳ９においては、ポインタの位置
から所定の区切り文字数であるｎ文字（ｎ＝任意の整
数）の切り出しが可能か否かをチェックする。ポインタ
の位置からｎ文字の切り出しが可能な場合（ステップＳ
９のＹ）、ｎ文字を切り出して文書ＩＤと出現位置情報
と共にインデックスＺに登録し（ステップＳ１０）、ポ
インタを次の文字に移動する（ステップＳ１１）。つま
り、ステップＳ１０において、文字列情報抽出手段の機
能が実行される。続くステップＳ１２においては、ポイ
ンタが文書末尾に達したか否かを判断する。ポインタが
文書末尾に達していない場合（ステップＳ１２のＮ）、
ステップＳ５からの処理を繰り返す。

【００４３】したがって、例えば文書Ａの文書先頭に位
置する“fraction”なる英単語の場合、単語先頭文字
“ｆ”から単語末尾文字“ｎ”に至るまで、ステップＳ
５〜Ｓ１２の処理が順に繰り返されることになる。

【００４４】一方、例えば文書先頭に“fraction”なる
英単語を含んでいる文書ＡについてステップＳ５〜Ｓ１
２の処理を単語末尾文字“ｎ”まで順に繰り返した場合
や先頭文字が英文字（アルファベット）ではない文書Ｄ
のように、ポインタの示す文字が英文字（アルファベッ
ト）ではない場合（ステップＳ５のＮ）には、英単語先
頭位置がセット済みであるか否かを示す英単語フラグを
チェックする（ステップＳ１３）。例えば文書先頭に
“fraction”なる英単語を含んでいる文書Ａについてス
テップＳ５〜Ｓ１２の処理を単語末尾文字“ｎ”まで順
に繰り返しており英単語フラグがオンの場合には（ステ
ップＳ１３のＹ）、ポインタの直前の位置を英単語の末
尾位置情報として文書ＩＤと共に単語末尾位置記憶手段
として機能する英単語末尾位置インデックスＹに登録す
る（ステップＳ１４）。ここで、図６は英単語末尾位置
インデックスＹに登録された文書ＩＤと英単語末尾位置
との一例を示す模式図である。図６に示すように、英単
語末尾位置インデックスＹには、文書Ａ，文書Ｂ，文書
Ｃでは英文字列の末尾がそれぞれ登録されることにな
る。その後、英単語フラグをオフにし（ステップＳ１
５）、ステップＳ９に進む。

【００４５】また、例えば先頭文字が英文字（アルファ
ベット）ではない文書Ｄのような場合には英単語フラグ
がオフであるので（ステップＳ１３のＮ）、そのままス
テップＳ９に進む。

【００４６】続く英単語フラグがオフの状態でのステッ
プＳ９〜Ｓ１２における処理は、英単語フラグがオンの
状態でのステップＳ９〜Ｓ１２における処理となんら変
わるものではないため説明を省略する。

【００４７】次に、ポインタが文書末尾に達した場合に
ついて説明する。ポインタから文書末尾までがｎ文字に
満たないためにポインタの位置からｎ文字の切り出しが
不可能な場合（ステップＳ９のＮ）、末尾の文字までを
切り出し（ステップＳ１６）、ポインタを文書末尾に移
動する（ステップＳ１７）。つまり、ステップＳ１６に
おいても、文字列情報抽出手段の機能が実行される。

【００４８】ステップＳ１７でポインタを文書末尾に移
動した場合やポインタが文書末尾に達した場合には（ス
テップＳ１２のＹ）、ステップＳ１８に進む。ステップ
Ｓ１８においては、英単語先頭位置がセット済みである
か否かを示す英単語フラグをチェックする。例えば文書
末尾に“action”なる英単語を含んでいる文書Ｄのよう
に英単語フラグがオンの場合（ステップＳ１８のＹ）、
ポインタの直前の位置を英単語の末尾位置情報として文
書ＩＤと共に英単語末尾位置インデックスＹに登録する
（ステップＳ１９）。したがって、図６に示すように、
英単語末尾位置インデックスＹには、文書Ｄでは文書末
尾が英文字列の末尾として登録されることになる。その
後、英単語フラグをオフにし（ステップＳ２０）、ステ
ップＳ１からの処理を繰り返す。一方、例えば文書先頭
に“fraction”なる英単語を含んでいる文書Ａのように
文書末尾が英文字（アルファベット）ではなく英単語フ
ラグがオフの場合には（ステップＳ１８のＮ）、そのま
まステップＳ１からの処理を繰り返す。

【００４９】ここで、図７は各文書Ａ，Ｂ，Ｃ，Ｄから
抽出された英文字列の部分文字列を示す模式図である。
なお、本実施の形態においては、部分文字列はｎ文字
（ｎ＝３）とする。図７に示すように、文書Ａでは、英
文字列“fraction”に対して６つの３文字連鎖が得られ
る。文書Ｂでは、英文字列“overact”に対して５つの
３文字連鎖が得られる。文書Ｃでは、英文字列“act”
に対して３つの３文字連鎖が得られる。文書Ｄでは、英
文字列“action”に対して４つの３文字連鎖が得られ
る。なお、図７には英文字列の部分文字列のみを示す
が、実際には英文字列以外の文字列（例えば、日本語や
記号の文字列）の部分文字列も各文書Ａ，Ｂ，Ｃ，Ｄか
ら抽出されている。

【００５０】また、図８は各文書Ａ，Ｂ，Ｃ，Ｄを対象
とした英文字列の部分文字列から作成されるインデック
スＺを示す模式図である。文字列記憶手段として機能す
るインデックスＺには、文字列をキーとして、出現する
文書ＩＤと、各文書における出現位置情報とが格納され
ている。なお、図８には英文字列の部分文字列から作成
されるインデックスＺのみを示すが、実際には英文字列
以外の文字列（例えば、日本語や記号の文字列）の部分
文字列から作成されるインデックスも格納されている。

【００５１】つまり、中央処理装置２は、文書登録時に
は、入力装置５から入力された文書登録指定などの指示
に基づき、メモリ３に書き込まれた文書検索プログラム
の手順に従って、ハードディスク４に格納された文書格
納手段１４から文書データを読み出してインデックスＺ
を作成し、インデックスＺをハードディスク４の索引記
憶手段１５に格納する。加えて、中央処理装置２は、英
単語先頭位置インデックスＸ及び英単語末尾位置インデ
ックスＹの作成もインデックスＺの作成と同時に実行
し、これらの英単語先頭位置インデックスＸ及び英単語
末尾位置インデックスＹの情報もハードディスク４の索
引記憶手段１５に格納する。なお、中央処理装置２は、
文書登録時に登録処理の経過や異常が発生した場合の通
知などを出力処理部１３から表示装置６に表示する。

【００５２】次に、文書検索処理について説明する。こ
こで、図９は検索処理部１２における文書検索処理の流
れを概略的に示すフローチャートである。図９に示すよ
うに、文書検索処理は、まず、例えば入力装置５によっ
て検索終了が指示されたか否かを判断する（ステップＳ
３１）。検索終了が指示された場合には（ステップＳ３
１のＹ）、文書検索処理を終了する。また、検索終了が
指示されない場合には（ステップＳ３１のＮ）、ステッ
プＳ３２において検索条件であるｎ文字連鎖（ｎはイン
デックス作成時と同じ値）の検索条件の入力があるまで
待機する。

【００５３】入力装置５によって検索条件が入力された
場合には（ステップＳ３２のＹ）、その入力された検索
条件から取り出した検索語とハードディスク４の索引記
憶手段１５に格納されたインデックスＺとの照合を行な
う（ステップＳ３３）。ここに、索引照合手段の機能が
実行される。

【００５４】続くステップＳ３４においては検索語が英
文字列か否かをチェックする。検索語が英文字列でない
場合には（ステップＳ３４のＮ）、ステップＳ３７に進
む。一方、検索語が英文字列である場合には（ステップ
Ｓ３４のＹ）、ステップＳ３５に進み、英単語検索が指
示されたか否かをチェックする。なお、本実施の形態に
おいては、ユーザが英単語検索を指示する場合は検索条
件を[ ]で囲むものとする。ここに、選択手段の機能が
実行される。

【００５５】英単語検索が指示された場合には（ステッ
プＳ３５のＹ）、ステップＳ３６に進み、単語位置照合
処理を実行する。ここで、図１０は単語位置照合処理の
流れを概略的に示すフローチャートである。図１０に示
すように、単語位置照合処理は、まず、ステップＳ３３
での各照合結果における部分文字列もしくは部分文字列
連続における先頭文字列の出現位置情報（Ｐ）が索引記
憶手段１５に格納されている英単語先頭位置インデック
スＸの英単語の先頭位置情報と一致するか否かをチェッ
クし（ステップＳ４１）、一致しない照合結果は削除す
る（ステップＳ４２）。次に、ステップＳ４１で得られ
た出現位置情報Ｐに検索語の文字数から１を引いた数を
加えた位置が索引記憶手段１５に格納されている英単語
末尾位置インデックスＹの英単語の末尾位置情報と一致
するか否かをチェックし（ステップＳ４３）、一致しな
い照合結果は削除する（ステップＳ４４）。したがっ
て、ステップＳ３６の単語位置照合処理を実行すること
により、単語位置照合手段の機能が実行される。

【００５６】一方、ステップＳ３５において英単語検索
が指示されない場合には（ステップＳ３５のＮ）、文字
列検索のみで良いと判断し、単語位置照合処理（ステッ
プＳ３６）は実行せずにステップＳ３７に進む。

【００５７】ステップＳ３７においては、検索結果を出
力する。なお、単語位置照合処理（ステップＳ３６）を
実行せずに検索結果を出力する場合には、ステップＳ３
３のインデックス照合処理の結果がそのまま検索結果
（文字列検索）として出力されることになる。

【００５８】ここで、入力装置５によって入力された検
索条件が“ａｃｔ”の場合と“[ａｃｔ]”の場合とにつ
いての検索例をそれぞれ説明する。

【００５９】まず、ユーザの入力が“ａｃｔ”の場合、
つまり、英単語検索が指示されない場合の処理について
説明する。入力装置５によって検索条件“ａｃｔ”が入
力された場合には、入力処理部１０は、文字列検索の指
示と解釈し、検索語 “ａｃｔ”として、検索処理部１
２に指示を送る。まず、検索処理部１２は、検索語から
ｎ文字連鎖（ｎ＝３）を抽出する。この場合は、１つの
３文字連鎖“ａｃｔ”が抽出される。次に、抽出された
文字列“ａｃｔ”とインデックスＺとが照合され、対応
する文書ＩＤと出現位置情報とが得られる。図８に示す
ように、文字列“ａｃｔ”は全ての文書（文書Ａ，Ｂ，
Ｃ，Ｄ）に出現しており、ＩＤ１からＩＤ４の文書が検
索結果として出力される。この場合、検索語“ａｃｔ”
により、“action”，“overact”までも検索対象にし
ているユーザにとっては都合が良いが、“fraction”を
含む文書Ａは、検索ノイズとなる可能性が高い。

【００６０】ちなみに、検索語が“action”の場合は、
“act”,“cti”,“tio”,“ion”の４つの３文字連鎖
が抽出される。ステップＳ３３のインデックス照合処理
では、これらの文字列を全て含み、かつ、出現位置情報
がこの順番で隣接している文書を出力する。この場合
は、ＩＤ１とＩＤ４の文書が検索結果となる。

【００６１】次に、ユーザの入力が“[ａｃｔ]”の場
合、つまり、英単語検索が指示された場合について説明
する。入力装置５によって検索条件“[ａｃｔ]”が入力
された場合には、入力処理部１０は、[ ]で囲まれた検
索条件を英単語検索の指示と解釈し、検索処理部１２に
指示を送る。更に、検索条件“[ａｃｔ]”から[ ]を削
除し、検索語を“ａｃｔ”とする。ステップＳ３３のイ
ンデックス照合処理における結果は、前述した英単語検
索が指示されない場合と同様である。この場合、検索語
が英文字列で、かつ、英単語検索が指示されているの
で、インデックス照合の結果に対し、ステップＳ３６の
単語位置照合処理を行なう。

【００６２】まず、英単語先頭位置をチェックすると、
インデックス照合結果のうち、ＩＤ１とＩＤ２の文書で
は、文字列“ａｃｔ”の出現位置情報が英単語先頭位置
インデックスＸの英単語の先頭位置情報と一致しないた
め、照合結果から削除される。

【００６３】次に英単語末尾位置をチェックする。末尾
位置のチェックでは、出現位置情報に“検索語の文字数
- 1”を加えた位置がチェックされるが、“ａｃｔ”の
文字数は“３”であるため“２”が加えられる。ＩＤ４
の文書では、出現位置情報に２を加えた位置が英単語末
尾位置インデックスＹの英単語の末尾位置情報と一致し
ないため、照合結果から削除される。

【００６４】最終的に、“ａｃｔ”と完全一致する文字
列を含む、ＩＤ３の文書だけが検索結果として出力され
ることになる。

【００６５】つまり、中央処理装置２は、文書検索時に
は、入力装置５から入力された検索条件に基づき、メモ
リ３に書き込まれた文書検索プログラムの手順に従っ
て、入力された検索語を処理し、ハードディスク４の索
引記憶手段１５に格納されたインデックスＺとの照合を
行なって検索語を含む文書を特定する。加えて、中央処
理装置２は、インデックスＺとの照合結果とハードディ
スク４の索引記憶手段１５に格納された英単語先頭位置
インデックスＸ及び英単語末尾位置インデックスＹの情
報との照合を実行し、それらの検索結果を出力処理部１
３から表示装置６に表示する。なお、検索結果は、出力
処理部１３からプリンタやプロッタ等の印刷装置による
印字によって出力するようにしても良い。

【００６６】本実施の形態においては、英単語検索を実
施する場合には、ユーザが特別なマーク付き（[ ]で囲
む）の検索語を入力するものとして説明したが、英文字
列の検索に関して、英単語検索のニーズが高いと判断さ
れる場合には、検索語がマーク無しの英文字列の場合は
英単語検索の指示ありとし、部分文字列の場合に特別な
マークを付加するように実装することも可能である。

【００６７】また、本実施の形態においては、日本語と
英語が混在している文書について説明したが、これに限
るものではない。例えば、フランス語やドイツ語等のよ
うにアルファベットを用いて単語区切りが明確な言語で
あれば、同様に本発明を適用することができる。さら
に、日本語文字とアルファベットとによって記述された
文書に限定されるのではなく、表記上の特徴が異なる複
数の言語によって記述された文書であれば本発明を適用
することができる。

【００６８】なお、本実施の形態においては、文書検索
プログラムを記憶する記憶媒体としてハードディスク
４、フロッピーディスク（ＦＤ）、又はＣＤ−ＲＯＭを
用いたが、これに限るものではなく、例えば光ディスク
（ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ等）、光磁気ディス
ク、磁気テープ、不揮発性のメモリカード、ＲＯＭ等の
記憶媒体であっても良い。

【００６９】また、本実施の形態においては、文書格納
手段１４をハードディスク４に格納するようにしたが、
これに限るものではなく、フロッピーディスクドライブ
７に挿入されたフロッピーディスク（ＦＤ）、ＣＤ−Ｒ
ＯＭドライブ８に挿入されたＣＤ−ＲＯＭ等に格納する
ようにしても良い。

【００７０】さらに、本実施の形態においては、文書検
索システム１としてスタンドアロン環境のシステムを示
したが、これに限るものではなく、クライアント／サー
バ・システムとして文書検索システム１を構築するよう
にしても良い。その場合、文書検索システム１はサーバ
ー側に設け、クライアントの入力装置５からの検索条件
等の入力をサーバーにある文書検索システム１の入力処
理部１０へ送信し、検索結果は出力処理部１３から要求
元のクライアントへ返信する。クライアントはその結果
をディスプレイ等の表示装置６へ表示するように構成す
る。

【００７１】

【発明の効果】請求項１記載の発明の文書検索システム
によれば、ｎ文字単位で作成される索引（インデック
ス）本体には手を加えることなく、かつ、従来の文字列
検索も効率を悪化させずに、単語単位の電子化文書検索
をすることができる。

【００７２】請求項２記載の発明によれば、請求項１記
載の文書検索システムにおいて、単語区切りを意識する
必要性が高い文字列に対して、単語検索をすることがで
きる。

【００７３】請求項３記載の発明によれば、請求項２記
載の文書検索システムにおいて、特に英語のように単語
区切りを意識する必要性が高い英文字列に対して、単語
検索をすることができる。

【００７４】請求項４記載の発明によれば、請求項１な
いし３のいずれか一記載の文書検索システムにおいて、
必要に応じて、単語検索と文字列検索とを使い分けるこ
とができる。

【００７５】請求項５記載の発明の文書検索方法によれ
ば、ｎ文字単位で作成される索引（インデックス）本体
には手を加えることなく、かつ、従来の文字列検索も効
率を悪化させずに、単語単位の電子化文書検索をするこ
とができる。

【００７６】請求項６記載の発明によれば、請求項５記
載の文書検索方法において、単語区切りを意識する必要
性が高い文字列に対して、単語検索をすることができ
る。

【００７７】請求項７記載の発明によれば、請求項６記
載の文書検索方法において、特に英語のように単語区切
りを意識する必要性が高い英文字列に対して、単語検索
をすることができる。

【００７８】請求項８記載の発明によれば、請求項５な
いし７のいずれか一記載の文書検索方法において、必要
に応じて、単語検索と文字列検索とを使い分けることが
できる。

【００７９】請求項９記載の発明の記憶媒体によれば、
ｎ文字単位で作成される索引（インデックス）本体には
手を加えることなく、かつ、従来の文字列検索も効率を
悪化させずに、単語単位の電子化文書検索をすることが
できる。

【００８０】請求項１０記載の発明によれば、請求項９
記載の記憶媒体において、単語区切りを意識する必要性
が高い文字列に対して、単語検索をすることができる。

【００８１】請求項１１記載の発明によれば、請求項１
０記載の記憶媒体において、特に英語のように単語区切
りを意識する必要性が高い英文字列に対して、単語検索
をすることができる。

【００８２】請求項１２記載の発明によれば、請求項９
ないし１１のいずれか一記載の記憶媒体において、必要
に応じて、単語検索と文字列検索とを使い分けることが
できる。

【図面の簡単な説明】

【図１】本発明の実施の一形態の文書検索システムのハ
ードウェア構成を概略的に示すブロック図である。

【図２】文書検索システムの機能構成を概略的に示すブ
ロック図である。

【図３】登録対象文書の具体例を模式的に示す平面図で
ある。

【図４】登録処理部における文書登録処理の流れを概略
的に示すフローチャートである。

【図５】英単語先頭位置インデックスに登録された文書
ＩＤと英単語先頭位置との一例を示す模式図である。

【図６】英単語末尾位置インデックスに登録された文書
ＩＤと英単語末尾位置との一例を示す模式図である。

【図７】各文書から抽出された英文字列の部分文字列を
示す模式図である。

【図８】各文書を対象とした英文字列の部分文字列から
作成されるインデックスを示す模式図である。

【図９】検索処理部における文書検索処理の流れを概略
的に示すフローチャートである。

【図１０】単語位置照合処理の流れを概略的に示すフロ
ーチャートである。

【符号の説明】

１文書検索システム１０入力処理部１４文書格納手段１５索引記憶手段Ｘ単語先頭位置記憶手段Ｙ単語末尾位置記憶手段Ｚ文字列記憶手段

Claims

【特許請求の範囲】

【請求項１】表記上の特徴が異なる複数の言語によっ
て記述されて電子化された文書データに対して識別子を
付与して格納する文書格納手段と、この文書格納手段に格納されている前記文書データを構
成する文字を所定の区切り文字数で区切った部分文字列
とこの部分文字列の出現位置情報とを抽出する文字列情
報抽出手段と、この文字列情報抽出手段により抽出された部分文字列を
類型化し、この部分文字列が出現する文書データの識別
子と出現位置情報とをその類型化した部分文字列に対応
付けて記憶する文字列記憶手段と、前記文書データに含まれる一の言語の単語の先頭位置情
報をその文書データと対応付けて記憶する単語先頭位置
記憶手段と、前記文書データに含まれる前記一の言語の単語の末尾位
置情報をその文書データと対応付けて記憶する単語末尾
位置記憶手段と、検索条件を入力させる入力処理部と、この入力処理部より入力された検索条件と前記文字列記
憶手段に記憶された前記部分文字列とを照合する索引照
合手段と、この索引照合手段の照合により前記検索条件に含まれる
検索語に合致した部分文字列もしくは部分文字列連続に
おける先頭文字列の出現位置情報が前記単語先頭位置記
憶手段に記憶された単語の前記先頭位置情報と合致した
場合、この合致した部分文字列の出現位置情報および検
索語の文字数から検索語に合致した部分文字列もしくは
部分文字列連続の末尾位置を算定し、その末尾位置が前
記単語末尾位置記憶手段に記憶された単語の前記末尾位
置情報と合致した場合、この合致した部分文字列に対応
する文書データの識別子を前記検索条件に合致した前記
文書データの識別子とする単語位置照合手段と、を備え
る文書検索システム。
【請求項２】前記一の言語を単語の区切りが明確な言
語とし、前記単語先頭位置記憶手段では文書データ先頭
の前記一の言語の文字又は前記一の言語の文字以外の文
字に後続する前記一の言語の文字の前記出現位置情報を
単語の前記先頭位置情報として記憶し、前記単語末尾位
置記憶手段では文書データ末尾の前記一の言語の文字又
は前記一の言語の文字以外の文字に先行する前記一の言
語の文字の前記出現位置情報を単語の前記末尾位置情報
として記憶し、前記検索条件が前記一の言語の文字列で
構成されている場合にのみ前記単語位置照合手段を実行
する請求項１記載の文書検索システム。
【請求項３】前記一の言語をアルファベットで構成さ
れる言語とする請求項２記載の文書検索システム。
【請求項４】前記単語位置照合手段を選択的に実行す
る選択手段を備える請求項１ないし３のいずれか一記載
の文書検索システム。
【請求項５】表記上の特徴が異なる複数の言語によっ
て記述されて電子化された文書データに対して識別子を
付与して文書格納手段に格納する文書格納工程と、前記文書格納手段に識別子を付与されて格納された文書
データを構成する文字を所定の区切り文字数で区切った
部分文字列とこの部分文字列の出現位置情報とを抽出さ
せる文字列情報抽出工程と、抽出された前記部分文字列を類型化し、この部分文字列
が出現する文書データの識別子と出現位置情報とをその
類型化された部分文字列に対応付けて文字列記憶手段に
記憶させる文字列記憶工程と、前記文書データに含まれる一の言語の単語の先頭位置情
報をその文書データと対応付けて単語先頭位置記憶手段
に記憶させる単語先頭位置記憶工程と、前記文書データに含まれる前記一の言語の前記単語の末
尾位置情報をその文書データと対応付けて単語末尾位置
記憶手段に記憶させる単語末尾位置記憶工程と、検索条件を入力させる入力工程と、入力された検索条件と前記文字列記憶手段に記憶された
前記部分文字列とを照合させる索引照合工程と、照合により前記検索条件に含まれる検索語に合致した部
分文字列もしくは部分文字列連続における先頭文字列の
出現位置情報が記憶された単語の前記先頭位置情報と合
致した場合、この合致した部分文字列の出現位置情報お
よび検索語の文字数から検索語に合致した部分文字列も
しくは部分文字列連続の末尾位置を算定し、その末尾位
置が記憶された単語の前記末尾位置情報と合致した場
合、この合致した部分文字列に対応する文書データの識
別子を前記検索条件に合致した前記文書データの識別子
とする単語位置照合工程と、を備える文書検索方法。
【請求項６】前記一の言語を単語の区切りが明確な言
語とし、文書データ先頭の前記一の言語の文字又は前記
一の言語の文字以外の文字に後続する前記一の言語の文
字の前記出現位置情報を単語の前記先頭位置情報として
記憶させ、文書データ末尾の前記一の言語の文字又は前
記一の言語の文字以外の文字に先行する前記一の言語の
文字の前記出現位置情報を単語の前記末尾位置情報とし
て記憶させ、前記検索条件が前記一の言語の文字列で構
成されている場合にのみ、前記単語位置照合工程を行な
わせる請求項５記載の文書検索方法。
【請求項７】前記一の言語をアルファベットで構成さ
れる言語とする請求項６記載の文書検索方法。
【請求項８】前記単語位置照合工程を選択的に実行さ
せる選択工程を備える請求項５ないし７のいずれか一記
載の文書検索方法。
【請求項９】コンピュータを動作させるプログラムを
記憶したコンピュータ読み取り可能な記憶媒体であっ
て、前記プログラムは、表記上の特徴が異なる複数の言語によって記述されて電
子化された文書データに対して識別子を付与して文書格
納手段に格納する文書格納工程と、前記文書格納手段に識別子を付与されて格納された文書
データを構成する文字を所定の区切り文字数で区切った
部分文字列とこの部分文字列の出現位置情報とを抽出さ
せる文字列情報抽出工程と、抽出された前記部分文字列を類型化し、この部分文字列
が出現する文書データの識別子と出現位置情報とをその
類型化された部分文字列に対応付けて文字列記憶手段に
記憶させる文字列記憶工程と、前記文書データに含まれる一の言語の単語の先頭位置情
報をその文書データと対応付けて単語先頭位置記憶手段
に記憶させる単語先頭位置記憶工程と、前記文書データに含まれる前記一の言語の前記単語の末
尾位置情報をその文書データと対応付けて単語末尾位置
記憶手段に記憶させる単語末尾位置記憶工程と、検索条件を入力させる入力工程と、入力された検索条件と前記文字列記憶手段に記憶された
前記部分文字列とを照合させる索引照合工程と、照合により前記検索条件に含まれる検索語に合致した部
分文字列もしくは部分文字列連続における先頭文字列の
出現位置情報が記憶された単語の前記先頭位置情報と合
致した場合、この合致した部分文字列の出現位置情報お
よび検索語の文字数から検索語に合致した部分文字列も
しくは部分文字列連続の末尾位置を算定し、その末尾位
置が記憶された単語の前記末尾位置情報と合致した場
合、この合致した部分文字列に対応する文書データの識
別子を前記検索条件に合致した前記文書データの識別子
とする単語位置照合工程と、を前記コンピュータに実行
させる記憶媒体。
【請求項１０】前記一の言語を単語の区切りが明確な
言語とし、文書データ先頭の前記一の言語の文字又は前
記一の言語の文字以外の文字に後続する前記一の言語の
文字の前記出現位置情報を単語の前記先頭位置情報とし
て記憶させ、文書データ末尾の前記一の言語の文字又は
前記一の言語の文字以外の文字に先行する前記一の言語
の文字の前記出現位置情報を単語の前記末尾位置情報と
して記憶させ、前記検索条件が前記一の言語の文字列で
構成されている場合にのみ、前記単語位置照合工程を前
記コンピュータに実行させる請求項９記載の記憶媒体。
【請求項１１】前記一の言語をアルファベットで構成
される言語として前記コンピュータに実行させる請求項
１０記載の記憶媒体。
【請求項１２】前記単語位置照合工程を選択的に実行
させる選択工程を前記コンピュータに実行させる請求項
９ないし１１のいずれか一記載の記憶媒体。