JP2001043228A - 文書検索システム、文書検索方法及び記憶媒体 - Google Patents

文書検索システム、文書検索方法及び記憶媒体

Info

Publication number
JP2001043228A
JP2001043228A JP11213391A JP21339199A JP2001043228A JP 2001043228 A JP2001043228 A JP 2001043228A JP 11213391 A JP11213391 A JP 11213391A JP 21339199 A JP21339199 A JP 21339199A JP 2001043228 A JP2001043228 A JP 2001043228A
Authority
JP
Japan
Prior art keywords
word
character string
language
document
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11213391A
Other languages
English (en)
Inventor
Sakiko Honma
咲子 本間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP11213391A priority Critical patent/JP2001043228A/ja
Publication of JP2001043228A publication Critical patent/JP2001043228A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 表記上の特徴が異なる複数の言語によって記
述された文書データにおいて、n文字単位で作成される
索引(インデックス)本体には手を加えることなく、か
つ、従来の文字列検索も効率を悪化させずに、単語検索
を実現する。 【解決手段】 検索語とインデックスとの照合結果にお
ける部分文字列もしくは部分文字列連続における先頭文
字列の出現位置情報Pが英単語先頭位置インデックスの
英単語の先頭位置情報と一致するか否かをチェックし
(S41)、一致しない照合結果は削除する(S4
2)。次に、出現位置情報Pに検索語の文字数から1を
引いた数を加えた位置が英単語末尾位置インデックスの
英単語の末尾位置情報と一致するか否かをチェックし
(S43)、一致しない照合結果は削除する(S4
4)。これにより、n文字単位で作成される索引本体に
は手を加えることなく、かつ、従来の文字列検索も効率
を悪化させずに、単語検索を実現することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書データベース
からユーザが所望する文書データを検索する文書検索シ
ステム、文書検索方法及び記憶媒体に関し、特に日本語
と英語との組み合わせのような表記上の特徴が異なる複
数の言語によって記述された文書データの検索システ
ム、文書検索方法及び記憶媒体に関する。
【0002】
【従来の技術】日本語のように単語の区切りが明確でな
い言語で記述された文書データを含む文書データベース
を対象として全文検索を行なう場合、文書をn文字単位
の(n=任意の整数)部分文字列に分割して、出現位置
情報と共に索引(インデックス)として登録し、検索時
には、検索語をやはりn文字単位に分割し、インデック
スの登録文字列と位置情報との照合により、合致した文
字列を含む文書を検索結果として得る方法が知られてい
る。
【0003】n文字単位でのインデクシングは、英語の
ように単語の区切りが明確な言語で記述された文書、あ
るいはそのような言語記述を含む文書の検索において
は、検索ノイズを生じがちである。例えば、“act”と
いう英単語が検索語の場合、“fraction”、“cactu
s”、“bacteria”など、“act”を部分文字列として含
む多くの英単語が合致してしまい、これらを含む検索語
とは無関係な文書が、検索結果として得られてしまう。
【0004】このように、特にアルファベットで構成さ
れる英文字列を検索対象とする場合には、単語区切りを
意識した検索(以下、単語検索と呼ぶ。)が可能である
ことが求められる。そこで、英文字列を検索対象として
単語検索を実施するための技術が、特開平10-269231号
公報や特開平10-283368号公報において提案されてい
る。特開平10-269231号公報において提案されている技
術は、文書全体をn文字単位でインデクシングした後、
英文字列を抽出して単語単位で登録し、英文字列を含む
n文字連鎖はインデックスから削除するようにしてい
る。また、特開平10-283368号公報において提案されて
いる技術は、n文字単位のインデックスと単語単位のイ
ンデックスとの両方を有し、英文字列は単語単位のイン
デックスとして登録し、英文字列以外はn文字単位のイ
ンデックスとして登録するようにしている。
【0005】ところで、例えば検索語“act”により、
その複合語である“overact”や派生語である“actio
n”なども一括して検索したい場合には、敢えて単語区
切りを無視した検索(以下、文字列検索と呼ぶ。)もで
きるなど、柔軟な処理が可能であることが望ましい。
【0006】ところが、特開平10-269231号公報や特開
平10-283368号公報において提案されている技術におい
ては、英文字列に対して単語検索のみを実施する場合は
都合が良いが、英文字列に関する部分文字列情報がない
ため、文字列検索は不可能になっている。
【0007】そこで、単語検索と文字列検索の両方を可
能とするための技術が、特開平8-16617号公報や特開平9
-259140号公報において提案されている。特開平8-16617
号公報において提案されている技術は、英文字列につい
ては単語単位でインデックスに登録し、更に前後にデリ
ミタを付加した英文字列を登録した単語テーブルを設
け、検索時には、検索語先頭末尾のワイルドカードの有
無に応じて検索語にデリミタを付加し、まずは単語テー
ブルを検索し、合致した単語を新たに検索語としてイン
デックスを検索するようにしている。また、特開平9-25
9140号公報において提案されている技術は、英文字列の
先頭および末尾に、各々の位置をマークする特殊な文字
を付加し、付加された文字も含めて部分文字列に分割
し、インデックスとして登録するようにしている。
【0008】
【発明が解決しようとする課題】しかしながら、特開平
8-16617号公報において提案されている技術において
は、単語検索と文字列検索とのいずれの場合において
も、最初に単語テーブルを検索しなければならず、非効
率的である。更に、検索語が前後にワイルドカードを伴
う短い文字列(例:*at*)の場合には、非常に多く
の単語に合致し、それら全てを検索語とすることによ
り、極端に検索効率が悪化する可能性がある。
【0009】また、特開平9-259140号公報において提案
されている技術においては、英文字列の比率が高い文書
ではインデックス本体の容量が増加したり、また、先頭
末尾をマークする文字の設定は適用されるシステムに応
じて不都合のない文字に設定しなければならず、汎用性
が低下するなどのデメリットがある。
【0010】本発明の目的は、特に日本語と英語との組
み合わせのような表記上の特徴が異なる複数の言語によ
って記述された文書データにおいて、n文字単位で作成
される索引(インデックス)本体には手を加えることな
く、かつ、従来の文字列検索も効率を悪化させずに、単
語検索を実現することである。
【0011】本発明の目的は、必要に応じて単語検索と
文字列検索とを使い分けることである。
【0012】
【課題を解決するための手段】請求項1記載の発明の文
書検索システムは、表記上の特徴が異なる複数の言語に
よって記述されて電子化された文書データに対して識別
子を付与して格納する文書格納手段と、この文書格納手
段に格納されている前記文書データを構成する文字を所
定の区切り文字数で区切った部分文字列とこの部分文字
列の出現位置情報とを抽出する文字列情報抽出手段と、
この文字列情報抽出手段により抽出された部分文字列を
類型化し、この部分文字列が出現する文書データの識別
子と出現位置情報とをその類型化した部分文字列に対応
付けて記憶する文字列記憶手段と、前記文書データに含
まれる一の言語の単語の先頭位置情報をその文書データ
と対応付けて記憶する単語先頭位置記憶手段と、前記文
書データに含まれる前記一の言語の単語の末尾位置情報
をその文書データと対応付けて記憶する単語末尾位置記
憶手段と、検索条件を入力させる入力処理部と、この入
力処理部より入力された検索条件と前記文字列記憶手段
に記憶された前記部分文字列とを照合する索引照合手段
と、この索引照合手段の照合により前記検索条件に含ま
れる検索語に合致した部分文字列もしくは部分文字列連
続における先頭文字列の出現位置情報が前記単語先頭位
置記憶手段に記憶された単語の前記先頭位置情報と合致
した場合、この合致した部分文字列の出現位置情報およ
び検索語の文字数から検索語に合致した部分文字列もし
くは部分文字列連続の末尾位置を算定し、その末尾位置
が前記単語末尾位置記憶手段に記憶された単語の前記末
尾位置情報と合致した場合、この合致した部分文字列に
対応する文書データの識別子を前記検索条件に合致した
前記文書データの識別子とする単語位置照合手段と、を
備える。
【0013】したがって、特に日本語と英語との組み合
わせのような表記上の特徴が異なる複数の言語によって
記述された文書データにおいて、n文字単位で作成され
る索引(インデックス)本体には手を加えることなく、
かつ、従来の文字列検索も効率を悪化させずに、単語単
位の電子化文書検索が可能となる。
【0014】請求項2記載の発明は、請求項1記載の文
書検索システムにおいて、前記一の言語を単語の区切り
が明確な言語とし、前記単語先頭位置記憶手段では文書
データ先頭の前記一の言語の文字又は前記一の言語の文
字以外の文字に後続する前記一の言語の文字の前記出現
位置情報を単語の前記先頭位置情報として記憶し、前記
単語末尾位置記憶手段では文書データ末尾の前記一の言
語の文字又は前記一の言語の文字以外の文字に先行する
前記一の言語の文字の前記出現位置情報を単語の前記末
尾位置情報として記憶し、前記検索条件が前記一の言語
の文字列で構成されている場合にのみ前記単語位置照合
手段を実行する。
【0015】したがって、単語区切りを意識する必要性
が高い文字列に対して、単語検索が可能となる。
【0016】請求項3記載の発明は、請求項2記載の文
書検索システムにおいて、前記一の言語をアルファベッ
トで構成される言語とする。
【0017】したがって、特に英語のように単語区切り
を意識する必要性が高い英文字列に対して、単語検索が
可能となる。
【0018】請求項4記載の発明は、請求項1ないし3
のいずれか一記載の文書検索システムにおいて、前記単
語位置照合手段を選択的に実行する選択手段を備える。
【0019】したがって、必要に応じて、単語検索と文
字列検索とを使い分けることが可能となる。
【0020】請求項5記載の発明の文書検索方法は、表
記上の特徴が異なる複数の言語によって記述されて電子
化された文書データに対して識別子を付与して文書格納
手段に格納する文書格納工程と、前記文書格納手段に識
別子を付与されて格納された文書データを構成する文字
を所定の区切り文字数で区切った部分文字列とこの部分
文字列の出現位置情報とを抽出させる文字列情報抽出工
程と、抽出された前記部分文字列を類型化し、この部分
文字列が出現する文書データの識別子と出現位置情報と
をその類型化された部分文字列に対応付けて文字列記憶
手段に記憶させる文字列記憶工程と、前記文書データに
含まれる一の言語の単語の先頭位置情報をその文書デー
タと対応付けて単語先頭位置記憶手段に記憶させる単語
先頭位置記憶工程と、前記文書データに含まれる前記一
の言語の前記単語の末尾位置情報をその文書データと対
応付けて単語末尾位置記憶手段に記憶させる単語末尾位
置記憶工程と、検索条件を入力させる入力工程と、入力
された検索条件と前記文字列記憶手段に記憶された前記
部分文字列とを照合させる索引照合工程と、照合により
前記検索条件に含まれる検索語に合致した部分文字列も
しくは部分文字列連続における先頭文字列の出現位置情
報が記憶された単語の前記先頭位置情報と合致した場
合、この合致した部分文字列の出現位置情報および検索
語の文字数から検索語に合致した部分文字列もしくは部
分文字列連続の末尾位置を算定し、その末尾位置が記憶
された単語の前記末尾位置情報と合致した場合、この合
致した部分文字列に対応する文書データの識別子を前記
検索条件に合致した前記文書データの識別子とする単語
位置照合工程と、を備える。
【0021】したがって、n文字単位で作成される索引
(インデックス)本体には手を加えることなく、かつ、
従来の文字列検索も効率を悪化させずに、単語単位の電
子化文書検索が可能となる。
【0022】請求項6記載の発明は、請求項5記載の文
書検索方法において、前記一の言語を単語の区切りが明
確な言語とし、文書データ先頭の前記一の言語の文字又
は前記一の言語の文字以外の文字に後続する前記一の言
語の文字の前記出現位置情報を単語の前記先頭位置情報
として記憶させ、文書データ末尾の前記一の言語の文字
又は前記一の言語の文字以外の文字に先行する前記一の
言語の文字の前記出現位置情報を単語の前記末尾位置情
報として記憶させ、前記検索条件が前記一の言語の文字
列で構成されている場合にのみ、前記単語位置照合工程
を行なわせる。
【0023】したがって、単語区切りを意識する必要性
が高い文字列に対して、単語検索が可能となる。
【0024】請求項7記載の発明は、請求項6記載の文
書検索方法において、前記一の言語をアルファベットで
構成される言語とする。
【0025】したがって、特に英語のように単語区切り
を意識する必要性が高い英文字列に対して、単語検索が
可能となる。
【0026】請求項8記載の発明は、請求項5ないし7
のいずれか一記載の文書検索方法において、前記単語位
置照合工程を選択的に実行させる選択工程を備える。
【0027】したがって、必要に応じて、単語検索と文
字列検索とを使い分けることが可能となる。
【0028】請求項9記載の発明の記憶媒体は、コンピ
ュータを動作させるプログラムを記憶したコンピュータ
読み取り可能な記憶媒体であって、前記プログラムは、
表記上の特徴が異なる複数の言語によって記述されて電
子化された文書データに対して識別子を付与して文書格
納手段に格納する文書格納工程と、前記文書格納手段に
識別子を付与されて格納された文書データを構成する文
字を所定の区切り文字数で区切った部分文字列とこの部
分文字列の出現位置情報とを抽出させる文字列情報抽出
工程と、抽出された前記部分文字列を類型化し、この部
分文字列が出現する文書データの識別子と出現位置情報
とをその類型化された部分文字列に対応付けて文字列記
憶手段に記憶させる文字列記憶工程と、前記文書データ
に含まれる一の言語の単語の先頭位置情報をその文書デ
ータと対応付けて単語先頭位置記憶手段に記憶させる単
語先頭位置記憶工程と、前記文書データに含まれる前記
一の言語の前記単語の末尾位置情報をその文書データと
対応付けて単語末尾位置記憶手段に記憶させる単語末尾
位置記憶工程と、検索条件を入力させる入力工程と、入
力された検索条件と前記文字列記憶手段に記憶された前
記部分文字列とを照合させる索引照合工程と、照合によ
り前記検索条件に含まれる検索語に合致した部分文字列
もしくは部分文字列連続における先頭文字列の出現位置
情報が記憶された単語の前記先頭位置情報と合致した場
合、この合致した部分文字列の出現位置情報および検索
語の文字数から検索語に合致した部分文字列もしくは部
分文字列連続の末尾位置を算定し、その末尾位置が記憶
された単語の前記末尾位置情報と合致した場合、この合
致した部分文字列に対応する文書データの識別子を前記
検索条件に合致した前記文書データの識別子とする単語
位置照合工程と、を前記コンピュータに実行させる。
【0029】したがって、n文字単位で作成される索引
(インデックス)本体には手を加えることなく、かつ、
従来の文字列検索も効率を悪化させずに、単語単位の電
子化文書検索が可能となる。
【0030】請求項10記載の発明は、請求項9記載の
記憶媒体において、前記一の言語を単語の区切りが明確
な言語とし、文書データ先頭の前記一の言語の文字又は
前記一の言語の文字以外の文字に後続する前記一の言語
の文字の前記出現位置情報を単語の前記先頭位置情報と
して記憶させ、文書データ末尾の前記一の言語の文字又
は前記一の言語の文字以外の文字に先行する前記一の言
語の文字の前記出現位置情報を単語の前記末尾位置情報
として記憶させ、前記検索条件が前記一の言語の文字列
で構成されている場合にのみ、前記単語位置照合工程を
前記コンピュータに実行させる。
【0031】したがって、単語区切りを意識する必要性
が高い文字列に対して、単語検索が可能となる。
【0032】請求項11記載の発明は、請求項10記載
の記憶媒体において、前記一の言語をアルファベットで
構成される言語として前記コンピュータに実行させる。
【0033】したがって、特に英語のように単語区切り
を意識する必要性が高い英文字列に対して、単語検索が
可能となる。
【0034】請求項12記載の発明は、請求項9ないし
11のいずれか一記載の記憶媒体において、前記単語位
置照合工程を選択的に実行させる選択工程を前記コンピ
ュータに実行させる。
【0035】したがって、必要に応じて、単語検索と文
字列検索とを使い分けることが可能となる。
【0036】
【発明の実施の形態】本発明の実施の一形態を図1ない
し図10に基づいて説明する。ここで、図1は文書検索
システム1のハードウェア構成を概略的に示すブロック
図である。図1に示すように、この文書検索システム1
は、各部を制御する機能を有する中央処理装置(CP
U)2、ROMやRAM等で構成されるメモリ3、記憶
媒体であるハードディスク4、キーボードやマウス等で
種々の指示を与える入力装置5、CRT又は液晶ディス
プレイ(LCD)等の表示装置6、フロッピー(登録商
標)ディスク(FD)に対するデータの読み書きを行な
うフロッピーディスクドライブ(FDD)7、CD−R
OMからのデータの読み出しを行なうCD−ROMドラ
イブ8等をそれぞれバス9によって接続して構成されて
いる。ハードディスク4、フロッピーディスク(F
D)、又はCD−ROMには、文書検索プログラム等の
各種プログラムが記憶されており、文書検索システム1
のシステム起動時にメモリ3に書き込まれる。
【0037】ここで、図2は文書検索システム1の機能
構成を概略的に示すブロック図である。図2に示すよう
に、メモリ3には入力処理部10、登録処理部11、検
索処理部12、出力処理部13が設けられ、中央演算装
置2によって実行を制御される。また、図2に示すよう
に、ハードディスク4には、多数の文書データを文書デ
ータベースとして格納する文書格納手段14、各文書デ
ータの索引(インデックス)を格納する索引記憶手段1
5が形成されている。索引記憶手段15に格納されるイ
ンデックスとしては、後述する単語先頭位置記憶手段と
して機能する英単語先頭位置インデックスX(図5参
照)、単語末尾位置記憶手段として機能する英単語末尾
位置インデックスY(図6参照)、文字列記憶手段とし
て機能するインデックスZ(図8参照)等がある。この
ような構成において、入力処理部10は、入力装置5か
らの入力を処理し、登録処理部11及び検索処理部12
に指示を送る。また、登録処理部11は、入力処理部1
0から送られた指示に従って、文書格納手段14から文
書データを読み出し、その読み出された文書データの各
種インデックスを作成して索引記憶手段15に格納す
る。また、検索処理部12は、入力処理部10から送ら
れた指示に従って、索引記憶手段15に格納された各種
インデックスを検索する。なお、必要な場合は、後述す
る本発明の特長である英単語先頭位置および英単語末尾
位置の照合も行なって、検索語を含む文書を特定する。
出力処理部13では、検索処理部12で検索されたイン
デックスに基づく文書の情報を表示装置6へ表示する。
必要であれば、文書格納手段14にアクセスして、文書
データを出力する。
【0038】次に、メモリ3に書き込まれた文書検索プ
ログラムに従って中央処理装置2が実行する文書登録処
理及び文書検索処理について説明する。まず、文書登録
処理について具体例を用いて説明する。ここで、図3は
登録対象文書の具体例を模式的に示す平面図、図4は登
録処理部11における文書登録処理の流れを概略的に示
すフローチャートである。図3に示すように、文書A
は、文書先頭に“fraction”なる英単語を含む日本語の
文書データであって、文書Aをユニークに示す識別子で
ある文書IDは“1”を付与されている。文書Bは、文
書先頭に“overact”なる英単語を含む日本語の文書デ
ータであって、文書Bをユニークに示す識別子である文
書IDは“2”を付与されている。文書Cは、文中に
“act”なる英単語を含む日本語の文書データであっ
て、文書Cをユニークに示す識別子である文書IDは
“3”を付与されている。文書Dは、文書末尾に“acti
on”なる英単語を含む日本語の文書データであって、文
書Dをユニークに示す識別子である文書IDは“4”を
付与されている。これらの文書A,B,C,Dはいずれ
もインデックス未作成の文書であって、ハードディスク
4の文書格納手段14に格納されている。
【0039】図4に示すように、文書登録処理は、ま
ず、ハードディスク4の文書格納手段14に格納された
文書データの中に、インデックス未作成の文書があるか
否かを判断する(ステップS1)。インデックス未作成
の文書がない場合には(ステップS1のN)、全ての検
索対象の文書データのインデックスが作成されているの
で、文書登録処理を終了する。
【0040】一方、インデックス未作成の文書がある場
合には(ステップS1のY)、インデックス未作成文書
を読み込み(ステップS2)、文書格納手段14に格納
された各文書をユニークに示す文書IDを取得し(ステ
ップS3)、先頭文字にポインタをセットする(ステッ
プS4)。
【0041】続くステップS5においては、ポインタの
示す先頭文字が英文字(アルファベット)か否かを判断
する。例えば文書先頭に“fraction”なる英単語を含ん
でいる文書Aのようにポインタの示す単語先頭文字
“f”が英文字(アルファベット)の場合(ステップS
5のY)、英単語先頭位置がセット済みであるか否かを
示す単語フラグをチェックする(ステップS6)。英単
語先頭位置がセット済みでなく英単語フラグがオフの場
合(ステップS6のY)、ポインタの位置を英単語の先
頭位置情報として文書IDと共に単語先頭位置記憶手段
として機能する英単語先頭位置インデックスXに登録す
る(ステップS7)。ここで、図5は英単語先頭位置イ
ンデックスXに登録された文書IDと英単語先頭位置と
の一例を示す模式図である。図5に示すように、英単語
先頭位置インデックスXには、文書A及び文書Bでは文
書先頭が、文書C及び文書Dでは英文字列の先頭が、そ
れぞれ登録されることになる。その後、英単語フラグを
オンにして英単語先頭位置がセット済みであるものとし
(ステップS8)、次のステップS9に進む。一方、ス
テップS6において英単語フラグがオンの場合には(ス
テップS6のN)、そのままステップS9に進む。
【0042】ステップS9においては、ポインタの位置
から所定の区切り文字数であるn文字(n=任意の整
数)の切り出しが可能か否かをチェックする。ポインタ
の位置からn文字の切り出しが可能な場合(ステップS
9のY)、n文字を切り出して文書IDと出現位置情報
と共にインデックスZに登録し(ステップS10)、ポ
インタを次の文字に移動する(ステップS11)。つま
り、ステップS10において、文字列情報抽出手段の機
能が実行される。続くステップS12においては、ポイ
ンタが文書末尾に達したか否かを判断する。ポインタが
文書末尾に達していない場合(ステップS12のN)、
ステップS5からの処理を繰り返す。
【0043】したがって、例えば文書Aの文書先頭に位
置する“fraction”なる英単語の場合、単語先頭文字
“f”から単語末尾文字“n”に至るまで、ステップS
5〜S12の処理が順に繰り返されることになる。
【0044】一方、例えば文書先頭に“fraction”なる
英単語を含んでいる文書AについてステップS5〜S1
2の処理を単語末尾文字“n”まで順に繰り返した場合
や先頭文字が英文字(アルファベット)ではない文書D
のように、ポインタの示す文字が英文字(アルファベッ
ト)ではない場合(ステップS5のN)には、英単語先
頭位置がセット済みであるか否かを示す英単語フラグを
チェックする(ステップS13)。例えば文書先頭に
“fraction”なる英単語を含んでいる文書Aについてス
テップS5〜S12の処理を単語末尾文字“n”まで順
に繰り返しており英単語フラグがオンの場合には(ステ
ップS13のY)、ポインタの直前の位置を英単語の末
尾位置情報として文書IDと共に単語末尾位置記憶手段
として機能する英単語末尾位置インデックスYに登録す
る(ステップS14)。ここで、図6は英単語末尾位置
インデックスYに登録された文書IDと英単語末尾位置
との一例を示す模式図である。図6に示すように、英単
語末尾位置インデックスYには、文書A,文書B,文書
Cでは英文字列の末尾がそれぞれ登録されることにな
る。その後、英単語フラグをオフにし(ステップS1
5)、ステップS9に進む。
【0045】また、例えば先頭文字が英文字(アルファ
ベット)ではない文書Dのような場合には英単語フラグ
がオフであるので(ステップS13のN)、そのままス
テップS9に進む。
【0046】続く英単語フラグがオフの状態でのステッ
プS9〜S12における処理は、英単語フラグがオンの
状態でのステップS9〜S12における処理となんら変
わるものではないため説明を省略する。
【0047】次に、ポインタが文書末尾に達した場合に
ついて説明する。ポインタから文書末尾までがn文字に
満たないためにポインタの位置からn文字の切り出しが
不可能な場合(ステップS9のN)、末尾の文字までを
切り出し(ステップS16)、ポインタを文書末尾に移
動する(ステップS17)。つまり、ステップS16に
おいても、文字列情報抽出手段の機能が実行される。
【0048】ステップS17でポインタを文書末尾に移
動した場合やポインタが文書末尾に達した場合には(ス
テップS12のY)、ステップS18に進む。ステップ
S18においては、英単語先頭位置がセット済みである
か否かを示す英単語フラグをチェックする。例えば文書
末尾に“action”なる英単語を含んでいる文書Dのよう
に英単語フラグがオンの場合(ステップS18のY)、
ポインタの直前の位置を英単語の末尾位置情報として文
書IDと共に英単語末尾位置インデックスYに登録する
(ステップS19)。したがって、図6に示すように、
英単語末尾位置インデックスYには、文書Dでは文書末
尾が英文字列の末尾として登録されることになる。その
後、英単語フラグをオフにし(ステップS20)、ステ
ップS1からの処理を繰り返す。一方、例えば文書先頭
に“fraction”なる英単語を含んでいる文書Aのように
文書末尾が英文字(アルファベット)ではなく英単語フ
ラグがオフの場合には(ステップS18のN)、そのま
まステップS1からの処理を繰り返す。
【0049】ここで、図7は各文書A,B,C,Dから
抽出された英文字列の部分文字列を示す模式図である。
なお、本実施の形態においては、部分文字列はn文字
(n=3)とする。図7に示すように、文書Aでは、英
文字列“fraction”に対して6つの3文字連鎖が得られ
る。文書Bでは、英文字列“overact”に対して5つの
3文字連鎖が得られる。文書Cでは、英文字列“act”
に対して3つの3文字連鎖が得られる。文書Dでは、英
文字列“action”に対して4つの3文字連鎖が得られ
る。なお、図7には英文字列の部分文字列のみを示す
が、実際には英文字列以外の文字列(例えば、日本語や
記号の文字列)の部分文字列も各文書A,B,C,Dか
ら抽出されている。
【0050】また、図8は各文書A,B,C,Dを対象
とした英文字列の部分文字列から作成されるインデック
スZを示す模式図である。文字列記憶手段として機能す
るインデックスZには、文字列をキーとして、出現する
文書IDと、各文書における出現位置情報とが格納され
ている。なお、図8には英文字列の部分文字列から作成
されるインデックスZのみを示すが、実際には英文字列
以外の文字列(例えば、日本語や記号の文字列)の部分
文字列から作成されるインデックスも格納されている。
【0051】つまり、中央処理装置2は、文書登録時に
は、入力装置5から入力された文書登録指定などの指示
に基づき、メモリ3に書き込まれた文書検索プログラム
の手順に従って、ハードディスク4に格納された文書格
納手段14から文書データを読み出してインデックスZ
を作成し、インデックスZをハードディスク4の索引記
憶手段15に格納する。加えて、中央処理装置2は、英
単語先頭位置インデックスX及び英単語末尾位置インデ
ックスYの作成もインデックスZの作成と同時に実行
し、これらの英単語先頭位置インデックスX及び英単語
末尾位置インデックスYの情報もハードディスク4の索
引記憶手段15に格納する。なお、中央処理装置2は、
文書登録時に登録処理の経過や異常が発生した場合の通
知などを出力処理部13から表示装置6に表示する。
【0052】次に、文書検索処理について説明する。こ
こで、図9は検索処理部12における文書検索処理の流
れを概略的に示すフローチャートである。図9に示すよ
うに、文書検索処理は、まず、例えば入力装置5によっ
て検索終了が指示されたか否かを判断する(ステップS
31)。検索終了が指示された場合には(ステップS3
1のY)、文書検索処理を終了する。また、検索終了が
指示されない場合には(ステップS31のN)、ステッ
プS32において検索条件であるn文字連鎖(nはイン
デックス作成時と同じ値)の検索条件の入力があるまで
待機する。
【0053】入力装置5によって検索条件が入力された
場合には(ステップS32のY)、その入力された検索
条件から取り出した検索語とハードディスク4の索引記
憶手段15に格納されたインデックスZとの照合を行な
う(ステップS33)。ここに、索引照合手段の機能が
実行される。
【0054】続くステップS34においては検索語が英
文字列か否かをチェックする。検索語が英文字列でない
場合には(ステップS34のN)、ステップS37に進
む。一方、検索語が英文字列である場合には(ステップ
S34のY)、ステップS35に進み、英単語検索が指
示されたか否かをチェックする。なお、本実施の形態に
おいては、ユーザが英単語検索を指示する場合は検索条
件を[ ]で囲むものとする。ここに、選択手段の機能が
実行される。
【0055】英単語検索が指示された場合には(ステッ
プS35のY)、ステップS36に進み、単語位置照合
処理を実行する。ここで、図10は単語位置照合処理の
流れを概略的に示すフローチャートである。図10に示
すように、単語位置照合処理は、まず、ステップS33
での各照合結果における部分文字列もしくは部分文字列
連続における先頭文字列の出現位置情報(P)が索引記
憶手段15に格納されている英単語先頭位置インデック
スXの英単語の先頭位置情報と一致するか否かをチェッ
クし(ステップS41)、一致しない照合結果は削除す
る(ステップS42)。次に、ステップS41で得られ
た出現位置情報Pに検索語の文字数から1を引いた数を
加えた位置が索引記憶手段15に格納されている英単語
末尾位置インデックスYの英単語の末尾位置情報と一致
するか否かをチェックし(ステップS43)、一致しな
い照合結果は削除する(ステップS44)。したがっ
て、ステップS36の単語位置照合処理を実行すること
により、単語位置照合手段の機能が実行される。
【0056】一方、ステップS35において英単語検索
が指示されない場合には(ステップS35のN)、文字
列検索のみで良いと判断し、単語位置照合処理(ステッ
プS36)は実行せずにステップS37に進む。
【0057】ステップS37においては、検索結果を出
力する。なお、単語位置照合処理(ステップS36)を
実行せずに検索結果を出力する場合には、ステップS3
3のインデックス照合処理の結果がそのまま検索結果
(文字列検索)として出力されることになる。
【0058】ここで、入力装置5によって入力された検
索条件が“act”の場合と“[act]”の場合とにつ
いての検索例をそれぞれ説明する。
【0059】まず、ユーザの入力が“act”の場合、
つまり、英単語検索が指示されない場合の処理について
説明する。入力装置5によって検索条件“act”が入
力された場合には、入力処理部10は、文字列検索の指
示と解釈し、検索語 “act”として、検索処理部1
2に指示を送る。まず、検索処理部12は、検索語から
n文字連鎖(n=3)を抽出する。この場合は、1つの
3文字連鎖“act”が抽出される。次に、抽出された
文字列“act”とインデックスZとが照合され、対応
する文書IDと出現位置情報とが得られる。図8に示す
ように、文字列“act”は全ての文書(文書A,B,
C,D)に出現しており、ID1からID4の文書が検
索結果として出力される。この場合、検索語“act”
により、“action”,“overact”までも検索対象にし
ているユーザにとっては都合が良いが、“fraction”を
含む文書Aは、検索ノイズとなる可能性が高い。
【0060】ちなみに、検索語が“action”の場合は、
“act”,“cti”,“tio”,“ion”の4つの3文字連鎖
が抽出される。ステップS33のインデックス照合処理
では、これらの文字列を全て含み、かつ、出現位置情報
がこの順番で隣接している文書を出力する。この場合
は、ID1とID4の文書が検索結果となる。
【0061】次に、ユーザの入力が“[act]”の場
合、つまり、英単語検索が指示された場合について説明
する。入力装置5によって検索条件“[act]”が入力
された場合には、入力処理部10は、[ ]で囲まれた検
索条件を英単語検索の指示と解釈し、検索処理部12に
指示を送る。更に、検索条件“[act]”から[ ]を削
除し、検索語を“act”とする。ステップS33のイ
ンデックス照合処理における結果は、前述した英単語検
索が指示されない場合と同様である。この場合、検索語
が英文字列で、かつ、英単語検索が指示されているの
で、インデックス照合の結果に対し、ステップS36の
単語位置照合処理を行なう。
【0062】まず、英単語先頭位置をチェックすると、
インデックス照合結果のうち、ID1とID2の文書で
は、文字列“act”の出現位置情報が英単語先頭位置
インデックスXの英単語の先頭位置情報と一致しないた
め、照合結果から削除される。
【0063】次に英単語末尾位置をチェックする。末尾
位置のチェックでは、出現位置情報に“検索語の文字数
- 1”を加えた位置がチェックされるが、“act”の
文字数は“3”であるため“2”が加えられる。ID4
の文書では、出現位置情報に2を加えた位置が英単語末
尾位置インデックスYの英単語の末尾位置情報と一致し
ないため、照合結果から削除される。
【0064】最終的に、“act”と完全一致する文字
列を含む、ID3の文書だけが検索結果として出力され
ることになる。
【0065】つまり、中央処理装置2は、文書検索時に
は、入力装置5から入力された検索条件に基づき、メモ
リ3に書き込まれた文書検索プログラムの手順に従っ
て、入力された検索語を処理し、ハードディスク4の索
引記憶手段15に格納されたインデックスZとの照合を
行なって検索語を含む文書を特定する。加えて、中央処
理装置2は、インデックスZとの照合結果とハードディ
スク4の索引記憶手段15に格納された英単語先頭位置
インデックスX及び英単語末尾位置インデックスYの情
報との照合を実行し、それらの検索結果を出力処理部1
3から表示装置6に表示する。なお、検索結果は、出力
処理部13からプリンタやプロッタ等の印刷装置による
印字によって出力するようにしても良い。
【0066】本実施の形態においては、英単語検索を実
施する場合には、ユーザが特別なマーク付き([ ]で囲
む)の検索語を入力するものとして説明したが、英文字
列の検索に関して、英単語検索のニーズが高いと判断さ
れる場合には、検索語がマーク無しの英文字列の場合は
英単語検索の指示ありとし、部分文字列の場合に特別な
マークを付加するように実装することも可能である。
【0067】また、本実施の形態においては、日本語と
英語が混在している文書について説明したが、これに限
るものではない。例えば、フランス語やドイツ語等のよ
うにアルファベットを用いて単語区切りが明確な言語で
あれば、同様に本発明を適用することができる。さら
に、日本語文字とアルファベットとによって記述された
文書に限定されるのではなく、表記上の特徴が異なる複
数の言語によって記述された文書であれば本発明を適用
することができる。
【0068】なお、本実施の形態においては、文書検索
プログラムを記憶する記憶媒体としてハードディスク
4、フロッピーディスク(FD)、又はCD−ROMを
用いたが、これに限るものではなく、例えば光ディスク
(CD−R、CD−RW、DVD等)、光磁気ディス
ク、磁気テープ、不揮発性のメモリカード、ROM等の
記憶媒体であっても良い。
【0069】また、本実施の形態においては、文書格納
手段14をハードディスク4に格納するようにしたが、
これに限るものではなく、フロッピーディスクドライブ
7に挿入されたフロッピーディスク(FD)、CD−R
OMドライブ8に挿入されたCD−ROM等に格納する
ようにしても良い。
【0070】さらに、本実施の形態においては、文書検
索システム1としてスタンドアロン環境のシステムを示
したが、これに限るものではなく、クライアント/サー
バ・システムとして文書検索システム1を構築するよう
にしても良い。その場合、文書検索システム1はサーバ
ー側に設け、クライアントの入力装置5からの検索条件
等の入力をサーバーにある文書検索システム1の入力処
理部10へ送信し、検索結果は出力処理部13から要求
元のクライアントへ返信する。クライアントはその結果
をディスプレイ等の表示装置6へ表示するように構成す
る。
【0071】
【発明の効果】請求項1記載の発明の文書検索システム
によれば、n文字単位で作成される索引(インデック
ス)本体には手を加えることなく、かつ、従来の文字列
検索も効率を悪化させずに、単語単位の電子化文書検索
をすることができる。
【0072】請求項2記載の発明によれば、請求項1記
載の文書検索システムにおいて、単語区切りを意識する
必要性が高い文字列に対して、単語検索をすることがで
きる。
【0073】請求項3記載の発明によれば、請求項2記
載の文書検索システムにおいて、特に英語のように単語
区切りを意識する必要性が高い英文字列に対して、単語
検索をすることができる。
【0074】請求項4記載の発明によれば、請求項1な
いし3のいずれか一記載の文書検索システムにおいて、
必要に応じて、単語検索と文字列検索とを使い分けるこ
とができる。
【0075】請求項5記載の発明の文書検索方法によれ
ば、n文字単位で作成される索引(インデックス)本体
には手を加えることなく、かつ、従来の文字列検索も効
率を悪化させずに、単語単位の電子化文書検索をするこ
とができる。
【0076】請求項6記載の発明によれば、請求項5記
載の文書検索方法において、単語区切りを意識する必要
性が高い文字列に対して、単語検索をすることができ
る。
【0077】請求項7記載の発明によれば、請求項6記
載の文書検索方法において、特に英語のように単語区切
りを意識する必要性が高い英文字列に対して、単語検索
をすることができる。
【0078】請求項8記載の発明によれば、請求項5な
いし7のいずれか一記載の文書検索方法において、必要
に応じて、単語検索と文字列検索とを使い分けることが
できる。
【0079】請求項9記載の発明の記憶媒体によれば、
n文字単位で作成される索引(インデックス)本体には
手を加えることなく、かつ、従来の文字列検索も効率を
悪化させずに、単語単位の電子化文書検索をすることが
できる。
【0080】請求項10記載の発明によれば、請求項9
記載の記憶媒体において、単語区切りを意識する必要性
が高い文字列に対して、単語検索をすることができる。
【0081】請求項11記載の発明によれば、請求項1
0記載の記憶媒体において、特に英語のように単語区切
りを意識する必要性が高い英文字列に対して、単語検索
をすることができる。
【0082】請求項12記載の発明によれば、請求項9
ないし11のいずれか一記載の記憶媒体において、必要
に応じて、単語検索と文字列検索とを使い分けることが
できる。
【図面の簡単な説明】
【図1】本発明の実施の一形態の文書検索システムのハ
ードウェア構成を概略的に示すブロック図である。
【図2】文書検索システムの機能構成を概略的に示すブ
ロック図である。
【図3】登録対象文書の具体例を模式的に示す平面図で
ある。
【図4】登録処理部における文書登録処理の流れを概略
的に示すフローチャートである。
【図5】英単語先頭位置インデックスに登録された文書
IDと英単語先頭位置との一例を示す模式図である。
【図6】英単語末尾位置インデックスに登録された文書
IDと英単語末尾位置との一例を示す模式図である。
【図7】各文書から抽出された英文字列の部分文字列を
示す模式図である。
【図8】各文書を対象とした英文字列の部分文字列から
作成されるインデックスを示す模式図である。
【図9】検索処理部における文書検索処理の流れを概略
的に示すフローチャートである。
【図10】単語位置照合処理の流れを概略的に示すフロ
ーチャートである。
【符号の説明】
1 文書検索システム 10 入力処理部 14 文書格納手段 15 索引記憶手段 X 単語先頭位置記憶手段 Y 単語末尾位置記憶手段 Z 文字列記憶手段

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 表記上の特徴が異なる複数の言語によっ
    て記述されて電子化された文書データに対して識別子を
    付与して格納する文書格納手段と、 この文書格納手段に格納されている前記文書データを構
    成する文字を所定の区切り文字数で区切った部分文字列
    とこの部分文字列の出現位置情報とを抽出する文字列情
    報抽出手段と、 この文字列情報抽出手段により抽出された部分文字列を
    類型化し、この部分文字列が出現する文書データの識別
    子と出現位置情報とをその類型化した部分文字列に対応
    付けて記憶する文字列記憶手段と、 前記文書データに含まれる一の言語の単語の先頭位置情
    報をその文書データと対応付けて記憶する単語先頭位置
    記憶手段と、 前記文書データに含まれる前記一の言語の単語の末尾位
    置情報をその文書データと対応付けて記憶する単語末尾
    位置記憶手段と、 検索条件を入力させる入力処理部と、 この入力処理部より入力された検索条件と前記文字列記
    憶手段に記憶された前記部分文字列とを照合する索引照
    合手段と、 この索引照合手段の照合により前記検索条件に含まれる
    検索語に合致した部分文字列もしくは部分文字列連続に
    おける先頭文字列の出現位置情報が前記単語先頭位置記
    憶手段に記憶された単語の前記先頭位置情報と合致した
    場合、この合致した部分文字列の出現位置情報および検
    索語の文字数から検索語に合致した部分文字列もしくは
    部分文字列連続の末尾位置を算定し、その末尾位置が前
    記単語末尾位置記憶手段に記憶された単語の前記末尾位
    置情報と合致した場合、この合致した部分文字列に対応
    する文書データの識別子を前記検索条件に合致した前記
    文書データの識別子とする単語位置照合手段と、を備え
    る文書検索システム。
  2. 【請求項2】 前記一の言語を単語の区切りが明確な言
    語とし、前記単語先頭位置記憶手段では文書データ先頭
    の前記一の言語の文字又は前記一の言語の文字以外の文
    字に後続する前記一の言語の文字の前記出現位置情報を
    単語の前記先頭位置情報として記憶し、前記単語末尾位
    置記憶手段では文書データ末尾の前記一の言語の文字又
    は前記一の言語の文字以外の文字に先行する前記一の言
    語の文字の前記出現位置情報を単語の前記末尾位置情報
    として記憶し、前記検索条件が前記一の言語の文字列で
    構成されている場合にのみ前記単語位置照合手段を実行
    する請求項1記載の文書検索システム。
  3. 【請求項3】 前記一の言語をアルファベットで構成さ
    れる言語とする請求項2記載の文書検索システム。
  4. 【請求項4】 前記単語位置照合手段を選択的に実行す
    る選択手段を備える請求項1ないし3のいずれか一記載
    の文書検索システム。
  5. 【請求項5】 表記上の特徴が異なる複数の言語によっ
    て記述されて電子化された文書データに対して識別子を
    付与して文書格納手段に格納する文書格納工程と、 前記文書格納手段に識別子を付与されて格納された文書
    データを構成する文字を所定の区切り文字数で区切った
    部分文字列とこの部分文字列の出現位置情報とを抽出さ
    せる文字列情報抽出工程と、 抽出された前記部分文字列を類型化し、この部分文字列
    が出現する文書データの識別子と出現位置情報とをその
    類型化された部分文字列に対応付けて文字列記憶手段に
    記憶させる文字列記憶工程と、 前記文書データに含まれる一の言語の単語の先頭位置情
    報をその文書データと対応付けて単語先頭位置記憶手段
    に記憶させる単語先頭位置記憶工程と、 前記文書データに含まれる前記一の言語の前記単語の末
    尾位置情報をその文書データと対応付けて単語末尾位置
    記憶手段に記憶させる単語末尾位置記憶工程と、 検索条件を入力させる入力工程と、 入力された検索条件と前記文字列記憶手段に記憶された
    前記部分文字列とを照合させる索引照合工程と、 照合により前記検索条件に含まれる検索語に合致した部
    分文字列もしくは部分文字列連続における先頭文字列の
    出現位置情報が記憶された単語の前記先頭位置情報と合
    致した場合、この合致した部分文字列の出現位置情報お
    よび検索語の文字数から検索語に合致した部分文字列も
    しくは部分文字列連続の末尾位置を算定し、その末尾位
    置が記憶された単語の前記末尾位置情報と合致した場
    合、この合致した部分文字列に対応する文書データの識
    別子を前記検索条件に合致した前記文書データの識別子
    とする単語位置照合工程と、を備える文書検索方法。
  6. 【請求項6】 前記一の言語を単語の区切りが明確な言
    語とし、文書データ先頭の前記一の言語の文字又は前記
    一の言語の文字以外の文字に後続する前記一の言語の文
    字の前記出現位置情報を単語の前記先頭位置情報として
    記憶させ、文書データ末尾の前記一の言語の文字又は前
    記一の言語の文字以外の文字に先行する前記一の言語の
    文字の前記出現位置情報を単語の前記末尾位置情報とし
    て記憶させ、前記検索条件が前記一の言語の文字列で構
    成されている場合にのみ、前記単語位置照合工程を行な
    わせる請求項5記載の文書検索方法。
  7. 【請求項7】 前記一の言語をアルファベットで構成さ
    れる言語とする請求項6記載の文書検索方法。
  8. 【請求項8】 前記単語位置照合工程を選択的に実行さ
    せる選択工程を備える請求項5ないし7のいずれか一記
    載の文書検索方法。
  9. 【請求項9】 コンピュータを動作させるプログラムを
    記憶したコンピュータ読み取り可能な記憶媒体であっ
    て、前記プログラムは、 表記上の特徴が異なる複数の言語によって記述されて電
    子化された文書データに対して識別子を付与して文書格
    納手段に格納する文書格納工程と、 前記文書格納手段に識別子を付与されて格納された文書
    データを構成する文字を所定の区切り文字数で区切った
    部分文字列とこの部分文字列の出現位置情報とを抽出さ
    せる文字列情報抽出工程と、 抽出された前記部分文字列を類型化し、この部分文字列
    が出現する文書データの識別子と出現位置情報とをその
    類型化された部分文字列に対応付けて文字列記憶手段に
    記憶させる文字列記憶工程と、 前記文書データに含まれる一の言語の単語の先頭位置情
    報をその文書データと対応付けて単語先頭位置記憶手段
    に記憶させる単語先頭位置記憶工程と、 前記文書データに含まれる前記一の言語の前記単語の末
    尾位置情報をその文書データと対応付けて単語末尾位置
    記憶手段に記憶させる単語末尾位置記憶工程と、 検索条件を入力させる入力工程と、 入力された検索条件と前記文字列記憶手段に記憶された
    前記部分文字列とを照合させる索引照合工程と、 照合により前記検索条件に含まれる検索語に合致した部
    分文字列もしくは部分文字列連続における先頭文字列の
    出現位置情報が記憶された単語の前記先頭位置情報と合
    致した場合、この合致した部分文字列の出現位置情報お
    よび検索語の文字数から検索語に合致した部分文字列も
    しくは部分文字列連続の末尾位置を算定し、その末尾位
    置が記憶された単語の前記末尾位置情報と合致した場
    合、この合致した部分文字列に対応する文書データの識
    別子を前記検索条件に合致した前記文書データの識別子
    とする単語位置照合工程と、を前記コンピュータに実行
    させる記憶媒体。
  10. 【請求項10】 前記一の言語を単語の区切りが明確な
    言語とし、文書データ先頭の前記一の言語の文字又は前
    記一の言語の文字以外の文字に後続する前記一の言語の
    文字の前記出現位置情報を単語の前記先頭位置情報とし
    て記憶させ、文書データ末尾の前記一の言語の文字又は
    前記一の言語の文字以外の文字に先行する前記一の言語
    の文字の前記出現位置情報を単語の前記末尾位置情報と
    して記憶させ、前記検索条件が前記一の言語の文字列で
    構成されている場合にのみ、前記単語位置照合工程を前
    記コンピュータに実行させる請求項9記載の記憶媒体。
  11. 【請求項11】 前記一の言語をアルファベットで構成
    される言語として前記コンピュータに実行させる請求項
    10記載の記憶媒体。
  12. 【請求項12】 前記単語位置照合工程を選択的に実行
    させる選択工程を前記コンピュータに実行させる請求項
    9ないし11のいずれか一記載の記憶媒体。
JP11213391A 1999-07-28 1999-07-28 文書検索システム、文書検索方法及び記憶媒体 Pending JP2001043228A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11213391A JP2001043228A (ja) 1999-07-28 1999-07-28 文書検索システム、文書検索方法及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11213391A JP2001043228A (ja) 1999-07-28 1999-07-28 文書検索システム、文書検索方法及び記憶媒体

Publications (1)

Publication Number Publication Date
JP2001043228A true JP2001043228A (ja) 2001-02-16

Family

ID=16638436

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11213391A Pending JP2001043228A (ja) 1999-07-28 1999-07-28 文書検索システム、文書検索方法及び記憶媒体

Country Status (1)

Country Link
JP (1) JP2001043228A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031243A (ja) * 2004-07-14 2006-02-02 Ricoh Co Ltd データベースマネジメントシステム、データベース管理方法、プログラムおよび記録媒体

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06259481A (ja) * 1993-03-03 1994-09-16 Hitachi Ltd 同一文字種最長一致照合機能を備えた文字列照合方法および装置
JPH0816617A (ja) * 1994-06-28 1996-01-19 Hitachi Ltd 文書検索方法及び装置
JPH08249354A (ja) * 1995-03-15 1996-09-27 Matsushita Electric Ind Co Ltd 単語索引および単語索引作成装置および文書検索装置
JPH09259140A (ja) * 1996-03-25 1997-10-03 Internatl Business Mach Corp <Ibm> 情報検索方法、情報検索装置及び情報検索プログラムを格納する媒体
JPH10269231A (ja) * 1997-03-25 1998-10-09 Hitachi Ltd 日英混在文書における文書検索方法
JPH10283368A (ja) * 1997-04-10 1998-10-23 Canon Inc 情報処理装置及びその方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06259481A (ja) * 1993-03-03 1994-09-16 Hitachi Ltd 同一文字種最長一致照合機能を備えた文字列照合方法および装置
JPH0816617A (ja) * 1994-06-28 1996-01-19 Hitachi Ltd 文書検索方法及び装置
JPH08249354A (ja) * 1995-03-15 1996-09-27 Matsushita Electric Ind Co Ltd 単語索引および単語索引作成装置および文書検索装置
JPH09259140A (ja) * 1996-03-25 1997-10-03 Internatl Business Mach Corp <Ibm> 情報検索方法、情報検索装置及び情報検索プログラムを格納する媒体
JPH10269231A (ja) * 1997-03-25 1998-10-09 Hitachi Ltd 日英混在文書における文書検索方法
JPH10283368A (ja) * 1997-04-10 1998-10-23 Canon Inc 情報処理装置及びその方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031243A (ja) * 2004-07-14 2006-02-02 Ricoh Co Ltd データベースマネジメントシステム、データベース管理方法、プログラムおよび記録媒体
JP4646289B2 (ja) * 2004-07-14 2011-03-09 株式会社リコー データベースマネジメントシステム

Similar Documents

Publication Publication Date Title
US6496820B1 (en) Method and search method for structured documents
JPH1153384A (ja) キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
JPH0424869A (ja) 文書処理システム
JPH06215029A (ja) テキスト検索方法
JP2006523344A (ja) 対話形サーチクエリー改良のためのシステム及び方法
JPH0776969B2 (ja) 文書処理装置
JP4160548B2 (ja) 文書要約作成システム、方法、及びプログラム
JP2000181920A (ja) 質問ワ―ドを用いて多数のワ―ドグル―プのうちの1つを識別する方法
JP2005043977A (ja) 文書間の類似度算出方法および装置
JP3022539B1 (ja) 文書検索装置
JPH0484271A (ja) 文書内情報検索装置
JP2005038395A (ja) データベース検索装置
JPH08147311A (ja) 構造化文書検索方法及び装置
JP3784060B2 (ja) データベース検索システム、その検索方法及びプログラム
JPH0869476A (ja) 検索システム
JPH10269233A (ja) 文書データベースの検索結果表示方法及び装置
JP2001043228A (ja) 文書検索システム、文書検索方法及び記憶媒体
JP2004342016A (ja) 情報探索プログラム及び情報探索プログラムを記録した媒体
JPH0877196A (ja) 文書情報抽出装置
JPH0877179A (ja) 文書索引生成装置
JPH0782500B2 (ja) 未登録語獲得方式
EP1072986A2 (en) System and method for extracting data from semi-structured text
JP3666066B2 (ja) 多言語文書登録検索装置
JP2001022782A (ja) ガイドidを持たないメッセージの詳細説明の検索・表示方法
JPH1145238A (ja) 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041130

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20050609

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080129

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080331

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080513