JPH07319891A - 文書登録検索システム - Google Patents

文書登録検索システム

Info

Publication number
JPH07319891A
JPH07319891A JP6136571A JP13657194A JPH07319891A JP H07319891 A JPH07319891 A JP H07319891A JP 6136571 A JP6136571 A JP 6136571A JP 13657194 A JP13657194 A JP 13657194A JP H07319891 A JPH07319891 A JP H07319891A
Authority
JP
Japan
Prior art keywords
keyword
document
search
identifier
notation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6136571A
Other languages
English (en)
Inventor
Hiroshi Yamaguchi
浩 山口
Makoto Ando
誠 安藤
Akio Yamashita
明男 山下
Kazuo Aihara
一雄 相原
Tatsuomi Kita
辰臣 喜多
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP6136571A priority Critical patent/JPH07319891A/ja
Publication of JPH07319891A publication Critical patent/JPH07319891A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 キーワードの表記の揺れによる検索漏れを解
消し、且つ、キーワードと文書の情報とを対応付けて記
録したインデックスを小型化して迅速な検索処理を実現
する。 【構成】 キーワード抽出手段3で文書から抽出した登
録キーワードを表記変更手段5で所定の規則に従って標
準表記に変換し、識別子付与手段6で標準表記された登
録キーワードに識別子を付与し、文書検索用記憶手段8
に登録する文書に対応した登録キーワードの識別子と登
録する文書の情報とを対応付けて記録して検索情報を作
成する。また、検索キーワードを表記変換手段5で所定
の規則に従って標準表記に変換し、識別子付与手段6で
標準表記された検索キーワードに識別子を付与し、検索
キーワードの識別子を用いて文書検索用記憶手段8から
対応する文書を検索する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、キーワードを用いて文
書を登録し又は検索する登録検索システムに関し、特
に、キーワードの表記の揺れによる影響を解消し且つキ
ーワードと文書との登録のための記憶手段を小型化する
技術に関する。
【0002】
【従来の技術】従来より、文書の登録は、文書からキー
ワードを抽出し、このキーワードと文書の名前或いは識
別子(ID)とを対応付けてインデックスとして登録す
ることにより行い、また、登録された文書の検索は、キ
ーワードを用いてインデックスを検索して対応する文書
を探し出すことにより行う文書の登録検索システムがあ
った。ここで、日本語の特徴として、カタカナの表記の
仕方には統一性がなく、例えば「ユーザー」と「ユー
ザ」、「ゼスチャー」と「ジェスチャー」、「インター
フェース」と「インタフェース」等のように、同じ語を
表現するのに幾つかの類似する表記が存在する。このた
め、検索時にユーザが指定するキーワードをそのまま用
いてインデックスから検索すると、このキーワードと表
記が異なるキーワードを含む文書は検索から漏れてしま
うこととなる。
【0003】そこで、特開昭62−11932号公報に
は、キーワード検索において、入力されたキーワードを
文字種、表記、送り仮名等、可能な限りの表現の異なる
キーワードに変形させて、これらキーワードを用いて検
索する技術が提案されている。また、特開昭63−21
1023号公報には、カタカナ表現のキーワードを長音
は母音化する等してその表記を一定の規則に従って変換
し、表記が統一されたキーワードを用いて文書の登録及
び検索を行う技術が提案されている。これらの技術によ
れば、キーワードの表記の揺れによる検索漏れはある程
度解消させることができる。
【0004】
【発明が解決しようとする課題】しかしながら、上記の
従来技術にあっては、変換したキーワードを文字列とし
てインデックスに登録しているため、インデックスのサ
イズが大きくなってこれを記録する記憶手段が大型化し
てしまうという問題があった。更に、キーワードを文字
列でインデックスに登録した場合、このキーワードを検
索するときには、少なくともインデックスに登録された
キーワード数とキーワード文字列の文字数とを乗じた数
の比較検索を行わなければならず、検索処理を遅延させ
てしまうという問題もあった。
【0005】本発明は上記従来の事情に鑑みなされたも
ので、キーワード検索において、キーワードの表記の揺
れによる検索漏れを解消し、且つ、キーワードと文書の
情報とを対応付けて記録したインデックスを小型化して
迅速な検索処理を実現することを目的とする。すなわ
ち、請求項1に記載した発明は、文書登録用のキーワー
ドと文書検索用のキーワードの表記を統一した標準表記
に変換し、更に、このキーワードに識別子を付与するこ
とによって、キーワードの表記の揺れによる検索漏れを
解消し、且つ、キーワードと文書の情報とを対応付けて
記録したインデックスを小型化して迅速な検索処理を実
現することができる文書の登録検索システムを提供する
ことを目的とする。また、請求項2に記載した発明は、
キーワード検索において、キーワードの表記の揺れによ
る検索漏れを解消し且つキーワードと文書の情報とを対
応付けて記録したインデックスを小型化して迅速な検索
処理を実現することができる検索情報を作成する装置を
提供することを目的とする。また、請求項3に記載した
発明は、キーワードの表記の揺れによる検索漏れを解消
し且つキーワードと文書の情報とを対応付けて記録した
インデックスを小型化して迅速な検索処理を実現するこ
とができるキーワード検索を実施するための装置を提供
することを目的とする。また、請求項4に記載した発明
は、文書登録用のキーワードと文書検索用のキーワード
の表記を統一した標準表記に変換し、更に、このキーワ
ードに識別子を付与することによって、キーワードの表
記の揺れによる検索漏れを解消し、且つ、キーワードと
文書の情報とを対応付けて記録したインデックスを小型
化して迅速な検索処理を行うことができる文書の登録検
索方法を提供することを目的とする。
【0006】
【課題を解決するための手段】請求項1に記載した文書
登録検索システムは、文書から登録キーワードを抽出す
るキーワード抽出手段と、前記抽出された登録キーワー
ドを所定の規則に従って標準表記に変換する登録キーワ
ード表記変換手段と、前記標準表記された登録キーワー
ドに識別子を付与する登録キーワード識別子付与手段
と、前記登録キーワードの識別子と前記文書の情報とを
対応付けて検索情報として記録する文書検索用記憶手段
と、文書検索のために指定された検索キーワードを前記
所定の規則に従って標準表記に変換する検索キーワード
表記変換手段と、前記標準表記された検索キーワードに
識別子を付与する検索キーワード識別子付与手段と、前
記検索キーワードの識別子を用いて前記文書検索用記憶
手段に記録された検索情報から対応する文書を検索する
検索手段と、を有することを特徴とする。
【0007】請求項2に記載した検索情報作成装置は、
文書からキーワードを抽出するキーワード抽出手段と、
前記抽出されたキーワードを所定の規則に従って標準表
記に変換する表記変換手段と、前記標準表記されたキー
ワードに識別子を付与する識別子付与手段と、前記キー
ワードの識別子と前記文書の情報とを対応付けて検索情
報として記録する文書検索用記憶手段と、を有し、キー
ワードを用いて文書を検索するための情報を作成するこ
とを特徴とする。
【0008】請求項3に記載した文書検索装置は、文書
検索のために指定された検索キーワードを所定の規則に
従って標準表記に変換する表記変換手段と、前記標準表
記された検索キーワードに識別子を付与する識別子付与
手段と、前記検索キーワードの識別子を用いて文書の情
報と前記所定の規則に従って標準表記に変換されたキー
ワードの識別子とを対応付けた検索情報から文書を検索
する検索手段と、を有することを特徴とする。
【0009】請求項4に記載した文書の登録検索方法
は、登録する文書から抽出した登録キーワードを所定の
規則に従って標準表記に変換するステップと、前記標準
表記された登録キーワードに識別子を付与するステップ
と、前記登録キーワードの識別子と登録する文書の情報
とを対応付けて記録するステップと、文書検索のために
指定された検索キーワードを前記所定の規則に従って標
準表記に変換するステップと、前記標準表記された検索
キーワードに識別子を付与するステップと、前記検索キ
ーワードの識別子を用いて前記登録キーワードの識別子
と文書の情報とを対応付けた記録から対応する文書を検
索するステップと、を有することを特徴とする。
【0010】
【作用】請求項1に記載した文書の登録検索システムに
よると次のようにして請求項4に記載した登録検索方法
を実施することができる。すなわち、文書の登録におい
ては、登録する文書からキーワード抽出手段で登録キー
ワードを抽出し、この登録キーワードを登録キーワード
表記変換手段で標準表記に変換し、更に、標準表記され
た登録キーワードに登録キーワード識別子付与手段で識
別子を付与し、この登録キーワードの識別子と登録する
文書の情報とを対応付けて文書検索用記憶手段に記録す
る。そして、文書の検索においては、文書検索のために
指定された検索キーワードを検索キーワード表記変換手
段で標準表記に変換し、更に、この標準表記に対応した
識別子を検索キーワード識別子付与手段で付与し、検索
手段でこの識別子を用いて文書検索用記録手段の検索情
報から文書を検索する。
【0011】請求項2に記載した検索情報作成装置によ
ると、キーワード抽出手段で文書から抽出したキーワー
ドを表記変換手段で標準表記に変換し、更に、この標準
表記されたキーワードに識別子付与手段で識別子を付与
し、このキーワードの識別子と登録する文書の情報とを
対応付けて文書検索用記憶手段に記録する。これによっ
て、標準表記化によりキーワードの揺れを解消でき、且
つ、キーワードの識別子化によりあまり大きな容量の文
書検索用記憶手段を必要としない文書検索のための情報
を作成する。
【0012】請求項3に記載した文書検索装置による
と、文書検索のために指定された検索キーワードを表記
変換手段で標準表記に変換し、更に、この標準表記され
た検索キーワードに識別子付与手段で識別子を付与し、
検索手段でこの検索キーワードの識別子を用いて文書の
情報とキーワードの識別子とを対応付けた検索情報から
文書を検索する。
【0013】ここで、本発明はカタカナ表現されたキー
ワードに用いて特に効果的であるが、送り仮名の表記が
種々存在する漢字かな混じり表現のキーワード、表記が
種々存在するローマ字表現のキーワード等、表記の揺れ
が存在する表現のキーワードにに広く適用することがで
きる。また、オリジナル表記を標準表記へ変換する規則
は種々設定し得るものであり、標準表記は或る特定の表
記をいうのではなく、この規則に従って常に統一された
表記であればよい。また、上記した文書の情報とは、文
書名、文書識別子、文書を格納した記録装置のアドレス
等の個々の文書を特定するための情報のみならず、文書
検索用記憶手段のサイズが許せば、文書自体の情報であ
ってもよい。
【0014】
【実施例】以下、カタカナ語のキーワードによる揺れの
影響を解消させた本発明の一実施例を図面を参照して説
明する。登録検索システムは検索情報作成装置と文書検
索装置とから構成されており、登録検索方法はこのシス
テムを動作させることにより実施される。図1には検索
情報作成装置の構成を示してあり、図2には文書検索装
置の構成を示してある。
【0015】まず、検索情報作成装置は、登録処理の対
象となる文書を格納する文書記憶手段1と、登録する文
書に一意に識別子(ID)を付与する文書ID付与手段
2と、登録する文書のテキストに形態素解析を施してキ
ーワードを抽出するキーワード抽出手段3と、抽出され
たキーワードが標準表記に変換すべき語かすなわちカタ
カナで表現された語かを判断するカタカナ語判別手段4
と、カタカナ語のキーワードを所定の規則に従って標準
表記に変換するカタカナ表記変換手段5と、カタカナ語
以外のキーワード及び標準表記されたカタカナ語のキー
ワードに一意に識別子を付与するキーワードID付与手
段6と、キーワードの識別子と登録する文書の識別子と
を対応付けて登録処理するインデックス登録手段7と、
これらキーワード識別子と文書識別子とを対応付けて記
録するインデックス記憶手段8とを有している。
【0016】文書ID付与手段2は、例えば図6に示す
ように、文書記憶手段1に文書名”text1”、”t
ext2”、”text3”の3つの文書が格納されて
いるとすると、これら各文書にそれぞれ一意に”
1”、”2”、”3”の識別子を付与し、図6に示すテ
ーブルを文書記憶手段1に保持させると共に、このテー
ブルの内容をインデックス登録手段7に通知する。キー
ワード抽出手段3は、文書記憶手段1から入力された登
録対象の文書のテキストが例えば図7に示すものであっ
た場合、このテキストに形態素解析を施して、図8に示
すように名詞等をキーワードとして抽出する。なお、キ
ーワードがシステムに備えられている形態素解析に用い
る辞書に登録されている語であれば、辞書中に当該語に
対応して登録されている識別子(entryID)がキ
ーワードに付属される。また、システム辞書への未登録
語であっても、カタカナ語は「未登録語」という品詞で
抽出される。
【0017】このようにして抽出されたキーワードはカ
タカナ語判別手段4でカタカナ語の判別がなされ、カタ
カナ語であればカタカナ表記変換手段5へ送られ、カタ
カナ語でなければキーワードID付与手段6にそのまま
送られる。上記の例では、「カタカナ」、「インターフ
ェース」、「インタフェース」、「ゼスチャー」、「ジ
ェスチャー」というキーワードがカタカナ表記変換手段
5へ送られ、「表記」、「表記法」というキーワードが
キーワードID付与手段6にそのまま送られる。 カタ
カナ表記変換手段5は、図9及び図10に示すような変
換規則をテーブルとして有しており、この規則を用いて
カタカナ語のキーワードを標準表記に変換する。上記の
例では、「カタカナ」というキーワードは変換後もその
まま「カタカナ」であるが、「インターフェース」と
「インタフェース」というキーワードは共に「インタフ
エス」に変換され、「ゼスチャー」と「ジェスチャー」
というキーワードは共に「ゼスチャ」に変換される。
【0018】キーワードID付与手段6は、図11に示
すように、キーワードに対して一意に識別子(キーワー
ドID)を付与する。本実施例ではシステム辞書に登録
されている語に対してはそのentryIDを識別子と
して用いているが、この場合にあっても、カタカナ語に
ついては標準表記に変換されるため新たな識別子を付与
している。キーワードID付与手段6は図11に示すよ
うなテーブルを有しており、このテーブルを参照して、
新たなカタカナキーワードに対して順次一意に識別子を
付与する。インデックス登録手段7は、キーワードに付
与された識別子(キーワードID)とこのキーワードを
抽出した対応する文書の識別子(文書ID)とを受け取
り、インデックス記憶手段8にこれらキーワードIDと
文書IDとを対応付けたインデックスを登録する。この
結果、インデックス記憶手段8には図12に示すような
インデックスが記録され、このインデックスを用いて後
述する文書検索が行われる。
【0019】次に、図2に示す文書検索装置は、例えば
文の形で入力された検索式に形態素解析を施してキーワ
ードを抽出するキーワード抽出手段3と、抽出されたキ
ーワードがカタカナで表現された語かを判別するカタカ
ナ語判別手段4と、カタカナ語のキーワードを図9及び
図10に示した規則に従って標準表記に変換するカタカ
ナ表記変換手段5と、カタカナ語以外のキーワード及び
標準表記されたカタカナ語のキーワードに一意に識別子
を付与するキーワードID付与手段6と、登録された文
書に関する文書識別子とキーワード識別子とを対応付け
たインデックスを記録しているインデックス記憶手段8
と、キーワードのオリジナル表記と規則に従って変換さ
れた標準表記とを対応付けて記録する表記記憶手段4
と、キーワード抽出手段3へ検索式を入力する入力手段
9と、キーワードIDを用いてインデックス記憶手段8
から対応する文書IDを検索する検索手段10と、検索
結果を表示する表示手段11とを有している。なお、本
実施例では文書検索装置と検索情報作成装置とで、キー
ワード抽出手段3、カタカナ語判別手段4、カタカナ表
記変換手段5、キーワードID付与手段6、インデック
ス記憶手段8を共用しており、登録検索システム全体と
して各手段を合理的に活用している。
【0020】次に、上記した構成の登録検索システムに
おいて、検索情報作成装置で行われるインデックスへの
文書の登録処理及び文書検索装置で行われるインデック
スからの文書の検索処理を説明する。なお、以下では、
図7に示すような内容のテキストの文書を処理対象とし
て説明する。登録処理は図3及び図4に示す手順で行わ
れ、まず、登録対象の文書を文書記憶手段1に入力し
(ステップS1)、文書ID付与手段2でこの文書に文
書IDを付与する(ステップS2)。そして、この文書
のテキスト部分を抽出してキーワード抽出手段3で形態
素解析を施し、このテキスト部分からキーワードを抽出
する(ステップS3)。この結果、図7に示したテキス
トからは、図8に示すようにキーワードが抽出される。
【0021】次いで、抽出したキーワードがカタカナ語
であるかをカタカナ語判別手段4で判断し(ステップS
4)、漢字語等のカタカナ語以外のキーワードである場
合は後述するステップS6以降の処理に移り、カタカナ
語である場合にはカタカナ表記変換手段5で図9及び図
10に示した規則に従ってカタカナ表現のキーワードを
標準表記に変換する(ステップS5)。この結果、「イ
ンターフェース」と「インタフェース」は「インタフエ
ス」に、「ゼスチャー」と「ジェスチャー」は「ゼスチ
ャ」に変換される。次いで、上記のようにして得た標準
表記のカタカナ語のキーワード「カタカナ」、「インタ
フエス」、「ゼスチャ」及びカタカナ語以外のキーワー
ド「表記」、「表記法」にキーワードID付与手段6で
図11に示すように一意にキーワードIDを付与する
(ステップS6)。
【0022】このステップS6の処理は図4に示す手順
で行われ、まず、キーワードがカタカナ表記かを判断し
(ステップS11)、カタカナ表記(すなわち、標準表
記されたキーワード)である場合には、本実施例では”
200001”から順に一意なキーワードIDをキーワ
ードに付与し(ステップS12)、カタカナ表記でない
場合には、システム辞書に登録されている語であるので
キーワードにentryIDをキーワードIDとして付
与する(ステップS13)。この結果、図11に示すよ
うに、標準表記のカタカナ語のキーワード及びカタカナ
語以外のキーワードには一意にキーワードIDが与えら
れる。
【0023】再び図3に示す手順に戻って、インデック
ス登録手段7がキーワードID付与手段6から送られて
きたキーワードIDと文書ID付与手段2から送られて
きた文書IDとを対応付けてインデックス記憶手段8に
登録する(ステップS7)。この結果、インデックス記
憶手段8には図12に示すようなキーワードIDと文書
IDとを対応付けたインデックスが登録され、後述する
文書検索に供することができる。上記の一連の処理の
後、ステップS3において抽出すべきキーワードは全て
抽出したかを判断し(ステップS8)、登録処理を終了
する。
【0024】文書の検索処理は図5に示す手順で行われ
る。まず、ユーザが指定した検索式が入力手段9から入
力されると(ステップS21)、この検索式からキーワ
ード抽出手段3が形態素解析を施してキーワードを抽出
する(ステップS22)。なお、以下では、検索式とし
て「インタフェース」という検索式を入力したものとし
て説明する。次いで、抽出した検索キーワードがカタカ
ナ語であるかをカタカナ語判別手段4で判断し(ステッ
プS23)、カタカナ語以外のキーワードの場合は後述
するステップS25以降の処理に移り、カタカナ語であ
る場合には、前述と同様にして、カタカナ表記変換手段
5でこのカタカナ表現のキーワードを標準表記に変換す
る(ステップS24)。この例では、「インタフェー
ス」という検索キーワードが「インタフエス」という標
準表記に変換される。
【0025】次いで、キーワードID付与手段6が、図
4に示した手順の処理を行って、検索キーワードにキー
ワードIDを付与する(ステップS25)。この結果、
図11のテーブルに基づいて、標準表記された検索キー
ワード「インタフエス」には”200002”というキ
ーワードIDが与えられる。次いで、このキーワードI
Dを用いて検索手段10がインデックス記憶手段8に記
録されているインデックスを調べ、対応する文書IDか
ら文書を検索する(ステップS26)。この結果、図1
2に示すインデックスから対応する文書IDとして”
1”が検索され、前述した文書ID付与手段が付与した
文書IDの情報(図6)から、検出手段10によって文
書名”text1”の文書は検索される。
【0026】次いで、表示手段11がこの検索結果を画
面に表示し(ステップS27)、検索処理を終了する。
この結果、表示手段11には検索結果として、”検索
式:インターフェース、文書名:text1”が表示さ
れる。上記のように、本実施例によれば、標準表記化す
ることによってカタカナ語のキーワードの表記の揺れに
よる検索漏れを防ぐことができ、なおかつ、キーワード
をID化することによってインデックスを小型化して迅
速な検索処理を実現することができる。更に、本実施例
では、文書の情報もID化しているため、更なるインデ
ックスを小型化及び迅速な検索処理を実現することがで
きる。
【0027】一方、文書の検索作業においては、上記の
ような検索漏れをなくすことと同時に、ユーザが指定し
た検索キーワードが検索された文書中のどこに位置して
いるかを検出することが、検索の精度や作業性を向上さ
せるために重要な課題となっている。このようなキーワ
ードの位置を検出するため、"Salton, G.1989. Automat
ic Text Processing. Reading, Mass.: Addison-Wesle
y, pp.236-238"に、キーワードの文書中におけるセンテ
ンスの位置までインデックスに登録し、キーワードが検
索された文書中でどこのセンテンスに位置しているかを
検出できるようにした技術が提案されている。しかしな
がら、この技術にあっては、キーワードの位置に関する
情報までインデックスに登録するため、インデックスの
サイズが膨大となり、インデックスを更新する際の処理
も迅速に行えないという問題が生じてしまう。
【0028】本発明の第2実施例は上記従来の事情に鑑
み、キーワード検索において、検索された文書中でのキ
ーワードの位置を検出することも目的とする。図13に
は本発明の第2実施例に係る文書検索装置の構成を示し
てある。なお、本実施例の説明は前記した第1実施例を
引用して行い、同一の部分には同一の参照符号を付して
重複する説明は省略する。本実施例の文書検索装置は、
前記した第1実施例と同じ、キーワード抽出手段3と、
カタカナ語判別手段4と、カタカナ表記変換手段5と、
キーワードID付与手段6と、インデックス記憶手段8
と、入力手段9と、検索手段10と、表示手段11とを
有し、更に、検索された文書中での検索キーワードの出
現位置を検索するキーワード検索手段12を備えた構成
となっている。
【0029】キーワード検索手段12は、検出された文
書のテキストから得た語と検索キーワードとを照合し
て、文書中における検索キーワードの出現する位置を検
出するものであり、この文書から得た語と検索キーワー
ドとを共に標準表記に変換した形で照合させる。このた
め、キーワード検出手段12は、カタカナ語表記変換手
段5で標準表記に変換された検索キーワードを受け取る
一方、検索手段10で検索された文書のテキストをスキ
ャンしてキーワードを見付け、このキーワードをカタカ
ナ語判別手段4にカタカナ語か否かを判別させ、カタカ
ナ語である場合にはカタカナ表記変換手段5に標準表記
に変換させて受け取り、これら標準表記のキーワードを
照合処理し、その結果を表示手段11に表示させる。
【0030】次に、本実施例の文書検索装置で行われる
キーワード位置検索の処理を図14に示す手順に沿って
説明する。なお、文書検索は前記第1実施例で図5を用
いて説明した処理と同じであり、図14に示すフローチ
ャートは図5に示したフローチャートのステップS27
に置換されるものである。すなわち、検索手段10で検
索キーワードに対応する文書が検索されると(図5のス
テップS26)、この文書に対するキーワード位置検出
のためのマッチング処理が終了したかを判断した後(ス
テップS31)、この文書のテキストからキーワードを
見付け、このキーワードをカタカナ語判別手段4にカタ
カナ語か否かを判別させる(ステップS32)。
【0031】そして、カタカナ語である場合には、この
文書から取り出したキーワードをカタカナ表記変換手段
5で標準表記に変換し(ステップS33)、この結果を
キーワード検索手段12が受け取って保持していた標準
表記の検索キーワードが一致するか照合する(ステップ
S34)。この結果、標準表記した両キーワードが一致
した場合には、文書から取り出したキーワードが検索キ
ーワードであるとしてその文書内の位置を表示装置11
に表示する。
【0032】例えば、検索キーワードを「インタフェー
ス」として図7に示したテキストの文書が検索された場
合、このテキストをスキャンしてカタカナ語が見つかっ
た時点で標準表記に変換し、標準表記された検索キーワ
ード「インタフエス」を照合させる。この結果、テキス
ト中の「インターフェース」は標準表記で「インタフエ
ス」となるので一致し、そのテキスト中の位置が図12
に示すようにアンダーラインを付す等によって表示され
る。また、テキスト中の次の「インタフェース」も標準
表記で「インタフエス」となるので、この位置も一致位
置としてアンダーライン表示される。上記のように、本
実施例によれば、検索キーワードが検索された文書中の
どこに位置しているかを検出することができ、検索の精
度や作業性を向上させることができる。
【0033】なお、上記した実施例では、システム辞書
に登録されている語についてはentryIDをキーワ
ードIDに用いたが、カタカナ語と同様に新たにIDを
付与するようにしてもよく、IDが一意であればIDの
付与の仕方について特に限定はない。また、上記した実
施例では、インデックス記録手段8には文書IDを記録
することによりインデックスとして文書の情報を記録し
たが、文書のテキスト情報を記録することも可能であ
る。そして、表示手段11には検索された文書名のリス
トを表示するだけでなく、例えば、リストの先頭にある
文書のテキストをリストと共に表示するようにしてもよ
く、表示の仕方について特に限定はない。また、上記し
た実施例では、登録キーワードと検索キーワードの標準
表記への変換を1つの表記変換手段5で実現し、更に、
登録キーワードと検索キーワードへの識別子の付与を1
つの識別子付与手段6で実現したが、表記変換手段や識
別子付与手段は登録キーワード用と検索キーワード用と
に別々に構成してもよい。
【0034】
【発明の効果】以上詳細に説明したように、請求項1に
記載した文書の登録検索システムによれば、標準表記さ
れたキーワードに識別子付与手段で識別子を付与し、登
録キーワードの識別子と登録する文書の情報とを対応付
けて文書検索用記憶手段に記録し、この記録から文書検
索のために指定された検索キーワードの識別子を用いて
検索手段で対応する文書を検索するようにしたため、キ
ーワードの表記の揺れによる検索漏れを解消し、且つ、
キーワードと文書の情報とを対応付けて記録した文書検
索用記憶手段を小型化して迅速な検索処理を実現するこ
とができる。また、請求項2に記載した検索情報作成装
置によれば、標準表記されたキーワードに識別子付与手
段で識別子を付与し、登録キーワードの識別子と登録す
る文書の情報とを対応付けて文書検索用記憶手段に記録
するようにしたため、キーワードの表記の揺れによる検
索漏れを解消し、且つ、キーワードと文書の情報とを対
応付けて記録した文書検索用記憶手段を小型化して迅速
な検索処理を実現する検索情報を作成することができ
る。また、請求項3に記載した文書検索装置によれば、
標準表記された検索キーワードに識別子付与手段で識別
子を付与し、登録キーワードの識別子と登録する文書の
情報とを対応付けた記録から該当する文書を検索するよ
うにしたため、キーワードの表記の揺れによる検索漏れ
を解消し、且つ、キーワードと文書の情報とを対応付け
て記録した文書検索用記憶手段を小型化して迅速な検索
処理を実現することができる。また、請求項4に記載し
た文書の登録検索方法によれば、標準表記されたキーワ
ードに識別子を付与し、登録キーワードの識別子と登録
する文書の情報とを対応付けて記録し、この記録から文
書検索のために指定された検索キーワードの識別子を用
いて該当する文書を検索するようにしたため、キーワー
ドの表記の揺れによる検索漏れを解消し、且つ、キーワ
ードと文書の情報とを対応付けて記録した文書検索用記
憶手段を小型化して迅速な検索処理を実現することがで
きる。
【図面の簡単な説明】
【図1】本発明の第1実施例に係る検索情報作成装置の
構成を示すブロック図である。
【図2】本発明の第1実施例に係る文書検索装置の構成
を示すブロック図である。
【図3】文書登録の処理手順を示すフローチャートであ
る。
【図4】キーワードに識別子を付与する処理手順を示す
フローチャートである。
【図5】文書検索の処理手順を示すフローチャートであ
る。
【図6】文書IDテーブルの内容を説明する概念図であ
る。
【図7】テキストの一例を示す図面である。
【図8】テキストから抽出したキーワードの一覧を示す
図面である。
【図9】標準表記への変換規則テーブルの内容を説明す
る概念図である。
【図10】標準表記への変換規則テーブルの内容を説明
する概念図である。
【図11】キーワードIDテーブルの内容を説明する概
念図である。
【図12】インデックスの内容を説明する概念図であ
る。
【図13】本発明の第2実施例に係る文書検索装置の構
成を示すブロック図である。
【図14】本発明の第2実施例に係るキーワード位置検
索の処理手順を示すフローチャートである。
【図15】文書の検索結果の一例を示す図面である。
【符号の説明】
3 キーワード抽出手段 5 カタカナ表記変換手段 6 キーワードID付与手段 8 インデックス記憶手段 10 検索手段
───────────────────────────────────────────────────── フロントページの続き (72)発明者 山下 明男 神奈川県川崎市高津区坂戸3丁目2番1号 KSP R&D ビジネスパークビル 富士ゼロックス株式会社内 (72)発明者 相原 一雄 神奈川県川崎市高津区坂戸3丁目2番1号 KSP R&D ビジネスパークビル 富士ゼロックス株式会社内 (72)発明者 喜多 辰臣 神奈川県川崎市高津区坂戸3丁目2番1号 KSP R&D ビジネスパークビル 富士ゼロックス株式会社内

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 文書から登録キーワードを抽出するキー
    ワード抽出手段と、 前記抽出された登録キーワードを所定の規則に従って標
    準表記に変換する登録キーワード表記変換手段と、 前記標準表記された登録キーワードに識別子を付与する
    登録キーワード識別子付与手段と、 前記登録キーワードの識別子と前記文書の情報とを対応
    付けて検索情報として記録する文書検索用記憶手段と、 文書検索のために指定された検索キーワードを前記所定
    の規則に従って標準表記に変換する検索キーワード表記
    変換手段と、 前記標準表記された検索キーワードに識別子を付与する
    検索キーワード識別子付与手段と、 前記検索キーワードの識別子を用いて前記文書検索用記
    憶手段に記録された検索情報から対応する文書を検索す
    る検索手段と、 を有することを特徴とする文書登録検索システム。
  2. 【請求項2】 文書からキーワードを抽出するキーワー
    ド抽出手段と、 前記抽出されたキーワードを所定の規則に従って標準表
    記に変換する表記変換手段と、 前記標準表記されたキーワードに識別子を付与する識別
    子付与手段と、 前記キーワードの識別子と前記文書の情報とを対応付け
    て検索情報として記録する文書検索用記憶手段と、 を有し、キーワードを用いて文書を検索するための情報
    を作成することを特徴とする検索情報作成装置。
  3. 【請求項3】 文書検索のために指定された検索キーワ
    ードを所定の規則に従って標準表記に変換する表記変換
    手段と、 前記標準表記された検索キーワードに識別子を付与する
    識別子付与手段と、 前記検索キーワードの識別子を用いて文書の情報と前記
    所定の規則に従って標準表記に変換されたキーワードの
    識別子とを対応付けた検索情報から文書を検索する検索
    手段と、 を有することを特徴とする文書検索装置。
  4. 【請求項4】 登録する文書から抽出した登録キーワー
    ドを所定の規則に従って標準表記に変換するステップ
    と、 前記標準表記された登録キーワードに識別子を付与する
    ステップと、 前記登録キーワードの識別子と登録する文書の情報とを
    対応付けて記録するステップと、 文書検索のために指定された検索キーワードを前記所定
    の規則に従って標準表記に変換するステップと、 前記標準表記された検索キーワードに識別子を付与する
    ステップと、 前記検索キーワードの識別子を用いて前記登録キーワー
    ドの識別子と文書の情報とを対応付けた記録から対応す
    る文書を検索するステップと、 を有することを特徴とする文書の登録検索方法。
JP6136571A 1994-05-26 1994-05-26 文書登録検索システム Pending JPH07319891A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6136571A JPH07319891A (ja) 1994-05-26 1994-05-26 文書登録検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6136571A JPH07319891A (ja) 1994-05-26 1994-05-26 文書登録検索システム

Publications (1)

Publication Number Publication Date
JPH07319891A true JPH07319891A (ja) 1995-12-08

Family

ID=15178378

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6136571A Pending JPH07319891A (ja) 1994-05-26 1994-05-26 文書登録検索システム

Country Status (1)

Country Link
JP (1) JPH07319891A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322416A (ja) * 1999-05-06 2000-11-24 Ntt Data Corp 文書検索装置
JP2010536225A (ja) * 2007-08-06 2010-11-25 リュウ,サンギュ メッセージの自動解析による電話番号記憶方法とその方法を実行するための携帯端末

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322416A (ja) * 1999-05-06 2000-11-24 Ntt Data Corp 文書検索装置
JP2010536225A (ja) * 2007-08-06 2010-11-25 リュウ,サンギュ メッセージの自動解析による電話番号記憶方法とその方法を実行するための携帯端末

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JP5146979B2 (ja) 自然言語における多義解消装置及びコンピュータプログラム
JPH07160727A (ja) 電子マニュアルの表示方法
US5890182A (en) Sentence processing method and apparatus
JPH08227426A (ja) データ検索装置
JPH07319891A (ja) 文書登録検索システム
JPH1011434A (ja) 情報認識装置
JP3477822B2 (ja) 文書登録検索システム
JP4005925B2 (ja) 文書処理方法および文書処理装置およびプログラム
KR100452024B1 (ko) 자연어 질의 응답 검색 엔진 및 검색 방법
JP2000250931A (ja) 位置情報の自動抽出装置および自動抽出方法と記録媒体
JPH08339376A (ja) 外国語検索装置及び情報検索システム
JPH05250416A (ja) データベースの登録・検索装置
JPS61248160A (ja) 文書情報登録方式
JPH06332934A (ja) 電子辞書引き装置
JPS6394365A (ja) 日本文文書誤り検定装置
JPH0441388B2 (ja)
JP2001134602A (ja) 住所解析方法、装置、住所解析プログラムを記録した記録媒体
JP3924899B2 (ja) テキスト検索装置およびテキスト検索方法
Angkawattanawit et al. Thai q-cor: Integrating word approximation and soundex for thai query correction
JPH0944521A (ja) インデックス作成装置および文書検索装置
JP3278889B2 (ja) 機械翻訳装置
JP2839515B2 (ja) 文字読取システム
JPH0785040A (ja) 表記不統一検出方法およびかな漢字変換方法
JP3118880B2 (ja) 日本語文章処理装置