JPH07319890A - 文書登録検索システム - Google Patents

文書登録検索システム

Info

Publication number
JPH07319890A
JPH07319890A JP6136570A JP13657094A JPH07319890A JP H07319890 A JPH07319890 A JP H07319890A JP 6136570 A JP6136570 A JP 6136570A JP 13657094 A JP13657094 A JP 13657094A JP H07319890 A JPH07319890 A JP H07319890A
Authority
JP
Japan
Prior art keywords
notation
keyword
document
search
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6136570A
Other languages
English (en)
Other versions
JP3477822B2 (ja
Inventor
Makoto Ando
誠 安藤
Akio Yamashita
明男 山下
Kazuo Aihara
一雄 相原
Tatsuomi Kita
辰臣 喜多
Hiroshi Yamaguchi
浩 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP13657094A priority Critical patent/JP3477822B2/ja
Publication of JPH07319890A publication Critical patent/JPH07319890A/ja
Application granted granted Critical
Publication of JP3477822B2 publication Critical patent/JP3477822B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 キーワード検索において、キーワードの表記
の揺れによる検索漏れを解消し且つ検索された文書中で
のキーワードの位置を検出する。 【構成】 登録キーワードを所定の規則に従って標準表
記に変換し、登録キーワードのオリジナル表記と標準表
記とを対応付けて記録すると共に登録キーワードの標準
表記と登録した文書の情報とを対応付けて記録して検索
用の情報を作成し、また、検索処理は、文書検索のため
の検索キーワードを前記所定の規則に従って標準表記に
変換し(S34)、標準表記された検索キーワードを用
いて文書の情報と登録キーワードの標準表記とを対応付
けた記録から文書を検索し(S35)、検索キーワード
の標準表記を用いて登録キーワードのオリジナル表記と
標準表記とを対応付けた記録から対応するオリジナル表
記を求め、オリジナル表記の検索キーワードを検索され
た文書に照合して当該キーワードが当該文書中で出現す
る位置を特定する(S37)。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、キーワードを用いて文
書を登録し又は検索する登録検索システムに関し、特
に、キーワードの表記の揺れによる影響を解消し且つ検
索された文書中でのキーワードの位置を検出する技術に
関する。
【0002】
【従来の技術】従来より、文書の登録は、文書からキー
ワードを抽出し、このキーワードと文書の名前或いは識
別子(ID)とを対応付けてインデックスとして登録す
ることにより行い、また、登録された文書の検索は、キ
ーワードを用いてインデックスを検索して対応する文書
を探し出すことにより行う文書の登録検索システムがあ
った。ここで、日本語の特徴として、カタカナの表記の
仕方には統一性がなく、例えば「ユーザー」と「ユー
ザ」、「ゼスチャー」と「ジェスチャー」、「インター
フェース」と「インタフェース」等のように、同じ語を
表現するのに幾つかの類似する表記が存在する。このた
め、検索時にユーザが指定するキーワードをそのまま用
いてインデックスから検索すると、このキーワードと表
記が異なるキーワードを含む文書は検索から漏れてしま
うこととなる。
【0003】そこで、特開昭62−11932号公報に
は、キーワード検索において、入力されたキーワードを
文字種、表記、送り仮名等、可能な限りの表現の異なる
キーワードに変形させて、これらキーワードを用いて検
索する技術が提案されている。また、特開昭63−21
1023号公報には、カタカナ表現のキーワードを長音
は母音化する等してその表記を一定の規則に従って変換
し、表記が統一されたキーワードを用いて文書の登録及
び検索を行う技術が提案されている。これらの技術によ
れば、キーワードの表記の揺れによる検索漏れはある程
度解消させることができる。
【0004】
【発明が解決しようとする課題】一方、文書の検索作業
においては、上記のような検索漏れをなくすことと同時
に、ユーザが指定したキーワードが検索された文書中の
どこに位置しているかを検出することが、検索の精度や
作業性を向上させるために重要な課題となっている。こ
のようなキーワードの位置を検出するため、"Salton,
G.1989. Automatic Text Processing. Reading, Mass.:
Addison-Wesley, pp.236-238"に、キーワードの文書中
におけるセンテンスの位置までインデックスに登録し、
キーワードが検索された文書中でどこのセンテンスに位
置しているかを検出できるようにした技術が提案されて
いる。しかしながら、この技術にあっては、キーワード
の位置に関する情報までインデックスに登録するため、
インデックスのサイズが膨大となり、インデックスを更
新する際の処理も迅速に行えないという問題が生じてし
まう。
【0005】本発明は上記従来の事情に鑑みなされたも
ので、キーワード検索において、キーワードの表記の揺
れによる検索漏れを解消し且つ検索された文書中でのキ
ーワードの位置を検出することを目的とする。すなわ
ち、請求項1に記載した発明は、文書登録用のキーワー
ドと文書検索用のキーワードの表記を統一した標準表記
に変換して、キーワードの表記の揺れによる検索漏れを
解消し且つ検索された文書中でのキーワードの位置を検
出することができる文書の登録検索システムを提供する
ことを目的とする。また、請求項2に記載した発明は、
キーワード検索において、キーワードの表記の揺れによ
る検索漏れを解消し且つ検索された文書中でのキーワー
ドの位置を検出することができる検索情報を作成する装
置を提供することを目的とする。また、請求項3に記載
した発明は、キーワードの表記の揺れによる検索漏れを
解消し且つ検索された文書中でのキーワードの位置を検
出するキーワード検索を実施するための装置を提供する
ことを目的とする。また、請求項4に記載した発明は、
文書登録用のキーワードと文書検索用のキーワードの表
記を統一した標準表記に変換して、キーワードの表記の
揺れによる検索漏れを解消し且つ検索された文書中での
キーワードの位置を検出することができる文書の登録検
索方法を提供することを目的とする。
【0006】
【課題を解決するための手段】請求項1に記載した文書
の登録検索システムは、登録する文書から登録キーワー
ドを抽出するキーワード抽出手段と、前記抽出されたオ
リジナル表記の登録キーワードを所定の規則に従って標
準表記に変換する登録キーワード表記変換手段と、前記
登録キーワードのオリジナル表記と標準表記とを対応付
けて表記対応情報として記録する表記記憶手段と、前記
登録キーワードの標準表記と前記文書の情報とを対応付
けて検索情報として記録する文書検索用記憶手段と、文
書検索のために指定された検索キーワードを前記所定の
規則に従って標準表記に変換する検索キーワード表記変
換手段と、標準表記された前記検索キーワードを用いて
前記検索情報を参照して対応する文書を検索する検索手
段と、標準表記された前記検索キーワードを用いて前記
表記対応情報を参照して対応するオリジナル表記を求め
る表記抽出手段と、前記表記抽出手段で求められたオリ
ジナル表記の検索キーワードを検索された文書に照合し
て当該キーワードが当該文書中で出現する位置を特定す
る照合手段と、を有することを特徴とする。
【0007】請求項2に記載した検索情報作成装置は、
登録する文書からキーワードを抽出するキーワード抽出
手段と、前記抽出されたオリジナル表記のキーワードを
所定の規則に従って標準表記に変換する表記変換手段
と、前記キーワードのオリジナル表記と標準表記とを対
応付けて表記対応情報として記録する表記記憶手段と、
前記キーワードの標準表記と前記文書の情報とを対応付
けて検索情報として記録する文書検索用記憶手段とを有
し、文書をキーワードを用いて検索するための情報を作
成することを特徴とする。
【0008】請求項3に記載した文書検索装置は、登録
された文書から抽出した登録キーワードのオリジナル表
記と当該登録キーワードを所定の規則に従って変換した
標準表記とを対応付けて表記対応情報として記録した表
記記憶手段と、前記登録キーワードの標準表記と前記文
書の情報とを対応付けて検索情報として記録した文書検
索用記憶手段と、文書検索のために指定された検索キー
ワードを前記所定の規則に従って標準表記に変換する表
記変換手段と、標準表記された前記検索キーワードを用
いて前記検索情報を参照して対応する文書を検索する検
索手段と、標準表記された前記検索キーワードを用いて
前記表記対応情報を参照して対応するオリジナル表記を
求める表記抽出手段と、前記表記抽出手段で求められた
オリジナル表記の検索キーワードを検索された文書に照
合して当該キーワードが当該文書中で出現する位置を特
定する照合手段と、を有することを特徴とする。
【0009】請求項4に記載した文書の登録検索方法
は、文書を当該文書を検索するために必要な情報ととも
に登録し、登録された文書をキーワードを用いて検索す
る文書の登録検索方法において、登録される文書中から
抽出した登録キーワードを所定の規則に従って標準表記
に変換するステップと、前記登録キーワードのオリジナ
ル表記と標準表記とを対応付けて表記対応情報として記
録するステップと、前記登録キーワードの標準表記と登
録した文書の情報とを対応付けて検索情報として記録す
るステップと、文書検索のために指定された検索キーワ
ードを前記所定の規則に従って標準表記に変換するステ
ップと、前記標準表記された検索キーワードを用いて前
記検索情報を参照して対応する文書を検索するステップ
と、前記検索キーワードの標準表記を用いて前記表記対
応情報を参照して対応するオリジナル表記を求めるステ
ップと、前記オリジナル表記の検索キーワードを検索さ
れた文書に照合して当該キーワードが当該文書中で出現
する位置を特定するステップと、を有することを特徴と
する。
【0010】
【作用】請求項1に記載した文書の登録検索システムに
よると次のようにして請求項4に記載した登録検索方法
を実施することができる。すなわち、文書の登録におい
ては、登録する文書中から抽出したオリジナル表記の登
録キーワードを登録キーワード表記変換手段で標準表記
に変換して、この登録キーワードのオリジナル表記と標
準表記とを対応付けて表記対応情報として表記記憶手段
に記録し、また、この登録キーワードの標準表記と登録
する文書の情報とを対応付けて検索情報として文書検索
用記憶手段に記録する。そして、文書の検索において
は、文書検索のために指定されたオリジナル表記の検索
キーワードを検索キーワード表記変換手段で標準表記に
変換して、検索手段でこの検索キーワードの標準表記を
用いて検索情報を参照して対応する文書を検索し、更
に、表記抽出手段でこの検索キーワードの標準表記を用
いて表記対応情報を参照して対応するオリジナル表記を
求め、照合手段でこのオリジナル表記のキーワードを検
索された文書に照合して当該キーワードが当該文書中で
出現する位置を特定する。
【0011】請求項2に記載した検索情報作成装置によ
ると、登録する文書中から抽出されたオリジナル表記の
登録キーワードを表記変換手段で標準表記に変換して、
この登録キーワードのオリジナル表記と標準表記とを対
応付けて表記対応情報として表記記憶手段に記録し、ま
た、この登録キーワードの標準表記と登録する文書の情
報とを対応付けて検索情報として文書検索用記憶手段に
記録する。これによって、標準表記化によりキーワード
の揺れを解消でき、且つ、オリジナル表記の照合による
文書中でのキーワードの出現位置の特定を可能にした文
書検索のための情報を作成する。
【0012】請求項3に記載した文書検索装置による
と、文書検索のために指定されたオリジナル表記の検索
キーワードを表記変換手段で標準表記に変換して、検索
手段でこの検索キーワードの標準表記を用いて検索情報
を参照して対応する文書を検索し、更に、表記抽出手段
でこの検索キーワードの標準表記を用いて表記対応情報
を参照して対応するオリジナル表記を求め、照合手段で
このオリジナル表記の検索キーワードを検索された文書
に照合して当該キーワードが当該文書中で出現する位置
を特定する。これによって、文書中から抽出したキーワ
ードのオリジナル表記と標準表記とが対応付けて記録さ
れ、キーワードの標準表記と登録された文書の情報とが
対応付けて記録された文書登録システムから文書を検索
する。
【0013】ここで、本発明はカタカナ表現されたキー
ワードに用いて特に効果的であるが、送り仮名の表記が
種々存在する漢字かな混じり表現のキーワード、表記が
種々存在するローマ字表現のキーワード等、表記の揺れ
が存在する表現のキーワードにに広く適用することがで
きる。また、オリジナル表記を標準表記へ変換する規則
は種々設定し得るものであり、標準表記は或る特定の表
記をいうのではなく、この規則に従って常に統一された
表記であればよい。また、上記した文書の情報とは、文
書名、文書識別子、文書を格納した記録装置のアドレス
等の個々の文書を特定するための情報のみならず、文書
検索用記憶手段のサイズが許せば、文書自体の情報であ
ってもよい。
【0014】
【実施例】以下、カタカナ語のキーワードによる揺れの
影響を解消させた本発明の一実施例を図面を参照して説
明する。登録検索システムは検索情報作成装置と文書検
索装置とから構成されており、登録検索方法はこのシス
テムを動作させることにより実施される。図1には検索
情報作成装置の構成を示してあり、図2には文書検索装
置の構成を示してある。
【0015】まず、検索情報作成装置は、登録する文書
のテキストに形態素解析を施してキーワードを抽出する
キーワード抽出手段1と、抽出されたキーワードが標準
表記に変換すべき語かすなわちカタカナで表現された語
かを判断するカタカナ語比較手段2と、カタカナ語のキ
ーワードを所定の規則に従って標準表記に変換する標準
表記変換手段3と、キーワードがテキスト中に存在して
いたときの表記(オリジナル表記)と規則に従って変換
された標準表記とを対応付けて記録する表記記憶手段4
と、標準表記されたカタカナ語のキーワード或いはカタ
カナ語以外のキーワードと登録する文書名とを対応付け
て登録処理するインデックス登録手段5と、これらキー
ワードと登録する文書名とを対応付けて記録するインデ
ックス記憶手段6とを有している。
【0016】標準表記変換手段3は図5及び図6に示す
ような変換規則をテーブルとして有しており、この規則
を用いてカタカナ語のキーワードを標準表記に変換す
る。例えば、オリジナル表記が「ジェスチャー」のキー
ワードは、図5に示す規則に従って「ゼスチャー」に短
縮変換され、更に、図6に示す規則に従って置換変換さ
れて「ゼスチャ」という標準表記に変換される。表記記
憶手段4はカタカナ語のキーワードのオリジナル表記と
標準表記とを対応付けて図4に示すような標準表記対応
オリジナル表記テーブルに記録しており、例えば、標準
表記「ゼスチャ」に変換されるオリジナル表記が「ジェ
スチャー」と「ゼスチャー」のように複数ある場合に
は、これらオリジナル表記を纏めて標準表記に対応付け
てある。インデックス記憶手段6は文書検索用の情報と
して図3に示すようなインデックスを記録しており、こ
のインデックスには標準表記されたカタカナ語のキーワ
ード或いは漢字語等のカタカナ語以外のキーワードに登
録された文書名を纏めて対応付けて登録してある。例え
ば、標準表記「ゼスチャ」に変換されたカタカナ語のキ
ーワードは”テキスト3”と”テキスト5”という名称
の文書中に存在することが記録されている。
【0017】次に、図2に示す文書検索装置は、例えば
文の形で入力された検索式に形態素解析を施してキーワ
ードを抽出するキーワード抽出手段1と、抽出されたキ
ーワードがカタカナで表現された語かを判断するカタカ
ナ語比較手段2と、カタカナ語のキーワードを図5及び
図6に示した規則に従って標準表記に変換する標準表記
変換手段3と、キーワードのオリジナル表記と規則に従
って変換された標準表記とを対応付けて記録する表記記
憶手段4と、標準表記されたカタカナ語のキーワード或
いはカタカナ語以外のキーワードと登録する文書名とを
対応付けて記録するインデックス記憶手段6と、キーワ
ードの標準表記を用いて表記記憶手段4から対応するオ
リジナル表記を求めるオリジナル表記抽出手段7と、標
準表記されたキーワードを用いてインデックス記憶手段
6から対応する文書を検索するインデックス検索手段8
と、オリジナル表記のキーワードを検索された文書に照
合して当該キーワードが当該文書中で出現する位置を特
定する文字列照合手段9と、キーワードとその文書中の
位置とを表示する表示手段10とを有している。なお、
本実施例では文書検索装置と検索情報作成装置とで、キ
ーワード抽出手段1、カタカナ語比較手段2、標準表記
変換手段3、表記記憶手段4、インデックス記憶手段6
を共用しており、登録検索システム全体として各手段を
合理的に活用している。
【0018】次に、上記した構成の登録検索システムに
おいて、検索情報作成装置で行われるインデックスへの
文書の登録処理及び文書検索装置で行われるインデック
スからの文書の検索処理を説明する。なお、以下では、
図7に示すような内容の”テキスト1”という文書名の
文書を処理対象として説明する。登録処理は図8に示す
手順で行われ、まず、登録対象の文書のテキスト部分を
記憶装置等に記録して登録し(ステップS1)、このテ
キスト部分を抽出してキーワード抽出手段1で形態素解
析を施し、このテキスト部分からキーワードを抽出する
(ステップS2)。図7に示したテキストからは、例え
ば、「カタカナ」、「表記」、「インターフェース」、
「インタフェース」、「ゼスチャー」、「ジェスチャ
ー」等といった語がキーワードとして抽出される。次い
で、抽出したキーワードにカタカナ語があるかをカタカ
ナ語比較手段2で判断し(ステップS3)、漢字語等の
カタカナ語以外のキーワードだけの場合は後述するステ
ップS6以降の処理に移り、カタカナ語がある場合には
標準表記変換手段3でこのカタカナ表現のキーワードを
標準表記に変換し(ステップS4)、更に、このキーワ
ードの表記記憶手段4への登録処理を行う(ステップS
5)。上記の例では、オリジナル表記で「カタカナ」、
「インターフェース」、「インタフェース」、「ゼスチ
ャー」、「ジェスチャー」といったカタカナ語のキーワ
ードがそれぞれ「カタカナ」、「インタフエス」、「イ
ンタフエス」、「ゼスチャ」、「ゼスチャ」という標準
表記に変換される。
【0019】このステップS5の表記の登録処理は表記
記憶手段4によって図9に示す手順で行われ、まず、キ
ーワードの標準表記が図4に示した標準表記対応オリジ
ナル表記テーブルに既に登録されているかを判断し(ス
テップS21)、登録されていない場合には、標準表記
対応オリジナル表記テーブルにキーワードの標準表記と
対応するオリジナル表記とを新たに登録する(ステップ
S22)。一方、登録されている場合には、標準表記対
応オリジナル表記テーブルにこの標準表記と対応するオ
リジナル表記が既に登録されているかを判断し(ステッ
プS23)、対応するオリジナル表記が未だ登録されて
いないときには、このオリジナル表記を標準表記対応オ
リジナル表記テーブルに追加登録する(ステップS2
4)。例えば、図4に示す標準表記対応オリジナル表記
テーブルに標準表記「インタフエス」が登録されていな
い場合には、この標準表記「インタフエス」と対応する
オリジナル表記「インターフェース」を新たに登録す
る。また、標準表記対応オリジナル表記テーブルに標準
表記「インタフエス」に対応してオリジナル表記「イン
タフェース」しか登録されていない場合には、オリジナ
ル表記で「インターフェース」というキーワードが標準
表記「インタフエス」に変換されると、このオリジナル
表記「インターフェース」は標準表記「インタフエス」
に対応して追加登録される。
【0020】再び図8に示す手順に戻って、インデック
ス登録手段5がインデックス記憶手段6の記録内容を調
べて、標準表記されたカタカナ語のキーワード或いは漢
字語等のカタカナ語以外のキーワードが図3に示したイ
ンデックスに既に登録されているかを判断し(ステップ
S6)、これらキーワードが未だインデックスに登録さ
れていない場合には、キーワードと対応する文書名とを
インデックスに新たに登録する(ステップS7)。一
方、これらキーワードが既にインデックスに登録されて
いる場合には、このキーワードに対応する文書名がイン
デックスに登録されているかを判断し(ステップS
8)、登録されている場合にはそのまま次の処理に移る
が、登録されていない場合にはこのキーワードに対応し
て文書名をインデックスに追加登録する(ステップS
9)。例えば、図3に示したインデックスに標準表記の
キーワード「インタフエス」が登録されていないとすれ
ば、このキーワードの標準表記「インタフエス」と対応
する文書名”テキスト1”をインデックスに新たに登録
する。また、例えば、インデックスに標準表記のキーワ
ード「インタフエス」に対応して”テキスト3”だけが
登録されているとすれば、このキーワードの標準表記
「インタフエス」と対応する文書名”テキスト1”をイ
ンデックスに追加登録する。
【0021】上記した一連の処理を行った後、キーワー
ド抽出手段1が登録対象の文書のテキスト部分から全て
のキーワードを抽出し終えたかを判断し(ステップS1
0)、キーワードの抽出が未だ終了していないときには
ステップS2以降の処理を繰り返し行い、全てのキーワ
ードについて処理を完了したところで登録処理を終了す
る。この結果、図4に示すように表記記憶手段4の標準
表記対応オリジナル表記テーブルには登録した各文書か
ら抽出したキーワードのオリジナル表記と標準表記とが
対応して記録され、また、図3に示すようにインデック
ス記憶手段6のインデックスには登録した各文書名と対
応するキーワードの標準表記が記録され、これら情報を
後述する文書検索に供することができる。
【0022】次に、文書の検索処理は図10に示す手順
で行われ、まず、ユーザが指定した文等の検索式が入力
されて(ステップS31)、この検索式からキーワード
抽出手段1が形態素解析を施してキーワードを抽出する
(ステップS32)。なお、以下では、検索式として
「インタフェース」というオリジナル表記のキーワード
を入力したものとして説明する。次いで、抽出したキー
ワードにカタカナ語があるかをカタカナ語比較手段2で
判断し(ステップS33)、カタカナ語以外のキーワー
ドだけの場合は後述するステップS35以降の処理に移
り、カタカナ語がある場合には標準表記変換手段3でこ
のカタカナ表現のキーワードを標準表記に変換する(ス
テップS34)。この例では、「インタフェース」とい
うオリジナル表記のキーワードが「インタフエス」とい
う標準表記に変換される。
【0023】次いで、インデックス検索手段8がインデ
ックス記憶手段6に記録されているインデックスを検索
して標準表記されたカタカナ語のキーワード或いはカタ
カナ語以外のキーワードに対応する文書を探し出し(ス
テップS35)、この検索された全ての文書について、
文書中におけるキーワードの出現位置を検索して(ステ
ップS36、S37)、検索処理を終了する。この例で
は、図3に示したインデックスから標準表記「インタフ
エス」に対応して”テキスト1”と”テキスト3”の2
つの文書が検索される。
【0024】このステップS37のキーワード位置検索
処理はオリジナル表記抽出手段7と文字列照合手段9と
によって図11に示す手順で行われ、まず、文字列照合
手段9が表記記憶手段4のテーブルを参照して検索に用
いたキーワードは標準表記か否かを判断し(ステップS
41)、標準表記でない(すなわち、漢字語等のカタカ
ナ語以外の検索キーワード)場合には、位置検索すべき
キーワードのカウント数(残り検索数)を”1”にして
後述するステップS45以降の処理を行う。一方、検索
キーワードが標準表記であった場合には、オリジナル表
記抽出手段7が表記記憶手段4のテーブルからこの標準
表記のキーワードに対応するオリジナル表記を抽出し
(ステップS43)、抽出されたオリジナル表記の数を
残り検索数に設定する(ステップS44)。この例で
は、図4に示した標準表記対応オリジナル表記テーブル
から標準表記「インタフエス」に対応して「インタフェ
ース」と「インターフェース」の2つのオリジナル表記
が抽出され、残り検索数が”2”に設定される。なお、
標準表記でない検索キーワードの場合にはオリジナル表
記への展開がなく、位置検索する対象はこの検索キーワ
ード1つであるので、上記のように残り検索数が一律
に”1”に設定される。
【0025】次いで、文字列照合手段9が、カタカナ語
のキーワードについては抽出したオリジナル表記のキー
ワードを、また、カタカナ語以外のキーワードについて
はそのままのキーワードを検索された文書に対して文字
列照合し(ステップS45)、これらキーワードとその
文書中での出現位置をハイライト表示する等して表示手
段10に表示させる(ステップS46)。この例では、
「インタフェース」というオリジナル表記の検索キーワ
ードが「インタフエス」という標準表記を介して「イン
タフェース」と「インターフェース」という2つのオリ
ジナル表記へ展開され、図12に示すように、これらオ
リジナル表記のキーワードの出現位置が検索された文書
中で表示される。
【0026】残り検索数を1つずつ減らすことによっ
て、上記したステップS45以降の処理は位置検索すべ
きキーワードについて順次行われ(ステップS47)、
残り検索数が”0”となって位置検索すべきキーワード
がなくなったところで位置検索処理を終了する(ステッ
プS48)。上記のように、本実施例によれば、標準表
記化することによってカタカナ語のキーワードの表記の
揺れによる検索漏れを防ぐことができ、なおかつ、対応
するオリジナル表記のキーワードで文字列照合すること
によって検索された文書中でのキーワードの位置を検出
することができ、検索の信頼性及び操作性が向上する。
【0027】ここで、通常の文書を考えると、同一の文
書中で使われているカタカナ語は表記に一貫性があると
考えられる。例えば、「インタフェース」と「インター
フェース」という同一の語を示す表記が同一の文書中に
使われているとは考え難い。このため、カタカナ語のキ
ーワードを全て標準表記に変換することは、同一の表記
のキーワードをその数だけ何度も繰り返し変換処理する
こととなり効率的ではない。そこで、以下に説明する本
発明の第2実施例は、同じ表記のカタカナ語については
繰り返し標準表記へ変換する無駄を排して、全体として
処理の効率向上を達成することも目的とする。
【0028】図13には本発明の第2実施例に係る検索
情報作成装置の構成を示してある。なお、本実施例の説
明は前記した第1実施例を引用して行い、同一の部分に
は同一の参照符号を付して重複する説明は省略する。本
実施例の検索情報作成装置は、前記した第1実施例と同
じ、キーワード抽出手段1と、標準表記変換手段3と、
表記記憶手段4と、インデックス登録手段5と、インデ
ックス記憶手段6とを有し、そして、前記した実施例の
カタカナ語比較手段2の機能を果たす手段として、カタ
カナ判別手段21と、カタカナ表記比較手段22とを有
している。
【0029】カタカナ判別手段21はキーワード抽出手
段1で抽出されたキーワードが標準表記に変換すべき語
かすなわちカタカナ語か否かを判別するものであり、カ
タカナ語以外のキーワードはインデックス登録手段5へ
送られ、カタカナ語のキーワードはカタカナ表記比較手
段22へ送られる。カタカナ表記比較手段22は、表記
記憶手段4に記録されている標準表記対応オリジナル表
記テーブル(図4)と比較して、送られてきたカタカナ
語のキーワードが既に標準表記に変換されているかを判
断する。すなわち、送られてきたキーワードが標準表記
対応オリジナル表記テーブルのオリジナル表記に存在す
るときには既に標準表記への変換がなされていると判断
でき、そうでないときには標準表記への変換は未だなさ
れていないと判断できる。そして、カタカナ表記比較手
段22は、未だ標準表記に変換されていない新規なカタ
カナ語であると判断した場合には標準表記変換手段3へ
このキーワードを送り、既に標準表記に変換されている
カタカナ語であると判断した場合には表記記憶手段4か
ら対応する標準表記を取り出してインデックス登録手段
5へ送る。
【0030】次に、本実施例の検索情報作成装置で行わ
れるインデックスへの文書の登録処理を図14に示す手
順に沿って説明する。まず、登録対象の文書のテキスト
部分を記憶装置等に記録し(ステップS51)、このテ
キスト部分を抽出してキーワード抽出手段1で形態素解
析を施し、このテキスト部分からキーワードを抽出する
(ステップS52)。次いで、抽出したキーワードがカ
タカナ語かをカタカナ判別手段21で判断し(ステップ
S53)、カタカナ語以外のキーワードの場合は文書名
に対応させてインデックス記憶手段6のインデックスに
登録し(ステップS54)、後述するステップS59以
降の処理に移る。一方、キーワードがカタカナ語の場合
には、カタカナ表記比較手段22でこのキーワードが既
に標準表記への変換処理がなされて表記記憶手段4に登
録されているものかを判断する(ステップS55)。こ
の結果、既に標準表記への変換がなされたものであると
きには、表記記憶手段4から対応する標準表記を取り出
して、この標準表記を用いて当該文書の名称をインデッ
クスに登録する(ステップS56)。例えば、”テキス
ト6”という名称の文書を登録する場合に、この文書か
らオリジナル表記のキーワードとして「インタフェー
ス」が抽出されたとすると、図4に示したテーブルから
「オリジナル表記の「インタフェース」は標準表記「イ
ンタフエス」に既に変換されていることがわかるので、
再度の変換をすることなく、この標準表記「インタフエ
ス」を用いて文書名”テキスト6”を図3に示したイン
デックスに追加登録する。
【0031】一方、上記の判断の結果、キーワードが既
に標準表記への変換がなされたものでないときには、こ
のキーワードを標準表記変換手段3へ送って標準表記に
変換し(ステップS57)、この標準表記を用いて文書
の名称をインデックスに登録する(ステップS58)。
すなわち、キーワードはカタカナ語で且つ未だに標準表
記への変換がなされていない場合にのみ標準変換への処
理がなされ、全体として無駄な処理を排して効率化が図
られている。上記した一連の処理の後、キーワード抽出
手段1により抽出すべき全てのキーワードの抽出が終了
したかを確認し(ステップS59)、更に、登録すべき
全ての文書に対する処理が終了したかを確認して(ステ
ップS60)、登録処理を終了する。
【0032】図15には本発明の第3実施例に係るキー
ワード位置検索の処理手順を示してある。この実施例
は、標準表記から展開された全てのオリジナル表記につ
いて文書中での出現位置を検出するのではなく、ユーザ
が指定したオリジナル表記についてのみ出現位置を検出
し、これによって無用な検索処理を排して処理の効率向
上を図ることを目的としている。なお、本実施例の説明
は前記した第1実施例を引用して行い、同一の部分には
同一の参照符号を付して重複する説明は省略する。
【0033】このキーワード位置検索処理は、図2に示
したオリジナル表記抽出手段7と文字列照合手段9の他
に、文字列照合手段9にユーザからの指示を入力する入
力手段(図示せず)によって行われる。まず、文字列照
合手段9が表記記憶手段4のテーブルを参照して検索に
用いたキーワードが標準表記か否かを判断し(ステップ
S71)、標準表記でない場合には後述するステップS
74以降の処理を行う。一方、検索キーワードが標準表
記であった場合には、オリジナル表記抽出手段7が表記
記憶手段4のテーブルからこの標準表記のキーワードに
対応するオリジナル表記を抽出し(ステップS72)、
抽出されたオリジナル表記を全て表示手段10に表示し
て、いずれのオリジナル表記について位置検索を行うか
ユーザからの指示を受ける(ステップS73)。例え
ば、図4に示した標準表記対応オリジナル表記テーブル
から標準表記「インタフエス」に対応して「インタフェ
ース」と「インターフェース」の2つのオリジナル表記
が抽出された場合、これらオリジナル表記の中からどれ
を位置検索するかユーザから指示を受ける。
【0034】次いで、文字列照合手段9が、カタカナ語
のキーワードについてはユーザが指定したオリジナル表
記のキーワードを、また、カタカナ語以外のキーワード
についてはそのままのキーワードを検索された文書に対
して文字列照合し(ステップS74)、このキーワード
とその文書中での出現位置をハイライト表示する等して
表示手段10に表示させ(ステップS75)、位置検索
処理を終了する。上記のように、本実施例によれば、標
準表記から展開されたオリジナル表記の内のユーザが指
定したオリジナル表記についてのみ出現位置を検出し、
これによって無用な検索処理を排して処理の効率向上を
図っている。
【0035】なお、上記した実施例で示した表記記憶手
段4には登録された文書の全てに関するオリジナル表記
を蓄積するようにしたが、各文書単位でオリジナル表記
を標準表記と対応付けて記録するようにしてもよい。ま
た、上記した実施例では、1つの表記変換手段3で登録
キーワードと検索キーワードとを標準表記に変換するよ
うにしたが、登録キーワードと検索キーワードとを別々
の表記変換手段で標準表記に変換するように構成しても
よい。また、上記した実施例では、文書検索用記録手段
6には文書名を記録することによりインデックスとして
文書の情報を記録したが、文書のテキスト情報も記録す
ることも可能である。
【0036】
【発明の効果】以上詳細に説明したように、請求項1に
記載した文書の登録検索システムによれば、オリジナル
表記のキーワードを表記変換手段で標準表記に変換し、
キーワードの標準表記とオリジナル表記とを対応付けて
表記記憶手段に記録すると共に、キーワードの標準表記
と登録された文書の情報とを対応付けて文書検索用記憶
手段に記録し、キーワードの標準表記を用いて文書検索
用記憶手段から対応する文書を検索すると共に、キーワ
ードの標準表記を用いて表記記憶手段からオリジナル表
記で検索された文書を文字列照合してその出現位置を検
索するようにしたため、キーワードの表記の揺れによる
検索漏れを解消し且つ検索された文書中でのキーワード
の位置を検出することができ、膨大なサイズの文書検索
用記憶手段を必要とすることなく検索の信頼性及び操作
性を向上させることができる。また、請求項2に記載し
た検索情報作成装置によれば、オリジナル表記のキーワ
ードを表記変換手段で標準表記に変換し、キーワードの
標準表記とオリジナル表記とを対応付けて表記記憶手段
に記録すると共に、キーワードの標準表記と登録された
文書の情報とを対応付けて文書検索用記憶手段に記録す
るようにしたため、膨大なサイズの文書検索用記憶手段
を必要とすることなくキーワードの表記の揺れによる検
索漏れを解消し且つ検索された文書中でのキーワードの
位置を検出することができる検索情報を作成することが
できる。また、請求項3に記載した文書検索装置によれ
ば、オリジナル表記のキーワードを表記変換手段で標準
表記に変換し、標準表記されたキーワードを用いて文書
の情報とキーワードの標準表記とを対応付けた記録から
文書を検索し、キーワードの標準表記を用いてキーワー
ドのオリジナル表記と標準表記とを対応付けた記録から
対応するオリジナル表記を求め、オリジナル表記のキー
ワードを検索された文書に照合して当該キーワードが当
該文書中で出現位置を検索するようにしたため、キーワ
ードの表記の揺れによる検索漏れを解消し且つ検索され
た文書中でのキーワードの位置を検出することができ、
膨大なサイズの文書検索用記憶手段を必要とすることな
く検索の信頼性及び操作性を向上させることができる。
また、請求項4に記載した文書の登録検索方法によれ
ば、オリジナル表記のキーワードを標準表記に変換し、
キーワードの標準表記とオリジナル表記とを対応付けて
記録すると共に、キーワードの標準表記と登録された文
書の情報とを対応付けて記録し、キーワードの標準表記
を用いて対応する文書を検索すると共に、キーワードの
標準表記を用いてオリジナル表記で検索された文書を文
字列照合してその出現位置を検索するようにしたため、
キーワードの表記の揺れによる検索漏れを解消し且つ検
索された文書中でのキーワードの位置を検出することが
でき、膨大なサイズの文書検索用記憶手段を必要とする
ことなく検索の信頼性及び操作性を向上させることがで
きる。
【図面の簡単な説明】
【図1】本発明の第1実施例に係る検索情報作成装置の
構成を示すブロック図である。
【図2】本発明の第1実施例に係る文書検索装置の構成
を示すブロック図である。
【図3】インデックスの内容を説明する概念図である。
【図4】標準表記対応オリジナル表記テーブルの内容を
説明する概念図である。
【図5】標準表記への変換規則テーブルの内容を説明す
る概念図である。
【図6】標準表記への変換規則テーブルの内容を説明す
る概念図である。
【図7】テキストの一例を示す図面である。
【図8】文書登録の処理手順を示すフローチャートであ
る。
【図9】標準表記対応オリジナル表記テーブルの登録処
理の手順を示すフローチャートである。
【図10】文書検索の処理手順を示すフローチャートで
ある。
【図11】キーワード位置検索の処理手順を示すフロー
チャートである。
【図12】文書の検索結果の一例を示す図面である。
【図13】本発明の第2実施例に係る検索情報作成装置
の構成を示すブロック図である。
【図14】本発明の第2実施例に係る文書登録の処理手
順を示すフローチャートである。
【図15】本発明の第3実施例に係るキーワード位置検
索の処理手順を示すフローチャートである。
【符号の説明】
4 表記記憶手段 6 文書検索用記憶手段(インデックス記憶手段) 7 表記抽出手段 8 検索手段 9 照合手段
───────────────────────────────────────────────────── フロントページの続き (72)発明者 相原 一雄 神奈川県川崎市高津区坂戸3丁目2番1号 KSP R&D ビジネスパークビル 富士ゼロックス株式会社内 (72)発明者 喜多 辰臣 神奈川県川崎市高津区坂戸3丁目2番1号 KSP R&D ビジネスパークビル 富士ゼロックス株式会社内 (72)発明者 山口 浩 神奈川県川崎市高津区坂戸3丁目2番1号 KSP R&D ビジネスパークビル 富士ゼロックス株式会社内

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 登録する文書から登録キーワードを抽出
    するキーワード抽出手段と、 前記抽出されたオリジナル表記の登録キーワードを所定
    の規則に従って標準表記に変換する登録キーワード表記
    変換手段と、 前記登録キーワードのオリジナル表記と標準表記とを対
    応付けて表記対応情報として記録する表記記憶手段と、 前記登録キーワードの標準表記と前記文書の情報とを対
    応付けて検索情報として記録する文書検索用記憶手段
    と、 文書検索のために指定された検索キーワードを前記所定
    の規則に従って標準表記に変換する検索キーワード表記
    変換手段と、 標準表記された前記検索キーワードを用いて前記検索情
    報を参照して対応する文書を検索する検索手段と、 標準表記された前記検索キーワードを用いて前記表記対
    応情報を参照して対応するオリジナル表記を求める表記
    抽出手段と、 前記表記抽出手段で求められたオリジナル表記の検索キ
    ーワードを検索された文書に照合して当該キーワードが
    当該文書中で出現する位置を特定する照合手段と、 を有することを特徴とする文書登録検索システム。
  2. 【請求項2】 登録する文書からキーワードを抽出する
    キーワード抽出手段と、 前記抽出されたオリジナル表記のキーワードを所定の規
    則に従って標準表記に変換する表記変換手段と、 前記キーワードのオリジナル表記と標準表記とを対応付
    けて表記対応情報として記録する表記記憶手段と、 前記キーワードの標準表記と前記文書の情報とを対応付
    けて検索情報として記録する文書検索用記憶手段と、 を有し、文書をキーワードを用いて検索するための情報
    を作成することを特徴とする検索情報作成装置。
  3. 【請求項3】 登録された文書から抽出した登録キーワ
    ードのオリジナル表記と当該登録キーワードを所定の規
    則に従って変換した標準表記とを対応付けて表記対応情
    報として記録した表記記憶手段と、 前記登録キーワードの標準表記と前記文書の情報とを対
    応付けて検索情報として記録した文書検索用記憶手段
    と、 文書検索のために指定された検索キーワードを前記所定
    の規則に従って標準表記に変換する表記変換手段と、 標準表記された前記検索キーワードを用いて前記検索情
    報を参照して対応する文書を検索する検索手段と、 標準表記された前記検索キーワードを用いて前記表記対
    応情報を参照して対応するオリジナル表記を求める表記
    抽出手段と、 前記表記抽出手段で求められたオリジナル表記の検索キ
    ーワードを検索された文書に照合して当該キーワードが
    当該文書中で出現する位置を特定する照合手段と、 を有することを特徴とする文書検索装置。
  4. 【請求項4】 文書を当該文書を検索するために必要な
    情報とともに登録し、登録された文書をキーワードを用
    いて検索する文書の登録検索方法において、 登録される文書中から抽出した登録キーワードを所定の
    規則に従って標準表記に変換するステップと、 前記登録キーワードのオリジナル表記と標準表記とを対
    応付けて表記対応情報として記録するステップと、 前記登録キーワードの標準表記と登録した文書の情報と
    を対応付けて検索情報として記録するステップと、 文書検索のために指定された検索キーワードを前記所定
    の規則に従って標準表記に変換するステップと、 前記標準表記された検索キーワードを用いて前記検索情
    報を参照して対応する文書を検索するステップと、 前記検索キーワードの標準表記を用いて前記表記対応情
    報を参照して対応するオリジナル表記を求めるステップ
    と、 前記オリジナル表記の検索キーワードを検索された文書
    に照合して当該キーワードが当該文書中で出現する位置
    を特定するステップと、 を有することを特徴とする文書の登録検索方法。
JP13657094A 1994-05-26 1994-05-26 文書登録検索システム Expired - Lifetime JP3477822B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP13657094A JP3477822B2 (ja) 1994-05-26 1994-05-26 文書登録検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP13657094A JP3477822B2 (ja) 1994-05-26 1994-05-26 文書登録検索システム

Publications (2)

Publication Number Publication Date
JPH07319890A true JPH07319890A (ja) 1995-12-08
JP3477822B2 JP3477822B2 (ja) 2003-12-10

Family

ID=15178352

Family Applications (1)

Application Number Title Priority Date Filing Date
JP13657094A Expired - Lifetime JP3477822B2 (ja) 1994-05-26 1994-05-26 文書登録検索システム

Country Status (1)

Country Link
JP (1) JP3477822B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1153384A (ja) * 1997-08-05 1999-02-26 Mitsubishi Electric Corp キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
JP2006031243A (ja) * 2004-07-14 2006-02-02 Ricoh Co Ltd データベースマネジメントシステム、データベース管理方法、プログラムおよび記録媒体
JP2007058605A (ja) * 2005-08-24 2007-03-08 Ricoh Co Ltd 文書管理システム
KR20220100753A (ko) * 2021-01-08 2022-07-18 (주)원더박스글로벌 클라우드 emr 기반의 교육용 진료 정보 교류 시스템 및 그 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1153384A (ja) * 1997-08-05 1999-02-26 Mitsubishi Electric Corp キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
JP2006031243A (ja) * 2004-07-14 2006-02-02 Ricoh Co Ltd データベースマネジメントシステム、データベース管理方法、プログラムおよび記録媒体
JP2007058605A (ja) * 2005-08-24 2007-03-08 Ricoh Co Ltd 文書管理システム
KR20220100753A (ko) * 2021-01-08 2022-07-18 (주)원더박스글로벌 클라우드 emr 기반의 교육용 진료 정보 교류 시스템 및 그 방법

Also Published As

Publication number Publication date
JP3477822B2 (ja) 2003-12-10

Similar Documents

Publication Publication Date Title
JP3152871B2 (ja) ラティスをキーとした検索を行う辞書検索装置および方法
US6874002B1 (en) System and method for normalizing a resume
JPH08227426A (ja) データ検索装置
JPH07160701A (ja) 住所情報検索装置
JP3477822B2 (ja) 文書登録検索システム
JP2005107931A (ja) 画像検索装置
JP2002251402A (ja) 文書検索方法及び文書検索装置
JPH0236019B2 (ja)
JP2500680B2 (ja) デ−タ名付与登録装置
JPH05250416A (ja) データベースの登録・検索装置
US20040164989A1 (en) Method and apparatus for disclosing information, and medium for recording information disclosure program
JPH0736686A (ja) 影響検索装置
JP2751681B2 (ja) 文書検索装置
JPH0635971A (ja) 文書検索装置
JPH05128159A (ja) キーワード抽出方法及び装置
JP3505610B2 (ja) 文書検索システム
JPH07319891A (ja) 文書登録検索システム
JPH07296005A (ja) 日本語テキスト登録・検索装置
JP2000076254A (ja) キーワード抽出装置、このキーワード抽出装置を用いた類似文献検索装置、キーワード抽出方法及び記録媒体
JP2000029877A (ja) 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体
JPH05158984A (ja) 文字列抽出装置
JP2001229177A (ja) 事例ベース構築方法、事例ベース構築装置及び事例ベース構築プログラムを記録した記録媒体
JP3455924B2 (ja) メッセージ情報誤り検出装置及びメッセージ情報誤り検出方法
JP2563645B2 (ja) 文書検索装置
JP2776069B2 (ja) 文章検査装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071003

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081003

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091003

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101003

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111003

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121003

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121003

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131003

Year of fee payment: 10

EXPY Cancellation because of completion of term