JPH06103319A - 文書ファイリングシステム - Google Patents

文書ファイリングシステム

Info

Publication number
JPH06103319A
JPH06103319A JP4254365A JP25436592A JPH06103319A JP H06103319 A JPH06103319 A JP H06103319A JP 4254365 A JP4254365 A JP 4254365A JP 25436592 A JP25436592 A JP 25436592A JP H06103319 A JPH06103319 A JP H06103319A
Authority
JP
Japan
Prior art keywords
document
registered
character
characters
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4254365A
Other languages
English (en)
Inventor
Kiyomichi Kurino
清道 栗野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP4254365A priority Critical patent/JPH06103319A/ja
Publication of JPH06103319A publication Critical patent/JPH06103319A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 キーワード、分類コード等の文字の認識結果
を修正することなく登録し、これらのキーワード、分類
コード等を含む文書の検索を可能とする。 【構成】 登録すべき文書は、スキャナ1を介して、文
書ファイリングシステム本体2に取り込まれ、光ディス
ク6に格納されると共に、OCR3に転送される。OC
R3は、文書画像内のタイトル情報を認識し、文字コー
ドに変換したタイトルデータに修正の要否を示す情報を
付加し、本体2に転送し、光ディスク6に登録する。本
体2は、OCR3から転送されたタイトルデータの修正
が必要な場合、そのタイトルデータをデイスプレイ4上
に表示し、修正が行われなければ、その文字を、修正の
必要な文字であったことを示す記号“?”に変換して登
録する。光ディスク6に登録した文書を検索する場合、
本体2は、記号“?”を全ての文字と一致するものとし
て、検索キーワードと光ディスク6内に登録されている
文書のタイトルが一致する文書を選択し、デイスプレイ
4上に表示する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書を画像としてファ
イリングし、これを検索するシステムの文書ファイリン
グシステムに係り、特に、文字認識装置を使用して文書
の登録を実行する文書ファイリングシステムに関する。
【0002】
【従来の技術】従来技術による文書ファイリングシステ
ムは、一般に、登録した文書を検索するために、キーワ
ード、分類コード等を文書毎に入力しており、近年、キ
ーワード、分類コード等の入力を容易にするため、文字
認識装置を使用したシステムが実現されている。
【0003】文字認識装置により文書内のキーワード、
分類コード等を文字コードに変換する場合、正常に変換
できない文字が存在するため、認識結果の修正を必要と
するが、修正を行わないままキーワード、分類コード等
の登録を実行し、曖昧性を有したデータを対象に検索を
行うことを可能とした装置も知られている。
【0004】なお、この種のファイリングシステムとし
て、例えば、特開昭62−44878号公報等に記載さ
れた技術が知られている。
【0005】
【発明が解決しようとする課題】前記従来技術は、文字
認識結果として複数の候補を出力する機能を有するが、
複数の候補を出力すると、その候補数だけキーワード、
分類コード等の文字数が増加するため、従来の文書ファ
イリングシステムからの移行を行うことが困難であり、
また、拡張を行うことが困難であるという問題点を有し
ている。
【0006】本発明の目的は、前記従来技術の問題点を
解決し、文字認識装置を使用した場合にも、キーワー
ド、分類コード等の文字の認識結果を修正することなく
登録を実行することが可能で、かつ、これらのキーワー
ド、分類コード等を含む文書の検索が可能であり、従来
のシステムからの移行性、拡張性を備えた文書ファイリ
ングシステムを提供することにある。
【0007】
【課題を解決するための手段】本発明によれば前記目的
は、文字認識の結果、修正が必要な文字を所定の文字コ
ードに置き換えて登録し、検索時、前述の所定の文字コ
ードの文字をすべての検索キーワード内の文字と一致す
る文字とみなすようにすることにより達成される。
【0008】
【作用】本発明は、修正が必要な文字を、他の所定の文
字コードに置き換えて登録し、検索時、前述の所定の文
字コードの文字をすべての検索キーワード内の文字と一
致する文字とみなすようにしているので、曖昧性を有し
たまま関連文書の絞り込みを行うことが可能となる。
【0009】
【実施例】以下、本発明による文書ファイリングシステ
ムの一実施例を図面により詳細に説明する。
【0010】図1は本発明の一実施例のシステム構成を
示すブロック図、図2は有限状態オートマトンを使用し
た本発明の一実施例の検索の例を説明する図である。図
1において、1はスキャナ、2は文書ファイリングシス
テム本体、3はOCR、4はディスプレイ、5はキーボ
ード、6は光ディスクである。
【0011】図に示す本発明の一実施例による文書ファ
イリングシステムにおいて、登録すべき文書は、スキャ
ナ1により読み取られ、文書ファイリングシステム本体
2に取り込まれ、光ディスク6に格納されると共に、O
CR3に転送される。OCR3は、文書画像内のタイト
ル情報を認識し、正常に変換できない文字が存在する場
合、文字コードに変換したタイトルデータに修正の要否
を示す情報を付加して、文書ファイリングシステム本体
2に転送する。文書ファイリングシステム本体2は、O
CR3から転送されたタイトルデータをその文書のタイ
トルとして光ディスク6に登録する。
【0012】文書ファイリングシステム本体2は、OC
R3から転送されたタイトルデータの光ディスク6への
登録に際し、そのデータに修正有りの条件が付加されて
いるいる場合、そのタイトルデータをデイスプレイ4上
に表示し、操作者がキーボード5から修正を行えば、そ
の修正後のタイトルデータを光ディスク6に登録する。
また、このとき修正が行われなければ、その文字を、修
正の必要な文字であったことを示す記号、例えば、
“?”に変換して登録する。
【0013】一方、光ディスク6に登録した文書を検索
する場合、文書ファイリングシステム本体2は、操作者
によりキーボード5から入力された検索キーワードと光
ディスク6内に登録されている文書のタイトルが一致す
る文書を選択し、デイスプレイ4上に表示する。
【0014】なお、文書ファイリングシステム本体2
は、前述の動作の制御及びデータ処理のために、マイク
ロプロセッサを内蔵して構成されている。
【0015】検索は、文献[A.V.Aho,et a
l.“Efficient String Matching:An Aid to B
ebliographic Search,”Communications of the A
CM,Vol18,No.6,1975]に示されるよ
うな方法により、有限状態オートマトンを用いて実行さ
れる。以下、この検索方法を図2を参照して説明する。
【0016】図2(a)はタイトル検索時のキーワード
の文字列を“ABC”としたときの有限状態オートマト
ン(遷移)を示した例であり、光ディスク6から読み出
されたタイトル文字列が入力されると、状態“0”を開
始点にして、検索キーワードの文字列とタイトル文字列
との比較が行われ、比較結果により図2(a)に示され
るような状態遷移が行われる。状態が状態“E”まで遷
移した状態をもって、キーワードの文字列が“ABC”
とタイトル文字列とが一致したと判定される。
【0017】但し、図2(a)に示す有限状態オートマ
トンの例では、文字列“ABC”だけが一致とみなされ
記号“?”を持つタイトルを検索することはできない。
【0018】図2(b)は本発明の一実施例におけるキ
ーワードの文字列を“ABC”としたときの有限状態オ
ートマトンを示す例である。
【0019】本発明の一実施例は、前述したように、修
正の必要な文字が記号“?”に変換されて登録されてい
るが、タイトル文字列中に記号“?”が含まれていても
検索を行うことが可能なようにされている。
【0020】このため本発明の一実施例により使用され
る有限状態オートマトンは、図2(b)に示すように、
状態“0”、“1”、“2”のいずれの状態においても
記号“?”への遷移を許容するようにされている。この
図2(b)に示す例の状態“0”、“1”、“2”にお
ける入力文字に対する状態遷移先を示すテーブルが図2
(c)に示されている。
【0021】図2(c)に示すaの部分は、図2(a)
に示す有限状態オートマトンの例の内容と同一であり、
このテーブルでは、記号“?”への遷移を許容するため
bの部分が追加されている。
【0022】本発明の一実施例における有限状態オート
マトンを使用した検索は、文書ファイリングシステム本
体2内のマイクロプロセッサのソフトウエアにより、図
2(c)に示すテーブルを参照しながら実行される。こ
れにより、記号“?”は、どのキーワードの文字とも一
致しているとみなされ、曖昧性を含んだ状態で検索を行
うことができる。
【0023】前述した本発明の一実施例によれば、検索
キーワードとして“ABC”が入力されたとき、タイト
ルが“ABC”である文字列の他に、“?BC”、“A
?C”、“AB?”、“??C”、“A??”、“?B
?”、“???”の文字列が検索結果として出力され
る。
【0024】すなわち、本発明の一実施例によれば、キ
ーワード、分類コード等の文字の認識結果を修正するこ
となく文書を登録し、かつ、検索を行うことが可能であ
り、特に検索頻度の少ない文書のファイリングに使用し
て好適なシステムを提供することができ、また、修正の
必要な文字部を特定の文字コードに置き換えるだけなの
で、従来のシステムからの移行性、拡張性を確保するこ
とができる。
【0025】なお、前述した本発明の一実施例では説明
していないが、本発明は、文字列“ABC”が存在すれ
ば記号“?”を含む残りの文字列を検索結果として出力
しないようにする、あるいは、記号“?”の数の少ない
文字列の順に並び変えて出力する等の変形を行うことが
できる。
【0026】
【発明の効果】以上説明したように本発明によれば、文
書ファイリングシステムを、キーワード、分類コード等
の文字の認識結果を修正することなく登録を実行するこ
とが可能で、かつ、これらのキーワード、分類コード等
を含む文書の検索が可能な、従来のシステムからの移行
性、拡張性を備えたものとすることができる。
【図面の簡単な説明】
【図1】本発明の一実施例のシステム構成を示すブロッ
ク図である
【図2】有限状態オートマトンを使用した本発明の一実
施例の検索の例を説明する図である。
【符号の説明】
1 スキャナ 2 文書ファイリングシステム本体 3 OCR 4 デイスプレイ 5 キーボード 6 光ディスク

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 文書を蓄積、管理する情報検索システム
    における文書画像を認識し、テキスト情報を文字コード
    に変換する手段を備えた文書ファイリングシステムにお
    いて、前記文字コードに変換する手段が、正常な読み取
    りを行うことができなかった文字部分を、所定の他の文
    字コードに置き換えてテキストデータとして記憶し、テ
    キストデータの検索時、所定の文字コード部を正常な文
    字コード変換が行われないで記憶された文字として曖昧
    性を持たせたまま検索することを特徴とする文書ファイ
    リングシステム。
JP4254365A 1992-09-24 1992-09-24 文書ファイリングシステム Pending JPH06103319A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4254365A JPH06103319A (ja) 1992-09-24 1992-09-24 文書ファイリングシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4254365A JPH06103319A (ja) 1992-09-24 1992-09-24 文書ファイリングシステム

Publications (1)

Publication Number Publication Date
JPH06103319A true JPH06103319A (ja) 1994-04-15

Family

ID=17263980

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4254365A Pending JPH06103319A (ja) 1992-09-24 1992-09-24 文書ファイリングシステム

Country Status (1)

Country Link
JP (1) JPH06103319A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5943443A (en) * 1996-06-26 1999-08-24 Fuji Xerox Co., Ltd. Method and apparatus for image based document processing

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5943443A (en) * 1996-06-26 1999-08-24 Fuji Xerox Co., Ltd. Method and apparatus for image based document processing

Similar Documents

Publication Publication Date Title
US9251294B2 (en) Method and system for approximate string matching
JP4544674B2 (ja) 選択文字列に関連する情報を提供するシステム
JPH07200631A (ja) 電子ファイリング装置
JPH06103319A (ja) 文書ファイリングシステム
JPH09198404A (ja) 文書処理方法及び装置
JP2880192B2 (ja) 文字列検索方法及び装置
JPH05250416A (ja) データベースの登録・検索装置
JPH05210635A (ja) 入力装置
JPH11353316A (ja) 省略語補完装置
JPH09265472A (ja) 画像データベースシステム
JPH04232570A (ja) キーワード検索方法
JPH0492973A (ja) イメージ情報登録検索装置
JPH06139278A (ja) 文字コード変換機能を備えた文字列検索装置
JPH06259481A (ja) 同一文字種最長一致照合機能を備えた文字列照合方法および装置
JP4139805B2 (ja) 字句をデータに変換する装置、方法及びプログラム
JP2570784B2 (ja) 文書リーダ後処理装置
JP3241854B2 (ja) 単語スペル自動補正装置
JPH10171841A (ja) 文書情報管理装置及び文書情報管理方法
JPH0830629A (ja) 文書処理装置
JPS6380361A (ja) 言語情報処理装置
JPH05216870A (ja) カナ氏名標準化加工方式
JP2000348055A (ja) 情報検索方法及びその装置並びにコンピュータ可読記録媒体
JP2003178263A (ja) 文字認識装置及び記録媒体
JPH04223566A (ja) 数値検索装置および数値検索方法
JP2002063202A (ja) 情報検索システムおよび方法