JPH04199467A - 情報蓄積装置 - Google Patents

情報蓄積装置

Info

Publication number
JPH04199467A
JPH04199467A JP2333893A JP33389390A JPH04199467A JP H04199467 A JPH04199467 A JP H04199467A JP 2333893 A JP2333893 A JP 2333893A JP 33389390 A JP33389390 A JP 33389390A JP H04199467 A JPH04199467 A JP H04199467A
Authority
JP
Japan
Prior art keywords
information
character
character code
document
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2333893A
Other languages
English (en)
Inventor
Shigeru Matsukawa
茂 松川
Shinichi Tanaka
伸一 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2333893A priority Critical patent/JPH04199467A/ja
Publication of JPH04199467A publication Critical patent/JPH04199467A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は 画像情報として入力される文書を電子的に蓄
積する情報蓄積装置における情報の検索に関するもので
ある。
従来の技術 返歌 文書や図面を画像情報と[7て入力してこれを電
子的に蓄積する文書ファイル装置と呼ばれる情報蓄積装
置力(文書や図面の管理を専業とする部署を中心に普及
し始めている。
以下、図面を参照しなが収 上述した従来の情報蓄積装
置の一例について説明する。
第5図は従来の情報蓄積装置の動作を示すフローチャー
トである。第5図(a)は文書の登録時、第5図(b)
は検索時の動作をそれぞれ示すものであム以上のように
動作する情報蓄積装置について、以下その動作をさらに
詳しく説明をする。まず、文書を登録するときには、 
イメージスキャナなどの画像入力装置で、文書情報を画
像情報として取り込む。取り込んだ画像情報は光デイス
ク装置などの記憶装置に蓄積されも 続いて、蓄積した
画像情報の文書名 分類 作成者、キーワードなどの検
索に利用する補助情報をキーボードから入力しこの補助
情報に対応する画像情報を示す情報を付加して所定の場
所に記憶すム このようにして蓄積された画像情報を検
索するときには キーボードから補助情報を限定する検
索条件を入力し 所定の場所に記憶された補助情報の中
でこれに合致する補助情報を検索すム このようにして
検索しようとする文書情報の補助情報が特定されると、
これに対応する文書を読み出すことができ7)。 (例
えば オーム社「オフィスオートメーション入門J I
II〜113ページ) 発明が解決しようとする課題 しかしながら上記のような動作では、 文書を登録する
ときに必ず検索のための補助情報を入力する必要があり
、登録に手間がかかるばかりでなく、複数の人で文書を
登録したり検索したりするときに(表 各人の間でキー
ワードの整合性や一貫性をとる必要もあり、キーワード
体系の管理が大変であるという問題点を有していk 本
発明は上記問題点に鑑へ 文書を登録するときに 検索
のための補助情報をわざわざ人力しなくても後で検索す
ることが可能な情報蓄積装置を提供するものであ課題を
解決するための手段 上記課題を解決するために 本発明の情報蓄積装置(上
 画像情報として人力される文書情報から文字認識した
文字コード情報を用いて所定の文字列を検索しようとす
るもので、検索すべき文字列を含む文書の画像情報から
この文字列を認識するとき、認識アルゴリズムに付随す
る不完全性の為に誤認識し易い文字同士をグループ化し
 それぞれのグループに対して文字コードを割り当て、
その文字コードにより文字列を検索するようにしたもの
であム 作用 本発明は上記した方法によって、文書の画像情報を文字
認識して得られる文字コード情報の中で所定の文字列を
認識するので、文書情報に検索用のキーワードなどの補
助情報を付加しなくても直接文書情報から検索すること
が可能であり、また文字認識の不完全性を補うように検
索の゛条件を拡大するので、誤認識に伴う検索漏れを回
避することが可能となム 認識の不完全性を補う方法に
ついて、その原理をさらに説明すも 第3図ζ表 理想的に文字認識できる場合を示す概念図
であも 同図において、実線で囲んだ領域a〜領領域(
友 それぞれ 仮想的な文字a〜文字りのパターンの存
在範囲を示すもので、破線で囲んだ領域A〜領域Bζ友
 それぞれ 文字a〜文字りと認識されるパターンの範
囲を示すものである。
この場合に 領域a〜領領域は それぞれ 領域A〜領
域Hに完全に包含されており、文字a〜文字りがすべて
正しく認識されることは明らかであム −人 第4図は
認識が正しく行われない場合を示す概念図であム 第3
図の場合と同様へ 実線で囲んだ領域1〜領域pζよ 
それぞれ 仮想的な文字i〜文字pのパターンの存在範
囲を示し破線で囲まれた領域1〜領域Pは、 それぞれ
 文字i〜文字pと認識されるパターンの範囲を示すも
のであム な抵 領域X〜領領域は、 どの文字にも認
識できない領域を示すものであム この場合には、 す
べでの文字1〜文字pが領域1〜領域Pに完全に包含さ
れているわけではなく、完全な文字認識を行うのは不可
能である。例え(L 文字1は はとんどの場合、文字
1と正しく認識される力t 文字jや文字nに近いパタ
ーンで書かれていると、それぞれ文字jや文字nに誤認
識されることとなム また 文字mと文字o l;!、
  存在し得るパターンの領域が重なっており、文脈な
どから意味を理解するような パターン認識以外の手段
を併用する以外に誤認識を避ける方法はない。このよう
なことζよ 異なる文字体系が混在する場合におこり得
るものである。例えば 漢字の“入′とギリシャ文字の
′λ′や、数字の0′ とアルファベットの0′などが
その好例である。このような誤認識力(どの文字に対し
てどのように発生するかということj!  認識アルゴ
リズムに固有の傾向を有しており、その傾向さえ把握で
きておれは 検索のときにその欠点を補うことが可能で
あム 例えば 文字lが文字jに誤認識されたとしよう
。この場合、その認識結果を印刷や表示などの形で出力
すると支障がある力交 文字)で検索する場合には 文
字l、文字J、文字nに共通の文字コードをキーワード
として検索すれば検索漏れは回避される。検索範囲を拡
大することによって、余分なものも検索されてしまう力
(検索条件を変えて絞り込みを行えばほとんど支障はな
くなム また 実際には 1文字で検索することはほと
んどなく、数文字を組み合わせた熟語で検索されるので
、検索範囲は実質的にはそれほど極端に拡大されること
はな賎 例えば ゛人力゛ という文字列で検索する場
合 ′入′という文字を人とλに共通の文字コードで、
 ′力′を力と力に共通の文字コードをキーワードとし
て検索して転 入力 λ九 入力、 λカの文字列が検
索されるだけで、 ゛λ力″、 ′人力゛、 ゛λ力°
などはほとんど存在しないので、実質的な検索範囲の拡
大は極わずかとなる。このように 検索時に文字認識の
不完全性を補うことによって、検索漏れという不都合な
事態を大幅に減少させることが可能とな本実  施 例 以下本発明の一実施例の情報の検索方法について、図面
を参照しながら説明する。
第1図は本発明の第1の実施例における情報蓄積装置の
ブロック図を示すものであa 第1図において、 1は
画像人力手段で、手書きあるいは印刷された文書から画
像として情報を取り込む2は情報処理手段で、情報の入
出力の制御やさまざまな処理を行う。3は記憶手段で、
情報処理手段2の取り扱う情報を必要に応じて記憶すも
 4はコード入力手段で、画像入力手段lから入力され
た画像情報の補助情報東 検索のための文字列などを人
力すム 5は文字認識手段で、情報処理手段2から送ら
れてくる画像情報から文字を切り出して認識し 文字認
識して得られた文字コードを情報処理手段2に返す。6
は出力手段で、コード入力手段4から入力される指示に
従って、指示された特定の情報や指示に従って検索して
抽出された情報などを出力する。
以上のように構成された情報蓄積装置について、以下、
第1図および第2図を用いてその動作を説明すも まず
、第2図は本実施例における情報蓄積装置の動作のフロ
ーチャートを示したものであって、第2図a)lよ 文
書情報を蓄積する場合、第2図b)fi  所望する文
書情報を検索する場合をそれぞれ示すものであム 文書
情報を蓄積するときには、 まず、手書きあるいは印刷
さた文書を、イメージスキャナのような画像入力手段1
で画像情報として読み取り、情報処理手段2に転送する
情報処理手段2ば この画像情報のフォーマットを整え
 記憶手段3に転送してファイルとして記憶させも さ
らに 必要に応じて、キーワードなどの補助情報をコー
ド入力手段4から入力して、情報処理手段2はこの補助
情報を所定のフォーマットに整えて、記憶手段3に送出
して所定の場所に記憶させも −人 情報処理手段2は
、 文字認識手段5にも情報画像情報を送出する。文字
認識手段5は、 この画像情報から文字を順次切り出し
てこれを認識し 内蔵するグループ文字コード表に基づ
いて、検索の為の認識文字コードに変換すム ここでこ
の文字を検索の為の認識文字コードに変換する過程を、
さらに詳しく説明する。グループ文字コード表とζよ 
文字認識手段5が各文字を認識するときに誤認識する可
能性のある文字をグループ化し 各文字にグループ化さ
れた文字コードを対応させた表であム 例えば 第4図
に示すように 文字i〜文字pのパターンの範囲および
文字i〜文字pと認識されるパターンの範囲である領域
r〜領領域が分布しているとすれば これらの文字に関
するグループ文字コード表は次表のようになム (以下余白) グループ文字コード表 このグループ文字コード表は、 実際のそれぞれの文字
を表す文字コードと、その文字が属するグループのグル
ープ文字コードで構成されており、文字?(マ  認識
できなかった文字に割り当てる特殊コードを意味す4 
認識した文字列か′文字J文字m文字0′の3文字から
成る文字列であるとすれば 文字Jは、 グループ文字
コード′GO゛に置き換え 文字mfi  グループ文
字コード”G3’に置き換エ  文字Oはグループ文字
コード“G3’に置き換える。次に文字認識手段5(友
 この認識文字コード情報を情報処理手段2に返す。情
報処理手段2は、 この認識文字コード情報を所定のフ
ォーマットに整えた後、記憶手段3に送出して、所定の
場所に記録させる。以上のようにして蓄積された文書情
報か技 所望の情報を検索するときには、まず検索を行
う対象となるファイルを限定するために必要に応じてキ
ーワードなどによる制限条件をコード入力手段4から入
力する。もちろん すべてのファイルを対象にするとき
には、 このような制限条件の入力は必要としない。次
(、−検索すべき文字列を再びコード人力手段4から人
力する。
この文字列は、 情報処理手段2に転送され 情報処理
手段2線 上記グループ文字コード表に基づいて、この
文字列を検索の為の検索文字コード列に変換する。この
文字列を検索する過程を、さらに詳しく説明する。検索
する文字列が゛文字J文字m文字0゛の3文字から成る
文字列であるとすれ1瓜 検索文字コード列’Go 0
3 G3”に置き換えもさて、情報処理手段2(戴 以
上のようにして、検索すべき文字の検索文字コード列を
生成し 記憶手段3か収 指定された範囲の認識文字コ
ード情報を読み出しなが収 検索文字コード列のいずれ
かと一致する認識文字コード列を検索する。情報処理手
段2は検索によって抽出された文書情報を、出力手段6
に送出すも 出力手段6力丈 例えばCRTの場合には
、 それに表示され プリンタの場合に1よ その情報
が印刷され4 以上のように本実施例によれl′L  
画像情報として入力された文書情報を文字認識し 文字
コードに変換する時、文字認識のアルゴリズムに固有の
誤認識する可能性のある文字をグループ化し 各文字に
グループ化されたグループ文字コードを対応させたグル
ープ文字コード表に基づいて各文字を認識文字コードに
変換し 更に文字列を検索するときには、 この処理と
同様に検索すべき各文字をグループ文字コード表に基づ
いて検索文字コードに変ml  この検索文字コードと
上記認識文字コードにより文字列を検索するム この文
字列とこれを誤認識する可能性のあるすべての文字列を
検索することになり、例え文字認識手段5が誤認識して
L 検索漏れの頻度を大幅に減少させることができる。
発明の効果 以上のように本発明は 文書を文字認識して得られた文
字コードから文字列を検索するとき、文字認識の不完全
性を補うように検索の文字列と更にこの文字列と誤E1
mする可能性のあるすべての文字列を検索することにな
り、検索漏れの頻度を大幅に減少させることができる。
【図面の簡単な説明】
第1図は本発明の一実施例における情報蓄積装置のブロ
ック医 第2図は上記実施例における情報蓄積装置の動
作を示すフローチャート、第3図は理想的な文字認識の
場合を示す概念医 第4図は不完全な文字認識の場合を
示す概念医 第5図は従来の情報蓄積装置の動作を示す
フローチャートであa 2・・・情報処理手段、 3・・・記憶手段、 4・・
・コード入力手段、 5・・・文字認識手既 代理人の氏名 弁理士 小鍜治 明 ほか2名 第1図 第 2 口 ((1)                     
        (b)第 31」 又宇パターン宝閤 第4図 文字パターン空間 第 5[13 (a)

Claims (2)

    【特許請求の範囲】
  1. (1)画像情報として入力される文書情報を蓄積する画
    像蓄積手段と、上記文書情報に含まれる文字を認識する
    認識手段と、この認識手段から出力される文字コード情
    報を蓄積する補助情報蓄積手段と、検索範囲として入力
    される条件式に基づいて上記補助情報蓄積手段に蓄積さ
    れた文字コード情報内で検索する検索手段とを具備し、
    上記文字コード情報は、一つ以上の文字から成る文字グ
    ループに文字コードが割り当てられていることを特徴と
    する情報蓄積装置。
  2. (2)文字コード情報は、認識手段の認識のアルゴリズ
    ムに固有の誤認識の傾向に基づき、誤認識し易い文字同
    士をグループ化し、それぞれのグループに対して文字コ
    ードを割り当てることを特徴とする特許請求の範囲第(
    1)項記載の情報蓄積装置。
JP2333893A 1990-11-29 1990-11-29 情報蓄積装置 Pending JPH04199467A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2333893A JPH04199467A (ja) 1990-11-29 1990-11-29 情報蓄積装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2333893A JPH04199467A (ja) 1990-11-29 1990-11-29 情報蓄積装置

Publications (1)

Publication Number Publication Date
JPH04199467A true JPH04199467A (ja) 1992-07-20

Family

ID=18271136

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2333893A Pending JPH04199467A (ja) 1990-11-29 1990-11-29 情報蓄積装置

Country Status (1)

Country Link
JP (1) JPH04199467A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5943443A (en) * 1996-06-26 1999-08-24 Fuji Xerox Co., Ltd. Method and apparatus for image based document processing

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5943443A (en) * 1996-06-26 1999-08-24 Fuji Xerox Co., Ltd. Method and apparatus for image based document processing

Similar Documents

Publication Publication Date Title
US7081975B2 (en) Information input device
US5265242A (en) Document retrieval system for displaying document image data with inputted bibliographic items and character string selected from multiple character candidates
US5339412A (en) Electronic filing system using a mark on each page of the document for building a database with respect to plurality of multi-page documents
US6549913B1 (en) Method for compiling an image database, an image database system, and an image data storage medium
US6061478A (en) Content-based filing and retrieval system for name cards and hankos
JPH10207988A (ja) 文字認識方法および文字認識装置
JPH087033A (ja) 情報処理方法及び装置
US5909509A (en) Statistical-based recognition of similar characters
JPH07152774A (ja) 文書検索方法および装置
JPH07200631A (ja) 電子ファイリング装置
JP2000231505A (ja) データオブジェクト群の自動命名方法およびその記憶媒体
JP4208566B2 (ja) 文書画像検索装置及びその方法、文書画像検索システム、プログラム
JP2932667B2 (ja) 情報の検索方法および情報蓄積装置
JPH04199467A (ja) 情報蓄積装置
JPH06290251A (ja) 電子ファイル装置の文書画像処理方法
JPH10105654A (ja) 帳票用文字認識装置
JPH06301699A (ja) 取引処理装置
JPH1063813A (ja) イメージ文書管理方法及びその装置
JPH05210635A (ja) 入力装置
JPH0922442A (ja) イメージ・ドキュメント資料の電子管理システム
JPH07319890A (ja) 文書登録検索システム
JP2560959B2 (ja) 文字認識後処理方式
JP2986255B2 (ja) 文字認識装置
JPS63138479A (ja) 文字認識装置
JPH0589292A (ja) 文字列認識装置