JPH1091719A - 文字認識状態の管理方法 - Google Patents

文字認識状態の管理方法

Info

Publication number
JPH1091719A
JPH1091719A JP8242931A JP24293196A JPH1091719A JP H1091719 A JPH1091719 A JP H1091719A JP 8242931 A JP8242931 A JP 8242931A JP 24293196 A JP24293196 A JP 24293196A JP H1091719 A JPH1091719 A JP H1091719A
Authority
JP
Japan
Prior art keywords
document
format
character
recognition
character recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8242931A
Other languages
English (en)
Inventor
Shinichi Yokoi
慎一 横井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP8242931A priority Critical patent/JPH1091719A/ja
Publication of JPH1091719A publication Critical patent/JPH1091719A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【課題】本発明は、文書毎の文字認識状態を管理するこ
とにより、リジェクトデータに対する処理や更正作業を
効率的に行うことを目的としている。 【解決手段】所定のフォーマット内に記述された文書
を、光学的文字読み取り手段(11)によって読み取
り、読み取ったデータがあらかじめ設定されている認識
率に達しているか評価し、該評価結果に基づいて、文書
毎の認識状態を文字コード情報記録装置に記録する。ま
た、フォーマット情報記録装置(14)内の内容に基づ
いて、出力内容選択手段により出力内容を選定し、画像
データを出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、所定のフォーマッ
トに記入されている内容をスキャナ等の光学的文字読取
装置で読み取り、記入されている内容を文字認識装置を
利用してコードデータに変換する技術に関するものであ
る。
【0002】
【従来の技術】従来、紙に記入されたデータを入力する
方法としては、OCR装置を利用することが知られてい
る。その際の手順としては、OCR装置によって読み込
み、読み込んだデータをイメージデータとして記憶装置
に格納し、イメージデータを文字認識装置により認識す
る。文字認識装置で認識できないものはリジェクトデー
タとしてディスプレイなどの出力装置に出力される。リ
ジュクトデータを修正する技術としては、ディスプレイ
などの出力装置に出力されたものを、オペレータが確認
しキーボードなどから修正を行う方法が知られている。
その修正を容易に行う方法もいろいろあり、特開昭58
−140880号公報に記載の技術などが知られてい
る。
【0003】複数のフォーマットの帳票が存在しする場
合に、あらかじめフォーマットを特定する情報を備えて
おり、OCR装置などで読み取った画像データから、表
の外枠線を抽出し、フォーマットを特定するデータと4
隅を対応付ける事で、画像との一致度を評価する。評価
結果からフォーマットを特定し、別途保持しているフィ
ールド情報からフィールド位置を設定し、フィールド中
の文字を認識する技術が、特開平7−220023号公
報に記載されている。
【0004】
【発明が解決しようとする課題】複数のフォーマットに
記載されている大量のデータを文字認識しようとした場
合、特開平7−22023号公報に記載されている技術
を用いれば、フォーマットの特定から文字の記載されて
いるフィールドを特定できるため、非常に有効である。
しかし、文字認識できなかったリジェクトデータに対す
る修正に関しては、特開昭58−140880号公報に
記載されている技術のように、リジェクトデータに対し
て一文字づつ修正を加えているのでは効率が悪い。そこ
で、大量のデータを文字認識しようとした場合は、文字
認識の認識率を設定し、その認識率以上であれば文字認
識されたものとみなす方式が一般的である。そして、手
書き文字の様に文字認識の認識率が低い場合は、文字認
識できなかったリジェクトデータに対して修正を加える
のではなく、1つの文書全てをキーボードなどから入力
する方式が取られている。その際、どの文書が認識率が
低く、入力作業対象文書なのかを知る必要があるが、現
在は文書毎に文字認識結果を知る手段はない。
【0005】本発明の目的は、文書毎の文字認識状態を
管理することにより、文字認識できなかった文書をキー
ボードなどを使った入力作業などをする際に、入力作業
対象文書はどれかを知ることができ、効率良く作業が出
来るシステムを提供することである。
【0006】
【課題を解決するための手段】上記目的を達成するには
以下のような構成とする。
【0007】所定のフォーマット内に記述された文書
を、光学的文字読み取り手段によって読み取り、読み取
った画像データを記録手段に記録し、あらかじめ用意さ
れている複数のフォーマット情報と該画像データを比較
することによりフォーマット種別を特定し、特定された
フォーマット種別によって決定されるフィールドに含ま
れる文字パターンを文字認識手段によってコードデータ
に変換し、あらかじめ設定されている認識率に達してい
るか評価し、該評価結果に基づいて、該文字認識手段に
よる文書毎の認識状態を認識結果管理ファイルとして記
録手段に記録する。また、認識結果管理ファイルの内容
に基づいて、出力内容選択手段により出力内容を選定
し、該認識結果管理ファイルと関連付けされている画像
データを出力する。
【0008】
【発明の実施の形態】本発明の実施の形態を図面を用い
て説明する。
【0009】まず、図1を用いて本発明に係るシステム
構成と処理の概要について説明する。11はスキャナで
あり、紙の文書を読み込み、イメージデータとして出力
する機能を有する。12は光ディスクであり、スキャナ
11から出力されたイメージデータを記憶するために利
用する。当然のことながら、光ディスクではなく、磁気
ディスク・マイクロフィルムなどの記憶手段であればこ
れに限定するものではない。13は文字認識装置であ
り、光ディスク12に記憶されているイメージデータを
コードデータに変換するものである。14はフォーマッ
ト情報記録装置であり、各種フォーマットの罫線の情報
を記憶しており、光ディスク12に記憶されているイメ
ージデータと照合し、フォーマット特定のために必要と
なる。15は文字コード情報記録装置であり、文字認識
装置13により変換されたコード情報を記録するもので
ある。16は、文書毎の文字認識結果などの情報を記録
する管理情報記録装置である。フォーマット情報記録手
段14、文字コード情報記録装置15、管理情報記録装
置16はいづれも磁気ディスク装置などで実現される。
17は、オペレータの為の操作端末である。18はプリ
ンタである。19は各装置の制御を行う制御装置であ
り、CPU、メモリ、業務プログラム等から構成される
ものである。処理手順としては、データ入力する文書を
スキャナ11で読込み、光ディスク12にイメージデー
タとして格納する。制御装置19において、フォーマッ
ト情報記憶装置14とイメージデータとのマッチングを
行い、フォーマットを特定する。特定されたフォーマッ
トのフィールド内を文字認識装置13でコードデータに
変換し、変換したコードデータは、文字コード情報記録
装置15に格納する。文書毎の認識結果については、管
理情報記録装置16に格納する。文字認識が出来ていな
いものについては、端末装置17から管理情報記録装置
16の内容から選択し、プリンタ18へ出力または、端
末装置17のディスプレイに表示する。
【0010】次に地方自治体が管理している戸籍の事務
について、本発明を適用した場合の例について説明す
る。システムの構成は図1に示した通りである。次に各
記憶装置のデータ構成について説明する。
【0011】図2は光ディスク12の内容を示したもの
である。21は光ディスクに格納されるときに付加され
る文書IDである。この文書IDは、各自治体が管理し
ている紙の戸籍簿が戸籍編成単位に戸籍本票を先頭とし
て、戸籍の構成員が増えた場合に用いる戸籍次票、戸籍
構成員の住所の履歴を記載している附票本票および次票
の順番でファイルされているために、戸籍編成単位に付
加される。22は、文書IDの頁をあらわすのもであ
る。23は文書IDの何頁めにどのフォーマットの文書
が格納されたかを示すものである。24はスキャナ11
より出力されたイメージデータが格納されている。
【0012】図3はフォーマット情報記憶装置14の内
容を示したものである。フォーマット36毎に横線38
の始点座標39および終点座標310、縦線311の始
点座標312および終点座標313を記憶している。こ
れらの線で囲まれたフィールドの項目31とそのフィー
ルドがどの線で構成されているのかを上線32、下線3
3、左線34、右線35によって決定する。また、当該
フォーマットが文字認識された際に、その文字認識状態
の合否を判定するための許容認識率37も保持してい
る。
【0013】図4は、管理情報記録装置の内容を示した
ものである。41は文書ID、42は文書IDが付加さ
れたフォーマットの認識状態42であり、本実施の形態
では1を認識、0を認識不能とする。43は頁数であ
り、文書IDが何頁あるのかを示している。44は頁単
位フォーマットであり、文書IDに含まれる各頁がどの
フォーマットであるのかを示している。
【0014】図5は、文字コード情報記録装置15の内
容を示したものである。51は文書ID、52はフォー
マットである。53はフォーマットにのフィールドに当
たる項目であり、54はその記載内容である。55は記
載内容が文字認識された際の認識率である。この場合の
認識率とは、文字認識できた文字数を読み込む対象とな
る全文字数で割ったものに100を掛けたものとしてい
るが、複数の文字を一単位にして認識率を算出しても良
いし、文書のある項目を一単位にして認識率を算出して
も良い。
【0015】図7は、読み込ませる戸籍のイメージをあ
らわしたものでり、図7(a)は戸籍本票のイメージで
あり、図7(b)は戸籍次票のイメージである。
【0016】図8は、同じく読込ませる附票のイメージ
をあらわしたものであり、図(a)は附票本票のイメー
ジであり、図8(b)は附票次票のイメージである。
【0017】次に、図6のフローチャートに従って処理
の詳細を説明する。
【0018】まず、図7および図8に示すような所定の
フォーマットに記載されている文書をスキャナ11によ
って読込ませる(ステップ61)。
【0019】読込んだ画像データに戸籍編成単位で文書
IDを付加する。その際、図2に示すように各頁がどの
ようなフォーマットであるのかを、端末装置17より2
2および23に入力しておく(ステップ62)。
【0020】読込んだ画像データを光ディスク12のイ
メージデータ24に格納する(ステップ63)。読込ま
せる文書が存在するかのチェックを行い、文書が残って
いる場合は、ステップ61から62の処理を繰り返し、
文書が残っていなければステップ65の処理へ進む(ス
テップ64)。画像データを光ディスク12から読み出
し、制御装置19のメモリに格納する。フォーマット情
報記憶装置14のフォーマットデータを読み出し、メモ
リ上の画像データとの比較を行う。詳細な手順について
は、従来の技術で記載したように特開平7−22023
号公報に記載されている通りであるため、概要程度の説
明に止めておく。まず、画像データより表の外枠線を抽
出する。この外枠線を基準として、フォーマット情報記
憶装置14内から順次フォーマットデータを読み出し、
フォーマットの4隅を抽出した外枠線の4隅と対応付け
る。そのことにより、図3の罫線情報(38〜313)
であらわされる罫線を画像上に座標変換し、画像との一
致度を評価する。評価結果から複数のフォーマットの内
のいずれであるのかを判定する(ステップ65)。
【0021】次に、図3に示すように、フォーマットの
罫線情報(上線32・下線33・左線34・右線35)
基に罫線で囲まれるフィールドを特定する。そして、そ
のフィールド内に記載されているイメージを文字認識装
置13において文字認識する(ステップ66)。ステッ
プ66の文字認識装置13による文字認識結果およびそ
の認識率を、文字コード情報記録装置15の記載内容5
4、認識率55に格納する。当然のことながら、文書I
D51、フォーマット52は光ディスク12の文書ID
21、フォーマット23を転記し、項目53はフォーマ
ット情報記憶装置14の31から転記する(ステップ6
7)。ステップ65から67の処理を文書IDのフォー
マット数だけ繰り返す(ステップ68)。1つの文書I
Dの文字認識処理が終了したところで、ステップ67で
格納した文字コード情報記録装置15の認識率55をフ
ォーマット毎に平均値を算出し、算出した値がフォーマ
ット情報記憶装置14の許容認識率37の値に達してい
るかどうか判断する。すべてのフォーマットについて許
容認識率37に達していれば、管理情報記憶装置16の
認識状態42にフラグを立てる。本実施の形態では、
“1”を認識状態とし、“0”を認識できていない状態
としてあらわすものとする。ここで、文書ID41、頁
数43、頁単位フォーマット54は、光ディスク12の
文書ID21、頁22、フォーマット23をそれぞれ転
記する(ステップ69)。1つの文書IDについて終了
したら、光ディスク12に処理していない画像データが
あるかをチェックする。画像データが残っていればステ
ップ65から処理を繰り返し、データが無ければステッ
プ611へ処理を移す。(ステップ610)編集した管
理情報を基に必要な情報を出力する。例えば、文字認識
できていない物のみを出力する場合、端末装置17より
管理情報記録装置18の認識状態42が0のデータの出
力命令を出すと、制御装置19は文書ID41をキーと
して、光ディスク12から該当するデータ抽出し、端末
装置17またはプリンタ18に出力する。この他にも、
附票は手書きされている場合が多いため、認識率が低く
なる。そのような場合、端末装置17より附票本票、附
票次票の出力を指示する。制御装置19は文書ID41
とその文書IDの何頁に附票のデータがあるのかを頁単
位フォーマットから算出し、該当するデータを光ディス
ク12から抽出し、端末装置17またはプリンタ18に
出力する(ステップ611)。
【0022】
【発明の効果】本発明によれば、文書毎の文字認識状態
を管理することが出来るため、管理情報を基にして必要
となる画像データのみをフォーマット毎に出力すること
が可能となる。そのため、複数のフォーマットに記載さ
れている大量のデータを文字認識しようとした場合に必
要な、文字認識できなかった文書をキーボードなどから
入力する作業において、入力作業対象文書のみを出力す
ることによって、作業を効率良く行うことが可能とな
る。
【図面の簡単な説明】
【図1】本発明の一実施例に係るシステム構成図であ
る。
【図2】本発明による光ディスクに記憶されたデータ構
成図である。
【図3】本発明によるフォーマット情報記録装置の内容
を示した図である。
【図4】本発明による管理情報記録装置の内容を示した
図である。
【図5】本発明による文字コード情報記録装置の内容を
示したものである。
【図6】本発明による処理の内容を示した処理フロー図
である。
【図7】本発明により使用する戸籍情報のイメージを表
した図である。
【図8】本発明により使用する附票のイメージを表した
図である。
【符号の説明】
11 スキャナ 12 光ディスク 13 文字認識装置 14 フォーマット情報記憶装置 15 文字コード情報記憶装置 16 管理情報記憶装置 17 端末装置 18 プリンタ 19 制御装置

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】所定のフォーマット内に記述された文書
    を、光学的文字読み取り手段によって読み取り、読み取
    った画像データを記録手段に記録し、あらかじめ用意さ
    れている複数のフォーマット情報と該画像データを比較
    することによりフォーマット種別を特定し、特定された
    フォーマット種別によって決定されるフィールドに含ま
    れる文字パターンを文字認識手段によってコードデータ
    に変換し、あらかじめ設定されている認識率に達してい
    るか評価し、該評価結果を該文字認識手段による文書毎
    の文字認識状態として認識結果管理ファイルに記録する
    ことを特徴とする文字認識状態の管理方法。
JP8242931A 1996-09-13 1996-09-13 文字認識状態の管理方法 Pending JPH1091719A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8242931A JPH1091719A (ja) 1996-09-13 1996-09-13 文字認識状態の管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8242931A JPH1091719A (ja) 1996-09-13 1996-09-13 文字認識状態の管理方法

Publications (1)

Publication Number Publication Date
JPH1091719A true JPH1091719A (ja) 1998-04-10

Family

ID=17096354

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8242931A Pending JPH1091719A (ja) 1996-09-13 1996-09-13 文字認識状態の管理方法

Country Status (1)

Country Link
JP (1) JPH1091719A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004178107A (ja) * 2002-11-25 2004-06-24 Canon Inc 帳票処理装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004178107A (ja) * 2002-11-25 2004-06-24 Canon Inc 帳票処理装置

Similar Documents

Publication Publication Date Title
JPH03161873A (ja) データベース構築機能を有する電子フアイリング装置
JP4983464B2 (ja) 帳票画像処理装置及び帳票画像処理プログラム
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
CN111860450A (zh) 票证识别装置以及票证信息管理系统
JP3458001B2 (ja) 画像ファイル装置
JPH1091719A (ja) 文字認識状態の管理方法
JPH0126088B2 (ja)
CN112149679A (zh) 一种基于ocr文字识别提取公文要素的方法及装置
JP4592447B2 (ja) 画像データファイリングシステム
JP2825273B2 (ja) 図面管理方法及び装置
JPS594358Y2 (ja) 文字修正における文字制御装置
JPH10154191A (ja) 帳票識別方法及び装置並びに帳票識別プログラムを記録した媒体
JPH106602A (ja) 申請書発行装置
JPH05108794A (ja) 電子フアイリング装置
JPH07200722A (ja) 情報記録装置
JPS61198376A (ja) 光学的文字読取装置
JPH1145088A (ja) 楽譜認識方法及び楽譜認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001043211A (ja) 文書データの一括管理方法、文書作成装置、文書管理データファイル、および文書データの一括管理プログラムの記録媒体
JP2001084330A (ja) マーク訂正確認システム、方法、確認用プログラム記録媒体
JPH10154157A (ja) 電子ファイリングシステム
JPH09218741A (ja) 情報処理装置及びその制御方法
JPH07262357A (ja) 電子ファイリング装置
JPH0981672A (ja) 文書読取装置
JPH11224308A (ja) 文字認識装置及びその方法
JP2005115572A (ja) 帳票処理装置、帳票処理方法、及び帳票処理プログラム