JPH0962778A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH0962778A
JPH0962778A JP7242432A JP24243295A JPH0962778A JP H0962778 A JPH0962778 A JP H0962778A JP 7242432 A JP7242432 A JP 7242432A JP 24243295 A JP24243295 A JP 24243295A JP H0962778 A JPH0962778 A JP H0962778A
Authority
JP
Japan
Prior art keywords
frame
recognized
character
ruled line
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7242432A
Other languages
English (en)
Inventor
Masahiro Sakurai
雅寛 櫻井
Koichi Higuchi
浩一 樋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP7242432A priority Critical patent/JPH0962778A/ja
Publication of JPH0962778A publication Critical patent/JPH0962778A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【解決手段】 表示部7に表示された文書イメージ11
には文字が記入されているが、これらの文字は例えば予
め罫線18によってブロック毎に区分されている。ここ
で、オペレータがデータ化すべき文字認識領域14を指
定すると、装置は自動的に縦横2本の罫線18を認識
し、その結果を表示する。オペレータがこの両方の罫線
18を確認し指示入力すると、装置は文字認識領域14
を4つのブロックに分割し、ブロック毎に文字認識を行
いデータ化する。罫線18が記入されていない場合で
も、罫線18が存在すべき場所を認識し、その結果が表
示される。 【効果】 認識処理のための領域にあるデータの境界を
自動的に検出し、自動的にブロック単位のデータ認識を
行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、一旦読み込んだ文
書イメージ中から指定された領域の文字を認識処理する
機能を持つ文字認識装置に関する。
【0002】
【従来の技術】文書に記載された各種の文字を情報処理
装置に文字情報として取り込む場合に、文字が記載され
た部分のイメージを読み取って文字を認識処理する方法
がある。また、このとき、一旦文書のイメージ全体を読
み取ってオペレータが特定の領域を指示することによっ
てその領域の文字認識を行うといった方法もある(特開
平4−5779号公報)。ここでは、ディスプレイに文
書イメージを表示するとともに、ポインティングデバイ
ス等を用いて認識すべき領域を指定する。この指定方法
は、一般に長方形の対角頂点である2点を指定する方法
がよく知られている。この長方形に囲まれた領域が装置
による文字認識の対象となり、この領域中にある文字を
1文字ずつ切り出してパターン認識等の手法によって文
字を認識し該当する文字コードを得る。
【0003】
【発明が解決しようとする課題】ところで、文書イメー
ジ中の文字を認識するだけでなく、その文書イメージ中
の各部に記載された文字をそれぞれ区別して認識する要
求があるような場合に、従来の装置には次のような解決
すべき課題があった。例えば、文書イメージ中に記載さ
れた4つの文字群が、それぞれ罫線等で枠によって囲ま
れているものとする。このような文書イメージを読み込
んで各文字を認識しデータとして取り込む場合には、各
文字はその罫線に囲まれたブロック単位でデータ化した
い。このようなとき、文書イメージ中の文字を一括して
認識してしまっては、後で認識したデータ中に手入力で
カンマを挿入するような作業が必要となる。
【0004】そこで、従来、このような罫線を予め意識
して1ブロック毎に認識領域を指定し、文字を認識さ
せ、そのような認識処理を繰り返すといった方法が採用
されていた。ところが、このような作業は、特に罫線が
多く、多数のブロックが存在する場合には非常に煩雑な
作業となる。また、明確に枠を記入していないような文
書イメージであっても、枠を想定してデータを認識させ
たい場合がある。このような場合、罫線がないと認識す
べき領域を指定する作業も煩雑な作業になり、領域指定
を誤ると不要な文字を含めて誤ったデータの認識をした
り、必要な文字が削られることによって誤ったデータが
取り込まれるといったおそれがあった。
【0005】
【課題を解決するための手段】本発明は以上の点を解決
するために次の構成を採用する。 (構成)本発明の文字認識装置は、予め読み取られた文
書イメージを表示する表示部と、この文書イメージを所
定の方向に繰り返し走査して、その走査線上の黒ドット
数を比較することにより、文書中に設定された枠を認識
し、認識された枠を文書イメージ上で表示する枠認識処
理部と、認識されて表示された枠を構成する各罫線を個
別に指示して、認識された枠の全部または一部により構
成される新たな枠を指定する指示入力部と、指示入力部
により指定された枠の各罫線に囲まれた文字群を、それ
ぞれ1ブロックの認識対象として認識処理する文字認識
部とを備える。
【0006】(説明)文書イメージは、その文書中の枠
を指定するために表示部に表示される。文書イメージの
走査方向は、文書に記載された枠を検出し易い方向で、
通常、縦方向と横方向の2方向が設定される。繰り返し
走査は、枠の罫線部分を検出するためだから、走査線が
認識すべき枠を飛び越さない程度のピッチで走査線をず
らしながら行うことが好ましい。黒ドット数を比較する
というのは、直接黒ドット数を順に比較して極大値をと
る部分を探すほか、白ドット数を数えて間接的に黒ドッ
ト数を認識する場合を含む。また、ここでは、文書中に
罫線を全く記入していなくても、データの区切りとして
認識できる余白部分も、設定された枠に含めることにす
る。この場合には、黒ドット数が極小値をとる部分が仮
想的な枠と認識される。
【0007】認識された枠を文書イメージ上で表示する
には、枠を他の部分と区別できる色で表示したり、認識
した枠の罫線に適当なマークを付ける場合を含む。指示
入力部は、表示画面上で任意の位置にカーソルを移動さ
せてマウスボタンをクリックするようなもののほか、ラ
イトペンやデジタイザやキーボード等による特定の領域
の指定等、任意の位置指定手段を含む。枠を構成する罫
線の指示は、必要な罫線を直接指示するほか、不必要な
罫線を指示して必要な罫線を残すようにする方法もあ
る。
【0008】認識された枠の全部により構成される枠を
指定するのは、認識された枠をそのまま採用する場合で
ある。また、その一部により構成される新たな枠を指定
するのは、不要な枠を除外するためである。罫線に囲ま
れた文字群は、一括して認識処理されて、一連の文字コ
ードとされる。1ブロックの認識対象というのは、この
一連の文字コード群を得る文字群のことをいう。罫線に
囲まれた1個の枠中のデータを1ブロックのデータとし
て取り扱うためである。
【0009】(構成)なお、枠認識処理部は、指示入力
部により既に指示した罫線と、指示されていない罫線と
を、互いに区別できるように表示することが好ましい。 (説明)互いに区別できるように表示するとは、例えば
その罫線を異なる色で表示したり、高輝度表示をした
り、異なる線種で表示する場合を含む。
【0010】(構成)また、指示入力手段は、枠認識処
理部が認識した罫線以外の罫線を追加することが好まし
い。 (説明)枠認識処理部が認識した罫線以外の罫線とは、
枠認識処理部で認識できなかった罫線の他、新たに利用
者が追加を希望する罫線を含む。
【0011】
【発明の実施の形態】以下、本発明の実施の形態を具体
例を用いて説明する。図1は、本発明の装置の具体例ブ
ロック図である。この装置は、画像記憶部1、文字切り
出し部2、文字認識部3、制御部4、指示入力部5、枠
認識処理部6、表示部7及び行位置検出部8等から構成
されている。画像記憶部1は、図示しないイメージリー
ダ等によって読み取られた文書イメージ9を格納してお
く部分である。制御部4は、装置の全体の動作を制御す
るプロセッサ等から構成される。表示部7には、画像記
憶部1に記憶された文書イメージ9が表示される。この
状態で、オペレータは、文書イメージ中の文字を自動認
識してデータ化すべき領域を指定する。この領域のこと
を図では文字認識領域14というように表示している。
【0012】指示入力部5は、このような文字認識領域
14の指定や後で説明する枠を構成する罫線の指示、そ
の他各種の命令等を装置に入力するための、マウス等の
ポインティングデバイスやキーボード、ライトペン、デ
ジタイザ等の装置から構成されている。行位置検出部8
は、文字認識領域中の文字行のある位置を検出して、走
査範囲を枠認識処理部6に伝える部分である。文字切り
出し部2は、行位置検出部8の出力を受け入れて入力し
た文書イメージを文字単位で切り出し、文字認識部3に
向け出力する部分である。文字認識部3は1文字毎に予
め用意した図示しない辞書を参照しながらパターン認識
をし、文字に対応する文字コードを得てデータとして出
力する部分である。なお、文字切り出し部2、文字認識
部3等は従来の装置に使用されたものと同様の構成であ
って、更に詳細な説明は省略する。
【0013】枠認識処理部6は、表示部7に表示された
文書イメージ9からそのイメージデータ中の黒ドット分
布によって枠の存在を検出する部分である。黒ドット抽
出部6−1は、その目的のために文書イメージを所定の
方向に繰り返し走査して走査線上の黒ドット数を得る部
分である。また、枠検出部6−2は、その各走査線の黒
ドット数を比較して、文書中に設定された枠を認識する
部分である。また、ブロック分割部6−3は、最終的に
確定した枠を構成する罫線により囲まれた部分を1ブロ
ックとし、その1ブロック中の文字群が文字認識の対象
となるように、文字認識部3に向けてイメージを送り出
す処理を行う部分である。
【0014】なお、例えばこの図1に示すような文書イ
メージ9が表示部7に表示されている場合、予めオペレ
ータが文字認識領域14を指定すると、枠認識処理部6
は自動的に文書イメージ9の中に記載された横2本縦1
本の3本の罫線18を認識する。そして、その認識結果
を画面上に表示する。オペレータはマウス等を用いてカ
ーソル15を動かし、認識された罫線18のうち文字認
識領域14の中でブロックを分割するために必要な横1
本、縦1本の罫線のみを指示する。これによって、枠が
決定する。
【0015】図2には、上記枠認識処理部6の動作説明
図を示す。上記のように文書イメージ中から枠を認識す
るためには、例えばこの図に示すような処理が実行され
る。まず、図(a)に示すように、文字Aが横に並んだ
文字列と、文字Bが横に並んだ文字列と、文字Cが横に
並んだ文字列の間に2本の罫線18が引かれているもの
とする。この場合に、例えば走査線13を罫線18と平
行な方向にその方向を設定し、繰り返しその走査位置を
1ライン分ずつ垂直方向に移動させながら、黒ドット数
をカウントする。その結果は図(a)の左側に示すよう
になる。
【0016】この左側のグラフは、横方向に黒ドット
数、縦方向に走査線13の走査位置を示したヒストグラ
ムにより構成される。このように黒ドット数の増減をヒ
ストグラムに表すと、その極大値を示す位置が罫線18
の位置となる。この時ある閾値以上の極大値しかとらな
いようにしておくと微小な極大値を罫線と判定すること
がなくなり更によい。このようにして罫線18の認識が
できる。(b)は、その結果、実際に文書イメージ中に
描かれた枠を構成する罫線18を検出したヒストグラム
の状態を示している。一方、本発明では、このように具
体的に罫線が引かれていない場合でも文字間の境界を認
識し、そこに仮想的な罫線が存在するとして文字枠を認
識する。(c)はその例で、ヒストグラム17を得て、
その極小値を示す部分に仮想的な罫線18を認識する。
極小値を示す部分の幅がある閾値以上であれば、その中
点をとる。この時の閾値はオペレータ若しくは装置によ
り予め指定される。これによって、実際に罫線が引かれ
ていない部分も罫線があるものとして認識し、図1に示
す表示部7にはその結果を表示する。なお、図2に示し
た例は、水平方向の走査線によって、水平方向の罫線を
検出した場合のみを説明したが、垂直方向の罫線につい
ても全く同様の手法で検出できる。なお先の極小値を示
す幅の閾値を水平、垂直方向で別々にとれると文字間に
不必要な罫線を認識することがなくなり都合がよい。
【0017】図3には、上記のような枠を構成する罫線
の表示方法の例を2種類示した。(a)は、実際に罫線
が描かれていた場合も仮想罫線を認識した場合にも採用
できる方法で、罫線が存在すべき部分の両端にマーク2
1を表示している。このマーク21を結ぶ罫線18が装
置によって認識された罫線である。マーク21のほかに
罫線18を特別な色のラインで表示したり、その他の表
示を行うようにしてもよい。なお、元々文書イメージ中
に罫線が引かれていた場合には、マーク21を他の部分
と区別できるような色や形にして、その罫線を認識した
ということをオペレータに伝えるようにすればよい。
【0018】(b)は、予め罫線が引かれていない場合
に、仮想的な罫線を認識した際の表示に適する方法で、
この場合には、具体的に罫線18を文字群の間に引くこ
とによってオペレータに認識した結果を知らせる。な
お、このような罫線は、文字認識領域14の中に1本で
も2本以上でも、任意の数だけ表示してよい。
【0019】再び、図1に戻って、装置により認識され
た罫線は以上説明した通り、表示部7に文書イメージ9
とともに表示される。ここで、オペレータは必要な罫線
と不必要な罫線とを区別し、例えばこの図では文字認識
領域14を4つに区切る縦横1本ずつの罫線18を必要
な罫線として指定する。この場合に、文字認識領域14
の下辺に沿ったもう1本の罫線18を不要な罫線と指定
して削除するといった指定の仕方も可能である。こうし
て、2本の罫線が確定すると、文字認識領域14は4つ
のブロックに分割される。ブロック分割部6−3は、こ
うして分割した各ブロック中の文字群のイメージを切り
出し、文字認識部3に向け出力する。これによって、そ
の後のブロック単位の文字認識が可能となる。
【0020】図4と図5によって、本発明の装置の具体
的な利用例を説明する。例えば、図4に示す例は、シー
ト上に多くの文字がそれぞれ適当な文字群を構成しなが
ら記載されているものとする。この場合に、シート上で
互いに隣接した場所、あるいは少し離れた場所で、2個
の文字認識領域14を指定する。ここで、各文字群の間
に罫線を引いてブロック分けをしようとすれば、従来の
技術ではカーソルを移動して図に示すようなラインL
1,L2,L3といったラインの中から丁度上下の文字
群に重ならないラインL2を選択してこれを罫線に設定
する。
【0021】ところが、例えばこのような文字群全てを
表示できるような大きなディスプレイを持たないような
装置では、ラインL2の位置を正確に選定するのが非常
に難しい。一方、本発明の装置では、自動的にラインL
2を黒ドットの分布の極小値等によって認識し設定でき
る。従って、このようなブロック分割の走査も非常に容
易にできるようになる。なお、図に示した縦方向のライ
ンL4,L5等も同様にして自動的に認識される。も
し、ラインL4,L5等が不要であれば、先に説明した
ように必要なラインのみを選択すればよい。
【0022】図5では、本発明の装置により、例えば表
計算ソフトウェアで広く利用されている表計算用スプレ
ッドシートのデータを得る例を説明する。この例では、
従業員コードと従業員氏名を対応させて記入したレポー
ト用紙等のデータシート25を用いて、その表計算用ス
プレッドシートのデータ化を行う説明をする。このデー
タシート25は一般のレポート用紙のようなもので、例
えば横方向にのみ罫線が引かれている。ここに左側に従
業員コード、右側に氏名を少し間を空けて記入したもの
がある。この場合に、本発明の装置を利用すれば、その
文書イメージを読み込んで、丁度従業員コードと氏名と
の間に仮想的な罫線を認識する。
【0023】これによって、従業員コードと氏名とが別
々のブロックに分かれる。これらは、表計算用スプレッ
ドシートのカラムC1,C2,C3,C4に、それぞれ
別々のデータとして入力される。このようなデータを得
るために、本発明の装置は有効に利用される。なお、文
字認識部3の出力は、文字コードが連続するもので、ブ
ロック毎に認識された文字コードが順に出力される場
合、その間に自動的にカンマ等を挿入することによっ
て、データがそのまま表計算用スプレッドシートにその
まま入力できるような形式に選定できる。
【図面の簡単な説明】
【図1】本発明の装置の具体例ブロック図である。
【図2】枠認識処理部の動作説明図である。
【図3】罫線表示例説明図である。
【図4】本発明の装置の利用例説明図(その1)であ
る。
【図5】本発明の装置の利用例説明図(その2)であ
る。
【符号の説明】
1 画像記憶部 2 文字切り出し部 3 文字認識部 4 制御部 5 指示入力部 6 枠認識処理部 7 表示部 8 行位置検出部 9 文字イメージ 18 罫線

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 予め読み取られた文書イメージを表示す
    る表示部と、 この文書イメージを所定の方向に繰り返し走査して、そ
    の走査線上の黒ドット数を比較することにより、文書中
    に設定された枠を認識し、認識された枠を前記文書イメ
    ージ上で表示する枠認識処理部と、 認識されて表示された枠を構成する各罫線を個別に指示
    して、認識された枠の全部または一部により構成される
    新たな枠を指定する指示入力部と、 指示入力部により指定された枠の各罫線に囲まれた文字
    群を、それぞれ1単位の認識対象として認識処理する文
    字認識部とを備えたことを特徴とする文字認識装置。
  2. 【請求項2】 枠認識処理部は、指示入力部により既に
    指示した罫線と、指示されていない罫線とを、互いに区
    別できるように表示することを特徴とする請求項1記載
    の文字認識装置。
  3. 【請求項3】 指示入力手段は、枠認識処理部が認識し
    た罫線以外の罫線を追加することを特徴とする請求項1
    記載の文字認識装置。
JP7242432A 1995-08-28 1995-08-28 文字認識装置 Pending JPH0962778A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7242432A JPH0962778A (ja) 1995-08-28 1995-08-28 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7242432A JPH0962778A (ja) 1995-08-28 1995-08-28 文字認識装置

Publications (1)

Publication Number Publication Date
JPH0962778A true JPH0962778A (ja) 1997-03-07

Family

ID=17089013

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7242432A Pending JPH0962778A (ja) 1995-08-28 1995-08-28 文字認識装置

Country Status (1)

Country Link
JP (1) JPH0962778A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009151803A (ja) * 2009-01-29 2009-07-09 Dainippon Printing Co Ltd 記入情報処理システム、プログラム及び電子ペン用帳票
WO2010134919A1 (en) * 2009-05-21 2010-11-25 Hewlett-Packard Development Company, L.P. Generation of an individual glyph, and system and method for inspecting individual glyphs

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009151803A (ja) * 2009-01-29 2009-07-09 Dainippon Printing Co Ltd 記入情報処理システム、プログラム及び電子ペン用帳票
WO2010134919A1 (en) * 2009-05-21 2010-11-25 Hewlett-Packard Development Company, L.P. Generation of an individual glyph, and system and method for inspecting individual glyphs
CN102439607A (zh) * 2009-05-21 2012-05-02 惠普开发有限公司 单独图示符的生成和用于检查单独图示符的系统和方法
US8818047B2 (en) 2009-05-21 2014-08-26 Hewlett-Packard Development Company, L.P. Generation of an individual glyph, and system and method for inspecting individual glyphs

Similar Documents

Publication Publication Date Title
US5123062A (en) OCR for sequentially displaying document layout according to recognition process
EP0585944B1 (en) Method and apparatus for displaying characters
US6282316B1 (en) Image processing method and apparatus that use handwritten gestures for editing
US6504540B1 (en) Method and apparatus for altering one or more attributes of one or more blocks of image data in a document
US5233672A (en) Character reader and recognizer with a specialized editing function
JPH0962778A (ja) 文字認識装置
JP3422634B2 (ja) 手書き文字認識方法及び装置
JP3113747B2 (ja) 文字認識装置及び文字認識方法
JPH0962786A (ja) 文字認識装置
JPH08202856A (ja) 画像処理方法
JPS6337487A (ja) 文字認識装置
JPH0573725A (ja) 手書き文字・図形認識装置
JPH07249098A (ja) 情報処理装置および情報処理方法
JPH103516A (ja) 情報処理方法及び装置
JP2994176B2 (ja) 罫線入力装置
JP3145265B2 (ja) 文字認識装置
JPH0782522B2 (ja) 文書読取装置
JPH06337957A (ja) 手書き文字入力装置及び修正記号認識方法
JPH045779A (ja) 文字認識装置
JPS63115283A (ja) 文字認識装置における認識結果修正画面の表示方法
JPH08335245A (ja) 文書読取装置
JPH06119486A (ja) 文字認識装置および表示方法
JP2004357197A (ja) 帳票処理装置、及びプログラム
JPH10134120A (ja) 表処理方法および表処理装置
JP2001307020A (ja) 文字認識装置