JPH04156694A - 文字認識方式 - Google Patents

文字認識方式

Info

Publication number
JPH04156694A
JPH04156694A JP2282633A JP28263390A JPH04156694A JP H04156694 A JPH04156694 A JP H04156694A JP 2282633 A JP2282633 A JP 2282633A JP 28263390 A JP28263390 A JP 28263390A JP H04156694 A JPH04156694 A JP H04156694A
Authority
JP
Japan
Prior art keywords
character
ruled
recognition
line
ruled lines
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2282633A
Other languages
English (en)
Other versions
JP2803736B2 (ja
Inventor
Yutaka Katsuyama
裕 勝山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2282633A priority Critical patent/JP2803736B2/ja
Priority to US07/668,541 priority patent/US5191612A/en
Publication of JPH04156694A publication Critical patent/JPH04156694A/ja
Application granted granted Critical
Publication of JP2803736B2 publication Critical patent/JP2803736B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概   要〕 罫線をも含む画像から文字コードを発生する文字認識方
式に関し、 文字と罫線を共に文字コードに変換する文字認識方式を
提供することを目的とし、 認識すべき画像情報が加わり、該画像情報から罫線の座
標を抽出する罫線抽出手段と、該罫線抽出手段で抽出さ
れた罫線を除いた領域から文字を認識する文字認識手段
、前記罫線抽出手段の結果と前記文字認識手段の結果と
から罫線コードを含む文字コードで出力するv2識結果
出力手段とを有するように構成する。
〔産業上の利用分野〕
本発明は文書等の文字を読み取る文字読み取り装置に係
り、更に詳しくは罫線をも含む画像から文字コードを発
生する文字認識方式に関する。
〔従来の技術〕
文字読み取り装置においては、文字と共に罫線を認識す
る技術が要求されている。
罫線を含んだ文字認識には罫線だけを抽出した後に文字
を抽出する方法がある。この方法は先に罫線を抽出し、
罫線にあたる画像を原画像から除去した後文字を抽出し
ている。この場合罫線の誤抽出による原画像の誤消去が
起きる場合があり、罫線と文字の位置関係を管理する必
要がある。
また罫線を抽出した後、原画像上で罫線の存在位置を避
けながら文字を抽出する方法がある。この方法には文字
の抽出を罫線に囲まれている矩形単位で行うものと文字
の抽出を1原画単位で行うものとがある。1矩形単位で
行う場合には、罫線を表示し罫線で囲まれた領域毎に文
字抽出認識を行い、文字を罫線で囲まれている領域に埋
めていく方式であり、罫線と文字の位置関係を管理する
必要がある。また、文字の抽出を1原画単位で行う場合
には表示は1折重位で、罫線の存在するところでは罫線
の種類に応じた記号とし、認識した文字はそのままコー
ドとしている。
罫線と文字とを同時に抽出する方法では、必ず1折重位
で処理を行う。すなわち−行切り出しを行い罫線と文字
とを分離し、罫線は罫線の種類に応じた記号を、文字は
認識結果記号としている。
この方式においては、表示後に整形が必要であり、前述
の1文字の抽出を1折重位で行う場合と比べ、罫線認識
の前処理が不必要な分だけ高速化することができる。
一方、罫線抽出方法には i)2値化画像データ全体を対象にして縦罫線要素(プ
リミティブ)を抽出して、それを繋ぎ合わせて全体の罫
線を構成する方法と 1i)2値化画像データ全体を対象にして傾き対応のた
め全体を縦に短冊状に区分けして横ヒストグラムをとり
、全体を横に短冊状に区分して縦ヒストグラムをとり、
短冊毎の罫線候補線を見つけてそれの隣接状態から罫線
候補線の接続を決め、全体の罫線を求める方法とがある
〔発明が解決しようとする課題〕
前述した従来の文字認識方式においては、罫線の認識で
罫線をグラフィックデータとして扱っているため、その
ままでは通常の文章コードとしてワードプロセッサ等に
直接入力することができないという問題を有していた。
また、このため、ワードプロセッサ等に使用する場合に
は、文字の間に罫線用の文字コードを入れる適応ソフト
プログラムを必要とした。
本発明は文字と罫線を共に文字コードに変換する文字認
識方式を提供することを目的とする。
〔課題を解決するための手段〕
第1図は本発明の原理ブロック図である。
罫線抽出手段1は認識すべき画像情報が加わり、該画像
情報から罫線の座標を抽出する。また、この前述罫線抽
出手段1は罫線を抽出すると共にその抽出した罫線の傾
きをも求める。
文字認識手段2は前記罫線抽出手段1で抽出された罫線
を除いた領域から文字を認識する。この文字の認識は各
行の領域を判断して1折重位で行う。また、文字認識手
段2はこの罫線抽出の傾きに対応して行め領域を求め、
その行内の文字を認識する。
認識結果出力手段3は前記罫線抽出手段1の結果と前記
文字認識手段2の結果とから罫線コードをも含む文字コ
ードを出力する。
〔作  用〕
罫線抽出手段1は入力する画像情報から罫線を認識する
と共にその罫線の座標を抽出する。その抽出した結果と
画像情報とは文字認識手段2に加わり、文字U!識手段
2は罫線が位置する座標を除いた領域から文字を認識す
る。この文字認識手段2で認識した結果と前記罫線抽出
手段1で抽出した罫線の座標とが認識結果出力手段3に
加わり、認識結果出力手段3は罫線コードを含む文字コ
ードでその結果を出力する。罫線抽出手段2の出力は例
えば行単位であり、この罫線抽出手段2によって傾き等
が考慮されて加わり、認識結果出力手段3は罫線と入力
画像の斜め傾きとに対応して文字と罫線とをコード化す
る。
本発明によれば罫線と文字とを共に文字コードで出力す
ることができる。
[実  施  例〕 以下、図面を用いて本発明の詳細な説明する。
第2図は本発明の実施例のシステム構成図である。認識
装置10は制御部10−1、文字切出し処理部10−2
、認識処理部10−3、イメージメモリ10−4〜10
−6より成る。
制御部10−1は文字切出し処理部10−2、認識処理
部10−3、イメージメモリ10−4〜10−6を制御
すると共に外部装置、例えばパソコン11に対しレイア
ウトイメージデータ認識結果等を出力する。またパソコ
ン11からはオペレータの指示によって入力した制御コ
マンド等が入力する。パソコン11には表示&キ一部1
2が接続しており、入力するレイアウトや前述のレイア
ウトイメージデータ認識結果の表示をパソコン11は表
示&キ一部12に出力する。また、オペレータからの要
求に対応した起動コマンドや認識領域設定等の情報が表
示&キ一部12より加わりパソコン11はそれらを制御
コマンドとして制御部10−1に加える一方、パソコン
11から加わる制御コマンドが例えば文字切出しの指示
であったならば文字切出し処理部10−2に対し文字領
域の切り出しの制御を行う。また、認識の指示であった
ならば、認識処理部10−3に対し文字認識の制御を行
う。なお、この時の文字認識を行うためのデータはイメ
ージメモリ10−4〜10−6に格納されている情報で
ある。
認識装置10にはスキャナ13が接続されており、制御
部10−1からの読み取りコマンド等に対しイメージデ
ータを読み取り、認識袋W10に出力する。この読み取
ったイメージデータがイメージメモリ10−4〜10−
6に格納され、認識処理が成されるのである。
以下では、更に本発明の実施例の動作を詳細に説明する
第3図は本発明の実施例の処理フローチャートである。
L’2識処理を開始すると先ずスキャナを動作させ、読
み取るべきイメージをイメージメモリ10−4に取り込
む。さらに詳細に説明するとオペレータのキー操作によ
って制御コマンドがパソコン11に加わり、さらにパソ
コンからその制御コマンドが制御装置10に加わって、
スキャナ13に対しイメージデータを認識装置10内の
イメージメモリ10−4に格納するコマンドが出力され
る。そしてスキャナ13がこのコマンドに対応したイメ
ージデータを取り込んでイメージメモリ10−4に格納
する(Sl)。イメージメモリ10−4に格納されたイ
メージデータは制御部10−1によって1/8圧縮画像
となる。1/8の圧縮画像データはイメージメモリ10
−5に格納される。そしてこのイメージメモリ10−5
に格納した圧縮画像データを読み取ってパソコン11に
出力する。パソコンはその1/8圧縮画像を表示&キ一
部12に表示する。この表示からオペレータは認識すべ
き範囲を指定し、パソコン11はその範囲を認識装置1
0に出力する(S2)。
第4図はレイアウトイメージ範囲指定の説明図である。
1/8圧縮画像を表示&キ一部12が表示し、点線DP
LI〜DPL4の如くオペレータはパソコンに対しこの
4本の線で囲まれた領域を認識する範囲として入力する
。これにより、その情報が制御部10−1に加わり、以
後はその領域に対する処理を実行する。
先ず罫線抽出を行う(S3)。パソコン11からオペレ
ータが1/8画像上で指定した範囲に相当する原画像の
範囲で罫線抽出を行い(S3)、縦/横罫線の原画像上
の座標(縦/横の開始座標並びに終了座標)を格納する
。続いて行傾きの決定を行う(S4)。この行傾きの決
定処理は横罫線の座標から行の傾きを計算して全ての行
の傾きの平均値を行の傾きとする。尚、横罫線が存在し
ない場合は、原画像上で縦に区分を設けて短冊状の領域
を作り、その短冊毎で上から短冊の横幅長のセンサを用
い、白→黒、黒→白となる座標を記録してそれから1行
の傾きを求める(この場合、縦罫線の存在する短冊は傾
き検出から除く)。傾きを計算する際には行の整形処理
を使用する(第5図参照)。続いて処理S4において求
めた傾きで認識エリアの一番上(TOP)から行切り出
しを開始する(S5)。この時横罫線が存在する場合に
はTOP−1本日の横罫線、1本日の横罫線〜2本口の
横罫線のように横罫線を避けて処理を行う。行切り出し
は予め求めた傾き値を持つ認識エリアの左端〜右端まで
の長さのセンサを用い、開始座標(交差する黒画素が縦
罫線であるものを除いて、初めて黒画素と交差した座標
)から順次下へ移動し、交差する黒画素が縦罫線のもの
だけとなるところで停止する。この縦方向の探査開始座
標〜終了座標が1行として抽出するものである。
すなわち探査開始座標がSTIであり、終了座標がEN
I、またこの終了座標のENIは次の探査開始座標とな
る。すなわち通常ENL=ST(1十1)がなりたつ。
また横罫線があるところでは強制的に探査を打ち切って
ENIを決めてしまう。
次の開始座標5T(1+1)は横罫線のすぐ下の座標と
する。すなわち第6図の如く開始座標ならびに終了座標
が決定する。罫線を除いた1行を抽出した後、続いて文
字切出し認識処理S6を行う。
文字切出し文字v!、識処理S6は1行を切り出した後
でその行内の文字を切り出すために、この行だけを対象
にした縦ヒストグラムをとる。この縦ヒストグラムで縦
罫線のところを除去する(第7図参照)。
縦罫線除去済の縦ヒストグラムを文字切出し処理部に加
え、文字切出し結果として、文字の横方向の開始座標、
終了座標を得る。これを更に文字認識処理部へ入力し、
文字認識結果の文字コードを得る。この文字コードとそ
の横方向の開始位置、終了位置を記憶する。
空白は、文字切出し部を検出して特別なコードを付ける
。出力は平均文字幅で空白を割った数だけ出力される。
尚、その座標はその時に求められ付加されてくる。そし
て罫線を含んだ認識結果を表示する。すなわち前述した
処理6の指定された認識でのTOPから繰り返していく
が1行済む毎に結果をパソコン上へ表示する(S7)。
縦罫線の場合、縦罫線の開始位置、終了位置の座標情報
をもとに罫線の長さに比例した数の横罫線の文字コード
を表示する。幾つ表示するかは罫線の長さ/文字幅で決
める。文字幅は1行前の文字の幅の平均値であり、前に
文字がない場合にはデフォルトの値を用いる。横罫線の
表示中に縦罫線が存在する場合は、そのところだけ縦罫
線を表示する(第8図参照)。また、文字の場合得られ
た文字と罫線の座標から若い順に表示してい< (S7
)。
続いて指示された領域全ての認識を行ったかを判別(3
B)L、終了してない時(N)には次行切出しを行い(
S9)、再度処理(S6)より実行する。この次行切出
し処理S9は前述した行切出し処理S5と同様であり、
処理(S5)においては先頭の行を切り出すのに対し、
次行切出し処理(S9)は前記続く行を切り出す処理で
ある。
前述した動作を順次繰り返し各行の罫線並びに文字を表
示すると判別(S8)において指定した全領域を終了し
たと判別しくY)、続いて罫線整形処理(310)を行
う。第8図に示す如(、文字単位や横罫線、縦罫線の大
きさを考慮し、更にはブランクをも考慮した場合、前述
した処理(S6、S7)で表示した処理結果はその縦罫
線が変化している。すなわち1本の直線となっていない
これを正しい罫線とするのが罫線整形処理(310)で
ある。読み込みデータを全て認識処理した後、パソコン
11によってデコボコしている罫線を整形する。そして
、その結果を表示(第9図)する。
以上本発明の実施例を用いて詳細に説明したが本発明は
これに限るものではない。例えば、本発明の実施例にお
いては1/8縮小したレイアウトイメージを表示してい
るが、デイスプレィが大きいならば1頁分直接表示して
もよく、またディスプレイの分解能が悪い場合には更に
縮小して表示してもよい。
〔発明の効果] 以上の如〈従来は罫線はグラフ表示、文字は文字表示で
あったものを、本発明によれば罫線が認識結果と同じ文
字コードで表示されるので出力結果を専用ソフトウェア
ではなく、一般のソフトウェアでも扱うことができる。
また、原画像を処理するので高精度な出力が可能となり
、また更に原画像を対象とした高速な罫線抽出装置が存
在すれば高速な罫線認識が実現できる。
【図面の簡単な説明】
第1図は本発明の原理ブロック図、 第2図は本発明の実施例のシステム構成図、第3図は本
発明の実施例の処理フローチャート、第4図はレイアウ
トイメージ範囲指定の説明図、第5図は横罫線が存在し
ない場合に傾きを求める処理、 第6図は各座標位置の説明図、 第7図は紺ヒストグラムと縦罫線の所を除去したヒスト
グラム図、 第8図は処理結果(出力)を示す図、 第9図は罫線成型結果を示す図である。 1・・・罫線抽出手段、 2・・・文字認識手段、 3・・・認識結果出力手段。

Claims (3)

    【特許請求の範囲】
  1. (1)認識すべき画像情報が加わり、該画像情報から罫
    線の座標を抽出する罫線抽出手段(1)と、 該罫線抽出手段(1)で抽出された罫線を除いた領域か
    ら文字を認識する文字認識手段(2)と、前記罫線抽出
    手段(1)の結果と前記文字認識手段(2)の結果とか
    ら罫線コードを含む文字コードで出力する認識結果出力
    手段(3)とを有することを特徴とする文字認識方式。
  2. (2)前記文字認識手段(2)は各行の領域を判断して
    各行単位でその行内の文字を文字コードに変換すること
    を特徴とする請求項1記載の文字認識方式。
  3. (3)前記罫線抽出手段(1)は罫線を抽出すると共に
    、該抽出した罫線の傾きをも求め、前記文字認識手段(
    2)が該傾きに対応して行の領域を求めることを特徴と
    する請求項2記載の文字認識方式。
JP2282633A 1990-03-13 1990-10-20 文字認識方式 Expired - Lifetime JP2803736B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2282633A JP2803736B2 (ja) 1990-10-20 1990-10-20 文字認識方式
US07/668,541 US5191612A (en) 1990-03-13 1991-03-13 Character recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2282633A JP2803736B2 (ja) 1990-10-20 1990-10-20 文字認識方式

Publications (2)

Publication Number Publication Date
JPH04156694A true JPH04156694A (ja) 1992-05-29
JP2803736B2 JP2803736B2 (ja) 1998-09-24

Family

ID=17655060

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2282633A Expired - Lifetime JP2803736B2 (ja) 1990-03-13 1990-10-20 文字認識方式

Country Status (1)

Country Link
JP (1) JP2803736B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325415A (zh) * 2018-08-22 2019-02-12 吴昌议 一种基于图像列对齐特征预测所有目标区域的方法
CN111460782A (zh) * 2020-04-01 2020-07-28 支付宝(杭州)信息技术有限公司 一种信息处理方法、装置及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62184580A (ja) * 1986-02-07 1987-08-12 Matsushita Electric Ind Co Ltd 文書清書装置
JPH01199265A (ja) * 1988-02-04 1989-08-10 Nec Corp ワードプロセツサ

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62184580A (ja) * 1986-02-07 1987-08-12 Matsushita Electric Ind Co Ltd 文書清書装置
JPH01199265A (ja) * 1988-02-04 1989-08-10 Nec Corp ワードプロセツサ

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325415A (zh) * 2018-08-22 2019-02-12 吴昌议 一种基于图像列对齐特征预测所有目标区域的方法
CN111460782A (zh) * 2020-04-01 2020-07-28 支付宝(杭州)信息技术有限公司 一种信息处理方法、装置及设备
CN111460782B (zh) * 2020-04-01 2023-08-22 支付宝(杭州)信息技术有限公司 一种信息处理方法、装置及设备

Also Published As

Publication number Publication date
JP2803736B2 (ja) 1998-09-24

Similar Documents

Publication Publication Date Title
US5075895A (en) Method and apparatus for recognizing table area formed in binary image of document
JPH04156694A (ja) 文字認識方式
JPH117493A (ja) 文字認識処理装置
JPS61198376A (ja) 光学的文字読取装置
JP3379663B2 (ja) 文字認識装置
JP3276554B2 (ja) フォーマット認識装置及び文字読取り装置
JPH05128302A (ja) 文字認識方法及びその装置
JP2937607B2 (ja) レイアウト作成装置
JPH05303661A (ja) イメージデータ部分取得表示装置
JPH1166225A (ja) 表情報抽出装置及び方法並びに記録媒体
JPH0644406A (ja) 画像処理方法及び装置
JPH0573718A (ja) 領域属性識別方式
JP2000339405A (ja) 光学的文字認識システム、同システムに於ける帳票のフォーマットコントロール作成方法、及び同方法が格納された記憶媒体
JP3145265B2 (ja) 文字認識装置
JP2954218B2 (ja) 画像処理方法及び装置
JP3073206B2 (ja) 画像認識方法及び装置
JP2022047314A (ja) 情報処理装置、情報処理方法、プログラム
JPH0266681A (ja) 図面処理装置
JPH10116314A (ja) 表処理方法及び表処理装置
JPH0459669B2 (ja)
JPH07160811A (ja) 文字認識装置
JPS61190676A (ja) 帳票登録装置
JPH0459668B2 (ja)
JPH0782522B2 (ja) 文書読取装置
JPH0424757A (ja) 文書処理装置