JPH03269689A - 文書読み取り装置 - Google Patents

文書読み取り装置

Info

Publication number
JPH03269689A
JPH03269689A JP2071461A JP7146190A JPH03269689A JP H03269689 A JPH03269689 A JP H03269689A JP 2071461 A JP2071461 A JP 2071461A JP 7146190 A JP7146190 A JP 7146190A JP H03269689 A JPH03269689 A JP H03269689A
Authority
JP
Japan
Prior art keywords
block
reading order
character string
blocks
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2071461A
Other languages
English (en)
Inventor
Teruo Akiyama
秋山 照雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2071461A priority Critical patent/JPH03269689A/ja
Publication of JPH03269689A publication Critical patent/JPH03269689A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、文書読み取り装置に関し、特に、文書中の文
字を認識し、認識結果を文字コードとして出力する文書
認識装置において、読みとるべき文字列の読み取り順序
を決定するための文字列読み取り順序決定方式に関する
ものである。
〔従来技術〕
従来、文書中の文字列の読み取り順序を決めるための手
法としては、矩形で囲むことのできる連続した一連の文
字列、すなわち、文字列ブロックをマウスなどのデバイ
スを用いて順番に指定していく方法、例えば、特公昭6
1−32712に開示されているように、r新聞などに
ついて単一記事内では右下から左上に向かって接続され
る文字列のブロックはないJという前提のもとに、自動
的に抽出した文字列のブロックを上から下に向かって順
序付ける方法などが提案されている。
〔発明が解決しようとする課題〕
しかしながら、実際の文書には罫線などを用いて、右下
に位置する文字列が左上に位置する文字列に接続するよ
うに構成された文書が多くある。
第6図は、このような文書の一例で、罫JIGによって
、6個のある文字列ブロックがA、B、C。
D、E、Fの順番で読まれるよう構成されている。
Hは文字列ブロックに含まれる文字列を示している。従
来は、このような文書に対して、文字列ブロックの読み
取り順序を自動的に決めて読んでいくことはできなかっ
た。
また、第7図(a)は、文字列のブロックの位置関係か
らだけでは読み取り順序を決定することのできない場合
の例である。すなわち、記事の構成によって、A’ 、
B’ 、C’ 、D’ 、E’ 、F’という順番に読
む場合とA’ 、D’ 、B’ 、E’C’ 、F’ 
という順番に読む場合がある。これらの両者の区別は、
人間が内容を見ながら判断する必要があるため、文字読
み取り装置でこのような構成の文書を読む場合には、マ
ウスなどを用いて読み取る順番を指定していくなど、極
めて面倒な操作が必要であった。
本発明は、前記問題点を解決するためになされたもので
ある。
本発明の目的は、文字列の読み取り順序を文字列ブロッ
クや罫線などの位置関係に基づいて自動的に決定し、さ
らに、位置関係のみでは決定できないものについては、
各ブロックに対して読み取り順序を一つ一つ指定するこ
となく、極めて簡単な操作で読み取り順序を指定できる
技術を提供することにある。
本発明の前記ならびにその他の目的と新規な特徴は、本
明細書の記述及び添付図面によって明らかになるであろ
う。
〔課題を解決するための手段〕
前記目的を達成するために、本発明は1画像入力部から
入力された文書画像データに対し1文書中の文字列を抽
出し、該抽出文字列の読み取り順序を決定し、該文字列
を読み取り順序に従って文字認識し、その結果を文字コ
ード列に変換する文書読み取り装置において、文書画像
中の文字列の領域とそれ以外の非文字列領域を区別した
上で抽出し、前記文字列領域については領域中の連続し
ている文字列を一つのまとまった文字列ブロックとし、
前記それ以外の非文字列領域については非文字列ブロッ
クとして抽出するブロック抽出手段と、該抽出ブロック
を座標値等に基づいて並び変えるブロック読み取り順序
初期化手段と、任意の2つのブロックについて読み取り
順序を判定するブロック読み取り順序判定手段と、ブロ
ック読み取り順序判定手段の判定結果に基づいて、前記
ブロック読み取り順序初期化手段によって初期化された
ブロックの順序を入れ換える処理を複数回反復するブロ
ック読み取り順序修正手段と、該読み取り順序修正手段
によって順序付けられたブロックのうち非文字列ブロッ
クを取り除き、文字列ブロックのみに関する読み取り順
序を出力する結果出力手段を備えたことを最も主要な特
徴とするものである。
つまり、イメージスキャナなどで入力した文書に対し、
文書中の一連の文字列の集合である文字列ブロックと、
文字列以外の罫線、図などの非文字列ブロックについて
、これらを抽出するブロック抽出手段と、該ブロック抽
出手段から得られた各ブロックの読み取り順序の決定に
、罫線などの新たな非文字要素の追加が必要な場合には
、これらの非文字要素を非文字列ブロックとして追加す
る非文字列ブロック追加手段と、前記ブロック抽出手段
によって抽出された、あるいは該非文字列ブロック追加
手段によって追加された各ブロックの位置に関する一定
の基準、例えばブロック右上端のX座標やy座標の値の
大きさ、に基づいて順序付けを行うことにより、ブロッ
クの読み取り順序の初期化を行うブロック読み取り順序
初期化手段と、任意の2つのブロックのうち、どちらを
先に読むべきかの読み取り順を、当該ブロックの相対的
座標などをもとに、一定の基準に従って決めるブロック
読み取り順序判定手段と、前記ブロック読み取り順序初
期化手段によって順序付けられた各ブロックの順位にお
いて、互いに順位が隣接するブロック同志、すなわち順
位が“1”だけ異なるブロック対の読み取り順序が正し
いか否かを、前記ブロック読み取り順序判定手段によっ
て判定し、正しくないと判定された場合には、これらの
順位を入れ換える作業を一定の手続きに従って繰り返す
ブロック読み取り順序修正手段と、該読み取り順序修正
手段から出力された結果をもとに、順序付けられたブロ
ックのうち非文字列ブロックを取り除き、文字列ブロッ
クのみの順列として出力する結果出力手段とを備えてい
る。
〔作用〕
前述の手段によれば、同−紙面内での文字列の読み取り
順序に関し、罫線などを用いることにより、例えば、紙
面の右下に位置する文字列が左上に位置する文字列に接
続するように構成されている文書であっても、文字列の
読み取り順序を自動的に決定することができる。また、
読み取り順序が文字列の位置からだけでは決定出来ない
文書に対しても1文書中に罫線に相当する新たな非文字
列ブロックを加えるという極く簡単な手段により文字列
の読み取り順序を指定することができる。
例えば、記事の構成によって、A’ 、B’ 、C’D
’ 、E’ 、F’ という順番に読む場合とA′D’
 、B’ 、E’ 、C’ 、F’という順番で読む場
合がある文書(例えば、第7図(a)に示す文書)に対
し、文字列ブロックA’ 、B’ 、C’ とD’ 、
E’ 、F’の間に第7図(b)に示す罫線に相当する
非文字ブロックG′を加えることによってA’ 、B’
 、C’ 、D’ 、E’ 、F’ という各文字ブロ
ックの読み取り順序を容易に指定することができる。
〔発明の実施例〕
以下、本発明の一実施例を図面を用いて具体的に説明す
る。
第1図は、本発明の文書読み取り装置の一実施例の概略
構成を説明するブロック構成図である。
第工図において、1は文書画像の入力端子であり、スキ
ャナなどを用いて得られた文書画像が入力される。
2はブロック抽出手段であり、文書内の文字列の集合で
ある文字列ブロック、また、図などの非文字列ブロック
を矩形領域として抽出する。ブロック抽出手段は1例え
ば、電子通信学会論文誌J69−D、No、8、ppH
87〜96、(昭6l−08)に記載された“周辺分布
、線密度、外接矩形特徴を併用した文書画像の領域分割
”に述べられている手法で実現できる。これらの手法で
完全なブロック抽出ができない場合には、入力画像等を
CRTなどのデイスプレィに表示し、誤抽出のブロック
や未抽出のブロック、あるいは場合によっては全てのブ
ロックをマウスのようなデバイスを用いて入力してもか
まわない。
3は非文字列ブロック追加手段であり、例えば、ブロッ
ク抽出手段2で抽出した文字列ブロックをCRTなどに
表示し、マウスなどを用いて非文字列ブロックの位置、
大きさなどを指定することによって本機能を実現するこ
とができる。
既に述べたように第7図(a)は6個の文字列ブロック
を抽出した状態を示し、第7図(b)は、読み取り順序
を指定するために非文字列ブロックG′を新たに挿入し
た状態を示している。
4はブロック読み取り順序初期化手段であり、抽出され
たブロックを座標層に並べる。第2図(a)は文字列ブ
ロックH,I、J、に、Lが。
入力された文書画像から抽出された状態を示している0
例えば、ブロックの右上座標(第2図(a)内の黒点)
を基準にした場合、まずy軸方向の座標層に各ブロック
を並べるとH,I、J、に、Lとなる0次にX軸方向の
座標層に各ブロックを並べるとり、I、に、J、Hとな
る。
6はブロック読み取り順序判定手段であり、定の基準に
基づいて任意の2つのブロックの読み取り順序を判定す
る0判定の基準としては、例えば、第3図に示すように
、互いに重なりあわないブロックNとN′において、第
3図の斜線で示されるNの影の部分にN′が全く重複し
ない場合にはN′を先に読み、また、逆にN′がNの作
る影と重複する部分を持つ場合にはNを先に読むなどが
考えられる。第3図(a)はN′→Nの順で読む場合を
、第3図(b)はN−)N’という順序で読む場合を示
している。
5はブロック読み取り順序修正手段であり、前記ブロッ
ク読み取り順序初期化手段4によって順序付けされた各
ブロックの前後関係を、ブロック読み取り順序判定手段
6でチエツクし、順序が逆と判定されたものについては
その順位を入れ換える機能を有する。チエツクの順序は
、例えば、第4図に示したアルゴリズムに従えばよい、
なお、第4図では該ブロック読み取り順序初期化手段に
よって順序付けられたpalのブロックのうち、n番目
に位置するものをS (n)(n=1.2.・・・p)
で表現している。また、第4図の説明は、図を見れば理
解できるであろうからここでは省略する。
第5図は、第2図に示したブロックを例にとり、ブロッ
ク読み取り順序初期化手段4を用いて初期化されたブロ
ックの読み取り順序を、ブロック読み取り順序判定手段
6から得られた結果をもとに正しい順序に並び変えてい
く過程を示したものである1例1は第2図(a)に示し
た文書をブロック読み取り順序初期化手段4で初期化し
た場合に対応している0例2は第2図(b)に示すよう
に、I、に、H,J、Lという順序でブロックを読むた
めに、非文字列ブロック追加手段3で罫線Mを非文字列
ブロックとして追加した場合に対応している。
なお、第5図ではブロック読み取り順序判定手段6で順
序を判定した部分をアングラインで示した。順序が反転
した場合にはアングラインの位置が左に移動する。
7は結果出力手段であり、前記読み取り順序修正手段5
から出力された順列の中で非文字列ブロックに相当する
ブロックを取り除いた上で結果を結果出力端子8に出力
する。
第2図(b)の場合には、前記ブロック読み取り順序修
正手段5から得られた順列I、に、M。
H,J、Lから非文字列ブロックであるMを取り除いた
順列I、に、H,J、Lが結果出力端子8から出力され
る。
本実施例の文書読み取り装置における文字列読み取り順
序決定方法は、第1図において、イメージスキャナなど
で入力端子1に入力した文書に対し、文書中の一連の文
字列の集合である文字列ブロックと、文字列以外の罫線
、図などの非文字列ブロックについて、これらをブロッ
ク抽出手段2で抽出する。この抽出された各ブロックの
読み取り順序の決定に、罫線などの新たな非文字要素の
追加が必要な場合には、これらの非文字要素を非文字列
ブロックとして非文字列ブロック追加手段3で追加する
。前記ブロック抽出手段2によって抽出された、あるい
は非文字列ブロック追加手段3によって追加された各ブ
ロックの位置に関する一定の基準、例えばブロック右上
端のX座標やy座標の値の大きさに基づいて順序付けを
ブロック読み取り順序初期化手段4で行うことにより、
ブロックの読み取り順序の初期化を行う、任意の2つの
ブロックのうち、どちらを先に読むべきかの読み取り順
を、ブロック読み取り順序判定手段6により、当該ブロ
ックの相対的座標などをもとに、一定の基準に従って決
める。そして、前記ブロック読み取り順序初期化手段4
によって順序付けられた各ブロックの順位において、互
いに順位が隣接するブロック同志、すなわち順位が1”
だけ異なるブロック対の読み取り順序が正しいか否かを
、前記ブロック読み取り順序判定手段6によって判定し
、正しくないと判定された場合には、これらの順位を入
れ換える作業を一定の手続きに従ってブロック読み取り
順序修正手段5により繰り返す、このブロック読み取り
順序修正手段5から出力された結果をもとに、結果出力
手段7により順序付けられたブロックのうち非文字列ブ
ロックを取り除き、文字列ブロックのみの順列として結
果出力端子8から出力される。
このようにして1例えば、同−紙面内での文字列の読み
取り順序に関し、罫線などを用いることにより、紙面の
右下に位置する文字列が左上に位置する文字列に接続す
るように構成されている文書であっても1文字列の読み
取り順序を自動的に決定することができる。
また、読み取り順序が文字列の位置からだけでは決定出
来ない文書に対しても、文書中に罫線に相当する新たな
非文字列ブロックを加えるという極く簡単な手段により
文字列の読み取り順序を指定することができる。
以上、本発明を実施例にもとづき具体的に説明したが、
本発明は、前記実施例に限定されるものではなく、その
要旨を逸脱しない範囲において種々変更可能であること
は言うまでもない。
〔発明の効果〕
以上、説明したように、本発明によれば、紙面の右下に
位置する文字列が左上に位置する文字列に接続するよう
に構成されている文書であっても、文字列の読み取り順
序を自動的に決定することができる。
また、読み取り順序が文字列の位置からだけでは決定出
来ない文書に対しても、文書中に罫線に相当する新たな
非文字列ブロックを加えるという極く簡単な手段により
文字列の読み取り順序を指定することができる。
【図面の簡単な説明】
第1図は、本発明の文書読み取り装置の一実施例の概略
構成を説明するブロック構成図、第2図は、本実施例の
文字列読み取り順序決定方法のブロック読み取り順序初
期化手段で初期化された順序を、ブロック読み取り順序
修正手段によって正しい読み取り順序に並びかえる過程
を説明するための図、 第3図は、本実施例の任意の2つのブロックの読み取り
順序を決めるための基準を示す図、第4図は、本実施例
のブロック読み取り順序判定手段の処理例を示すフロー
チャート、第5図は、本実施例のブロック読み取り順序
修正手段の処理例を示す図、 第6図は、罫線を用いることにより、右下から左上に向
かって文字列を読むように構成された文書の例を示す図
、 第7図は、罫線を新たに追加することによって文字列の
ブロックの読み取り順序が指定できることを示す図であ
る。 図中、1・・・文書画像の入力端子、2・・・ブロック
抽出手段、3・・・非文字列ブロック追加手段、4・・
・ブロック読み取り順序初期化手段、5・・・ブロック
読み取り順序修正手段、6・・・ブロック読み取り順序
判定手段、7・・・結果出力手段、8・・・結果出力端
子。 第1図

Claims (2)

    【特許請求の範囲】
  1. (1)画像入力部から入力された文書画像データに対し
    、文書中の文字列を抽出し、該抽出文字列の読み取り順
    序を決定し、該文字列を読み取り順序に従って文字認識
    し、その結果を文字コード列に変換する文書読み取り装
    置において、文書画像中の文字列の領域とそれ以外の非
    文字列領域を区別した上で抽出し、前記文字列領域につ
    いては領域中の連続している文字列を一つのまとまった
    文字列ブロックとし、前記それ以外の非文字列領域につ
    いては非文字列ブロックとして抽出するブロック抽出手
    段と、該抽出ブロックを座標値等に基づいて並び変える
    ブロック読み取り順序初期化手段と、任意の2つのブロ
    ックについて読み取り順序を判定するブロック読み取り
    順序判定手段と、ブロック読み取り順序判定手段の判定
    結果に基づいて、前記ブロック読み取り順序初期化手段
    によって初期化されたブロックの順序を入れ換える処理
    を複数回反復するブロック読み取り順序修正手段と、該
    読み取り順序修正手段によって順序付けられたブロック
    のうち非文字列ブロックを取り除き、文字列ブロックの
    みに関する読み取り順序を出力する結果出力手段を備え
    たことを特徴とする文書読み取り装置。
  2. (2)前記ブロック抽出手段の結果をブロック読み取り
    順序初期化手段に出力する過程において、前記ブロック
    抽出手段の結果に非文字列ブロックを新たに追加する非
    文字列ブロック追加手段を有することを特徴とする請求
    項(1)に記載の文書読み取り装置。
JP2071461A 1990-03-19 1990-03-19 文書読み取り装置 Pending JPH03269689A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2071461A JPH03269689A (ja) 1990-03-19 1990-03-19 文書読み取り装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2071461A JPH03269689A (ja) 1990-03-19 1990-03-19 文書読み取り装置

Publications (1)

Publication Number Publication Date
JPH03269689A true JPH03269689A (ja) 1991-12-02

Family

ID=13461250

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2071461A Pending JPH03269689A (ja) 1990-03-19 1990-03-19 文書読み取り装置

Country Status (1)

Country Link
JP (1) JPH03269689A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774580A (en) * 1993-05-12 1998-06-30 Ricoh Company, Ltd. Document image processing method and system having function of determining body text region reading order
JP2010009579A (ja) * 2008-06-27 2010-01-14 National Taiwan Univ Of Science & Technology 書類内容即時検出システム及び方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774580A (en) * 1993-05-12 1998-06-30 Ricoh Company, Ltd. Document image processing method and system having function of determining body text region reading order
US5907631A (en) * 1993-05-12 1999-05-25 Ricoh Company, Ltd. Document image processing method and system having function of determining body text region reading order
JP2010009579A (ja) * 2008-06-27 2010-01-14 National Taiwan Univ Of Science & Technology 書類内容即時検出システム及び方法

Similar Documents

Publication Publication Date Title
JP2930612B2 (ja) 画像形成装置
JP3338537B2 (ja) 画像傾き検出装置
US5048107A (en) Table region identification method
US5075895A (en) Method and apparatus for recognizing table area formed in binary image of document
JP5854802B2 (ja) 画像処理装置、画像処理方法、及びコンピュータプログラム
GB2244886A (en) Apparatus for extracting a text region in a document image
US5923782A (en) System for detecting and identifying substantially linear horizontal and vertical lines of engineering drawings
KR0167616B1 (ko) 화상 처리 장치 및 방법
JP4390523B2 (ja) 最小領域による合成画像の分割
JPH03269689A (ja) 文書読み取り装置
JP2890306B2 (ja) 表領域分離装置および表領域分離方法
JP2890307B2 (ja) 表領域分離装置
JP2002269574A (ja) 囲み領域抽出アルゴリズムの性能を向上させるランレングスに基づく連結成分と輪郭追跡
JPS6252911B2 (ja)
JPH0535872A (ja) 2値画像の輪郭追跡方式
JPH0658689B2 (ja) 線図形分離装置
JP2501832B2 (ja) 色マ−ク領域の抽出方法
JPS62133584A (ja) 文書画像処理方式
JPH0896140A (ja) 画像データの圧縮方法
JPH04311283A (ja) 行方向判定装置
JP2962525B2 (ja) テキストブロック認識方法
JP2771045B2 (ja) 文書画像の領域分割方法
JP2954218B2 (ja) 画像処理方法及び装置
JPH0728939A (ja) 表のベクトル化装置
JP2978548B2 (ja) 文字読取装置