JP3108979B2 - 画像処理方法および画像処理装置 - Google Patents
画像処理方法および画像処理装置Info
- Publication number
- JP3108979B2 JP3108979B2 JP06177130A JP17713094A JP3108979B2 JP 3108979 B2 JP3108979 B2 JP 3108979B2 JP 06177130 A JP06177130 A JP 06177130A JP 17713094 A JP17713094 A JP 17713094A JP 3108979 B2 JP3108979 B2 JP 3108979B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- character
- document
- read
- column direction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
- G06V30/1478—Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
Description
み取られた文書画像を文字認識する際、読み取られた文
書画像に蛇行や傾きが生じている場合、これらを補正処
理する画像処理方法および画像処理装置に関する。
ことにより、その画像を読み取る画像入力手段(一般に
スキャナと呼ばれている)としては、先端部に設けられ
たロ−ラ部分を文字などに接触させた状態で転がしなが
ら移動させることにより、光学的に画像を読み取るもの
が従来より広く用いられている。
に接触させた状態で走査させることが条件となり、この
条件下においては、移動速度(走査速度)に関係なく、
また、ロ−ラにある程度の幅があるため、走査方向に直
進性があり、蛇行したりすることなく理想的な読み取り
が可能となる。
で走査させることは、ユ−ザにとっては負担であり、状
況によってはロ−ラが画像から離れた状態で走査されて
しまうこともある。このようにロ−ラが画像から離れた
状態で走査されると、走査距離が求めらないため、正確
な画像の読み取りが行われず、また、直進性も失われる
ので、蛇行したり斜め方向に走査されたりすることにも
なる。
ロ−ラの回転数から移動距離に応じたパルス信号を発生
するためのエンコ−ダユニットが設けられるため、全体
として筐体部(特に先端部)が大型化する欠点がある。
また、ロ−ラのような可動部が存在するため、使用頻度
が高いと、磨耗したり破損したりすることもあり、耐久
性の面でも問題があった。
ために、ロ−ラ部分のを不要としたいわゆる2ラインセ
ンサ方式のスキャナが開発され実用化されている。この
スキャナは、第1,第2の2個のセンサを有し、手送り
走査方向に対して、先に進む第1のセンサが或る位置で
読み取った画像と、後から進む第2のセンサの読み取っ
た画像とを比較し、その時間差から走査速度を検出する
というものである。
となり、前記したロ−ラ方式の持つ種々の欠点を克服で
きるが、ロ−ラ部が無いために、走査方向に対する直進
性が低く、蛇行走査や斜め走査を起こしやすいという欠
点がある。
の一例を示している。このように蛇行走査されて読み取
られた画像を文字認識する場合、まず、ユ−ザがどの行
を読み取ろうとしているのかを判定して、その行の文字
を一字ごとに切り出しを行って、文字認識する必要があ
る。しかし、読み取られた文書画像が図22のように蛇
行していると、文字の切り出しを行う際、その文字が果
して読み取ろうとする行に存在している文字であるか否
かの判定が必要となる。
ている文字であるか否かの判定を行う技術として、たと
えば、特開平3−250387がある。この特開平3−
250387の技術(以下、第1の従来技術という)
は、図23に示すように、或る文字(ここでは「A」と
する)の高さ方向(上下方向)の中心1から所定の範囲
2内に次の文字「B」の同じく高さ方向の中心3が入っ
ていれば「A」と「B」は同一行であると見做すという
ような判断を行うものである。
1の従来技術は以下に説明するような問題点を有してい
る。
であるような場合、たとえば「a,b,c.d,・・
・」というように小文字同志においても、文字によっ
て、高さ方向の中心位置は異なり、また、小文字と大文
字が並んだ場合も、両者の高さ方向の中心位置は異なっ
ている。つまり、アルファベットには、「Centred」、
「Ascender」、「Descender」と呼ばれている文字の種
類がある。「Centred」とは、「a,c,e,m,n,
r,s,u,v,w,x,z」であり、「Ascender」と
は、この「Centred」の文字に対して、上方向にその高
さが大きい文字の種類であり、「大文字やb,d,f,
h,k,l,i,t」である、また、「Descender」と
は、「Centred」の文字に対して、下方向にその高さが
大きい文字の種類であり、「g,p,q,y」である。
さらにこの他に、「Full-Height 」と呼ばれる文字とし
て「j」がある。
r」、「Descender」などによって、文字の中心位置が異
なることから、前記した従来技術では以下に示すような
不都合が生じることになる。
・・・」という文字が並んでおり、この行のすぐ下の行
に「h,p,k,・・・」という文字が並んでいる場
合、これらが図24に示すように、スキャナの先端部7
を文字の行方向に直角にしたまま斜め右下方向に走査し
て読み取られると、図25に示すように、文字が階段状
配列となった画像となる。なお、この図25はこのよう
に斜め右下方向に走査して読み取られた画像の一部分を
拡大して取り出した図である。また、この図25に示す
文字配列は蛇行入力によっても生じる場合もある。そし
て、ここでは、上の行の「a」と下の行の「p,k」の
関係を見ると、「k」の高さ方向の中心4は、この
「k」と同じ行である「p」の高さ方向の中心5より
も、この「k」とは異なる行にある「a」の高さ方向の
中心6に近い位置に存在することになり、たとえば、
「k」の文字の切り出しを行う場合、この「k」の存在
する行の判断は、この場合、「a」と同じ行であると判
断されてしまうことにもなる。
の中心位置による行の判断では、正確な行判断は不可能
であった。
により読み取り走査が行われた場合であるが、図26に
示すように、スキャナの先端部7を、列方向に対して右
方向に傾むけた状態で走査すると、その読み取り画像は
図27(a)に示すように左傾斜した画像となり、ま
た、反対にスキャナの先端部7を、列方向に対して左方
向に傾むけた状態(図26において一点鎖線で示す)で
走査すると、その読み取り画像は図27(b)に示すよ
うに右傾斜した画像となる。
すると、その認識率は大幅に低下する。特に、アルファ
ベットの場合は、図27(a)に示すような左傾斜とい
うのは通常用いられないので、その認識率はきわめて低
いものとなる。
補正するという技術としては、たとえば、特開昭64−
156887(以下、第2の従来例という)がある。こ
の第2の従来例は、文字列の並びを入力走査方向(行方
向)の幾つかの角度から見た黒画素の周辺分布を作成
し、この周辺分布の山の高さから文字列の傾きを検出
し、その傾きに応じた補正を行うというものである。し
かし、この方式であると、周辺分布を得るためには、数
多くのデータ量が必要なため、1個の単語ごとに、その
単語の傾きを検出して補正するという場合には不適当で
あった。ユーザの使用状況によっては、スキャナの走査
中にスキャナの入力走査角度が頻繁に変わることもあり
得るため、それに対処するために或る小さなブロック毎
に、傾きを検出する必要もあった。
もので、読み取るべき行の判断を正確に行うとともに、
隣接する文字が同一行か否かの判断を正確に行うことで
文字認識を行う際の文字の切り出しを正確に行い、ま
た、蛇行や傾斜して読み込まれた画像の補正を確実に行
うことで、文字認識率の向上を図ることを目的としてい
る。
をスキャナにより走査することによって読み取り、その
読み取り画像を、文字画像の切り出しおよび文字認識処
理を行い得る状態に画像処理する画像処理方法におい
て、複数行が蛇行した状態で読み込まれた文書画像デー
タから、文書の列方向に見た場合、その列方向の画像読
み取り幅の中心線を含む中心線上付近に存在する文字画
像を抽出し、その文字画像が含まれている行を読み込む
べき行と判断することを特徴とする。
向の画像読み取り幅の中心線を含む中心線上付近に存在
する文字画像のうち、最も中心に位置する文字画像であ
ることを特徴とする。
書画像から、各文字画像ごとにその文字画像を包含する
外接矩形を、その外接矩形の始点座標とこの始点座標に
対角する終点座標として抽出することを特徴とする。
線を含む中心線上付近に存在するか否かの判断は、前記
文字画像を包含する外接矩形の座標データから求めた外
接矩形の中心位置と前記列方向の画像読み取り幅の中心
線との位置関係から判断することを特徴とする。
行が蛇行した状態で読み込まれた文書画像データから、
文書の列方向に見た場合、その列方向の画像読み取り幅
の中心線を含む中心線上付近に存在する文字画像を抽出
し、この抽出された文字画像に隣接する文字画像との間
で重なりを求め、順次、隣接する文字との重なりを求め
て行くことで読み込むべき行の抽出を行うことを特徴と
する。
することによって読み取り、その読み取り画像を、文字
画像の切り出しおよび文字認識処理を行い得る状態に画
像処理する画像処理方法において、隣接する文字画像同
志が同一行であるかの判断を、隣接する文字画像同志の
前記列方向の重なりから判定し、それを繰り返すことに
より行画像を抽出してなるとともに、前記読み込むべき
行の抽出は、複数行が蛇行した状態で読み込まれた文書
画像データから、文書の列方向に見た場合、その列方向
の画像読み取り幅の中心線を含む中心線上付近に存在す
る文字画像を抽出し、この抽出された文字画像に隣接す
る文字画像との間で重なりを求め、順次、隣接する文字
画像との重なりを求めて行くことで読み込むべき行の抽
出を行うことを特徴とする。
することによって読み取り、その読み取り画像を、文字
画像の切り出しおよび文字認識処理を行い得る状態に画
像処理する画像処理装置において、複数行が蛇行した状
態で読み込まれた文書画像データから、文書の列方向に
見た場合、その列方向の画像読み取り幅の中心線上を含
む中心線上付近に存在する文字画像を抽出し、その文字
画像が含まれている行を読み込むべき行と判断する行抽
出部を有したことを特徴とする。
た場合、その列方向の画像読み取り幅の中心線を含む中
心線上付近に存在する文字画像を抽出し、その文字画像
が含まれている行を読み込むべき行と判断する注目行抽
出手段と、前記抽出された文字画像に隣接する文字画像
との間で重なりを求め、順次、隣接する文字画像との重
なりを求めて行くことで読み込むべき行の抽出を行う注
目行追跡手段とを有することを特徴とする。
書画像から、各文字画像ごとにその文字画像を包含する
外接矩形を、その外接矩形の始点座標とこの始点座標に
対角する終点座標として抽出する外接矩形抽出部を前記
行抽出部の前段に設けたことを特徴とする。
することによって読み取り、その読み取り画像を、文字
画像の切り出しおよび文字認識処理を行い得る状態に画
像処理する画像処理方法において、スキャナ走査によ
り、各文字画像が階段状配列で読み込まれた文字画像に
対し、同一行に含まれる2つの文字画像間の列方向の位
置のずれを、その文字画像間の前記列方向の傾きと判定
し、その傾きに基づいて前記階段状の配列となった文字
画像の補正を行うとともに、前記2つの文字画像は、文
書画像がアルファベットである場合、アルファベットの
文字種が「Centred」であると推定された最近傍の2つ
の文字画像とすることを特徴とする。
することによって読み取り、その読み取り画像を、文字
画像の切り出しおよび文字認識処理を行い得る状態に画
像処理する画像処理方法において、スキャナ走査によ
り、各文字画像が階段状配列で読み込まれた文字画像に
対し、同一行に含まれる2つの文字画像間の前記列方向
の位置のずれを、その文字画像間の前記列方向の傾きと
判定し、その傾きに基づいて前記階段状の配列となった
文字画像の補正を行い、前記スキャナから読み込まれた
文書画像を、各文字画像ごとにその文字画像を構成する
黒画素の列方向に連続したつながりの始点座標とその黒
画素部分の長さからなるランレングスデータに変換して
なり、前記文字画像間の前記列方向の傾きに応じて、前
記ランレングスデータの始点座標を変更することで前記
階段状の配列となった文字画像の補正を行うことを特徴
とする。
することによって読み取り、その読み取り画像を、文字
画像の切り出しおよび文字認識処理を行い得る状態に画
像処理する画像処理装置において、スキャナ走査によ
り、各文字画像が階段状配列で読み込まれた文字画像に
対し、同一行に含まれる2つの文字画像間の列方向の位
置のずれを、その文字画像間の列方向の傾きと判定し、
その傾きに基づいて前記階段状の配列となった文字画像
の補正を行う階段状配列文字補正部を有し、前記階段状
配列文字補正部は、読み取り文字画像がアルファベット
である場合、アルファベットの文字種を判定する文字種
判定手段と、この文字種のうちの「Centred」であると
推定された2つの文字画像間の列方向の位置のずれをも
とに補正する階段状配列文字補正手段とを有することを
特徴とする。
することによって読み取り、その読み取り画像を、文字
画像の切り出しおよび文字認識処理を行い得る状態に画
像処理する画像処理方法において、スキャナ走査によ
り、各文字画像が列方向に対して傾斜した状態で読み込
まれた文書画像を、予め設定した幾つかの角度にしたが
って傾斜角を変えて行き、文書画像の行方向の存在幅が
最小になる角度を、文書画像の列方向に対する所望とす
る角度と判定し、その角度になるように文書画像の傾き
を補正してなり、前記スキャナから読み込まれた文書画
像から、各文字画像ごとにその文字を構成する黒画素の
列方向に連続したつながりの始点座標とその黒画素部分
の長さからなるランレングスデータに変換し、前記文書
画像を予め設定した幾つかの角度にしたがって傾斜角を
変えて行き、文書画像の行方向の存在幅を求める手段と
して、前記ランレングスデータの始点座標と終点座標
を、前記予め設定した幾つかの角度にしたがって変換し
て行き、変換後の始点座標と終点座標から文書画像の行
方向の存在幅を求めることを特徴とする。
することによって読み取り、その読み取り画像を、文字
画像の切り出しおよび文字認識処理を行い得る状態に画
像処理する画像処理方法において、スキャナ走査によ
り、各文字画像が列方向に対して傾斜した状態で読み込
まれた文書画像を、予め設定した幾つかの角度にしたが
って傾斜角を変えて行き、文書画像の行方向の存在幅が
最小になる角度を、文書画像の列方向に対する所望とす
る角度と判定し、その角度になるように文書画像の傾き
を補正してなり、前記読み取り文書画像がアルファベッ
トである場合において、1つの単語を構成する文字数が
所定数以下であるときは、その前に位置する単語の列方
向傾きをその単語の列方向の傾きとして、その傾きを基
に補正処理することを特徴とする。
することによって読み取り、その読み取り画像を、文字
画像の切り出しおよび文字認識処理を行い得る状態に画
像処理する画像処理方法において、複数行が蛇行した状
態で読み込まれた文書画像データから、文書の列方向に
見た場合、その列方向の読み取り幅の中心線上を含む中
心線上付近に存在する文字画像を抽出し、その文字画像
が含まれている行を読み込むべき行と判断し、前記読み
込むべき行の一行に含まれる2つの文字画像間の列方向
の位置のずれを、その文字画像間の列方向の傾きと判定
し、その傾きに基づいて階段状の配列となった文字画像
の補正を行い、次に、予め設定した幾つかの角度にした
がって傾斜角を変えて行き、文書画像の行方向の存在幅
が最小になる角度を、文書画像の列方向に対する所望と
する角度と判定し、その角度になるように文書画像の傾
きを補正することを特徴とする。
することによって読み取り、その読み取り画像を、文字
画像の切り出しおよび文字認識処理を行い得る状態に画
像処理する画像処理装置において、複数行が蛇行した状
態で読み込まれた文書画像データから、文書の列方向に
見た場合、その列方向の読み取り幅の中心線上を含む中
心線上付近に存在する文字画像を抽出し、その文字画像
が含まれている行を読み込むべき行と判断する行抽出部
と、前記行抽出部が抽出した行に含まれる文字画像を、
同一行に含まれる2つの文字画像間の列方向の位置のず
れを、その文字画像間の列方向の傾きと判定し、その傾
きに基づいて階段状の配列となった文字画像の補正を行
う階段状配列文字補正部と、前記階段状配列文字補正部
により補正された文字画像を、予め設定した幾つかの角
度にしたがって傾斜角を変えて行き、文書画像の行方向
の存在幅が最小になる角度を、文書画像の列方向に対す
る所望とする角度と判定し、その角度になるように文書
画像の傾きを補正する傾斜文字補正部と、を有したこと
を特徴とする。
態で読み込まれた文書画像データに対しては、文書の列
方向の幅の中心線を含む中心線上付近に存在する文字画
像を抽出し、その文字画像が含まれている行を読み込む
べき行と判断する。
の判断を、隣接する文字画像同志の前記列方向の重なり
度から判定し、それを繰り返すことにより行画像を抽出
する。
が蛇行した状態で読み込まれた場合でも、ユーザが読み
込もうとしている行を確実に抽出することが可能とな
る。
れた文字画像に対しては、同一行に含まれる2つの文字
画像間の前記列方向の位置のずれを、2つの文字画像の
それぞれの中心の列方向のずれとし、そのずれをその文
字画像間の列方向の傾きと判定し、そのずれに応じて前
記ランレングスデータの始点座標を変更することで前記
階段状の配列となった文字画像の補正を行う。
中心の列方向のずれをもとに、そのずれに応じてランレ
ングスデータの始点座標を変更するだけで文字画像の補
正を行うので、1つ1つの画素ごとに補正処理を行う方
式に比べて高速な補正が可能となる。
込まれた文書画像に対しては、予め設定した幾つかの角
度にしたがって傾斜角を変えて行き、文書画像の行方向
の存在幅が最小になる角度を、文書画像の列方向に対す
る所望とする角度と判定し、その角度になるように文書
画像の傾きを補正する。この文書画像の行方向の存在幅
を求める手段として、前記ランレングスデータの始点座
標と終点座標を、前記予め設定した幾つかの角度にした
がって変換して行き、変換後の始点座標と終点座標から
文書画像の行方向の存在幅を求める。また、前記傾斜文
字補正部は、文書画像の行方向の存在幅が最小になる角
度となるように文書画像の傾きを補正する際、その文書
画像の傾きの補正を、行方向の画素の移動で行う。
求める手段として、前記ランレングスデータの始点座標
と終点座標を変換することで行うことにより、高速な処
理が行え、また、文書画像の傾きを補正する際、その文
書画像の傾きの補正を、画素を行方向の移動(横方向へ
のずらし)で行うので、従来のように回転的な変換(ア
フィン変換)と異なり、高速でしかも正確な処理が可能
となる。
あり、大きく分けると、画像読み取り部10、ランレン
グスデ−タ変換部20、外接矩形抽出部30、行抽出部
40、階段状配列文字補正部50、単語抽出部60、文
字切り出し部70などから構成されている。以下、これ
らを個々に説明する。
み取り装置としてのスキャナ11や、読み取った画像デ
−タを蓄える画像メモリ12などを有している。
ングスデ−タ変換手段(ランデータ変換手段という)2
1、ランレングスデ−タメモリ(ランデ−タメモリとい
う)22を有している。
文字を構成する黒ラン(黒い画素の列方向の連続したつ
ながり部分を黒ランという)の始点座標とその黒ランの
長さを総称してランレングスデ−タという。これを図2
で説明すると、列方向をY,行方向をXとすると、たと
えば、「b」という文字を構成する或る部分の黒ラン
(これを図において、黒ランG1とする)の始点座標は
この場合(X1,Y1)となり、その長さはこの場合L
1ということになる。また、「b」を構成する或る部分
の黒ラン(これを図において、黒ランG2とする)の始
点座標はこの場合(X2,Y2)となり、その長さはこ
の場合L2ということになる。
ランの始点座標とその黒ランの長さからなるランレング
スデ−タを求める。このように、画像をランレングスデ
−タとして変換するのをランデ−タ変換手段21が行
い、これにより求めた各文字の全てのランレングスデ−
タがランデ−タメモリ22に格納される。
段31、外接矩形抽出手段32、外接矩形デ−タメモリ
33を有している。まず、ここで外接矩形というのは、
図3に示すように、文字に接するが如くその文字を包含
する矩形301,302をいう。
1,302を求めるために、或る1つの文字を構成する
各々の黒ランに同じ番号を付して、その同じ番号の黒ラ
ンは同じ文字あることを示すためのものである。たとえ
ば、「a」という文字を構成する黒ランには全て1とい
う番号を付し、「b」という文字を構成する黒ランには
全て2という番号を付す。
り、各文字対応にラベリングされたのち、同じ番号ごと
に、外接矩形抽出手段32によって外接矩形301,3
02を求める。具体的には、その外接矩形301,30
2の対角点の座標を求める。たとえば、図3で示すよう
に、「a」の文字の外接矩形301の対角点座標は(X
1,Y2),(X2,Y1)であり、「b」の文字の外
接矩形302の対角点座標は(X3,Y3),(X4,
Y1)であるというように、それぞれ対角点座標を求め
る。
デ−タは外接矩形デ−タメモリ33に格納される。
と、注目行追跡手段42を有している。
たように、複数行に渡って入力された文書画像から、文
書の列方向に見た場合に、その列方向の読み取り幅の中
心線401(一点鎖線で示す)上または中心線付近に存
在する文字画像402を抽出し、この文字画像402が
含まれている行を、読み取ろうとしている行(注目行)
であると判断する。この図の場合は、中心線401上ま
たはその付近に存在する文字画像402は、「p,t,
i」などであり、これら「p,t,i」が含まれている
行を、読み取ろうとしている行であると判断する。
その付近に存在する文字画像402、つまり、ここでは
「p,t,i」のうち、最も中心に近い文字として
「t」を選び、これを抽出する。
なお、処理は実際には各文字の矩形データを用いて行わ
れる。
の列方向の中心と前記中心線401との差αを求める
(ステップS1)。そして、この差αが予め設定された
しきい値以下で、かつ、それまでの最小の差min.αであ
るか否かの判断(ステップS2)を行い、それまでの最
小の差である場合には、その差αを最小の差min.αとし
て登録する(ステップS3)。次に、現在処理を行って
いるブロック(処理は被処理対象文書をブロック単位に
行う)に属する文字の外接矩形について、上記処理がす
べて終了したか否かの判断(ステップS4)を行い、終
わっていなければ、上記ステップS1の処理を行い、終
わっていれば、ステップS3で登録された差min.αがし
きい値以下であるか否かを判定し(ステップS5)、し
きい値以下である場合には、その差min.αに対応する外
接矩形を、最も中心に近い文字の矩形であるとし、その
文字を注目文字(ここでは、注目矩形)とする(ステッ
プS6)。以上の処理は具体的には、図6のように、た
とえば、文字「t」の矩形の列方向の中心403と、前
記中心線401との差αを求め、この差αが最小の差で
あれば、この文字「t」を最も中心に近い文字であると
判断する。
された差min.αがしきい値以下でない場合は、全てのブ
ロックに対して処理が終了したか否かを判断(ステップ
S7)し、全てのブロックに対して処理が終了していな
ければ、前記ステップS1に処理が戻る。
も中心に近い文字として抽出された文字を起点にし、こ
の文字と隣合う文字画像の列方向の重なり度を判断し
て、隣合う文字が同一行か否かを判定する。
は、ほぼ同じものを前述した従来例の説明においても用
いたが(図25)、従来例の場合は、隣接する文字同志
の中心位置から両者が同一行か否かを判断したが、本発
明では、隣合う文字画像の列方向の重なり度により同一
行か否かを判断する。つまり、図7において、この場
合、「k」という文字に注目すると、隣接する「p」に
対する重なり度β1と、異なる行にある「a」との重な
り度β2とを比較すると、β1のほうがβ2よりも大き
い。これにより、「k」は「p」と同一行であると判定
される。このようにして、すべての隣接する文字同志で
この重なり度を見ることにより、同一行か否かの判断が
正確に行える。
なお、処理は実際には各文字の矩形デ−タを用いて行わ
れる。
の列方向の重なり(βとする)を求める(ステップS1
1)。次に、この重なりβと注目矩形の高さの比と、重
なりβと隣接する矩形の高さの比がともに予め設定した
しきい値以上かの判定(ステップS12)を行い、両者
がともにしきい値以上であれば、隣接する矩形を注目行
に含まれる矩形とし、これを新たな注目矩形とする(ス
テップS13)。
かを判断(ステップS14)し、終わっていなければ、
ステップS11に処理が戻る。
よって、同一行か否かの判定を行うことにより、正確な
行判定が可能となる。このようにして、行判定されて抽
出された行が図4(b)であり、この抽出された行を、
後述する補正手段によって補正されたものが図4(c)
である。
うことにより、図9のように極端に大きさの違う文字が
並んでいる場合、これらを同一行とは見做さず、分離す
ることが可能となる。つまり、中心だけを考えた従来例
では、このような場合も、同一行と見做される。しか
し、本発明では、小さい文字「A,B,C」とこの小さ
い文字に比べて極端に大きさの異なる文字「D,E,
F」とで、自己の矩形の高さと重なりβとの比が大きく
異なることで、同一行とするか否かを決定できるように
している。すなわち、小さい文字「A,B,C」におい
ては、重なりβは自己の矩形の高さに比べて大きく、大
きな文字「D,E,F」は、重なりβは自己の矩形の高
さに比べて小さいので、これらは同じ行とは見做さない
ようにすることができる。
字補正部50について説明する。
判定手段51、階段状配列文字補正手段52を有してい
る。
アルファベットには、「Centred」、「Ascender」、「D
escender」と呼ばれている種類の文字があり、これらの
種類を判別するものである。前述したように「Centre
d」とは、「a,c,e」などであり、「Ascender」と
は、この「Centred」の文字に対して、上方向にその高
さが大きい文字の種類であり、「大文字やb,d」など
である、また、「Descender」とは、「Centred」の文字
に対して、下方向にその高さが大きい文字の種類であ
り、「g,p」などである。
種判定手段51である。この文字種判定は具体的にはつ
ぎのように行う。これを、図10のフローチャートおよ
び図11、図12を参照しながら説明する。
とにその矩形の列方向の高さを求め、図11のごとく、
その高さ分布を作成する。図11は横軸に各文字の列方
向の高さをとり、縦軸にその個数(文字数)をとる。こ
のようにして分布をとると、2つの高さh1,h2に文
字数が集中する。そして、高さh1に集中しているのは
「Centred」であると判定し(図10のステップS2
1,ステップS22)、高さh2に集中しているのは
「Ascender」または「Descender」であると判定する。
d」(同図では「a,c,m」)の矩形の中心同志を結
ぶ中心線501を求める(ステップS23)。次ぎに、
矩形の大きさと、上記中心線501に対する矩形の中心
の位置関係より、「Ascender」であるか「Descender」
であるかを判定する(ステップS24)。たとえば、図
12に示すように、「b」の矩形の中心502は、上記
中心線501よりも高い位置にあるので「Ascender」で
あると判定し、一方、「g」の矩形の中心503は、上
記中心線501よりも低い位置にあるので「Descende
r」であると判定する。
次ぎは、階段状配列文字補正手段52により、階段状配
列文字の傾きを検出してそれを補正する。
図14を参照しながら説明する。なお、前述の如く、図
24に示すように、スキャナの先端部7を行方向に対し
て直角にしたまま斜め右下方向に走査して読み取られる
と、図25に示すように文字が階段状配列された画像と
なり、このように読み取られた画像を、ここでは階段状
配列文字画像という。
理は以下のようにして行われる。まず、階段状配列され
た画像の傾きを求めるが、これは、図14のごとく、
「Centred」の文字(この場合は、「a」,「c」)の
矩形の中心間を結ぶ中心線601の傾き角θをその「Ce
ntred」の文字における画像の列方向に対する傾き角と
する(ステップS31)。この場合、「Ascender」や
「Descender」の文字は無視して、「Centred」の文字だ
けを用いて傾き角θを求め、それを行の傾きとする。
て、各矩形を構成する全てのランレングスデ−タの始点
座標を補正する(ステップS32)。つまり、傾き角θ
が0度となるように全てのランレングスデ−タの始点座
標の補正を行う。具体的には、図15(a),(b)に
示すように、各矩形301,302内の文字を構成する
全てのランレングスデ−タDの始点座標(ここでは、Y
座標)を、傾き角θに従って決定される移動量で変換す
る。このとき、補正したランレングスデ−タを基に、各
矩形の座標を補正後の座標に変更する(ステップS3
2)。
を例にとれば、「b」,「c」の文字のベースラインは
「a」の文字のベースラインに並ぶことになる。つま
り、上記ランレングスデ−タは前述したように、文字を
構成する各黒ランごとの始点座標データとその黒ランの
長さのデータであり、或る矩形を構成するランレングス
デ−タのすべての始点座標を変更するのみで、対応する
文字の補正を行うことができる。
フィン変換)ではなく、画像を列方向にずらすことによ
って行うので、より高速な処理が可能となる。
文字の切り出しを行って、それを文字認識した場合の認
識正解率は、この発明による処理を行わなかった場合、
94.4%の認識正解率であったものが、本発明によれ
ば、97.0%にまで上昇することが実験によるデータ
として得られた。
角にしたまま斜め右下方向に走査して読み取られた画像
処理について説明したが、次に、図26に示したよう
に、スキャナの先端部7を、列方向に対して右方向(ま
たは左方向)に傾むけた状態で走査して読みとられた画
像の処理について説明する。
に対して右方向に傾むけた状態で走査して読みとられた
画像は、図27(a)に示すように、列方向の並びの黒
画素が左傾斜した画像となり、また、反対にスキャナの
先端部7を、列方向に対して左方向に傾むけた状態(図
26において一点鎖線で示す)で走査すると、その読み
取り画像は図27(b)に示すように、列方向の並びの
黒画素が右傾斜した画像となる。なお、ここではスキャ
ナの先端部7を、列方向に対して左方向に傾むけた状態
で走査して読みとられた画像の処理についてを説明す
る。また、図27に示したような列方向の並びの黒画素
が傾斜した画像をここでは傾斜文字という。
出し部70の傾斜文字補正部71と、単語抽出部60を
用いて行う。この処理においては、単語ごとに処理を行
うため、単語抽出部60が用いられる。
よび図17を参照しながら説明する。
される単語に含まれる文字数が3文字以上か否かの判断
を行う(ステップS41)。この判断にて、処理される
単語に含まれる文字数が3文字以上である場合には、こ
れら各文字を構成するランレングスデ−タから、各文字
の中心付近に存在する黒ランの始点座標と終点座標を求
める(ステップS42)。これを図17を用いて具体的
に説明する。図17(a)は「and」という単語であ
り、前記したように右傾斜した画像となっている。この
ような画像において、アルファベットの活字上の飾り
(これをserif という)を取り除く(その部分の画像デ
ータを無視する)処理を行う。つまり、図17に示すよ
うに、各文字の列方向の中心部分付近の所定範囲(図
示、点線で示す範囲701)の部分の黒ランを取り出
す。このようにして取り出したものが同図(b)であ
る。そして、このようにして取り出した各黒ランの始点
座標と終点座標を求める。なお、アルファベットの活字
上の飾りを取り除くようにしたのは、傾きによる文字の
行方向の幅(画素の存在範囲)を判断する際に、飾り部
分の影響を受けないようにするためである。
の角度に合わせて変換して行く。たとえば、3°づつ左
側に傾斜させるように変換して行き、変換した画素の行
方向の存在範囲wが最も小さくなったときの角度を、そ
の画像の補正後の傾斜角とする。この存在範囲が最も小
さくなったときの各文字のwをw1,w2,w3,w
4,w5とし、そのときの図を同図(c)とする。
て行くという処理は、具体的には、図17(b)で示し
た各画像を構成する各黒ランの始点座標と終点座標を傾
き角に対応させて変えて行く(図16のステップS4
3)。そして、この始点座標と終点座標から画像の行方
向の幅(存在範囲)w1,w2,w3,・・・を求め
(ステップS44)、これら各幅(存在範囲)w1,w
2,w3,・・・を加算して、その合計値が最も小さい
角度を、その画像の補正後の傾斜角とする(ステップS
45)。このようにして補正されたものが図17(d)
である。
および補正処理を単語ごとにすることによって、ユーザ
が走査中にスキャナの入力走査角度を変えた場合にも、
傾きの検出および補正が可能となる。また、補正を行う
際、傾き角の変換は、従来のように回転的な変換(アフ
ィン変換)ではなく、図18(a),(b)に示すよう
に、画素を図示点線矢印のごとく、横方向(行方向)に
ずらして行う(ステップS47)。このような横方向
(行方向)のずらしによる補正処理は、図17(a)の
ような傾斜した文書画像の場合は、回転的な変換よりも
正確な補正が可能となり、また高速な処理が可能とな
る。また、幾つかの角度に合わせた行方向の幅wを求め
る際は、ランレングスデ−タの始点座標と終点座標だけ
を変換するようにしたので高速な処理が行える。
て、処理される単語に含まれる文字数が3文字以下であ
る場合、たとえば、「a」や「an」などの単語の場合
には、これらの前に位置する単語の傾きをこれらの単語
の傾きとする。これは、1文字や2文字の場合は、正確
に傾き角を求めることができない場合もあるため、この
ような場合には、前の単語の傾き角を参照して補正処理
を行う。
補正処理を行ったのち、文字の切り出しを行って、それ
を文字認識した場合の認識正解率は、この実施例で説明
した右傾斜のアルファベットの場合、この補正を行う前
は、91.9%の認識正解率であったものが、前記補正
処理を行った場合は、97.6%に上昇することが実験
によるデータとして得られた。また、この実施例では説
明しなかったが、左傾斜のアルファベットの場合、この
補正を行う前は、75.7%の認識正解率であったもの
が、前記補正処理を行った場合は、95.9%に上昇す
ることが実験によるデータとして得られた。なお、左傾
斜の場合と右傾斜の場合とで認識正解率に差が生じるの
は、左傾斜のフォントがアルファベットには存在しない
ためである。
向に直角にしたまま斜め右下方向に走査して読み取られ
た画像の検出、補正処理およびスキャナの先端部7を、
列方向に対して左方向(または右方向)に傾むけた状態
で走査して読みとられた画像の検出、補正処理を組み合
わせることにより、いわゆる回転画像(前記した階段状
配列となった文字がさらに列方向に対して左または右方
向に傾いた状態の画像)の検出と補正が可能となり、こ
れにより前記したような蛇行入力された画像に対しての
補正も可能となる。
理を行ったのち、文字の切り出しを行って、それを文字
認識した場合の認識正解率は、これらの補正を行う前
は、89.9%の認識正解率であったものが、前記補正
処理を組み合わせた処理を行った場合は、98.6%に
上昇することが実験によるデータとして得られた。
り対象画像を幾つかのブロックに分けて処理を行い、そ
のブロックのデータを画像メモリに蓄えておき、次の画
像データ取り込みを行っている間に、画像メモリ内の画
像データ処理を行い、全体のスキャン走査が終わった段
階で、前述したような各処理も終わるようにしている。
この実施例では、たとえば、64ラインを1ブロックと
している。
あり、まず、スキャナ11で読み取られた1ブロック分
の画像データはDMA(Direct Memory Access)コント
ローラ801により画像メモリ12に蓄えられる。そし
て、次の1ブロック分の画像データの読み込みを行って
いる間に、画像処理装置802が、画像メモリ12に蓄
えられている画像データをもとに前記したような処理を
行う。
フローチャートであり、まず、画像メモリ12に1ブロ
ック相当の未処理画像データが蓄えられたか否かを判定
(ステップS51)し、1ブロック相当の未処理画像デ
ータが蓄えられていれば画像処理を行い(ステップS5
2)、画像読み取りを終了したか否かの判定を行う(ス
テップS53)という処理を繰り返す。
み取り処理と画像補正処理を並行して行うことができ、
全体のスキャン走査が終わった段階で、前述したような
各処理も終えることも可能となり、高速で効率のよい処
理が可能となる。
的なフローチャートを図21に示す。
々の処理は、前述した通りであるので、ここでは、簡単
に説明する。
かを判定(ステップS61)する。これは、前記したよ
うに、読み取り対象画像を幾つかのブロックに分けて処
理を行う際、まだ、未処理画像ブロックがあるかどうか
という判断であり、未処理画像ブロックがあれば、その
未処理画像ブロックについて以下の処理を行う。
ることにより画像データを読み取り、その読み取り画像
データをランレングスデータ(文字を構成する黒ランの
始点座標とその長さ)に変換し(ステップS62)、1
つの文字を構成するそれぞれのランレングスデータにこ
れらのランレングスデータが連結領域であることを示す
ラベリング(1つの文字を構成するそれぞれのランレン
グスデータに同じ番号を付す)を行い(ステップS6
3)、それぞれの連結領域に外接する外接矩形を得るた
めにそれぞれの外接矩形の始点座標と終点座標を抽出す
る(ステップS64)。
ているか否か、つまり行抽出未処理の矩形が存在するか
否かの判定(ステップS65)を行い、終わっていれば
次の文字種判定未処理の矩形が存在するか否かの判定
(ステップS66)に移り、終わっていなければ、行抽
出未処理の矩形に対して行抽出処理を行う(ステップS
67)。この行抽出処理については図5、図8のフロー
チャートで説明した通りである。これにより、複数行が
同時に読み込まれた場合でも所望とする行を確実に取り
出すことができる。
定未処理の矩形が存在するか否かの判定が行われる。こ
の文字種とは前記したように「Centred」、「Ascende
r」、「Descender」などであり、このような文字種判定
が終わっていれば、次の単語抽出未処理の矩形が存在す
るか否かの判定(ステップS68)に移り、文字種判定
が終わっていない矩形があれば、文字種判定処理(ステ
ップS69)を行ったのち階段状配列文字の検出、補正
処理を行う(ステップS70)。この文字種判定処理お
よび階段状配列文字の検出、補正処理は、図10、図1
3のフローチャートで説明した通りである。この処理に
より、図24に示すように、スキャナの先端部7を行方
向に直角にしたまま斜め右下方向に走査して読み取られ
たために、図25に示すような階段状配列された画像の
補正が行われる。
の矩形が存在するか否かの判定が行われ、単語抽出未処
理の矩形が存在していれば、単語抽出を行い(ステップ
S71)、単語抽出未処理の矩形が存在していなければ
文字切り出し未処理の単語が存在するか否かの判断(ス
テップS72)を行う。
していれば、スキャナの先端部7を、列方向に対して右
方向(または左方向)に傾むけた状態で走査して読みと
られた画像の検出、補正処理を行う。この検出、補正処
理は図16のフローチャートで説明した通りである。
れ、補正された画像が得られると、今度は、文字の切り
出し処理が行われ(ステップS74)たのち、その文字
に対して文字認識処理を行う(ステップS75)。その
後、ステップS61に戻って、次の未処理ブロックがあ
れば、前記同様の処理を行う。
行して読み取られたような画像においては、所望とする
行を確実に判定して、その行を抽出することができ、ま
た、スキャナの先端部を行方向に直角にしたまま斜め右
下方向に走査して読み取られたために階段状配列となっ
た画像においても、行の判定を行ったのち階段状配列と
なった画像の補正を行うことができ、さらに、スキャナ
の先端部を、列方向に対して右方向(または左方向)に
傾むけた状態で走査して読みとられた画像の検出および
その補正処理を行うことができる。したがって、このよ
うに補正された画像を用いて、文字の切り出し処理およ
び文字認識処理を行うことにより、認識率の高い文字認
識処理が可能となる。
状態で読み込まれた文書画像データから、文書の列方向
に見た場合、その列方向の幅の中心線を含む中心線上付
近に存在する文字画像を抽出し、その文字画像が含まれ
ている行を読み込むべき行と判断するようにしたので、
複数行が蛇行した状態で読み込まれた場合でも、読み込
もうとする行の抽出が可能となる。
接矩形を、その外接矩形の始点座標とこの始点座標に対
角する終点座標として抽出したので、このデ−タを用い
て行抽出処理を行うことができ、高速な処理が可能とな
る。
向の幅の中心線を含む中心線上付近に存在する文字画像
のうち、最も中心に位置する文字画像とすることによ
り、その文字画像を基点として行抽出が可能となる。
含む中心線上付近に存在するか否かの判断を、前記文字
を包含する外接矩形の座標データから求めた外接矩形の
中心位置と前記列方向の幅の中心線との位置関係から判
断するようにしたので、中心線を含む中心線上付近に存
在する文字を確実に、かつ、高速に判定することができ
る。
線を含む中心線上付近に存在する文字画像を抽出し、こ
の抽出された文字画像に隣接する文字画像との間で重な
りを求め、順次、隣接する文字との重なりを求めて行く
ことで読み込むべき行の抽出を行うことにより、複数行
が蛇行した状態で読み込まれた場合でも、読み込もうと
する行の抽出を確実に行うことができる。
た文書画像データの列方向の幅の中心線上を含む中心線
上付近に存在する文字画像を抽出し、その文字画像が含
まれている行を読み込むべき行と判断する行抽出部を有
したので、複数行が蛇行した状態で読み込まれた場合で
も、読み込もうとする行の抽出が可能となる。
の中心線を含む中心線上付近に存在する文字画像を抽出
し、その文字画像が含まれている行を読み込むべき行と
判断する注目行抽出手段と、前記抽出された文字画像に
隣接する文字画像との間で重なり度を求め、順次、隣接
する文字との重なり度を求めて行くことで読み込むべき
行の抽出を行う注目行追跡手段とを有することにより、
文書画像データの列方向の幅の中心線を含む中心線上付
近に存在する文字画像を抽出し、この抽出された文字画
像に隣接する文字画像との間で重なり度を求め、順次、
隣接する文字との重なり度を求めて行くことで読み込む
べき行の抽出を行うことにより、複数行が蛇行した状態
で読み込まれた場合でも、読み込もうとする行の抽出を
確実に行うことができる。
接矩形を、その外接矩形の始点座標とこの始点座標に対
角する終点座標として抽出する外接矩形抽出部を前記行
抽出部の前段に設けたことにより、この外接矩形デ−タ
を用いて行抽出処理を行うことができ、1画素ごとの処
理に比べて高速な処理が可能となる。
合、アルファベットの文字種が同じ種類の文字同志であ
る最近傍の2つの文字画像を用いて、傾きを判定を行う
ようにしたので、より正確な傾き判定が可能となる。
正を、前記ランレングスデータの始点座標を変更するこ
とで行うようにしたので、1画素づつ処理を行う場合に
比べて高速な処理が可能となる。
り画像文字がアルファベットである場合、アルファベッ
トの文字種を判定する文字種判定手段と、この文字種の
うちのいずれかの1つの文字種に属する2つの文字画像
間の列方向の位置のずれをもとに補正する階段状配列文
字補正手段とを有することにより、より正確な傾き判定
とその傾きに対応した正確な補正を行うことができる。
ランレングスデータの始点座標と終点座標を、前記予め
設定した幾つかの角度にしたがって変換して行くことで
求めているので、1画素づつ変換して存在幅を求める方
式に比べると高速に処理を行うことができる。
である場合においては、1つの単語を構成する文字数が
所定数以下であるときは、その前に位置する単語の行方
向傾きをその単語の行方向の傾きとして、その傾きを基
に補正処理するようにしたので、1つの単語の構成文字
が少なくても、正確な傾き検出と補正が可能となる。
ことができ、また、前記階段状の配列となった文字画像
の補正を行い、さらに、傾斜した状態で読み込まれた文
書画像に対して傾きを補正することができる。したがっ
て、蛇行した文書画像が複数行同時に読み込まれた場合
でも、読み込むべき行の判定を確実に行うことができ、
さらに、文字の列方向のずれ、傾斜およびその両者が同
時に発生した文書に対しても補正が可能となり、この補
正処理を行ったのち、文字認識処理を行うことにより、
文字認識率を大幅に向上させることができる。
行同時に読み込まれた場合でも、読み込むべき行の判定
を確実に行うことができ、さらに、文字の列方向のず
れ、傾斜およびその両者が同時に発生した文書に対して
も補正が可能となり、この補正処理を行ったのち、文字
認識処理を行うことにより、文字認識率を大幅に向上さ
せることができる。
したのち、文字の切り出し処理および文字認識処理を行
えば、きわめて高い文字認識率が得られる。
する図。
明するフローチャート。
る図。
を説明する図。
理を説明するフローチャート。
図。
するフローチャート。
際の文字の列方向高さ分布図。
図。
ーチャート。
ート。
のずらしを説明する図。
場合の構成図。
ャート。
ート。
文書画像の一例を示す図。
図。
明する図。
まれた場合の従来技術の処理を説明する図。
た状態で走査する例を説明する図。
た状態で走査して読み込まれた場合の画像例を示す図。
Claims (16)
- 【請求項1】 原稿上の文書をスキャナにより走査する
ことによって読み取り、その読み取り画像を、文字画像
の切り出しおよび文字認識処理を行い得る状態に画像処
理する画像処理方法において、 複数行が蛇行した状態で読み込まれた文書画像データか
ら、文書の列方向に見た場合、その列方向の画像読み取
り幅の中心線を含む中心線上付近に存在する文字画像を
抽出し、その文字画像が含まれている行を読み込むべき
行と判断することを特徴とする画像処理方法。 - 【請求項2】 前記抽出する文字画像は、前記列方向の
画像読み取り幅の中心線を含む中心線上付近に存在する
文字画像のうち、最も中心に位置する文字画像であるこ
とを特徴とする請求項1記載の画像処理方法。 - 【請求項3】 前記スキャナにより読み込まれた文書画
像から、各文字画像ごとにその文字画像を包含する外接
矩形を、その外接矩形の始点座標とこの始点座標に対角
する終点座標として抽出することを特徴とする請求項1
または請求項2記載の画像処理方法。 - 【請求項4】 前記列方向の画像読み取り幅の中心線を
含む中心線上付近に存在するか否かの判断は、前記文字
画像を包含する外接矩形の座標データから求めた外接矩
形の中心位置と前記列方向の画像読み取り幅の中心線と
の位置関係から判断することを特徴とする請求項3記載
の画像処理方法。 - 【請求項5】 前記読み込むべき行の抽出は、複数行が
蛇行した状態で読み込まれた文書画像データから、文書
の列方向に見た場合、その列方向の画像読み取り幅の中
心線を含む中心線上付近に存在する文字画像を抽出し、
この抽出された文字画像に隣接する文字画像との間で重
なりを求め、順次、隣接する文字との重なりを求めて行
くことで読み込むべき行の抽出を行うことを特徴とする
請求項1記載の画像処理方法。 - 【請求項6】 原稿上の文書をスキャナにより走査する
ことによって読み取り、その読み取り画像を、文字画像
の切り出しおよび文字認識処理を行い得る状態に画像処
理する画像処理方法において、 隣接する文字画像同志が同一行であるかの判断を、隣接
する文字画像同志の前記列方向の重なりから判定し、そ
れを繰り返すことにより行画像を抽出してなるととも
に、 前記読み込むべき行の抽出は、複数行が蛇行した状態で
読み込まれた文書画像データから、文書の列方向に見た
場合、その列方向の画像読み取り幅の中心線を含む中心
線上付近に存在する文字画像を抽出し、この抽出された
文字画像に隣接する文字画像との間で重なりを求め、順
次、隣接する文字画像との重なりを求めて行くことで読
み込むべき行の抽出を行うことを特徴とする画像処理方
法。 - 【請求項7】 原稿上の文書をスキャナにより走査する
ことによって読み取り、その読み取り画像を、文字画像
の切り出しおよび文字認識処理を行い得る状態に画像処
理する画像処理装置において、 複数行が蛇行した状態で読み込まれた文書画像データか
ら、文書の列方向に見た場合、その列方向の画像読み取
り幅の中心線上を含む中心線上付近に存在する文字画像
を抽出し、その文字画像が含まれている行を読み込むべ
き行と判断する行抽出部を有したことを特徴とする画像
処理装置。 - 【請求項8】 前記行抽出部は、文書の列方向に見た場
合、その列方向の画像読み取り幅の中心線を含む中心線
上付近に存在する文字画像を抽出し、その文字画像が含
まれている行を読み込むべき行と判断する注目行抽出手
段と、前記抽出された文字画像に隣接する文字画像との
間で重なりを求め、順次、隣接する文字画像との重なり
を求めて行くことで読み込むべき行の抽出を行う注目行
追跡手段とを有することを特徴とする請求項7記載の画
像処理装置。 - 【請求項9】 前記スキャナにより読み込まれた文書画
像から、各文字画像ごとにその文字画像を包含する外接
矩形を、その外接矩形の始点座標とこの始点座標に対角
する終点座標として抽出する外接矩形抽出部を前記行抽
出部の前段に設けたことを特徴とする請求項8記載の画
像処理装置。 - 【請求項10】 原稿上の文書をスキャナにより走査す
ることによって読み取り、その読み取り画像を、文字画
像の切り出しおよび文字認識処理を行い得る状態に画像
処理する画像処理方法において、 スキャナ走査により、各文字画像が階段状配列で読み込
まれた文字画像に対し、同一行に含まれる2つの文字画
像間の列方向の位置のずれを、その文字画像間の前記列
方向の傾きと判定し、その傾きに基づいて前記階段状の
配列となった文字画像の補正を行うとともに、 前記2つの文字画像は、文書画像がアルファベットであ
る場合、アルファベットの文字種が「Centred」である
と推定された最近傍の2つの文字画像とすることを特徴
とする画像処理方法。 - 【請求項11】 原稿上の文書をスキャナにより走査す
ることによって読み取り、その読み取り画像を、文字画
像の切り出しおよび文字認識処理を行い得る状態に画像
処理する画像処理方法において、 スキャナ走査により、各文字画像が階段状配列で読み込
まれた文字画像に対し、同一行に含まれる2つの文字画
像間の列方向の位置のずれを、その文字画像間の前記列
方向の傾きと判定し、その傾きに基づいて前記階段状の
配列となった文字画像の補正を行い、 前記スキャナから読み込まれた文書画像を、各文字画像
ごとにその文字画像を構成する黒画素の列方向に連続し
たつながりの始点座標とその黒画素部分の長さからなる
ランレングスデータに変換してなり、 前記文字画像間の前記列方向の傾きに応じて、前記ラン
レングスデータの始点座標を変更することで前記階段状
の配列となった文字画像の補正を行うことを特徴とする
画像処理方法。 - 【請求項12】 原稿上の文書をスキャナにより走査す
ることによって読み取り、その読み取り画像を、文字画
像の切り出しおよび文字認識処理を行い得る状態に画像
処理する画像処理装置において、 スキャナ走査により、各文字画像が階段状配列で読み込
まれた文字画像に対し、同一行に含まれる2つの文字画
像間の列方向の位置のずれを、その文字画像間の列方向
の傾きと判定し、その傾きに基づいて前記階段状の配列
となった文字画像の補正を行う階段状配列文字補正部を
有し、 前記階段状配列文字補正部は、読み取り文字画像がアル
ファベットである場合、アルファベットの文字種を判定
する文字種判定手段と、この文字種のうちの「Centre
d」であると推定された2つの文字画像間の列方向の位
置のずれをもとに補正する階段状配列文字補正手段とを
有することを特徴とする画像処理装置。 - 【請求項13】 原稿上の文書をスキャナにより走査す
ることによって読み取り、その読み取り画像を、文字画
像の切り出しおよび文字認識処理を行い得る状態に画像
処理する画像処理方法において、 スキャナ走査により、各文字画像が列方向に対して傾斜
した状態で読み込まれた文書画像を、予め設定した幾つ
かの角度にしたがって傾斜角を変えて行き、文書画像の
行方向の存在幅が最小になる角度を、文書画像の列方向
に対する所望とする角度と判定し、その角度になるよう
に文書画像の傾きを補正してなり、 前記スキャナから読み込まれた文書画像から、各文字画
像ごとにその文字を構成する黒画素の列方向に連続した
つながりの始点座標とその黒画素部分の長さからなるラ
ンレングスデータに変換し、 前記文書画像を予め設定した幾つかの角度にしたがって
傾斜角を変えて行き、文書画像の行方向の存在幅を求め
る手段として、前記ランレングスデータの始点座標と終
点座標を、前記予め設定した幾つかの角度にしたがって
変換して行き、変換後の始点座標と終点座標から文書画
像の行方向の存在幅を求めることを特徴とする画像処理
方法。 - 【請求項14】 原稿上の文書をスキャナにより走査す
ることによって読み取り、その読み取り画像を、文字画
像の切り出しおよび文字認識処理を行い得る状態に画像
処理する画像処理方法において、 スキャナ走査により、各文字画像が列方向に対して傾斜
した状態で読み込まれた文書画像を、予め設定した幾つ
かの角度にしたがって傾斜角を変えて行き、文書画像の
行方向の存在幅が最小になる角度を、文書画像の列方向
に対する所望とする角度と判定し、その角度になるよう
に文書画像の傾きを補正してなり、 前記読み取り文書画像がアルファベットである場合にお
いて、1つの単語を構成する文字数が所定数以下である
ときは、その前に位置する単語の列方向傾きをその単語
の列方向の傾きとして、その傾きを基に補正処理するこ
とを特徴とする画像処理方法。 - 【請求項15】 原稿上の文書をスキャナにより走査す
ることによって読み取り、その読み取り画像を、文字画
像の切り出しおよび文字認識処理を行い得る状態に画像
処理する画像処理方法において、 複数行が蛇行した状態で読み込まれた文書画像データか
ら、文書の列方向に見た場合、その列方向の読み取り幅
の中心線上を含む中心線上付近に存在する文字画像を抽
出し、その文字画像が含まれている行を読み込むべき行
と判断し、 前記読み込むべき行の一行に含まれる2つの文字画像間
の列方向の位置のずれを、その文字画像間の列方向の傾
きと判定し、その傾きに基づいて階段状の配列となった
文字画像の補正を行い、 次に、予め設定した幾つかの角度にしたがって傾斜角を
変えて行き、文書画像の行方向の存在幅が最小になる角
度を、文書画像の列方向に対する所望とする角度と判定
し、その角度になるように文書画像の傾きを補正するこ
とを特徴とする画像処理方法。 - 【請求項16】 原稿上の文書をスキャナにより走査す
ることによって読み取り、その読み取り画像を、文字画
像の切り出しおよび文字認識処理を行い得る状態に画像
処理する画像処理装置において、 複数行が蛇行した状態で読み込まれた文書画像データか
ら、文書の列方向に見た場合、その列方向の読み取り幅
の中心線上を含む中心線上付近に存在する文字画像を抽
出し、その文字画像が含まれている行を読み込むべき行
と判断する行抽出部と、 前記行抽出部が抽出した行に含まれる文字画像を、同一
行に含まれる2つの文字画像間の列方向の位置のずれ
を、その文字画像間の列方向の傾きと判定し、その傾き
に基づいて階段状の配列となった文字画像の補正を行う
階段状配列文字補正部と、 前記階段状配列文字補正部により補正された文字画像
を、予め設定した幾つかの角度にしたがって傾斜角を変
えて行き、文書画像の行方向の存在幅が最小になる角度
を、文書画像の列方向に対する所望とする角度と判定
し、その角度になるように文書画像の傾きを補正する傾
斜文字補正部と、 を有したことを特徴とする画像処理装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP06177130A JP3108979B2 (ja) | 1994-07-28 | 1994-07-28 | 画像処理方法および画像処理装置 |
US08/508,860 US5781660A (en) | 1994-07-28 | 1995-07-28 | Image processing method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP06177130A JP3108979B2 (ja) | 1994-07-28 | 1994-07-28 | 画像処理方法および画像処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0844819A JPH0844819A (ja) | 1996-02-16 |
JP3108979B2 true JP3108979B2 (ja) | 2000-11-13 |
Family
ID=16025704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP06177130A Expired - Fee Related JP3108979B2 (ja) | 1994-07-28 | 1994-07-28 | 画像処理方法および画像処理装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5781660A (ja) |
JP (1) | JP3108979B2 (ja) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5719970A (en) * | 1994-07-08 | 1998-02-17 | Seiko Epson Corporation | Image processing method and device |
JP3099771B2 (ja) * | 1997-05-07 | 2000-10-16 | 日本電気株式会社 | 文字認識方法、装置及び文字認識プログラムを記録した記録媒体 |
JP3471578B2 (ja) * | 1997-08-29 | 2003-12-02 | シャープ株式会社 | 行方向判定装置、画像傾き検出装置及び画像傾き補正装置 |
JP4170441B2 (ja) * | 1997-11-28 | 2008-10-22 | 富士通株式会社 | 文書画像傾き検出装置および文書画像傾き検出プログラムの記憶媒体 |
US6804414B1 (en) * | 1998-05-01 | 2004-10-12 | Fujitsu Limited | Image status detecting apparatus and document image correcting apparatus |
AU1108200A (en) * | 1998-12-19 | 2000-07-12 | Horizon Marketing Corporation, Aka Wordwand | Improved method and apparatus for deskewing images of symbols having a non-linear baseline |
JP4323606B2 (ja) | 1999-03-01 | 2009-09-02 | 理想科学工業株式会社 | 文書画像傾き検出装置 |
JP2002024762A (ja) * | 2000-06-30 | 2002-01-25 | Toshiba Corp | 文書認識装置及びその方法 |
US7898695B1 (en) | 2000-10-06 | 2011-03-01 | Lexmark International, Inc. | Method of compensating for electronic printhead skew and bow correction in an imaging machine to reduce print artifacts |
US6999635B1 (en) * | 2002-05-01 | 2006-02-14 | Unisys Corporation | Method of reducing background noise by tracking character skew |
WO2004029867A1 (ja) * | 2002-09-30 | 2004-04-08 | Matsushita Electric Industrial Co., Ltd. | 画像補正装置および画像補正方法 |
US7602995B2 (en) | 2004-02-10 | 2009-10-13 | Ricoh Company, Ltd. | Correcting image distortion caused by scanning |
US7765214B2 (en) * | 2005-05-10 | 2010-07-27 | International Business Machines Corporation | Enhancing query performance of search engines using lexical affinities |
KR101198769B1 (ko) * | 2007-07-13 | 2012-11-12 | 삼성전자주식회사 | 화상형성장치 및 그 제어방법 |
JP5556663B2 (ja) * | 2008-10-10 | 2014-07-23 | 日本電気株式会社 | 照合装置、照合方法、及びプログラム |
KR101207127B1 (ko) * | 2010-03-19 | 2012-11-30 | 전남대학교산학협력단 | 문자 인식 전처리 방법 및 장치 |
JP5959637B2 (ja) * | 2011-06-30 | 2016-08-02 | グーグル インコーポレイテッド | ラインに従うテキストイメージのレンダリング |
US8400453B2 (en) * | 2011-06-30 | 2013-03-19 | Google Inc. | Rendering a text image following a line |
US8760451B2 (en) | 2011-06-30 | 2014-06-24 | Google Inc. | Rendering a text image using texture map character center encoding with character reference encoding |
JP5884560B2 (ja) * | 2012-03-05 | 2016-03-15 | オムロン株式会社 | 文字認識のための画像処理方法、およびこの方法を用いた文字認識装置およびプログラム |
JP6286866B2 (ja) | 2013-05-20 | 2018-03-07 | オムロン株式会社 | 画像処理装置および画像処理方法 |
EP3422326A4 (en) * | 2016-04-26 | 2019-03-06 | Aisin Aw Co., Ltd. | SYSTEM AND PROGRAM FOR DISPLAYING CARD |
JP6200040B1 (ja) * | 2016-06-17 | 2017-09-20 | 株式会社Pfu | 画像処理装置、画像処理方法、および、プログラム |
JP6642833B2 (ja) * | 2016-10-28 | 2020-02-12 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置 |
JP7379876B2 (ja) * | 2019-06-17 | 2023-11-15 | 株式会社リコー | 文字認識装置、文書ファイル生成方法、文書ファイル生成プログラム |
CN111783780B (zh) * | 2019-11-18 | 2024-03-05 | 北京沃东天骏信息技术有限公司 | 图像处理方法、装置及计算机可读存储介质 |
JP2022092917A (ja) | 2020-12-11 | 2022-06-23 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56108175A (en) * | 1980-01-29 | 1981-08-27 | Nec Corp | Optical manual scan type reader |
JPS598088A (ja) * | 1982-07-05 | 1984-01-17 | Nippon Telegr & Teleph Corp <Ntt> | 画像読み取り方式 |
DE3579627D1 (de) * | 1984-04-10 | 1990-10-18 | British Telecomm | Mustererkennungseinrichtung. |
US4809351A (en) * | 1985-06-07 | 1989-02-28 | Saba Technologies, Inc. | Optical character reader |
JPH01156887A (ja) * | 1987-12-15 | 1989-06-20 | Seiko Epson Corp | 文字認識装置 |
JP2597006B2 (ja) * | 1989-04-18 | 1997-04-02 | シャープ株式会社 | 矩形座標抽出方法 |
JPH03250387A (ja) * | 1990-02-28 | 1991-11-08 | Pfu Ltd | 文字切出し方式 |
US5307424A (en) * | 1990-12-12 | 1994-04-26 | Eberhard Kuehl | Character recognition system |
US5307422A (en) * | 1991-06-25 | 1994-04-26 | Industrial Technology Research Institute | Method and system for identifying lines of text in a document |
JPH0528317A (ja) * | 1991-07-23 | 1993-02-05 | Canon Inc | 画像処理方法及び装置 |
JP3320759B2 (ja) * | 1991-12-26 | 2002-09-03 | 株式会社東芝 | 文書画像傾き検出装置およびその方法 |
-
1994
- 1994-07-28 JP JP06177130A patent/JP3108979B2/ja not_active Expired - Fee Related
-
1995
- 1995-07-28 US US08/508,860 patent/US5781660A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US5781660A (en) | 1998-07-14 |
JPH0844819A (ja) | 1996-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3108979B2 (ja) | 画像処理方法および画像処理装置 | |
US5613016A (en) | Area discrimination system for text image | |
EP0854434B1 (en) | Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof | |
JPH0816918B2 (ja) | 行抽出方法 | |
US5129012A (en) | Detecting line segments and predetermined patterns in an optically scanned document | |
US5081690A (en) | Row-by-row segmentation and thresholding for optical character recognition | |
JP3411472B2 (ja) | パターン抽出装置 | |
JP2017161969A (ja) | 文字認識装置、方法およびプログラム | |
EP0766193B1 (en) | Optical character reader with skew correction | |
EP0062665A1 (en) | Segmentation system and method for optical character scanning | |
JP2868134B2 (ja) | 画像処理方法及び装置 | |
JP3642615B2 (ja) | パターン領域切り出し方式及びパターン抽出装置 | |
JP3019897B2 (ja) | 行切出し方法 | |
JP3095470B2 (ja) | 文字認識装置 | |
JP3437296B2 (ja) | 文字列高速抽出装置 | |
JP3188580B2 (ja) | 文字切り出し回路、及び文字切り出し方法 | |
JP3153439B2 (ja) | 文書画像傾き検出方法 | |
JP3402755B2 (ja) | 領域分割方法 | |
JP3710164B2 (ja) | 画像処理装置及び方法 | |
JP2003317107A (ja) | 罫線抽出方法及び装置 | |
JP3343305B2 (ja) | 文字切り出し装置、及び文字切り出し方法 | |
JPH117493A (ja) | 文字認識処理装置 | |
JP3071479B2 (ja) | 行間スペース検出方法 | |
JP3027232B2 (ja) | 文字認識装置 | |
JP2522511B2 (ja) | 画像輪郭追跡ユニット |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080914 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080914 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090914 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090914 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100914 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100914 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110914 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120914 Year of fee payment: 12 |
|
LAPS | Cancellation because of no payment of annual fees |