JP5424694B2 - 画像認識装置、及びプログラム - Google Patents

画像認識装置、及びプログラム Download PDF

Info

Publication number
JP5424694B2
JP5424694B2 JP2009096365A JP2009096365A JP5424694B2 JP 5424694 B2 JP5424694 B2 JP 5424694B2 JP 2009096365 A JP2009096365 A JP 2009096365A JP 2009096365 A JP2009096365 A JP 2009096365A JP 5424694 B2 JP5424694 B2 JP 5424694B2
Authority
JP
Japan
Prior art keywords
boundary
image
boundary line
edge
foreground
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009096365A
Other languages
English (en)
Other versions
JP2010250387A (ja
Inventor
広 新庄
健 永崎
和樹 中島
憲志 柴田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Information and Telecommunication Engineering Ltd
Original Assignee
Hitachi Information and Telecommunication Engineering Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Information and Telecommunication Engineering Ltd filed Critical Hitachi Information and Telecommunication Engineering Ltd
Priority to JP2009096365A priority Critical patent/JP5424694B2/ja
Publication of JP2010250387A publication Critical patent/JP2010250387A/ja
Application granted granted Critical
Publication of JP5424694B2 publication Critical patent/JP5424694B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像認識装置及びプログラムに関し、例えば、紙の文書をOCR装置等によって撮像し、撮像した画像から文書領域と思われる部分のみを切り出して保存する技術に関するものである。
法令遵守や文書電子化などの社会的な要求から、様々な業務文書を電子画像として保存し、これを読取る文書読取システムが社会的に求められている。一般に、このようなプロセスを遂行するためにはOCR(Optical Character Recognition)装置が用いられる。すなわち、OCR装置を用いて紙文書をスキャンし、画像上から紙文書のエリアを検出し、当該紙文書エリア内に書かれている文字を認識し、当該読取結果を修正インタフェース上に表示し、当該読取結果に存在する紙面領域の検出誤りや読取誤りや読取欠損を人手で修正する、という一連のプロセスによって、様々な業務文書を電子画像として保存する。
このとき、OCR装置及び文書読取システムにとっての重要な課題の一つは、様々なデザインや色を持つ文書に対して、容量をなるべく減らした上で、正しい文書画像を保存することである。そのためには画像中から文書の領域を推定して、当該領域のみの画像を抽出、さらに補正(回転補正や切り出しなど)して、これを保存することが必要となる。ここでは、紙領域と思われるエリアを推定する処理を、紙面の4辺(エッジ)を検出するという意味において、4辺検出と称することにする。
特開平8−162190号公報 特開2005−285010号公報
2値画像に対しての4辺検出の技術は従来からあるが、さまざまなデザイン、模様、色を持つ文書に対しての4辺検出は未だ確立した技術とはなっていない。従来の手法では2値画像を用いる、あるいはカラー画像上を走査してエッジと思われる箇所をフィルタ演算などで抽出し、紙面領域の輪郭を追跡することで4辺検出を行っている(例えば、特許文献1)。つまり、従来のOCRスキャナでは紙面領域(前景色)が白、背景色が黒であることを前提として、2値画像を用いて4辺検出を行っている。この場合は、2値画像からランを作成し、白と黒の境界線をラン上で追跡して紙面領域を囲む輪郭を計算するなどにより、4辺検出を行っている。従って、2値画像の入力を前提とした場合、紙面上に濃い色が紙の端まで載っている場合に、正確に検知できないという問題が生じる。その対策として、カラー画像やグレー階調画像を用いて4辺検出を行うことが考えられる。
しかしながら、2値画像に比べてカラー画像の容量は4〜24倍へと大きく増えるため、2値画像を踏襲した方法では処理時間が大幅に増えるという問題がある。
また、紙面の背景色となる黒色も、OCR装置に付いた紙粉などの影響により、安定した輝度にならないため、紙面領域の推定誤りが生じやすいという問題もある。
さらに、上述のように高解像度のカラー画像やグレー階調画像を全面走査することは、計算量が掛かるため、処理時間の点で課題が残る。
本発明はこのような状況に鑑みてなされたものであり、高解像度のカラー画像が対象であっても正確かつ高速に4辺検出することができる技術を提供するものである。
上記課題を解決するために、本発明では、格子点状に画像からプレサンプリングを行い、画像構成色の分布解析によって背景色と前景色の境界を推定することにより、大まかな紙面領域を推定する。そして、大まかな領域近辺で詳細な二分探索を行うことで計算量を抑えてエッジの検出を行う。また、エッジ辺の妥当性に対する検定処理を行い、必要であればより詳細なエッジ辺検出を行う。このように、本発明では、多段構成のエッジ検出処理を実行する。
より具体的には、本発明による画像認識装置(OCR装置)は、格子点抽出処理部と、画像解析部と、エッジ推定処理部と、境界線取得部と、を備えている。格子点抽出処理部は、画像データから複数の格子点を抽出する。画像解析部は、抽出された複数の格子点を用いて画像濃度に関する第1のヒストグラムを生成し、当該第1のヒストグラムから背景と前景とを分離するための第1の分離閾値を算出し、複数の格子点について当該第1の分離閾値を適用し、背景と前景の境界近傍の格子点を抽出する。また、エッジ推定処理部は、境界近傍の格子点も用いてエッジ推定する。なお、この推定は、第1の分離閾値に最も近い前記前景及び背景に属する複数の格子点に対して二分検索処理を実行することによって実現できる。境界線取得部は、エッジ推定処理によって得られた複数のエッジ点を用いて直線近似処理を実行して境界線を取得する。
上記画像認識装置は、さらに、境界評価部を備えている。この境界評価部は、前景領域内の画像濃度と背景領域内の画像濃度との差分値を用いて、境界線が前景と背景を区別する境界として妥当であるか評価する。具体的には、境界評価部は、画像濃度の差分値が第1の閾値以下となる箇所の個数が所定値未満であるか否か (第1の条件)及び背景領域における画像濃度の分散が第2の閾値より大きいか否か(第2の条件)を判断し、第1又は第2の条件のいずれかを満足する場合には、取得された境界線は妥当であると判断する。第1及び第2の条件のいずれからも外れる場合には、境界線は不適当であると判断される。この場合、画像解析部は、取得された境界線の近傍の存在する所定数の画素サンプルを取得し、当該画素サンプルについての第2のヒストグラムを生成し、当該第2のヒストグラムから前記背景と前記前景を分離するための第2の分離閾値を算出する。そして、エッジ推定処理部は、第2の分離閾値を用いて二分探索処理を実行して複数のエッジ点(修正エッジ点)を検出する。さらに、境界線取得部が、修正エッジ点を用いて直線近似処理を実行して修正境界線を取得する。このようにして多段攻勢のエッジ検出処理が実現される。
上記画像認識装置は、さらに、傾き補正部を備えている。この傾き補正部は、境界線又は修正境界線が複数ある場合、対向する2つの境界線又は修正境界線の傾き差を算出し、この傾き差が所定値以上のときに、対抗する境界線又は修正境界線を補正する。
さらなる本発明の特徴は、以下本発明を実施するための最良の形態および添付図面によって明らかになるものである。
本発明により、紙文書をカラーまたはグレー階調でスキャンした画像について、紙面のエッジに暗い色が載っていても、画像構成色の分布解析によって背景色と前景色の分離境界を推定して、これを分離することができるようになる。また、詳細な境界の探索を二分探索で行うことで、高解像度の画像に対しても高速な4辺検出が見込める。
装置構成を示す図である。 4辺検出の概念図である。 4辺検出処理の機能ブロック図である。 4辺検出における画像濃度分布解析の例である。 4辺検出におけるエリア推定と2分探索エリアの決定例である。 4辺検出における第二パスでの画像濃度分布解析の例である。 4辺検出における尤度の低い1辺の補正例である。 第二パスでの処理を想定する画像例である。
本発明は、例えば、紙の文書をOCR装置等によって撮像し、撮像した画像から文書領域と思われる部分のみを切り出して保存する技術に関するものである。これを実現するために、本発明では、格子点状に画像からプレサンプリングを行い、画像構成色の分布解析によって背景色と前景色の境界を推定することにより大まかな紙面領域を推定し、更に大まかな領域近辺で詳細な二分探索を行うことで計算量を抑えてエッジの検出を行っている。
以下、添付図面を参照して本発明の実施形態について説明する。ただし、本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。また、各図において共通の構成については同一の参照番号が付されている。
<認識装置(OCR装置)の構成>
まず、本実施形態が適用されるハードウェア構成について説明する。図1は、本発明の実施形態による文字認識装置(OCR装置及び文書読取システム)の概略構成を示す図である。
OCR装置0100では、画像撮像部である画像撮像装置0101により紙文書を電子データに変換し、それを記憶部である外部記憶装置0105及びメモリ0106に蓄えて、中央処理部(CPU)である中央演算装置0107により読取を行う。
本実施形態に係わるOCRプログラム及び証跡管理プログラムは、外部記憶装置0105またはメモリ0106に蓄えられているか、通信装置0109を介して装置に導入され、これら記憶部0105又は0106に記憶される。OCRプログラムは、撮像された電子データ画像に対して、中央演算装置0107が画像処理を行い、4辺検出を行い、必要であれば紙面領域のみを切り出した画像を出力する。これらの処理結果に対しては、操作端末装置0102を通して操作者である人間が操作(修正)可能となっており、処理結果及び修正結果は表示端末装置0103に表示される。処理結果などの情報は、必要に応じて外部記憶装置0105に蓄積または通信装置0109を通して外部接続装置にデータとして送信されるようにしてもよい。
上述の各処理部及び装置は、内部バス0108によって繋がっている。入力された伝票類は、伝票の大きさや種類毎に、ソータ装置0104によって定義された箱に分配・集積される。言い換えるなら、OCR装置0100は、画像撮像装置0101とソータ装置0104を除けば、通常のパーソナルコンピュータ(PC)などのコンピュータシステムで構成されうるものである。
OCRプログラムは、上記OCR装置0100から出力された画像、及び認識結果を表示端末装置0103に表示する。画像の4辺検出は、操作端末装置0102を通して操作者である人間によって修正、チェックが行われる。そして、OCRプログラムは、その修正結果を外部記憶装置0105またはメモリ0106に蓄える。
<4辺検出の具体的処理内容>
図2は、4辺検出の概念を示す図である。また、図3は、4辺検出処理の概要を説明するためのフローチャートである。さらに、図4乃至8は、4辺検出処理と画像の例を示し、4辺検出処理の内容の理解を助ける図である。
以下、図3乃至8を基づいて各処理ステップを詳細に説明する。尚、各ステップの動作主体は、特に断らない限り、中央演算装置0107であるが、この中央処理装置0107は、各ステップを処理している際には、各処理部として機能している。つまり、例えば、プレサンプリング処理を動作させている場合には、中央処理装置0107は、プレサンプリング処理部となる。他のステップについても同様である。
1)プレサンプリング処理(S0301)
当該ステップでは、入力された画像(例えば帳票画像)にLn×Lnの格子があてはめられ、その格子点の画素情報がサンプリング処理される。つまり、これは、入力画像に対して複数の格子点を定義し、この格子点近傍の画素の色(濃度)を推定する処理である。紙面だけでなく、黒の背景についてもサンプリングされる。
Lnの数は検出するべき最小紙面サイズと、撮像できる最大領域から決められる。例えば、最小紙面サイズ上にサンプルリング点を最小4×4個含みたい場合、格子点の数は、(4×最大領域サイズの横幅)/最小紙面サイズの横幅、という形で決められる。精度向上のために増やすこともできるが、これにともなって処理時間は増加する。
そして、当該ステップでは、さらに、各格子点について画像のサンプリング処理が実行される。この際、画素値としてPn×Pn画素の中央値(メディアン)が用いられる。Pn×Pn画素の中央値を用いた場合、対象領域に(Pn/2−1)画素幅のライン状ノイズが横断していたとしても、ノイズ成分は中央値に影響を及ぼすことはない。
従って、スキャン時の走査方向のノイズ幅として想定する値の2倍の値をPnとして設定すれば良い。一般には、Pnとして1mm相当の画素数、すなわち200dpi画像であればPn=8であれば十分である。
2)画像濃度分布解析による閾値決定処理(S0302)
当該ステップでは、プレサンプリングで得られたLn×Ln箇所のサンプル点から、画像構成色のヒストグラムが生成される。
図4はそのヒストグラムの一例を示している。図4に例示したヒストグラム0401では、データ区間50の部分が背景色のデータであり、第一のピークが形成されている。従って、閾値Tb1をこのピークの次の値100に設定すれば背景色と帳票色の識別が行えることがわかる。具体的には、画像濃度分布のヒストグラムの横軸を0(黒色)から昇順に走査し、第一ピークを発見し、第一ピークにおけるサンプル数のTp比率より低い所を、背景色と前景色の境界とする。一般にはTpとして0.1を用いると良い。
3)エッジ推定処理(S0303)
当該ステップで実行されるエッジ推定処理は2段階の処理で構成されている。
まず、プレサンプリングによって得られたLn×Lnの格子点の情報を用いて、帳票のエッジ(4辺)の位置の推定処理が実行される。これは、格子点上の画素値(上記Pn×Pn画素の中央値)についてオペレータ演算により、エッジがどのブロック(格子で囲まれた小領域)にあるかを計算する。具体的には、上下左右の4つの境界線を識別するために、上下方向、ならびに左右方向の2種類の擬似Sobelオペレータを使用する。図5Aはサンプリングとエッジ推定区間の例を示す図である。サンプリング点を丸で、推定された領域を灰色の丸(0501)で、更に詳細な判定を行う区間を太線(0501)で示している。
次に、エッジ推定によって得られた小領域の中を二分探索によってエッジを詳細に計算する。二分探索は、4辺においてビットマップの端からエッジ推定を行った部分について行われ、両端からエッジを挟み撃ちにしてエッジを検出する処理である。二分探索において両端とその中央の画素値を比較するため、暗い地色の帳票の場合でもエッジ検出を行うことができる。すなわち、両端点における画素値をG1及びG2、中間点の画素値をG3とした場合、G1とG2の差分量|G1−G2|の絶対値のみでエッジを判断するだけでなく、画素値の変化量の大小による判断が可能となるためである。これについては、図5Bの例を参照して説明する。
図5Bは、二分探索を行うある範囲での画素値の変化を表した図である。最初に境界内(紙面上)と判断された点の画素値(0503)は閾値Tb1をぎりぎりで上回っているが、そこからやや暗めの色がグラデーションを掛けられて紙面上に載っているとすると、その隣の点までが紙面上の領域となる。すなわち、紙面(明るい領域)と背景(暗い領域)の境界とを閾値Tb1のみで決定すると誤る可能性がある。そこで、二分探索によって画素値の並びG1→G3→G2で最も急峻に変換するところを探索する。探索開始当初の両端点が(0504,0505)であり、その中間点が(0506)、更に画素値の変化の急峻度合いが角度(0507)によって計量できる。より急峻な変化量を得るように|G1−G3|と|G3−G2|のうち差分が大きいほうを次の二分探索の端点とするように計算を繰り返すと、最終的には両端点として(0508、0509)、中間点として(0510)、変化量として最も大きな(0511)を得る。これによりエッジ推定区間内においてエッジと推定されうる部分が、点(0508)と点(0510)の間にあるという推定ができる。
4)境界線の近似処理(S0304)
当該ステップでは、各辺について最大Ne箇所のエッジ検出が実行され、ここで得られたエッジ群について最小二乗法によって直線近似が実行される。つまり、これは、エッジ推定処理によって得られた境界点であろうと思われる点に対して直線近似する処理である。
直線近似において、近似した直線からの乖離が大きいものに関しては近似から外し、これを数回繰り返すことでコーナーカットやノイズによる誤認識の影響を除去する。予備実験の結果では、一箇所につき5〜7回の比較で収束し、各辺ではNe×7回の比較、4辺合計でも最大4×Ne×7回の比較でエッジを検出する。一般にはNeとして10を用いる。
5)近似境界線の評価処理(S0305)
当該ステップでは、近似境界線で区切られた2領域においてNe点のサンプリングが行われ、紙面領域内と紙面領域外の画像濃度の差分値によって境界線の妥当性が評価される。つまり、これは、求めた近似直線が境界線として尤もらしいか判断する処理である。
境界線の内外での画素値の差分が小さければ、領域を区切る境界として不適当である。また、境界線外の画素値の分散が大きい場合は、様々な模様が載っていると判断して不適当と判断する。すなわち、以下の条件a又はbを満たさない境界線は、ステップS0306以降の処理が実行される。以下の条件を満たす場合は、近似境界線は適正なものと判断され、処理はステップS0309に移行する。
a)境界線に沿ったサンプリング位置について、境界線の内側と外側とで画素値の差分量を計算し、差分量が閾値Te1以下となる箇所の個数が、閾値Te2(個数)を下回ること。
又は
b)紙面領域外の画像濃度の分散が閾値Te3大きいと判断されたこと(紙面の外と判断された領域の色がどれだけばらついているかについて判断)。
この2つの条件の何れかに当てはまる境界線は、当該境界線についての第二パス処理により境界線の修正を行う。第二パスの処理は以下の6)〜8)で説明する。第二パス処理は、S0302よりももっと部分的に(細かく)画像濃度を解析して近似境界直線を求める処理である。
6)画像濃度分布解析処理2(S0306)
当該ステップは第二パスの最初の処理であり、ここでは、画像濃度分布解析によって閾値が再度決定される。
まず、境界外の画素サンプル、および縁取りを検出するために境界線のすぐ外側の画素サンプルについて、各境界線に関してNo個の画素サンプルを得て、これらの画素サンプルのヒストグラムが作成される。
図6は、このヒストグラムの例を示す図である。図6Aの斜線エリアがサンプリングエリアとなり、そこから得られたヒストグラムが図6Bのようになる。
図6Bのヒストグラムにおいては、横軸の左側が暗い部分(背景)、右側が明るい部分となり、その間に谷ができていることが見てとれる。この谷を背景色と前景色との閾値Tb2とする。より具体的には、閾値の計算はデータ区間を0から昇順に走査して最初のピークから、頻度がTp比率に下がった区間を閾値とする。閾値Tb1と閾値Tb2の違いは、ヒストグラムを作る際に使用する領域の広さである。閾値Tb2を計算する元となるヒストグラムは、当初境界線と推定された領域に限定されるため、より背景色と前景色の境界が出やすくなる。
7)エッジ検出処理(S0307)
当該ステップでは、S0303の処理における二分探索でエッジが検出される。なお、このとき使用される閾値は、S0306の処理で求めた閾値である。
8)境界線の近似処理(S0308)
当該ステップでは、S0307で求めたエッジ点から境界線が直線で近似される。境界線近似に関しては、S0304で実行された処理と同じ処理が実行される。
9)境界線の平行度評価処理(S0309)
当該ステップでは、対向する2つの境界線の傾きを比較し、傾きの差が一定以上の場合にはS0310において境界線の補正処理が実行されることになる。すなわち、左と右、または上と下の2つ境界線の方向をベクトル(2次元ベクトル)L1,L2として表した場合、ベクトル間の角度の絶対コサイン値|<L1、L2>|/(|L1|×|L2|)が閾値Trより大きい場合は、両者は平行線にならないと判断される。
10)境界線の補正処理(S0310)
当該ステップでは、S0309の処理で平行線を構成しないと判断された2つの境界線については、各々の境界線において、垂直に隣接する境界線と交わる角度が求められる。当該角度に垂直から一定以上の誤差Taがある場合には、その境界線は間違っているとみなされ、対向する境界線から境界線の推定が行われる。このような処理を行うのは、図7にあるように、紙面上に背景色とほぼ同じ暗さの模様が載っていて、それが大きな面積を占めているケースにおいて、境界線検出の失敗を救済するためである。この場合、当初右端の境界線として推定されたのが直線(0701)である。しかし、左側、上側、下側の境界線は高い尤度を持つので、これら三辺は正確であるとみなし、あいまいな右側の辺を求めなおす。その処理は次の過程から成る。
i)左辺から一番遠く、前景色の閾値以上の濃度を持つサンプル点を求める過程
ii)左辺と同じ傾きを持つ線分で、最も遠いサンプル点を通るものを右辺とする過程
そして、上記の処理により、新しい境界線0702が得られる。
一方、S0308の処理で平行線を構成しないと判断された2つの境界線が、共に角度の誤差Ta以上ある場合は、より境界線らしいものを基準として、もう一方の境界線の角度を推定する。この場合、より境界線らしいとは、S0305の処理の条件aにあるように、境界線に沿ってサンプリング点を選び、境界内外の画素値の差分量を取り、その平均が大きいほうを、より境界線らしいと判断する。
以上が4辺検出のプロセスとなる。第一パスと第二パスの役割の違いは、以下のようにまとめることができる。
R1)第一パスでは、あらかじめ規定されたサンプリングを行った全データ内部の設定値から決定された閾値によって認識処理を実行する。
R2)第二パスでは、第一パスで収集した統計情報を用いて内部の設定値を変更し決定した領域の外側のデータから閾値を決定して、認識処理を実行する。
なお、予備実験では、様々なデザインの存在する文書画像について、画像サンプルの90%については第一パスが正確な辺(エッジ)を割り出す。残りの約10%が帳票に暗い縁取りがあるなどの理由により、第二パスにて再推定が行われる。後者については、画像濃度分布情報を用いることで、背景色と前景色を識別する閾値を計算することにより、辺の再推定が正しく行える。
第二パスで処理することを想定する画像としては、例えば図8にあるように、紙面の端が直線状でなく、ゆがんでいるまたは千切られたもの、または、紙面端に暗い色がデザインされているもの、などがある。
<実施形態のまとめ>
以上説明したように、本発明の実施形態では、入力画像をサンプリングして得られた複数の格子点についてヒストグラムを作成し、その分布状態に基づいておおよそのエッジ存在領域を推定し、その領域に対して二分検索処理を行う。これにより、紙文書をカラーまたはグレー階調でスキャンした画像について、紙面のエッジに暗い色が載っていても、画像構成色の分布解析によって背景色と前景色の分離境界を推定して、これを分離することができる。
また、1回目の二分検索処理によって得られたエッジから近似した境界線が妥当でない場合には、その得られた境界線近傍の画素についてさらにヒストグラムを生成する。そしてそのヒストグラムより、前景と背景を分離するための閾値を求め、その閾値を用いてさらに詳細な境界の探索を二分探索処理(2回目)によって行う。これにより、高解像度の画像に対しても高速な4辺検出が可能となる。
なお、本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
また、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
0100・・・OCR装置
0101・・・画像撮像装置
0102・・・操作端末装置
0103・・・表示端末装置
0104・・・ソータ装置
0105・・・外部記憶装置
0106・・・メモリ
0107・・・中央演算装置
0108・・・内部バス
0109・・・通信装置

Claims (7)

  1. スキャンして得られ、背景と前景を有する画像データを認識する画像認識装置であって、
    前記画像データから複数の格子点を抽出する格子点抽出処理部と、
    前記抽出された複数の格子点を用いて画像濃度に関する第1のヒストグラムを生成し、当該第1のヒストグラムから前記背景と前記前景とを分離するための第1の分離閾値を算出し、前記複数の格子点について当該第1の分離閾値を適用し、前記背景と前記前景の境界近傍の格子点を抽出する画像解析部と、
    前記境界近傍の前記前景側の格子点と前記背景側の格子点を用いてエッジ推定するエッジ推定処理部と、
    前記エッジ推定処理部によって得られた複数のエッジ点を用いて直線近似処理を実行して境界線を取得する境界線取得部と、
    を備えることを特徴とする画像認識装置。
  2. 前記エッジ推定処理部は、前記第1の分離閾値に最も近い前記前景及び背景に属する複数の格子点に対して二分探索処理を実行してエッジを検出することを特徴とする請求項1に記載の画像認識装置。
  3. さらに、前記前景領域内の画像濃度と前記背景領域内の画像濃度との差分値を用いて、前記境界線取得部によって取得された前記境界線が、前記前景と前記背景を区別する境界として妥当であるか評価する境界評価部を備えることを特徴とする請求項2に記載の画像認識装置。
  4. 前記境界評価部は、前記画像濃度の差分値が第1の閾値以下となる箇所の個数が所定値未満であるか否か (第1の条件)及び前記背景領域における画像濃度の分散が第2の閾値より大きいか否か(第2の条件)を判断し、前記第1又は第2の条件のいずれかを満足する場合には、前記取得された境界線は妥当であると判断することを特徴とする請求項3に記載の画像認識装置。
  5. 前記境界評価部は、前記第1及び第2の条件のいずれからも外れる場合には、前記取得された境界線は不適当であると判断し、
    この場合、前記画像解析部は、前記取得された境界線の近傍の存在する所定数の画素サンプルを取得し、当該画素サンプルについての第2のヒストグラムを生成し、当該第2のヒストグラムから前記背景と前記前景を分離するための第2の分離閾値を算出し、
    前記エッジ推定処理部は、前記第2の分離閾値を用いて前記二分探索処理を実行して複数のエッジ点(修正エッジ点)を検出し、
    前記境界線取得部は、前記修正エッジ点を用いて直線近似処理を実行して修正境界線を取得することを特徴とする請求項4に記載の画像認識装置。
  6. さらに、前記境界線又は前記修正境界線が複数ある場合、対向する2つの境界線又は修正境界線の傾き差を算出し、この傾き差が所定値以上のときに、前記対抗する境界線又は修正境界線を補正する傾き補正部を備えることを特徴とする請求項5に記載の画像認識装置。
  7. コンピュータを請求項1に記載の画像認識装置として機能させるためのプログラム。
JP2009096365A 2009-04-10 2009-04-10 画像認識装置、及びプログラム Active JP5424694B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009096365A JP5424694B2 (ja) 2009-04-10 2009-04-10 画像認識装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009096365A JP5424694B2 (ja) 2009-04-10 2009-04-10 画像認識装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2010250387A JP2010250387A (ja) 2010-11-04
JP5424694B2 true JP5424694B2 (ja) 2014-02-26

Family

ID=43312674

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009096365A Active JP5424694B2 (ja) 2009-04-10 2009-04-10 画像認識装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP5424694B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977973B (zh) * 2016-10-25 2020-08-11 北京东软医疗设备有限公司 一种获取医疗诊断图像中限束器照射野边界的方法及装置
CN107067012B (zh) * 2017-04-25 2018-03-16 中国科学院深海科学与工程研究所 基于图像处理的海底地貌单元边缘智能识别方法
JP7185477B2 (ja) 2018-10-12 2022-12-07 株式会社Pfu 画像処理装置、制御方法及び制御プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3134292B2 (ja) * 1990-05-31 2001-02-13 富士ゼロックス株式会社 画像処理装置
JP4598426B2 (ja) * 2004-03-30 2010-12-15 富士通株式会社 境界抽出方法、プログラムおよびこれを用いた装置

Also Published As

Publication number Publication date
JP2010250387A (ja) 2010-11-04

Similar Documents

Publication Publication Date Title
US8712188B2 (en) System and method for document orientation detection
US8582888B2 (en) Method and apparatus for recognizing boundary line in an image information
US8559748B2 (en) Edge detection
US20070253040A1 (en) Color scanning to enhance bitonal image
US7715628B2 (en) Precise grayscale character segmentation apparatus and method
US8331670B2 (en) Method of detection document alteration by comparing characters using shape features of characters
US20040170324A1 (en) Boundary detection method between areas having different features in image data
CN103852034B (zh) 一种电梯导轨垂直度检测方法
JP3830998B2 (ja) 罫線除去方法及びこれを用いた文字認識装置
US20120082372A1 (en) Automatic document image extraction and comparison
CN111626941A (zh) 一种基于深度学习语义分割的文档矫正方法
KR100923935B1 (ko) Ocr을 위한 문서 영상의 자동 평가 방법 및 시스템
US7612918B2 (en) Image processing apparatus
CN113888756A (zh) 有效区域参数的确定方法、图像获取方法和测试系统
JP5424694B2 (ja) 画像認識装置、及びプログラム
US20050271260A1 (en) Device, method and program for removing pores
JPH09311905A (ja) 行検出方法および文字認識装置
CN117218672A (zh) 一种基于深度学习的病案文字识别方法及系统
CN115063375B (zh) 一种对排卵试纸检测结果进行自动分析的图像识别方法
CN114140620A (zh) 一种物体直线轮廓检测方法
CN114446447A (zh) 一种染色体核型图像数据的半自动标注方法
US8355582B2 (en) Image processing apparatus and image processing method
KR100713335B1 (ko) 이미지 인식방법
JP4741289B2 (ja) 画像処理装置および画像処理方法
JP2000357287A (ja) ナンバープレート認識方法および認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130306

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130514

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130709

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20130815

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131029

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131126

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5424694

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250