JP4111787B2 - 行切り出し装置、行切り出し方法、プログラム及び記録媒体 - Google Patents
行切り出し装置、行切り出し方法、プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP4111787B2 JP4111787B2 JP2002265505A JP2002265505A JP4111787B2 JP 4111787 B2 JP4111787 B2 JP 4111787B2 JP 2002265505 A JP2002265505 A JP 2002265505A JP 2002265505 A JP2002265505 A JP 2002265505A JP 4111787 B2 JP4111787 B2 JP 4111787B2
- Authority
- JP
- Japan
- Prior art keywords
- row
- line
- rectangle
- divided
- rows
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Input (AREA)
Description
【発明の属する技術分野】
本発明は、行切り出し装置、行切り出し方法、プログラム及び記録媒体に関し、さらに詳しくは、OCR等の文字認識装置において文書画像中にノイズが混入していても、その影響を受けることがなく、正しい行切り出しを行うことができる行切り出し装置、行切り出し方法、プログラム及び記録媒体に関する。
【0002】
【従来の技術】
文字認識装置においては、入力された文書画像に対し行切り出しを行い、切り出された行画像より1文字の画像を切り出して認識処理を行う。この行切り出し及び文字切り出しの方法は、次の2方法に大別される。
1つは、画素の黒連結外接矩形を用いる方法であり、他の1つは、文書画像上の水平及び垂直方向の投影を用いる方法である。
画素の黒連結外接矩形を用いる方法を採用した従来の行切り出し装置として、特許第2895122号に記載の行切り出し方法を実施した装置が知られている。この従来の行切り出し方法は、黒画素の連結成分を順次統合していくことで行データを生成する方法である。
【0003】
【特許文献1】
特許第2895122号公報
【0004】
【発明が解決しようとする課題】
前記従来技術のうち、画素の黒連結外接矩形を用いる方法は、黒画素の連結成分を順次統合していく手法であるので、射影を用いる方法等と比較すると、画像(原稿)の傾きに対して頑強、つまり文書画像の傾斜した行に対しても高精度な切り出しが可能であるという利点がある。
しかしながら、その一方で、ノイズの混入等により、本来複数の行であるものが、1つの行と判断されてしまう場合がある。
図14は、従来の行切り出し装置による行切り出し結果を示す図、図15は理想的な行切り出し結果を示す図である。
図14に示す行切り出し結果では、ノイズの混入により行の過統合が生じており、3行目一番下の文字の「広」と「有」の間のノイズにより、この2つの矩形の間に重なりが生じ、その結果この2つの行が1行と判断されてしまっている。
本発明は、文書画像中にノイズが混入しているために過統合された行を適切な基準で分割し、図15に示すような正しい行切り出し結果を得ることを目的とする。
【0005】
【課題を解決するための手段】
本発明は、前記事情に鑑みてなされたもので、請求項1の発明は、画素の黒連結外接矩形を順次統合して、文書画像中から行を切り出す第1の行切り出し部と、前記第1の行切り出し部で切り出された行を修正する第2の行切り出し部とを備える行切り出し装置において、前記第2の行切り出し部は、該第1の行切り出し部で切り出された各行について、行幅が広いほど、行高が低いほど高く評価した評価値を求めて、該評価値が最大となる行を基準行とし、行間の幅と前記基準行の高さとの和で各行の高さを割ることによって、各行の推定行数を算出し、該推定行数が2以上の行については、前記行を前記推定行数に分割した分割行にまたがる全矩形の面積と前記行内の全矩形の面積との比が所定の値よりも小さい場合に、前記行内の各矩形について、前記分割行にまたがる矩形のうち行頭にある該矩形を最初の分割行へ包含させ、それ以外の前記分割行にまたがる矩形を、該矩形を包含する前記分割行に割り当てることにより前記行を分割する行切り出し装置であることを特徴とする。
【0007】
請求項2の発明は、請求項1記載の行切り出し装置において、複数の分割行にまたがる矩形のうち、矩形の大きさが所定のサイズよりも小さい場合には無視することを特徴とする。
請求項3の発明は、請求項1記載の行切り出し装置において、複数の分割行にまたがる矩形のうち、矩形の位置が行頭の場合には無視し、それ以外の他の分割行にまたがる矩形を、該矩形を包含する前記分割行に割り当てることにより前記行を分割することを特徴とする。
【0008】
請求項4の発明は、請求項2または3に記載の行切り出し装置において、複数の分割行にまたがる矩形を該分割行のいずれかに包含されるように分断し、それぞれの該分断矩形を前記分割行に包含させることを特徴とする。
請求項5の発明は、画素の黒連結外接矩形を順次統合して、文書画像中から行を切り出す第1の行切り出しステップと、前記第1の行切り出しステップで切り出された行を修正する第2の行切り出しステップとを備える行切り出し方法において、前記第2の行切り出しステップは、該第1の行切り出しステップで切り出された各行について、行幅が広いほど、行高が低いほど高く評価した評価値を求めて、該評価値が最大となる行を基準行とし、行間の幅と前記基準行の高さとの和で各行の高さを割ることによって、各行の推定行数を算出し、該推定行数が2以上の行については、前記行を前記推定行数に分割した分割行にまたがる全矩形の面積と前記行内の全矩形の面積との比が所定の値よりも小さい場合に、前記行内の各矩形について、前記分割行にまたがる矩形のうち行頭にある該矩形を最初の分割行へ包含させ、それ以外の前記分割行にまたがる矩形を、該矩形を包含する前記分割行に割り当てることにより前記行を分割する行切り出し方法であることを特徴とする。
請求項6の発明は、コンピュータを、請求項1乃至4のいずれかに記載の行切り出し装置の各部として機能させるプログラムであることを特徴とする。
請求項7の発明は、請求項6に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴とする。
【0009】
【発明の実施の形態】
以下、本発明の実施の形態を図1〜図13に示す実施例に基づいて説明する。
(実施例1)
図1は、本発明の実施例1による行切り出し装置の概略を示すブロック図である。なお、図1では、文字認識装置のうちの行切り出し装置の部分のみに焦点を絞って記載している。
本発明の行切り出し装置は、図示しない文字認識装置のバスに接続された画像入力部1、第1の行切り出し部2、第2の行切り出し部3、行出力部4から構成されている。
【0010】
画像入力部1においては、文字認識装置に与えられた画像を第1の行切り出し部2へ出力する。その際、画像と共に認識対象領域のデータを与えてもよい。また、認識対象領域が与えられた場合には、与えられた領域内のみを行切り出しの対象とすればよい。
第1の行切り出し部2は、前記したような従来例で提案されている方法で行を切り出す。すなわち、黒画素の連結成分を順次統合してゆく方法、射影を用いる方法等、様々な手法が提案されているが、ここでは前記した特許第2895122号に示されている行切り出し方法を用いて、行を切り出す例について説明する。
【0011】
特許第2895122号に示す方法で行切り出しを行った場合、行矩形の座標と行内の矩形(黒画素連結成分の外接矩形)の座標が、第1の行切り出し部2から出力され、行矩形の座標と行内の矩形の座標が、第2の行切り出し部3に対して出力される。
第2の行切り出し部3においては、第1の行切り出し部2から送られてきた行矩形の座標を用いて、基準行を選択する。基準行の選択にあたっては、まず全ての行矩形からその最大幅と最大高さを求める。
図2は、全ての行矩形からその最大幅と最大高さを求める方法を説明するための図である。
第1の行切り出し部2に対し、図2に示すような認識対象領域が入力された場合、最大幅はMaxW、最大高さはMaxHとして求められる。
【0012】
次に、メンバシップ関数を用いて、各行の評価値を算出する。
図3は、基準行を抽出する際に用いるメンバシップ関数を説明するための図で、図3において、左側に示す図は行幅に対するメンバシップ関数、右側に示す図は行高さに対するメンバシップ関数を説明するための図である。
図4は、評価値の算出方法を説明するための図である。
図4では、行高さのメンバシップ関数から求まる評価値と、行幅のメンバシップ関数から求まる評価値の和を各行の評価値とし、評価値最大の行を基準行として選択する。
メンバシップ関数は、
・行幅が広いほど評価値が高い、
・行高さが低いほど評価値が高い、
ように設定されている。ただし、行高さについては、誤って線分のみの行やノイズのみの微小行を選択しないように、所定の閾値より小さい場合には評価値が0となるようにしている。また、メンバシップ関数の連続性を考慮して、最大行幅の半分の高さで評価値が最大としている。
【0013】
次に、行数Nを推定する。行数を推定するに当たっては、行の高さのみではなく、行間スペースの幅を用いると、より高精度に行数を算出できる。ここでは、処理行と前後行間の余白幅で、狭い方を行間スペースの幅Sと推定する。行数Nは数式1で求める。(ただし、小数点以下は四捨五入で値を算出する。)
N=(処理行の高さ)/(基準行の高さ+S)……(数式1:行数の推定式)
【0014】
図5は、第2の行切り出し部において実行される処理を示すフローチャートである。
第2の行切り出し部3において推定された行数Nが1以下の場合、分割処理を行わずに処理を終了し、次の処理に移る。
推定された行数Nが2以上の場合、各分割行の範囲に包含される矩形を各分割行に割り当てる。
【0015】
図6は、行間にまたがる矩形が存在するような画像の例を示す図、図7は、図6に示す画像に第2の行切り出し部において処理を実行したときの結果の画像を示す図である。
本実施例では、図6の画像において、矩形A〜Cは無視し、他の矩形を各分割行に割り当てる。
【0016】
(実施例2)
図8は、実施例2の第2の行切り出し部において実行される処理を示すフローチャートである。
実施例2の行切り出し装置において、推定行数Nを算出する部分までは実施例1の行切り出し装置と同様であるので説明を省略する。
実施例2の行切り出し装置では、推定された行数Nが2以上の場合には分割処理の是非を判断する。ここで、基準行に対して、フォントサイズが大きいために、Nが2行以上になっている行を誤って分割することは避けたい。そこで、図9に示す2つのメンバシップ関数を導入する。
図9は、行分割の判定に用いるメンバシップ関数を説明するための図である。
図9において、左側の図に示すメンバシップ関数は行幅によるものであり、処理対象の全行中の最大行幅MaxWを用いて、処理行の幅から評価値を算出する。タイトル等でフォントサイズが大きくなっている行では、行の幅が本文(基準行)よりも狭いケースが多いために導入されている。行の幅が広いほど、分割すると判断される可能性が高くなる。
【0017】
図9において、右側の図に示すメンバシップ関数は、行間にまたがると推定される矩形の面積比を用いたものである。行内の全矩形の面積和を最大値として、N行に分割する場合に、行間をまたぐ矩形(図6の例では、A,B,Cで示された矩形)の面積の和により評価値を算出する。行間をまたぐ矩形の面積の和は、本来分割するべきではない行(フォントが大きい行)では、比率が高くなるために導入している。最終的には両方のメンバシップ関数から求めた評価値の積が0.5より大きい場合に処理行を分割すると判断する。
分割すると判断されたならば、各分割行の範囲に包含される矩形を各分割行に割り当てる。本実施例では、図5の場合、矩形A〜Cは無視し、他の矩形を各分割行に割り当てる。
【0018】
(実施例3)
図10は、実施例3の行切り出し装置の処理を示すフローチャートである。
実施例3の行切り出し装置において、行の分割を判断する部分までは実施例2の行切り出し装置と同様であるので、説明を省略する。
分割すると判断されたならば、各分割行の範囲に包含される矩形を各分割行に割り当てる。
図11は、実施例3の行切り出し装置で図6の画像より行を切り出した結果を示す図である。
実施例3の行切り出し装置では、図6の画像の場合、矩形A〜Cは複数の分割行にまたがるので、図11に示すように、矩形A1,A2,B1,B2,C1,C2に分割してそれぞれの分割行に割り当てる。
【0019】
(実施例4)
図12は、実施例4の行切り出し装置で図6の画像より行を切り出した結果を示す図である。
実施例4の行切り出し装置において、行の分割を判断する部分までは実施例2の行切り出し装置と同様であるので、説明を省略する。
実施例4の処理を示すフローチャートは、図10に示す実施例3のフローチャート同様であるが、分割すると判断されたならば、複数の分割行にまたがる矩形について、以下の条件を満たすものを削除する。
・行間スペースSよりも高さが低い。(図6の画像における矩形B。ノイズを無視するための対策)
・矩形の左端と行の左端の距離が基準行高さよりも狭い。(図6の画像における矩形A。行頭の大文字を分割しないための対策)
最後に、残った矩形について、分割行に割り当てる。実施例4では、図6の画像の場合、矩形A〜Cは複数の分割行にまたがり、そのうち、矩形AとBは先の条件で削除されるので、矩形Cのみを図12に示すように、矩形C1,C2に分割してそれぞれの分割行に割り当てる。
【0020】
(実施例5)
図13は、実施例5の行切り出し装置で図6の画像より行を切り出した結果を示す図である。
実施例5の行切り出し装置において、行の分割を判断する部分までは実施例2の行切り出し装置と同様であるので、説明を省略する。
実施例5の処理を示すフローチャートは、図10に示す実施例3のフローチャート同様であるが、分割すると判断されたならば、複数の分割行にまたがる矩形について、以下の条件を満たすものを削除する。
・行間スペースSよりも高さが低い。(図6の画像における矩形B。)
最後に、残った矩形について、分割行に割り当てる。ただし、複数の分割行にまたがる矩形のうち、次の条件を満たすものは分割せずに、最初の分割行に割り当てる。
・矩形の左端と行の左端の距離が基準行高さよりも狭い。(図6の画像における矩形A。)
図6の画像の場合、矩形Aは上記条件を満たすので、矩形の座標はそのままで最初の分割行に割り当てる。矩形Bは既に削除されている。矩形Cは複数の分割行にまたがるので、矩形C1,C2に分割してそれぞれの分割行に割り当て、最終的に図13に示す結果を得る。
【0021】
【発明の効果】
文字認識装置等において、文書画像から行を切り出す際、文書画像中に汚れ等のノイズが混入しているため過統合された行を適切な基準で分割し、正しい行切り出し結果を得ることができる頑強な行切り出し装置、行切り出し方法を提供することができる。
【図面の簡単な説明】
【図1】 本発明の実施例1による行切り出し装置の概略を示すブロック図である。
【図2】 全ての行矩形からその最大幅と最大高さを求める方法を説明するための図である。
【図3】 基準行を抽出する際に用いるメンバシップ関数を説明するための図である。
【図4】 評価値の算出方法を説明するための図である。
【図5】 第2の行切り出し部において実行される処理を示すフローチャートである。
【図6】 行間にまたがる矩形が存在するような画像の例を示す図である。
【図7】 図6に示す画像に第2の行切り出し部において処理を実行したときの結果の画像を示す図である。
【図8】 実施例2の第2の行切り出し部において実行される処理を示すフローチャートである。
【図9】 実施例2の行切り出し装置において、行分割の判定に用いるメンバシップ関数を説明するための図である。
【図10】 実施例3の行切り出し装置の処理を示すフローチャートである。
【図11】 実施例3の行切り出し装置において、図6の画像より行を切り出した結果を示す図である。
【図12】 実施例4の行切り出し装置において、図6の画像より行を切り出した結果を示す図である。
【図13】 実施例5の行切り出し装置において、図6の画像より行を切り出した結果を示す図である。
【図14】 従来の行切り出し装置による行切り出し結果を示す図である。
【図15】 理想的な行切り出し結果を示す図である。
【符号の説明】
1…画像入力部、2…第1の行切り出し部、3…第2の行切り出し部、4…行出力部。
Claims (7)
- 画素の黒連結外接矩形を順次統合して、文書画像中から行を切り出す第1の行切り出し部と、前記第1の行切り出し部で切り出された行を修正する第2の行切り出し部とを備える行切り出し装置において、前記第2の行切り出し部は、該第1の行切り出し部で切り出された各行について、行幅が広いほど、行高が低いほど高く評価した評価値を求めて、該評価値が最大となる行を基準行とし、行間の幅と前記基準行の高さとの和で各行の高さを割ることによって、各行の推定行数を算出し、該推定行数が2以上の行については、前記行を前記推定行数に分割した分割行にまたがる全矩形の面積と前記行内の全矩形の面積との比が所定の値よりも小さい場合に、前記行内の各矩形について、前記分割行にまたがる矩形のうち行頭にある該矩形を最初の分割行へ包含させ、それ以外の前記分割行にまたがる矩形を、該矩形を包含する前記分割行に割り当てることにより前記行を分割することを特徴とする行切り出し装置。
- 請求項1記載の行切り出し装置において、複数の分割行にまたがる矩形のうち、矩形の大きさが所定のサイズよりも小さい場合には無視することを特徴とする行切り出し装置。
- 請求項1記載の行切り出し装置において、複数の分割行にまたがる矩形のうち、矩形の位置が行頭の場合には無視し、それ以外の分割行にまたがる矩形を、該矩形を包含する前記分割行に割り当てることにより前記行を分割することを特徴とする行切り出し装置。
- 請求項2または3に記載の行切り出し装置において、複数の分割行にまたがる矩形を該分割行のいずれかに包含されるように分断し、それぞれの該分断矩形を前記分割行に包含させることを特徴とする行切り出し装置。
- 画素の黒連結外接矩形を順次統合して、文書画像中から行を切り出す第1の行切り出しステップと、前記第1の行切り出しステップで切り出された行を修正する第2の行切り出しステップとを備える行切り出し方法において、前記第2の行切り出しステップは、該第1の行切り出しステップで切り出された各行について、行幅が広いほど、行高が低いほど高く評価した評価値を求めて、該評価値が最大となる行を基準行とし、行間の幅と前記基準行の高さとの和で各行の高さを割ることによって、各行の推定行数を算出し、該推定行数が2以上の行については、前記行を前記推定行数に分割した分割行にまたがる全矩形の面積と前記行内の全矩形の面積との比が所定の値よりも小さい場合に、前記行内の各矩形について、前記分割行にまたがる矩形のうち行頭にある該矩形を最初の分割行へ包含させ、それ以外の前記分割行にまたがる矩形を、該矩形を包含する前記分割行に割り当てることにより前記行を分割することを特徴とする行切り出し方法。
- コンピュータを、請求項1乃至4のいずれかに記載の行切り出し装置の各部として機能させるプログラム。
- 請求項6に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002265505A JP4111787B2 (ja) | 2002-09-11 | 2002-09-11 | 行切り出し装置、行切り出し方法、プログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002265505A JP4111787B2 (ja) | 2002-09-11 | 2002-09-11 | 行切り出し装置、行切り出し方法、プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004102796A JP2004102796A (ja) | 2004-04-02 |
JP4111787B2 true JP4111787B2 (ja) | 2008-07-02 |
Family
ID=32264631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002265505A Expired - Fee Related JP4111787B2 (ja) | 2002-09-11 | 2002-09-11 | 行切り出し装置、行切り出し方法、プログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4111787B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100514355C (zh) * | 2005-09-05 | 2009-07-15 | 富士通株式会社 | 指定文本行提取方法和装置 |
JP4856925B2 (ja) | 2005-10-07 | 2012-01-18 | 株式会社リコー | 画像処理装置、画像処理方法及び画像処理プログラム |
-
2002
- 2002-09-11 JP JP2002265505A patent/JP4111787B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004102796A (ja) | 2004-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4984756B2 (ja) | 文字列イメージを垂直に分離するプログラム、方法及び装置 | |
US7796817B2 (en) | Character recognition method, character recognition device, and computer product | |
JP5600723B2 (ja) | 様々な文字幅を有するテキスト行の文字を分割するための方法及びシステム | |
US7680329B2 (en) | Character recognition apparatus and character recognition method | |
US7612918B2 (en) | Image processing apparatus | |
JPH08287184A (ja) | 画像切り出し装置及び文字認識装置 | |
US5561720A (en) | Method for extracting individual characters from raster images of a read-in handwritten or typed character sequence having a free pitch | |
JP4111787B2 (ja) | 行切り出し装置、行切り出し方法、プログラム及び記録媒体 | |
JP2002015280A (ja) | 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体 | |
JPH09311905A (ja) | 行検出方法および文字認識装置 | |
JP2006155126A (ja) | 車両番号認識装置 | |
CN108229476B (zh) | 标题区域检测方法及系统 | |
JPH0410087A (ja) | 基本ライン抽出方法 | |
JP6613625B2 (ja) | 画像処理プログラム、画像処理装置、及び画像処理方法 | |
JP4158696B2 (ja) | 画像処理装置、画像処理方法、プログラム及び記録媒体 | |
JP3848792B2 (ja) | 文字列認識方法及び記録媒体 | |
JP2003271897A (ja) | 文字認識装置、画像処理装置、画像処理方法及び同方法の実行に用いるプログラム | |
JP2001266070A (ja) | 文字認識装置、文字認識方法および記憶媒体 | |
JP2002074264A (ja) | 画像処理装置、画像処理方法および記録媒体 | |
JPH1049676A (ja) | 罫線認識方法 | |
JP3600364B2 (ja) | 文字切り出し方法及び装置 | |
CN115731250A (zh) | 文本分割方法、装置、设备及存储介质 | |
JP2795222B2 (ja) | 文字切り出し方法および文字切り出し装置 | |
JPH05274472A (ja) | 画像認識装置 | |
JPH09319830A (ja) | フォント識別方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071206 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071218 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080408 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080408 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110418 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120418 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130418 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140418 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |