JP2003271897A - 文字認識装置、画像処理装置、画像処理方法及び同方法の実行に用いるプログラム - Google Patents

文字認識装置、画像処理装置、画像処理方法及び同方法の実行に用いるプログラム

Info

Publication number
JP2003271897A
JP2003271897A JP2002072872A JP2002072872A JP2003271897A JP 2003271897 A JP2003271897 A JP 2003271897A JP 2002072872 A JP2002072872 A JP 2002072872A JP 2002072872 A JP2002072872 A JP 2002072872A JP 2003271897 A JP2003271897 A JP 2003271897A
Authority
JP
Japan
Prior art keywords
character
line
size
image
skew
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002072872A
Other languages
English (en)
Other versions
JP4070486B2 (ja
Inventor
Yoshihisa Oguro
慶久 大黒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2002072872A priority Critical patent/JP4070486B2/ja
Publication of JP2003271897A publication Critical patent/JP2003271897A/ja
Application granted granted Critical
Publication of JP4070486B2 publication Critical patent/JP4070486B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 読取解像度に依存することなく、行・文字を
安定して切り出すことを可能とする。 【解決手段】 原稿を読取って得た処理対象の文書画像
から文字と見なせる黒ランの外接矩形を作成し、さらに
近隣の矩形を統合し、文字行を作成し(切り出し)、原
稿1頁分から得られた文字行サイズ(dot数)のヒスト
グラムを作り、最頻値を代表文字サイズとして求める。
実効解像度は、代表文字サイズ(dot数)/標準文字サ
イズ(inch)により算出する(step5)。算出した実効
解像度に基づいて、文字認識処理の処理条件を定める内
部パラメータを適正値に設定しなおす(step6)。解像
度が不明なデジ・カメによる入力文書画像に対しても実
効解像度を推定し、適正な設定により行・文字を安定し
て切り出すことが可能になる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、OCR(光学的文
字読み取り装置)や文字認識等に利用される画像処理に
関し、より特定すると、文字行・文字切り出し性能の向
上を図るための入力文書画像の実効解像度の推定、入力
文書画像のスキューの検出を行う手段(或いは処理ステ
ップ)を備えた文字認識装置、画像処理装置、画像処理
方法及び同方法の実行に用いるプログラムに関する。
【0002】
【従来の技術】画像処理では、原稿から読み取った文書
画像に記された文字の読み取りや認識処理が従来より行
われている。この処理を行う際に、文書画像に存在する
文字行(文字領域)の切り出しを正確に行うことは、高
い認識精度を得るために不可欠である。文字行の切り出
し性能を向上させるためには、切り出し性能に影響する
ファクタである、処理対象原稿における文書画像の読み
取り解像度や、スキューといった情報を原稿毎に把握す
る必要がある。文書画像の読み取り解像度は、文字切り
出しに設定する各種パラメータを解像度によって調整す
るために用いられる。
【0003】文書画像に記された文字の読み取りや認識
処理の適用条件を整えるための前処理(文字行の切り出
しも含まれる)として従来から様々な提案がなされてい
る。その一つとして、特開平6-187490(領域分割方法)
を挙げることができる。この例では文書中の代表的な文
字サイズを求め、処理に適した、予め設定済みの扱いや
すい文字サイズに変換する方法である。この方法では、
画像を処理に適した文字サイズに機械的に拡大・縮小す
るだけであり、本来の解像度に保つという発想はなく、
文字自体が変形され、文字画像の特徴が損なわれるた
め、文字認識においては都合の悪い面がある。また、特
開2000-306041(文字サイズ推定方法および記録媒体)に
示されている方法は、文字サイズを積極的に推定する方
法であるが、文字のサイズを画素数でしか求めないの
で、紙の上では同じサイズの文字であっても読取解像度
が異れば、求められる文字サイズも異ってしまい、文字
認識装置側の設定を解像度によって変更する場合、装置
の挙動が異なるおそれがあり、装置の使用者が混乱する
原因になる。一般には、文字認識装置の各種処理の内部
パラメータの多くは文字サイズに基づいて設定されてお
り、その場合、解像度に依存して読める文字のサイズが
変化してしまう。解像度に応じてパラメータを変更する
方式においても、解像度の情報が得られない場合には対
応できない。例えば、デジタル・スチル・カメラなどを
用いて、文書を非接触で読み取った場合には解像度なる
情報は存在せず、画素数のみの情報しか得られないか
ら、解像度として、予め設定済みのデフォルト値を利用
するしかない。近年、読み取り機器の精度向上によっ
て、スキャナーなどの接触タイプの読み取りよりも手軽
で高速に読み取ることが可能なために、非接触による文
書原稿読み取りが増えている事実を鑑みると、解像度情
報が取得できることを前提とした方法は、非常に都合が
悪い。
【0004】他方、原稿の傾き(スキュー角度)検出に
ついての提案もなされている。その一つである、特許第
2940960(画像の傾き検出方法および補正方法ならびに
画像情報処理装置)では、適当な範囲にわたって傾き角
度を段階的に変化させて、角度方向毎に画像の特徴量の
積分を求めておき、該積分値が極値をとる方向を、原稿
の傾き角してと判定する方法である。この従来例は、原
稿のレイアウトが文字中心で単純な場合には、画像特徴
量の積分値の極値が傾き方向に一致するが、図やグラ
フ、複数サイズのフォントが混在、段組が複雑、行方向
混在など、レイアウトが複雑な場合には、画像特徴量の
積分値の極値のときの方向と、原稿の傾き方向とが一致
することを期待することは難しい。また、特開平11-963
86(文書の画像からテキスト/画像を選択する方法)で
は、検出可能なスキュー角の全範囲にわたり横射影プロ
フィールを求め、最終的に平方偏差最大の角度を選択す
るものである。この提案も、レイアウトの複雑な原稿に
対して、上記と同様な理由により、高精度な傾き角度検
出は難しい、という問題点を有する。このように、レイ
アウトの複雑な原稿に対するスキュー(原稿の傾き)を
十分な精度で検出する方法がこれまでに提供されていな
い。
【0005】
【発明が解決しようとする課題】本発明は、原稿から読
み取った文書画像に記された文字の読み取りや認識処理
を行う際に、解像度が不明なために文字行の切り出しが
正確にできなかった従来技術の問題点に鑑みてなされた
ものであり、その目的は、読取解像度に依存することな
く、行・文字を安定して切り出すことを可能とする手段
(或いは処理ステップ)を備えた文字認識装置、画像処
理方法及び同方法の実行に用いるプログラムを提供する
ことにある。また、本発明は、原稿から読み取った文書
画像に記された文字の読み取りや認識処理等の文書画像
に対する画像処理を行う際に、レイアウトの複雑な原稿
に対するスキュー(原稿の傾き)の検出精度が不良で文
字行の切り出し等の処理が正確にできなかった従来技術
の問題点に鑑みてなされたものであり、レイアウトの複
雑な原稿に対してもスキューの検出を精度良く行うこと
を可能とする手段(或いは処理ステップ)を備えた画像
処理装置、画像処理方法及び同方法の実行に用いるプロ
グラムを提供することをさらなる目的とする。
【0006】
【課題を解決するための手段】請求項1の発明は、処理
対象として入力された文書画像の画素ランに基づいて文
字画像の外接矩形情報を生成する手段と、前記外接矩形
情報に基づいて行毎に画素数で表現した行サイズを求め
る手段と、行毎に求めた行サイズからその代表値を算出
する手段と、算出した行サイズの代表値と長さ単位で表
現した標準文字サイズとを比較することにより実効解像
度を推定する手段と、推定した実効解像度により文字認
識の処理条件の設定を変更する手段を備えたことを特徴
とする文字認識装置である。
【0007】請求項2の発明は、処理対象として入力さ
れた文書画像の画素ランに基づいて文字画像の外接矩形
情報を生成する手段と、前記外接矩形情報に基づいて行
毎に画素数で表現した行サイズを求める手段と、行毎に
求めた行サイズに対して所定割合以上のサイズを有する
当該行内文字画像の外接矩形情報から文字サイズの代表
値を算出する手段と、算出した文字サイズの代表値と長
さ単位で表現した標準文字サイズとを比較することによ
り実効解像度を推定する手段と、推定した実効解像度に
より文字認識の処理条件の設定を変更する手段を備えた
ことを特徴とする文字認識装置である。
【0008】請求項3の発明は、請求項2に記載された
文字認識装置において、文字サイズの代表値を算出する
前記手段は、行サイズに対して所定割合以上のサイズの
当該行内文字画像の外接矩形数が、当該行内文字画像の
外接矩形総数の所定割合以上の場合のみ、算出に用いる
ようにしたことを特徴とするものである。
【0009】請求項4の発明は、処理対象として入力さ
れた文書画像の画素ランに基づいて文字画像の外接矩形
情報を生成する手段と、前記外接矩形情報に基づいて文
字行情報を生成する手段と、前記文字行情報によって定
まる文字行内に存在する文字画像の外接矩形情報から矩
形座標を抽出し、抽出した矩形座標を回帰分析すること
によって、行毎に回帰直線を求め、その傾きから対象文
書画像のスキューを算出する手段と、算出したスキュー
により対象文書画像に対するスキュー補正を行う手段を
備えたことを特徴とする画像処理装置である。
【0010】請求項5の発明は、請求項4に記載された
画像処理装置において、スキューを算出する前記手段
は、行サイズに対して所定割合以上のサイズの当該行内
文字画像の外接矩形数が、当該行内文字画像の外接矩形
総数の所定割合以上の場合に算出に用いるようにしたこ
とを特徴とするものである。
【0011】請求項6の発明は、請求項4に記載された
画像処理装置において、スキューを算出する前記手段
は、行サイズに対して所定割合以上のサイズの当該行内
文字画像の外接矩形数が、当該行内文字画像の外接矩形
総数の所定割合以上になる行数を計数し、該計数値が全
行数の所定割合以上の場合に算出を行うようにしたこと
を特徴とするものである。
【0012】請求項7の発明は、請求項4に記載された
画像処理装置において、スキューを算出する前記手段
は、行毎の回帰分析における相関係数を算出し、得た相
関係数が所定値以上である行に対し、スキュー算出を行
うようにしたことを特徴とするものである。
【0013】請求項8の発明は、請求項4に記載された
画像処理装置において、スキューを算出する前記手段
は、行毎の回帰分析における相関係数を算出し、得た相
関係数が所定値以上である行を計数し、該計数値が全行
数の所定割合以上の場合に算出を行うようにしたことを
特徴とするものである。
【0014】請求項9の発明は、処理対象として入力さ
れた文書画像の画素ランに基づいて文字画像の外接矩形
情報を生成するステップと、前記外接矩形情報に基づい
て行毎に画素数で表現した行サイズを求めるステップ
と、行毎に求めた行サイズからその代表値を算出するス
テップと、算出した行サイズの代表値と長さ単位で表現
した標準文字サイズとを比較することにより実効解像度
を推定するステップと、推定した実効解像度により文字
認識の処理条件の設定を変更するステップの各処理ステ
ップを実行することを特徴とする画像処理方法である。
【0015】請求項10の発明は、処理対象として入力
された文書画像の画素ランに基づいて文字画像の外接矩
形情報を生成するステップと、前記外接矩形情報に基づ
いて文字行情報を生成するステップと、前記文字行情報
によって定まる文字行内に存在する文字画像の外接矩形
情報から矩形座標を抽出し、抽出した矩形座標を回帰分
析することによって、行毎に回帰直線を求め、その傾き
から対象文書画像のスキューを算出するステップと、算
出したスキューにより対象文書画像に対するスキュー補
正を行うステップの各処理ステップを実行することを特
徴とする画像処理方法である。
【0016】請求項11の発明は、請求項9又は10に
記載された画像処理方法の各処理ステップをコンピュー
タに実行させるためのプログラムである。
【0017】
【発明の実施の形態】本発明を添付する図面とともに示
す以下の実施形態に基づき説明する。下記の「実施形態
1」〜「実施形態3」は、原稿から読み取った文書画像
における解像度を求めるための方法を示す。求めた解像
度は、文書画像の文字読み取りや文字認識の処理を行う
際に、設定する各種パラメータを調整し、処理対象の文
字行を安定して切り出すために用いられる。図1は、処
理対象となる文書画像の一例を示す。なお、下記の各実
施形態では、日本語文の横書原稿を例に説明するが、特
にことわらない限り、本発明は、例示に限定されるもの
ではなく、文書画像中に頻出する文字サイズを代表文字
サイズとみなし、その画素数(単位[dot])と、一般文書
で用いられる代表的な文字のサイズ(単位[inch][mm]な
ど)とを用いて当該文書画像の実効解像度(単位[dot/inc
h][dot/mm]など)を推定すること、そしてそれに基づい
て、行切り出し処理および文字切り出し処理にて使用さ
れる各種パラメータを変更することによって認識精度が
向上することを示すものであり、特定の言語、文字画像
種類(手書き/活字文字など)、書式(縦書き/横書き)に
限定されない。
【0018】「実施形態1」図1に示す横書きの文書を
対象として、縦方向および横方向に射影を求めると、そ
の結果は、それぞれ図2の(a),(b)のようにな
る。なお、図2(a),(b)は、それぞれ縦(Y)
軸、横(X)軸と直交する軸に累積黒画素数をとり、射
影を求めた結果を表している。図示の表現で、射影が横
縞状に求められた場合には横書であるし、縦縞状に得ら
れたのならば、縦書である。各々の場合に、縞の幅が文
字高さあるいは文字幅に相当するから、この縞の幅を集
計すれば、文字高さあるいは文字幅を集計したことにな
る。集計結果において、最も頻度の高い値を、対象画像
の代表文字高さ(幅)として用いることができる。しかし
ながら、処理対象となる文書画像が図3に示すような複
雑なレイアウト(即ち、図や複数サイズのフォントが混
在、段組が複雑)の原稿の場合、縦方向及び横方向に射
影を求め、図2と同様の形式で表現すると、図4のよう
になり、縞状に求められないので、このやり方では文字
高さ(幅)を求めることができない。
【0019】そこで、原稿画像中の黒ランの外接矩形を
求める方法を適用する。なお、「ラン」は、連続画素デ
ータが同一値をとる場合に、この連続画素のかたまりを
指す概念で、符号化の単位として扱われる(フアクシミ
リなどで扱う2値の文書画像において、一次元方向に連
続する白画素、黒画素のかたまりを「白ラン」、「黒ラ
ン」として符号化の単位とする例は周知)。求めた黒ラ
ンの外接矩形の内、文字要素と思われる矩形を、その近
隣の矩形と統合していくことによって、文字行を作成
し、文字高さを求める。このとき、文字要素と思われる
矩形の判定は、OCR処理可能な文字のサイズ制限に基
づいて、矩形サイズを制限することにより実行可能であ
る。このようにして、対象画像(図1)において、黒ラ
ンの外接矩形を求めた結果を図5に示す。次いで、この
外接矩形に対し統合処理を行い文字行を生成する。統合
処理は、図6の説明図に示す操作を行う。即ち、統合の
対象として選択した2つの外接矩形を統合するか否かを
矩形間の水平距離(図6(a))及び垂直距離(図6
(b))が基準値以内にあるか否かにより判定し、判定
結果を受けて統合を実行する。統合するか否かの判定
は、順次選択される2外接矩形を対象にして全ての外接
矩形について行うことにより文字行を作成する。このよ
うにして、対象画像の黒ランの外接矩形(図5)に統合
処理を行い、得られる文字行の作成結果を図7に示す。
上記のようにして文字行(図7)を求めた後、原稿中の
全ての文字行の幅(高さ)を集計して、その代表値を文字
サイズとして得る。本例では、全ての文字行の幅(高さ)
に関して頻度ヒストグラムを作成し、最頻値の文字行の
サイズを代表値とする。図8は、このヒストグラムを例
示するものである。ここでは、文字行の幅(高さ)をdot
数(画素数)としてその頻度をヒストグラムとして表し
ている。図示のように、最頻値の文字行のサイズを代表
文字サイズとして、後述する実効解像度の算出に用い
る。
【0020】ところで、上記した文字行を作成する方法
で求めた文字サイズはあくまで画素数が単位であり、実
際の物理的な長さが求められたわけではないことに注目
する必要がある。文字認識装置の内部では、解像度や画
素数を用いて、処理対象の文字サイズや、行間距離、文
字間距離など、各種パラメータに上限値や下限値を設定
し、行切り出し処理や文字切り出し処理を行う。一般に
は、画素数によって読み取り文字サイズの上限や下限が
規定されている文字認識装置が多く、読み取り画像デー
タの解像度が異なると、読み取り可能な文字の実際の大
きさも異る。例えば、解像度400dpiの場合で読み取れる
文字サイズの上限が24point(1point=1/72inch)であれ
ば、解像度200dpiのデータに対しては、倍のサイズの48
pointまで読み取り可能になる。一方、解像度400dpiの
場合で読み取れる文字サイズの下限が6pointであれば、
解像度200dpiにおいては、12point以上の文字でない
と、読み取られなくなる。図9は、同一原稿を解像度を
変えて読み取った実際の例を示す。図中の(a)は解像
度200dpi(主走査および副走査同じ)、(b)は解像度40
0dpiで読み取った突起を例示する。図9に示すように、
同一の原稿でも読み取り解像度が変われば、画素単位で
の文字サイズが異なることがわかる。また、図10は、
図9の1文字を同一サイズに拡大したものである。読み
取り解像度が異なるので、文字を構成する画素数も異な
っていることが文字における斜線部分のギザギザの程度
で明確にわかる。文字認識装置の使用者にとっては、画
素数による文字サイズは文字認識装置の内部データにす
ぎず、文字サイズとしては実際の物理(長さ)単位の方
を意識することになる。従って、解像度に依存して文字
の読み取り可能なサイズが変化すること、つまり図10
のように長さが同じであるのに解像度が異なる場合のよ
うに、一方の文字の読み取りが不適になるという状況が
起きるのは、混乱を生じるので好ましくない。また、解
像度に応じて各種パラメータの値を変更するような文字
認識装置でも、「従来の技術」の項でデジタル・スチル
・カメラを例に述べたように、解像度情報のない画像デ
ータも増えてきており、解像度のないデータに対して
は、予め設定済みのデフォルト値を使用するしか方法が
ない。
【0021】そこで、文書中を代表する文字、本例では
最も頻出している文字、を本文の文字とみなし、これが
一般的な文書の本文に採用される文字の実際の物理的サ
イズ(長さ)を持つとすれば、画素数と実際のサイズ
(標準文字サイズ)から解像度(以下「実効解像度」と
いう)が推定できる。即ち下記式(1)によって、実効解
像度(推定値)が算出可能である。 実効解像度[dpi]([dot/inch])= 文字のサイズ(画素数[dot])/標準文字サイズ(長さ[inch]) ………式(1) 一般的な文書の本文に採用される文字に標準サイズが存
在するかが問題であるが、以下の歴史的事情を考慮する
と、標準的なサイズは存在すると考えても構わない。
『日本における近代印刷である和文活字は、号数活字と
いうシステムに基づいており、五号、つまり10.5ポイン
トを中心とした活字によって、長く日本の活字文化をさ
さえていた。戦後、細いポイント活字の普及が進んだ
が、活字は一度大きさを決めて、そろえると簡単に変え
るわけにはいかない。特に文字数の非常に多い日本語で
は、ひとそろいの活字の大きさを変更するにはたいへん
な時間と労力と費用とがかかることになる。その結果、
日本における活字の大きさは、号数活字・ポイント活字
が混在することになった。』(大西哲彦著:「ユーザー
のための写植ガイドブック」pp.16, 印刷学会出版部 (1
992)より引用) また、写植が発達しても、過去の活字文化を受け継ぎ、
本文の文字サイズは10.5ポイントが多い。事実、広く一
般に利用されているマイクロソフト社の日本語ワープロ
ソフト「WORD」においても、デフォルトの文字サイズは
10.5ポイントに設定されている。このように、本文中の
文字には標準的なサイズが存在すると仮定することは十
分妥当であり、有意な結果をもたらす。
【0022】次に、文書画像の文字認識処理における各
種処理の内部パラメータを設定する処理に係わるフロー
について述べる。本フローは、対象原稿から得た画像情
報に基づいて推定値として算出される上記した実効解像
度を内部パラメータの設定に反映させるもので、概略の
フローを示す図11を参照して、処理フローの各ステッ
プを説明する。先ず、スキャナー、デジタル・スチル・
カメラなどの画像入力機器によって、処理対象の文書画
像を記した原稿の読み取り、画像処理等の入力処理を行
う(step 1)。この入力処理において、原稿の文書画像
の黒ランの生成処理を行う。次いで、生成された文書画
像の黒ランに基づいて、黒ランの外接矩形を求める(st
ep 2)。ここで求められる黒ランの外接矩形には、文字
以外の図表等によるものも含まれている。そこで、求め
た黒ランの外接矩形から文字と見なせる矩形を抽出する
処理を行い、抽出した文字と見なせる矩形同士で近隣の
矩形と統合する処理を行い、文字行を作成する(step
3)。作成した文字行から文字行サイズ(dot数)のヒス
トグラムを得、最頻値を代表文字サイズとして求め、実
効解像度の算出のために設定する(step 4)。次に、st
ep 4で設定された代表文字サイズ(dot数)を予め設定
済みの標準文字サイズ(inch)と比較し(上記式
(1))、即ちdot/inchの演算を行うことにより実効解像
度を算出する(step 5)。その後、step 5 で算出した
実効解像度に基づいて、文字認識装置の各種処理の内部
パラメータを解像度に適した値に設定しなおす(step
6)。
【0023】「実施形態2」本実施形態は、「実施形態
1」と同様に実効解像度を算出するが、文字サイズの求
め方を異にし、読み取られた原稿画像に傾き(スキュ
ー)が生じた場合に受ける影響を抑制することを可能に
した方法を採用することにより、より正確な文字サイズ
を得ることを意図したものである。原稿読み取りの際
に、原稿が正しく(傾き無く)配置されてスキャンされ
た場合には、文字行の幅(高さ)が文字高さにほぼ相当す
るので、「実施形態1」による方法で文字サイズを求め
ても、問題は生じない。しかしながら、「実施形態1」
において、原稿が傾いて読み取られた場合、図12に示
すように、文字行も傾いてしまうため、文字行の矩形範
囲と、行内の各文字矩形の範囲とに差が生じてしまう。
この場合、実際の文字サイズよりも文字行の幅(高さ)の
方が大きめになるために、文字行の幅(高さ)に基づいて
算出される代表文字サイズも、実際のサイズよりも大き
くなってしまい、正確な解像度が算出できなくなり、都
合が悪い。
【0024】そこで、頻度ヒストグラムを求める対象と
して、文字行の幅(高さ)ではなく、文字行内に存在する
外接矩形の幅(高さ)とすれば、原稿が傾いたことによる
影響を極力排除できる。このとき、図12に示すよう
に、文字要素の点や句読点など、行幅(高さ)に対して著
しく小さい外接矩形の場合には、代表文字サイズの算出
には適さないので頻度ヒストグラム集計の対象とはしな
い。これは、行幅(高さ)に対する行内の外接矩形幅(高
さ)の割合に、予め所定のしきい値を設けておき、所定
のしきい値以上の矩形のみを頻度ヒストグラム集計の対
象に加えることによって、容易に実現できる。上記の方
法を実行するためには、「実施形態1」におけると同様
に、文字行を作成するまでの処理を行った後に、以下の
処理操作を行う必要がある。作成された文字行を指定
し、当該文字行の行内矩形の中の注目矩形の幅(高
さ):Waと、当該文字行の行幅(高さ):Wbとを取得し
て、Wa/Wbを求め、得たWa/Wbがしきい値T1以上であれ
ば、注目矩形は頻度ヒストグラム集計の対象とし、他
方、Wa/Wbがしきい値T1未満であれば、注目矩形は集計
対象外とする。こうして対象を絞り、得られた矩形の幅
(高さ)を頻度ヒストグラム集計の対象となる文字サイ
ズとして代表文字サイズを求める。これ以降の処理は
「実施形態1」と変わりがない。
【0025】「実施形態3」本実施形態は、「実施形態
2」において、傾きが大きい場合に、頻度ヒストグラム
集計の対象に適さない文字サイズが入ってしまうので、
これを排除することにより、より正確な文字サイズを得
ることを意図したものである。原稿読み取りの際に、傾
きが大きくなると、図12の(b)ように、2行が1行
にまとめられる場合がある。また、傾いていなくても、
行間に図などの矩形が存在した場合にも、複数行が1行
にまとめられてしまう。このような行の場合、行内に行
サイズに近いサイズの矩形は、存在しないか(傾きがひ
どい場合)、或いは文字でない矩形(行間に図やノイズな
どの矩形が存在した場合)であり、こうした矩形を代表
文字サイズの算出に取り込むとエラーが多くなるので、
頻度ヒストグラム集計の対象には適さない。例えば、図
12の(a)は代表文字サイズの算出に適する行である
が、図12の(b)は適さない行である。よって、行サ
イズに対して所定割合以上のサイズの行内矩形の数が、
行内矩形の総数に対して、所定割合より低い行は、代表
文字サイズの判定処理の対象とはしない。これは、行内
の矩形数と、一定割合以上のサイズの矩形数とを計数し
ておき、その比が予め設定した値以上の場合のみ、当該
行の結果を頻度ヒストグラム集計の対象にすることで容
易に実現できる。上記の方法を実行するためには、「実
施形態1」におけると同様に、文字行を作成するまでの
処理を行った後に、以下の処理操作を行う必要がある。
作成された文字行を指定し、当該文字行の行内矩形の中
の注目矩形の幅(高さ):Waと、当該文字行の行幅(高
さ):Wbとから、Wa/Wbを得、得たWa/Wbがしきい値T1以
上の矩形の数:Naを求め、当該文字行の行内矩形の総
数:Nbを求め、それらの比:Na/Nbがしきい値T2以上の
場合は、当該文字行は頻度ヒストグラム集計の対象と
し、他方、Na/Nbがしきい値T2未満であれば、当該文字
行は集計対象外とする。こうして対象を絞り、得られた
矩形の幅(高さ)を頻度ヒストグラム集計の対象となる
文字サイズとして代表文字サイズを求める。これ以降の
処理は「実施形態1」と変わりがない。
【0026】以下に示す「実施形態4」〜「実施形態
8」は、原稿から読み取った文書画像におけるスキュー
(傾き)を検出するための方法を示す。スキューは、図
12に示すように、原稿を読み取り、得られる文書画像
に生じた傾きを意味する。この傾きが大きい場合には、
文書画像に対する分割処理、即ち直線によって1行毎に
分割する処理、さらに一文字毎に分割する処理も困難に
する。このように、スキューは、文書画像の文字読み取
りや文字認識の処理等を行う場合に、エラーや処理不能
が生じる原因となるので、それを補償するためにスキュ
ーの検出が行われる。以下の実施形態では、黒ランの外
接矩形メソッド(上記した実施形態1〜3においても、
文字行の切り出しに用いた方法)をベースに、レイアウ
トの複雑な原稿に対してもスキューの検出を精度良く行
うことを意図し、その実現を図るものである。
【0027】「実施形態4」本実施形態におけるスキュ
ー検出方法の原理を説明する。図13は、この検出原理
の説明図である。黒ランの外接矩形メソッドをベースに
した方法であり、これまでと同様に原稿からの読み取り
文書画像から文字と見なせる黒ランの外接矩形の生成、
矩形統合を行い文字行を生成する。図13(a)に示す
ように、文字行を生成した後に、文字行内の矩形を対象
に回帰直線(破線)を求める処理を行う。なお、この処
理の前提として、文字行内の各矩形は図13(b)に示
すように、読み取り文書画像に設定されたXY座標軸
(スキューの基準軸を定めるものでもある)における2
点の座標(Xs,Ys),(Xe,Ye)で定義しておく。回帰直線
(破線)を求める処理においては、XY座標軸で位置を
定義された文字行内の矩形の4点の中の1点に注目し、
それを座標(Xi,Yi)の形で表現する。本例では、図13
(a)に示すように、矩形の始点の座標(Xs,Ys)に注目
しているが、実際には矩形の4点の内、どの点でも構わ
ない。文字行内の各矩形の注目点(Xi,Yi)の座標、即ち
(X1,Y1),(X2,Y2),……,(Xn,Yn),…の軌跡を直線で近似
すれば、図13(a)中の破線となり、この破線と水平
線(X軸)との角度が原稿の傾きに相当する。
【0028】座標(Xi,Yi)の軌跡の線形近似は、回帰分
析を行うことにより求めることができる。X に対するY
の回帰直線を求める方法は、「統計」に関する教科書
(例えば、.ガットマン.S.S.ウィルクス著「工科
系のための統計概論」培風社刊)に詳しいが、簡単には
以下のようになる。X に対する Y の回帰直線の式は、 Y = AX + B ………式(2) の形で表され、A をXに対するYの回帰係数と言う。 A = {NΣXiYi-(ΣXi)(ΣYi)}/{NΣXi2-(ΣXi)2} ………式(3) によって A を求め、次に、 B =ΣYi/N-AΣXi/N ………式(4) によって B を求める。一行に関しては文字行内の各矩
形の注目点(Xi,Yi)に上記式(2)〜(4)を適用することに
より傾き:Aが算出できるので、原稿中の全文字行に対
して傾きを求めた後、その代表値を求めるスキューとす
る。代表値としては、頻度ヒストグラムとして集計し、
最も頻出する傾きを選択する方法、あるいは傾きの平均
を算出する方法、などによって原稿の傾きを決定する。
なお、傾き(スキュー)角度θはθ = (tan)-1 A で求め
られる。このようにして検出されたスキューは、処理文
書画像の文字読み取りや文字認識の処理等を行う場合
に、エラーや処理不能が生じる原因となるので、スキュ
ーによる影響を除く、或いは回避する等のスキュー補償
の処理を行う。スキュー補償自体は、処理文書画像の文
字読み取りや文字認識の処理等において、従来から実施
されている方法を採用でき、例えば、画像入力処理にお
いて処理対象文書画像に補正を掛けるとか、スキューが
著しい場合には、処理の対象としないで原稿の再読み取
りを指示するといった方法によって対処する。
【0029】「実施形態5」本実施形態は、「実施形態
4」と同様にスキューを検出するが、スキューが著しく
なると、複数の文字行が一つにまとめられるということ
が一部に起きる場合があり、スキューの検出結果にエラ
ーを導く。このような影響を抑制することを可能にした
方法を採用することにより、より正確なスキューを検出
することを意図したものである。図14は、原稿画像の
スキューが著しくなった結果、行切り出し処理に失敗し
て、複数行が一つの行にまとめられた場合を示してい
る。複数行に「実施形態4」と同じ回帰直線を求める方
法を適用すると、文字行内の矩形の座標の軌跡を直線で
精度良く近似することは難しく、回帰分析して求めた回
帰直線の傾き(図14中に破線にて示す)と、実際の原
稿の傾きとの不一致が著しくなる場合が生じる。もちろ
ん、図13のように、一行が正しく切り出されている場
合でも、点や句読点など、行サイズと比較して著しく小
さい矩形の座標も、回帰分析の対象に加えた場合、実際
の行の傾きと回帰直線の傾きとが乖離する原因になる。
そこで、文字行の幅(高さ)と比較して著しく小さな当該
文字行の行内矩形を回帰分析の対象から排除する。この
ために、文字行の幅(高さ)に対する行内矩形サイズの割
合に、所定のしきい値を設けておき、一定以上の行内矩
形のみ分析の対象とする。
【0030】上記の方法を実行するためには、「実施形
態1」におけると同様に、文字行を作成するまでの処理
を行うが、このときに用いる文字行作成(行切り出し)
手段は、原稿のスキュー角度が大きい場合、文字行の切
り出しを正常に行うことが困難であり、ほとんどの行切
り出し結果が、図14のように複数行が一つにまとめら
れてしまうおそれがある。その場合、回帰分析対象とな
る座標が少ないので、回帰直線を求めても、それが行の
傾きを表現していないことも起こる。こうした不具合を
避けるために、回帰分析を行う前に、分析対象の矩形の
数と、行内矩形の総数との比を算出し、分析対象の行内
矩形数が少なく、分析対象の行内矩形数が行内矩形総数
の予め定めたしきい値以下の割合であるならば、回帰分
析を行わず、スキュー角度算出不能である、という判断
を行うようにする。具体的には、以下の処理操作を行う
必要がある。作成された文字行を指定し、当該文字行の
行内矩形の中の矩形の幅(高さ):Waと、当該文字行の
行幅(高さ):Wbとを取得して、Wa/Wbを求め、得たWa/
Wbがしきい値T1以上である矩形の数:Naを求め、当該文
字行の行内矩形の総数:Nbを求め、それらの比:Na/Nb
がしきい値T2以上の場合は、当該文字行はスキュー角度
算出可能とし、他方、Na/Nbがしきい値T2未満であれ
ば、当該文字行はスキュー角度算出不可能とする。こう
して対象を絞り、得られたスキュー角度を頻度ヒストグ
ラム集計等の対象となるスキュー角度として代表スキュ
ー角度を求める。また、これ以降のスキューを補償する
処理は「実施形態1」と変わりがない。
【0031】「実施形態6」本実施形態は、「実施形態
4,5」と同様にスキューを検出する場合、原稿の単位
で検出を実行する意義があるかを定める基準を設け、検
出時にその基準による判定を行うことにより適正かつ無
駄のない動作を保証することを意図したものである。一
般的に、スキュー角度を検出可能な範囲には制限を設け
ておき、すべての角度を検出可能であることを保証しな
い。なぜなら、天地が逆転した原稿の場合、あるいは、
90度回転した原稿の場合など、文字認識しない限りは、
原稿方向は不明であり、傾き角度検出するために、負荷
の大きな文字認識処理を複数回にわたって実行しなくて
はならず、現実的ではないからである。多くの文字認識
処理装置が保証しているスキュー検出角度は、-10〜0〜
10度、最高±45度である。したがって、検出可能なスキ
ュー角度を越えて傾いている原稿に対しては、スキュー
角度を求めることは無意味であり、大きくスキューして
いる旨を、オペレータに提示する方が実用上都合がよ
い。スキュー角度が大きいために、行切り出し処理が失
敗する例として、図12(b)のように複数行が1行にま
とめられてしまう場合がある。このような行を検出する
には、「実施形態5」で述べたように、当該文字行にお
いて、行サイズに対して所定割合以上のサイズの文字行
内矩形数が、文字行内矩形総数より著しく少ない場合に
は、文字行切り出し失敗行であると判断すればよい。そ
して、1枚の原稿中、行切り出しした行の総数に対し、
上記の判断によって文字行切り出し失敗と判定された行
が所定割合以上であれば、当該原稿は、スキュー角度検
出不可能なほど傾いていると判断する。上記の方法を実
行するためには、文字行を作成するまでの処理を行った
後に、以下の処理操作を行う必要がある。対象(注目)
原稿について作成された文字行を指定し、当該文字行の
行内矩形の中の矩形の幅(高さ):Waと、当該文字行の
行幅(高さ):Wbとを取得して、Wa/Wbを求め、得たWa/
Wbがしきい値T1以上である矩形の数:Naを求め、当該文
字行の行内矩形の総数:Nbを求め、それらの比:Na/Nb
がしきい値T2以上であるかを全文字行にわたって調べ、
しきい値T2以上の文字行の数:Ncを求める。次いで、し
きい値T2以上の文字行の数:Ncと当該原稿の文字行の総
数:Ndの比:Nc/Ndがしきい値T3以上であるかを調べ、
当該原稿がしきい値T3以上ならば、注目原稿のスキュー
角度検出を行い、未満ならば、注目原稿のスキュー角度
検出を実行しない、という処理を行う。こうして無意味
な検出動作を避けて、意義のある対象に対するスキュー
角度のみに検出を行う。
【0032】「実施形態7」本実施形態は、「実施形態
4〜6」と同様にスキューを回帰分析法により直線近似
により検出する場合、検出した結果を評価し、評価結果
に従い検出結果を利用するか否かを決めることにより、
検出の高精度化を図ることを意図したものである。回帰
分析において、座標の軌跡の直線近似の合致の程度を表
現する値として相関係数がある。相関係数は「実施形態
4」で述べた処理手順(式(2)〜(4)、参照)に加え、以
下の処理を追加することによって得られる。即ち、X と
Y の立場を逆にすると、もう1つの回帰直線ができ
る。Y に対する X の回帰直線の式は、 X = CY + D ………式(5) であり、この場合に、 C = {NΣXiYi-(ΣXi)(ΣYi)}/{NΣYi2-(ΣYi)2} ………式(6) によって C を求め、次に、 D = ΣXi/N-CΣYi/N ………式(7) によって D を求める。X と Y の相関係数をρとする
と、 ρ=±√|AC| ………式(8) となる。なお、式(8)における複号の選択は、A または
C の分子の符号とする。相関係数ρの絶対値が1に近い
ほど、座標の直線近似がうまくいっていることになり、
回帰直線が文字行の傾きに相当すると考えてよいといえ
る。逆に、相関係数ρの絶対値が1より小さく、0に近
くなるほど、回帰直線と、文字行の傾きとは一致しない
度合が強くなるといえる。よって、当該文字行内の矩形
座標に対して算出された相関係数ρの絶対値が小さい場
合、その行は文字切り出しに失敗している可能性が高
く、原稿の傾きを求めるには利用すべきでない。本例の
方法を実行するためには、回帰分析法を各文字行内の矩
形に適用して直線近似によりスキューを検出する処理を
行うときに、相関係数ρを求め、得た相関係数ρの絶対
値に対して、予めしきい値を設定しておき、しきい値以
下である行は、スキュー検出の対象としないようにする
ことにより容易に実現できる。こうして精度が保証され
ない検出結果を用いることを避けて、正しい結果が得ら
れる対象から得られたスキュー角度を頻度ヒストグラム
集計等の処理に用いて代表スキュー角度を求めるように
する。また、これ以降のスキューを補償する処理は「実
施形態1」と変わりがない。
【0033】「実施形態8」本実施形態は、「実施形態
4〜6」と同様にスキューを検出し、「実施形態7」と
同様に相関係数によるチェックを掛ける場合、原稿の単
位で検出する意義があるかを定める基準を設け、検出時
にその基準による判定を行うことにより適正かつ無駄の
ない動作を保証することを意図したものである。本例で
は、1枚の原稿中の各文字行に対して「実施形態7」に
述べた相関係数によるチェックを掛け、検出対象から外
された文字行数の原稿全体の文字行の総数に対する割合
が多くなれば、その原稿はスキューが大きすぎたためで
あり、スキューを算出する意味がない原稿であると判断
する。本例の方法を実行するためには、文字行切り出し
結果の総数を計数し、相関係数の絶対値に対して、予め
しきい値を設定しておき、しきい値以下である行の数を
計数し、その数が全行数にしめる割合に対してしきい値
処理を行い、割合の大小を判定することによって、容易
に実現できる。即ち、対象(注目)原稿について作成さ
れた各文字行の矩形に回帰分析法を適用して直線近似に
よりスキューを検出する処理を行うときに、相関係数ρ
を求め、得た相関係数ρの絶対値がしきい値T4未満であ
る文字行の数:Ncと当該原稿の文字行の総数:Ndの比:
Nc/Ndがしきい値T5以上であるかを調べ、しきい値T5以
上ならば、注目原稿のスキュー角度検出を行い、未満な
らば、注目原稿のスキュー角度検出を実行しない、とい
う処理を行う。こうして無意味な検出動作を避けて、意
義のある対象に対するスキュー角度のみに検出を行う。
【0034】「実施形態9」本実施形態は、本発明に係
わる文字認識装置、或いは画像処理装置の実施形態を示
すものである。上記の「実施形態1〜3」に示した文書
画像における実効解像度を求めるための方法、或いは
「実施形態4〜8」に示した文書画像におけるスキュー
の検出方法に示した処理ステップを実行する手段とし
て、汎用の処理装置(コンピュータ)を利用して構成さ
れる装置を例示するものである。図15は、本実施形態
の文書画像の処理装置の構成を例示する。図15に示す
ように、本例は、汎用の処理装置(コンピュータ)によ
り実施する例を示すものであり、構成要素としてCPU
1、メモリ2、ハードディスクドライブ3、スキャナ、
キーボード、マウス等の入力装置4、CD−ROMドラ
イブ5、ディスプレイ6、フレキシブルディスクドライ
ブ7、通信装置8などを用意し、これらをバス接続して
構成する。また、記憶手段としてのメモリ2、ハードデ
ィスクドライブ3、CD−ROMドライブ5、フレキシ
ブルディスクドライブ7が用いる記憶媒体(図示せず)
の一部には、本発明に係わる文字認識処理や画像処理の
機能を実現し、上記実施形態に示した実効解像度を求め
るための方法、或いはスキューの検出方法で述べた処理
手順を実現させるためのプログラム(ソフトウェア)が
記録されている。処理対象の原稿文書画像は、スキャナ
ー等の入力装置4により入力され、例えばハードディス
ク3などに格納されているものである。CPU1は、記
憶手段が有する記録媒体から上記した処理機能・処理方
法を実現するプログラムを読み出し、プログラムに従う
処理を対象文書画像に実行し、その処理結果等をディス
プレイ6などに出力する。なお、本発明に係わる文字認
識装置、或いは画像処理装置を、図16に示すように、
通信装置8によりインターネットなどの通信回線20を
介して、外部の装置11〜13と接続して、機能の一部
をネットワーク上に持つような形態で実施してもよい。
【0035】
【発明の効果】(1) 請求項1,9の発明に対応する
効果 処理対象の文書画像を基に生成した黒ランの外接矩形か
ら文字の要素と思われる矩形を抽出し、近隣の矩形同士
を連結して行に成長させ、得られる各行のサイズを集計
し、代表文字サイズ(画素数)を求め、求めた値を標準
文字サイズ(長さ)と比較することにより実効解像度を
推定し、実効解像度に応じて、後続して実行される行切
り出し処理および文字切り出し処理中で使用される各種
パラメータを設定しなおすようにしたので、読取解像度
に依存することなく、行・文字を安定して切り出すこと
ができるようになり、高精度かつ頑強な文字認識装置を
実現することが可能となる。 (2) 請求項2の発明に対応する効果 処理対象の文書画像を基に生成した黒ランの外接矩形か
ら文字の要素と思われる矩形を抽出し、近隣の矩形同士
を連結して行に成長させ、得られる各行毎の行サイズに
対して所定割合以上のサイズを有する当該行内の外接矩
形情報を基に代表文字サイズ(画素数)を求め、求めた
値を標準文字サイズ(長さ)と比較することにより実効
解像度を推定し、実効解像度に応じて、後続して実行さ
れる行切り出し処理および文字切り出し処理中で使用さ
れる各種パラメータを設定しなおすようにしたので、読
取解像度に依存することなく、スキューの影響を受けに
くく、行・文字を安定して切り出すことができるように
なり、高精度かつ頑強な文字認識装置を実現することが
可能となる。 (3) 請求項3の発明に対応する効果 上記(2)の効果に加え、スキューが大きい場合に、代
表文字サイズ算出の対象に適さない文字サイズが入って
しまうものを排除することができるので、より正確な文
字サイズを得ることが可能になる。
【0036】(4) 請求項4,10の発明に対応する
効果 処理対象の文書画像を基に生成した黒ランの外接矩形か
ら文字の要素と思われる矩形を抽出し、近隣の矩形同士
を連結して行に成長させ、得られる行の内部にある矩形
を定義する点に注目し、行内に存在する各矩形の注目点
の座標の分布を回帰分析することによって、行内矩形の
並びの傾きを入力画像のスキューとして検出するように
したので、レイアウトの複雑な原稿に対してもスキュー
の検出を精度良く行うことが可能になる。 (5) 請求項5の発明に対応する効果 上記(4)の効果に加え、回帰分析して求めた回帰直線
の傾きと、実際の原稿の傾きとの不一致が著しくなる要
因を持つ行を代表スキュー算出の対象から排除するよう
にしたので、より正確なスキューを検出することが可能
になる。 (6) 請求項6の発明に対応する効果 上記(4)の効果に加え、1枚の原稿中、行切り出しし
た行の総数に対し、文字行切り出し失敗と判定された行
が所定割合に満たない場合に、当該原稿のスキュー検出
を実行するようにしたので、適正かつ無駄のない動作を
保証することが可能になる。
【0037】(7) 請求項7の発明に対応する効果 上記(4)の効果に加え、行毎に回帰分析における相関
係数を算出し、得た相関係数が所定値以上である行に対
し、スキュー算出を行うようにしたので、スキュー検出
の高精度化を図ることが可能になる。 (8) 請求項8の発明に対応する効果 上記(4)の効果に加え、行毎の回帰分析における相関
係数を算出し、得た相関係数が所定値以上である行を計
数し、該計数値が全行数の所定割合以上の場合に、当該
原稿のスキュー検出を実行するようにしたので、適正か
つ無駄のない動作を保証することが可能になる。 (9) 請求項11の発明に対応する効果 請求項9又は10に記載された画像処理方法の各ステッ
プを実行するためのプログラムを汎用の処理装置(コン
ピュータ)に搭載することにより、上記(1)又は
(4)の効果を容易に具現化することが可能になる。
【図面の簡単な説明】
【図1】 処理対象となる文書画像の一例を示す。
【図2】 横書きの文書を対象として、縦方向および横
方向に射影を求めた結果を示す。
【図3】 複雑なレイアウトの原稿の例を示す図であ
る。
【図4】 図3に示す原稿を対象として、縦方向および
横方向に射影を求めた結果を示す。
【図5】 文書画像の例(図1)における文字と見なせ
る黒ランの外接矩形を作成した結果を示す。
【図6】 近隣の矩形を統合する処理を説明する図であ
る。
【図7】 統合処理の結果得られる文字行の矩形と文字
外接矩形を示す図である。
【図8】 文字行の幅(高さ)に関してとった頻度ヒスト
グラムと代表文字サイズを示す図である。
【図9】 同一原稿を解像度を変えて読み取ったときの
実例を示す。
【図10】 元は同一サイズの文字を解像度を変えて読
み取ったときの例を示す。
【図11】 実効解像度を内部パラメータの設定に反映
させる処理手順を含む文書画像の文字認識処理に係わる
フローチャートを示す。
【図12】 スキュー発生時の行切り出し状態を説明す
る図である。
【図13】 文字行内の外接矩形への回帰分析の適用
(a)と座標による矩形の定義(b)を説明する図であ
る。
【図14】 スキュー発生時に行切り出しに異常が生じ
た場合の回帰直線の状態を説明する図である。
【図15】 本発明の実施形態に係わる文書画像の処理
装置の構成を示す。
【図16】 本発明の実施形態に係わる文書画像の処理
装置の他の構成を示す。
【符号の説明】
1…CPU、 2…メモリ、3…ハ
ードディスクドライブ、 4…入力装置、5…CD−
ROMドライブ、 6…ディスプレイ(表示装
置)、7…FDドライブ、 8…通信装
置。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06T 7/60 150 G06T 7/60 150P

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 処理対象として入力された文書画像の画
    素ランに基づいて文字画像の外接矩形情報を生成する手
    段と、前記外接矩形情報に基づいて行毎に画素数で表現
    した行サイズを求める手段と、行毎に求めた行サイズか
    らその代表値を算出する手段と、算出した行サイズの代
    表値と長さ単位で表現した標準文字サイズとを比較する
    ことにより実効解像度を推定する手段と、推定した実効
    解像度により文字認識の処理条件の設定を変更する手段
    を備えたことを特徴とする文字認識装置。
  2. 【請求項2】 処理対象として入力された文書画像の画
    素ランに基づいて文字画像の外接矩形情報を生成する手
    段と、前記外接矩形情報に基づいて行毎に画素数で表現
    した行サイズを求める手段と、行毎に求めた行サイズに
    対して所定割合以上のサイズを有する当該行内文字画像
    の外接矩形情報から文字サイズの代表値を算出する手段
    と、算出した文字サイズの代表値と長さ単位で表現した
    標準文字サイズとを比較することにより実効解像度を推
    定する手段と、推定した実効解像度により文字認識の処
    理条件の設定を変更する手段を備えたことを特徴とする
    文字認識装置。
  3. 【請求項3】 請求項2に記載された文字認識装置にお
    いて、文字サイズの代表値を算出する前記手段は、行サ
    イズに対して所定割合以上のサイズの当該行内文字画像
    の外接矩形数が、当該行内文字画像の外接矩形総数の所
    定割合以上の場合のみ、算出に用いるようにしたことを
    特徴とする文字認識装置
  4. 【請求項4】 処理対象として入力された文書画像の画
    素ランに基づいて文字画像の外接矩形情報を生成する手
    段と、前記外接矩形情報に基づいて文字行情報を生成す
    る手段と、前記文字行情報によって定まる文字行内に存
    在する文字画像の外接矩形情報から矩形座標を抽出し、
    抽出した矩形座標を回帰分析することによって、行毎に
    回帰直線を求め、その傾きから対象文書画像のスキュー
    を算出する手段と、算出したスキューにより対象文書画
    像に対するスキュー補正を行う手段を備えたことを特徴
    とする画像処理装置。
  5. 【請求項5】 請求項4に記載された画像処理装置にお
    いて、スキューを算出する前記手段は、行サイズに対し
    て所定割合以上のサイズの当該行内文字画像の外接矩形
    数が、当該行内文字画像の外接矩形総数の所定割合以上
    の場合に算出に用いるようにしたことを特徴とする画像
    処理装置
  6. 【請求項6】 請求項4に記載された画像処理装置にお
    いて、スキューを算出する前記手段は、行サイズに対し
    て所定割合以上のサイズの当該行内文字画像の外接矩形
    数が、当該行内文字画像の外接矩形総数の所定割合以上
    になる行数を計数し、該計数値が全行数の所定割合以上
    の場合に算出を行うようにしたことを特徴とする画像処
    理装置。
  7. 【請求項7】 請求項4に記載された画像処理装置にお
    いて、スキューを算出する前記手段は、行毎の回帰分析
    における相関係数を算出し、得た相関係数が所定値以上
    である行に対し、スキュー算出を行うようにしたことを
    特徴とする画像処理装置。
  8. 【請求項8】 請求項4に記載された画像処理装置にお
    いて、スキューを算出する前記手段は、行毎の回帰分析
    における相関係数を算出し、得た相関係数が所定値以上
    である行を計数し、該計数値が全行数の所定割合以上の
    場合に算出を行うようにしたことを特徴とする画像処理
    装置。
  9. 【請求項9】 処理対象として入力された文書画像の画
    素ランに基づいて文字画像の外接矩形情報を生成するス
    テップと、前記外接矩形情報に基づいて行毎に画素数で
    表現した行サイズを求めるステップと、行毎に求めた行
    サイズからその代表値を算出するステップと、算出した
    行サイズの代表値と長さ単位で表現した標準文字サイズ
    とを比較することにより実効解像度を推定するステップ
    と、推定した実効解像度により文字認識の処理条件の設
    定を変更するステップの各処理ステップを実行すること
    を特徴とする画像処理方法。
  10. 【請求項10】 処理対象として入力された文書画像の
    画素ランに基づいて文字画像の外接矩形情報を生成する
    ステップと、前記外接矩形情報に基づいて文字行情報を
    生成するステップと、前記文字行情報によって定まる文
    字行内に存在する文字画像の外接矩形情報から矩形座標
    を抽出し、抽出した矩形座標を回帰分析することによっ
    て、行毎に回帰直線を求め、その傾きから対象文書画像
    のスキューを算出するステップと、算出したスキューに
    より対象文書画像に対するスキュー補正を行うステップ
    の各処理ステップを実行することを特徴とする画像処理
    方法。
  11. 【請求項11】 請求項9又は10に記載された画像処
    理方法の各処理ステップをコンピュータに実行させるた
    めのプログラム。
JP2002072872A 2002-03-15 2002-03-15 画像処理装置、画像処理方法及び同方法の実行に用いるプログラム Expired - Fee Related JP4070486B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002072872A JP4070486B2 (ja) 2002-03-15 2002-03-15 画像処理装置、画像処理方法及び同方法の実行に用いるプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002072872A JP4070486B2 (ja) 2002-03-15 2002-03-15 画像処理装置、画像処理方法及び同方法の実行に用いるプログラム

Publications (2)

Publication Number Publication Date
JP2003271897A true JP2003271897A (ja) 2003-09-26
JP4070486B2 JP4070486B2 (ja) 2008-04-02

Family

ID=29202748

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002072872A Expired - Fee Related JP4070486B2 (ja) 2002-03-15 2002-03-15 画像処理装置、画像処理方法及び同方法の実行に用いるプログラム

Country Status (1)

Country Link
JP (1) JP4070486B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009193191A (ja) * 2008-02-13 2009-08-27 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2011248415A (ja) * 2010-05-24 2011-12-08 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
CN111104941A (zh) * 2019-11-14 2020-05-05 腾讯科技(深圳)有限公司 图像方向纠正方法、装置及电子设备
CN117079282A (zh) * 2023-08-16 2023-11-17 读书郎教育科技有限公司 一种基于图像处理的智能词典笔

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009193191A (ja) * 2008-02-13 2009-08-27 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2011248415A (ja) * 2010-05-24 2011-12-08 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
US8391606B2 (en) 2010-05-24 2013-03-05 Fuji Xerox Co., Ltd. Image processing device, image processing method, and computer readable medium
CN111104941A (zh) * 2019-11-14 2020-05-05 腾讯科技(深圳)有限公司 图像方向纠正方法、装置及电子设备
CN111104941B (zh) * 2019-11-14 2023-06-13 腾讯科技(深圳)有限公司 图像方向纠正方法、装置及电子设备
CN117079282A (zh) * 2023-08-16 2023-11-17 读书郎教育科技有限公司 一种基于图像处理的智能词典笔

Also Published As

Publication number Publication date
JP4070486B2 (ja) 2008-04-02

Similar Documents

Publication Publication Date Title
JP4777393B2 (ja) デジタル画像におけるテキスト方向判定方法およびシステム、ならびに、制御プログラムおよび記録媒体
JP4758461B2 (ja) デジタル画像におけるテキスト方向判定方法およびシステム、ならびに、制御プログラムおよび記録媒体
JP4919028B2 (ja) 画像処理装置および画像処理プログラム
JP5934762B2 (ja) 文字の形状特徴を使用した文字比較による文書改変検知方法、コンピュータプログラム、記録媒体および情報処理装置
US7969631B2 (en) Image processing apparatus, image processing method and computer readable medium storing image processing program
JPH11219407A (ja) 文書画像認識装置および文書画像認識プログラムの記憶媒体
JP2761467B2 (ja) 画像切り出し装置及び文字認識装置
JP3876531B2 (ja) 文書画像の傾き補正方法
US8452095B2 (en) Image processing for post-processing rate of character rectangle extraction and character recognition accuracy
JP4991590B2 (ja) 画像処理装置、画像処理方法、画像処理プログラム、及び、記憶媒体
US8600175B2 (en) Apparatus and method of processing image including character string
JP2000251082A (ja) 文書画像傾き検出装置
JP4070486B2 (ja) 画像処理装置、画像処理方法及び同方法の実行に用いるプログラム
JPH10162102A (ja) 文字認識装置
US20080225340A1 (en) Image processing apparatus, image processing method, and computer program product
JP4435141B2 (ja) 文字認識装置、文字認識方法および文字認識プログラム
JP2005352623A (ja) パターン照合装置、画像品質検証方法及び画像品質検証プログラム
JP3381803B2 (ja) 傾き角検出装置
JPH11250179A (ja) 文字認識装置および文字認識方法
JP3071479B2 (ja) 行間スペース検出方法
JPH1166225A (ja) 表情報抽出装置及び方法並びに記録媒体
JPH06215181A (ja) 文字・文字列切り出し方法および文字認識装置
JP3915974B2 (ja) 画像処理装置、画像処理方法、プログラム及び記録媒体
JPH05114048A (ja) 文字認識方法及びその装置
JP2000020642A (ja) 文字切り出し方法及び該方法を記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070919

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080115

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110125

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120125

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130125

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140125

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees