JP2005196563A - 傾き補正装置、傾き補正方法、プログラムおよび記録媒体 - Google Patents

傾き補正装置、傾き補正方法、プログラムおよび記録媒体 Download PDF

Info

Publication number
JP2005196563A
JP2005196563A JP2004003161A JP2004003161A JP2005196563A JP 2005196563 A JP2005196563 A JP 2005196563A JP 2004003161 A JP2004003161 A JP 2004003161A JP 2004003161 A JP2004003161 A JP 2004003161A JP 2005196563 A JP2005196563 A JP 2005196563A
Authority
JP
Japan
Prior art keywords
document element
inclination
correction
document
rectangle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004003161A
Other languages
English (en)
Inventor
Katsushi Morimoto
勝士 森本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2004003161A priority Critical patent/JP2005196563A/ja
Publication of JP2005196563A publication Critical patent/JP2005196563A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

【課題】画像データから抽出した文書要素のうち傾き検出に適切な文書要素の修正・選択を支援する傾き補正装置、傾き補正方法、プログラムおよび記録媒体を提供する。
【解決手段】原稿画像から文書要素を抽出し、該抽出された文書要素から前記原稿画像の傾きを求めるための特徴量を算出して、前記原稿画像の傾き角度を算出し、該算出された傾き角度をもとに前記原稿画像の傾きを補正して正立画像を得られなかった場合、前記抽出された文書要素に関する情報を表示し、該表示された文書要素に関する情報をユーザに修正させ、前記修正された文書要素に関する情報を用いて傾き角度を再計算する。
【選択図】図2

Description

本発明は、傾き補正装置、傾き補正方法、プログラムおよび記録媒体に関し、具体的には、読み込んだ画像の傾きを検出して補正を行うときのユーザインタフェースに関し、文字認識や画像編集の前処理に応用して好適である。
画像データを読み込む場合に、原稿の置き方や、スキャン系の不具合などにより入力した画像がずれたり、傾いたりすることがあり、その結果、読み込んだ画像データが正しく得られないという問題がでてくる。
これは、文字認識装置において文書や帳票の画像を処理する場合に特に問題となり、読み込んだ画像に傾きがあると認識率に悪影響を及ぼすことになるからである。
また、コピー、ファクシミリ、スキャナ等の画像入力機器一般において、画像を傾きのない状態で入力したいという要求は強い。
この画像の傾きを補正する技術として、例えば、特許文献1や特許文献2に示された技術が知られている。
この特許文献1の技術は、画像上の黒画素と白画素の境界の点を複数個抽出し、境界点の点列とし、この点列のX座標とY座標を2変数とする回帰直線の回帰係数を求め、回帰係数に対応する点列に対する相関係数を求める。回帰係数のヒストグラムを、当該回帰係数に対応した相関係数で重み付けして作成し、ヒストグラムの頂点に対応する回帰係数の値より画像の傾き角度を求めるようにしている。
また、特許文献2の技術は、スキャナで入力された画像の輪郭を抽出し、抽出された輪郭を直線近似して複数の直線を生成し、複数の直線の中から一つを傾き補正の基準となる直線として選択し、選択された直線が示す線分情報を基に傾き補正に必要な回転補正パラメータを算出する。この回転補正パラメータに基づいて、画像の傾きを回転補正する。
これにより、ユーザの操作がなく、もしくは簡単な操作のみで図形や文字の混在する原稿について傾きの補正を実現する。
特許第3338537号公報 特開2002−77566号公報
しかしながら、上述の従来の技術では、文書要素や補正の基準となる直線が適切に選択されれば正しく傾きが検出されるものの、一部の文書要素の抽出結果が不適切だった場合、その悪影響で傾き検出の結果が不適当なものになることがある。
本発明は、上述した実情を考慮してなされたものであって、画像データから抽出した文書要素のうち傾き検出に適切な文書要素の修正・選択を支援する傾き補正装置、傾き補正方法、プログラムおよび記録媒体を提供することを目的とする。
上記の課題を解決するために、請求項1の発明は、原稿画像から文書要素の抽出を行う文書要素抽出手段と、該抽出された文書要素から前記原稿画像の傾きを求めるための特徴量を算出して、前記原稿画像の傾き角度を算出する傾き算出手段を有して、該算出された傾き角度をもとに前記原稿画像の傾きを補正する傾き補正装置において、前記抽出された文書要素に関する情報を表示するとともに、ユーザから指定された文書要素に関する情報に対してユーザから指定された修正を実施し、該修正結果を表示に反映させる文書要素修正手段を有し、前記傾き算出手段は、前記修正された文書要素に関する情報を用いて傾き角度を再計算するようにしたことを特徴とする。
請求項2の発明は、請求項1に記載の傾き補正装置において、表示された文書要素に関する情報のうち、修正対象の文書要素を指定する修正対象指示手段を有し、前記文書要素修正手段は該指定された文書要素に対してユーザに修正を行わせるようにしたことを特徴とする。
請求項3の発明は、請求項1に記載の傾き補正装置において、表示された文書要素に関する情報のうち、修正対象外の文書要素を指定する修正対象外指示手段を有し、前記文書要素修正手段は該指定された文書要素以外の文書要素に対してユーザに修正を行わせるようにしたことを特徴とする。
請求項4の発明は、請求項2または3に記載の傾き補正装置において、前記修正対象指示手段または前記修正対象外指示手段で文書要素を指定する場合、該文書要素を含む範囲によって指定するようにしたことを特徴とする。
請求項5の発明は、請求項4に記載の傾き補正装置において、前記範囲の指定は、指定された2点を対角頂点とする矩形により範囲を指定することを特徴とする。
請求項6の発明は、請求項4または5に記載の傾き補正装置において、前記指定された範囲内に包含される文書要素が指定されたものとすることを特徴とする。
請求項7の発明は、請求項4または5に記載の傾き補正装置において、前記指定された範囲内に包含される文書要素およびこの範囲に部分的に掛かる文書要素が指定されたものとすることを特徴とする。
請求項8の発明は、請求項1乃至7のいずれかに記載の傾き補正装置において、前記文書要素修正手段における修正指示に関する情報の履歴を管理し、修正指示の取消および再実行を行わせる履歴管理手段を有することを特徴とする。
請求項9の発明は、請求項1乃至8のいずれかに記載の傾き補正装置において、表示された文書要素のうち、傾き補正の対象となる文書要素あるいは対象外の文書要素を選択する選択手段を有し、前記傾き算出手段は、前記選択された文書要素に関する情報を用いて傾き角度を再計算するようにしたことを特徴とする。
請求項10の発明は、原稿画像から文書要素を抽出し、該抽出された文書要素から前記原稿画像の傾きを求めるための特徴量を算出して、前記原稿画像の傾き角度を算出し、該算出された傾き角度をもとに前記原稿画像の傾きを補正する傾き補正方法において、前記抽出された文書要素に関する情報を表示し、該表示された文書要素に関する情報を修正し、前記修正された文書要素に関する情報を用いて傾き角度を再計算するようにしたことを特徴とする。
請求項11の発明は、コンピュータに、請求項1乃至9のいずれかに記載の傾き補正装置の機能を実行させるためのプログラムである。
請求項12の発明は、請求項11に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体である。
本発明によると、画像データから抽出した文書要素をユーザに対して提示し、その中から傾き角度算出に適切な文書要素を選択させ、また、適切な文書要素となるように修正させるようにしたので、不適切に抽出された文書要素による傾き検出への悪影響を排除することができる。したがって、適切な文書の傾きが求められるので、その傾きを用いて適正な補正画像を得ることができる。
以下、図面を参照して本発明の好適な実施形態について説明する。
図1は、本発明の傾き補正装置を適用した文字認識装置の概略ブロック図である。ここに示す文字認識装置200は、スキャナ装置のような画像入力装置100と液晶ディスプレイ等の表示装置300を接続して、画像入力装置100から読み取った画像にある文字を認識して文字コードに変換し、その認識結果を他のアプリケーションソフトウェアで使用できるようにする。その変換の際、認識途中における作業支援のために表示装置300が使われる。
まず、画像入力手段210によって画像入力装置100の原稿を2値画像として読み取って、傾き補正手段220に渡す。ここで、文字認識や文字識別に用いるには、正しい向きに置かれた原稿から読み取った画像データの方がよりよい性能を期待できる。したがって、ユーザはなるべく正しい向きに原稿を置くべきであるが、傾いた向きに原稿を置いてしまった場合には、正しい向きとなるように画像を回転するようにしてもよい。ただし、読み込んだままの画像データであってもある程度の性能はでるので、正しい向きに直さなくてもよい。
原稿から読み取った画像データ、または、正しい向きに直された画像データを、以下、原稿画像とよぶことにする。
または、画像入力装置100は、スキャナ装置のような装置だけでなく、既に電子ファイリングされた記憶装置であってもよい。この場合には、画像入力手段210は記憶装置に電子ファイリングされた画像データを読み込む。
傾き補正手段(傾き補正装置)220は、後述の方法によって原稿画像の傾きを補正した画像データを作成する。
行切り出し手段230は、原稿画像または補正された原稿画像より文字行イメージを切り出す。
文字切り出し手段240は、文字行イメージより個々の文字画像を切り出すとともに文字画像の幅と高さの情報も抽出し、その情報も文字画像とともに特徴量抽出手段250へ渡す。
特徴量抽出手段250は、原稿画像中のエッジに方向コードを付与し、分割した画像領域ごとに、方向コードのヒストグラムを求め、その各ヒストグラム値を成分とするベクトルを特徴ベクトルとして抽出する。
マッチング手段260は、特徴量抽出手段250によって原稿画像から抽出された特徴ベクトルと、その抽出方法と同じ方法で予め各文字種の標準文字パターンより抽出されて認識辞書270に登録されている特徴ベクトルとの相違度を算出し、相違度の最も小さい文字を認識結果とする。
結果出力手段280は、この認識結果と原稿画像を表示装置300に表示させ、所望の結果をユーザに選択または修正させて、最終的な認識結果を記憶装置や他のアプリケーションソフトウェアへ引き渡して、処理を終了する。
このような文字認識装置200の全体的な構成および基本的処理内容は、従来の文字認識装置と同様であるが、傾き補正手段220は本発明の方法により傾いた画像を正立画像に補正するもので、その構成と処理内容は従来のものとは異なる。
なお、本実施形態では、文字認識装置へ本発明の傾き補正装置を適用しているが、2値画像やカラー画像を正立画像に補正する装置、例えば、画像識別、画像編集、文書ファイリング、文書処理、文書管理あるいは文書配信等を行う装置やシステムにも容易に適用可能である。
以下、傾き補正手段220について詳細に説明する。
<実施形態1>
図2は、傾き補正手段220の機能構成を示すブロック図である。同図において、傾き補正手段220は、文書要素抽出手段221、傾き算出手段222、補正可否問合せ手段223、文書要素修正手段224、履歴管理手段225とからなっている。
文書要素抽出手段221は、与えられた原稿画像の中から文字や罫線を含む矩形を文書要素として抽出する。文書要素の例としては、文字、罫線、絵図、写真などがあるが、文書画像の傾きを検出するときには文字や罫線の利用が一般的である。
例えば、主走査方向や副走査方向に黒画素が一定個数以上続く黒ランを抽出することによって罫線を抽出する。図3は、主走査方向に対して傾いた罫線の例である。図3(A)は、右下がりに原稿が傾いた場合に、罫線が複数の黒ランに分かれてしまった例である。
また、図3(B)は、左下がりに原稿が傾いた場合に、罫線が複数の黒ランに分かれてしまった例である。
また、文字は、黒画素が連結している領域を包含する最小の矩形として抽出する。例えば、図4(A)の41〜45は、黒画素が連結した領域を包含する最小の矩形を示している。
ここで抽出した文書要素の原稿画像中の位置、例えば、矩形の左上隅と右下隅のような文書要素を示す矩形の対角の座標値と、この文書要素が補正対象か否かの区分(詳細は後述)をONとして、例えば、図5に示したデータ構造を持つ文書要素テーブルに記憶する。また、文書要素が線分の場合には、文書要素の原稿画像中の位置は線分の開始座標と終了座標とする。
この文書要素テーブルは、文書要素ごとに、原稿画像中の位置、外接矩形番号(詳細は後述)、補正対象か否かの区分および文書要素の特徴量(詳細は後述)を格納する。
傾き算出手段222は、特許文献1に開示されている公知の技術によって傾きを算出する。この特許文献1の傾き算出方法を以下に概説する。
まず、文書要素抽出手段221で抽出された文書要素ごとの特徴量を求めて、文書要素テーブルの該当領域へ記憶する。この特徴量は、文書要素が矩形で表される場合には矩形の左上隅の座標や矩形の中心座標、また、文書要素が罫線のような線分の時には、線分の開始座標や開始点と終了点の中間座標とする。
次に、原稿画像を一定の圧縮率で圧縮した画像上で黒画素が連結している領域をすべて包含する最小の矩形を求めて、近接した線分や矩形を統合した外接矩形を求める。ここで求めた外接矩形の原稿画像中の位置、例えば、外接矩形の左上隅と右下隅のような矩形の対角の座標値と、この外接矩形が補正対象か否かの区分(詳細は後述)をONとして、例えば、図5に示したデータ構造を持つ外接矩形テーブルに記憶する。この外接矩形テーブルは、外接矩形ごとに、原稿画像中の位置、補正対象か否かの区分を格納する。
さらに、同じ外接矩形に含まれる矩形または線分に対して、外接矩形テーブルへ登録したときの外接矩形番号を文書要素テーブルの該当領域に記憶する。
例えば、図3(A)および(B)の複数の黒ランに分かれた罫線は、図3(C)および(D)に示すようにそれらを包含した外接矩形(31,32)として表される。また、図4(A)に示した矩形は、図4(B)に示すように統合した外接矩形(46)として表される。
ここで、副走査方向に所定の距離内を1つの行(または主走査方向に所定の距離内を1つの列)としたときに、この行(または列)を外接矩形と考えてもよい。
この同じ外接矩形に含まれる文書要素の特徴量から回帰係数および相関係数を求める。この回帰係数を各外接矩形について計算し、これらの回帰係数に相関係数を重みとして掛けた値のヒストグラムを作成し、得られたヒストグラムのピークに対応する回帰係数の平均値あるいは中央値を原稿画像全体における回帰係数値bとし、この回帰係数値bを用いて、tanθ=bから傾き角度θを計算する。または、単に、各外接矩形の回帰係数の平均値や中央値を原稿画像全体における回帰係数値bとして傾き角度θを計算してもよい。
図6は、上記の回帰係数値bの求め方を説明する図である。外接矩形60に含まれる文書要素の矩形61の特徴量62の点列から、特徴量62の近傍を通る回帰直線63として計算する。ここで、特徴量62は、矩形61の中心にある点を示しているが、矩形の中心である必要はなく、矩形61の左下隅あるいは左上隅等であってもよい。
補正可否問合せ手段223は、まず、傾き算出手段222で算出した傾き角度θに基づいて、原稿画像をアフィン変換等により逆方向に回転させて正立画像を作成する。
次に、この補正された画像を表示装置300へ表示させ、傾き補正が所望通り行われたか否かをユーザに問い合わせる。
ユーザは、表示装置300に表示された画像を見て、所望通りの画像に補正されたと判断したときには傾き補正が完了したことを入力し、所望通りに補正できていないと判断したときには傾き補正不可を入力する。
補正可否問合せ手段223は、この補正完了が入力されると、傾きが補正された画像データを原稿画像として行切り出し手段230へ渡す。また、補正不可が入力されると文書要素修正手段224を呼び出す。
文書要素修正手段224は、表示装置300へ原稿画像を表示する。このとき、文書要素抽出手段221で抽出した文書要素の矩形または傾き算出手段222で抽出した外接矩形を上乗せして表示させることによりどの文書要素が傾き角度算出に不適切であったかをわかりやすくする。
なお、矩形の表示方法としては、文書要素の矩形だけを表示させてもよいが、文書要素の外接矩形を文書要素の矩形と置き換えて表示させても、あるいは文書要素の矩形を表示したまま外接矩形を上乗せして表示させるようにしてもよい。
例えば、図7に示したように原稿画像と外接矩形が表示された場合、ユーザは図7の外接矩形71が不適切なものと判断して、図8(A)の外接矩形81または図8(B)の外接矩形(82,83)のように直すかまたは傾き角度を算出する対象の外接矩形から削除する。
また、図9(A)のような文書要素の矩形(91〜96)の場合には、ユーザは図9(B)のような外接矩形(97,98)にまとめ直す操作を行う。
このために、文書要素修正手段224では、ポインティングデバイス等を使ったGUI(graphical user interface)による次のような操作指令を用いて文書要素の矩形や外接矩形の座標情報の修正を会話的に行う。これらの操作指令を必要なだけ実行することによって、傾き補正に有効な文書要素を選択する。
(イ)矩形の削除
削除する矩形または外接矩形をクリックして選択し、削除指令を入力する。これを実行すると矩形の場合には、文書要素テーブルの該当矩形の区分へOFFを設定して、傾き補正の対象矩形としないようにする。また、外接矩形が削除対象となった場合には、外接矩形テーブルの該当外接矩形の区分へOFFを設定して、この外接矩形に含まれる矩形を傾き補正の対象としないようにする。
(ロ)矩形の作成
表示されている原稿画像の中から傾き補正の対象とする文字や罫線を含んだ矩形を生成する場合、矩形作成指令を入力して矩形の始点からドラッグして所望の文字や罫線を含んだ矩形となるようにする。このとき、作成した矩形の中にすでに矩形が存在する場合には、含まれる矩形を包含する外接矩形となるように変形し、外接矩形の位置(外接矩形の対角の座標値)と、補正対象の区分をONとして外接矩形テーブルへ新規登録する。さらに、この外接矩形に含まれる矩形の外接矩形番号を新規登録した外接矩形の番号に変更して文書要素テーブルを更新する。
また、作成した矩形の中に矩形が存在しない場合には、この作成矩形中に存在する黒画素が連結した領域を包含する最小の矩形となるように変形し、作成した矩形の位置(矩形の対角の座標値)と、補正対象の区分をONとして文書要素テーブルへ新規登録する。
(ハ)矩形の拡大または縮小
表示されている矩形または外接矩形の大きさを変更する場合、矩形変更指令を入力して変更対象となる矩形領域をクリックし、その矩形の辺や隅をドラッグして所望の大きさの矩形となるようにする。このとき、変更した矩形の中にすでに矩形が存在する場合には、含まれる矩形を包含する外接矩形となるように変形し、外接矩形の位置(外接矩形の対角の座標値)と、補正対象の区分をONとして外接矩形テーブルを更新する。さらに、この外接矩形に含まれる矩形の外接矩形番号を変更された外接矩形の番号に変更して文書要素テーブルを更新する。
また、変更した矩形の中に矩形が存在しない場合には、この変更した矩形中に存在する黒画素が連結した領域を包含する最小の矩形となるように変形し、変更対象となった矩形の位置(矩形の対角の座標値)と、補正対象の区分をONとして矩形文書要素テーブルを更新する。
(ニ)矩形の分割
1つの矩形または外接矩形を1つ以上の矩形または外接矩形に分割する場合には、分割指令と分割位置や方向を入力して分割対象の矩形または外接矩形をクリックして選択する。このとき、分割対象が矩形の場合には、分割位置と方向によって分割された各矩形内に存在する黒画素が連結した領域を包含する最小の矩形となるように変形し、分割対象となった矩形を文書要素テーブルから削除するとともに、分割された各矩形の位置(矩形の対角の座標値)と、補正対象の区分をONとして文書要素テーブルに新規登録する。この矩形が外接矩形に内包されていた場合には、新規に登録された矩形の外接矩形番号は、削除された矩形の外接矩形番号をそのまま維持する。
また、分割対象が外接矩形の場合には、分割位置と方向によって分割された各矩形内に存在する矩形を包含する外接矩形を新たに作成し、この外接矩形の位置(外接矩形の対角の座標値)と、補正対象の区分をONとして外接矩形テーブルに新規登録する。さらに、この新規に作成された外接矩形に含まれる矩形の外接矩形番号を新規登録された外接矩形の番号に変更して文書要素テーブルを更新する。また、分割対象となった外接矩形を外接矩形テーブルから削除する。
例えば、図10(A)に示すように矩形(101〜106)とその外接矩形100がある場合、矩形105を分割線107によって分割指令を出すと、図10(B)に示すように「ng」の部分の矩形108と「bo」の部分の矩形109に分割される。これらの矩形(101〜104,106,108,109)は依然として外接矩形100に包含されている。
図10(B)の状態で、外接矩形100に対して分割線110によって分割指令を出すと、図10(C)に示すように外接矩形100が外接矩形111と外接矩形112の2つに分割される。
(ホ)矩形の統合
複数の矩形または外接矩形をまとめて1つの外接矩形に統合する場合には、統合指令を入力して、統合対象の複数の矩形または外接矩形をクリックして選択する。この場合、統合対象の矩形または外接矩形を包含する外接矩形を作成し、外接矩形の位置(外接矩形の対角の座標値)と補正対象の区分をONとして外接矩形テーブルへ新規登録する。このとき、統合対象の中に外接矩形が存在する場合には、その外接矩形を外接矩形テーブルから削除するとともに、その外接矩形に含まれていた文書要素の矩形の外接矩形番号を新規登録した外接矩形の番号に変更して文書要素テーブルを更新する。
また、統合対象の中に外接矩形が存在しない場合には、統合対象の矩形を包含する外接矩形を作成し、外接矩形の位置(外接矩形の対角の座標値)と補正対象の区分をONとして外接矩形テーブルへ新規登録し、統合対象の矩形の外接矩形番号を新規登録した外接矩形の番号に変更して文書要素テーブルを更新する。
(へ)傾き補正に用いる矩形(文書要素)または外接矩形の選択
傾き補正の角度計算に用いられる文書要素の矩形または外接矩形を選択する場合、選択指令を入力して、選択対象の複数の矩形または外接矩形を個々にクリックするか、または、範囲(始点と対角の終点で表される矩形で範囲を示す)を指定する。
これらの選択された矩形または外接矩形を傾き補正の対象として、文書要素テーブルまたは外接矩形テーブルの該当する区分をONにし、選択対象外となった矩形または外接矩形は区分をOFFにして更新する。
上記の始点と終点で表される範囲で指定した場合、次の2つの選択方法がある。
(1)指定された範囲内に内包される矩形または外接矩形を選択する(図11(A)の斜線でマスクした文書要素)。
(2)指定された範囲内に内包されるか一部が含まれる矩形または外接矩形を選択する(図11(B)の斜線でマスクした文書要素)。
逆に、選択された矩形または外接矩形を傾き補正の対象外として、文書要素テーブルまたは外接矩形テーブルの該当する区分をOFFにし、選択されなかった矩形または外接矩形の区分をONに更新するようにしてもよい。
この場合には、傾き角度算出に不適な文書要素をユーザに指示させることを想定しており、図絵や写真のように悪影響を及ぼすものを指示するときに使用する。
上述した操作指令は、最初に文書要素修正手段224が起動された段階では、表示された文書要素の矩形や外接矩形がすべて傾き補正角度を算出する対象となっていることを前提としている。
このため、傾き補正角度を算出するのに必要な文書要素を選択するためには、最初に上記(イ)や(へ)の操作指令を用いて不要な文書要素を選択して削除した後、必要な補正を行って傾き角度を算出するようにする。
(ト)傾き補正の実施
傾き補正実施指令を入力すると文書要素修正手段224の実行を終了して、傾き補正対象の矩形または外接矩形を用いて傾き算出手段222を実行し、補正可否問合せ手段223を実行する。傾きを補正された原稿画像がまだ所望の正立画像とならない場合には、文書要素修正手段224を実行させてより適切な文書要素の矩形または外接矩形を選択するようにして、所望の正立画像が得られるまで繰り返す。
このように傾き補正対象の矩形または外接矩形を修正することにより、不適切な特徴量を適切なものにでき、傾き検出の精度を向上させることができる。
次に、上記のようにして傾き補正対象の矩形または外接矩形が選択された後の傾き算出手段222および文書要素修正手段224について説明する。
上述の傾き算出手段222では、文書要素抽出手段221で抽出したすべての矩形を対象にして傾き角度を算出するように説明したが、傾き補正対象が選択された後では、次のように変更する。
まず、外接矩形テーブルを参照して、補正対象か否かの区分がOFFの外接矩形をすべて探す。区分がOFFであるすべての外接矩形に対し、文書要素テーブルを参照して、このOFFの外接矩形番号を持つ文書要素の矩形を探し、この矩形の補正対象か否かの区分をOFFにして文書要素テーブルを更新する。
次に、外接矩形テーブルを参照して、補正対象か否かの区分がONの外接矩形をすべて探す。区分がONであるすべての外接矩形に対し、文書要素テーブルを参照して、このONの外接矩形番号を持つ文書要素の矩形を探し、この矩形の補正対象か否かの区分が設定されていない場合のみONにして文書要素テーブルを更新する。
このようにして更新された文書要素テーブルの補正対象か否かの区分がONの文書要素を対象として、特徴量を再計算するとともに外接矩形テーブルを再構築して傾き角度を算出する。
文書要素修正手段224では、文書要素テーブルの補正対象か否かの区分がONの矩形、および(再構築された)外接矩形テーブルの補正対象か否かの区分がONの外接矩形を対象として、原稿画像とこれらの矩形および外接矩形とを一緒に表示させてから上述の各種操作指令によって傾き角度算出に適切な選択・修正を行うようにする。
履歴管理手段225は、操作指令の間違に対する対処や、文書要素が多数ある場合の利便性の向上手段として操作指令の取り消し機能実現や、修正指令の履歴の管理を行う。
このために、上記の操作指令のいずれかを実行するときに、1つの実行あたり1つのノードを割り当てて木構造を作成する。このノードには、操作指令を実行する前の文書要素テーブルと外接矩形テーブルの内容を保持させるようにする。
この木構造による履歴管理方法について図12を用いて説明する。例えば、(へ)の操作指令を行うとこれに対応するノードN1を作成し、文書要素テーブルと外接矩形テーブルをこのノードN1に保持させてから、(へ)の操作指令を実行する。
次に、(ハ)の操作指令を行うとこれに対応するノードN2を作成し、文書要素テーブルと外接矩形テーブルをこのノードN2に保持させてから、(ハ)の操作指令を実行する。
さらに、(イ)の操作指令を行うとこれに対応するノードN3を作成し、文書要素テーブルと外接矩形テーブルをこのノードN3に保持させてから、(イ)の操作指令を実行する。
ここで、(イ)の操作指令が間違っていた場合には、ノードN2の状態に戻す(この操作を「undo」という)。これによりノードN3に保持されていた文書要素テーブルと外接矩形テーブルをもとに戻すとともに、表示装置上の表示ももとへ戻す。
ノードN2の状態で、(ニ)の操作指令を行うとこれに対応するノードN4を作成し、文書要素テーブルと外接矩形テーブルをこのノードN4に保持させてから、(ニ)の操作指令を実行する。
このように、1つの操作指令を実行するたびにノードを木構造として作成するとともに、現状での文書要素テーブルと外接矩形テーブルを保持させておくので、ユーザが間違った指令を行ってももとの状態に容易に復帰できる。
上記の木構造で管理される操作指令の履歴を辿る操作指令には、「undo操作指令」と「redo操作指令」の2つがある。
「undo操作指令」は、上記の木構造のノードを上に遡るようにして、現在の操作指令より1つ前の状態に戻した表示をする。
「redo操作指令」は、上記の木構造の別の実行済みのノードへ移行する。例えば、図12で、ノードN4が実行されて、「undo操作指令」でノードN2の状態に戻っていた場合、「redo操作指令」の指定によりノードN3またはN4のいずれかに戻ることができる。
以上のように傾きを求めるために有用な文書要素を対話的に獲得することで、自動処理のみでは適切に傾きを求めることが困難な場合にも適切に傾きを求めることができる。
次に、傾き補正手段220の処理手順について図13のフローチャートをもとに説明する。
与えられた原稿画像の中から文字や罫線を含む矩形を文書要素(文字、罫線、絵図、写真など)として抽出し、抽出した文書要素の矩形の左上隅と右下隅の座標値(または、線分の開始座標と終了座標)と、この文書要素が補正対象か否かの区分をONとして、文書要素テーブルに記憶する(ステップS201)。
抽出された文書要素ごとの特徴量を求めて、文書要素テーブルの該当領域へ記憶する。この特徴量は、文書要素が矩形で表される場合には矩形の左上隅の座標や矩形の中心座標、また、文書要素が罫線のような線分の時には、線分の開始座標や開始点と終了点の中間座標とする。
さらに、原稿画像を一定の圧縮率で圧縮した画像上で黒画素が連結している領域をすべて包含する最小の矩形を求めて、近接した線分や矩形を統合した外接矩形を求めて、ここで求めた外接矩形の左上隅と右下隅の座標値と、この外接矩形が補正対象か否かの区分をONとして外接矩形テーブルに記憶するとともに、同じ外接矩形に含まれる矩形または線分に対して、外接矩形テーブルへ登録したときの外接矩形番号を文書要素テーブルの該当領域に記憶する(ステップS202)。
同じ外接矩形に含まれる文書要素の特徴量から回帰係数および相関係数を求める。この回帰係数を各外接矩形について計算し、これらの回帰係数に相関係数を重みとして掛けた値のヒストグラムを作成し、得られたヒストグラムのピークに対応する回帰係数の平均値あるいは中央値を原稿画像全体における回帰係数値bとし、この回帰係数値bを用いて、tanθ=bから傾き角度θを計算する(ステップS203)。
または、単に、各外接矩形の回帰係数の平均値や中央値を原稿画像全体における回帰係数値bとして傾き角度θを計算してもよい。
算出した傾き角度θに基づいて、原稿画像をアフィン変換等により逆方向に回転させて正立画像を作成し(ステップS204)、この補正された画像を表示装置300へ表示させ(ステップS205)、傾き補正が所望通り行われたか否かをユーザに問い合わせる(ステップS206)。
次に、ユーザが表示装置300に表示された画像を見て、所望通りの画像に補正されたと判断して傾き補正完了を入力した場合(ステップS206の「可」)、傾き補正を完了した画像を呼び出し元へ渡して処理を終了する。
一方、ユーザが所望通りに補正できていないと判断して傾き補正不可を入力した場合(ステップS206の「否」)、原稿画像へ文書要素の矩形または外接矩形を上乗せして表示装置300へ表示する(ステップS207)。
なお、矩形の表示方法としては、文書要素の矩形だけを表示させてもよいが、文書要素の外接矩形を文書要素の矩形と置き換えて表示させても、あるいは文書要素の矩形を表示したまま外接矩形を上乗せして表示させるようにしてもよい。
ユーザは、ポインティングデバイス等を使ったGUI(graphical user interface)による次のような操作指令を用いて文書要素の矩形や外接矩形の座標情報の修正を行う(ステップS208)。
(イ)矩形の削除(ロ)矩形の作成(ハ)矩形の拡大または縮小(ニ)矩形の分割
(ホ)矩形の統合(へ)補正対象の矩形または外接矩形の選択(ト)傾き補正実施
(チ)undo(リ)redo
ステップS208で(ト)の「傾き補正実施」の操作指令が入力されなかった場合(ステップS209のNO)、操作指令によって変更された表示装置上の表示を修正するためにステップS207へ戻る。このときステップS207では、修正された文書要素(矩形または外接矩形)を反映した表示となる。
一方、ステップS208で(ト)の「傾き補正実施」の操作指令が入力された場合(ステップS209のYES)、修正され選択された傾き補正対象の文書要素を用いて再度傾き角度を計算するためにステップS202へ戻る。
この場合、ステップS202以降では、補正対象となった文書要素に対してのみ特徴量の再計算と外接矩形テーブルを再構築して傾き角度を算出する。
実施形態1の変形例として、すべての文書要素を表示させてその中から傾き補正に必要な文書要素の修正を行うのではなく、抽出された文書要素のうち近傍にある複数の文書要素を同時に表示させて、その複数の文書要素に対して上述の実施形態1と同様に修正や削除をユーザに実行させるようにしてもよい。
<実施形態2>
上述の実施形態1では、原稿画像から抽出された文書要素はすべて傾き角度算出のために選択された文書要素であるものとし、これらすべての文書要素が修正等の指示対象であった。
本実施形態2では、文書要素修正手段224において、原稿画像と原稿画像から抽出されたすべての文書要素を表示し、ユーザはこの中から個々の文書要素を選択したり、または、図11のように矩形の範囲で文書要素を選択する。
この範囲で選択する場合には、図11(A)のように矩形の範囲内に内包される文書要素に対してのみ選択されるとする方法と図11(B)のように矩形の範囲に少しでも含まれる文書要素すべてが選択されるとする方法がある。
また、逆に、矩形の範囲外にある文書要素が選択されたとみなすようにしてもよい。この場合にも上記同様に図11(A)と図11(B)の選択方法がある。
さらに、矩形の範囲を指定しないときには、すべての文書要素が選択されたものとみなしてもよい。
この選択された文書要素それぞれに対して、この文書要素の周辺の原稿画像および文書要素に関する情報(実施形態1における矩形および外接矩形)を表示させて、次の3つの状態をユーザに問い合わせる。
(1)傾き角度算出に適正な文書要素、
(2)傾き角度算出に使用するには修正が必要な文書要素、
(3)傾き角度算出に使用するには不適格な文書要素。
この問い合わせに対して、(2)の「傾き角度算出に使用するには修正が必要な文書要素」とユーザが指定した場合には、実施形態1における(イ)〜(ホ)および履歴管理の操作指令を用いて修正を行う。
また、(3)の「傾き角度算出に使用するには不適格な文書要素」と指定された場合には、実施形態1における(イ)の操作指令と同じ処理を行う。
修正すべき文書要素および不適格な文書要素がなくなるまで上記操作を行う。これが終了すると、実施形態1における(ト)の「傾き補正実施操作指令」を実行する。
実施形態2の変形例として、範囲指定により選択された文書要素それぞれについて上述の(1)〜(3)の問い合わせを行うのではなく、選択された文書要素のうち近傍にある複数の文書要素を同時に表示させて、その複数の文書要素に対して実施形態2と同様に修正や削除をユーザに実行させるようにしてもよい。
<実施形態3>
さらに、上述した実施形態の傾き補正装置の各機能をそれぞれプログラム化し、予めCD−ROM等の記録媒体に書き込んでおき、傾き補正装置の記録媒体読取装置にこの記録媒体を装着して、これらのプログラムをCPUで実行することによって、本発明の目的が達成される。
この場合、記録媒体から読出されたプログラム自体が上述した実施形態を実現することになり、そのプログラムおよびそのプログラムを記録した記録媒体も本発明を構成することになる。
なお、記録媒体としては半導体媒体(例えば、ROM、不揮発性メモリカード等)、光媒体(例えば、DVD、MO、MD、CD−R等)、磁気媒体(例えば、磁気テープ、フレキシブルディスク等)のいずれであってもよい。
あるいは、インターネット等の通信ネットワークを介して記憶装置に格納されたプログラムをサーバコンピュータから直接供給を受けるようにしてもよい。この場合、このサーバコンピュータの記憶装置も本発明の記録媒体に含まれる。
また、ロードしたプログラムを実行することにより上述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、オペレーティングシステムあるいは他のアプリケーションプログラム等と共同して処理することによって上述した実施形態の機能が実現される場合も含まれる。
このように上述した実施形態の機能をプログラム化して流通させることによって、コスト、可搬性、汎用性を向上させることができる。
本発明の傾き補正装置を適用した文字認識装置の概略ブロック図である。 傾き補正手段の機能構成を示すブロック図である。 文書要素として抽出した罫線とその外接矩形を示す図である。 文書要素として抽出した文字を表す矩形と近接した文字列の外接矩形を示す図である。 文書要素テーブルおよび外接矩形テーブルのデータ構造例である。 矩形、外接矩形、特徴量および回帰直線の関係を説明するための図である。 修正対象となる外接矩形を示す図である。 図7における外接矩形の修正結果を示す図である。 修正対象となる外接矩形とその修正結果を示す図である。 矩形分割を説明するための図である。 補正対象を範囲で選択するときに、どの文書要素が選択対象となるかを説明するための図である。 操作指令の履歴管理の動作を説明するための図である。 傾き補正手段の処理手順を示すフローチャートである。
符号の説明
100…画像入力装置、200…文字認識装置、210…画像入力手段、220…傾き補正手段、221…文書要素抽出手段、222…傾き算出手段、223…補正可否問合せ手段、224…文書要素修正手段、225…履歴管理手段、230…行切り出し手段、240…文字切り出し手段、250…特徴量抽出手段、260…マッチング手段、270…認識辞書、280…結果出力手段、300…表示装置、41〜45…矩形、46…外接矩形、60…外接矩形、61…矩形、62…特徴量、63…回帰直線、71,81,82,83…外接矩形、91〜95…矩形、96〜98…外接矩形、100,111,112…外接矩形、101〜106,108,109…矩形、107,110…分割線。

Claims (12)

  1. 原稿画像から文書要素の抽出を行う文書要素抽出手段と、該抽出された文書要素から前記原稿画像の傾きを求めるための特徴量を算出して、前記原稿画像の傾き角度を算出する傾き算出手段を有して、該算出された傾き角度をもとに前記原稿画像の傾きを補正する傾き補正装置において、前記抽出された文書要素に関する情報を表示するとともに、ユーザから指定された文書要素に関する情報に対してユーザから指定された修正を実施し、該修正結果を表示に反映させる文書要素修正手段を有し、前記傾き算出手段は、前記修正された文書要素に関する情報を用いて傾き角度を再計算するようにしたことを特徴とする傾き補正装置。
  2. 請求項1に記載の傾き補正装置において、表示された文書要素に関する情報のうち、修正対象の文書要素を指定する修正対象指示手段を有し、前記文書要素修正手段は該指定された文書要素に対してユーザに修正を行わせるようにしたことを特徴とする傾き補正装置。
  3. 請求項1に記載の傾き補正装置において、表示された文書要素に関する情報のうち、修正対象外の文書要素を指定する修正対象外指示手段を有し、前記文書要素修正手段は該指定された文書要素以外の文書要素に対してユーザに修正を行わせるようにしたことを特徴とする傾き補正装置。
  4. 請求項2または3に記載の傾き補正装置において、前記修正対象指示手段または前記修正対象外指示手段で文書要素を指定する場合、該文書要素を含む範囲によって指定するようにしたことを特徴とする傾き補正装置。
  5. 請求項4に記載の傾き補正装置において、前記範囲の指定は、指定された2点を対角頂点とする矩形により範囲を指定することを特徴とする傾き補正装置。
  6. 請求項4または5に記載の傾き補正装置において、前記指定された範囲内に包含される文書要素が指定されたものとすることを特徴とする傾き補正装置。
  7. 請求項4または5に記載の傾き補正装置において、前記指定された範囲内に包含される文書要素およびこの範囲に部分的に掛かる文書要素が指定されたものとすることを特徴とする傾き補正装置。
  8. 請求項1乃至7のいずれかに記載の傾き補正装置において、前記文書要素修正手段における修正指示に関する情報の履歴を管理し、修正指示の取消および再実行を行わせる履歴管理手段を有することを特徴とする傾き補正装置。
  9. 請求項1乃至8のいずれかに記載の傾き補正装置において、表示された文書要素のうち、傾き補正の対象となる文書要素あるいは対象外の文書要素を選択する選択手段を有し、前記傾き算出手段は、前記選択された文書要素に関する情報を用いて傾き角度を再計算するようにしたことを特徴とする傾き補正装置。
  10. 原稿画像から文書要素を抽出し、該抽出された文書要素から前記原稿画像の傾きを求めるための特徴量を算出して、前記原稿画像の傾き角度を算出し、該算出された傾き角度をもとに前記原稿画像の傾きを補正する傾き補正方法において、前記抽出された文書要素に関する情報を表示し、該表示された文書要素に関する情報を修正し、前記修正された文書要素に関する情報を用いて傾き角度を再計算するようにしたことを特徴とする傾き補正方法。
  11. コンピュータに、請求項1乃至9のいずれかに記載の傾き補正装置の機能を実行させるためのプログラム。
  12. 請求項11に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2004003161A 2004-01-08 2004-01-08 傾き補正装置、傾き補正方法、プログラムおよび記録媒体 Withdrawn JP2005196563A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004003161A JP2005196563A (ja) 2004-01-08 2004-01-08 傾き補正装置、傾き補正方法、プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004003161A JP2005196563A (ja) 2004-01-08 2004-01-08 傾き補正装置、傾き補正方法、プログラムおよび記録媒体

Publications (1)

Publication Number Publication Date
JP2005196563A true JP2005196563A (ja) 2005-07-21

Family

ID=34818151

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004003161A Withdrawn JP2005196563A (ja) 2004-01-08 2004-01-08 傾き補正装置、傾き補正方法、プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP2005196563A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100444195C (zh) * 2005-09-09 2008-12-17 株式会社理光 图像形成装置,图像输出装置以及图像处理方法
JP2016167192A (ja) * 2015-03-10 2016-09-15 ブラザー工業株式会社 情報処理装置,画像読取装置,および画像表示方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100444195C (zh) * 2005-09-09 2008-12-17 株式会社理光 图像形成装置,图像输出装置以及图像处理方法
JP2016167192A (ja) * 2015-03-10 2016-09-15 ブラザー工業株式会社 情報処理装置,画像読取装置,および画像表示方法

Similar Documents

Publication Publication Date Title
US7551181B2 (en) Image region filling by exemplar-based inpainting
JP5326859B2 (ja) 画像処理装置
JP3878401B2 (ja) 画像処理装置、画像処理方法およびそれを記録した記録媒体
US6791723B1 (en) Method and system for scanning images in a photo kiosk
JP5354842B2 (ja) 画像処理方法および画像処理装置
JP2007279828A (ja) 帳票処理装置、帳票様式作成装置、帳票、帳票処理用のプログラム、帳票様式作成用のプログラム
JP6808330B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2022541977A (ja) 画像のラベリング方法、装置、電子機器及び記憶媒体
JP6931168B2 (ja) 情報処理装置、制御方法、プログラム
JP2010002991A (ja) 画像処理装置、画像処理方法、コンピュータプログラム
JP2009251872A (ja) 情報処理装置及び情報処理プログラム
CN111832558A (zh) 文字图像矫正方法、装置、存储介质及电子设备
JP2005196563A (ja) 傾き補正装置、傾き補正方法、プログラムおよび記録媒体
US6496198B1 (en) Color editing system
US8351102B2 (en) Image-processing device, image-reading device, image-forming device, image-processing program, and image-processing method
JP4357226B2 (ja) 帳票定義装置、帳票定義方法及び帳票定義プログラム
JP6194781B2 (ja) 画像処理装置及びプログラム
JP6795770B2 (ja) 情報処理装置と、その処理方法及びプログラム
KR100685858B1 (ko) 원근 왜곡 보정 방법 및 시스템
JP2000187705A (ja) 文書読取装置および方法および記憶媒体
US7421116B2 (en) Image processing methods and systems
JP2001014482A (ja) アートワークの形状変更方法及び装置
JP4297815B2 (ja) 情報処理装置および処理方法およびプログラムおよび記録媒体
JP4282471B2 (ja) 画像特徴抽出装置、画像特徴抽出方法、プログラムおよび記録媒体
JP5062076B2 (ja) 情報処理装置及び情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061228

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090216