JP2004096435A

JP2004096435A - 画像解析装置、画像解析方法、および画像解析プログラム

Info

Publication number: JP2004096435A
Application number: JP2002254939A
Authority: JP
Inventors: Daisaku Horie; 保理江　大作
Original assignee: Minolta Co Ltd
Current assignee: Minolta Co Ltd
Priority date: 2002-08-30
Filing date: 2002-08-30
Publication date: 2004-03-25

Abstract

【課題】入力画像から高精度で原稿領域を抽出することのできる画像解析装置を提供する。
【解決手段】入力画像について原稿端概検出処理を行なって原稿端を概検出し、検出結果の確実性が高いと思われる原稿端を特定する（Ｓ２０）。次に、概検出された原稿端情報を用いて、この原稿端の画像の中心寄りの画素値の分布と、外寄りの画素値の分布とから、下地の色候補と背景の色候補とをそれぞれ選択する（Ｓ３０）。次に、画像の中心寄りに下地色候補と、画像の外寄りに背景色候補とを有する画素を検出し、検出された画素を原稿端画素として選択する（Ｓ４０）。最後に、選択された画像端画素を直線で置換することで（Ｓ５０）、入力画像より最終的な原稿端とする。
【選択図】　　　　図２

Description

【０００１】
【発明の属する技術分野】
この発明は画像解析装置、画像解析方法、および画像解析プログラムに関し、特に、入力画像から高精度で原稿領域を抽出することのできる画像解析装置、画像解析方法、および画像解析プログラムに関する。
【０００２】
【従来の技術】
フラッドベッド（平台型）スキャナや、シートフィーダ（原稿自動供給型）スキャナや、ＭＦＰ（Ｍｕｌｔｉ　Ｆｕｎｃｔｉｏｎ　Ｐｅｒｉｐｈｅｒａｌｓ）や、デジタルカメラ等の、様々な画像入力装置から、画像処理装置に対して文書画像が入力される。
【０００３】
このような文書画像の入力は、モニタ出力や、印刷紙出力や、ＯＣＲ（Ｏｐｔｉｃａｌ　Ｃｈａｒａｃｔｅｒ　Ｒｅｃｏｇｎｉｔｉｏｎ；光学的文字認識）や、ファイリング等を目的とする場合が考えられる。
【０００４】
これらの場合、画像処理装置においては次のような画像処理を行なうことが多い。すなわち、モニタ出力を目的とする場合には、画像処理装置においては露出補正等を行なう。また、印刷紙出力を目的とする場合には、下地飛ばし処理や、黒文字強調や、領域別補正処理等を行なう。また、ＯＣＲを目的とする場合には、文字領域抽出や２値化処理等を行なう。また、ファイリングを目的とする場合には、領域別圧縮処理等を行なう。
【０００５】
なお、ここで下地とは、原稿の紙色、あるいは原稿内の（特に文字領域に）広域に存在する単色領域を示し、以下においても同様に用いる。
【０００６】
これらの処理においては、下地が白色であることを前提として、画像の画素値ヒストグラム等の階調分布情報から検出した下地画素値が用いられることが多い。
【０００７】
ここで、画像処理装置に、図１７に示す文書画像が入力された場合について考える。デジタルカメラによる撮影等では、図１７に示されるように、背景に、他の文書、机の模様、筆記用具、指の写込み等、撮影対象ではない余分な部分が入力画像内に入ることがある。なお、ここで背景とは、原稿の外の領域を示し、以下においても同様に用いる。
【０００８】
このような文書画像が入力された場合の、画素値のヒストグラムあるいはエッジの射影ヒストグラムの形状の具体例を、図１８〜図２０に示す。図１８〜図２０を参照して、図１８〜図２０の（ｂ）に示す画素値のヒストグラムや、図１８〜図２０の（ｃ）に示すエッジの射影ヒストグラムの形状は、図１８〜図２０の（ａ）に示す入力画像の、被写体原稿内容の白以外の下地領域や写真領域のサイズ、背景領域の写込み等によって変化する。
【０００９】
すなわち、図１８（ａ）に示すような白地に黒文字の領域が原稿内容の大半である文書画像が入力された場合には、図１８（ｂ）に示す画素値のヒストグラムや、図１８（ｃ）に示す射影ヒストグラムのピーク位置を調べるだけで下地領域を検出することが可能である。
【００１０】
しかし、図１９（ａ）に示すような白以外の単体領域や、写真領域の割合が比較的大きい文書画像が入力された場合や、図２０（ａ）に示すような撮影対象となる文書以外の写込みが多い文書画像が入力された場合には、図１９（ｂ）、図２０（ｂ）に示す画素値のヒストグラムや、図２０（ｃ）に示す射影ヒストグラムのピーク位置の検出が困難になったり、ピーク位置が原稿端を示さない場合が生じたり、等の理由により、原稿端の検出が困難、あるいは不可能になる場合がある。
【００１１】
したがって、入力された文書画像において処理対象を原稿領域内に特定するために、前述のような文書画像処理に先だって原稿領域抽出処理が行なわれることが好ましい。また、原稿領域抽出処理は、前述の文書画像処理以外に、図２１に示すような原稿の回転補正や、図２２に示すような見開き原稿を読取ることで生じる歪みの補正等を行なうためにも必要な処理となる。
【００１２】
従来より、様々な原稿領域抽出方法が提案され使用されている。
例えば、特許文献１を参照すると、紙色である白画素を検出することで原稿領域を特定して原稿の傾きを補正する画像処理方法について開示されている。
【００１３】
また、特許文献２を参照すると、複数の角度に対する射影ヒストグラムを調べることでエッジの分布を測定し、最もピーク度合いが大きい位置を原稿端とし、そのときの角度を原稿の傾き角度とする画像読取装置について開示されている。
【００１４】
また、特許文献３を参照すると、粗いハフ変換を行なうことである程度の目安をつけた後に、精密なハフ変換を行なうことで原稿の歪み角度を検出する画像処理方法について開示されている。
【００１５】
このような原稿領域抽出方法としては、下地の色に関する情報を用いて原稿領域を抽出する方法と、エッジ検出結果を用いて原稿領域を抽出する方法とに大分される。
【００１６】
【特許文献１】
特開平１０−１９１０２６号公報
【００１７】
【特許文献２】
特開平１１−２５２３５１号公報
【００１８】
【特許文献３】
特開平８−０６３５４８号公報
【００１９】
【発明が解決しようとする課題】
しかしながら、上述の原稿領域抽出方法は、前者の方法の場合には、下地色に関する何らかの情報が予め必要となり、様々な下地色の任意の原稿に対応することや、写真領域割合の大きい原稿等に対応することが困難であるという問題があった。
【００２０】
また、後者の方法の場合には、図１７に示す入力画像のように、余分な物体の写込みがあったり、原稿内容が複雑でエッジが多い原稿が被写体であったり、照明むら等によってエッジの検出精度にばらつきがある場合に誤検出が多くなるという問題もあった。
【００２１】
具体的には、特許文献１において開示されている画像処理方法は、複写機による白色の下地の文書を読取ることを前提としているため、背景に模様や他の物体が写込んだ場合や、下地の色が白色でない場合に対応することができないという問題があった。
【００２２】
また、特許文献２において開示されている画像読取装置も、背景に模様や他の物体が写込んだ場合や、見開き原稿のように原稿端が複雑な歪みを有する場合には対応することができないという問題があった。
【００２３】
また、特許文献３において開示されている画像処理方法は、背景の模様や原稿以外の物体の写込み、原稿内容等に起因する余分なエッジが多い場合には判別を誤りやすいという問題があった。また、見開き原稿のように原稿端が複雑な歪みを有する場合には対応することができないという問題があった。
【００２４】
本発明はこれらの問題に鑑みてなされたものであって、最適な原稿端検出を行なうことで、下地と背景とのそれぞれの色を推定し、高精度で原稿領域の抽出を行なうことのできる画像解析装置、画像解析方法、および画像解析プログラムを提供することを目的とする。
【００２５】
【課題を解決するための手段】
上記目的を達成するために、本発明のある局面に従うと、画像解析装置は、入力画像に含まれる原稿端の、少なくとも一部を検出する第１の原稿端検出手段と、検出された原稿端の部分に基づいて、入力画像に含まれる背景、または入力画像に含まれる原稿の下地に関する色情報を取得する色情報取得手段と、取得した色情報を用いて、検出した原稿端の部分以外の他の部分の原稿端を検出する第２の原稿端検出手段とを備える。
【００２６】
また、上述の第１の原稿端検出手段は、入力画像に含まれるラインについて原稿端らしさを判定する判定手段を備え、原稿端らしさが高いと判定されたラインを原稿端として検出することが望ましい。
【００２７】
本発明の他の局面に従うと、画像解析方法は、入力画像に含まれる原稿端の、少なくとも一部を検出する第１の原稿端検出ステップと、検出された原稿端の部分に基づいて、入力画像に含まれる背景、または入力画像に含まれる原稿の下地に関する色情報を取得する色情報取得ステップと、取得した色情報を用いて、検出した原稿端の部分以外の他の部分の原稿端を検出する第２の原稿端検出ステップとを備える。
【００２８】
本発明のさらに他の局面に従うと、画像解析プログラムは、画像解析方法をコンピュータに実行させるプログラムであって、入力画像に含まれる原稿端の、少なくとも一部を検出する第１の原稿端検出ステップと、検出された原稿端の部分に基づいて、入力画像に含まれる背景、または入力画像に含まれる原稿の下地に関する色情報を取得する色情報取得ステップと、取得した色情報を用いて、検出した原稿端の部分以外の他の部分の原稿端を検出する第２の原稿端検出ステップとを実行させる。
【００２９】
【発明の実施の形態】
以下に、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品および構成要素には同一の符号を付してある。それらの名称および機能も同じである。したがってそれらについての詳細な説明は繰返さない。
【００３０】
図１は、本実施の形態における画像解析装置１０の構成の具体例を示す図である。図１を参照して、画像解析装置１０は、画像解析装置１０全体の制御を行なうＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１０１と、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１０３と、ＨＤ（Ｈａｒｄ　Ｄｉｓｃ）１０４と、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１０２と、Ｉ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ；入出力部）１０５とを備え、ＣＰＵ１０１が、オペレーションシステム、アプリケーション等のプログラムや、画像ファイル等のデータを格納するＨＤ１０４あるいはＲＯＭ１０３から格納されたプログラムを読出し、ＲＡＭ１０２上に展開して実行することによって、以下に述べるような画像解析を実現する。
【００３１】
また、画像解析装置１０は、Ｉ／Ｏ１０５において、ＭＮＴ（モニタ）２０や、画像取込み用のカラーデジタルスチルカメラであるＤＳＣ（Ｄｉｇｉｔａｌ　Ｓｔｉｌｌ　Ｃａｍｅｒａ）３０や、処理済みの画像を出力するカラープリンタであるＰＲ４０との交信を行なう。
【００３２】
なお、このような画像解析装置１０は、一般的なパーソナルコンピュータ等で構築されるものであって、上述の構成に限定されるものではない。
【００３３】
本実施の形態において、画像解析装置１０は、ＣＰＵ１０１が、ＨＤ１０４あるいはＲＯＭ１０３に格納されたプログラムを読出し、ＲＡＭ１０２上に展開して実行することによって、図２に示される原稿検出処理を実行する。
【００３４】
図２を参照して、始めに、画像解析装置１０は、Ｉ／Ｏ１０５においてＤＳＣ３０やスキャナ等から入力した画像に対して、前処理を実行する（Ｓ１０）。ここでの入力画像を、具体的に、ＤＳＣ３０から入力した、上述の図１７に示される文書画像であるものとして以下の説明を行なう。
【００３５】
図１７に示される入力文書画像の具体例では、被写体対象である文書以外に、左原稿端付近には筆記用具と原稿を押さえている指とが写込んでおり、上原稿端付近には付箋が写込んでおり、右原稿端付近には筆記用具が写込んでいる。さらに背景には机の模様が写込んでいる。
【００３６】
このように、図１７に示される入力文書画像は、被写体対象である文書以外の様々な写込みを含む。さらに、その原稿内容は、写真領域や見出し等が存在するため複雑である。そのため、単純に画素値やエッジの射影等のヒストグラムを用いるだけでは下地の色を特定することが難しく、原稿領域の抽出が困難である。
【００３７】
そこで、次に、原稿端概検出処理を行なって原稿端を概検出し、検出結果の確実性が高いと思われる原稿端を特定する（Ｓ２０）。
【００３８】
次に、ステップＳ２０で概検出された原稿端情報を用いて、この原稿端の画像の中心寄りの画素値の分布と、外寄りの画素値の分布とから、下地の色候補と背景の色候補とをそれぞれ選択する（Ｓ３０）。
【００３９】
次に、画像の中心寄りに下地色候補と、画像の外寄りに背景色候補とを有する画素を検出し、検出された画素を原稿端画素として選択する（Ｓ４０）。
【００４０】
最後に、ステップＳ４０で選択された画像端画素を直線で置換することで（Ｓ５０）、最終的な原稿端を検出し、原稿検出処理を終了する。
【００４１】
なお、上述の説明においては、図１７に示されるような被写体となる原稿が矩形形状であるものとしているが、図２２に示すような、見開き原稿の場合であっても、上述のステップＳ５０における変換を、直線ではなく曲線による変換に一部変更することで同様に対応することができる。
【００４２】
次に、上述の原稿検出処理における各処理について詳細な説明を行なう。
まず始めに、ステップＳ１０における前処理について、図３を用いて説明を行なう。この前処理は、ノイズの除去、入力時のＡＥ（Ａｕｔｏ　Ｅｘｐｏｓｕｒｅ：自動露出）のずれの影響の除去、高速化、使用メモリ量の削減等を目的として行なわれる。
【００４３】
そこで、図３を参照して、前処理の一例として、始めにステップＳ１０１で階調を正規化する修正を行なう。
【００４４】
ここでは、入力した文書画像の色情報であるＲＧＢ値から、次式に基づいて各画素ごとにＹ画像内の最大値Ｙｍａｘと最小値Ｙｍｉｎとを算出する。
【００４５】
Ｙ＝０．３Ｒ＋０．６Ｇ＋０．１Ｂ
そして、算出された最大値Ｙｍａｘと最小値Ｙｍｉｎとを用いて、次式に基づいて画素値の正規化を行なう。
【００４６】
Ｒｎｅｗ＝２５５×（Ｒｏｌｄ−Ｙｍｉｎ）／（Ｙｍａｘ−Ｙｍｉｎ）
Ｇｎｅｗ＝２５５×（Ｇｏｌｄ−Ｙｍｉｎ）／（Ｙｍａｘ−Ｙｍｉｎ）
Ｂｎｅｗ＝２５５×（Ｂｏｌｄ−Ｙｍｉｎ）／（Ｙｍａｘ−Ｙｍｉｎ）
ただし、上述の正規化において、ＲＧＢ値が０未満である場合には０となるように、２５６以上である場合には２５５となるように補正することが必要である。
【００４７】
次に、ステップＳ１０３で、間引きやＢＬ（Ｂｉ−Ｌｉｎｅａｒ）法による処理を行ない、縦横１／２や、縦横１／４等に画像を縮小変換する。
【００４８】
最後に、ステップＳ１０５で、平滑化処理、メディアンやモルフォロジ等のフィルタ演算等を行ない、ノイズを除去する。
【００４９】
以上でステップＳ１０における前処理を終了し、図２に示すメインルーチンに処理を戻す。
【００５０】
なお、上述の説明は様々な前処理のうちの一例を挙げたものであって、この処理に限定されるものではない。そこで、入力された文書画像の品質や画像解析装置１０の性能等に応じて、必要な処理を選択することもできる。
【００５１】
次に、ステップＳ２０における原稿端概検出処理について、図４を用いて説明を行なう。
【００５２】
本実施の形態においては、比較的単調な原稿端を検出できる原稿端概検出方法を用いることを特徴とする。すなわち、原稿や、撮影状況に対する制約が小さい場合に対応するためには、原稿内容や撮影状況に関する情報をできるだけ必要としない原稿端概検出方法を行なうことが好ましい。
【００５３】
そこで１つの具体例として、ハフ（Ｈｏｕｇｈ）変換を利用した原稿端概検出処理について説明する。なお、ハフ変換自体は、直線や固定形状の曲線を検出するために広く用いられている公知の技術であって、「画像解析ハンドブック」（東京大学出版会出版）の第５９２ページ等に記載あるため、ここでは詳細な説明は行なわない。
【００５４】
さらに、ハフ変換では、直線以外に例えば円等の検出も行なうことができる。しかし、本実施に形態においては単調な原稿端を検出できる方法を用いるため、直線検出用のハフ変換のみについて説明する。すなわち、一般的には全ての方向に対する直線に対応できるようｒ−θ極座標系を用いたハフ変換が用いられることが多い。しかし、本実施に形態においては、上下の原稿端では水平方向（ｘ軸に平行な方向）のみ、左右の原稿端では垂直方向（Ｙ軸に平行な方向）のみに、方向に制約を加えて直線検出を行なえばよい。そのため、本実施に形態においては、ｘ−ｙ座標系を用いた原始的なハフ変換を用いても十分に原稿端の検出を行なうことができる。
【００５５】
図４を参照して、始めに、ステップＳ２０１で、前処理後の画像からエッジを抽出してエッジ画像を作成する。
【００５６】
上下の原稿端を概検出する場合にはＸ軸方向（水平方向）の原稿端を検出すればよく、左右の原稿端を概検出する場合にはＹ軸方向（垂直方向）の原稿端を検出すればよい。そのため、水平方向のエッジ度（水平エッジ度Ｅｈ）を用いて上下の原稿端を検出し、垂直方向のエッジ度（垂直エッジ度Ｅｖ）を用いて左右の原稿端を検出すればよい。水平エッジ度Ｅｈおよび垂直エッジ度Ｅｖは、エッジ画像が図５に示すような各画素Ａ〜Ｈ，Ｐを含む画像であって、画素Ｐを注目する画素とする場合、各々の画素値をａ〜ｈ，ｐとすると、次式で表わされる。
【００５７】
Ｅｈ＝ｍａｘ（｜２ｐ−ａ−ｈ｜，｜２ｐ−ｂ−ｇ｜，｜２ｐ−ｃ−ｆ｜）
−ｍｉｎ（｜２ｐ−ａ−ｈ｜，｜２ｐ−ｄ−ｅ｜，｜２ｐ−ｃ−ｆ｜）
Ｅｖ＝ｍａｘ（｜２ｐ−ａ−ｈ｜，｜２ｐ−ｄ−ｅ｜，｜２ｐ−ｃ−ｆ｜）
−ｍｉｎ（｜２ｐ−ａ−ｈ｜，｜２ｐ−ｂ−ｇ｜，｜２ｐ−ｃ−ｆ｜）
ただし、ｍａｘ（Ａ，Ｂ，Ｃ）は、Ａ，Ｂ，Ｃのうちの最大値を示し、ｍｉｎ（Ａ，Ｂ，Ｃ）は、Ａ，Ｂ，Ｃのうちの最小値を示す。
【００５８】
次に、ステップＳ２０３において、ハフ変換投票処理を行なう。ここでは、上側の原稿端を検出する場合について説明する。言うまでもなく、下側の原稿端を検出する場合にも同様の処理である。また、左右の原稿端を検出する場合には、Ｘ軸とＹ軸とを入替えるだけで同様の処理である。
【００５９】
ステップＳ２０３では、まず、算出されたエッジ度が、予め設定されている固定しきい値Ｔｈ＿ｅについて、Ｅｈ＞Ｔｈ＿ｅであるエッジ画素のみに対してハフ変換を行なう。具体的には、対象となるエッジ画素（Ｘ，Ｙ）において、ある程度限定した組合わせ（ａ，ｂ）を選択し、選択されたあらゆる組合わせに対して、次式の計算を行なう。
【００６０】
Ｅ＝｜Ｙ−（ａＸ＋ｂ）｜
ここで、（ａ，ｂ）は、原稿の上端を表わす直線をｙ＝ａｘ＋ｂで表わした場合の傾きａと、Ｙ切片ｂとの組合わせである。
【００６１】
そして、所定の固定しきい値Ｔｈ＿ｄについて、Ｅ＜Ｔｈ＿ｄを満たす組合わせ（ａ，ｂ）に対して、ポイントを加算（投票）する。
【００６２】
上述の組合わせ（ａ，ｂ）に対する「ある程度の限定」とは、原稿端を表わす直線の傾きと位置とに対する推定に基づく限定である。このような推定に基づく限定について、図６を用いて説明する。
【００６３】
すなわち、図６を参照して、「原稿端の傾きは高々ａ_０である」と推定した場合には、傾きａを−ａ_０＜ａ＜ａ_０と限定することになる。さらに、原稿の上端を表わす直線とＹ軸との交点のＹ座標（Ｙ切片）が、ｂ_１からｂ_２の間であると限定する場合には、Ｙ切片ｂをｂ_１＜ｂ＜ｂ_２と限定することになる。より具体的には、「原稿端は高々３０度程度しか傾いていないはずである」という推定を行なった場合には、図６においてａ_０＝ｔａｎ３０°に相当し、傾きａを
−ｔａｎ３０°＜ａ＜ｔａｎ３０°
と限定することになる。
【００６４】
また、傾きａとＹ切片ｂとのサンプリングピッチについても限定を加えることで、処理速度を高めると同時にノイズの影響を低減することができる。
【００６５】
ポイントの加算数は、エッジ度の高い画素（Ｘ，Ｙ）での算出値ほど多くのポイントが加算されるようにしてもよいし、一律に１ポイントが加算されるようにしてもよい。このようなポイントの加算数は、入力文書画像の画質に応じて調整されることが好ましい。
【００６６】
エッジ度が固定しきい値Ｔｈ＿ｅ以上である全てのエッジ画素（Ｘ，Ｙ）に対して対してポイントの加算を行なうと、各エッジ画素について、傾きａとＹ切片ｂとから構成される図６の右図に示されるａ−ｂ平面上にポイントを表わす。
【００６７】
次に、ステップＳ２０５において、ａ−ｂ平面上にて（ａ，ｂ）のピークを検出する。ステップＳ２０５で検出される最大ポイントをもつ（ａ，ｂ）の組合わせで表現される直線ｙ＝ａｘ＋ｂが、求める原稿の上端を表わす直線となる。
【００６８】
そして、ステップＳ２０７で、原稿端検出についての良否を判定する。ここでは、ステップＳ２０５で最大ポイントをもつ（ａ，ｂ）の組合わせとして選択された組合わせ（ａ，ｂ）の有するポイント数Ｐａｂが、原稿の上端についての概検出の信頼度となる。すなわち、所定の固定しきい値Ｔｈ＿ｈを用い、Ｐａｂ＞Ｔｈ＿ｈならば当該原稿端概検出の信頼度が高い（あるいは正常に検出できた）とし、そうでないならば信頼度が低い（あるいは、検出できなかった）とすることができる。
【００６９】
以上でステップＳ２０における原稿端概検出処理を終了し、図２に示すメインルーチンに処理を戻す。
【００７０】
なお、上述のように原稿端概検出処理においてハフ変換を用いることは特に有効ではあるが、ハフ変換に限定するものではなく、他の既存の原稿端検出方法を用いても構わない。この場合には、検出過程で何らかの検出信頼度が算出できる検出手段を利用する、検出結果の直線上に含まれるエッジ画素割合を調べるなどして信頼度を検出後に判定する、等を行なって、後述の色候補選択処理に使用するための原稿端を特定することが好ましい。
【００７１】
次に、ステップＳ３０における色候補選択処理について、図７を用いて説明を行なう。
【００７２】
始めに、ステップＳ３０１において、上述の概検出の信頼度が高かった原稿端の候補に対して、入力された文書画像の中心寄りと外寄りとに、各々色候補を選択するための範囲を設定する。図８に示す具体例では、上述の原稿端概検出処理で、下側の原稿端と右側の原稿端との概検出信頼度が高かった場合を示しており、ステップＳ３０１では、この原稿端の候補である直線から図に示されたような範囲を各々色候補を選択するための範囲に設定する。この範囲の大きさは、例えば原稿端方向の幅５０画素、細い方の幅５画素、などと固定されていてもよいし、画像サイズ等の情報を用いて可変であってもよい。
【００７３】
次に、ステップＳ３０３あるいはステップＳ３０７において、設定された全ての中心寄りの範囲あるいは全ての外寄り範囲に対して、ＲＧＢ値の分布についてヒストグラムを作成する。
【００７４】
そして、ステップＳ３０５あるいはステップＳ３０９において、各範囲のＲＧＢ値のヒストグラムからピーク値を求め、中心寄りの範囲についてはこれを下地色と推定して採用し、外寄り範囲についてはこれを背景色と推定して採用する。
【００７５】
以上でステップＳ３０における色候補選択処理を終了し、図２に示すメインルーチンに処理を戻す。
【００７６】
なお、上述のＲＧＢ値のヒストグラムを用いて色候補を選択する方法の他に、クラスタリング等を利用して背景と下地とそれぞれに対して複数の色を算出し、これらを用いてもよいが、説明の簡便上、採用色は背景と下地とで各々１つである場合以外の説明についてはここでは行なわない。
【００７７】
次に、ステップＳ４０における原稿端画素選択処理について、図９を用いて説明を行なう。
【００７８】
始めに、ステップＳ４０１において、上述の概検出の信頼度が低かった原稿端の候補に対して、原稿端として選択する対象となる画素を検出するための原稿端検出用の範囲を設定する。上述の具体例では下側の原稿端と右側の原稿端との概検出信頼度が高かったため、図１０に示すように、画像の上半分と左半分にのみ原稿端検出用の範囲を絞ってもよい。ここでは、左側の原稿端となる画素を選択する場合の処理について述べるが、言うまでもなく右側や下側の原稿端についても同様である。
【００７９】
次に、ステップＳ４０３およびステップ４０５において、設定した範囲内の各画素について、自身の右側（画像の中心側）に下地色が存在するという第１の条件と、自身の左側（画像の外側）に背景色が存在するという第２の条件とを満たすか否かを判定する。この第１の条件と第２の条件とを共に満たす場合には（Ｓ４０３でＹＥＳ）、注目する画素についてｆｌａｇ１＝１とし（Ｓ４０７）、第１の条件と第２の条件とを全て満たさない場合には（Ｓ４０３でＮＯ）、注目する画素についてｆｌａｇ１＝０とする（Ｓ４０９）。
【００８０】
具体的には、各画素に対して、原稿の中央寄りに位置する対象画素の色と下地色との色距離を所定の固定しきい値Ｔｈ＿ｃｉと比較することで、下地色であるか否かの判定を行なう。同様に、原稿の外寄りに位置する対象画素の色と背景色との色距離を所定の固定しきい値Ｔｈ＿ｃｏと比較することで、背景色であるか否かの判定を行なう。
【００８１】
このように、所定の固定しきい値Ｔｈ＿ｃｉ，Ｔｈ＿ｃｏを利用することで、下地色であるか否かあるいは背景色であるか否かの判定で、ある程度の判定の幅を許容することができる。
【００８２】
色距離は、例えば比較対象となる２組のＲＧＢ値に対してＲＧＢの各値の差の絶対値和（｜ΔＲ｜＋｜ΔＧ｜＋｜ΔＢ｜）を用いて算出してもよいし、その他の方法で算出してもよい。
【００８３】
さらに、ステップＳ４１１において、設定した範囲内の各画素について、上述の第１の条件と第２の条件とのいずれかを満たすか否かを判定する。この第１の条件と第２の条件とのいずれか一方でも満たす場合には（Ｓ４１１でＹＥＳ）、注目する画素についてｆｌａｇ２＝１とし（Ｓ４１３）、第１の条件と第２の条件とを全て満たさない場合には（Ｓ４１１でＮＯ）、注目する画素についてｆｌａｇ２＝０とする（Ｓ４１５）。
【００８４】
そして、ステップＳ４１７において、ステップＳ４０５およびステップＳ４１１における判定結果（Ｓ４０７，Ｓ４０９，Ｓ４１３，Ｓ４１５）に基づいて、注目画素の選択重要度Ｌｖを算出する。ここでの選択重要度Ｌｖは、以下の式によって算出される。
【００８５】
Ｌｖ＝ｆｌａｇ１＋ｆｌａｇ２＋（ｆｌａｇ１×ｆｌａｇ２）
なお、選択重要度Ｌｖは上述の式によるものに限定されず、注目画素からみて画像の中心寄りにある近隣画素がより下地らしい場合、また、画像の端寄りにある近隣画素がより背景らしい場合、等に重要度が高くなるように設定できるものなら他のものであってもよい。
【００８６】
以上の処理をステップＳ４１９およびステップＳ４０３で、設定された範囲内の全ての画素について実行し、選択重要度Ｌｖの高い画素を原稿端として選択する。
【００８７】
ここで、図１１に示す具体例を参照して、左側の原稿端の画素を選択するために、原稿端検出用の範囲としてエッジ画像の左側の範囲が設定されている。そして、その範囲に含まれる各画素について、上述の第１の条件および第２の条件を満たすか否かが判断され、選択重要度Ｌｖに応じて原稿端候補として選択する。
【００８８】
なお、上述のように、選択重要度Ｌｖを算出して２条件のどちらか一方のみを満たす場合と、どちらも満たす場合とで原稿端画素の選択重要度Ｌｖに差をつける選択方法に限定するものではない。すなわち、２条件の両方を満たす場合にのみ原稿端画素と判定してもよいし、どちらかの条件のみを満たす場合でも原稿端画素と判定してもよい。
【００８９】
このようにして下地色と背景色とに基づいて原稿端画素であると選択された画素から、図１２に具体例を示すような原稿端画像を作成することができる。
【００９０】
また、ここで検出の対象としていた左側の原稿端は、垂直方向である可能性が高いため、ステップＳ４２１において垂直方向であると判断すると、ステップＳ４２５で水平方向度合いの高いエッジを除去して、図１３に具体例を示すように、左側原稿端として確実性の高いエッジのみを抽出することができる。
【００９１】
なお、下側の原稿端等、水平方向である可能性が高い原稿端を検出の対象としていた場合にも、同様に、ステップＳ４２３で垂直度合いの高いエッジを除去することで、確実性の高いエッジのみを抽出することができる。
【００９２】
このようにして抽出されたエッジは、単純に入力画像から検出されたエッジ画像を示す図１４と比較すると、より原稿端として確からしいエッジのみが残り、不要なエッジはかなり除去されているため、原稿端の誤抽出を軽減することができる。
【００９３】
以上でステップＳ４０における原稿端画素選択処理を終了し、図２に示すメインルーチンに処理を戻す。
【００９４】
なお、上述の処理において、最後に実行したエッジの縮退は、モルフォロジー演算等、他の方法を用いて実行することもできる。
【００９５】
また、原稿端画素の選択対象を、予め２次微分等を用いて選択しておいたエッジ画素のみに限定することもできる。このようにすることで、原稿端検出の制御を高めることができ、また、処理時間を短縮することもできる。
【００９６】
次に、ステップＳ５０における原稿端置換処理について、図１５を用いて説明を行なう。ここでは、図１３に示される原稿端画像の各画素に対して再度ハフ変換を行なうことで直線検出を行なう、座標位置の補間（検出された原稿端画素の間を単純に直線で結ぶ）等を行なうことで原稿端の隙間を埋める等の処理によって、最終的な直線の原稿端を検出することができる。
【００９７】
その方法については限定されるものではないが、ここではその一例として、射影ヒストグラムを用いた処理について挙げる。
【００９８】
始めに、ステップＳ５０１において、回転角度θと、基準値であるｍａｘＰｏｓｉｔｉｏｎと、ｍａｘＶａｌｕｅと、ｍａｘＡｎｇｌｅとを初期化する。ここでは、回転角度θをθ１からθ２まで変化させて直線である原稿端を決定するものとする。
【００９９】
次に、ステップＳ５０３において、直線に置換する対象である原稿端として選択された画素からなるエッジ画像を、回転角度θだけ回転させる。
【０１００】
次に、ステップＳ５０５において、回転された原稿端画素を用いて射影ヒストグラムを作成する。ここでは、直線に置換する対象である原稿端が左側の原稿端や右側の原稿端といった垂直方向の原稿端である場合には垂直方向の射影ヒストグラムを作成し、上側の原稿端や下側の原稿端といった水平方向の原稿端である場合には水平方向の射影ヒストグラムを作成する。
【０１０１】
なお、ステップＳ５０５でヒストグラムを作成する際には、上述の原稿端画素選択処理において算出された画素単位の選択重要度Ｌｖの値を用いることもできる。また、選択重要度Ｌｖ＝２である画素のみを用いて射影ヒストグラムを作成してもよい。
【０１０２】
次に、ステップＳ５０７で作成された射影ヒストグラムから、回転角度θだけ回転した場合の射影ヒストグラムのピーク位置ｍａｘＰｏｓｉｔｉｏｎθと、その度数ｍａｘＶａｌｕｅθとを求める。そして、射影ヒストグラムのピーク位置ｍａｘＰｏｓｉｔｉｏｎθでの度数ｍａｘＶａｌｕｅθが基準値ｍａｘＶａｌｕｅよりも大きい場合には（Ｓ５０９でＹｅｓ）、ステップＳ５１１において、回転角度θだけ回転した場合の射影ヒストグラムのピーク位置ｍａｘＰｏｓｉｔｉｏｎθと、その度数ｍａｘＶａｌｕｅθと、その回転角度θとを、新たな基準値に設定する。
【０１０３】
回転角度θがθ２に達したときの基準値ｍａｘＶａｌｕｅ，ｍａｘＰｏｓｉｔｉｏｎは、射影ヒストグラムのピーク位置ｍａｘＰｏｓｉｔｉｏｎθでの度数ｍａｘＶａｌｕｅθが最大であるときの値となっている。そこで、ステップＳ５１７においては、ピーク位置での度数が最大となる回転角度θで回転させた場合のエッジ画像が原稿端であると決定し、その角度θにおける直線と原稿端とを置換する。
【０１０４】
以上でステップＳ５０における原稿端置換処理を終了し、図２に示すメインルーチンに処理を戻す。
【０１０５】
このように、本実施の形態における画像解析装置１０は、まず、直線性が高く、下地あるいは背景の画素値が均一であり、余分な物体の写込みが少ない比較的短調な原稿端の検出に適している原稿端概検出処理を行なうことを特徴としている。そして、その概検出結果に基づいて、下地と背景とのそれぞれの色を推定し、概検出結果の信頼性の低い、あるいは概検出処理では検出されなかった原稿端を、指定色を利用して再度検出することを特徴とする。このような、原稿端概検出処理と、その結果に基づいた再検出処理とを行なうことによって、原稿領域抽出の精度を向上させることができる。
【０１０６】
すなわち、本実施の形態の画像解析装置１０において上述の原稿検出処理を実行することで、入力された原稿画像に余計な物体が写込んでいる場合であっても確実に原稿領域を抽出することが可能となる。また、様々な原稿の種類や照明条件や撮影角度等にも高い対応性を備えた原稿検出を行なうことができる。
【０１０７】
なお、上述の説明においては、被写体となる原稿の下地輝度値や形状に関する情報を事前に取得することなく原稿端を検出する原稿端概検出を行なっているが、被写体についての色や形状等に関する情報が既知である場合には、これらの情報を用いて原稿端概検出を行なうことも有効である。このことで、原稿領域抽出性能をさらに高めることができる。
【０１０８】
また、上述の説明においては、図１７に示すような見開き原稿歪みのない原稿を入力画像の具体例として述べたが、図２２に示すような見開き原稿を読取ることで生じる歪みの補正等を行なう場合には、図１６に示すように、原稿端概検出によって歪みのない原稿端を先に検出し、この検出結果を用いて歪みのある原稿端を検出するようにすればよい。なお、見開き原稿歪みを含む歪みのある複雑な形状の原稿端の検出方法については、特開平１０−３３６４２８号公報等において開示されている検出方法等を用いることができる。
【０１０９】
さらに、上述の画像解析装置１０が行なう原稿検出方法を、プログラムとして提供することもできる。このようなプログラムは、コンピュータに付属するフレキシブルディスク、ＣＤ−ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｃ−ＲＯＭ）、ＲＯＭ、ＲＡＭおよびメモリカードなどのコンピュータ読取り可能な記録媒体にて記録させて、プログラム製品として提供することもできる。あるいは、コンピュータに内蔵するハードディスクなどの記録媒体にて記録させて、プログラムを提供することもできる。また、ネットワークを介したダウンロードによって、プログラムを提供することもできる。
【０１１０】
提供されるプログラム製品は、ハードディスクなどのプログラム格納部にインストールされて実行される。なお、プログラム製品は、プログラム自体と、プログラムが記録された記録媒体とを含む。
【０１１１】
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【図面の簡単な説明】
【図１】本実施の形態における画像解析装置１０の構成の具体例を示す図である。
【図２】画像解析装置１０における原稿検出処理を示すフローチャートである。
【図３】ステップＳ１０における前処理の具体例を示すフローチャートである。
【図４】ステップＳ２０における原稿端概検出処理を示すフローチャートである。
【図５】画素Ａ〜Ｈ，Ｐを含むエッジ画像の具体例を示す図である。
【図６】原稿の上端を表わす直線ｙ＝ａｘ＋ｂの傾きａの範囲とＹ切片ｂの範囲とを示す図、およびａ−ｂ平面とを示す図である。
【図７】ステップＳ３０における色候補選択処理を示すフローチャートである。
【図８】原稿端概検出処理で、下側の原稿端と右側の原稿端との概検出信頼度が高かった場合の入力文書画像の具体例を示す図である。
【図９】ステップＳ４０における原稿端画素選択処理を示すフローチャートである。
【図１０】原稿端検出用の範囲を限定した状態の具体例を示す図である。
【図１１】左側の原稿端の画素を選択する場合の原稿端画素選択処理の具体例を示す図である。
【図１２】原稿端画素選択処理で選択された画素より作成された原稿端画像の具体例を示す図である。
【図１３】左側原稿端として確実性の高いエッジのみから作成された原稿端画像の具体例を示す図である。
【図１４】単純に入力画像から検出されたエッジ画像の具体例を示す図である。
【図１５】ステップＳ５０における原稿端置換処理の具体例を示すフローチャートである。
【図１６】入力画像が見開き原稿歪みを含む歪みのある原稿である場合の原稿端検出方法の概略を示す図である。
【図１７】入力文書画像である文書画像の具体例を示す図である。
【図１８】白地に黒文字の領域が原稿内容の大半である文書画像が入力された場合の画素値のヒストグラムおよびエッジの射影ヒストグラムの形状の具体例を示す図である。
【図１９】白以外の単体領域や、写真領域の割合が比較的大きい文書画像が入力された場合の画素値のヒストグラムの形状の具体例を示す図である。
【図２０】撮影対象となる文書以外の写込みが多い文書画像が入力された場合の画素値のヒストグラムおよびエッジの射影ヒストグラムの形状の具体例を示す図である。
【図２１】原稿の回転補正を示す図である。
【図２２】見開き原稿を読取ることで生じる歪みの補正を示す図である。
【符号の説明】
１０　画像解析装置、２０　ＭＮＴ（モニタ）、３０　ＤＳＣ（デジタルスチルカメラ）、４０　ＰＲ（プリンタ）、１０１　ＣＰＵ、１０２　ＲＡＭ、１０３　ＲＯＭ、１０４　ＨＤ、１０５　Ｉ／Ｏ。

Claims

入力画像に含まれる原稿端の、少なくとも一部を検出する第１の原稿端検出手段と、
前記検出された原稿端の部分に基づいて、前記入力画像に含まれる背景、または前記入力画像に含まれる原稿の下地に関する色情報を取得する色情報取得手段と、
前記取得した色情報を用いて、前記検出した原稿端の部分以外の他の部分の原稿端を検出する第２の原稿端検出手段とを備える、画像解析装置。
前記第１の原稿端検出手段は、前記入力画像に含まれるラインについて原稿端らしさを判定する判定手段を備え、
前記原稿端らしさが高いと判定されたラインを原稿端として検出する、請求項１に記載の画像解析装置。
入力画像に含まれる原稿端の、少なくとも一部を検出する第１の原稿端検出ステップと、
前記検出された原稿端の部分に基づいて、前記入力画像に含まれる背景、または前記入力画像に含まれる原稿の下地に関する色情報を取得する色情報取得ステップと、
前記取得した色情報を用いて、前記検出した原稿端の部分以外の他の部分の原稿端を検出する第２の原稿端検出ステップとを備える、画像解析方法。
画像解析方法をコンピュータに実行させるプログラムであって、
入力画像に含まれる原稿端の、少なくとも一部を検出する第１の原稿端検出ステップと、
前記検出された原稿端の部分に基づいて、前記入力画像に含まれる背景、または前記入力画像に含まれる原稿の下地に関する色情報を取得する色情報取得ステップと、
前記取得した色情報を用いて、前記検出した原稿端の部分以外の他の部分の原稿端を検出する第２の原稿端検出ステップとを実行させる、画像解析プログラム。