JP6216871B2

JP6216871B2 - 文書バウンダリ検知方法

Info

Publication number: JP6216871B2
Application number: JP2016519588A
Authority: JP
Inventors: ルイスジェームスベアト; ジョンジェイアレシオ
Original assignee: コダックアラリスインク
Priority date: 2013-06-12
Filing date: 2014-06-10
Publication date: 2017-10-18
Anticipated expiration: 2034-06-10
Also published as: JP2016521890A; US20140368891A1; CN105339951B; CN105339951A; EP3008661A2; US9122921B2; WO2014200982A2; WO2014200982A3

Description

［従来出願への相互参照］
本願は、「文書バウンダリ検知方法」(METHOD FOR DETECTING A DOCUMENT BOUNDARY)と題する２０１３年６月１２日付米国暫定特許出願第６１／８３３９５２号の本出願であり且つ「文書バウンダリ検知方法」(METHOD FOR DETECTING A DOCUMENT BOUNDARY)と題する、２０１４年４月２８日付米国特許出願第１４／２６３１８１号に基づく優先権を主張する出願である。

［発明の分野］
本発明はディジタルイメージングの分野、より具体的にはキャプチャ（捕捉）したディジタル画像（捕捉ディジタル画像）内での文書配置を特定する方法に関する。

ディジタルカメラは、文書画像その他の画像を捕捉可能なスキャナに対し顕著な長所を有している。例えば、ディジタルカメラは一般にスキャナよりポータブルである。更に、スキャナではディジタル化対象画像をスキャナプラテン上に置かねばならないので、スキャナに比べディジタルカメラの方が、より多様な種類の文書（例．大きめの文書やフレームに組み込まれている文書）の画像を捕捉することができる。しかしながら、ディジタルカメラを使用するとスキャナ使用時には生じない問題が生じる。例えば、スキャナでは一般に照明条件がコントロールされるのに対し、ディジタルカメラ使用時には照明条件が変動する。更に、ディジタルカメラ使用時には幾何的歪みが発生しうるし、そうした歪みは諸要因、例えば文書に対するディジタルカメラの角度及び距離、ディジタルカメラで使用されているレンズ、並びに文書が平坦面上にあるのか湾曲面上にあるのかの別によって左右されうる。スキャナでは一般に可動スキャナヘッドが使用されており、プラテン上に平坦保持される文書からそのヘッドまでの距離が固定であるので、一般にはスキャナでそうした歪みが生じることはない。ディジタルカメラを用いた文書画像捕捉には、もう一つ、生じうる背景形状、模様及び色の種類が多様であるという問題もある。

「文書をモバイル撮像及び処理する方法」(Methods for mobile image capture and processing of documents)と題し発明者をＮｅｐｏｍｎｉａｃｈｔｃｈｉとする特許文献１には、モバイルデバイスを使用した文書画像捕捉（撮像）及び処理の方法が開示されている。本方法では、モバイル通信デバイスを使用し金融証書の画像が捕捉され、データ抽出目的で処理される。その処理には、画像内にある文書の自動検知、画像の幾何学的補正、画像の二値化、画像の向き補正、画像のサイズ補正等が含まれている。捕捉画像における文書の配置を特定するプロセスでは、減色（グレースケールへの変換）やノイズ抑圧用モルフォロジ演算が使用される。その文書のエッジを表す「投票」点が識別され、それらの点に発する直線が近似的に求められる。文書の隅部(corner)は、それらの直線の交点を探し出すことで特定される。

「小切手をモバイル撮像及び処理する方法」(Methods for mobile image capture and processing of checks)と題しＮｅｐｏｍｎｉａｃｈｔｃｈｉｅｔａｌ．を発明者とする特許文献２及びその関連文献では、モバイルデバイスを使用した文書撮像及び処理の方法が開示されている。本方法では、モバイル通信デバイスを使用し小切手の画像が捕捉され、データ抽出目的で処理される。この文献で教示されている文書配置は上掲の特許文献１でのそれと同じ要領である。捕捉された小切手画像には、二値化の上で、文書配置特定結果に基づくパースペクティブ（目線）補正の処理が施される。

「小切手をモバイル撮像及び処理するシステム」(Systems for mobile image capture and processing of checks)と題しＮｅｐｏｍｎｉａｃｈｔｃｈｉｅｔａｌ．を発明者とする特許文献３には、モバイルデバイスを使用した自動文書処理の方法が開示されている。本方法では、捕捉された画像がデータ抽出目的で最適化及び拡張される。その処理動作には、画像内にある文書の自動検知、画像の幾何学的補正、画像の二値化、画像の向き補正、画像のサイズ補正等が含まれている。「文書をモバイル撮像及び処理する方法」(Methods for mobile image capture and processing of documents)と題しＮｅｐｏｍｎｉａｃｈｔｃｈｉを発明者とする特許文献４にも、これに類似したプロセスが記載されている。

「画像内物体又はパターンを分類するのに最適な特徴を特定する方法及びシステム」(Methods and systems for determining optimal features for classifying patterns or objects in images)と題しＡｂｒａｍｏｆｆｅｔａｌ．を発明者とする特許文献５には、パターン又は物体を分類するための特徴を特定する方法が開示されている。本方法には、色チャネルを分離するステップ、並びに独立成分解析（ＩＣＡ）を使用し医用イメージング向けに物体を検知するステップが含まれている。

「ディジタル捕捉画像処理システム及び方法」(Systems and methods for processing a digitally captured image)と題しＺｈａｎｇを発明者とする特許文献６には、文書のディジタル捕捉画像を処理する方法が開示されている。本方法は、ディジタル捕捉画像をグレースケール画像に変換するステップ、並びに適応的しきい値を適用して二値画像を導出するステップを有している。この二値画像は反復的画素プログレッションを使用しサーチされ、それにより複数個のエッジが検出される。検出された複数個のエッジを解析することで、イメージング済文書に係る隅部が、それら隅部の特定結果をパースペクティブ補正に利用できるように特定される。

「写真文書イメージングシステム」(Photographic document imaging system)と題しＨｅａｎｅｙ，Ｊｒ．ｅｔａｌ．を発明者とする特許文献７には、文書を含む捕捉画像を処理する方法が開示されている。本方法は、イメージングされた文書をその背景から弁別するステップ、捕捉画像を調整することで歪みを低減するステップ、並びにその文書を適正に方向決めするステップを有している。イメージングされた文書のエッジがエッジ検出アルゴリズムを用い識別され、それらの線の交点が隅部たるべき点として導出される。

「画像処理方法、画像処理装置、画像読取装置及び画像形成装置」(Image processing method, image processing apparatus, image reading apparatus, and image forming apparatus)と題しＫｏｎｉｓｈｉを発明者とする特許文献８には、取得した文書画像を一組の参照画像と比較し、どの参照画像がその取得済参照画像に最も似通っているかを判別する方法が開示されている。

米国特許第８３２６０１５号明細書米国特許第８０００５１４号明細書米国特許第７９７８９００号明細書米国特許第７９５３２６８号明細書米国特許第８３４０４３７号明細書米国特許出願公開第２００３／０１５６２０１号明細書米国特許第７８３５５８９号明細書米国特許第８３２０６８３号明細書

求められているのは、パースペクティブ補正の実行に使用できる文書バウンダリ（文書内外境界）を、文書の捕捉画像を処理することで識別する、より秀逸な方法である。

本発明により提供されるのは、文書の捕捉ディジタル画像内にある文書バウンダリを検知する方法であり、少なくとも部分的にデータ処理システムにより実行される方法であって、
ディジタルイメージングシステムを用い捕捉されており、背景上にハードコピー文書が写っており、複数個の色チャネルに関し画像データを有しているカラーディジタル画像を、受け取るステップと、
色チャネル毎にその画像データを解析することで対応する繁忙度(busyness)指標、即ち同画像データの複雑度を示す指標を求めるステップと、
最低の繁忙度を呈する色チャネルを選択するステップと、
選択された色チャネルに係る画像データを解析することで、写っているハードコピー文書の文書バウンダリを検知するステップと、
検知された文書バウンダリを示す情報をプロセッサアクセシブルメモリ内に格納するステップと、
を有する。

本発明には、文書バウンダリを最もロバスト的に検知可能な色チャネルが、求められた繁忙度指標に基づき特定される、という長所がある。

検知された文書バウンダリを使用し捕捉カラーディジタル画像のパースペクティブ歪みを補正することで、パースペクティブ補正済文書画像を発生させることができる、という長所もある。これにより、ディジタルカメラをポータブル文書スキャナの簡略版として使用する際の主要な難点のうち一つが緩和される。

本発明の一実施形態に係る捕捉ディジタル画像処理システムの構成要素を示す上位概念図である。ある例示的実施形態に係る捕捉ディジタル画像処理方法を示すフローチャートである。図２の方法に係る捕捉ディジタル画像の処理を描出する一連の画像を示す図である。

ご理解頂けるように、別紙図面は本発明の概念を描出するためのものであるので均等縮尺であるとは限らない。

以下の説明では、通常はソフトウェアプログラムとして実現されるという想定で本発明の実施形態のうち幾つかを説明する。本件技術分野に習熟した者（いわゆる当業者）には、直ちに、そうしたソフトウェアの等価物をハードウェアでも構築可能なことをご認識頂けよう。画像操作のアルゴリズム及びシステムは周知であるので、以下の説明では、本発明に係る方法の一部をなし又はそれとより直截に協働するアルゴリズム及びシステムを特に注視する。そうしたアルゴリズム及びシステムの他面や、それにまつわる画像信号を処理例えば生成するためのハードウェア及びソフトウェアであって、本願中で具体的に説明や記述がされていないものは、本件技術分野で既知の類種システム、アルゴリズム、コンポーネント及び要素のなかから選択すればよい。これから本発明に係るものとして説明するシステムの場合、本願中で具体的に説明、示唆又は記述されていないが本発明の実施に役立つソフトウェアを、本件技術分野で一般的で通常技量の範囲内にあるものから採っている。

本発明には、本願で説明する実施形態同士の組合せが包含される。「一実施形態」等々を参照し示されている要素は、本発明の実施形態のうち少なくとも１個に備わる特徴である。何個所かで「一実施形態」、「諸実施形態」等々が参照されているが、それらが同じ実施形態又は実施形態群への参照であるとは限らない；反面、その旨示されている場合やいわゆる当業者にとり直ちに明らかな場合を除き、それらの実施形態が相容れないわけではない。「一方法」、「諸方法」等々、参照に際する単数形や複数形の使用は、限定を意味するものではない。注記すべきことに、明示的に注記されている場合や文脈上必然である場合を除き、本願では語「又は」を非排他的な意味で使用している。

図１は、本発明の一実施形態に係る画像処理システムの構成要素を示す上位概念図である。本システムは、データ処理システム１１０、周辺システム１２０、ユーザインタフェースシステム１３０及びデータストレージシステム１４０を備えている。周辺システム１２０、ユーザインタフェースシステム１３０及びデータストレージシステム１４０は、データ処理システム１１０に可通信接続されている。

データ処理システム１１０は、本願中で説明する例示的プロセスを含め本発明の諸実施形態に係るプロセスを体現するデータ処理デバイスを１個又は複数個備えている。語「データ処理デバイス」や「データプロセッサ」はあらゆるデータ処理デバイス、例えば中央処理ユニット（ＣＰＵ）、デスクトップコンピュータ、ラップトップコンピュータ、メインフレームコンピュータ、携帯情報端末（ＰＤＡ）、Ｂｌａｃｋｂｅｒｒｙ（登録商標）、ディジタルカメラ、携帯電話その他を包含する意図のものである；データを処理し、管理し又は取り扱うことが可能であればどのようなデバイスでもよく、その構成要素が電気的か、磁気的か、光学的か、生物学的か、或いはその他かを問わない。

データストレージシステム１４０は、本発明の諸実施形態に係るプロセス、例えば本願中で説明する例示的プロセスを実行するのに必要な情報を含め、情報を格納可能な構成を有するプロセッサアクセシブルメモリを１個又は複数個備えている。データストレージシステム１４０は、複数個のコンピュータ又はデバイスを介しデータ処理システム１１０に可通信接続されたプロセッサアクセシブルメモリを複数個有する分散プロセッサアクセシブルメモリシステムにするとよい。反面、データストレージシステム１４０を分散プロセッサアクセシブルメモリシステムとする必要はないので、データストレージシステム１４０を構成する１個又は複数個のプロセッサアクセシブルメモリが単一のデータプロセッサ又はデバイス内に配されていてもよい。

語「プロセッサアクセシブルメモリ」は、揮発性か不揮発性かを問わず、また電子的か磁気的か光学的かその他かを問わず、あらゆるプロセッサアクセシブルデータストレージデバイスを包含する意図のものである；その例はレジスタ、フロッピーディスク（登録商標）、ハードディスク、コンパクトディスク、ＤＶＤ、フラッシュメモリ、ＲＯＭ、ＲＡＭ等である。

語「可通信接続」は、有線か無線かを問わず、デバイス、データプロセッサ又はプログラムの間にありデータをやりとり可能なあらゆる種類の接続を包含する意図のものである。語「可通信接続」は、同一のデータプロセッサ内にあるデバイス又はプログラム間の接続、別々のデータプロセッサ内にあるデバイス又はプログラム間の接続、並びにもはやデータプロセッサ内にすらないデバイス間での接続を、包含する意図のものである。なお、図ではデータストレージシステム１４０がデータ処理システム１１０とは別体になっているが、いわゆる当業者にはご理解頂けるように、データストレージシステム１４０が丸ごと又は部分的にデータ処理システム１１０内に組み込まれていてもよい。更に、図では周辺システム１２０及びユーザインタフェースシステム１３０がデータ処理システム１１０とは別体になっているが、いわゆる当業者にはご理解頂けるように、それらのうち一方又は双方が丸ごと又は部分的にデータ処理システム１１０内に組み込まれていてもよい。

周辺システム１２０は、データ処理システム１１０にディジタルコンテンツレコードを供給しうるよう構成されたデバイスを１個又は複数個有する構成とすることができる。例えば、周辺システム１２０がディジタルスチルカメラ、ディジタルビデオカメラ、携帯電話その他のデータプロセッサを有する構成である。データ処理システム１１０には、周辺システム１２０内デバイスからディジタルコンテンツレコードを受領したときに、そのディジタルコンテンツレコードをデータストレージシステム１４０内に格納する能力がある。

ユーザインタフェースシステム１３０は、マウス、キーボード、別のコンピュータその他、そこからのデータがデータ処理システム１１０に入力される任意のデバイス又はデバイス群を有する構成とすることができる。なお、図では周辺システム１２０がユーザインタフェースシステム１３０とは別体になっているが、周辺システム１２０がユーザインタフェースシステム１３０の一部として備わっていてもよい。

ユーザインタフェースシステム１３０は、また、表示装置、プロセッサアクセシブルメモリその他、データ処理システム１１０からそのデバイス又はデバイス群へとデータが出力される任意のデバイス又はデバイス群を有する構成とすることができる。なお、図１ではユーザインタフェースシステム１３０及びデータストレージシステム１４０が互いに別体に描かれているが、ユーザインタフェースシステム１３０内にもしプロセッサアクセシブルメモリがあれば、そのメモリをデータストレージシステム１４０の一部としてもよい。

次に図２、即ち本発明の一実施形態に係る捕捉文書画像処理のフローチャートを参照して本発明を説明する。本方法への入力は捕捉ディジタル画像２００である。捕捉ディジタル画像２００はディジタルイメージングシステム、例えばディジタルカメラ、カメラ付電話機又はハードコピースキャナを用い取得されていて、文書を含むシーンが写っている画像である。捕捉ディジタル画像２００は、値（画素値）を有する画像画素のアレイを有している。一般に、捕捉ディジタル画像２００は、複数個の色チャネル（例．赤（Ｒ）、緑（Ｇ）及び青（Ｂ）色チャネル）を有するカラー画像となろう。

本発明の文脈でいう語「文書」とは、ソフトコピー媒体の相応なハードコピー上に写っている任意の画像のことである。文書の例としては、報告書、手紙、領収書、インボイス、雑誌、書籍、新聞、写真プリント、アートワーク（例．絵画）、テレビジョン又はコンピュータディスプレイ上に表示されているコンテンツ等がある。文書には、テキスト、グラフィクス、写真画像等、多種多様なコンテンツが含まれうる。大抵の文書では総じてそのバウンダリが方形であるが、ディジタルイメージングシステムのパースペクティブ（目線）や画像捕捉時における文書の平坦度次第で、バウンダリが幾何学的に歪むことがある。

好適な実施形態にあっては、複数個の前処理動作２０２を捕捉ディジタル画像２００に適用することで、更なる処理に備え処理済ディジタル画像２２５が生成される。図３に示した実施形態では、その前処理動作に、ディジタル画像リサイズステップ２０５、色空間変換ステップ２１０、画像しきい値処理ステップ２１５及びモルフォロジ（形態素）処理ステップ２２０が含まれている。実施形態によっては、適用される個別の前処理動作が別のものとされることもある。

ディジタル画像リサイズステップ２０５の役割は、捕捉ディジタル画像２００のサイズをある縮小サイズまで縮小し、ひいてはメモリ条件を緩和して残りのステップの情報処理効率を高めることである。ここでいう縮小サイズは、文書バウンダリの正確な検知が可能となるよう十分に大きくする必要がある。ある種の実施形態では、ディジタル画像リサイズステップ２０５にて、画像の長手寸法が約１０００画素（例．１０２４画素）になるよう捕捉ディジタル画像のサイズが縮小される。別の実施形態では、画像が単純にある一定のリサイズ係数（例．２５％）で以てリサイズされる。本件技術分野では画像リサイズ法が周知であり、そうした画像リサイズ法はいずれも本発明に従い使用することができる。画像リサイズ法には、通常、双一次補間、双三次補間又は最近傍補間といった補間プロセスの適用がつきものである。必須ではないが、補間プロセスが適用されるのに先立ち相応なアンチエイリアシングフィルタを捕捉ディジタル画像２００にたたみ込むことで、リサイズプロセスでのエイリアシングアーティファクト（例．ジャギー）の発生を抑えるようにしてもよい。

色空間変換ステップ２１０では、画像データを相応な色空間に変換する色空間変換が実行される。色空間変換適用法はいわゆる当業者にとり周知である。好適な実施形態にあっては、画像データがＨＳＶ色空間、即ち色相(hue)色チャネル（Ｈ）、彩度(saturation)色チャネル（Ｓ）及び明度(value)色チャネル（Ｖ）を有する円筒状色空間へと変換される。「彩度」色チャネルは画像の色度(chroma)（又は彩度(colorfulness)）、「明度」色チャネルは画像の輝度(luminance)（又は光度(lightness)）に関連している。ＨＳＶ色空間は周知であり、コンピュータグラフィクス、コンピュータビジョン、カラーピッカ及び画像編集ソフトウェアパッケージ等のアプリケーションで使用されている。ＨＳＶ色空間には、各色チャネルが互いに根本的に異なる認識属性に関連しており、往々にして互いにあまり相関しない、という望ましい特性がある。そのため、いずれかの色チャネルで文書がその背景から明瞭に峻別される蓋然性が高くなりうる。

これに似た色空間であって本発明との併用に適したもの一つは、ＨＳＬ(hue-saturation-lightness)色空間である（ＨＳＬにおける「彩度」(saturation)とＨＳＶにおけるそれが同じ認識属性を参照しているけれどもその厳密な定義が大きく異なることに要注意）。他の類種としてはＨＳＢ(hue-saturation-brightness)及びＨＳＩ(hue-saturation-intensity)がある。これら色空間はそれぞれデバイス依存性ＲＧＢ色空間の単純な変換によって特定される。結果として、それらにより規定される物理色は、その特定のＲＧＢ空間に係るデバイスでの赤基本色、緑基本色及び青基本色の色、並びにそれら基本色の量を表すのに使用される非線形性（即ち「ガンマ」）により左右される。各ＲＧＢデバイスは、従って、そのデバイスに係るユニークなＨＳＶ色空間（並びに同じくユニークなＨＳＬ、ＨＳＢ又はＨＳＩ色空間）を有する。

実施形態によっては、画像データの変換先が、本件技術分野で既知な他の相応な色空間とされることもある。相応な色空間の例には、光度(lightness)、色度(chroma)及び色相(hue)属性を示す色チャネルを有する他の色空間（例．ＣＩＥＬ^*Ｃ^*ｈ_ab）や、光度(lightness)及び２個の色差属性を示す色チャネルを有する色空間（例．ＹＣ_rＣ_b、ＣＩＥＬ^*ａ^*ｂ^*又はＣＩＥＬ^*ｕ^*ｖ^*）が含まれよう。或いは、色空間変換ステップ２１０を省略し、残りの動作が捕捉ディジタル画像のそもそもの色空間（例．ｓＲＧＢ）にて適用されるようにしてもよい。

図３に、文書３００が写っている（ＲＧＢ色空間準拠）捕捉ディジタル画像２００の一例を示す。色空間変換ステップ２１０（図２）の適用によって画像データをＨＳＶ色空間に変換した暁には三種類の色チャネル画像、即ち色相色チャネル画像３１０、彩度色チャネル画像３１２及び明度色チャネル画像３１４が得られる。

図２の議論に戻ると、画像データしきい値処理ステップ２１５の役割は、しきい値を画像データの各色チャネルに適用することで、しきい値処理済画像データ（即ち一般に画素値“０”及び“２５５”を使用し表現される二値画像データ）を導出することである。実施形態によっては、予め定めてあったしきい値が各色チャネルに適用される。より好ましいのは、画像しきい値処理ステップ２１５で画像データの統計的特性を解析することで、その画像データの各色チャネルにふさわしい適応的しきい値を導出することである。例えば、各色チャネル向けの適応的しきい値を、その色チャネルにおける平均画素値（即ち画素値の平均）を算出することで導出する。このようにすると、その色チャネル内の画像データに応じ、しきい値が各色チャネル毎に独特且つ別々の値になる。実施形態によっては、適応的しきい値の導出に、他の統計的特性（例．メディアン値又はモード値）或いは本件技術分野で周知でより複雑な画像解析プロセスが用いられよう。

モルフォロジ処理ステップ２２０の役割は、しきい値処理済画像データに１通り又は複数通りのモルフォロジ演算を適用することである。好適な実施形態にあっては、そのモルフォロジ演算にダイレーション（収縮）演算及びそれに続くエロージョン（膨張）演算が含まれる。ダイレーション演算及びエロージョン演算は、いわゆる当業者にとり既知なモルフォロジ演算のうち最も一般的な二種類である。ダイレーション演算及びエロージョン演算が最も典型的に適用されるのは二値画像であるが、ある種の形態のそれはグレースケール画像との協働にも適している。ダイレーション演算及びエロージョン演算の組合せはしばしばクロージング演算と呼ばれる。クロージング演算の効果は、前景領域内のあらゆる小孔が塞がれることである。

ダイレーション演算の役割は、“前景”領域（一般に白色画素）のバウンダリを拡大することである。これにより、前景画素構成領域のサイズが大きくなる一方、同領域内の孔が小さくなる。同様に、エロージョン演算の役割は、“背景”領域（一般に黒色画素）のバウンダリを拡大することである。これにより、前景画素構成領域のサイズが小さくなる一方、背景領域内の孔が小さくなる。ダイレーション／エロージョン演算では、通常、ダイレーション／エロージョン行列（即ちしばしば構造化要素と呼ばれるもの）を使用することで、中心画素を取り巻いていてサーチ対象となる画素近隣が画定される。その画素近隣内にある画素のいずれかが前景／背景値を呈しているときには、中心画素がその前景／背景値で以て置換される。好適な実施形態にあっては、ダイレーション演算にて単純な３×３ダイレーション行列、エロージョン演算にて単純な３×３エロージョン行列が使用される。

前処理動作２０２が終わったら、処理済ディジタル画像２２５を解析することで、後続の処理向けに色チャネルのうち１個が選択される。好適な実施形態にあっては、色チャネル繁忙度算出ステップ２３０を実行することで、処理済ディジタル画像２２５の色チャネル毎に色チャネル繁忙度２３５が導出される。この繁忙度は、画像データの複雑度（又はランダムさ）の物差しである。本件技術分野で既知の画像繁忙度指標導出法はいずれも本発明に従い使用することができる。

好適な実施形態にあっては、画像データ内を通る一組の経路に沿った遷移（即ち０から２５５への遷移又は２５５から０への遷移）の個数を、その処理済ディジタル画像２２５を構成する特定の色チャネルに関し計数することで、色チャネル繁忙度２３５が導出される。遷移個数が多めの画像は一般に複雑度が高めになろう。当該一組の経路は、例えば処理済ディジタル画像２２５のロー及びカラムとする。この場合、水平方向沿い遷移個数（即ちロー毎の遷移個数）及び垂直方向沿い遷移個数（即ちカラム毎の遷移個数）を総和すること

により、色チャネル（Ｃ）に係る色チャネル繁忙度指標（Ｂ_C）を算出することができる；式中、Ｎ_rはローｒにおける遷移個数、Ｎ_cはカラムｃにおける遷移個数である。

実施形態によっては、色チャネル繁忙度が他の繁忙度指標を用い算出されうる。例えば、周知の通り、あまり複雑でない画像（例．遷移個数が少なめな画像）を非可逆的画像圧縮アルゴリズムに従い圧縮するとより複雑な画像（例．遷移個数が多めな画像）より強めに圧縮されるものである。従って、処理済ディジタル画像２２５における個別色チャネルの圧縮率を、繁忙度の物差しとして使用することができる。例えば、各色チャネルの画像を周知のＪＰＥＧ画像圧縮アルゴリズムに従い圧縮することが可能であり、またその圧縮率（例えば圧縮された画像のサイズとして数値化されたもの）を色チャネル繁忙度２３５として使用することが可能である。

本発明に従い色チャネル繁忙度２３５に代えて使用可能な繁忙度指標の別例は、連結成分解析を用い導出される明白な連結要素の個数（即ち前景画素の明白な集まりの個数）であろう。高めの繁忙度を有する画像では一般に明白な連結要素の個数が多めになる。

繁忙度指標として使用するのに適していて、色チャネル繁忙度２３５に代えて使用可能なもう一つの指標は、画像エントロピである。エントロピは「無秩序さ」又は「不確実さ」についての周知な物差しであり、広範なアプリケーションにてディジタル画像に日常的に適用されている。高めの繁忙度を有する画像では一般にエントロピが高めになる。

実施形態によっては、周波数コンテンツ指標の導出を基礎に色チャネル繁忙度２３５が導出される。複雑な画像では一般に高周波数コンテンツが多めになる。従って、この周波数コンテンツ指標の適例の一つは、所定のしきい値周波数より高い周波数で求めた周波数コンテンツの量であろう。いわゆる当業者には自明な通り、本発明に従い用いることが可能な周波数コンテンツ指標はこれ以外にも数多くある。

色チャネル選択ステップ２４０の役割は、色チャネル毎に算出された色チャネル繁忙度２３５に基づき、更なる処理に備え処理済ディジタル画像２２５からいずれかの色チャネルを選択することである。好適な実施形態にあっては、最低の色チャネル繁忙度２３５を有する色チャネルが選択される。捕捉ディジタル画像２００から選択された色チャネルに係る画像データが、選択色チャネル画像２４５に指定される。

図３に、説明してきた例示的実施形態に従い導出された処理済ディジタル画像２２５の一例を示す。この処理済ディジタル画像２２５は、処理済色相色チャネル画像３２０、処理済彩度色チャネル画像３２２及び処理済明度色チャネル画像３２４を有している。色チャネル毎に算出された色チャネル繁忙度２３５（図２）に従い、色相色チャネル画像３２０が選択色チャネル画像２４５に指定されている。

図２の議論に戻ると、選択色チャネル画像２４５に係る画像データは更に文書バウンダリ検知プロセス２４７を使用し解析され、写っているハードコピー文書の文書バウンダリ２８０がそれにより検出される。文書バウンダリ検知プロセス２４７では、本件技術分野で既知のあらゆる文書バウンダリ検知プロセスを使用することができる。図示実施形態にあっては、まずエッジ検出ステップ２５０を選択色チャネル画像２４５に適用することで画像データ内のエッジが検出される。エッジ検出法は画像処理分野に係る当業者にとり周知である。好適な実施形態にあっては、エッジ検出ステップ２５０にて周知のＣａｎｎｙエッジ検出アルゴリズムが適用される。その画像データはまず画像ノイズ低減のため平滑される。次いで、Ｃａｎｎｙエッジ検出アルゴリズムに従い画像勾配を算出することで、大きな空間導関数を有する領域が識別される。更に、非最大値抑圧演算を適用することで、画素のうちその勾配方向における極大値であるもの全てが抑圧される。次いで、ヒステリシスしきい値処理プロセスを使用しその画像内のエッジがトレースされる。勾配の大きさが下側第１しきい値を下回る画素はいずれも非エッジ画素と判断され、また上側第２しきい値を上回る画素はいずれもエッジ画素と判断される。勾配の大きさがそれら二通りのしきい値の間にある場合、その画素は、同画素から勾配の大きさが第２しきい値超の画素に至る経路が存在するならば、エッジと判断される。このようにすることで、エッジのうちぼんやりとした部分を識別することができる。

次に、多角形特定ステップ２５５をエッジ検出処理済画像に適用することで、検出されたエッジにより形成される多角形全てが識別される。エッジ輪郭が閉じていて外に凸なら、その輪郭は多角形で近似できる。本件技術分野で既知のエッジ輪郭由来多角形特定法は、いずれも、本発明に従い使用することができる。エッジ輪郭に基づく多角形の近似導出に多用される周知方法としては、スプリットアルゴリズム、マージアルゴリズム及びスプリットアンドマージアルゴリズムの三種類がある。スプリットアンドマージアルゴリズムの一例形態としては周知のＲａｍｅｒ−Ｄｏｕｇｌａｓ−Ｐｅｕｃｋｅｒアルゴリズムがある。このアルゴリズムはＯｐｅｎＣＶコンピュータビジョンライブラリに実装されており、また本発明の例示的実施形態で使用されている。多角形特定ステップ２５５で求まるのは、それぞれ一組の頂点により規定される一群の多角形である。

多くの場合、多角形特定ステップ２５５では多角形が複数個特定される。最良多角形選択ステップ２６０の役割は、予め定められている一組の選択条件に基づき最良多角形２６５を選択することである。最良多角形２６５とは、写っている文書のバウンダリに最もよく対応しそうな多角形のことである。好適な実施形態にあっては、最良多角形選択ステップ２６５で使用される選択条件、特にシーケンシャルフィルタリングプロセスを適用する条件を使用し、一組の特定済多角形のなかから最良多角形２６５が選択される。

注目対象文書は一般に４個の隅部及び４個の辺を有する四辺形であろうから、初期フィルタリングステップにて、隅部が４個でない多角形全てを除外するとよい。写っている文書は一般に方形であるものと期待してよいので、残った四辺具備の多角形のうち、９０°に対して所定の誤差範囲（例．±２５°）内に収まっていない隅部を有する多角形も除外できる。小さな多角形（例．画像総面積の１０％たるサイズ下限より小さな面積を有する多角形）、更には重複多角形（互いに一致している多角形）や４個ある画像縁のうちいずれかと一辺を共有している多角形（縁多角形）全ても濾過できる。より大きな多角形内にその全体が収まっている多角形も除外できる。最終的には、残った多角形の中で最も大きなものが最良多角形２６５たるべきものとして選択される。いわゆる当業者にはご理解頂けるように、このフィルタリングプロセス例の多様な変形態様や、他種選択法も、本発明に従い使用することができる。

有効多角形判別２７０の役割は、有効な多角形が見つかったか確認することである。場合によっては、フィルタリングステップのうち少なくとも基本セットに合格するような多角形が何も見つからないことがある（捕捉ディジタル画像２００内に文書が写っていない場合や採用中の方法では文書バウンダリを成功裏に識別できなかった場合）。この場合、捕捉ディジタル画像２００内に有効な文書が何も写っていない旨判明したことを示す文書不発見フラグ２７５をセットすればよい。有効な文書多角形が見つかった場合は、その最良多角形２６５が文書バウンダリ２８０であるものと見なされる。

求まった文書バウンダリ２８０を示す情報（例．その多角形に備わる隅部の座標）は、プロセッサアクセシブルメモリ内（例．ＲＡＭ内又はハードディスク上）に格納可能であり、また種々の別アプリケーションにて使用可能である。例えば、求まった文書バウンダリ２８０を使用し、写っている文書を捕捉ディジタル画像２００から抽出することが可能である。実施形態によっては、パースペクティブ補正プロセス２８５を使用し、撮像プロセスに関連するパースペクティブ歪みを補正することで、パースペクティブ補正済文書画像２９０が導出されうる。本件技術分野で既知のどのようなパースペクティブ補正プロセス２８５も、パースペクティブ歪みを本発明に従い補正するのに使用することができる。パースペクティブ補正済文書画像２９０は、撮像時の幾何学的配置に関連する歪みが除去された秀逸な文書画像である。

好適な実施形態にあっては、パースペクティブ補正プロセス２８５にてパースペクティブ変換行列が導出され、捕捉ディジタル画像２００の幾何学的構成がその適用によって変換される。パースペクティブ変換行列は、文書バウンダリ２８０に備わる４個の頂点の座標、並びに補正後の画像空間におけるそれら４個の頂点の対応する座標が与えられていれば、周知方法を使用し算出することができる（ディジタル画像リサイズステップ２０５が適用される実施形態では、捕捉ディジタル画像２００の座標に対応するよう文書バウンダリ２８０に備わる４個の頂点を適宜スケーリングすべきである）。通常、補正後の画像空間における４個の頂点座標は、４個の頂点が９０°角をなすようなものとなる。実施形態によっては、補正済画像の幅及び高さが文書バウンダリ２８０のエッジのサイズから推定されうる。例えば、文書バウンダリ２８０の上エッジと下エッジの平均を以て補正済画像の幅、文書バウンダリ２８０の左エッジと右エッジの平均を以て補正済画像の高さとして採用することができる。別の実施形態にあっては、所定のデフォルト文書タイプ（例．８．５”×１１”）に対応するよう補正済画像のサイズが仮定され、また相応な解像度（例．３００ｄｐｉ）を有するものと見なされる。

パースペクティブ変換行列（Ｍ）は、一般に次の形態

を有するものとなろう；式中、（ｘ，ｙ）は捕捉ディジタル画像２００におけるソース（変換前）座標、（ｘ’，ｙ’）はパースペクティブ補正済文書画像２９０におけるデスティネーション（変換後）座標、ｔはホモジニアスな成分である。オープンソース化されているコンピュータビジョンライブラリＯｐｅｎＣＶではシンプルな関数“ｇｅｔＰｅｒｓｐｅｃｔｉｖｅＴｒａｎｓｆｏｒｍ”、即ち文書バウンダリ２８０に備わる４個の頂点の座標並びに補正済画像空間におけるそれら４個の頂点の対応する座標が与えられている下でパースペクティブ変換行列を生成する関数が提供されている。これに対応するＯｐｅｎＣＶ関数“ｗａｒｐＰｅｒｓｐｅｃｔｉｖｅ”では、求まったパースペクティブ変換行列を受け取って原画像（捕捉ディジタル画像２００）に対するパースペクティブ変換を実行することで、対応する補正済画像（パースペクティブ補正済文書画像２９０）を導出する。その上で、補正済文書画像格納ステップ２９５を使用し、導出されたパースペクティブ補正済文書画像２９０をプロセッサアクセシブルメモリ内に格納すればよい。

再び図３を参照するに、選択色チャネル画像２４５には最良多角形２６５（図２）に対応する文書バウンダリ２８０が現れている。そもそもの捕捉ディジタル画像２００を変換してパースペクティブ補正済文書画像２９０を導出するのに使用されたパースペクティブ変換行列は、この文書バウンダリ２８０を用い導出されたものである。看取できる通り、元々の捕捉ディジタル画像２００内の文書にディジタルカメラの撮影時幾何配置が原因で生じているパースペクティブ歪みが補正されており、既存のハードコピースキャナを用い捕捉したときに得られるであろう画像と同様に見えるパースペクティブ補正済文書画像２９０が得られている。このことから、ディジタルカメラ又はカメラ付電話機をポータブル文書スキャナの簡略版として使用することに関わる大きな問題のうち、一つに対する解決策が、本発明の方法によりもたらされることを理解することができる。

コンピュータプログラム製品は、１個又は複数個の非一時的で有形なコンピュータ可読ストレージ媒体を伴いうる；例えば、磁気記録媒体例えば磁気ディスク（例えばフロッピーディスク（登録商標））又は磁気テープ；光学記録媒体例えば光ディスク、光テープ又は機械可読バーコード；固体電子ストレージデバイス例えばランダムアクセスメモリ（ＲＡＭ）又はリードオンリメモリ（ＲＯＭ）；或いは他のあらゆる物理デバイス又は媒体を、１個又は複数個のコンピュータを制御して本発明に係る方法を実行させることが可能な命令群を有するコンピュータプログラムの格納に、使用することができる。

本発明の好適な実施形態のうちある種のものを具体的に参照して本発明を詳説してきたが、ご理解頂けるように、本発明の技術的範囲及び神髄から逸脱せずに様々な変形及び修正を施すことが可能である。

１１０データ処理システム、１２０周辺システム、１３０ユーザインタフェースシステム、１４０データストレージシステム、２００捕捉ディジタル画像、２０２前処理動作、２０５ディジタル画像リサイズステップ、２１０色空間変換ステップ、２１５画像しきい値処理ステップ、２２０モルフォロジ処理ステップ、２２５処理済ディジタル画像、２３０色チャネル繁忙度算出ステップ、２３５色チャネル繁忙度、２４０色チャネル選択ステップ、２４５選択色チャネル画像、２４７文書バウンダリ検知プロセス、２５０エッジ検出ステップ、２５５多角形特定ステップ、２６０最良多角形選択ステップ、２６５最良多角形、２７０有効文書多角形判別、２７５文書不発見フラグ、２８０文書バウンダリ、２８５パースペクティブ補正プロセス、２９０パースペクティブ補正済文書画像、２９５補正済文書画像格納、３００文書、３１０色相色チャネル画像、３１２彩度色チャネル画像、３１４明度色チャネル画像、３２０処理済色相色チャネル画像、３２２処理済彩度色チャネル画像、３２４処理済明度色チャネル画像。

Claims

文書の捕捉ディジタル画像内にある文書バウンダリを検知する方法であり、少なくとも部分的にデータ処理システムにより実行される方法であって、
ディジタルイメージングシステムを用い捕捉されており、背景上にハードコピー文書が写っており、複数個の色チャネルに関し画像データを有しているカラーディジタル画像を、受け取るステップと、
前記色チャネル毎にその画像データを解析することで対応する繁忙度指標、即ち同画像データの複雑度を示す指標を求めるステップと、
前記繁忙度指標を求めるステップが、前記画像データに関し圧縮率指標を求めるステップを含み、
最低の繁忙度を呈する色チャネルを選択するステップと、
前記選択された色チャネルに係る画像データを解析することで、写っているハードコピー文書の文書バウンダリを検知するステップと、
前記検知された文書バウンダリを示す情報をプロセッサアクセシブルメモリ内に格納するステップと、
を有する方法。
請求項１記載の方法であって、更に、前記繁忙度指標を算出するのに先立ち各色チャネルに係る画像データをしきい値処理するステップを、有する方法。
請求項２記載の方法であって、前記画像データをしきい値処理するステップが、
その画像データを解析することで適応的しきい値を決定するステップと、
その適応的しきい値を使用し画像データをしきい値処理するステップと、
を含む方法。
請求項３記載の方法であって、その適応的しきい値が、前記画像データの統計的特性に基づき導出される方法。
請求項２記載の方法であって、前記繁忙度指標を求めるステップが、前記しきい値処理済画像データ内を通る一組の経路に沿った遷移の個数を計数するステップを含む方法。
請求項２記載の方法であって、前記繁忙度指標を求めるステップが、前記しきい値処理済画像データの連結成分解析を実行するステップを含む方法。
文書の捕捉ディジタル画像内にある文書バウンダリを検知する方法であり、少なくとも部分的にデータ処理システムにより実行される方法であって、
ディジタルイメージングシステムを用い捕捉されており、背景上にハードコピー文書が写っており、複数個の色チャネルに関し画像データを有しているカラーディジタル画像を、受け取るステップと、
前記色チャネル毎にその画像データを解析することで対応する繁忙度指標、即ち同画像データの複雑度を示す指標を求めるステップと、
最低の繁忙度を呈する色チャネルを選択するステップと、
前記選択された色チャネルに係る画像データを解析することで、写っているハードコピー文書の文書バウンダリを検知するステップと、
前記検知された文書バウンダリを示す情報をプロセッサアクセシブルメモリ内に格納するステップと、
前記検知された文書バウンダリに基づき捕捉カラーディジタル画像にパースペクティブ補正プロセスを適用することで、前記写っている文書が略方形のバウンダリを呈するような補正済ディジタル画像を生成するステップと、
を有する方法。
請求項１記載の方法であって、前記繁忙度指標を求めるステップが、その画像データに関し画像エントロピ指標を求めるステップを含む方法。
請求項１記載の方法であって、前記繁忙度指標を求めるステップが、その画像データに関し周波数コンテンツ指標を求めるステップを含む方法。
請求項１記載の方法であって、前記文書バウンダリを検知するステップが、エッジ検出プロセスを実行することでその画像データ内のエッジを検出するステップを含む方法。
請求項１０記載の方法であって、更に、前記検出されたエッジに対応する多角形を１個又は複数個特定するステップを含む方法。
請求項１１記載の方法であって、前記検出されたエッジに対応する多角形を複数個特定し、１個又は複数個ある所定の選択条件に基づき多角形のうち１個を選択する方法。
請求項１１記載の方法であって、四辺形でない多角形を無視する選択条件がある方法。
請求項１１記載の方法であって、最小限度のサイズを有していない多角形を無視する選択条件がある方法。
請求項１記載の方法であって、前記色チャネルとして、色相属性を表す色チャネルと、彩度属性を表す色チャネルと、輝度属性を表す色チャネルと、を有する方法。
請求項１記載の方法であって、前記色チャネルとして、光度属性を表す色チャネルと、色差属性を表す２個の色チャネルと、を有する方法。
請求項１記載の方法であって、前記色チャネルとして、赤色チャネル、緑色チャネル及び青色チャネルを有する方法。
文書のディジタル画像を捕捉する文書イメージングシステムであって、
背景上にハードコピー文書があるカラーディジタル画像を捕捉し、複数個の色チャネルに関し画像データを有している捕捉カラーディジタル画像をもたらすように、構成された画像捕捉システムと、
データ処理システムと、
そのデータ処理システムに可通信接続されており、且つ同データ処理システムに前記捕捉カラーディジタル画像内パースペクティブ歪み補正方法を実行させるべく構成されている命令群が格納されているメモリシステムと、
を備える文書イメージングシステムにおいて、上記方法が、
その捕捉カラーディジタル画像を、複数個の解析色チャネルを有する解析色空間へと変換するステップと、
前記解析色チャネル毎にその画像データを解析することで対応する繁忙度指標、即ちその画像データの複雑度を示す指標を求めるステップと、
最低の繁忙度を呈する解析色チャネルを選択するステップと、
前記選択された解析色チャネルに係る前記画像データを解析することで、写っている文書の文書バウンダリを検知するステップと、
前記検知された文書バウンダリに基づき前記捕捉カラーディジタル画像にパースペクティブ補正プロセスを適用することで、写っている文書が略方形のバウンダリを呈するような補正済ディジタル画像を生成するステップと、
前記補正済ディジタル画像をプロセッサアクセシブルメモリ内に格納するステップと、
を有する文書イメージングシステム。
文書の捕捉ディジタル画像内にある文書バウンダリを検知する方法であり、少なくとも部分的にデータ処理システムにより実行される方法であって、
ディジタルイメージングシステムを用い捕捉されており、背景上にハードコピー文書が写っており、複数個の色チャネルに関し画像データを有しているカラーディジタル画像を、受け取るステップと、
前記色チャネル毎にその画像データを解析することで対応する繁忙度指標、即ち同画像データの複雑度を示す指標を求めるステップであって、前記繁忙度指標を求めるステップが、その画像データに関し画像エントロピ指標を求めるステップを含み、
最低の繁忙度を呈する色チャネルを選択するステップと、
前記選択された色チャネルに係る画像データを解析することで、写っているハードコピー文書の文書バウンダリを検知するステップと、
前記検知された文書バウンダリを示す情報をプロセッサアクセシブルメモリ内に格納するステップと、
を有する方法。
請求項７記載の方法であって、前記繁忙度指標を求めるステップが、前記画像データに関し圧縮率指標を求めるステップを含む方法。