JPH10222688A

JPH10222688A - 画像処理方法

Info

Publication number: JPH10222688A
Application number: JP10023781A
Authority: JP
Inventors: Dennis L Venable; エル．ベナブルデニス; L De Queylotz Richard; エル．デクエイロツリカード; Ramana L Rao; エル．ラオラマナ
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1997-01-21
Filing date: 1998-01-21
Publication date: 1998-08-21

Abstract

(57)【要約】【課題】画像中のオブジェクトを特徴づける画像処理
方法を提供する。【解決手段】本発明に係る画像処理方法によれば、ス
キャナーのプラテン上に並べられた複数の異なる写真を
スキャンすることによって生成された入力画像中の各写
真の位置、形状、方向角を自動的に認識する。入力画像
の処理中にコンピュータ２２によって実行されるプロセ
スは、３つの一般的工程を備える。まず、ステップ１０
０では、画像中のオブジェクトが探索して、そのオブジ
ェクト境界を識別する。ステップ２００では、オブジェ
クト形状をモデル化する。ステップ３００では、その画
像とオブジェクトを表現する構造化画像を生成する。そ
の構造化画像は好適には画像データ自体を表現するデー
タだけでなく、各オブジェクトの位置、形状、方向やそ
れらの組み合わせを表現するデータを含む。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般的な画像処理
技術に関し、特に、画像入力装置のプラテン上に置かれ
た複数のイメージ体を自動的に分割（セグメント化）し
て特徴を抽出する技術に関する。

【０００２】

【従来の技術】一回のスキャンで取り込まれた画像が、
好ましくはスキャナーのプラテン上に接触しないで並べ
て置かれた複数の異なる写真からなる場合、各写真の位
置、形、回転角を自動的に確認することが望まれる。そ
の性能によって生産性を上げることができる。多数の画
像をスキャンする時間を短くし、並びの補正を自動化す
ることによって生産性を向上させることができる。

【０００３】

【発明が解決しようとする課題】本発明は、スキャンさ
れた画像中の個々の領域、即ち、セグメントを自動的に
決定するために開発されたソフトウエアに基づくシステ
ムに関する。本発明は、多くのグラフィクス技術と画像
処理技術を組み合わせて生産性を向上させる自動化され
たユーザフレンドリーなアプリケーションを提供する。
そのアプリケーションは、多くの画像をスキャンする時
間を削減し、また、多くの画像の並びを自動的に補正
し、さらに、文書のテンプレート中に多数の画像を自動
的に配置することによって生産性を向上させることがで
きる。

【０００４】本発明は、これらの目的を、１）複数の独立したオブジェクトを画像中で探索し、２）認識されたオブジェクト（例えば、矩形）の形状を
モデル化し、３）画像中の各オブジェクトの位置、形状、方向を認識
する構造化画像記述を生成することによって達成する。

【０００５】画像の分割や構造化画像については、これ
まで多くの発明と文献で開示されている。それらに関す
る一部分について以下に要約する。

【０００６】１９９６年１月１６日に発行されたベナブ
ル（Venable ）他のＵＳ- Ａ-5,485,568（この文献は、
本明細書に組み込まれる）では、複雑なカラーのラスタ
ー画像を構造化画像フォーマット、即ち、階層的な装置
独立なフォーマットのオブジェクトの集合として表現す
る方法と装置を開示している。

【０００７】“プリプレス・アプリケーションでの画像
ワークフローの管理と表現（MANAGING AND REPRESENTIN
G IMAGE WORKFLOW IN PREPRESS APPLICATIONS ）”
（（グラフィックアート技術協会（Technical Associat
ion of the Graphic Arts （ＴＡＧＡ））、第１巻、１
９９５年、予稿集pp.373-385、ベナブル他）では、構造
化画像を使ってプリプレス・ワークフローを管理するこ
とを教唆している。ギャングスキャニング等の処理は、
スキャナー・プラテン上に大雑把に配列された複数の写
真を入力する手段として記述されている。

【０００８】

【課題を解決するための手段】本発明は、入力デジタル
画像を処理して複数のオブジェクトの特徴を抽出する方
法を提供するもので、入力画像中で少なくとも２つのオ
ブジェクトを認識し、各オブジェクトの境界を表現する
形状をモデル化し、オブジェクトを特徴づける記述を生
成する処理を備え、その記述はさらに画像の他の属性を
特徴づける。

【０００９】本発明の他の態様は、デジタイズされた入
力画像を入力するプログラミング可能なコンピュータを
含む画像処理装置を提供することであり、そのコンピュ
ータは、入力画像を格納するフレームバッファメモリ
と、コンピュータが画像処理を実行するのに適したプロ
グラムコードを格納するプログラムメモリとを備える。
その画像処理は、デジタイズされた入力画像中で複数の
オブジェクトを識別し、オブジェクトの境界を表現する
形状をモデル化し、オブジェクトを特徴づける記述を生
成する処理を備える。

【００１０】本発明の１つの態様は、デジタル画像処理
での基本的な問題、即ち、デジタル画像処理で複数のオ
ブジェクトを識別する問題を扱うことである。さらに、
この態様は、この問題を緩和する画像処理技術の発見に
基づく。ここで記述されている技術によって、ユーザは
複数の文書を都合よく１回のスキャニング処理でスキャ
ンでき、それらの文書をデジタイズされた画像中で独立
なオブジェクトとして認識することによって、自動的に
分離することができる。本発明の他の態様は、デジタイ
ズされた画像の構造化画像表現を自動的に生成すること
によって、画像オブジェクトを独立に簡単に抽出して処
理できることである。

【００１１】上述の技術は、スキャニング処理効率を向
上させるには都合のよいものであり、多数の文書を１回
でスキャンできる。さらに、その技術によって、ユーザ
の介入なしにオブジェクトの物理的属性（例えば、位
置、形状、方向）を自動的に特徴づけることができる。

【００１２】

【発明の実施の形態】本発明の概要の理解のために図を
用いる。図全体渡って、同じ参照番号が同じ構成要素を
示すために使われる。本発明を説明するために以下の用
語を用いる。

【００１３】複数のピクセル間に他のピクセルがない場
合、その複数のピクセルは画像中で“近傍”または“隣
接する”ものであり、その複数のピクセルは近傍の評価
基準に適合する。もし、その複数のピクセルが矩形であ
って２次元画像中の行と列にあると、その評価基準に従
って、各ピクセルは４つの近傍ピクセルまたは８つの近
傍ピクセルを備える。

【００１４】２つの近傍ピクセルの間にエッジが発生す
るかどうかを判定する適切な評価基準に照らして、それ
らの２つの近傍ピクセルが十分違うピクセル値をもつと
判定された場合、“エッジ”が画像中で発生する。“エ
ッジピクセル”や“境界ピクセル”という用語は、２つ
の近傍ピクセルのうちの１つかまたはその両方に適用さ
れ、その間にエッジが発生する。

【００１５】“画像特徴”または“特徴”は、画像で測
定可能な属性である。画像を定義するデータを使って特
徴を示すデータを作ることによって、特徴を“測定”す
ることができる。もし、特徴が発生する各時点でだいた
い同じ結果が得られるような方法でその特徴を測定する
と、“画像”に対する特徴が測定されたことになる。

【００１６】第１の画像の“型（バージョン）”は、第
１の画像を定義するデータ項目を用いて作られる第２の
画像である。その第２の画像は第１の画像に等しいか、
または、第１の画像を定義するデータを変えたり、第１
の画像のピクセル値を変えるその他の処理から引き起こ
される解像度の損失によって変調される。

【００１７】“画像入力装置”は、画像を入力し、画像
の型を定義するデータ項目を作る装置である。“スキャ
ナー”は、文書をスキャンする等のスキャニング処理に
よって画像を入力する装置である。

【００１８】“画像出力装置”は、画像を定義するデー
タ項目を受け取り、その画像を出力として提供したり描
画する装置である。“ディスプレイ”は、人間が視覚で
きる形態の出力画像を提供する画像出力装置である。そ
して、“プリンタ”は、人間が視覚できるハードコピー
の形態の画像を出力する画像出力装置である。

【００１９】図１と図２は、本発明が特定の用途として
使われているシステム２０を示す。システム２０は、ス
キャナー２６のプラテン上に配置された文書（原稿）２
４の画像を表現するデジタルデータを入力するコンピュ
ータ２２を備える。コンピュータ２２は、まずスキャナ
ー２６からのデジタル入力データを、画像を連続的にア
クセスできるメモリ５２（例えば、ＲＡＭや磁気ディス
ク記憶装置）に格納する。また、デジタルデータに加え
て、メモリ５２は、本発明に係る画像処理工程をプロセ
ッサに実行させる指示を出すオブジェクトコードを格納
するプログラムメモリを含む。コンピュータ２２は、キ
ーボード、キーパッド、マウス、トラックボール、スタ
イラスまたはそれと等価なポインティングデバイス等の
１つかそれ以上のユーザ入力装置３０を含むユーザイン
ターフェイス（Ｕ／Ｉ）２８と連携する。

【００２０】また、システム２０の一部は、商業ベース
で入手可能な多数のプリンタで使われるレーザ駆動のゼ
ログラフィック印刷エンジンを含むプリンタ３４等の画
像出力装置である。好適な実施の形態によれば、システ
ム２０はスキャナー２６から入力されたデジタル画像デ
ータを処理し、また、プリンタ３４によって描画され、
メモリ５２に格納され、及び／又はネットワーク４０を
介して他の装置に伝送される出力ファイルを生成するた
めにプロセッサ５０で実行される画像処理ソフトウエア
を用いる。スキャナーのプラテン上に置かれた文書は複
数の写真とサブストレート（基体）表面上でマークによ
って表現される他のオブジェクトを含むことができ、ま
た、そのオブジェクトを単一のスキャニング処理（操
作）でスキャン可能であることが理解される。例えば、
特定の実施の形態は、スキャナー２６のプラテンに接触
したりオーバラップしないように並べられた複数の写真
を表現する単一スキャン画像である。本発明によれば、
各元の写真の位置、形状、回転角を自動的に認識するこ
とが望まれる。

【００２１】スキャナーのプラテン上に並べられた複数
の異なる写真をスキャンすることによって生成された入
力画像が得られると、本発明は少なくとも各写真の位
置、形状、方向角を自動的に認識する。図３のフローチ
ャートで示されるように、入力画像の処理中にコンピュ
ータ２２によって実行されるプロセスは、３つの一般的
ステップを備える。まず、ステップ１００では、画像中
のオブジェクトが探索されて、通常、そのオブジェクト
境界が識別される。オブジェクトが探索されると、ステ
ップ２００では、オブジェクト形状をモデル化する。オ
ブジェクトが探索されてその形状がモデル化されると、
ステップ３００では、その画像とオブジェクトを表現す
る構造化画像を生成する。その構造化画像は好適には画
像データ自体を表現するデータだけでなく、各オブジェ
クトの位置、形状、方向やそれらの組み合わせを表現す
るデータを含む。別の方法では、その出力は、画像情報
を検索可能な形態で格納するためのページ記述言語フォ
ーマットまたはそれと同等のフォーマットである。

【００２２】本発明の好適な実施の形態では、スキャン
された入力画像（または、それより低解像度の画像）が
メモリフレームバッファ（ＲＡＭ）にロードされ、前述
のステップに従って分析される。ここでは、説明の便宜
上、複数のオブジェクトは互いに隠し合うことがなく、
その画像の背景は連続していると仮定する。この簡単化
された仮定は説明の便宜上のためであって、本発明の範
囲を制限するものではない。当業者であれば、本発明を
その仮定で必要となる範囲以上に拡張することができ
る。

【００２３】図４のフローチャートで示されるように、
オブジェクト位置検出ステップ１００では、入力画像１
０２の背景領域をまず識別し、背景領域１０４を特徴づ
け、その背景領域の特徴をシードとして使用し、適応シ
ード・フィル・アルゴリズム１０６によってその背景領
域を表現するピクセル全部を確認する。背景ピクセル
は、どのオブジェクトとも関連しないピクセルである。
より簡単に言えば、オブジェクトの外側の領域を表現す
るピクセルであり、そのピクセル値は“背景”によって
制御され、その背景に対してオブジェクトがスキャン中
に探索される（例えば、プラテンカバーの下面に）。一
つの実施の形態では、スキャン画像の左手上隅の小領域
の色平均を背景色の初期推定値として使用する。別の方
法では、ファレル（Farrell ）のUS-A-5,282,091“文書
の背景レベルを決定するプログラマブル装置”等で開示
されているような他のサンプリング処理が行われる。

【００２４】ステップ１０４で背景色が特徴づけられる
と、好適には適応アルゴリズムが適用され、背景色を制
御し、オブジェクトを正確に識別する。本発明に適した
シード・フィル・アルゴリズム（種充填アルゴリズム）
の一例は、グラフィクスジェム I（Graphics Gems I
）, A.グラスナー Ed., アカデミックプレス, pp. 275
-277, 1990 に記載されている。プラテン領域上の照明
変動に起因して背景ピクセルでは大きな色変動が起こる
ために適応アルゴリズムが必要となる。適応シード・フ
ィル・アルゴリズムは、画像の左上隅等の背景によって
特徴づけられる初期シード点を用いてスキャンされたカ
ラー画像データに適用される。一般に、その適応シード
・フィル・アルゴリズムでは、背景ピクセルとして識別
された連続する全ピクセルを示すマスクを用いて、２値
のフレームバッファを塗りつぶす（充填する）。ステッ
プ１１２に示される簡単な実施の形態では、現在の平均
背景ピクセル値から僅かに離れた距離ε内にピクセルの
色があれば、そのピクセルを背景ピクセルと考える。こ
の距離は、赤、緑、青（ＲＧＢ）の色空間のユークリッ
ド距離として使って計算される。

【００２５】ｄ＝SQRT ((P_r− AdAvg_r)²＋(P_g− AdA
vg_g)²＋(P_b− AdAvg_b)² ) ここで、 P_k， AdAvg_kはそれぞれ、テスト下のピクセ
ルのＲＧＢ成分と平均背景値であり、ｄは距離である。
εの値は、一定であり、一つの実施の形態では実験的に
決められる。ステップ１１２では以下のテストが実行さ
れる。即ち、もし、ｄ＜εならば、ピクセルＰは背景ピ
クセルで、そうでないならばピクセルＰは前景ピクセル
である。

【００２６】ステップ１１４では、平均背景色は、背景
としてカテゴリーされた最後（最新）のＮ個のピクセル
の平均値をとることによって適応的に修正される。好適
には、本システムは次式を使い適応的平均値を計算する
ことで処理効率を上げる。

【００２７】AdAvg'=(N^*AdAvg - AdAvg + LastVal )/N ここで、 AdAvg’は修正平均、AdAvg は前の適応平均、
LastVal は背景として識別された最新のピクセル値、Ｎ
は平均化処理ウインドーである。明らかに、これは真の
移動（実行）平均（running average)ではないが、その
移動平均を適切に追従するものであるため、厳密な移動
平均演算より計算効率がよい。他の方法では、εの値を
適応的に変えることができる。例えば、εは、背景等と
して識別された最新の複数のピクセルの標準偏差に基づ
いて決められる。

【００２８】ステップ１２０では、全背景ピクセルを識
別して背景領域を示す２値マスクを作り、形態素フィル
タリング（morphological filtering)を行うことで背景
マスク中のノイズ性エッジを滑らかにする。具体的に
は、好適には形態素閉包フィルタは背景マスクに適用さ
れ、単一のピクセルノイズを除去し、オブジェクトのエ
ッジを滑らかにする。続いて、ステップ１２２では、連
続した前景領域を探索してオブジェクトを識別する。オ
ブジェクトは、適応シードフィル処理によって生成され
た背景マスクをスキャンすることによって識別される
（ステップ１０６）。左上のピクセルから始まり、その
マスク中で背景ピクセルとして分類されなかったピクセ
ルをスキャンライン形式で探索することで、前景オブジ
ェクトに関連するピクセルを識別する。そのシード・フ
ィル・アルゴリズムを背景を識別するために使うと、前
景オブジェクトは確実に閉包したものになる。

【００２９】ステップ１２４では、オブジェクト境界は
そのエッジをトレースすることによって識別される。前
景オブジェクト境界は、オブジェクトのエッジをトレー
スする点の順序付けセットを提供する単純な８連結エッ
ジ走査を用いてトレースされる。そのようなエッジ処理
（操作）では輪郭トレース走査処理を用いて、語かまた
は文字ベースの認識システムに似た方法でチェインコー
ドを生成する。８連結処理は、例えば、Ｒ．ボズノビッ
ク他（R.Bozinovic et al.）による“オフライン草書体
手書き単語認識”、ＩＥＥＥ・トランザクション・オン
・パターン・アナリシス＆マシン・インテリジェンス、
１１巻、Ｎｏ．１（１９８９年１月）に記載されてい
る。エッジがトレースされると、マスク中のオブジェク
トに関連する全ピクセルは背景としてマークが付けら
れ、次の時点では処理されない。そして、前景オブジェ
クトリストにそのオブジェクトが加えられ、次に、ステ
ップ１２６で示すように、ステップ１２２でのスキャニ
ング処理を続ける。全オブジェクトを識別する前景スキ
ャニングが完了した後、ステップ１３０では、識別され
たオブジェクトを見直す。多くの場合、スキャン画像は
不要な前景オブジェクトを含み、そのようなオブジェク
トは、このステップでオブジェクトリストから削除され
る。一つの実施の形態では、オブジェクトリストの見直
しにより、画像らしくない小さなオブジェクトを削除す
る。例えば、各画像が関連する年鑑の頁のスキャンで
は、テキストキャプションを画像データとして分類しな
い。そのようなキャプションは多くの小さな周囲オブジ
ェクトから成るため、トレースされたエッジの周囲長を
測定することによって、ある長さ以下の周囲をもつオブ
ジェクトを削除できる。その閾長は実験的に決められ
る。

【００３０】ステップ１００に関連して述べられている
ように、オブジェクトが探索されると、次のステップで
あるステップ２００では、オブジェクトの形状をモデル
化する。説明を簡単にする目的で、以下の記述では矩形
オブジェクトを扱うが、他のポリゴン（多角形）や、曲
線（例えば、円や楕円オブジェクト）で表現される部分
をもつ形状にまで拡張できることが理解できる。その結
果、即ち、ステップ１００からの出力や結果は、好適に
はリンク（連結）リスト中の１組のエッジ・トレースで
あり、これによってスキャン画像中の各オブジェクトの
境界ピクセルが識別される。これらのトレースは、各オ
ブジェクトを抽出するために使われるが、その方向はま
だ決定されていない。オブジェクト抽出の品質を改善す
るために、オブジェクト・トレースはモデル形状にフィ
ッティングされる（あてはめられる）。次に、方向情報
等がそのフィッティング（あてはめられた）パラメータ
から抽出される。本発明の実施の形態では、オブジェク
ト・トレースは矩形モデルにフィッティングされるが、
他の形状でも可能である。

【００３１】エッジ・トレースを矩形にフィッティング
する１つの方法は最小２乗法であり、これにより矩形に
フィッティングする。最小２乗法によるフィッティング
を行うために、エッジ・トレースはまず４組の点に分解
される。各組は矩形オブジェクトの４辺のうちの１辺に
対応する。この４組の点に分解する処理は、以下で説明
される幾つかの方法でなされる。

【００３２】第１の方法は、２つの基本的部分、即ち、
（ａ）エッジ点を、単一の線に関する１組のビン（bi
ｎ）に分類（カテゴリー化）し、（ｂ）それらのビンで
回転された形状の認識処理を行う。図５は、第１の分解
方法を詳細に示す。ステップ２０４では、エッジ・トレ
ースに沿った各点での傾斜を計算する。ステップ２０４
では、好適には、近傍のエッジ点の小ウインドーで線形
回帰分析を行うことによって傾斜角の計算を行う。例え
ば、エッジ点の両側にある２点で傾斜が決定される。各
点の中心を通る線の角度は、各点を中心とする小ウイン
ドー内で線形回帰分析を行うことで決定される。各回帰
分析では、ウインドー内の１点について４つの加算、２
つの減算、２つの乗算、１つのアークタンジェント演算
が必要であるが、回帰分析アルゴリズムが最適化される
とほとんどの加算演算が不要となる。計算の複雑性を減
らす好適な実施の形態では、エッジピクセルのサンプル
が傾斜角計算とソーティングのために使われるため、エ
ッジピクセルを分類（カテゴリー化）するために必要な
計算量が減る。

【００３３】次に、ステップ２０６では、傾斜カテゴリ
ー、即ち、ビンのリストを構築する。エッジに沿った現
在の点（例えば、図８の点Ｂ）とその前の点（例えば、
図８の点Ａ）間の傾斜角の差の大きさを計算することに
よって、各エッジ点に対する傾斜が分類される。もし、
その差がTOLERANCE 値（一つの実施の形態では実験的に
±５度に決められている）より小さいならば、その点が
前の点と同じ傾斜カテゴリーに割り当てられるが、そう
でない場合には新しい傾斜カテゴリーが作られてそこに
その点が割り当てられる。図８を参照して、上述の処理
によって点Ａ，Ｂ，Ｃが第１の傾斜カテゴリーに割り当
てられ、点Ｄ，Ｅ，Ｆ，Ｇ，Ｈが第２の傾斜カテゴリー
に割当てられ、点Ｉ，Ｊがその他の傾斜カテゴリーに割
り当てられる。最後に、もし最後のエッジ点の傾斜カテ
ゴリーの傾斜角が第１の傾斜カテゴリーとだいたい同じ
傾斜角をもつなら、第１と最後の傾斜カテゴリー内の全
ての点が共に１つのカテゴリーに入る。

【００３４】ステップ２０６で傾斜カテゴリーが確立さ
れて、データ構造中に格納されると、ステップ２０８で
は、それらの傾斜カテゴリーがソートされ、また、各カ
テゴリーに割り当てられたエッジ点の数に基づいて順序
付けされる。矩形オブジェクトでは、ほとんどのエッジ
点が含まれる最上位の４つの傾斜カテゴリーは、その矩
形の４つのエッジに沿った点に対応するはずである。ス
テップ２１０では、その最上位の複数の傾斜カテゴリー
が選択される。６角形のオブジェクトでは最上位の６つ
のカテゴリーが使われ、同様に、三角形のオブジェクト
では最上位の３つのカテゴリーが使われる等々が理解さ
れるだろう。

【００３５】別の方法では、ステップ２０８と２１０
は、傾斜角カテゴリー、即ち、そのビンを単純に削除し
たり統計的に削除することにより処理するステップに置
き換えることが可能である。ここで、エントリのほとん
どないカテゴリーは削除される。例えば、実験的（経験
的）に決められた５ピクセルの閾値が使われると、共通
の角度で５個を越えるピクセルを有するビンが残され
る。続いて、カテゴリーの平均角度が、特定のカテゴリ
ーに割り当てられた全ての点の単純線形回帰分析によっ
て決定される。決定された平均角度でさらにカテゴリー
を改良することによって、実質的に共通の角度をもつ複
数のカテゴリーを結合できる。特に、各カテゴリーがチ
ェックされて、もし近傍のカテゴリーが実質的に共線的
であれば、それらのカテゴリーは結合される。従って、
残りの各ビン、即ち、残りの各カテゴリーはエッジに沿
った共線点の組を表わす。残りの各傾斜角カテゴリーに
割り当てられたエッジ点は、矩形の４辺に分解されたエ
ッジ・トレースを表わす。ここで、このどちらか一方を
“フィルタリング”処理、即ち、カテゴリーの整理（詳
細化）を行なって、オブジェクトの実エッジを表わすカ
テゴリーを識別することが理解できる。従って、カテゴ
リーを整理（詳細化）する同様な方法が検討される。

【００３６】オブジェクト境界を特徴づける第１の方法
は、各エッジ点での平均傾斜の測定に起因して計算的に
集約的である。前述の別の実施の形態では、処理速度を
改善するためにエッジ・トレースをサンプリングするこ
とで、処理され分類される点の全体数を削減することが
できる。

【００３７】さらに、順序付けされたカテゴリーを分析
することで形状を識別できることが理解できる。例え
ば、第３と第４のカテゴリー間で点の数に統計的に大き
な差がある場合や第４のカテゴリーがない場合は、三角
形オブジェクトであることを示す。

【００３８】図６には、オブジェクト形状をモデル化す
る第２の方法を示す。ステップ２０２でエッジトレース
リストデータを検索後、ステップ２５２では、オブジェ
クトのマス（質量）の中心を計算する。オブジェクトの
マスの中心を計算するための多くの既知の方法がある
が、矩形オブジェクトの場合、エッジ点の（ｘ、ｙ）座
標の平均をとる方法が簡単な方法である。次に、ステッ
プ２５４では、マスの中心に最も近いエッジ点が探索さ
れる。その最も近い点は矩形の長辺の近似中心である。
再び図８を参照して、マスの中心（ＣｏｆＭ）から中心
点（Ｌ_a／２）までの角θは、矩形の近似回転角（θ）
である。

【００３９】ステップ２５６で回転角を決定すると、ス
テップ２５８ではそれを使って矩形の短軸（短辺）の近
似の長さを決定する。特に、そのマスの中心から、角範
囲θ- ΔＡからθ+ ΔＡにある全エッジ点の平均位置ま
での距離が決定される。この距離は、矩形の短軸の長Ｌ
_bの半分の近似測定（寸法）である。ΔＡは、経験的に
決められた約５度のオーダの値である。ステップ２６０
では、ほぼ同じ方法で長軸（長辺）（Ｌ_a）を概算す
る。そのマスの中心から平均位置（θ+90 ）+ ΔＡまで
の距離は、矩形の長軸の長Ｌ_aの半分の近似寸法であ
る。長軸と短軸の方位角と長さが概算されると、ステッ
プ２６４では、辺に関するこれらのエッジ点のみを含む
矩形の各辺に対する角範囲（マスの中心について計算さ
れた）を計算する。即ち、ａ） θ’_b＝ａｔａｎ2 （Ｌ_a，Ｌ_b）長軸の半分の角幅 θ’_a＝９０−θ_b 短軸の半分の角幅 θ_b＝θ’_b ^*ＴＯＬここで、かどをさけるためにＴＯＬ＝０. ９５ θ_a＝θ’_a ^*ＴＯＬここで、かどをさけるためにＴＯＬ＝０. ９５ｂ）範囲1 ： ( θ+ θ_b) から( θ- θ_b）範囲2 ： ((θ+90) +θ_a）から((θ+90) -θ_a）範囲3 ： ((θ+180)+θ_b）から((θ+180)-θ_b）範囲4 ： ((θ+270)+θ_a) から((θ+270)-θ_a）角範囲が決定されると、ステップ２６６では、上述の４
つの角範囲（マスの中心に関して）の各々にあるエッジ
点の全てを検出する。これによって、矩形の各辺に対応
するエッジ点を識別する。この技術が、上述の第１の方
法よりも、エッジノイズに敏感ではないことは理解でき
る。

【００４０】エッジ・トレースが４つの点の組に分解さ
れると（各組は矩形の４辺の１辺に対応する）、ステッ
プ２８０では、矩形にそれらの点をフィッティングする
ための最小２乗演算がなされる。矩形は以下の方程式で
定義される相互に垂直な４辺で記述される。即ち、ｙ＝α₀+ βｘｙ＝α₁+ Ｙｘｙ＝α₂+ βｘｙ＝α₃+ Ｙｘここで、β_Y＝-1である。最小２乗法によるフィッティ
ングにより、以下のあてはめパラメータが得られる。即
ち、

【００４１】

【数１】

【００４２】ここで、( ｘ_ki, ｙ_ki) は、第ｋ辺の第ｉ
番目のエッジ点であり、ｎ_kは第ｋ辺に関するエッジ点
の数である。最小２乗法によるフィッティングによって
あてはめパラメータ（β、α₀、α₁、α₂、α₃）が
得られると、それらはステップ２８２で矩形のかど
（角）をマークする４つの座標ペアに変換される。さら
に、矩形オブジェクトの回転角は傾斜パラメータβによ
って正確に表現される。

【００４３】エッジ・トレースをある形状にフィッティ
ングする他の方法として、高速の画像境界付（fast ima
ge bounding ）に対して２値モーメントを使う方法があ
る。ステップ１０６に関して説明されたように、生成さ
れた２値マスクを使ったり（例えば、適応シード・アル
ゴリズム）、単純な閾値処理を行うことで背景領域か非
背景領域かを示すために各ピクセル値が０か１である２
進のビットマップ形式で画像が描画される。２値マスク
を使って１つのオブジェクトに対する境界が検出される
と、図７に描かれた別の実施の形態では、２次の２値モ
ーメントを使い、１つの形状（例えば、矩形）をオブジ
ェクトにフィッティングする。

【００４４】図７には、２値モーメント境界検出技術の
処理工程を示す概略フローチャートが描かれている。ス
テップ１００では、オブジェクトのエッジが前述された
ように検出され、記録される。これによって、ステップ
２９０では、境界のリンク（連結）リスト、即ち、エッ
ジ・トレースと呼ばれるエッジピクセルを入力として提
供する。境界リストを使って、２次モーメントが以下の
方程式に基づき効率的に計算される。即ち、

【００４５】

【数２】

【００４６】ここで、ｐ（ｉ，ｊ）は、画像座標（ｉ，
ｊ）での画像ピクセル値であり、ｐi(i)は第ｉ番目のス
キャンラインの第ｉ次モーメントである。オブジェクト
境界ピクセルが前に決定されているので処理は簡単にな
り、また、特定のスキャンラインに対する最右境界ピク
セルと最左境界ピクセルが、１次（絶対）のモーメント
演算のために使われる。

【００４７】続いて、２次（中心）のモーメント
（ｍ₀₀、ｍ₀₁、ｍ₁₀、ｍ₁₁、ｍ₂₀及びｍ₀₂）が１次のモ
ーメントと以下の方程式を用いて計算される。即ち、

【００４８】

【数３】

【００４９】２次のモーメントが決定したので、ステッ
プ２９４では、それらを用いて楕円を特徴づけ、その楕
円からオブジェクト回りの境界ボックスを求める。特
に、楕円の中心（ｘ、ｙ）、各軸の長さ（ａとｂ）、回
転角（Θ）が決定される。矩形オブジェクトの境界ボッ
クスは、角Θ分回転した、２ａと２ｂの長さの辺をもつ
（ｘ、ｙ）を中心とする矩形として決定される。この境
界ボックスは、安全な演算マージンをとるため及びオブ
ジェクトの一部のクロッピングを回避するために、オブ
ジェクトよりわずかに大きく取られる。もし、より狭い
（よりタイトな）境界ボックスが必要であれば、矩形は
２αa と２αb の長さの辺で特徴づけられる。ここで、
αは√３／２に設定されるか、それよりわずかに小さい
値に設定され、それによりエッジをトリミングやクロッ
ピングする（例えば、１つかそれ以上のピクセルのオー
ダで）。

【００５０】各オブジェクトがある形状（例えば、矩
形）にモデル化された後で、例えば、ベナブル他(Venab
le et al.)のUS-A-5,485,568で開示されているような構
造化画像が生成される。その構造化画像は、上述の方法
の１つを用いて検出された各オブジェクトに対して１つ
の“子”構造化画像をもつ。その構造化画像の定義は、
スキャン画像のどの矩形がオブジェクトデータを含むか
を示す属性と、どんな方位スキューでも補正を行なうた
めに必要な回転角を含む。図９は、前述したプロセスに
よって生成された構造化画像の一例を示す。ここで、そ
の構造化画像は一対の矩形画像オブジェクトを含む。

【００５１】図１０に描かれた本発明の一つの実施の形
態では、描画されると、全てのオブジェクトは回転が解
除されて（de-rotated）、格子状にレイアウトされるよ
うに構造化画像が設計される。特に、図１０では、ユー
ザインターフェイス４００が描かれている。このユーザ
インターフェイスは前述のオブジェクト形状の認識方法
の様々な態様を使って、知的、即ち、“スマート（smar
t)”プラテンあるいはスキャニングシステムを提供す
る。図１０に描かれたスマートスキャニングシステムで
は、好適には、ユーザがデジタイジング（デジタル化）
スキャナとインターフェイスしてスキャナのプラテン２
４上のオブジェクトのデジタイズ表現を効率的に獲得で
きる手段が提供される。

【００５２】例えば、図１と図１０を参照して、ユーザ
は多数の写真をスキャナのプラテンに配置できる。これ
らが配置されると、次に、ユーザは図１０の領域４１０
から処理を選択して、コンピュータシステム２２にスキ
ャナ２６によるスキャン処理を開始させる。図１０に示
されているように、“一括編集（Gang & Edit)”４１２
が選択されると、システム２０はプラテン２４上に置か
れたオブジェクトをスキャンし、ユーザインターフェイ
ス画面の領域４２０に反映されたファイルの詳細を使っ
てそのファイルにデータを一時的に格納する。例えば、
様々な画像オブジェクト（Ａ，Ｂ，Ｃ，Ｄ）が、図１０
に描かれているような画像中で検出される。その画像が
スキャンされると、それは上述したように分析されて、
画像オブジェクトが識別される。次に、画像オブジェク
トは、自動的に画像を方向付け、位置するために、スマ
ートスキャニングシステムによって操作される。例え
ば、ユーザインターフェイスの領域４３０中に描かれた
表現等のように画像オブジェクトは所定のテンプレート
に自動的に配置されて描画される。テンプレートに関す
る別の編集能力、例えば、オブジェクトにキャプション
を追加する能力、即ち、図示されているようにタイトル
４３２とサブタイトル４３４を含ませる能力がユーザに
提供されることは高く評価される。領域４４０中のユー
ザインターフェイスオプションを介して、テキストベー
スでの編集のための入力がなされる。

【００５３】また、スマートスキャニングシステムは、
ユーザインターフェイスの領域４５０中に描かれている
画像編集能力を備える。画像中の各オブジェクトが識別
されると、複数のオブジェクトを分離し、それを用いて
複数の別々の画像を生成し、その画像を個々に処理する
ことができる。従って、領域４３０のテンプレート中に
配置された個々の画像オブジェクトは、個別に選ばれる
か、操作されるか、スケーリング（ボタン４５２で）さ
れるか、回転（ボタン４５４で）されるか、クロッピン
グされる（ボタン４５６で）。前述のオブジェクト識別
方法の結果として本システムが自動的に行なう処理に対
して、スケーリング（拡大縮小）、回転、クロッピング
の各処理をさらに加えたことは高く評価される。

【００５４】例えば、画像オブジェクトをスケーリング
するために選択を示す線影で描かれた画像スキャンボタ
ンによって、ユーザはカーソルを移動させて１つのオブ
ジェクト（例えば、画像オブジェクトＤ）を選択し、そ
のオブジェクトの辺、または、そのかどをドラッグする
ことができる。オブジェクトの編集を容易にするため
に、例えば、画像オブジェクトＤの境界に描かれている
制御点（４３６）がユーザインターフェイスの設計者に
は公知の方法で使用されることができる。

【００５５】所定のテンプレートを使って、画像オブジ
ェクトを、文書やそのページの相対的位置に自動的に配
置できることは注目に値する。このようなテンプレート
は構造化画像定義形式であってもよく、そのテンプレー
トを使って、生成される構造化画像に対して異なるレイ
アウトを施すことができる。従って、“デジタル写真ア
ルバム”に写真を配置したい家族は、ユーザインターフ
ェイスの領域４３０に示されたページに似たページを記
述するテンプレートを作ることができる。そして、その
テンプレートを使って、より大きい文書画像中に個々の
画像、即ち、複数のオブジェクトを自動的に構成するこ
とができる。

【００５６】好適な実施の形態では、出力は、ベナブル
他(Venable et al.)のUS-A-5,485,568で開示されている
構造化画像出力フォーマットである。構造化画像の１つ
の重要な特徴は、画像処理の複数の操作をそれらの記述
内に記録することができることである。これは、構造化
画像が単純なオブジェクトのスキュー除去属性以外に複
数の画像処理操作を含むことができることを意味する。
例えば、識別される個々のオブジェクトを改善（強調）
するために、複数の自動画像改善（強調）操作を構造化
画像中に含ませることができる。

【００５７】ユーザが望む条件で、ウインドー４３０中
に“ページ”が構成されると、ユーザは“編集画像のセ
ーブ（Save Edited Image ）”ボタン４６０を選択する
ことによって、その画像をセーブさせることができる。
そしてもっと重要な点は、ユーザが、組み立てられた
（合成）ページ（単数又は複数）を印刷するか、または
伝送することができることである。

【００５８】本発明に係るさまざまな実施の形態が、こ
のスマートスキャニングシステムに関連して説明された
が、画像の獲得と構成されたページの印刷または伝送を
ネットワークを介してか、または、ウォークアップ型
（walk-up)デジタルコピー機で達成することができる。
例えば、ユーザは写真をフィルムプロセッサによって自
動的にスキャンさせ、ネットワーク経由でユーザにデジ
タイズされたスタンプシート（stamp sheet)が送られ
る。構造化画像フォーマットであるスタンプシートは、
スマートスキャニングシステムを使って処理され、１つ
かそれ以上のオブジェクトを各ページにもつデジタル写
真アルバムの複数のページを作ることができる。

【００５９】要約すると、本発明は、デジタル入力画像
を処理して複数のオブジェクトを特徴づける方法とその
装置である。本技術は、背景ピクセルと前背景ピクセル
を特徴づけることによって入力画像中の少なくとも１つ
のオブジェクトを識別し、２つの一般的方法のうちの１
つを使ってオブジェクト境界を表現する形状をモデル化
し、オブジェクトを特徴づける記述を生成する技術を含
む。その記述は、オブジェクトの形状と位置だけでなく
オブジェクトの回転やスキュー情報も含む。

【図面の簡単な説明】

【図１】本発明の一つの実施の形態の画像処理システム
を構成する装置の図である。

【図２】図１のシステムを備えるさまざまな構成要素の
ブロック図である。

【図３】本発明に係る図１と図２のシステムを実行させ
る概略処理工程を示すフローチャートである。

【図４】本発明に係るさまざまな実施の形態によって実
行される処理工程を示す詳細なフローチャートである。

【図５】本発明に係るさまざまな実施の形態によって実
行される処理工程を示す詳細なフローチャートである。

【図６】本発明に係るさまざまな実施の形態によって実
行される処理工程を示す詳細なフローチャートである。

【図７】本発明に係るさまざまな実施の形態によって実
行される処理工程を示す詳細なフローチャートである。

【図８】デジタル文書の一部を一例を示す図である。

【図９】入力画像が本発明によって処理されるときの図
１のシステムの出力を示す図である。

【図１０】本発明の一つの実施の形態に関連するユーザ
インターフェイス画面の一例を示す図である。

【符号の説明】

２０システム２２コンピュータ２６スキャナー３４プリンタ

───────────────────────────────────────────────────── フロントページの続き (72)発明者リカードエル．デクエイロツアメリカ合衆国 14450 ニューヨーク州フェアポートシェニンラン 32 (72)発明者ラマナエル．ラオアメリカ合衆国 87544 ニューメキシコ州ロスアラモストゥエンティサードストリート 2003ディー

Claims

【特許請求の範囲】

【請求項１】デジタル入力画像を処理してその中の複
数のオブジェクトを特徴づける方法であって、前記入力画像中で少なくとも２つのオブジェクトを識別
する工程と、前記オブジェクトの各々の境界を表現する形状をモデル
化する工程と、前記オブジェクトを特徴づける記述を生成する工程とを
備える画像処理方法。
【請求項２】前記少なくとも２つのオブジェクトを識
別する工程は、少なくとも２つのオブジェクトを囲む背景領域を識別す
る工程と、形態素フィルタリング処理を使って画像中のノイズ性エ
ッジを平滑化する工程と、連続した前景領域を探索する工程とを備える請求項１に
記載の画像処理方法。
【請求項３】前記背景領域を識別する工程は、２値マスクを生成する工程であって、前記マスク中の各
位置は前記入力画像のピクセルを表わす工程と、背景色を決定する工程と、適応シードフィル処理を使って、もし前記色が前記背景
色に実質的に等しければ前記マスク中の各２進位置を第
１の状態に設定し、そうでないならば、それを第２の状
態に設定する工程と、必要ならば前記背景色を調整する工程と、少なくとも全オブジェクトのエッジが識別されるまで前
記工程を繰り返す工程とを備える請求項２に記載の画像
処理方法。