JPH10222688A - 画像処理方法 - Google Patents

画像処理方法

Info

Publication number
JPH10222688A
JPH10222688A JP10023781A JP2378198A JPH10222688A JP H10222688 A JPH10222688 A JP H10222688A JP 10023781 A JP10023781 A JP 10023781A JP 2378198 A JP2378198 A JP 2378198A JP H10222688 A JPH10222688 A JP H10222688A
Authority
JP
Japan
Prior art keywords
image
objects
picture
edge
pixels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10023781A
Other languages
English (en)
Inventor
Dennis L Venable
エル.ベナブル デニス
L De Queylotz Richard
エル.デ クエイロツ リカード
Ramana L Rao
エル.ラオ ラマナ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH10222688A publication Critical patent/JPH10222688A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 画像中のオブジェクトを特徴づける画像処理
方法を提供する。 【解決手段】 本発明に係る画像処理方法によれば、ス
キャナーのプラテン上に並べられた複数の異なる写真を
スキャンすることによって生成された入力画像中の各写
真の位置、形状、方向角を自動的に認識する。入力画像
の処理中にコンピュータ22によって実行されるプロセ
スは、3つの一般的工程を備える。まず、ステップ10
0では、画像中のオブジェクトが探索して、そのオブジ
ェクト境界を識別する。ステップ200では、オブジェ
クト形状をモデル化する。ステップ300では、その画
像とオブジェクトを表現する構造化画像を生成する。そ
の構造化画像は好適には画像データ自体を表現するデー
タだけでなく、各オブジェクトの位置、形状、方向やそ
れらの組み合わせを表現するデータを含む。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、一般的な画像処理
技術に関し、特に、画像入力装置のプラテン上に置かれ
た複数のイメージ体を自動的に分割(セグメント化)し
て特徴を抽出する技術に関する。
【0002】
【従来の技術】一回のスキャンで取り込まれた画像が、
好ましくはスキャナーのプラテン上に接触しないで並べ
て置かれた複数の異なる写真からなる場合、各写真の位
置、形、回転角を自動的に確認することが望まれる。そ
の性能によって生産性を上げることができる。多数の画
像をスキャンする時間を短くし、並びの補正を自動化す
ることによって生産性を向上させることができる。
【0003】
【発明が解決しようとする課題】本発明は、スキャンさ
れた画像中の個々の領域、即ち、セグメントを自動的に
決定するために開発されたソフトウエアに基づくシステ
ムに関する。本発明は、多くのグラフィクス技術と画像
処理技術を組み合わせて生産性を向上させる自動化され
たユーザフレンドリーなアプリケーションを提供する。
そのアプリケーションは、多くの画像をスキャンする時
間を削減し、また、多くの画像の並びを自動的に補正
し、さらに、文書のテンプレート中に多数の画像を自動
的に配置することによって生産性を向上させることがで
きる。
【0004】本発明は、これらの目的を、 1)複数の独立したオブジェクトを画像中で探索し、 2)認識されたオブジェクト(例えば、矩形)の形状を
モデル化し、 3)画像中の各オブジェクトの位置、形状、方向を認識
する構造化画像記述を生成することによって達成する。
【0005】画像の分割や構造化画像については、これ
まで多くの発明と文献で開示されている。それらに関す
る一部分について以下に要約する。
【0006】1996年1月16日に発行されたベナブ
ル(Venable )他のUS- A-5,485,568(この文献は、
本明細書に組み込まれる)では、複雑なカラーのラスタ
ー画像を構造化画像フォーマット、即ち、階層的な装置
独立なフォーマットのオブジェクトの集合として表現す
る方法と装置を開示している。
【0007】“プリプレス・アプリケーションでの画像
ワークフローの管理と表現(MANAGING AND REPRESENTIN
G IMAGE WORKFLOW IN PREPRESS APPLICATIONS )”
((グラフィックアート技術協会(Technical Associat
ion of the Graphic Arts (TAGA))、第1巻、1
995年、予稿集pp.373-385、ベナブル他)では、構造
化画像を使ってプリプレス・ワークフローを管理するこ
とを教唆している。ギャングスキャニング等の処理は、
スキャナー・プラテン上に大雑把に配列された複数の写
真を入力する手段として記述されている。
【0008】
【課題を解決するための手段】本発明は、入力デジタル
画像を処理して複数のオブジェクトの特徴を抽出する方
法を提供するもので、入力画像中で少なくとも2つのオ
ブジェクトを認識し、各オブジェクトの境界を表現する
形状をモデル化し、オブジェクトを特徴づける記述を生
成する処理を備え、その記述はさらに画像の他の属性を
特徴づける。
【0009】本発明の他の態様は、デジタイズされた入
力画像を入力するプログラミング可能なコンピュータを
含む画像処理装置を提供することであり、そのコンピュ
ータは、入力画像を格納するフレームバッファメモリ
と、コンピュータが画像処理を実行するのに適したプロ
グラムコードを格納するプログラムメモリとを備える。
その画像処理は、デジタイズされた入力画像中で複数の
オブジェクトを識別し、オブジェクトの境界を表現する
形状をモデル化し、オブジェクトを特徴づける記述を生
成する処理を備える。
【0010】本発明の1つの態様は、デジタル画像処理
での基本的な問題、即ち、デジタル画像処理で複数のオ
ブジェクトを識別する問題を扱うことである。さらに、
この態様は、この問題を緩和する画像処理技術の発見に
基づく。ここで記述されている技術によって、ユーザは
複数の文書を都合よく1回のスキャニング処理でスキャ
ンでき、それらの文書をデジタイズされた画像中で独立
なオブジェクトとして認識することによって、自動的に
分離することができる。本発明の他の態様は、デジタイ
ズされた画像の構造化画像表現を自動的に生成すること
によって、画像オブジェクトを独立に簡単に抽出して処
理できることである。
【0011】上述の技術は、スキャニング処理効率を向
上させるには都合のよいものであり、多数の文書を1回
でスキャンできる。さらに、その技術によって、ユーザ
の介入なしにオブジェクトの物理的属性(例えば、位
置、形状、方向)を自動的に特徴づけることができる。
【0012】
【発明の実施の形態】本発明の概要の理解のために図を
用いる。図全体渡って、同じ参照番号が同じ構成要素を
示すために使われる。本発明を説明するために以下の用
語を用いる。
【0013】複数のピクセル間に他のピクセルがない場
合、その複数のピクセルは画像中で“近傍”または“隣
接する”ものであり、その複数のピクセルは近傍の評価
基準に適合する。もし、その複数のピクセルが矩形であ
って2次元画像中の行と列にあると、その評価基準に従
って、各ピクセルは4つの近傍ピクセルまたは8つの近
傍ピクセルを備える。
【0014】2つの近傍ピクセルの間にエッジが発生す
るかどうかを判定する適切な評価基準に照らして、それ
らの2つの近傍ピクセルが十分違うピクセル値をもつと
判定された場合、“エッジ”が画像中で発生する。“エ
ッジピクセル”や“境界ピクセル”という用語は、2つ
の近傍ピクセルのうちの1つかまたはその両方に適用さ
れ、その間にエッジが発生する。
【0015】“画像特徴”または“特徴”は、画像で測
定可能な属性である。画像を定義するデータを使って特
徴を示すデータを作ることによって、特徴を“測定”す
ることができる。もし、特徴が発生する各時点でだいた
い同じ結果が得られるような方法でその特徴を測定する
と、“画像”に対する特徴が測定されたことになる。
【0016】第1の画像の“型(バージョン)”は、第
1の画像を定義するデータ項目を用いて作られる第2の
画像である。その第2の画像は第1の画像に等しいか、
または、第1の画像を定義するデータを変えたり、第1
の画像のピクセル値を変えるその他の処理から引き起こ
される解像度の損失によって変調される。
【0017】“画像入力装置”は、画像を入力し、画像
の型を定義するデータ項目を作る装置である。“スキャ
ナー”は、文書をスキャンする等のスキャニング処理に
よって画像を入力する装置である。
【0018】“画像出力装置”は、画像を定義するデー
タ項目を受け取り、その画像を出力として提供したり描
画する装置である。“ディスプレイ”は、人間が視覚で
きる形態の出力画像を提供する画像出力装置である。そ
して、“プリンタ”は、人間が視覚できるハードコピー
の形態の画像を出力する画像出力装置である。
【0019】図1と図2は、本発明が特定の用途として
使われているシステム20を示す。システム20は、ス
キャナー26のプラテン上に配置された文書(原稿)2
4の画像を表現するデジタルデータを入力するコンピュ
ータ22を備える。コンピュータ22は、まずスキャナ
ー26からのデジタル入力データを、画像を連続的にア
クセスできるメモリ52(例えば、RAMや磁気ディス
ク記憶装置)に格納する。また、デジタルデータに加え
て、メモリ52は、本発明に係る画像処理工程をプロセ
ッサに実行させる指示を出すオブジェクトコードを格納
するプログラムメモリを含む。コンピュータ22は、キ
ーボード、キーパッド、マウス、トラックボール、スタ
イラスまたはそれと等価なポインティングデバイス等の
1つかそれ以上のユーザ入力装置30を含むユーザイン
ターフェイス(U/I)28と連携する。
【0020】また、システム20の一部は、商業ベース
で入手可能な多数のプリンタで使われるレーザ駆動のゼ
ログラフィック印刷エンジンを含むプリンタ34等の画
像出力装置である。好適な実施の形態によれば、システ
ム20はスキャナー26から入力されたデジタル画像デ
ータを処理し、また、プリンタ34によって描画され、
メモリ52に格納され、及び/又はネットワーク40を
介して他の装置に伝送される出力ファイルを生成するた
めにプロセッサ50で実行される画像処理ソフトウエア
を用いる。スキャナーのプラテン上に置かれた文書は複
数の写真とサブストレート(基体)表面上でマークによ
って表現される他のオブジェクトを含むことができ、ま
た、そのオブジェクトを単一のスキャニング処理(操
作)でスキャン可能であることが理解される。例えば、
特定の実施の形態は、スキャナー26のプラテンに接触
したりオーバラップしないように並べられた複数の写真
を表現する単一スキャン画像である。本発明によれば、
各元の写真の位置、形状、回転角を自動的に認識するこ
とが望まれる。
【0021】スキャナーのプラテン上に並べられた複数
の異なる写真をスキャンすることによって生成された入
力画像が得られると、本発明は少なくとも各写真の位
置、形状、方向角を自動的に認識する。図3のフローチ
ャートで示されるように、入力画像の処理中にコンピュ
ータ22によって実行されるプロセスは、3つの一般的
ステップを備える。まず、ステップ100では、画像中
のオブジェクトが探索されて、通常、そのオブジェクト
境界が識別される。オブジェクトが探索されると、ステ
ップ200では、オブジェクト形状をモデル化する。オ
ブジェクトが探索されてその形状がモデル化されると、
ステップ300では、その画像とオブジェクトを表現す
る構造化画像を生成する。その構造化画像は好適には画
像データ自体を表現するデータだけでなく、各オブジェ
クトの位置、形状、方向やそれらの組み合わせを表現す
るデータを含む。別の方法では、その出力は、画像情報
を検索可能な形態で格納するためのページ記述言語フォ
ーマットまたはそれと同等のフォーマットである。
【0022】本発明の好適な実施の形態では、スキャン
された入力画像(または、それより低解像度の画像)が
メモリフレームバッファ(RAM)にロードされ、前述
のステップに従って分析される。ここでは、説明の便宜
上、複数のオブジェクトは互いに隠し合うことがなく、
その画像の背景は連続していると仮定する。この簡単化
された仮定は説明の便宜上のためであって、本発明の範
囲を制限するものではない。当業者であれば、本発明を
その仮定で必要となる範囲以上に拡張することができ
る。
【0023】図4のフローチャートで示されるように、
オブジェクト位置検出ステップ100では、入力画像1
02の背景領域をまず識別し、背景領域104を特徴づ
け、その背景領域の特徴をシードとして使用し、適応シ
ード・フィル・アルゴリズム106によってその背景領
域を表現するピクセル全部を確認する。背景ピクセル
は、どのオブジェクトとも関連しないピクセルである。
より簡単に言えば、オブジェクトの外側の領域を表現す
るピクセルであり、そのピクセル値は“背景”によって
制御され、その背景に対してオブジェクトがスキャン中
に探索される(例えば、プラテンカバーの下面に)。一
つの実施の形態では、スキャン画像の左手上隅の小領域
の色平均を背景色の初期推定値として使用する。別の方
法では、ファレル(Farrell )のUS-A-5,282,091“文書
の背景レベルを決定するプログラマブル装置”等で開示
されているような他のサンプリング処理が行われる。
【0024】ステップ104で背景色が特徴づけられる
と、好適には適応アルゴリズムが適用され、背景色を制
御し、オブジェクトを正確に識別する。本発明に適した
シード・フィル・アルゴリズム(種充填アルゴリズム)
の一例は、グラフィクスジェム I(Graphics Gems I
), A.グラスナー Ed., アカデミックプレス, pp. 275
-277, 1990 に記載されている。プラテン領域上の照明
変動に起因して背景ピクセルでは大きな色変動が起こる
ために適応アルゴリズムが必要となる。適応シード・フ
ィル・アルゴリズムは、画像の左上隅等の背景によって
特徴づけられる初期シード点を用いてスキャンされたカ
ラー画像データに適用される。一般に、その適応シード
・フィル・アルゴリズムでは、背景ピクセルとして識別
された連続する全ピクセルを示すマスクを用いて、2値
のフレームバッファを塗りつぶす(充填する)。ステッ
プ112に示される簡単な実施の形態では、現在の平均
背景ピクセル値から僅かに離れた距離ε内にピクセルの
色があれば、そのピクセルを背景ピクセルと考える。こ
の距離は、赤、緑、青(RGB)の色空間のユークリッ
ド距離として使って計算される。
【0025】d=SQRT ((Pr − AdAvgr )2+(Pg − AdA
vgg )2+(Pb − AdAvgb )2 ) ここで、 Pk , AdAvgk はそれぞれ、テスト下のピクセ
ルのRGB成分と平均背景値であり、dは距離である。
εの値は、一定であり、一つの実施の形態では実験的に
決められる。ステップ112では以下のテストが実行さ
れる。即ち、もし、d<εならば、ピクセルPは背景ピ
クセルで、そうでないならばピクセルPは前景ピクセル
である。
【0026】ステップ114では、平均背景色は、背景
としてカテゴリーされた最後(最新)のN個のピクセル
の平均値をとることによって適応的に修正される。好適
には、本システムは次式を使い適応的平均値を計算する
ことで処理効率を上げる。
【0027】AdAvg'=(N* AdAvg - AdAvg + LastVal )/N ここで、 AdAvg’は修正平均、AdAvg は前の適応平均、
LastVal は背景として識別された最新のピクセル値、N
は平均化処理ウインドーである。明らかに、これは真の
移動(実行)平均(running average)ではないが、その
移動平均を適切に追従するものであるため、厳密な移動
平均演算より計算効率がよい。他の方法では、εの値を
適応的に変えることができる。例えば、εは、背景等と
して識別された最新の複数のピクセルの標準偏差に基づ
いて決められる。
【0028】ステップ120では、全背景ピクセルを識
別して背景領域を示す2値マスクを作り、形態素フィル
タリング(morphological filtering)を行うことで背景
マスク中のノイズ性エッジを滑らかにする。具体的に
は、好適には形態素閉包フィルタは背景マスクに適用さ
れ、単一のピクセルノイズを除去し、オブジェクトのエ
ッジを滑らかにする。続いて、ステップ122では、連
続した前景領域を探索してオブジェクトを識別する。オ
ブジェクトは、適応シードフィル処理によって生成され
た背景マスクをスキャンすることによって識別される
(ステップ106)。左上のピクセルから始まり、その
マスク中で背景ピクセルとして分類されなかったピクセ
ルをスキャンライン形式で探索することで、前景オブジ
ェクトに関連するピクセルを識別する。そのシード・フ
ィル・アルゴリズムを背景を識別するために使うと、前
景オブジェクトは確実に閉包したものになる。
【0029】ステップ124では、オブジェクト境界は
そのエッジをトレースすることによって識別される。前
景オブジェクト境界は、オブジェクトのエッジをトレー
スする点の順序付けセットを提供する単純な8連結エッ
ジ走査を用いてトレースされる。そのようなエッジ処理
(操作)では輪郭トレース走査処理を用いて、語かまた
は文字ベースの認識システムに似た方法でチェインコー
ドを生成する。8連結処理は、例えば、R.ボズノビッ
ク他(R.Bozinovic et al.)による“オフライン草書体
手書き単語認識”、IEEE・トランザクション・オン
・パターン・アナリシス&マシン・インテリジェンス、
11巻、No.1(1989年1月)に記載されてい
る。エッジがトレースされると、マスク中のオブジェク
トに関連する全ピクセルは背景としてマークが付けら
れ、次の時点では処理されない。そして、前景オブジェ
クトリストにそのオブジェクトが加えられ、次に、ステ
ップ126で示すように、ステップ122でのスキャニ
ング処理を続ける。全オブジェクトを識別する前景スキ
ャニングが完了した後、ステップ130では、識別され
たオブジェクトを見直す。多くの場合、スキャン画像は
不要な前景オブジェクトを含み、そのようなオブジェク
トは、このステップでオブジェクトリストから削除され
る。一つの実施の形態では、オブジェクトリストの見直
しにより、画像らしくない小さなオブジェクトを削除す
る。例えば、各画像が関連する年鑑の頁のスキャンで
は、テキストキャプションを画像データとして分類しな
い。そのようなキャプションは多くの小さな周囲オブジ
ェクトから成るため、トレースされたエッジの周囲長を
測定することによって、ある長さ以下の周囲をもつオブ
ジェクトを削除できる。その閾長は実験的に決められ
る。
【0030】ステップ100に関連して述べられている
ように、オブジェクトが探索されると、次のステップで
あるステップ200では、オブジェクトの形状をモデル
化する。説明を簡単にする目的で、以下の記述では矩形
オブジェクトを扱うが、他のポリゴン(多角形)や、曲
線(例えば、円や楕円オブジェクト)で表現される部分
をもつ形状にまで拡張できることが理解できる。その結
果、即ち、ステップ100からの出力や結果は、好適に
はリンク(連結)リスト中の1組のエッジ・トレースで
あり、これによってスキャン画像中の各オブジェクトの
境界ピクセルが識別される。これらのトレースは、各オ
ブジェクトを抽出するために使われるが、その方向はま
だ決定されていない。オブジェクト抽出の品質を改善す
るために、オブジェクト・トレースはモデル形状にフィ
ッティングされる(あてはめられる)。次に、方向情報
等がそのフィッティング(あてはめられた)パラメータ
から抽出される。本発明の実施の形態では、オブジェク
ト・トレースは矩形モデルにフィッティングされるが、
他の形状でも可能である。
【0031】エッジ・トレースを矩形にフィッティング
する1つの方法は最小2乗法であり、これにより矩形に
フィッティングする。最小2乗法によるフィッティング
を行うために、エッジ・トレースはまず4組の点に分解
される。各組は矩形オブジェクトの4辺のうちの1辺に
対応する。この4組の点に分解する処理は、以下で説明
される幾つかの方法でなされる。
【0032】第1の方法は、2つの基本的部分、即ち、
(a)エッジ点を、単一の線に関する1組のビン(bi
n)に分類(カテゴリー化)し、(b)それらのビンで
回転された形状の認識処理を行う。図5は、第1の分解
方法を詳細に示す。ステップ204では、エッジ・トレ
ースに沿った各点での傾斜を計算する。ステップ204
では、好適には、近傍のエッジ点の小ウインドーで線形
回帰分析を行うことによって傾斜角の計算を行う。例え
ば、エッジ点の両側にある2点で傾斜が決定される。各
点の中心を通る線の角度は、各点を中心とする小ウイン
ドー内で線形回帰分析を行うことで決定される。各回帰
分析では、ウインドー内の1点について4つの加算、2
つの減算、2つの乗算、1つのアークタンジェント演算
が必要であるが、回帰分析アルゴリズムが最適化される
とほとんどの加算演算が不要となる。計算の複雑性を減
らす好適な実施の形態では、エッジピクセルのサンプル
が傾斜角計算とソーティングのために使われるため、エ
ッジピクセルを分類(カテゴリー化)するために必要な
計算量が減る。
【0033】次に、ステップ206では、傾斜カテゴリ
ー、即ち、ビンのリストを構築する。エッジに沿った現
在の点(例えば、図8の点B)とその前の点(例えば、
図8の点A)間の傾斜角の差の大きさを計算することに
よって、各エッジ点に対する傾斜が分類される。もし、
その差がTOLERANCE 値(一つの実施の形態では実験的に
±5度に決められている)より小さいならば、その点が
前の点と同じ傾斜カテゴリーに割り当てられるが、そう
でない場合には新しい傾斜カテゴリーが作られてそこに
その点が割り当てられる。図8を参照して、上述の処理
によって点A,B,Cが第1の傾斜カテゴリーに割り当
てられ、点D,E,F,G,Hが第2の傾斜カテゴリー
に割当てられ、点I,Jがその他の傾斜カテゴリーに割
り当てられる。最後に、もし最後のエッジ点の傾斜カテ
ゴリーの傾斜角が第1の傾斜カテゴリーとだいたい同じ
傾斜角をもつなら、第1と最後の傾斜カテゴリー内の全
ての点が共に1つのカテゴリーに入る。
【0034】ステップ206で傾斜カテゴリーが確立さ
れて、データ構造中に格納されると、ステップ208で
は、それらの傾斜カテゴリーがソートされ、また、各カ
テゴリーに割り当てられたエッジ点の数に基づいて順序
付けされる。矩形オブジェクトでは、ほとんどのエッジ
点が含まれる最上位の4つの傾斜カテゴリーは、その矩
形の4つのエッジに沿った点に対応するはずである。ス
テップ210では、その最上位の複数の傾斜カテゴリー
が選択される。6角形のオブジェクトでは最上位の6つ
のカテゴリーが使われ、同様に、三角形のオブジェクト
では最上位の3つのカテゴリーが使われる等々が理解さ
れるだろう。
【0035】別の方法では、ステップ208と210
は、傾斜角カテゴリー、即ち、そのビンを単純に削除し
たり統計的に削除することにより処理するステップに置
き換えることが可能である。ここで、エントリのほとん
どないカテゴリーは削除される。例えば、実験的(経験
的)に決められた5ピクセルの閾値が使われると、共通
の角度で5個を越えるピクセルを有するビンが残され
る。続いて、カテゴリーの平均角度が、特定のカテゴリ
ーに割り当てられた全ての点の単純線形回帰分析によっ
て決定される。決定された平均角度でさらにカテゴリー
を改良することによって、実質的に共通の角度をもつ複
数のカテゴリーを結合できる。特に、各カテゴリーがチ
ェックされて、もし近傍のカテゴリーが実質的に共線的
であれば、それらのカテゴリーは結合される。従って、
残りの各ビン、即ち、残りの各カテゴリーはエッジに沿
った共線点の組を表わす。残りの各傾斜角カテゴリーに
割り当てられたエッジ点は、矩形の4辺に分解されたエ
ッジ・トレースを表わす。ここで、このどちらか一方を
“フィルタリング”処理、即ち、カテゴリーの整理(詳
細化)を行なって、オブジェクトの実エッジを表わすカ
テゴリーを識別することが理解できる。従って、カテゴ
リーを整理(詳細化)する同様な方法が検討される。
【0036】オブジェクト境界を特徴づける第1の方法
は、各エッジ点での平均傾斜の測定に起因して計算的に
集約的である。前述の別の実施の形態では、処理速度を
改善するためにエッジ・トレースをサンプリングするこ
とで、処理され分類される点の全体数を削減することが
できる。
【0037】さらに、順序付けされたカテゴリーを分析
することで形状を識別できることが理解できる。例え
ば、第3と第4のカテゴリー間で点の数に統計的に大き
な差がある場合や第4のカテゴリーがない場合は、三角
形オブジェクトであることを示す。
【0038】図6には、オブジェクト形状をモデル化す
る第2の方法を示す。ステップ202でエッジトレース
リストデータを検索後、ステップ252では、オブジェ
クトのマス(質量)の中心を計算する。オブジェクトの
マスの中心を計算するための多くの既知の方法がある
が、矩形オブジェクトの場合、エッジ点の(x、y)座
標の平均をとる方法が簡単な方法である。次に、ステッ
プ254では、マスの中心に最も近いエッジ点が探索さ
れる。その最も近い点は矩形の長辺の近似中心である。
再び図8を参照して、マスの中心(CofM)から中心
点(La /2)までの角θは、矩形の近似回転角(θ)
である。
【0039】ステップ256で回転角を決定すると、ス
テップ258ではそれを使って矩形の短軸(短辺)の近
似の長さを決定する。特に、そのマスの中心から、角範
囲θ- ΔAからθ+ ΔAにある全エッジ点の平均位置ま
での距離が決定される。この距離は、矩形の短軸の長L
b の半分の近似測定(寸法)である。ΔAは、経験的に
決められた約5度のオーダの値である。ステップ260
では、ほぼ同じ方法で長軸(長辺)(La )を概算す
る。そのマスの中心から平均位置(θ+90 )+ ΔAまで
の距離は、矩形の長軸の長La の半分の近似寸法であ
る。長軸と短軸の方位角と長さが概算されると、ステッ
プ264では、辺に関するこれらのエッジ点のみを含む
矩形の各辺に対する角範囲(マスの中心について計算さ
れた)を計算する。即ち、 a) θ’b =atan2 (La ,Lb ) 長軸の半分の角幅 θ’a =90−θb 短軸の半分の角幅 θb =θ’b * TOL ここで、かどをさけるためにTOL=0. 95 θa =θ’a * TOL ここで、かどをさけるためにTOL=0. 95 b) 範囲1 : ( θ+ θb ) から( θ- θb ) 範囲2 : ((θ+90) +θa )から((θ+90) -θa ) 範囲3 : ((θ+180)+θb )から((θ+180)-θb ) 範囲4 : ((θ+270)+θa ) から((θ+270)-θa ) 角範囲が決定されると、ステップ266では、上述の4
つの角範囲(マスの中心に関して)の各々にあるエッジ
点の全てを検出する。これによって、矩形の各辺に対応
するエッジ点を識別する。この技術が、上述の第1の方
法よりも、エッジノイズに敏感ではないことは理解でき
る。
【0040】エッジ・トレースが4つの点の組に分解さ
れると(各組は矩形の4辺の1辺に対応する)、ステッ
プ280では、矩形にそれらの点をフィッティングする
ための最小2乗演算がなされる。矩形は以下の方程式で
定義される相互に垂直な4辺で記述される。即ち、 y=α0 + βx y=α1 + Yx y=α2 + βx y=α3 + Yx ここで、βY =-1である。最小2乗法によるフィッティ
ングにより、以下のあてはめパラメータが得られる。即
ち、
【0041】
【数1】
【0042】ここで、( xki, yki) は、第k辺の第i
番目のエッジ点であり、nk は第k辺に関するエッジ点
の数である。最小2乗法によるフィッティングによって
あてはめパラメータ(β、α0 、α1 、α2 、α3 )が
得られると、それらはステップ282で矩形のかど
(角)をマークする4つの座標ペアに変換される。さら
に、矩形オブジェクトの回転角は傾斜パラメータβによ
って正確に表現される。
【0043】エッジ・トレースをある形状にフィッティ
ングする他の方法として、高速の画像境界付(fast ima
ge bounding )に対して2値モーメントを使う方法があ
る。ステップ106に関して説明されたように、生成さ
れた2値マスクを使ったり(例えば、適応シード・アル
ゴリズム)、単純な閾値処理を行うことで背景領域か非
背景領域かを示すために各ピクセル値が0か1である2
進のビットマップ形式で画像が描画される。2値マスク
を使って1つのオブジェクトに対する境界が検出される
と、図7に描かれた別の実施の形態では、2次の2値モ
ーメントを使い、1つの形状(例えば、矩形)をオブジ
ェクトにフィッティングする。
【0044】図7には、2値モーメント境界検出技術の
処理工程を示す概略フローチャートが描かれている。ス
テップ100では、オブジェクトのエッジが前述された
ように検出され、記録される。これによって、ステップ
290では、境界のリンク(連結)リスト、即ち、エッ
ジ・トレースと呼ばれるエッジピクセルを入力として提
供する。境界リストを使って、2次モーメントが以下の
方程式に基づき効率的に計算される。即ち、
【0045】
【数2】
【0046】ここで、p(i,j)は、画像座標(i,
j)での画像ピクセル値であり、pi(i)は第i番目のス
キャンラインの第i次モーメントである。オブジェクト
境界ピクセルが前に決定されているので処理は簡単にな
り、また、特定のスキャンラインに対する最右境界ピク
セルと最左境界ピクセルが、1次(絶対)のモーメント
演算のために使われる。
【0047】続いて、2次(中心)のモーメント
(m00、m01、m10、m11、m20及びm02)が1次のモ
ーメントと以下の方程式を用いて計算される。即ち、
【0048】
【数3】
【0049】2次のモーメントが決定したので、ステッ
プ294では、それらを用いて楕円を特徴づけ、その楕
円からオブジェクト回りの境界ボックスを求める。特
に、楕円の中心(x、y)、各軸の長さ(aとb)、回
転角(Θ)が決定される。矩形オブジェクトの境界ボッ
クスは、角Θ分回転した、2aと2bの長さの辺をもつ
(x、y)を中心とする矩形として決定される。この境
界ボックスは、安全な演算マージンをとるため及びオブ
ジェクトの一部のクロッピングを回避するために、オブ
ジェクトよりわずかに大きく取られる。もし、より狭い
(よりタイトな)境界ボックスが必要であれば、矩形は
2αa と2αb の長さの辺で特徴づけられる。ここで、
αは√3/2に設定されるか、それよりわずかに小さい
値に設定され、それによりエッジをトリミングやクロッ
ピングする(例えば、1つかそれ以上のピクセルのオー
ダで)。
【0050】各オブジェクトがある形状(例えば、矩
形)にモデル化された後で、例えば、ベナブル他(Venab
le et al.)のUS-A-5,485,568で開示されているような構
造化画像が生成される。その構造化画像は、上述の方法
の1つを用いて検出された各オブジェクトに対して1つ
の“子”構造化画像をもつ。その構造化画像の定義は、
スキャン画像のどの矩形がオブジェクトデータを含むか
を示す属性と、どんな方位スキューでも補正を行なうた
めに必要な回転角を含む。図9は、前述したプロセスに
よって生成された構造化画像の一例を示す。ここで、そ
の構造化画像は一対の矩形画像オブジェクトを含む。
【0051】図10に描かれた本発明の一つの実施の形
態では、描画されると、全てのオブジェクトは回転が解
除されて(de-rotated)、格子状にレイアウトされるよ
うに構造化画像が設計される。特に、図10では、ユー
ザインターフェイス400が描かれている。このユーザ
インターフェイスは前述のオブジェクト形状の認識方法
の様々な態様を使って、知的、即ち、“スマート(smar
t)”プラテンあるいはスキャニングシステムを提供す
る。図10に描かれたスマートスキャニングシステムで
は、好適には、ユーザがデジタイジング(デジタル化)
スキャナとインターフェイスしてスキャナのプラテン2
4上のオブジェクトのデジタイズ表現を効率的に獲得で
きる手段が提供される。
【0052】例えば、図1と図10を参照して、ユーザ
は多数の写真をスキャナのプラテンに配置できる。これ
らが配置されると、次に、ユーザは図10の領域410
から処理を選択して、コンピュータシステム22にスキ
ャナ26によるスキャン処理を開始させる。図10に示
されているように、“一括編集(Gang & Edit)”412
が選択されると、システム20はプラテン24上に置か
れたオブジェクトをスキャンし、ユーザインターフェイ
ス画面の領域420に反映されたファイルの詳細を使っ
てそのファイルにデータを一時的に格納する。例えば、
様々な画像オブジェクト(A,B,C,D)が、図10
に描かれているような画像中で検出される。その画像が
スキャンされると、それは上述したように分析されて、
画像オブジェクトが識別される。次に、画像オブジェク
トは、自動的に画像を方向付け、位置するために、スマ
ートスキャニングシステムによって操作される。例え
ば、ユーザインターフェイスの領域430中に描かれた
表現等のように画像オブジェクトは所定のテンプレート
に自動的に配置されて描画される。テンプレートに関す
る別の編集能力、例えば、オブジェクトにキャプション
を追加する能力、即ち、図示されているようにタイトル
432とサブタイトル434を含ませる能力がユーザに
提供されることは高く評価される。領域440中のユー
ザインターフェイスオプションを介して、テキストベー
スでの編集のための入力がなされる。
【0053】また、スマートスキャニングシステムは、
ユーザインターフェイスの領域450中に描かれている
画像編集能力を備える。画像中の各オブジェクトが識別
されると、複数のオブジェクトを分離し、それを用いて
複数の別々の画像を生成し、その画像を個々に処理する
ことができる。従って、領域430のテンプレート中に
配置された個々の画像オブジェクトは、個別に選ばれる
か、操作されるか、スケーリング(ボタン452で)さ
れるか、回転(ボタン454で)されるか、クロッピン
グされる(ボタン456で)。前述のオブジェクト識別
方法の結果として本システムが自動的に行なう処理に対
して、スケーリング(拡大縮小)、回転、クロッピング
の各処理をさらに加えたことは高く評価される。
【0054】例えば、画像オブジェクトをスケーリング
するために選択を示す線影で描かれた画像スキャンボタ
ンによって、ユーザはカーソルを移動させて1つのオブ
ジェクト(例えば、画像オブジェクトD)を選択し、そ
のオブジェクトの辺、または、そのかどをドラッグする
ことができる。オブジェクトの編集を容易にするため
に、例えば、画像オブジェクトDの境界に描かれている
制御点(436)がユーザインターフェイスの設計者に
は公知の方法で使用されることができる。
【0055】所定のテンプレートを使って、画像オブジ
ェクトを、文書やそのページの相対的位置に自動的に配
置できることは注目に値する。このようなテンプレート
は構造化画像定義形式であってもよく、そのテンプレー
トを使って、生成される構造化画像に対して異なるレイ
アウトを施すことができる。従って、“デジタル写真ア
ルバム”に写真を配置したい家族は、ユーザインターフ
ェイスの領域430に示されたページに似たページを記
述するテンプレートを作ることができる。そして、その
テンプレートを使って、より大きい文書画像中に個々の
画像、即ち、複数のオブジェクトを自動的に構成するこ
とができる。
【0056】好適な実施の形態では、出力は、ベナブル
他(Venable et al.)のUS-A-5,485,568で開示されている
構造化画像出力フォーマットである。構造化画像の1つ
の重要な特徴は、画像処理の複数の操作をそれらの記述
内に記録することができることである。これは、構造化
画像が単純なオブジェクトのスキュー除去属性以外に複
数の画像処理操作を含むことができることを意味する。
例えば、識別される個々のオブジェクトを改善(強調)
するために、複数の自動画像改善(強調)操作を構造化
画像中に含ませることができる。
【0057】ユーザが望む条件で、ウインドー430中
に“ページ”が構成されると、ユーザは“編集画像のセ
ーブ(Save Edited Image )”ボタン460を選択する
ことによって、その画像をセーブさせることができる。
そしてもっと重要な点は、ユーザが、組み立てられた
(合成)ページ(単数又は複数)を印刷するか、または
伝送することができることである。
【0058】本発明に係るさまざまな実施の形態が、こ
のスマートスキャニングシステムに関連して説明された
が、画像の獲得と構成されたページの印刷または伝送を
ネットワークを介してか、または、ウォークアップ型
(walk-up)デジタルコピー機で達成することができる。
例えば、ユーザは写真をフィルムプロセッサによって自
動的にスキャンさせ、ネットワーク経由でユーザにデジ
タイズされたスタンプシート(stamp sheet)が送られ
る。構造化画像フォーマットであるスタンプシートは、
スマートスキャニングシステムを使って処理され、1つ
かそれ以上のオブジェクトを各ページにもつデジタル写
真アルバムの複数のページを作ることができる。
【0059】要約すると、本発明は、デジタル入力画像
を処理して複数のオブジェクトを特徴づける方法とその
装置である。本技術は、背景ピクセルと前背景ピクセル
を特徴づけることによって入力画像中の少なくとも1つ
のオブジェクトを識別し、2つの一般的方法のうちの1
つを使ってオブジェクト境界を表現する形状をモデル化
し、オブジェクトを特徴づける記述を生成する技術を含
む。その記述は、オブジェクトの形状と位置だけでなく
オブジェクトの回転やスキュー情報も含む。
【図面の簡単な説明】
【図1】本発明の一つの実施の形態の画像処理システム
を構成する装置の図である。
【図2】図1のシステムを備えるさまざまな構成要素の
ブロック図である。
【図3】本発明に係る図1と図2のシステムを実行させ
る概略処理工程を示すフローチャートである。
【図4】本発明に係るさまざまな実施の形態によって実
行される処理工程を示す詳細なフローチャートである。
【図5】本発明に係るさまざまな実施の形態によって実
行される処理工程を示す詳細なフローチャートである。
【図6】本発明に係るさまざまな実施の形態によって実
行される処理工程を示す詳細なフローチャートである。
【図7】本発明に係るさまざまな実施の形態によって実
行される処理工程を示す詳細なフローチャートである。
【図8】デジタル文書の一部を一例を示す図である。
【図9】入力画像が本発明によって処理されるときの図
1のシステムの出力を示す図である。
【図10】本発明の一つの実施の形態に関連するユーザ
インターフェイス画面の一例を示す図である。
【符号の説明】
20 システム 22 コンピュータ 26 スキャナー 34 プリンタ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 リカード エル.デ クエイロツ アメリカ合衆国 14450 ニューヨーク州 フェアポート シェニン ラン 32 (72)発明者 ラマナ エル.ラオ アメリカ合衆国 87544 ニューメキシコ 州 ロス アラモス トゥエンティ サー ド ストリート 2003ディー

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 デジタル入力画像を処理してその中の複
    数のオブジェクトを特徴づける方法であって、 前記入力画像中で少なくとも2つのオブジェクトを識別
    する工程と、 前記オブジェクトの各々の境界を表現する形状をモデル
    化する工程と、 前記オブジェクトを特徴づける記述を生成する工程とを
    備える画像処理方法。
  2. 【請求項2】 前記少なくとも2つのオブジェクトを識
    別する工程は、 少なくとも2つのオブジェクトを囲む背景領域を識別す
    る工程と、 形態素フィルタリング処理を使って画像中のノイズ性エ
    ッジを平滑化する工程と、 連続した前景領域を探索する工程とを備える請求項1に
    記載の画像処理方法。
  3. 【請求項3】 前記背景領域を識別する工程は、 2値マスクを生成する工程であって、前記マスク中の各
    位置は前記入力画像のピクセルを表わす工程と、 背景色を決定する工程と、 適応シードフィル処理を使って、もし前記色が前記背景
    色に実質的に等しければ前記マスク中の各2進位置を第
    1の状態に設定し、そうでないならば、それを第2の状
    態に設定する工程と、 必要ならば前記背景色を調整する工程と、 少なくとも全オブジェクトのエッジが識別されるまで前
    記工程を繰り返す工程とを備える請求項2に記載の画像
    処理方法。
JP10023781A 1997-01-21 1998-01-21 画像処理方法 Withdrawn JPH10222688A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US78653897A 1997-01-21 1997-01-21
US786538 1997-01-21

Publications (1)

Publication Number Publication Date
JPH10222688A true JPH10222688A (ja) 1998-08-21

Family

ID=25138875

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10023781A Withdrawn JPH10222688A (ja) 1997-01-21 1998-01-21 画像処理方法

Country Status (1)

Country Link
JP (1) JPH10222688A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6984833B2 (en) 2003-06-11 2006-01-10 Sumitomo Eaton Nova Corporation Ion implanter and method for controlling the same
US7046343B2 (en) 1999-12-08 2006-05-16 Fuji Photo Film Co., Ltd. Method and apparatus for recognizing regions corresponding to image storage sheets
JP2008187709A (ja) * 2007-01-26 2008-08-14 Sharp Corp 画素の分類方法および画像処理装置
CN111476723A (zh) * 2020-03-17 2020-07-31 哈尔滨师范大学 一种Landsat-7扫描线纠正器失效的遥感图像丢失像素恢复方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7046343B2 (en) 1999-12-08 2006-05-16 Fuji Photo Film Co., Ltd. Method and apparatus for recognizing regions corresponding to image storage sheets
US6984833B2 (en) 2003-06-11 2006-01-10 Sumitomo Eaton Nova Corporation Ion implanter and method for controlling the same
JP2008187709A (ja) * 2007-01-26 2008-08-14 Sharp Corp 画素の分類方法および画像処理装置
JP4498422B2 (ja) * 2007-01-26 2010-07-07 シャープ株式会社 画素の分類方法および画像処理装置
US7856142B2 (en) 2007-01-26 2010-12-21 Sharp Laboratories Of America, Inc. Methods and systems for detecting character content in a digital image
CN111476723A (zh) * 2020-03-17 2020-07-31 哈尔滨师范大学 一种Landsat-7扫描线纠正器失效的遥感图像丢失像素恢复方法

Similar Documents

Publication Publication Date Title
US6738154B1 (en) Locating the position and orientation of multiple objects with a smart platen
US9805281B2 (en) Model-based dewarping method and apparatus
US7016536B1 (en) Method and apparatus for automatic cleaning and enhancing of scanned documents
US8000529B2 (en) System and method for creating an editable template from a document image
JP2536966B2 (ja) テキスト編集システム
US6839466B2 (en) Detecting overlapping images in an automatic image segmentation device with the presence of severe bleeding
US5892854A (en) Automatic image registration using binary moments
US8849032B2 (en) Shape parameterisation for editable document generation
US6704456B1 (en) Automatic image segmentation in the presence of severe background bleeding
CN114299528B (zh) 一种针对扫描文档的信息提取和结构化方法
KR102399508B1 (ko) 레이아웃 분석 방법, 판독 보조 장치, 회로, 및 매체
JP2011013897A (ja) 画像処理装置、画像処理方法、及びプログラム
EP1017011A2 (en) Block selection of table features
CN114529925B (zh) 一种全线表表格结构识别方法
KR20110139113A (ko) 주석이 달린 문서 이미지들로부터 클린 문서를 복원하기 위한 시스템 및 방법
JP4232679B2 (ja) 画像形成装置およびプログラム
JP5020698B2 (ja) 画像処理装置、画像処理方法、画像処理プログラム
KR101903617B1 (ko) 복수 개의 객체 이미지를 포함한 정적인 디지털 결합 이미지의 편집 방법
JP2006345314A (ja) 画像処理装置および画像処理方法
CN103927533A (zh) 一种针对早期专利文档扫描件中图文信息的智能处理方法
EP0975146B1 (en) Locating the position and orientation of multiple objects with a smart platen
JPH10222688A (ja) 画像処理方法
EP0974931A1 (en) Method and apparatus for identifying a plurality of sub-images in an input image
Konya et al. Adaptive methods for robust document image understanding
JP2000187705A (ja) 文書読取装置および方法および記憶媒体

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050405