JP3616111B2 - Method and apparatus for obtaining a high resolution still image using multiple images of different focal lengths or different viewing zones - Google Patents
Method and apparatus for obtaining a high resolution still image using multiple images of different focal lengths or different viewing zones Download PDFInfo
- Publication number
- JP3616111B2 JP3616111B2 JP29449192A JP29449192A JP3616111B2 JP 3616111 B2 JP3616111 B2 JP 3616111B2 JP 29449192 A JP29449192 A JP 29449192A JP 29449192 A JP29449192 A JP 29449192A JP 3616111 B2 JP3616111 B2 JP 3616111B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- images
- frame
- focal length
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
- H04N19/23—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with coding of regions that are present throughout a whole video segment, e.g. sprites, background or mosaic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/53—Multi-resolution motion estimation; Hierarchical motion estimation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/698—Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Closed-Circuit Television Systems (AREA)
Description
【0001】
【産業上の利用分野】
本発明は基本的には異なる焦点距離の複数の像及び装置を使用して高解像度静止画像を創作する方法に関するものである。特には、本発明はズームビデオシークエンス(sequence)等の複数の異なる焦点距離像(イメージ)を使用した固定焦点距離像である静止高解像画像を創出する方法に関するものである。本発明はまた静止パノラマ像のものよりも狭い視域の複数像から静止パノラマ像(イメージ)を創作する技術にも関するものである。
【0002】
【従来の技術】
画像処理分野においては、あるシーン(scene) の静止画像を得ることがしばしば望まれる。たいていの場合においては、その静止画像は記録手段の性能及びその静止画像を撮像する装置の焦点距離により決定される解像度を有する。ビデオ装置は現在比較的安価であり、多くの人々が使用できるほどに単純構造である。ビデオ記録装置はスチール写真のような静止画像描出と較べてある意味の利点を備えている。始動したビデオカメラはその焦点領域内にある全出来事を撮影することができるが、一方普通のスチール写真の場合には写真家がシャッターを押すことで選択した被写体のみを撮影する。よって、スポーツイベントのごとき高速で移動する被写体を撮影する場合、又は結婚式や報道ドキュメンタリーのごとき予期しない事態が発生するような状況下ではビデオを常時撮影状態にセットしておき、事後に望むスチールを選択することが往々にして便利である。しかしながら、ビデオ信号の解像度は1ピクチャー高あたり480本程度のライン(走査線)と1ピクチャー幅あたり640程度のサンプル(sample)に制限されている。(ビデオ信号自体はスキャンラインを通じて連続的である。しかしながら、ディスプレーするためにスキャンライン方向にサンプル化されている。)多くの場合においてこの程度の解像度では高画質を与えるには不充分である。特に、もしオリジナルの被写体像が比較的短い焦点距離で撮影されたものである場合において不足する。像が拡大されるとその像は相当に不鮮明になる。同様に、映画や8ミリ撮影のごとき他の撮影技術の場合にもそれらに特有の解像度に限定される。像の拡大は画像全体にわたり単位面積あたりの解像度を必然的に劣化させる。
【0003】
例えば、ステージ上のピアノの前で聴衆に向かって演奏しているソロの演奏家をその聴衆と共に撮影することが望まれる場合がある。もし撮像装置がビデオ装置であれば、聴衆を映し出しているワイドアングル画像は前記の標準ビデオ解像度に見合った解像度となる。画面全体にわたる解像度も同じである。よって、ソロピアニストの像はそのシーンの残り部分と同様な粗さとなる。たとえば、もしそのソロリスト像が全画面の1/16のスペースを取っているとすれば、垂直方向に120本のラインと、水平方向に160のサンプルを使用していることになる。この場合、たとえば会場の後方にある空席等のあまり重要でないシーンも同一の解像度となる。図1は異なる2焦点距離に関する1焦平面上に、あるシーンの焦点合わせを略図的に示すものである。もし焦点距離fw が比較的短ければ、像2の全幅は焦平面4上に焦点が合う。
【0004】
もちろん、ソロリストにズームインし、さらに長い焦点距離でソロリストの像を撮影することでそのソロリストをより鮮明(即ち、垂直方向にさらに多数のラインと水平方向にさらに多数のピクセル(pixel))に映し出すことは可能である。図1に示すごとく、焦点距離fTはfwよりも長い。しかしながら、像2の中央部6のみが焦平面4に焦点が合わせされている。焦平面の範囲外で焦点されているので他のほとんどのシーンは犠牲になっている。ソロリスト像はさらに拡大されて大きなスペースを占め、元の像の輪郭の一部は写らない。
【0005】
2チャンネルのデータを結合させて画像データを増強する(enhance)技術は周知である。その第1チャンネルは空間的高解像度(即ち、単位長さあたりに比較的多くの画素)及び比較的時間的低解像度(即ち、単位時間あたりに比較的少ないフレーム数)を有するものであり、その第2チャンネルは空間的低解像度及び時間的高解像度を有する。その結合の結果、空間的及び時間的解像度はそれらの高いほうに近づき、普通の状態で時間的及び空間的高解像度を有するシングル像シークエンス(single image sequence) を伝達するのに要する情報よりも少ない情報伝達で済む。1988年5月に合衆国のマサチューセッツ工科大学(Massachusetts Institute of Technology) 電気工学及びコンピュータ科学部に提出されたB.S.論文であるクレーマン ローレンス エヌ(Claman,Lawrence N.)の「2チャンネル空間−時間エンコーダ(A Two−Channel Spatio−Temporal Encoder)」 を参照されたい。
【0006】
静止画像の種々な空間的部分の解像増強のごとく、最短焦点距離で撮影したものを映写化するのに今日利用可能な技術は見当らない。クレーマンの論文は固定焦点距離像とベクトル量子化を利用しており、その結果オリジナルの空間的高解像度像のものを越えない解像度及び視域のスチールフレームを提供している。
【0007】
【発明が解決しようとする課題】
パノラマビュー(view)の一部から他のパノラマビューの一部にかけて実質的に共通な1焦点距離を維持しつつ、あるシーンのパノラマビューを提供できることもまた望ましいことである。これを行う従来の方法はビデオカメラをパノラマシーンの片側から別側に移動することであり、本質的には前後のフレームから各々ほんの少々異なる数多くのフレームを撮ることである。その隣接するフレームに関して、各フレームは右側と左側のエッジ部分が異なるのみである。フレームを形成している像の大部分は隣接するフレームの像と同一である。パノラマシーンを形成するこれらの種々な像を保存し、ナビゲートするには多量のデータ保存及びデータアクセスが必要とされる。データ保存及びアクセスには多額の費用を要するのでこの従来技術は望ましいものとはいえない。また、保存及びアクセスされたデータの大部分が実用性を有しない。パノラマ的空間を撮影するのに現在使用されている撮影装置にはグルブスコープ(glubuscope)又はボルピ(volpi)レンズの移動が含まれる。
1シーンの1位置から別位置へパン(pan)し、同時にズームできることも望ましいことである。従来技術の欠点はそのような組み合わせにおいて望ましくない結果をもたらすことである。
【0008】
よって、本発明の目的は、以下の利点を備えた比較的に高解像度を有する静止画像を創作する方法及び装置を提供することである:
1)像全体にわたり高解像度で情報を取得する必要がない。
2)あまり重要ではない像の大部分に関して情報を収集する必要がない。
3)種々な焦点距離又は視域の標準的ビデオ像のシークエンスを入力要素として取得できる。
4)標準的フィルム像のシークエンスを入力要素として取得できる。
5)望む像のいかなる部分でもその解像度を増強する。
6)適正にプログラムされた汎用デジタルコンピュータ及び標準型ビデオ又は映画装置が使用可能である。
【0009】
本発明の別目的は過剰なデータ保存及びアクセス能力を要せず、あるシーンのパノラマビューを観察者に提供し、その観察者にそのシーンの1位置から他の位置までのナビゲーションを可能とする方法を提供することである。本発明のさらに別目的はデジタル化されたいかなる形態の像データであろうとも前記能力を発揮させることである。
【0010】
【課題を解決するための手段】
上記課題を解決するための本発明を要約すれば、本発明は静止画像を発生させる方法であって、複数の像を創出するステップを有しており、各像は他と異なる焦点距離にて創出されており、さらに、その各像を共通の焦点距離にスケールするステップと、その各スケールされた像を1焦点距離の最終像に組み合わせるステップを有しており、その最終像の部分はそのオリジナルシークエンスと比較して相対的に高い解像度を有している。本発明はさらに、変化する視域の静止画像のシークエンスを全体的視域のパノラマ像に組み入れるステップをも有している。異なる視域にて発生された像を組み合わせることに加えて、本発明の方法はパノラマシーンのごとき全体的シーンの異なる視域に関して発生した像を組み合わされたパノラマ視域に組み合わせることにも使用可能である。本発明のこの特質は変化する焦点距離のものとも結合可能である。
【0011】
本発明はまた静止画像を発生させる装置であって、複数の像を創出する手段を有しており、各像は他と異なる焦点距離にて創出されたものであり、さらに、各像を共通の焦点距離にスケールする手段とスケールされた像をそれぞれ1焦点距離の1像に組み入れる手段とを有している。本発明の装置はさらに全体的シーンの異なる視域に関して発生した像を組み合わされたパノラマ視域に組み入れる装置を含んでいる。
【0012】
次に、最初の実施例を解説する。ここでは本発明は静止画像(イメージ)を発生させる方法であって、以下のステップから成り立っている:
1)それぞれ異なる焦点距離で創出された複数の像をそれぞれ代表する複数の信号を発生させるステップ
2)共通の焦点距離にスケール(scale)された対応する像を代表するように各信号を変換するステップ
3)各変換した信号を組み合わせ、オリジナルシークエンスの像と比較して部分的には比較的に高解像度であるスケールされた像を1焦点距離の最終像とする組み合わせを代表した信号を得るステップ。
【0013】
別の実施例を解説する。ここでは本発明は静止画像を発生させる装置であって、以下の手段から成り立っている:
1)それぞれ互いに異なる焦点距離にて創出された複数の像を創出する手段。
2)異なる焦点距離のそれぞれの像を代表する複数の信号を発生させる手段。
3)共通の焦点距離にスケールされた対応する像を代表するように複数の信号の各々を変換する手段
4)各変換した信号を組み合わせ、スケールされた像を1焦点距離の1像とする組み合わせを代表した信号を得る手段。
【0014】
さらに別の実施例を解説する。ここでは本発明は静止画像を発生させる方法であって、以下のステップから成る:
1)それぞれ異なる視域で創出された複数の像をそれぞれ代表する複数の信号を発生させるステップ
2)共通のパノラマ視域内で1位置にトランスレート(translate) された対応する像を代表するように各信号を変換するステップ
3)各変換した信号を組み合わせ、オリジナルシークエンスの像と比較してさらに大きな視域をカバーする1パノラマ視域の最終像とするトランスレートされた像の組み合わせを代表した信号を得るステップ。
【0015】
またさらに別の実施例を解説する。ここでは本発明は静止画像を発生させる装置であって、以下の手段から成り立っている:
1)それぞれ互いに異なる視域にて創出された複数の像を創出する手段
2)それぞれ異なる視域の複数の像の1つを代表する複数の信号を発生させる手段
3)共通のパノラマ視域内の1位置にトランスレートされた対応する像を代表するように複数の信号の各々を変換する手段
4)各変換した信号を組み合わせ、1パノラマ視域の1像とするトランスレートされた像の組み合わせを代表した信号を得る手段。
【0016】
さらにまた別の実施例を解説する。ここでは本発明は静止画像を発生させる方法であって、以下のステップから成る:
1)それぞれ異なる視域にて創出された複数の像の1つを各々代表する複数の信号を発生させるステップ
2)共通のパノラマ視域内の1位置にトランスレートされ、共通の焦点距離にスケールされた対応する像を代表するように各信号を変換するステップ
3)各変換した信号を組み合わせ、部分的にはオリジナルシークエンスの像よりも高い解像度であり、オリジナルシークエンス及び1焦点距離の像と比較してさらに大きな視域をカバーする1パノラマ視域の最終像とするトランスレートされ、スケールされた像の組み合わせを代表した信号を得るステップ。
【0017】
【作用】
上記構成により、以下の利点を備えた比較的に高解像度を有する静止画像を創作する方法及び装置が提供される。
1)像全体にわたり高解像度で情報を取得する必要がない。
2)あまり重要ではない像の大部分に関して情報を収集する必要がない。
3)種々な焦点距離又は視域の標準的ビデオ像のシークエンスを入力要素として取得できる。
4)標準的フィルム像のシークエンスを入力要素として取得できる。
5)望む像のいかなる部分でもその解像度を増強する。
6)適正にプログラムされた汎用デジタルコンピュータ及び標準型ビデオ又は映画装置が使用可能である。
【0018】
さらに、過剰なデータ保存及びアクセス能力を要せず、あるシーンのパノラマビューが観察者に提供され、その観察者にそのシーンの1位置から他の位置までのナビゲーションを可能とする方法が提供される。
又、デジタル化されたいかなる形態の像データであろうとも前記能力を発揮させることができる。
【0019】
【実施例】
以下、本発明の実施例につき詳細に説明する。
典型的なビデオ像はフィールドのシークエンスにより創出される。各フィールドは画像化されるシーンの静止画像を代表する。インターレース(interlace) によって連続的フィールド間に1/2のスキャンラインの垂直方向のずれが生じる。(表示システムによってはインターレースなくスキャンされており、その場合にはフィールド間の垂直方向のずれは生じない。)一般的に毎秒50又は60フィールドの割合でこのような静止フィールドのシークエンスを表示することにより、モーション又は変化は人の視覚システムの心理的精神肉体的特性によって表出される。各フィールドのペアは前述したごとくにラインで満ちたスクリーンで構成され、各ラインはそれぞれ画素(ピクセル)により構成されている。各ピクセルは、コンピュータメモリー又は他の適当なデジタル記録媒体内に特定のレンジである信号値により代表される。カラー像においては、このレンジは典型的には色の3要素(component) の各々に対して0−255であり、グレースケール(grayscale) 像に対してはこのレンジは1要素あたり特徴的には0−255である。サテライト映像又はX線のような像源は0−4096ほどの大きさのレンジを有することもある。ピクセル値はフレーム内のそれらの位置に何らかの手段にて対応する形状でメモリー内に保存される。ビデオ像に対してなされる全操作は典型的には個々のピクセル要素の値を代表する信号に対して行われる。
【0020】
像のモノクロ記録の場合には、各ピクセル要素は単独の個別的(discrete)な要素である。像のカラー記録の場合には、1セットのチャンネル又はピクセルのグループが各ピクチャー要素に対して使用される。例えば、RGBとして知られる表色スキーム(color value scheme)において、各色は赤(R)、緑(G)及び青(B)の色量の組み合わせにより代表される。これら3色の各々の色「チャンネル」が別々に提供される。RGBシステムにおいて、各チャンネルはスキャンラインごとに同数のピクセルとスクリーンごとに同数のスキャンラインを有する。下記他のカラー値システムは異なるチャンネルに対してスキャンラインごとに異なる数のサンプルを有する。ピクセルの要素は典型的には表示装置上に相互に隣接して位置しており、同時に表示されるときには(観察者にとってはそのように錯覚する)結合してオリジナルの色を形成する。ピクセルの時間シークエンス(time sequential) ディスプレー等の他のスキームも利用可能である。
【0021】
RGBカラー値スキームは特定の使用には役立つが、カラー値の数学的操作には必ずしも最適ではない。他のカラースキームの方がさらに有用であり、特には像の輝度を表しているチャンネルを含むものが有効である。一般的に輝度とは所定方向における単位あたりの知覚面積から出される、又は反射された光の強さとして記述される。一般的に、輝度及び2つの他のディメンション(dimension) により定義される3チャンネルカラースペースはRGBカラースペースと等価である。典型的な輝度カラースペースは、アメリカ合衆国のテレビ放送用テレビ基準委員会により使用されているY(輝度)、i(位相)及びq(クワドラチャー(quadrature))カラースペースである。他の輝度カラースペースはCIE(Commission International de l′Eclairage)、Y、x、y(輝度及び2クロミナンスチャンネル)及びそのバリアント(variants)、さらにY、u、v(輝度及び2クロミナンスチャンネル)並びに他にも多数存在している。
【0022】
本発明においては、たいていの処理は1チャンネル又は1コンポーネントで充分である。全てのデータ計算及び操作はまずカラー像のYチャンネルに対してのみ実施される。Yチャンネルが選択される理由は普通、Yチャンネルがビデオシステムにおいて最も高い信号対ノイズ比を有しているからであり、さらに、Yチャンネルは、たいていの場合にクロミナンスよりも高い空間(spatial) 周波数にてサンプルされるからである。Yチャンネルに関して必要な変換が決定された後、同一の変換が位相及びクワドラチャーのクロミナンスチャンネルのような残りのチャンネルに対して適用される。これらの変換の特徴を以下にて述べる。
【0023】
ビデオ像は通常一連のフレームと見なされているが、実際にはそのような「フレーム」はいかなるときにも存在していない。フレームとして人たる観察者及び当該分野の技術者に考えられているのは、実際には「フィールド」の1ペアのことである。各フィールドは偶数列のスキャンライン、又は奇数列のスキャンラインにより成り立つ。偶数のフィールドは奇数列のスキャンラインから垂直方向に1本のスキャンラインの半分だけオフセット(offset)されている。1ペアのフィールドはインターレース(interlace) されて1フレームを形成している。
【0024】
フィールドペア101と102は図2において略図的に示されている。フィールド101は像の奇数列のスキャンラインのみを含んでおり、フィールド102は像の偶数列のスキャンラインのみを含んでいる。ビデオ装置はこれらのフィールドを連続的に別々に記録する。よって、各フィールドは潜在的に多少とも異なる像を記録することとなり、それはフィールドの記録に要する時間に関連するシーン又はカメラのモーションによる。また、ビデオ装置はフィールドを連続的に素早くディスプレーし、その速度は典型的には毎秒50から60フィールドである。この速度でフィールドがディスプレーされるとき、観察者は組み合わされて1つになったフレーム110であるフィールドを「見る」こととなる。各フィールド(シークエンスの最初と最後を除いて)は各連続した2フレームのコンポーネントであることが理解されよう。図3に示すように、フィールド102はフレーム110の第2フィールドとフレーム112の第1フィールドを形成する。同様に、フィールド103はフレーム112の第2フィールドとフレーム114の第1フィールドを形成する。人たる観察者により組み合わされる以外は、フレームは個々の信号要素としては実際に存在しないことがこれで理解されよう。
【0025】
本発明の方法はフレームのシークエンス、特にはビデオ像のシークエンスを使用する。本発明実施化には、フレームコンポーネントの脱インターレース(de−interlace)が必要である。脱インターレースとは、奇数列又は偶数列のラインだけではなく、像の各ラインのピクセル値を含む、特にコンピュータメモリーオンリーにおけるピクセル要素からなる実際のフレームを表す信号を構成することを意味している。本発明はまたインターレース技術を利用することなく記録されたデータに対しても適用が可能である。しかし、インターレースされる材料は共通なので、それを脱インターレースできることが重要である。
【0026】
本発明によれば、脱インターレースはデータ信号にメジアン(median)フィルターを適用することで達成される。例えば、時間tで脱インターレースされたフレームの7番目のスキャンラインを創出するには4個の値のメジアンが使用される。即ち、時間t−1におけるフィールドの7番ラインの各ピクセル要素に対する値と、時間t+1におけるフィールドの7番ラインの対応ピクセル要素に対する値と、時間tにおけるフィールドの6番ラインの対応ピクセル要素に対する値と、時間tにおけるフィールドの8番ラインの対応ピクセル要素に対する値である。これらの4個のメジアンは脱インターレースされたシークエンスのフレームの7番ラインにおける対応ピクセル要素に対する値として割り当てられる。
【0027】
同じプロセスがスキャンラインの各ピクセルと、そのフィールドの各奇数列のスキャンラインに対して繰り返される。偶数列のスキャンラインは単に時間tにおけるフィールドから採用される。この脱インターレースされたフレームはいかなるオリジナルシークエンスのフレームとも異なることを指摘する必要がある。なぜならば、奇数列スキャンラインを形成しているピクセル要素は前後のフィールドと時間tでのフィールドとの結合により創出されるからである。
【0028】
第2の脱インターレースされたフレームを創出するにはこのプロセスが繰り返されるが、偶数列のスキャンラインはフィールドt及びt+2からの偶数列スキャンラインのメジアンを使用することで形成され、奇数列のスキャンラインは関係するスキャンラインの上下に存在するフィールドt+1から形成される。奇数列のスキャンラインは時間t+1でのフィールドから直接的に採用される。
【0029】
フレームが脱インターレースされた後、一連のフレームが得られ、それらはそれぞれ偶数列と奇数列のスキャンラインの全必要数から構成されており、フィールドのシークエンスを観察している人たる観察者により感知される1フレーム内のものと同数のスキャンラインを有しているものとなる。
【0030】
他の脱インターレース方法もまた利用でき、本発明の思想の範囲内である。しかし、これら他の方法は前述の脱インターレース技術程には優れた結果を提供するとは考えられていない。その1つの方法は1フィールド内の各ペアのライン間において、データの新ラインを合成するために各フィールド内のスキャンライン間のリニアインタポレーション(linear interpolation)を行うことである。この技術は動きのない像の部分において明らかに空間的解像度(spatial resolution)のロスを導く。別の方法としては、そのときのフィールドの前後のフィールド間でインタポレーションを行うことである。この技術は動きのある像の部分の時間的解像度を犠牲にする。別々のフィールドに対してデータ操作を施し、1フィールドを次のフィールドにワープさせるためのアファイン変換を利用することも可能である。しかしながら、フィールドのアファイン変換はインターレースによる空間的時間エイリアシング(temporal aliasing) により脱インターレースされたフレームにアファイン変換を施すほどには良好な結果を提供しない。
【0031】
本発明の方法に使用されるフレームのシークエンスは、典型的にはズームシークエンスであり、これは長い焦点距離から短い焦点距離、又はその逆のズーミングを意味する。又、ズーミング中にパン(水平モーション)又はジブ(jib) (垂直モーション)することもできる。脱インターレースされた100のフレームのシークエンス200が図4において略図的に示されている。そのシークエンスは比較的短い焦点距離でワイドなアングルのフレーム201から比較的長い焦点距離でクローズアップのフレーム300までのズームにより構成されている。フレーム201において一連の文字が略図的に表されている。フレーム300においてはフレーム201の中央に位置しているアルファベット「X」の部分のみがフレームに含まれている。
【0032】
シークエンス200の各フレームは同数のピクセル要素及びスキャンラインから構成されている。従って、中央の文字Xのクロス部分がフレーム201のズームにおいて50のピクセルを使用しているものと仮定すれば、そのクロス部分はフレーム300でのズームにおいては300のピクセルを使用していることになる。1の典型的なズームは、シークエンスの最初から最後のフレームにかけて4:1以上のスケーリングファクター(scaling factor)をもたらす。フレーム300のズームからのクロス部分の映像化は明らかにフレーム201のズームからのクロス部分の映像化よりも多くの情報提供が可能となる。しかし、例えば他の文字のごとき当初のシーンの他の被写体を映像化するのに必要な情報はフレーム300からはまったく得られない。なぜなら、これらのものはフレーム300には存在しないからである。よって、本発明の1つの目的はシークエンスの別々のフレームから得られる情報を1つの組み合わせ像に形成することであり、そのシーンの大部分についての充分な情報を提供することである。
【0033】
個々のフレームとオリジナルシーンの間の関係は図5にて略図的に示されている。フレーム201は全オリジナルシーンを映し出している。フレーム202は領域202s内部に見合うだけのオリジナルシーンのみを映像化しており、それはフレーム201よりも小さいものである。フレーム203は領域203sに見合うだけのオリジナルシーンのみを映像化しており、このように順番に領域300sまで続く。従って、オリジナルシーンはズーム201によりマッピング(mapping)された全シーンのデータスペースと同一サイズであるデータスペース内に徐々により小さな部分へとマッピングされてゆく。(このデータスペースは「小」データスペースという。本方法に関する他のデータスペースと比べて最小だからである。)
【0034】
本発明の目的は各ズームフレームから得られるだけの出来るかぎり多量の情報を利用することである。各ズームフレームは拡大され、最長の焦点距離のフレーム、即ちフレーム299と同じスケールを有することとなる。図6において略図的に示されているように、拡大されたフレームは相互に積み重ねられる。オリジナルフレーム201はオリジナルサイズの何倍にも拡大される。各連続するフレーム202、203・・・等は徐々に多少とも少なめに拡大され、最終フレーム299はまったく拡大されない。各フレームの像が他の全フレームシーンの同一部分と実質的にぴったりと重なるように重ね合わせることは可能である。もし各フレームの像部分が不鮮明であれば、シーンの見える部分(フレーム299の全部及び他の全フレームの輪郭部)は最も高い解像度を有するフレームから構成される。
【0035】
各フレームのスケールアップは、各フレームを代表するデータ信号の変換操作と、その変換データを一連のデータスペースにマッピングする操作とを経て、究極的に最終データスペースにマッピングされたデータを代表する信号を発生させる操作により達成される。この最終データスペースは、前記小データスペースよりもずっと大きく、よって大データスペースと呼ばれる。(実際各フレームは全大スペース内に構成されており、最大に拡大されたフレーム201と同じデータスペースを占めている。しかし、フレーム201を除く全フレームに対しては、フレームの輪郭部はゼロの値を有するピクセルにより形成されている。)
【0036】
各拡張フレームの解像度はもちろん互いに異なっており、ある部分、例えば、フレーム201からの中央文字Xにおいて得られる情報の詳細はフレーム203又は299から得られるシーンの同じ部分における情報の詳細よりもずっと少ないであろう。言い換えるならば、フレーム201の拡大像はピクセル間の情報ギャップの影響を受ける。フレーム300からの像はこれらの情報ギャップの影響をまったく受けない。この情報ギャップは以下に説明するごとく、データを取得可能なピクセル間のインタポレーションにより満たされる。
【0037】
上記したように、もしフレームが同じサイズにスケールされ、各々のデータが他のデータに重ねられると、それらは良く重なり合うが、実質的に重なり合っているのみであり、必ずしも厳密な意味で重なり合っているわけではない。これはカメラのモーションやシーンの要素のモーションのためである。比較的高い解像度の静止画像を創出するためにフレームのシークエンスを利用する過程でこれらのモーションを考慮に入れることも重要である。
【0038】
本発明の方法を以下、詳細に説明する。前記スキームを特定の手段にて活用するには、本発明の方法は、まず各フレームを同じディメンション(大データスペース)のデータスペースにマッピング(map) 又は「ワーピング」する必要がある。そのワーピング後にシークエンスの個々のフレームに対して、ウエイトを与えられた、すなわち、重み付けされた( weighted )時間メジアン操作を施し、その操作を施されたフレームを結合して合成画を作成する。
【0039】
各フレームを大データスペースにマッピング又はワーピングするには、ズームのフレームシリーズが実質的に一定な焦点距離のフレームのシリーズとしてモデル化(modelled)され、1又は2の動いている被写体を記録する。その状況は相互的(reciprocal)なものである。記録装置の焦点距離を変化するものとして処理するかわりに、シーン全体が固定焦点距離レンズの記録装置に近づくか、又は遠ざかるものとして処理しても同じことである。
【0040】
以下の説明において本発明方法の基本的ステップを紹介する。基本ステップを最初に紹介するのは説明を目的としたものであって、決して本発明方法のステップ順を示しているのではない。そのステップの順は基本的概念を紹介した後で説明する。
【0041】
本発明の基本的ステップはカメラのズームモーションをリカバー(recover) するためのものである。本発明の方法は、水平方向、鉛直方向及びスケール方向(水平/鉛直平面に垂直)における像の速度成分としてのカメラズームに影響を受ける連続的フレーム間の変化をモデル化するものである。そのような像ポーションに対するフレーム間の速度はこれらの3方向各々について決定される。その結果どのフレームのいかなるピクセル値も、多重速度(連続的多重フレームのペアを表しているもの)をオリジナル像ポーション(部分)を表しているデータに適用することで異なる焦点距離の1フレーム内の対応位置にワーピング可能である。これに関連する技術は1990年4月に発表されたニュージャージー州プリンストンにあるデイビッド サーノフ リサーチセンター(David Sarnoff Research Center)のバーゲン ジェイ(Bergen,J.)、バート ピー(Burt,P.)、 ヒンゴラニ アール(Hingorani,R.)及びペレグ エス(Peleg,S.)らによる表題『3フレームからの2モーション計算』にて開示されている。以下の基本的説明の多くは実質的には前記バーゲン他の論文から借用したものである。
【0042】
ある像領域のモーションに対する単純で閉じた系での形態予想法は前記バーゲン他により導き出されたものである。まず、像の部分的な小移動は、像シークエンスであるフレームI(x,y,t−1)及びI(x,y,t)間で生じると考えることができる。このI(x,y,t)は、時間tにおけるx(水平)及びy(鉛直)方向に延びている観察像であり、例えば、フレーム299にて示されている。I(x,y,t−1)は時間t−1における観察像であり、例えば、フレーム298である。いかなるときにもP(x,y)として表されるxとyのパターンはすべてのピクセルの速度フィールドである速度p(x,y)で移動しており、x方向とy方向双方のモーション成分を有している。モーションフィールドp(x,y)はxとyにおける変位による以下で表される。
p(x,y)=(px(x,y),py(x,y)) (1)
このpx(x,y)はx方向(xとyの関数)の変位であり、py(x,y)はy方向(xとyの関数)の変位である。よって、以下の式が導かれる。
I(x,y,t)=P(x−tpx,y−tpy) (2)
I(x,y,t)=I(x−px,y−py,t−1) (3)
【0043】
前記フレームのインターバルを時間の1ユニットとすることで表記を単純化することができる。最小平方誤差(least squared error)技法に従い、測定値とフィールドpを使用した計算値との間の平方誤差を最小とするモーションフィールドp=(px,py)を求めるのが有益である。
【0044】
【数1】
1フレームから次のフレームまでの偏差が小さいと仮定すれば、等式(4)はI(x,y,t)の省略テーラーシリーズエクスパンション(truncated Taylor series expansion)により単純化することが可能である。
【0045】
【数2】
ここにおいて、
【数3】
であり、従って、
【数4】
となる。
【0046】
像モーションは速度成分の各パラメータ(parameter)に関して等式(6)の導関数(derivatives) をゼロにセットし(誤差は導関数がゼロのときに最小だからである)、得られる等式システムを解くことで得られる。
もし、像ポーションのモーションが単純移動(simple translation) によりモデル化されるなら、p=(ax,ay)となり、このax及びayはピクセルのユニットにおいて定数となり、光学的フロー(flow)等式は以下のようになる。
【0047】
【数5】
【0048】
本発明方法の特徴的な適用ケースにおいては、モーションは単純移動によってはモデル化できないことが理解されよう。なぜなら、単純移動は焦点レンズのズームのようにスケール変化のリカバリー又はモデル化を行わないからである。その代わりに、像のモーションは、アファイン変換(即ち直線を直線に、平行線を平行線に変換するが、ポイント間の距離と、ライン間のアングルを変化させる可能性のある変換)としてさらに典型的に正確にモデル化される。この場合、モーションフィールドpは6個のパラメータであるax,bx,cx,ay,by及びcyを有しており、それらは次のように適用される。
【0049】
【数6】
【0050】
ここで、ax及びayは上記のごとくであり、bx はx方向のxのパーセンテージスケールファクターであり、cx はxのパーセンテージローテーションファクターであり、y位置に関係する(depending on)ものである。by はyのパーセンテージローテーションファクターであり、x位置に関係し、cy はyのパーセンテージスケーリングファクターである。ズームにおける1フレームから次のフレームへのax とay の通常のレンジは、数個のピクセル程度である。残余ファクターの普通のレンジは0.001から0.1程度である。もし、等式(6)の誤差がこれらの6個のパラメータの各々に関して微分(differentiated)されると、6個の未知数ax,bx,cx,ay,by及びcyを持つ6個の等式システムが得られる。即ち、
【0051】
【数7】
である。
【0052】
このシステムは係数ax,bx,cx,ay,by及びcyについて解かれなければならない。解を得ることは可能である。なぜなら、Ix,Iy,及びIt、即ち、x、y及びtに関する像の部分的導関数は時間t及び時間t+1の像値から決定可能だからである。It は時間t+1のピクセル値を時間tにおける対応ピクセル値から差し引くことで決定される。Ix は時間tのピクセル値と時間t+1の対応ピクセル値を加えて、xにおける導関数フィルター(filter)を介してその合計をラン(run)させることで決定される。Iyはその得られた合計をyの導関数フィルターを介してランさせることで決定される。これらの3個の値が像内のすべてのピクセルに対して決定されたならば、等式(10)のシステムは、係数ax,bx,cx,ay,by及びcyについて解かれる。これらの係数を知れば、1つのフレームから次のフレームまでの像の特殊なアスペクト(aspect)を代表する与えられたピクセル値の位置の変化を決定することが可能となる。
【0053】
従って、フレーム201のピクセル値の位置を決定するために、像のポーションをワープされていないフレーム202の像の対応ポーションと合致させるためにフレーム201が1ステップ分だけワーピングされた後に、等式9xと9yの変換がフレーム201の各ピクセル値に適用される。図7に示すように、ポイント(x,y)、ピクセル位置(20、30)の像ポーションを考慮されたい。(図7はスケールするためものではない。)図7においてオリジナル位置におけるフレーム201は、符号201にて表される。フレーム202のスケールにワーピングされた後、フレーム201は2012 として表される。フレーム203のスケールにワーピングされた後には2013 として表され、この要領でフレーム20199まで続行する。スケールの増加率10%(1フレームから次のフレームに対するものとしては大きい率)と5個のピクセルの右側へのパンに対しては、フレーム201とフレーム202間の典型的な係数は以下の値を有している。
【0054】
【数8】
フレーム201のピクセル(20、30)での値のx方向におけるフレーム201からフレーム2012 へのずれは、5+(.1×20)+(0×30)=7となる。その値はxの正の方向に7ピクセル分移動させ、x位置27にくることを意味する。y方向のずれは、0+(0×20)+(.1×30)=3となり、yの方向に3ピクセル分移動してy位置33にくることを意味する。これは図7にて略図的に示されており、フレーム201のピクセル位置(x,y)からフレーム2012 の別位置(その像の同一箇所)へ向かう曲矢印Aである。
【0055】
同様に、同じピクセル値をフレーム2013 にて占める位置にワーピングするには、フレーム202と203との間で6つの等式(10)のセットを解くことで得られる係数ax,bx,cx,ay,byとcyを使用してフレーム2012 のピクセル座標(coordinates)に変換等式(9x)と(9y)を適用することが必要である。それらの係数は、フレーム201とフレーム202との間で得られたものとは異なるかもしれない。
【0056】
その変換等式は1次式(linear)であり、よってリバース可能(reversible)である。フレーム201のスケールからフレーム202のスケールへの変換には係数ax,bx,cx,ay,by及びcyが使用される。フレーム202のスケールからフレーム201のスケールに変換するには、これらの係数の1次逆元(linear inverse)が使用される。
【0057】
以上説明したように、フレーム201のポイント(x,y)からのピクセル値はフレーム2012 の新位置にワーピングされる。ポイント(x+1,y)からのピクセル値もフレーム2012 の新位置にワーピングされるが、その位置は典型的にはピクセル(x,y)の値に対応するワーピング位置に隣接することはない。もしこれ以上何の操作もしなければ、フレーム2012 のこれら2ポイント間のスペースはブランク又は値なしの状態となる。このスペースに情報を入力するには何らかのインタポレーションが必要となる。1次及び双1次(bilinear)インタポレーションを含む種々な技法が可能である。双1次インタポレーションは効果的に使用されている。
【0058】
バーゲン、バート他により説明されているように、前記のモーション予想法はズームシークエンスの1フレームから次のフレームまでの像のずれが少ない(1ピクセル以下)前記の省略テーラーシリーズ近似法が適しているの時のみにおいて正確である。図8において略図的に示されている多重解析(ピラミッド)構造(multiresolution structure) を使用することでさらに良い結果が得られ、その技法はより一般的な大きな移動の場合にも適用可能である。
【0059】
アファイン変換パラメータax,bx,cx,ay,byとcyを決定する過程においてガウスのピラミッド(pyramid) Gは、例えばフレーム201と202である像フレームペアの各フレームに対して構築される。シークエンスの各メンバーに対して、その解析及びそのサンプルデンシティ(density )が平方根で減じられている(reduced by a power of 2) オリジナル像の修正コピーのシークエンスによりそのピラミッドは形成される。シークエンス200のフレームの1つがガウスピラミッドシークエンスのベースレベルを形成していることを除けば、例えばG201,0、G201,1、G201,2 、G201,I 等のガウスピラミッドシークエンスのメンバーはシークエンス200のメンバーとは全く異なっていることが特記されなければならない。
【0060】
レゾリューション(resolution)を減少させるために、データはローパスフィルターを通過させられる。このローパスフィルターを通過させることで像の小さな又は素早い移動に関連したデータを排除する。従って、大きなモーションはレゾリューションが最も大きく減少したレベルにて検知される。ローパスフィルターがデータ内の偏差の大部分を排除しているので、存在する全ピクセルに対する計算をする必要性はなくなる。よって、操作対象のピクセル数を減少させるために2程度のサブサンプリング(sub−sampling)が適用される。このサブサンプリングは計算の能率を高め、操作のスピード向上に寄与する。サブサンプリングの特徴的なパターンは隔行及び隔列を無視することである。
【0061】
ピラミッドの各レベルIは、ローパスフィルターの効果を発揮させるために小核(kernel)フィルターωで先行するレベルのデータを収束させることで取得され、続いてサブサンプリングを行う。Gt,l=[Gt,l−1 * ω]↓2 ここでのGt,l は像I(x,y,t)に対するIthのピラミッドレベルである。上記↓2 は、括弧内の量がxとyに対して2でサブサンプルされていることを示している。例えば、G201,1を得るにはG201,0をフィルターωで収束し、その結果をサブサンプリングする。
【0062】
変換の分析は像ピラミッドの低レゾリューションレベル、例えばレベル3にて開始される。480スキャンラインと640ピクセルにより定義されるオリジナル像に対しては、典型的にはレベル3の分析は良好な結果をもたらす。レベルIのサンプル距離はオリジナル像のサンプル距離の2I 倍である。従って、この関係で大きくなる像速度が予想可能となる。追跡手順の各連続的反復にて、分析は次の段階のレゾリューションピラミッドレベルへと移動してオリジナルに近づいて行く。
【0063】
従って、アファイン変換パラメータの決定は、例えばレベル2にて開始する。まず、ピラミッドG201 とピラミッドG202 の間でax、bx、cx、ay、by 及びcy に対する等式(10)を解く必要がある。これは2ステップで行われる。まず、アファイン変換p2のシード(seed)セットが選択される。このシードは全部ゼロであっても、ズームによるスケーリングファクター若しくは知られたパン又はジブによるトランスレーションのような変換の知られているアスペクトに近似して選択されたものであっても構わない。これらのアファイン変換はレベル2でのワーピングされた像を得るためにW2においてG201,2に適用される。これは図8において歪んだ方形G201,2wにより図示されている。たいていの場合には、このワーピングは次の時間インターバルt+1、即ちG202,2でのガウスメンバーを正確には提供しないであろう。よって、第2のステップでは調整用アファインパラメータΔp2 のセットが像の値G202,2とG201,2w 間で予想される。これらは前述で解説されたごとくに予想されるものである。
【0064】
まず、ローパスフィルタリング及びサブサンプリングを介さずにフレームに対して上記したようにIx、Iy及びItを解くことが必要である。Ix、Iy及びItは、さらに小さくローパスフィルタリングされたデータのサブサンプルセットが使用されることを除けば、同様に計算される。フレーム202からフレーム201に対する値を引く代わりに、ワーピングされたピラミッドフレームG201,2wからの値がピラミッドフレームG202,2に対する値から引かれる。このようにして、レベル2の部分的導関数(partial derivative)が決定され、その後にこのレベル用の調整用アファインパラメータax、bx、cx、ay、by及びcyが決定可能となる。調整用アファインパラメータは図8においてΔp2 として集合的(collectively)に示されている。
【0065】
調整用アファインパラメータのセットは、ガウスシークエンスピラミッド201における先行するレベルからのアファインパラメータp2 と結合されてレベル1、即ちp1 用のアファインパラメータを形成する。この結合は単純な加算ではない。例えば、新axタームは時間tにおけるaxターム(ピラミッドG202) や時間t−1におけるax ターム(ピラミッドG201) 及びx方向における他の変化に基づくものである。以下の式はこの関係を説明している。
【0066】
【数9】
【0067】
このプロセスは繰り返されるが、今回はレベル1であり、フレーム201及び202に対する操作過程でアファイン変換パラメータax、bx、cx、ay、by 及びcy がオリジナルレベルにて取得されるまで全レベルを通して実施される。アファインパラメータは最も正確なところで収束(converge) するので、ΔpIタームはゼロとなる傾向にある。
【0068】
従って、いかなるフレームのスケールからの1フレーム(例えば、フレーム226から次のフレーム227のスケール)を変換するワーピングファクターを決定するには、前述の操作が実施される。よって、フレームスケールの各ペアに対して、アファイン変換パラメータax、bx、cx、ay、by及びcyのセットが計算される。その後、1フレーム、例えばフレーム251を適当なサイズに変換するには、まずフレーム251と252に対する先行する分析により決定されたアファイン変換パラメータax、bx、cx、ay、by及びcyを使用してフレーム252のスケールに変換される。次に、その変換されたフレーム2512 はフレーム252と253に対する先行する分析により決定されたアファイン変換パラメータax、bx、cx、ay、by及びcyを使用してフレーム253のスケールに変換される。このプロセスは繰り返され、フレーム300のスケールにて大データスペースにそのフレームが変換されてしまうまで継続される。
【0069】
前記の方法は、もしカメラ又は被写体(どちらでもよい)間の相対的モーションがほとんど存在しないか又はまったく存在しないならば良好に作用し、唯一の像変化はズーミングによるものとなる。しかしながら、実際上はそのようなモーションを排除できることが望ましい。いくつかの方法が考えられる。基本的ではあるが効果的な方法は全フレームを視覚的に検査することであり、視域を横切る人のように大きなモーションを特定することである。モーションが各フレームにおいて生じる領域をカバーするためにマスクが利用可能であり、この領域は変換時には無視することができる。最終的なピクチャーのマスク位置を設定するのに望ましいピクセル値をオペレータは手動にて選択する。
【0070】
別の方法は図9にて略図的に示すように、2つのモーションを追跡するバーゲンとバート他により解説されている技法を利用することである。データはモーションのペアに照らし合わせて評価される。ここでの像I(x,y,t)はそれぞれ独立したモーションpとqを有する異なる像パターンP及びQの組み合わせとしてモデル化される。I、P及びQ間の関係は以下のごとくである。
【0071】
【数10】
上記等式中の○と+を重ねた記号は、以下において便宜上(+)と表記する。
【0072】
ここでは、オペレータ(+)は、加算又は掛け算のごとき2モーションを結合させるためのオペレーションを表し、Ptpは時間tを通じてモーションpにより変換されたパターンPを表しており、バーゲン及びバート他は、もしモーション成分の1つ、及び結合ルール(+)が知られていれば、パターンP及びQの性質について予想をたてることなく、前述の1成分モーション技法を活用して他のモーションを計算することが可能であることを示している。もし、モーションpが知られていれば、モーションqのみを決定すればよく、その逆のこともある。速度pで移動しているパターンPの成分は各像フレームをpによりシフトし、そのシフトしたフレーム値を次のフレームから差し引くことにより像シークエンスから排除することが可能である。得られる差(difference)シークエンスは速度qにて移動しているパターンのみを含んでいる。
【0073】
特殊な場合には、結合オペレーション(+)は加算である。シークエンス200の3フレームI(1)、I(2)及びI(3)の場合について考えてみよう。変数D1及びD2をそれぞれそれらのフレーム間で発生した差フレームに当てはめてみよう。等式11は以下のようになる。
【0074】
【数11】
【0075】
これは1ステップにてパターンPを変換するための302におけるI(1)のワープとして図9において略図的に示されている。この次の段階はパターンPのモーションの影響を取り除くための304におけるI(2)の減算である。その結果得られるものはD1、即ち差(difference) シークエンスの1要素である。D2 はパターンPのモーションにより306でワーピングされたI(3)とI(2)間の308における差により同様に形成される。
【0076】
変更シークエンスは1モーションqで移動する新パターンQq−Qp から構成されることになる。
【数12】
【0077】
従って、モーションqは前述の1モーション予想技法を活用して2つの差(difference images) 像D1とD2を間で計算可能となる。このことが図9にて310で略図的に示されている。同様に、モーションpはqが知られているときにリカバー可能となる。観察された像I(x,y,t)はqによりシフトされ、新しい差シークエンスが形成される。
【0078】
【数13】
このシークエンスは速度pにて移動しているパターンPp−Pq である。
【数14】
よって、pは1モーション予想技法を活用してリカバー可能となる。
【0079】
このシフト及び減法手順はパターンに関わりなく、又はパターンを決定することなく像シークエンスから1つの移動パターンを取り去る。実際上はpもqも最初は知られていない。しかしながら、最初に非常におおまかな予想値を選択したとしても、それらの両方ともが前記の技法を反復することによりリカバー可能である。この反復手順は1モーション技法を反復的に適用する。モーションpを定義するパラメータのおおまかな予想値で始めても、qの予想値は取り出され、312にてワーピングステップの302と306にリターンされる。予想値qから改善予想値pが取り出され、312にてワーピングステップ302と306にリターンされる。この手順を繰り返す。この手順にて正確な予想値に素早く収束する。本当の像シークエンスを使用して、3から12サイクル後には要求を満たす変換が可能になる。
【0080】
本発明のこの部分のステップを要約すると以下のごとくとなる。
1。パターンPのモーションp0に対する(ついて)初期予想値を決定する。
2。最新のpn予想値を使用して等式(12)における差像(difference images)D1及びD2を形成する。
3。1(シングル)モーションエスチメータをD1とD2に適用してqn+1 の予想値を得る。
4。予想値qn+1を使用して新差像D1及びD2を形成する。
5。1(シングル)モーションエスチメータを新しいD1とD2に適用して新pn+2を取得する。
6。ステップ2から手順を繰り返す。
【0081】
この2モーション技法に従って取り出された2セットのアファインパラメータを観察することで、移動シーン又はカメラモーションを特定することが可能となる。一般的に、ズームワーピングのみに関係するパラメータは1フレームから次のフレームにスムーズに、またほんの少々変化するだけである。像モーション又はカメラモーションに関係するパラメータはズームによるものとは異なる変化を示す。これらの相違する変化は検査により観察可能である。
【0082】
1フレームペアから次のフレームペアまでのアファインパラメータを自動的に比較し、その変化が予め設定したレベルを越えるときには遮光装置を機能させる(triggering a flag) ことでシーン又はカメラのモーションの特定を自動化することは理論的には可能である。1つの可能性を有する技法はフレームの2ペアのアファインパラメータ間の差を設定した数の先行フレームペアの標準偏差(standard deviation)と比較することである。例えば、70のフレームのシークエンスに対しては、少なくとも10のフレームペアの標準偏差を決定することが一般的である。
【0083】
もし、カメラとシーン内の要素の両方ともが移動しているとき、2個以上のモーションが存在し、カメラモーションを排除するためのさらに一段上の方法が便利である。前述したアファインの2モーション予想法とマスキング技法を組み合わせると便利な結果をもたらすことが発見されている。像内のずれベクトルの確率デンシティ関数を決定することもまた便利であろう。一般的な理解には、1990年6月にアメリカ合衆国マサチューセッツ州ケープコッドにて開催されたアメリカ光学学会の『機械理解及び機械視覚総会』の議事録内にあるギロッド ビー(Girod,B.)とクオ デー(Kuo,D.)による「ずれヒストグラムの直接的予想法(Direct Estimation of Displacement Histograms)」を参照するのがよい。ここにはフレーム間で移動する異なる被写体の数と、それらに対応するずれベクトルがどのようなものであるのかについての情報が掲載されている。ローカルブロックマッチングエスチメータ(local block matching estimator)がそれらの移動被写体を空間的に位置取りさせるのに使用されている。移動被写体の領域は計算によりマスク処理が施され、その後にアファイン予想値が計算される。
【0084】
フレームペア間のずれが小さいものであって、突き当たったり、焦点距離の急激な変動のごとき予期しないカメラ移動がまったく存在しないと仮定すれば、アファインパラメータはフレームペア間ではあまり異なるものではない。前述のごとくにパラメータが決定された後、その係数は見せ掛けの値を取り除くために簡略化される。
シークエンス200の各フレームからのYチャンネルデータがワーピングされれば、決定されたアファインパラメータはフルカラー映写の変換を提供するために、例えば位相及び求積法(phase and quadrature)で他のチャンネルに適用される。
【0085】
ワーピングされた短焦点距離フレーム201のフルラスタ(full raster) が満たされた後、1フレームから次のフレームまでのアパーチャ設定の変分のごときトーンに影響を及ぼす変化を補うためにトーンスケール補正を実施することができる。中央の像から始めて、2つの像が隣接する箇所周辺で光度のサンプルが採られる。データにスプライン(spline)がフィットされ、大きい方の像(低めの解像度)のピクセルが小さい方の像のピクセルに変更される。その後にこの補正像のトーンスケールは次の大きさのワーピングされた像との比較に用いられ、最大の像までこの手順が繰り返される。
【0086】
シークエンス200の各フレームからのフルカラーデータが同じデータスペースにワーピングされたら、各ピクセルに対する1フレームからのデータは他の全フレームのデータと組み合わせる必要がある。いくつかの技法が可能である。最も基本的な技法は最高の解像度を有するフレームから最終合成ピクチャー用のピクセル値を選択することである。図6において示されているように、フレーム299がワーピングされたものであるフレーム299wが一般的にその合成ピクチャーの中央部を占め、このフレームはその像の中央部に関して最も高い解像度となるであろう。フレーム298からの情報は中央部の環状方形部位を占め、この情報はこの部分に可能な最高の解像度となる。フレーム297からの情報はフレーム298wの環状領域周辺の多少大きな軸の環状方形部位を占め、このようにして第1フレーム201wの環状周囲がワーピングされた像(figure)の最も外部を占めるまで続けられる。
【0087】
上記手順にて好ましい結果が得られるが、明瞭なエッジ部が現れ種々のフレームから発生した領域間の境界線を際立たせる。この理由によりあるピクセルに対してシークエンスのワーピングされた全フレームにウエイト関数(weighting function)が適用されそのピクセルの値としてウエイト値のメジアンがとられる。図10に示すようにピクセルの位置はベクトルVにより示され、像の同一位置にワーピングされた全フレーム、即ち201wから299wまでを突き抜ける。前記ウエイトファンクションはベクトルVに沿ってその像値(image values)に適用される。典型的なウエイト関数は図11のグラフにて示されている。図から分かるように、そのウエイト関数は上向きに凹形状であり、クロースインズームショット(close in zoom shot)からのピクセル値は最大のウエイト、おそらく100%が付与される。望む効果に応じて種々のウエイト関数が適用可能となる。一般的には低い方の解像度を有するフレームよりも高い解像度を有するフレームに対してさらにヘビーなウエイトが付与される。
【0088】
多少不自然ではあるが低い方の解像度を有するフレームのシークエンスから、高い解像度を有する1静止画像を得る方法のブロック作成について述べてきた。図13には、実質的に好ましい順序でその方法のステップが示されている。ビデオフィールドのシークエンスは402にてとられる。フィールドは一連のフレームを作成するために404で脱インターレースされる。このポイントで交互的パス(alternate path) が取得可能となる。被写体又はカメラモーションは、406にてズームモーションから分離することができ、その後にアファイン変換係数ax、bx、cx、ay、by及びcyを発生させるために光学系フロー分析がなされる。404においてステップ408に分岐(branch)することが可能であり、それにより光学系フロー分析と、被写体又はズームモーションからのカメラモーション分離とを結合させる。この分岐は、また係数ax、bx、cx、ay、by 及びcy を生じさせる。次に412においてそのアファイン変換が各フレームに対して必要な回数だけ適用され、各フレームに対して高い解像度ラスタ(raster)での対応フレームが創出される。図11に示す時間メジアンフィルターは、414にて全フレームに適用され、最終合成は416にて高解像度ラスタでの各ピクセル位置で時間メジアンフィルターによりフィルターされているワーピングされた各フレーム201w、202w等に対するそのピクセルでの値を加算することで形成される。
【0089】
本発明装置の好適実施例は図14において略図的に示されている。シーンから反射した光、又はシーンにより伝達される光を採り入れてビデオカメラ等の入力装置500はシーン502に適用される。その光は前記入力装置又は標準コンバーター504により電気信号に変換される。コンバーター504又は入力装置500から、データはメモリー装置506又はデータプロセスユニット508を通過する。メモリー装置506はフィールド(field) によって、またさらにデータが変換されるどのような他の形状(configurations)にも従ってデータを記録することができる。前記データプロセスユニットは、典型的には適正にプログラムされた汎用デジタルコンピュータである。オペレータはコンピュータキーボード等の入力装置510を介してデータプロセスユニット508にコマンドを発する。これらのコマンドは前述の本発明方法のステップを行使するようにコンピュータに対して指示する。指示の内容は、例えば、そのフィールドの脱インターレーシング、差シークエンス(difference sequences)を創出することによる2又はそれ以上の移動被写体の特定、アファイン変換係数の計算、全フレームを望むデータスペースにワーピングすること、ウエイトされた時間メジアンフィルターに従いワーピングされたフレームからのデータを結合させ合成ピクチャー映像に導く、等々である。各ステップでの変換されたデータはメモリ装置506に記録可能であり、プリンター、ビデオディスプレー装置又は他の適当な出力装置等の一般的な出力装置512に出力可能である。さらに、データは追加的操作を施したり、蓄積又はディスプレーを行うために遠隔地(remote location) に伝達することもできる。
【0090】
尚、比較的低解像度でワイドアングルを有するショットにおいては、多くの箇所は不鮮明である。一方、本発明の方法に従って作成された合成ピクチャーの中央部は鮮明で焦点がぴったりと合っており、詳細までくまなく示している。
【0091】
以上の解説は本発明の説明を目的としたものであり、発明の限定を意図したものではない。ビデオ以外においても、静止画像のシークエンスを利用するいかなる記録技術でも使用可能である。もしその記録技術がピクセル値を発生しないならば、その記録装置により発生されたデータは周知である本分野技術の方法に従いピクセル又は等価なデータスペースにコンバートすることが可能であり、また有効である。ここに紹介した技法に加え、ズームモーションからのカメラモーション又はシーン内のモーションを分離するための種々な技法が適用可能である。さらに、アファイン変換係数を計算するのにガウスピラミッドのステップを利用する必要もない。その計算はそのフル(full)高解像度フレームに対して施されるもののごとき他の方法によっても可能である。
【0092】
本発明の方法はズームからの1静止画像の場合以外に一連のパンショット及びジブショットからの1パノラマ静止画像を創出する場合にも利用可能である。そのような場合には、全フレームは全パノラマシーンと同じスペースを有するデータスペースにワーピングされることになる。互いに重なり合った焦点距離の異なるピクチャーの山とはならないであろう。むしろ、エッジ部がオーバーラップした一連のピクチャーとなるであろう。ズームシークエンスに適用された実施例においては、ワーピングの主要な要素は各フレームからのデータを拡大してシーンの像を互いに整合させることである。シーンの全像が互いにアラインするようにデータをワーピングすることはまたズーム系適用の1重要面である。この特徴により、例えばカメラモーション又は被写体のモーションによるモーションを取り去ることができる。
【0093】
パノラマ系適用においては、この拡大する特徴は重要ではなく、たいていの場合には使用されもしない。しかしながら、そのアライメントの観点からは大変重要であり、パノラマシーンの全域的視域が連続的データスペースとして表されているならば、各フレームはその全域的視域の限られた部分を取り上げることになる。ズーム系適用の場合とは異なり、パノラマ系適用における各フレームは同じ焦点距離で創出される。各フレームの像が別のフィールドの同一像と合致するように、全域的データスペースでのフレームからのデータをアラインするために本発明の方法を使用するこが必要である。本発明の方法は、主にショット間のつなぎ目に適用される。もしパンのスピードがフレーム周波数に比べてゆっくりならば、つなぎ目におけるフレーム間のオーバーラップは非常に大きくなる。
【0094】
パノラマシーンの特定部分でさらに鮮明な画像を得るためにズーム処理をパノラマ処理と結合させることは本発明の思想内である。
本発明の技術を被写体とビデオの非連続的なセグメントからのフレームと結合させるために使用することも可能である。
【0095】
本発明はビデオカメラにより得られたデータの範囲にて記述されてきたが、本分野の通常の技術者であれば、本発明の方法は、いかにして得られたものであろうともデジタル像を表すデータにも使用可能であることが理解されるであろう。例えば、異なる焦点距離で撮影された一連のスチール写真は前述した方法により組み合わせて特定の部分の像を補強した1像を形成することができる。同様に、パノラマスペース内で種々な位置を描写している一組みのスチール写真を本発明の技法に従って組み合わせ、1枚のパノラマ像を作成することができる。この中ではその種々な像部分はリカバーすることが可能であり、共通な焦点距離であるが異なる視域を有する1組みのばらばらとなった静止画像内にはパノラマ像の元の人工的要素はほとんど示されていない。
【0096】
本発明は「特許請求の範囲」により特定された全実施例を含む明細書中の記載に照らし合わせて考慮されるべきものであり、さらに合理的範囲内でのそれらの等価形態をも併せて考慮されるべきである。
【0097】
【発明の効果】
以上詳述したように、本発明は、以下の利点を備えた比較的に高解像度を有する静止画像を創作する方法及び装置を提供することができる。
1)像全体にわたり高解像度で情報を取得する必要がない。
2)あまり重要ではない像の大部分に関して情報を収集する必要がない。
3)種々な焦点距離又は視域の標準的ビデオ像のシークエンスを入力要素として取得できる。
4)標準的フィルム像のシークエンスを入力要素として取得できる。
5)望む像のいかなる部分でもその解像度を増強する。
6)適正にプログラムされた汎用デジタルコンピュータ及び標準型ビデオ又は映画装置が使用可能である。
【0098】
さらに、本発明によれば、過剰なデータ保存及びアクセス能力を要せず、あるシーンのパノラマビューを観察者に提供し、その観察者にそのシーンの1位置から他の位置までのナビゲーションを可能とする方法を提供することができる。
又、デジタル化されたいかなる形態の像データであろうとも前記能力を発揮させることができるという優れた効果を奏する。
【図面の簡単な説明】
【図1】撮像装置の焦点距離と撮影されたシーン部分との関係を略図的に示す図である。
【図2】ビデオフィールドとビデオフレームのペアの概略を示す図である。
【図3】組み合わされてビデオフレームを構成する典型的なビデオフィールドのペアのインターレーシング(interlacing)を示す図である。
【図4】実質的に同じシーンのビデオフレームのシークエンスを略図的に示したものであり、短い焦点距離から比較的長い焦点距離にズームインした状態を表す図である。
【図5】最も短い焦点距離(ワイドアングルな視域)のビデオフレーム内シーンの部分の概略を示す図であり、徐々に長くなる焦点距離のフレームのシークエンスの残りメンバー内に供給されている。
【図6】図4において示すシークエンスの各ビデオ像(図6の左側に示されている)の同一サイズデータスペースにマップ(map)又はワープ(warp)した状態の概略を示す図であり、そのサイズは拡大されたサイズの最も低い解像度フレームである。
【図7】元は比較的短い焦点距離で記録された1フレームをそのシーンの連続的拡大関与するデータスペースにワープしている状態の概略を示す図である。
【図8】シークエンスにおける複数のフレーム間の荒いモーション及び繊細なモーション両方を特定する方法の概略を示す図である。
【図9】フレームのシークエンスにおける2つの移動する被写体のモーションを特定する方法の概略を示す図である。
【図10】同一データスペース内にワープされた後のシークエンスの各フレームの概略を示す図であり、最終的映像化に再構築されるようにアラインされている状態を表し、各フレームの共通ポイントを通るベクトルが示されている。
【図11】最終的な像を構築するのに使用されるウエイト因子(weighting factor)とそのウエイト因子が適用されているワープされたフレームの元の焦点距離との間の関係を示すグラフ図である。
【図12】最終的な再構築像とその構築要素の概略を示す図である。
【図13】本発明の方法の好適実施例を説明するフローチャート図である。
【図14】本発明の装置の好適実施例の概略を示す図である。
【符号の説明】
2 像
4 焦平面
6 中央部[0001]
[Industrial application fields]
The present invention basically relates to a method for creating a high-resolution still image using a plurality of images and devices having different focal lengths. In particular, the present invention relates to a method for creating a static high-resolution image that is a fixed focal length image using a plurality of different focal length images (images) such as a zoom video sequence. The present invention also relates to a technique for creating a still panoramic image (image) from a plurality of images having a narrow viewing zone than that of a still panoramic image.
[0002]
[Prior art]
In the field of image processing, it is often desirable to obtain a still image of a scene. In most cases, the still image has a resolution determined by the performance of the recording means and the focal length of the device that captures the still image. Video devices are currently relatively inexpensive and are simple enough to be used by many people. Video recording devices offer certain advantages over still image rendering, such as still photography. A started video camera can shoot all events within its focal area, while in the case of regular still photos, it only shoots the subject selected by the photographer by pressing the shutter. Therefore, when shooting a subject that moves at a high speed, such as at a sporting event, or in situations where an unexpected situation occurs, such as a wedding ceremony or a news documentary, the video is always set to the shooting state, and the desired steel It is often convenient to select However, the resolution of the video signal is limited to about 480 lines (scan lines) per picture height and about 640 samples per picture width. (The video signal itself is continuous through the scan line; however, it is sampled in the scan line direction for display.) In many cases this resolution is insufficient to provide high image quality. In particular, this is insufficient if the original subject image was taken with a relatively short focal length. When the image is magnified, the image becomes quite unclear. Similarly, in the case of other shooting techniques such as movies and 8 mm shooting, the resolution is limited to the specific resolution. Image magnification necessarily degrades the resolution per unit area throughout the image.
[0003]
For example, it may be desired to film a solo performer playing with an audience in front of a piano on stage. If the imaging device is a video device, the wide-angle image showing the audience will have a resolution commensurate with the standard video resolution. The resolution across the screen is the same. Thus, the image of the solopianist is as rough as the rest of the scene. For example, if the sololist image takes up 1/16 of the space on the entire screen, 120 lines are used in the vertical direction and 160 samples are used in the horizontal direction. In this case, for example, a less important scene such as a vacant seat behind the venue has the same resolution. FIG. 1 schematically shows the focusing of a scene on one focal plane for two different focal lengths. If the focal length fw is relatively short, the full width of the
[0004]
Of course, zooming in on the soloist and taking a picture of the soloist with a longer focal length makes the soloist clearer (ie, more lines in the vertical direction and more pixels in the horizontal direction). It is possible to project to. As shown in FIG. 1, the focal length fT is longer than fw. However, only the central part 6 of the
[0005]
Techniques for enhancing image data by combining two channels of data are well known. The first channel has a high spatial resolution (ie, a relatively large number of pixels per unit length) and a relatively low temporal resolution (ie, a relatively small number of frames per unit time). The second channel has a low spatial resolution and a high temporal resolution. As a result of the combination, the spatial and temporal resolution approaches those higher and is less than the information required to convey a single image sequence with high temporal and spatial resolution under normal conditions. Information transmission is sufficient. B. B. submitted to the Department of Electrical Engineering and Computer Science in Massachusetts Institute of Technology in May 1988. S. See the paper “A Two-Channel Spatial-Temporal Encoder” by Claman, Lawrence N.
[0006]
There are no techniques available today for projecting images taken at the shortest focal length, such as increased resolution of various spatial portions of still images. Clayman's paper uses fixed focal length images and vector quantization, resulting in a steel frame with a resolution and viewing zone that does not exceed that of the original spatial high-resolution image.
[0007]
[Problems to be solved by the invention]
It would also be desirable to be able to provide a panoramic view of a scene while maintaining a substantially common focal length from one part of the panoramic view to another part of the other panoramic view. A conventional way to do this is to move the video camera from one side of the panoramic scene to the other, essentially taking a number of slightly different frames from the previous and next frames. With respect to the adjacent frames, each frame differs only in the right and left edge portions. Most of the images forming the frame are identical to the images of adjacent frames. A large amount of data storage and data access is required to store and navigate these various images forming the panoramic scene. This prior art is not desirable because data storage and access is expensive. Also, most of the stored and accessed data is not practical. Imaging devices currently used to capture panoramic spaces include the movement of a glubusscope or a volpi lens.
It is also desirable to be able to pan from one position of a scene to another and zoom at the same time. A disadvantage of the prior art is that it produces undesirable results in such a combination.
[0008]
Accordingly, it is an object of the present invention to provide a method and apparatus for creating a still image having a relatively high resolution with the following advantages:
1) There is no need to acquire information at high resolution over the entire image.
2) There is no need to collect information on the majority of images that are less important.
3) A sequence of standard video images of various focal lengths or viewing zones can be acquired as input elements.
4) A standard film image sequence can be acquired as an input element.
5) Increase the resolution of any part of the desired image.
6) A properly programmed general purpose digital computer and standard video or movie equipment can be used.
[0009]
Another object of the present invention does not require excessive data storage and access capability, provides a viewer with a panoramic view of a scene and allows the viewer to navigate from one position of the scene to another. Is to provide a method. Still another object of the present invention is to make the above-mentioned ability possible regardless of the digitized image data.
[0010]
[Means for Solving the Problems]
To summarize the present invention for solving the above-mentioned problems, the present invention is a method for generating a still image, comprising the steps of creating a plurality of images, each image having a different focal length from the others. And having the steps of scaling each image to a common focal length and combining each scaled image into a final image of one focal length, the portion of the final image being Compared with the original sequence, it has a relatively high resolution. The invention further includes the step of incorporating a sequence of still images of the changing viewing zone into the panoramic image of the overall viewing zone. In addition to combining images generated in different viewing zones, the method of the present invention can also be used to combine images generated for different viewing zones of the overall scene, such as panoramic scenes, into a combined panoramic viewing zone. It is. This aspect of the invention can also be combined with those of varying focal lengths.
[0011]
The present invention is also an apparatus for generating a still image, and has a means for creating a plurality of images. Each image is created at a different focal length from the other, and each image is shared. Means for scaling to one focal length and means for incorporating the scaled image into one image at one focal length. The apparatus of the present invention further includes an apparatus that incorporates images generated for different viewing zones of the overall scene into a combined panoramic viewing zone.
[0012]
Next, the first embodiment will be described. Here, the present invention is a method for generating a still image, which comprises the following steps:
1) A step of generating a plurality of signals each representing a plurality of images created at different focal lengths.
2) Transform each signal to represent the corresponding image scaled to a common focal length.
3) combining each converted signal to obtain a signal representative of the combination with a scaled image that is partially relatively high resolution compared to the image of the original sequence, resulting in a final image of one focal length.
[0013]
Another embodiment will be described. Here, the present invention is a device for generating a still image and comprises the following means:
1) A means for creating a plurality of images created at different focal lengths.
2) Means for generating a plurality of signals representative of respective images at different focal lengths.
3) means for converting each of the plurality of signals to represent corresponding images scaled to a common focal length
4) Means for obtaining a signal representative of a combination in which each converted signal is combined and the scaled image is one image at one focal length.
[0014]
Still another embodiment will be described. Here, the present invention is a method for generating a still image comprising the following steps:
1) A step of generating a plurality of signals each representing a plurality of images created in different viewing zones.
2) Transform each signal to represent a corresponding image translated to one position within a common panoramic viewing zone.
3) A step of combining each converted signal to obtain a signal representative of a combination of translated images as a final image in one panoramic viewing area that covers a larger viewing area compared to the image of the original sequence.
[0015]
Still another embodiment will be described. Here, the present invention is a device for generating a still image and comprises the following means:
1) Means for creating a plurality of images created in different viewing zones.
2) Means for generating a plurality of signals representing one of a plurality of images in different viewing zones.
3) Means for converting each of the plurality of signals to represent a corresponding image translated to a position in a common panoramic viewing area.
4) A means for obtaining a signal representative of a combination of translated images that combine the converted signals into one image in one panoramic viewing area.
[0016]
Still another embodiment will be described. Here, the present invention is a method for generating a still image comprising the following steps:
1) A step of generating a plurality of signals each representing one of a plurality of images created in different viewing zones.
2) Transforming each signal to represent a corresponding image translated to a position in a common panoramic viewing area and scaled to a common focal length.
3) Combining each transformed signal, partly higher resolution than the original sequence image, and the final image of one panoramic viewing zone that covers a larger viewing zone compared to the original sequence and one focal length image Obtaining a signal representative of a combination of translated and scaled images.
[0017]
[Action]
The above arrangement provides a method and apparatus for creating a still image having a relatively high resolution with the following advantages.
1) There is no need to acquire information at high resolution over the entire image.
2) There is no need to collect information on the majority of images that are less important.
3) A sequence of standard video images of various focal lengths or viewing zones can be acquired as input elements.
4) A standard film image sequence can be acquired as an input element.
5) Increase the resolution of any part of the desired image.
6) A properly programmed general purpose digital computer and standard video or movie equipment can be used.
[0018]
In addition, a panoramic view of a scene is provided to an observer without requiring excessive data storage and access capabilities, and a method is provided that allows the observer to navigate from one position of the scene to another. The
In addition, the above-described ability can be exhibited regardless of the digitized image data.
[0019]
【Example】
Hereinafter, embodiments of the present invention will be described in detail.
A typical video image is created by a sequence of fields. Each field represents a still image of the scene being imaged. Interlace results in a vertical shift of 1/2 scan line between successive fields. (Some display systems are scanned without interlacing, in which case there is no vertical shift between the fields.) Displaying such a sequence of still fields generally at a rate of 50 or 60 fields per second. Thus, motion or change is expressed by psychological, physical and physical characteristics of the human visual system. Each field pair is composed of a screen filled with lines as described above, and each line is composed of pixels (pixels). Each pixel is represented by a signal value that is a specific range in computer memory or other suitable digital recording medium. For color images, this range is typically 0-255 for each of the three color components, and for grayscale images this range is characteristically per element. 0-255. Image sources such as satellite images or x-rays may have a range on the order of 0-4096. The pixel values are stored in memory in a shape that corresponds in some way to their position in the frame. All operations performed on the video image are typically performed on signals representative of individual pixel element values.
[0020]
In the case of monochrome recording of an image, each pixel element is a single discrete element. For image color recording, a set of channels or groups of pixels is used for each picture element. For example, in a color value scheme known as RGB, each color is represented by a combination of red (R), green (G), and blue (B) color quantities. Each of these three colors “channels” is provided separately. In an RGB system, each channel has the same number of pixels per scan line and the same number of scan lines per screen. The other color value systems described below have a different number of samples per scan line for different channels. The elements of the pixel are typically located next to each other on the display device and combine to form the original color when displayed at the same time (which is an illusion for the viewer). Other schemes such as a pixel time sequence display may also be used.
[0021]
The RGB color value scheme is useful for specific uses, but is not necessarily optimal for mathematical manipulation of color values. Other color schemes are more useful, especially those containing channels representing the brightness of the image. In general, luminance is described as the intensity of reflected or reflected light from the perceived area per unit in a given direction. In general, a three-channel color space defined by luminance and two other dimensions is equivalent to the RGB color space. A typical luminance color space is the Y (luminance), i (phase) and q (quadrature) color space used by the television standards committee for television broadcasting in the United States. Other luminance color spaces include CIE (Commission International de l'Eclairage), Y, x, y (luminance and two chrominance channels) and variants thereof, Y, u, v (luminance and two chrominance channels) and others Many also exist.
[0022]
In the present invention, one channel or component is sufficient for most processes. All data calculations and manipulations are first performed only on the Y channel of the color image. The reason why the Y channel is selected is that it usually has the highest signal-to-noise ratio in video systems, and the Y channel is often higher in spatial frequency than chrominance. It is because it is sampled in. After the necessary transforms for the Y channel are determined, the same transforms are applied to the remaining channels, such as the phase and quadrature chrominance channels. The characteristics of these transformations are described below.
[0023]
Although a video image is usually considered a series of frames, in practice such a “frame” does not exist at any time. It is actually a pair of “fields” that is considered as a frame by human observers and engineers in the field. Each field is composed of even-numbered scan lines or odd-numbered scan lines. The even field is offset from the odd-numbered scan lines by half of one scan line in the vertical direction. One pair of fields are interlaced to form one frame.
[0024]
Field pairs 101 and 102 are shown schematically in FIG.
[0025]
The method of the invention uses a sequence of frames, in particular a sequence of video images. Implementation of the present invention requires de-interlacing of frame components. Deinterlacing means constructing a signal that represents the actual frame of pixel elements, particularly in computer memory only, including the pixel values of each line of the image, not just odd or even lines. . The present invention can also be applied to data recorded without using interlace technology. However, since the material to be interlaced is common, it is important that it can be deinterlaced.
[0026]
According to the invention, deinterlacing is achieved by applying a median filter to the data signal. For example, four values of the median are used to create the seventh scanline of the frame deinterlaced at time t. That is, the value for each pixel element of the 7th line of the field at time t-1, the value for the corresponding pixel element of the 7th line of the field at
[0027]
The same process is repeated for each pixel in the scan line and each odd line scan line in the field. Even-numbered scan lines are simply taken from the field at time t. It should be pointed out that this deinterlaced frame is different from any original sequence frame. This is because the pixel elements forming the odd column scan line are created by the combination of the preceding and following fields and the field at time t.
[0028]
This process is repeated to create a second deinterlaced frame, but the even column scan lines are formed using the median of the even column scan lines from fields t and t + 2, and the odd column scans. A line is formed from a field t + 1 that exists above and below the associated scan line. The odd line scan lines are taken directly from the field at
[0029]
After the frames are deinterlaced, a series of frames are obtained, each consisting of the total required number of even and odd scan lines, perceived by the observer who is observing the sequence of fields. The number of scan lines is the same as that in one frame.
[0030]
Other deinterlacing methods can also be utilized and are within the spirit of the present invention. However, these other methods are not believed to provide as good results as the aforementioned deinterlacing techniques. One way is to perform linear interpolation between the scan lines in each field to synthesize a new line of data between each pair of lines in one field. This technique clearly leads to a loss of spatial resolution in the part of the image that is not moving. Another method is to perform interpolation between fields before and after the current field. This technique sacrifices the temporal resolution of the moving image portion. It is also possible to use an affine transformation to perform data manipulation on different fields and warp one field to the next. However, field affine transformations do not provide as good results as performing affine transformations on frames that have been deinterlaced by interlaced spatial temporal aliasing.
[0031]
The sequence of frames used in the method of the present invention is typically a zoom sequence, which means zooming from a long focal length to a short focal length or vice versa. You can also pan (horizontal motion) or jib (vertical motion) during zooming. A de-interlaced 100-
[0032]
Each frame of the
[0033]
The relationship between individual frames and the original scene is shown schematically in FIG.
[0034]
The object of the present invention is to utilize as much information as possible from each zoom frame. Each zoom frame is enlarged and will have the same scale as the longest focal length frame,
[0035]
The scale-up of each frame is a signal that represents the data that is ultimately mapped to the final data space through the conversion operation of the data signal that represents each frame and the operation that maps the converted data to a series of data spaces. This is achieved by an operation that generates This final data space is much larger than the small data space and is therefore referred to as the large data space. (In fact, each frame is configured in a large space and occupies the same data space as the
[0036]
The resolution of each extended frame is of course different from each other, and the details of information obtained in some part, for example the central letter X from
[0037]
As mentioned above, if the frames are scaled to the same size and each data is overlaid on the other data, they overlap well, but only substantially overlap, not necessarily in a strict sense. Do not mean. This is due to camera motion and scene element motion. It is also important to take these motions into account in the process of using frame sequences to create relatively high resolution still images.
[0038]
The method of the present invention will be described in detail below. In order to take advantage of the scheme in a specific way, the method of the present invention first requires that each frame be mapped or “warped” to a data space of the same dimension (large data space). Each frame of the sequence after its warpingIs weighted, ie weighted ( weighted ) Perform a time median operation and combine the frames that have been operated to create a composite image.
[0039]
To map or warp each frame to a large data space, the zoom frame series is modeled as a series of frames of substantially constant focal length and one or two moving subjects are recorded. The situation is reciprocal. Instead of processing the recording device as if it were changing the focal length, it would be the same if the entire scene was processed as approaching or moving away from the recording device of the fixed focal length lens.
[0040]
In the following description, the basic steps of the method of the invention are introduced. The basic steps are first introduced for illustrative purposes and do not in any way indicate the order of steps of the method of the present invention. The order of the steps will be explained after introducing the basic concepts.
[0041]
The basic steps of the present invention are for recovering the zoom motion of the camera. The method of the present invention models changes between successive frames that are affected by camera zoom as the velocity component of the image in the horizontal, vertical and scale directions (horizontal / vertical to the vertical plane). The speed between frames for such image portions is determined for each of these three directions. As a result, any pixel value in any frame can be applied within a frame at a different focal length by applying multiple rates (representing a pair of consecutive multiple frames) to the data representing the original image portion. Warping to the corresponding position is possible. Related technologies were published in April 1990 at the David Sarnoff Research Center in Princeton, NJ (Bergen, J.), Burt, P., Hingolanial. (Hingorani, R.) and Peleg, S. et al. In the title “Calculation of two motions from three frames”. Much of the basic explanation below is substantially borrowed from the above-mentioned article by Bargain et al.
[0042]
A simple closed system morphology prediction method for the motion of an image area was derived by Bargain et al. First, it can be considered that a partial small movement of the image occurs between frames I (x, y, t−1) and I (x, y, t) which are image sequences. This I (x, y, t) is an observation image extending in the x (horizontal) and y (vertical) directions at time t, and is shown by a
p (x, y) = (px (x, y), py (x, y)) (1)
Px (x, y) is a displacement in the x direction (a function of x and y), and py (x, y) is a displacement in the y direction (a function of x and y). Therefore, the following formula is derived.
I (x, y, t) = P (x-tpx, y-tpy) (2)
I (x, y, t) =I(X-px, y-py, t-1) (3)
[0043]
The notation can be simplified by setting the frame interval to one unit of time. In accordance with a least squared error technique, it is beneficial to determine the motion field p = (px, py) that minimizes the square error between the measured value and the calculated value using field p.
[0044]
[Expression 1]
Assuming that the deviation from one frame to the next is small, equation (4) can be simplified by truncated Taylor series expansion of I (x, y, t). .
[0045]
[Expression 2]
put it here,
[Equation 3]
And therefore
[Expression 4]
It becomes.
[0046]
Image motion sets the derivative of equation (6) to zero for each parameter of the velocity component (because the error is minimal when the derivative is zero) and the resulting equation system It is obtained by solving.
If the motion of the image portion is modeled by simple translation, then p = (ax, ay), where ax and ay are constants in units of pixels, and the optical flow equation is It becomes as follows.
[0047]
[Equation 5]
[0048]
It will be appreciated that in a characteristic application case of the method of the invention, motion cannot be modeled by simple movement. This is because simple movement does not recover or model scale changes like the zoom of a focal lens. Instead, the motion of the image is more typical as an affine transformation (ie a transformation that converts straight lines to straight lines, parallel lines to parallel lines, but that may change the distance between points and the angle between lines). Modeled accurately. In this case, the motion field p has six parameters ax, bx, cx, ay, by and cy, which are applied as follows.
[0049]
[Formula 6]
[0050]
Where ax and ay are as described above, bx is the percentage scale factor of x in the x direction, and cx is the percentage rotation factor of x, which is dependent on the y position. by is the percentage rotation factor of y and is related to the x position, and cy is the percentage scaling factor of y. The normal range of ax and ay from one frame to the next in zoom is on the order of a few pixels. The normal range of residual factor is about 0.001 to 0.1. If the error in equation (6) is differentiated with respect to each of these six parameters, a system of six equations with six unknowns ax, bx, cx, ay, by and cy. Is obtained. That is,
[0051]
[Expression 7]
It is.
[0052]
This system must be solved for the coefficients ax, bx, cx, ay, by and cy. It is possible to obtain a solution. This is because the partial derivatives of the image with respect to Ix, Iy and It, ie x, y and t, can be determined from the image values at time t and
[0053]
Thus, to determine the position of the pixel value in
[0054]
[Equation 8]
The deviation of the value at the pixel (20, 30) of the
[0055]
Similarly, to warp the position where the same pixel value occupies in the
[0056]
The conversion equation is a linear equation and is therefore reversible. Coefficients ax, bx, cx, ay, by, and cy are used for conversion from the scale of
[0057]
As described above, the pixel value from the point (x, y) in the
[0058]
As described by Bargain, Bart et al., The motion prediction method described above is suitable for the abbreviated Taylor series approximation method with little image shift from one frame of the zoom sequence to the next frame (1 pixel or less). It is accurate only when Better results are obtained by using the multiresolution structure shown schematically in FIG. 8 and the technique is also applicable to more general large movement cases.
[0059]
In the process of determining the affine transformation parameters ax, bx, cx, ay, by and cy, a Gaussian pyramid G is constructed for each frame of the image frame pair, eg frames 201 and 202, for example. For each member of the sequence, its analysis and its sample density is reduced by a square root (reduce by a power of 2), and the pyramid is formed by a sequence of modified copies of the original image. Except that one frame of the
[0060]
Data is passed through a low pass filter to reduce resolution. By passing through this low-pass filter, data related to small or quick movement of the image is eliminated. Therefore, a large motion is detected at a level at which the resolution is greatly reduced. Since the low-pass filter eliminates most of the deviations in the data, there is no need to calculate for all existing pixels. Therefore, sub-sampling of about 2 is applied to reduce the number of pixels to be operated. This sub-sampling increases the calculation efficiency and contributes to the speed of operation. A characteristic pattern of sub-sampling is to ignore alternate rows and alternate columns.
[0061]
Each level I of the pyramid is acquired by converging the data of the preceding level with a kernel filter ω in order to exert the effect of the low-pass filter, and then sub-sampling is performed. Gt, l = [Gt, l-1 * ω] ↓2 Where Gt, l is I for image I (x, y, t)thThe pyramid level. Above ↓2 Indicates that the quantity in parentheses is subsampled by 2 for x and y. For example, to obtain G201,1, G201,0 is converged by the filter ω, and the result is subsampled.
[0062]
The analysis of the transformation starts at the low resolution level of the image pyramid, eg
[0063]
Therefore, the determination of the affine transformation parameter starts at
[0064]
First, it is necessary to solve Ix, Iy and It as described above for the frame without going through low-pass filtering and subsampling. Ix, Iy and It are computed similarly except that a smaller sub-sample set of low-pass filtered data is used. Instead of subtracting the value for
[0065]
The set of adjustment affine parameters is combined with the affine parameter p2 from the previous level in the
[0066]
[Equation 9]
[0067]
This process is repeated, but this time is
[0068]
Thus, to determine the warping factor for converting one frame from any frame scale (eg, the scale of frame 226 to the next frame 227), the above operations are performed. Thus, a set of affine transformation parameters ax, bx, cx, ay, by and cy is calculated for each pair of frame scales. Thereafter, to convert one frame, eg, frame 251 to an appropriate size, first use the affine transformation parameters ax, bx, cx, ay, by and cy determined by the previous analysis for frames 251 and 252 to Converted to a scale of 252. The transformed frame 2512 is then converted to the scale of frame 253 using the affine transformation parameters ax, bx, cx, ay, by and cy determined by previous analysis on frames 252 and 253. This process is repeated until the frame has been converted to a large data space at the scale of
[0069]
The above method works well if there is little or no relative motion between the camera or the subject (which can be either) and the only image change is due to zooming. In practice, however, it is desirable to be able to eliminate such motion. Several methods are conceivable. A basic but effective method is to visually inspect the entire frame and to identify large motions like a person crossing the viewing zone. A mask is available to cover the area where motion occurs in each frame, and this area can be ignored during conversion. The operator manually selects the desired pixel value to set the final picture mask position.
[0070]
Another method is to use the technique described by Bargain and Bart et al., Which tracks two motions, as shown schematically in FIG. Data is evaluated against a pair of motions. The image I (x, y, t) here is modeled as a combination of different image patterns P and Q each having independent motions p and q. The relationship between I, P and Q is as follows.
[0071]
[Expression 10]
In the above equation, the symbol obtained by overlapping ○ and + is expressed as (+) for convenience in the following.
[0072]
Here, the operator (+) represents an operation for combining two motions such as addition or multiplication, and PtpRepresents the pattern P transformed by the motion p over time t, and Bargain and Bart et al. Describe the nature of the patterns P and Q if one of the motion components and the combination rule (+) is known. It shows that other motions can be calculated using the above-described one-component motion technique without expectation. If motion p is known, only motion q need be determined, and vice versa. The component of the pattern P moving at the speed p can be excluded from the image sequence by shifting each image frame by p and subtracting the shifted frame value from the next frame. The resulting difference sequence includes only the pattern moving at speed q.
[0073]
In special cases, the join operation (+) is an addition. Consider the case of 3 frames I (1), I (2) and I (3) of the
[0074]
[Expression 11]
[0075]
This is shown schematically in FIG. 9 as a warp of I (1) at 302 for converting the pattern P in one step. This next step is a subtraction of I (2) at 304 to remove the effect of the motion of pattern P. The result is D1, a component of the difference sequence. D2 is similarly formed by the difference at 308 between I (3) and I (2) warped at 306 by the motion of pattern P.
[0076]
The change sequence is a new pattern Q that moves in 1 motion qq-Qp It will consist of
[Expression 12]
[0077]
Therefore, the motion q can be calculated between two difference images D1 and D2 using the above-described one-motion prediction technique. This is shown schematically at 310 in FIG. Similarly, motion p can be recovered when q is known. The observed image I (x, y, t) is shifted by q to form a new difference sequence.
[0078]
[Formula 13]
This sequence is a pattern P moving at a speed p.p-Pq It is.
[Expression 14]
Therefore, p can be recovered by utilizing the 1-motion prediction technique.
[0079]
This shift and subtraction procedure removes one moving pattern from the image sequence regardless of the pattern or without determining the pattern. In practice, neither p nor q are known at first. However, even if a very rough estimate is initially selected, both of them can be recovered by repeating the above technique. This iterative procedure applies one motion technique iteratively. Even if you start with a rough estimate of the parameters that define motion p, the expected value of q is retrieved and returned to the warping steps 302 and 306 at 312. The improved predicted value p is extracted from the predicted value q and returned to the warping steps 302 and 306 at 312. Repeat this procedure. This procedure quickly converges to the exact expected value. Using true image sequences, conversions that meet the requirements are possible after 3 to 12 cycles.
[0080]
The steps in this part of the invention are summarized as follows:
1. An initial expected value for the motion P0 of the pattern P is determined.
2. The latest pn predicted values are used to form difference images D1 and D2 in equation (12).
3. Apply a 1 (single) motion estimator to D1 and D2 to get the expected value of qn + 1.
4. New difference images D1 and D2 are formed using the predicted value qn + 1.
5.1 Apply a 1 (single) motion estimator to the new D1 and D2 to get a
6. Repeat the procedure from
[0081]
By observing two sets of affine parameters extracted according to this two-motion technique, it is possible to identify a moving scene or camera motion. In general, parameters relating only to zoom warping change smoothly and only slightly from one frame to the next. Parameters related to image motion or camera motion show different changes than those due to zoom. These different changes can be observed by examination.
[0082]
Automatic comparison of affine parameters from one frame pair to the next frame pair, and when the change exceeds a preset level, the shading device functions (triggering a flag) to automatically identify the motion of the scene or camera It is theoretically possible to do. One possible technique is to compare the difference between two pairs of affine parameters of a frame with a standard deviation of a set number of previous frame pairs. For example, for a sequence of 70 frames, it is common to determine a standard deviation of at least 10 frame pairs.
[0083]
If both the camera and the elements in the scene are moving, there are more than two motions, and a more advanced method for eliminating camera motion is convenient. It has been discovered that combining Affine's two-motion prediction and masking techniques described above provides convenient results. It may also be convenient to determine the probability density function of the shift vector in the image. For a general understanding, Girod B. and Quede in the minutes of the American Optical Society's “Mechanical Understanding and Machine Vision Congress” held in Cape Cod, Massachusetts, USA in June 1990. Reference is made to “Direct Estimation of Displacement Histograms” by (Kuo, D.). Here, information on the number of different subjects moving between frames and what the shift vector corresponding to them is is posted. A local block matching estimator is used to spatially locate these moving subjects. The area of the moving subject is subjected to a mask process by calculation, and thereafter an expected affine value is calculated.
[0084]
Assuming that the deviation between the frame pairs is small and that there is no unexpected camera movement, such as a bump or a sudden change in focal length, the affine parameters are not very different between the frame pairs. After the parameters are determined as described above, the coefficients are simplified to remove spurious values.
Once the Y channel data from each frame of
[0085]
After the full raster of the warped short
[0086]
Once the full color data from each frame of
[0087]
Although the above procedure gives good results, a distinct edge appears and highlights the boundaries between regions generated from various frames. For this reason, a weighting function is applied to all frames warped in the sequence for a certain pixel, and the median of the weight value is taken as the value of that pixel. As shown in FIG. 10, the position of the pixel is indicated by the vector V and penetrates through all frames warped to the same position of the image,
[0088]
We have described the block creation of a method of obtaining one still image having a high resolution from a sequence of frames having a somewhat unnatural but lower resolution. FIG. 13 shows the steps of the method in a substantially preferred order. The sequence of the video field is taken at 402. The field is deinterlaced at 404 to create a series of frames. At this point, an alternate path can be obtained. The subject or camera motion can be separated from the zoom motion at 406, after which optical system flow analysis is performed to generate affine transformation coefficients ax, bx, cx, ay, by and cy. It is possible to branch to step 408 at 404, thereby combining optical system flow analysis and camera motion separation from the subject or zoom motion. This branch also gives rise to the coefficients ax, bx, cx, ay, by and cy. Next, at 412 the affine transformation is applied as many times as necessary for each frame, creating a corresponding frame with a high resolution raster for each frame. The temporal median filter shown in FIG. 11 is applied to all frames at 414, and the final composite is warped each
[0089]
A preferred embodiment of the device of the present invention is shown schematically in FIG. An
[0090]
In a shot having a relatively low resolution and a wide angle, many portions are unclear. On the other hand, the central part of the composite picture created according to the method of the present invention is clear and in-focus and shows all the details.
[0091]
The above explanation is for the purpose of explaining the present invention and is not intended to limit the invention. In addition to video, any recording technique that uses a sequence of still images can be used. If the recording technique does not generate pixel values, the data generated by the recording device can be converted to pixels or equivalent data space according to well-known methods in the art and is useful. . In addition to the techniques introduced here, various techniques for separating camera motion from zoom motion or motion within a scene are applicable. Furthermore, it is not necessary to use Gaussian pyramid steps to calculate the affine transform coefficients. The calculation can also be done by other methods, such as those performed on the full high resolution frame.
[0092]
The method of the present invention can be used to create a single panoramic still image from a series of pan shots and jib shots in addition to a single still image from zoom. In such a case, all frames will be warped to a data space that has the same space as all panoramic scenes. It will not be a pile of pictures with different focal lengths that overlap each other. Rather, it will be a series of pictures with overlapping edges. In the embodiment applied to the zoom sequence, the main element of warping is to enlarge the data from each frame to align the scene images with each other. Warping the data so that the entire image of the scene is aligned with each other is also an important aspect of zoom system application. With this feature, for example, motion due to camera motion or subject motion can be removed.
[0093]
In panoramic applications, this expanding feature is not important and is not used in most cases. However, it is very important from an alignment point of view, and if the panoramic scene's global viewing area is represented as a continuous data space, each frame will take up a limited portion of that global viewing area. Become. Unlike the zoom system application, each frame in the panorama system application is created with the same focal length. It is necessary to use the method of the present invention to align data from frames in the global data space so that each frame image matches the same image in another field. The method of the present invention is mainly applied at the joint between shots. If the pan speed is slow compared to the frame frequency, the overlap between frames at the seam is very large.
[0094]
It is within the spirit of the present invention to combine zoom processing with panorama processing to obtain a clearer image at a specific portion of the panoramic scene.
It is also possible to use the technique of the present invention to combine frames from discontinuous segments of the subject and video.
[0095]
Although the present invention has been described in the range of data obtained by a video camera, anyone of ordinary skill in the art will appreciate that the method of the present invention can be obtained as a digital image. It will be understood that it can also be used for data representing. For example, a series of still pictures taken at different focal lengths can be combined in the manner described above to form an image that reinforces a particular portion of the image. Similarly, a set of still photographs depicting various positions within a panoramic space can be combined according to the techniques of the present invention to create a single panoramic image. In this, the various image parts can be recovered, and the original artificial element of the panoramic image is contained in a set of discrete still images having a common focal length but different viewing zones. Almost not shown.
[0096]
The present invention should be considered in light of the description in the specification including all examples specified by the “claims”, and also include their equivalent forms within a reasonable range. Should be considered.
[0097]
【The invention's effect】
As described above in detail, the present invention can provide a method and apparatus for creating a still image having a relatively high resolution with the following advantages.
1) There is no need to acquire information at high resolution over the entire image.
2) There is no need to collect information on the majority of images that are less important.
3) A sequence of standard video images of various focal lengths or viewing zones can be acquired as input elements.
4) A standard film image sequence can be acquired as an input element.
5) Increase the resolution of any part of the desired image.
6) A properly programmed general purpose digital computer and standard video or movie equipment can be used.
[0098]
In addition, the present invention provides a viewer with a panoramic view of a scene without excessive data storage and access capabilities, and allows the viewer to navigate from one position of the scene to another. A method can be provided.
Further, the present invention has an excellent effect that the above-mentioned ability can be exhibited regardless of the digitized image data.
[Brief description of the drawings]
FIG. 1 is a diagram schematically showing a relationship between a focal length of an imaging apparatus and a captured scene portion.
FIG. 2 is a diagram showing an outline of a pair of a video field and a video frame.
FIG. 3 illustrates interlacing of exemplary video field pairs that are combined to form a video frame.
FIG. 4 schematically illustrates a sequence of video frames of substantially the same scene, representing a zoomed-in state from a short focal length to a relatively long focal length.
FIG. 5 is a diagram schematically illustrating a portion of a scene in a video frame having the shortest focal length (wide-angle viewing zone), which is supplied in the remaining members of the sequence of frames with gradually increasing focal lengths.
6 is a diagram showing an outline of a state in which each video image of the sequence shown in FIG. 4 (shown on the left side of FIG. 6) is mapped (map) or warped to the same size data space; The size is the lowest resolution frame of the enlarged size.
FIG. 7 is a diagram showing an outline of a state in which one frame originally recorded at a relatively short focal length is warped to a data space related to continuous expansion of the scene.
FIG. 8 is a diagram showing an outline of a method for identifying both rough motion and delicate motion between a plurality of frames in a sequence.
FIG. 9 is a diagram showing an outline of a method for specifying motions of two moving subjects in a sequence of frames.
FIG. 10 is a diagram showing an outline of each frame of a sequence after being warped in the same data space, and shows a state in which the frames are aligned so as to be reconstructed in a final visualization, and a common point of each frame A vector through is shown.
FIG. 11 is a graph showing the relationship between the weighting factor used to construct the final image and the original focal length of the warped frame to which the weighting factor is applied. is there.
FIG. 12 is a diagram showing an outline of a final reconstructed image and its construction elements.
FIG. 13 is a flow chart illustrating a preferred embodiment of the method of the present invention.
FIG. 14 is a schematic diagram of a preferred embodiment of the apparatus of the present invention.
[Explanation of symbols]
2 statues
4 focal planes
6 Central part
Claims (14)
a。互いに異なる焦点距離にて創出されている複数の像を得るステップ
b。前記各像に対してその像を表す信号を発生させるステップ
c。共通の焦点距離にスケールされたそれぞれ対応する像を表すように前記各信号を変換するステップ
d。前記スケールされた各像が1つの画像に組み合わせられるように、前記変換された各信号を結合するステップ。A method for generating a still image of a scene, comprising the following steps:
a. Obtaining a plurality of images created at different focal lengths; b. Generating a signal representing the image for each of the images c. Converting each of the signals to represent a corresponding image scaled to a common focal length, d. Combining the transformed signals such that the scaled images are combined into one image.
a。前記各像を表す信号に少なくとも1のアファイン変換を施すステップ
b。前記変換された複数の像をそれぞれ表す信号を発生させるステップ。2. The still image generating method according to claim 1, wherein the converting step of each signal includes the following steps:
a. Performing at least one affine transformation on the signal representing each image; b. Generating a signal representing each of the plurality of transformed images.
a。前記複数の像をシークエンス内で並べ替えるステップ
b。前記シークエンス内の各像ペアに対して、当該ペアの第1像から第2像への変換を実質的に定義する1組のアファインパラメータを決定するステップ
c。前記複数の像のそれぞれに対して、前記アファインパラメータの複数組を結合し、1組のアファインパラメータに合成するステップ
d。それぞれ対応する前記合成された1組のアファインパラメータを利用して、アファイン変換を前記各像に対して施すステップ。3. The method of claim 2, wherein the step of performing at least one affine transformation comprises the following steps:
a. Reordering the plurality of images in the sequence b. Determining, for each image pair in the sequence, a set of affine parameters that substantially define a transformation from the first image to the second image of the pair; For each of the plurality of images, a plurality of sets of the affine parameters are combined and combined into a set of affine parameters d. Performing an affine transformation on each of the images using the corresponding set of affine parameters corresponding to each other;
a。あるペアの両像の第1パターン部分の第1相対的モーションを予想するステップ
b。両像の第2パターン部分の第2相対的モーションを決定するために前記予想された第1相対的モーションを利用するステップ
c。相対的モーションの満足できる解像度が得られるまで以下のステップを繰り返すステップ;
i。前記第1パターン部分の前記第1相対的モーションをさらに正確に特定するために前記第2相対的モーションを使用するステップ
ii。前記第2パターン部分の前記第2相対的モーションをさらに正確に特定するために前記第1相対的モーションのさらに正確なスペックを使用するステップ。12. The method of claim 11, wherein the step of identifying relative motion comprises the following steps:
a. Predicting a first relative motion of the first pattern portion of both images of a pair b. Utilizing the predicted first relative motion to determine a second relative motion of the second pattern portion of both images; c. Repeating the following steps until a satisfactory resolution of relative motion is obtained;
i. Using the second relative motion to more accurately identify the first relative motion of the first pattern portion; ii. Using a more accurate specification of the first relative motion to more accurately identify the second relative motion of the second pattern portion.
a。複数の像を創出する手段であって、当該複数の像のそれぞれは他と異なる焦点距離にて創出されたものであることを特徴とする像創出手段
b。前記各像に対してその像を表す信号を発生させる手段
c。共通の焦点距離にスケールされたそれぞれに対応する像を表すように各信号を変換する手段
d。前記各スケールされた像を1焦点距離の1画像に結合させてなる最終的な信号を示すように前記各変換された信号を結合する手段。An apparatus for generating a still image of a scene, comprising the following means:
a. An image creation means b, which is a means for creating a plurality of images, each of the plurality of images being created at a focal length different from the others. Means c for generating a signal representative of each image; Means d for converting each signal to represent an image corresponding to each scaled to a common focal length; Means for combining the transformed signals to indicate a final signal formed by combining the scaled images into a single image at a focal length;
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US78669891A | 1991-11-01 | 1991-11-01 | |
| US786698 | 1997-01-23 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH05304675A JPH05304675A (en) | 1993-11-16 |
| JP3616111B2 true JP3616111B2 (en) | 2005-02-02 |
Family
ID=25139354
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP29449192A Expired - Fee Related JP3616111B2 (en) | 1991-11-01 | 1992-11-02 | Method and apparatus for obtaining a high resolution still image using multiple images of different focal lengths or different viewing zones |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3616111B2 (en) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO1998015117A1 (en) | 1996-10-04 | 1998-04-09 | Nippon Telegraph And Telephone Corporation | Method for temporally and spatially integrating and managing a plurality of videos, device used for the same, and recording medium storing program of the method |
| US7805020B2 (en) * | 2006-07-25 | 2010-09-28 | Itt Manufacturing Enterprises, Inc. | Motion compensated image registration for overlaid/fused video |
| CN105208259B (en) | 2014-06-17 | 2019-12-03 | 中兴通讯股份有限公司 | Camera autofocus optimization method and camera |
| US11134262B2 (en) * | 2019-02-28 | 2021-09-28 | Tencent America LLC | Method and apparatus for video coding |
| CN111724381B (en) * | 2020-06-24 | 2022-11-01 | 武汉互创联合科技有限公司 | Microscopic image cell counting and posture identification method based on multi-view cross validation |
-
1992
- 1992-11-02 JP JP29449192A patent/JP3616111B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JPH05304675A (en) | 1993-11-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3590631B2 (en) | Method and apparatus for creating a high-resolution still image using a plurality of images | |
| EP1269400B1 (en) | High resolution, high speed digital camera | |
| Teodosio et al. | Salient video stills: Content and context preserved | |
| CN101743755B (en) | Image processing device, image processing method | |
| US7868927B2 (en) | Image data generating apparatus, method and program | |
| KR101445653B1 (en) | How to configure composite images | |
| JP4317586B2 (en) | IMAGING PROCESSING DEVICE, IMAGING DEVICE, IMAGE PROCESSING METHOD, AND COMPUTER PROGRAM | |
| US20030007560A1 (en) | Image segmentation by means of temporal parallax difference induction | |
| KR20100052563A (en) | Image generation method, device, its program and recording medium with program recorded therein | |
| GB2231228A (en) | Video signal to photographic film conversion | |
| JP2011211556A (en) | Device and method for generating image, and program | |
| JPH06209926A (en) | X-ray video imaging device | |
| JP3616111B2 (en) | Method and apparatus for obtaining a high resolution still image using multiple images of different focal lengths or different viewing zones | |
| Deng et al. | Generating panorama photos | |
| JP4377656B2 (en) | Integral photography apparatus and integral photography display apparatus | |
| JP3325823B2 (en) | Video still image display method and apparatus, and video still image display program storage recording medium | |
| JP2005275765A (en) | Image processing apparatus, image processing method, image processing program, and recording medium recording the program | |
| Tschumperlé et al. | High quality deinterlacing using inpainting and shutter-model directed temporal interpolation | |
| JP2716979B2 (en) | Blur image processing method and apparatus for implementing the method | |
| Thomas | Motion-compensated matteing | |
| JP4733448B2 (en) | Parallax generation device and parallax generation program | |
| US20080055414A1 (en) | Modified Baird sequential detail scanning system | |
| JP4571370B2 (en) | Moving image composition method and apparatus, program, and digital camera | |
| Gutiérrez et al. | Using Super-Resolution | |
| JPH0865560A (en) | Photographing device |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20040216 |
|
| A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20040430 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040916 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041104 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081112 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091112 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091112 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101112 Year of fee payment: 6 |
|
| LAPS | Cancellation because of no payment of annual fees |
