JP3197801B2 - 2D display image generation method - Google Patents

2D display image generation method

Info

Publication number
JP3197801B2
JP3197801B2 JP25677295A JP25677295A JP3197801B2 JP 3197801 B2 JP3197801 B2 JP 3197801B2 JP 25677295 A JP25677295 A JP 25677295A JP 25677295 A JP25677295 A JP 25677295A JP 3197801 B2 JP3197801 B2 JP 3197801B2
Authority
JP
Japan
Prior art keywords
video
dimensional display
display image
dimensional
generation method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP25677295A
Other languages
Japanese (ja)
Other versions
JPH0981746A (en
Inventor
幸則 松本
肇 寺崎
和英 杉本
勉 荒川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP25677295A priority Critical patent/JP3197801B2/en
Priority to KR1019960008266A priority patent/KR100414629B1/en
Priority to US08/622,047 priority patent/US6384859B1/en
Priority to EP01119255A priority patent/EP1150254A3/en
Priority to EP01119254A priority patent/EP1150253A2/en
Priority to DE69621509T priority patent/DE69621509T2/en
Priority to EP96105004A priority patent/EP0735512B1/en
Priority to CN96108487A priority patent/CN1132123C/en
Publication of JPH0981746A publication Critical patent/JPH0981746A/en
Priority to US09/916,869 priority patent/US20010045979A1/en
Application granted granted Critical
Publication of JP3197801B2 publication Critical patent/JP3197801B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は二次元表示用の画
像を生成する方法、特に、入力された単眼映像または多
眼映像に加工処理を施すことによって、新たな画像を生
成する方法に関する。この発明は主に、画像の視点変
更、画像の一部拡大または縮小、画像領域の切り出しな
どに使用可能である。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for generating an image for two-dimensional display, and more particularly to a method for generating a new image by processing input monocular or multiview images. INDUSTRIAL APPLICABILITY The present invention can be mainly used for changing the viewpoint of an image, partially enlarging or reducing an image, and cutting out an image area.

【0002】[0002]

【従来の技術】映像を撮影するカメラの数という観点か
らすれば、映像は単眼映像と多眼映像に大別される。単
眼映像は1つのカメラ、多眼映像は複数のカメラから被
写体を撮影した場合に得られる。後者はステレオ映像と
も呼ばれる。
2. Description of the Related Art From the viewpoint of the number of cameras that shoot images, images are roughly classified into monocular images and multi-view images. A monocular image is obtained when a subject is photographed from one camera, and a multi-eye image is obtained when a subject is photographed from a plurality of cameras. The latter is also called a stereo image.

【0003】一方、この映像に所定の処理を加えて画像
を出力する場合、その出力は、表示形式の観点から二次
元表示画像と三次元表示画像に大別される。三次元表示
画像とは、疑似立体表示のために左右両眼に与えられる
画像で、静止画像の場合、通常は二枚一組のフレームか
らなる。動画像の場合はこのフレームの組が次々に観視
者に与えられる。二次元表示画像とは三次元表示画像以
外の通常の画像をいう。すなわち、二次元表示静止画像
は一枚の写真のような画像、二次元表示動画像は通常の
テレビ画像のような画像をいう。以降、本明細書におい
て「映像」といえば、主に画像処理の対象となる入力
(ただし後述の視点変更映像を除く)、「画像」といえ
ば主に処理後の出力を指す。
On the other hand, when an image is output by performing predetermined processing on the video, the output is roughly classified into a two-dimensional display image and a three-dimensional display image from the viewpoint of a display format. The three-dimensional display image is an image given to both the left and right eyes for pseudo three-dimensional display. In the case of a still image, a three-dimensional display image usually includes a pair of frames. In the case of a moving image, the set of frames is given to the viewer one after another. The two-dimensional display image refers to a normal image other than the three-dimensional display image. That is, the two-dimensional display still image refers to an image such as one photograph, and the two-dimensional display moving image refers to an image such as a normal television image. Hereinafter, in this specification, “video” mainly refers to an input to be subjected to image processing (except for a viewpoint change video described later), and “image” mainly refers to an output after processing.

【0004】以上の入出力のタイプによる場合分けのう
ち、本発明は出力として二次元表示画像を想定する。本
発明の想定する入出力の組合せは以下の2通りである。
[0004] Among the cases classified according to the input / output type described above, the present invention assumes a two-dimensional display image as an output. The following two combinations of inputs and outputs are assumed in the present invention.

【0005】 (1)入力が単眼映像、出力が二次元表示画像 (2)入力が多眼映像、出力が二次元表示画像 これらのうち、(1)では入力映像をそのまま出力する
ことが一般的である。(2)では、多眼映像のうちの一
方を選択してそのまま出力する場合が多い。多眼映像を
撮影するメリットは、主に三次元表示画像の生成におい
て発揮されるためである。本発明はこれら(1)(2)
の分野において全く新しい画像処理方法を提供するもの
であり、対応する従来技術はないといってよい。
(1) Input is a monocular image, output is a two-dimensional display image. (2) Input is a multi-eye image, output is a two-dimensional display image. Of these, in (1), it is general to output an input image as it is. It is. In (2), in many cases, one of the multi-view images is selected and output as it is. The merit of capturing a multi-view video is mainly exhibited in generating a three-dimensional display image. The present invention relates to these (1) and (2)
In this field, a completely new image processing method is provided, and there is no corresponding conventional technology.

【0006】[0006]

【発明が解決しようとする課題】本発明の目的は、入力
映像に対して以下の処理を施し、以下の出力画像を生成
することにある。この際、カメラ位置(すなわち観視者
の視点であり、以下単に「視点」という)と被写体との
距離の情報(以降単に「奥行き情報」という)を含む三
次元位置情報の導出と利用を通して一連の処理を行う点
に特徴がある。
SUMMARY OF THE INVENTION An object of the present invention is to perform the following processing on an input video and generate the following output image. At this time, through the derivation and use of three-dimensional position information including information on the distance between the camera position (that is, the viewpoint of the observer, hereinafter simply referred to as “viewpoint”) and the subject (hereinafter, simply referred to as “depth information”), It is characterized in that the processing of

【0007】1.視点変更 視点を仮想的に変更したとき、映像は変化するはずであ
る。本発明は、現実のカメラ位置を固定したまま、視点
変更後に得られるべき映像(以下「視点変更映像」とい
う)を自動生成する。
[0007] 1. Viewpoint change When the viewpoint is virtually changed, the image should change. The present invention automatically generates an image to be obtained after changing a viewpoint (hereinafter, referred to as a “changed viewpoint image”) while fixing the actual camera position.

【0008】2.画像の一部拡大・縮小 画像処理において画像の一部拡大・縮小はしはしば行わ
れるが、本発明は奥行き情報を利用することにより、最
も自然かつ効果的な画像を自動生成する。
[0008] 2. Partial enlargement / reduction of an image In image processing, partial enlargement / reduction of an image is often performed, but the present invention uses depth information to automatically generate the most natural and effective image.

【0009】3.画像領域の切り出し 所望の画像領域を切り出すとき、前提として画像領域の
認識が必要となる。画像領域の認識には、クラスタリン
グ手法等いくつかの技術が提案されているが、大きな成
功に至っていない。本発明は奥行き情報という全く異な
る観点から、高い精度で領域の切り出しを行う。
3. Extraction of Image Area When extracting a desired image area, it is necessary to recognize the image area. Several techniques, such as a clustering technique, have been proposed for recognizing image regions, but have not been very successful. The present invention extracts a region with high accuracy from a completely different viewpoint of depth information.

【0010】[0010]

【課題を解決するための手段】本発明は、処理の対象と
なる元の映像から該映像の奥行き情報を抽出し、この情
報に従って二次元表示用の画像を生成する。ここで「元
の映像」とは、単眼で撮影されたものでもよいし、多眼
で撮影されたステレオ映像でもよい。また、カメラで撮
影された映像だけでなく、例えばアニメーション映像や
コンピュータ・グラフィックスでもよい。
According to the present invention, depth information of an image to be processed is extracted from an original image to be processed, and an image for two-dimensional display is generated in accordance with this information. Here, the “original video” may be a video captured with a single eye or a stereo video captured with multiple eyes. In addition, not only a video taken by a camera but also an animation video or computer graphics may be used.

【0011】このとき本発明は、複数の映像フレーム間
における映像各部位の二次元的な位置の変位を検出し、
この情報から前記奥行き情報を抽出する。「映像各部
位」とは、映像を構成する各領域や各画素をいう。「映
像フレーム」とは映像の処理単位で、通常の画像フレー
ムの他、画像フィールド、MPEGのピクチャ等を含
む。「複数の映像フレーム」は、単眼の場合は異なる時
刻に撮影された複数フレーム(以下「異時刻フレー
ム」)をいう。多眼の場合は、同時に撮影された複数フ
レーム(以下「同時刻フレーム」)でもよいし、多眼カ
メラを構成する1つのカメラによる異時刻フレームでも
よい。「二次元的な」とは、映像フレームが平面映像で
あることを意味する。多眼の場合でも、各カメラの映像
は平面映像である。「二次元的な位置の変位」とは、平
面上における位置の変位をいう。異時刻フレームなら時
間経過に伴う位置の変化(すなわち動き)、同時刻フレ
ームなら複数フレーム間の位置のずれを指す。
At this time, the present invention detects a two-dimensional displacement of each part of the image between a plurality of image frames,
The depth information is extracted from this information. “Each part of an image” refers to each area and each pixel constituting an image. The “video frame” is a processing unit of video, and includes an image field, an MPEG picture, and the like in addition to a normal image frame. The “plurality of video frames” refers to a plurality of frames photographed at different times in the case of a single eye (hereinafter, “different time frames”). In the case of a multi-view camera, a plurality of frames photographed at the same time (hereinafter, “simultaneous frame”) may be used, or a different time frame by one camera constituting the multi-view camera may be used. “Two-dimensional” means that the video frame is a planar video. Even in the case of multi-view, the image of each camera is a plane image. “Two-dimensional displacement of position” refers to displacement of a position on a plane. A different time frame indicates a change in position (ie, movement) with the passage of time, and a same time frame indicates a position shift between a plurality of frames.

【0012】本発明のある態様では、前記複数の映像フ
レームは異時刻フレームであり、前記二次元的な位置の
変位量に基づいてこれらの異時刻フレームが選択され
る。変位量が大き過ぎる場合は、例えば時刻差を少なく
して複数フレームを選択する方法が考えられる。
In one embodiment of the present invention, the plurality of video frames are different time frames, and these different time frames are selected based on the two-dimensional position displacement. If the displacement amount is too large, for example, a method of selecting a plurality of frames by reducing the time difference can be considered.

【0013】本発明では、前記映像各部位の二次元的な
位置の変位量を統計的に処理し、その処理結果に基づい
て複数の映像フレームを選択してもよい。統計的な処理
として、映像各部位の動きベクトルの分散を導出し、こ
の値が所定値よりも大きくなるように複数の映像フレー
ムを選択してもよい。分散の導出は既知の計算によって
行われる。映像各部位の動きが小さすぎると計算誤差が
大きくなるため、分散がある程度大きいほうが好まし
い。
In the present invention, the displacement of the two-dimensional position of each part of the image may be statistically processed, and a plurality of image frames may be selected based on the processing result. As a statistical process, the variance of the motion vector of each part of the video may be derived, and a plurality of video frames may be selected so that this value is larger than a predetermined value. The derivation of the variance is performed by a known calculation. If the movement of each part of the image is too small, the calculation error increases, so that it is preferable that the variance is large to some extent.

【0014】従って本発明のある態様では、分散が所定
値よりも大きくなるような複数の映像フレームを選択す
ることができない場合、二次元表示用画像の生成を中止
する。誤差の大きさに起因して不自然なが画像が生成さ
れる事態を回避するためである。
Therefore, according to an aspect of the present invention, when it is not possible to select a plurality of video frames whose variance is larger than a predetermined value, the generation of the two-dimensional display image is stopped. This is to avoid a situation in which an image is generated unnaturally due to the size of the error.

【0015】本発明は、こうして得られた映像各部位の
二次元的な位置の変位から、映像各部位が現実の三次元
空間において占める相対位置関係を導出する。その結果
に従って前記奥行きを決定する。入力が単眼映像の場
合、必ずしも絶対位置が求まらない。これは後述のスケ
ールファクターの問題である。そこで、少なくとも相対
位置を求める。
The present invention derives a relative positional relationship occupied by each part of the image in the actual three-dimensional space from the two-dimensional displacement of each part of the image thus obtained. The depth is determined according to the result. When the input is a monocular image, the absolute position is not always obtained. This is a problem of the scale factor described later. Therefore, at least the relative position is obtained.

【0016】このとき、前記二次元的な位置の変位から
前記映像各部位の三次元的な動きを算出し、この動きか
ら三角測量の原理によって前記映像各部位の三次元空間
における位置座標を算出し、その結果に従って前記奥行
きを決定してもよい。単眼の場合はカメラの移動を仮定
して三角測量の原理を適用する。多眼の場合は例えば左
右映像に対してこの原理を適用する。
At this time, a three-dimensional movement of each part of the image is calculated from the displacement of the two-dimensional position, and a position coordinate of each part of the image in a three-dimensional space is calculated from the movement according to the principle of triangulation. Then, the depth may be determined according to the result. In the case of a single eye, the principle of triangulation is applied assuming the movement of the camera. In the case of multiple eyes, this principle is applied to, for example, left and right images.

【0017】本発明では、複数の映像フレーム間におけ
る被写体の対応を把握する必要がある。そこで、基準と
なる映像フレーム(以下「基準フレーム」という)に代
表点を設定し、他の映像フレーム(以下「対象フレー
ム」という)における前記代表点の対応点を求め、これ
ら代表点と対応点の位置関係を求めて、前記映像各部位
の二次元的な位置の変位を認識してもよい。これは一種
の画像認識技術である。ここでいう「対応点」とは、代
表点に対応する点である。対応点には、「真の対応点」
と「計算上の対応点」の2つの概念が存在する。対応点
は本来、各代表点に対して一意的に存在するはずであ
り、その存在個所以外の点が対応点であるという状態は
考えられない。この理想的な対応点が真の対応点であ
る。
In the present invention, it is necessary to grasp the correspondence of the subject between a plurality of video frames. Therefore, a representative point is set in a reference video frame (hereinafter, referred to as a “reference frame”), and a corresponding point of the representative point in another video frame (hereinafter, referred to as a “target frame”) is determined. And the two-dimensional displacement of each part of the image may be recognized. This is a kind of image recognition technology. The “corresponding point” here is a point corresponding to the representative point. The corresponding points are "true corresponding points"
And "computationally corresponding points". Corresponding points should originally exist uniquely for each representative point, and it is impossible to imagine a state where a point other than the existence point is a corresponding point. This ideal corresponding point is a true corresponding point.

【0018】一方、画像処理計算から決まる対応点は、
真の対応点に一致するとは限らない。これが計算上の対
応点である。計算上の対応点は、真の対応点の存在個所
以外に存在することがありうるだけではなく、その位置
が適宜変更されることもある。後者は、例えば後述の対
応点精度の改善処理を行う場合に発生する。
On the other hand, the corresponding points determined from the image processing calculation are:
It does not always match the true corresponding point. This is the corresponding point in the calculation. The corresponding points in the calculation may not only be present in places other than where the true corresponding points exist, but their positions may be changed as appropriate. The latter occurs when, for example, a process of improving the corresponding point accuracy described below is performed.

【0019】なお本明細書では、特に必要でない限り、
「対応点」ということばを「真の対応点」と「計算上の
対応点」の2つの概念に対して区別することなく用い
る。
In this specification, unless otherwise required,
The word “corresponding point” is used without distinction for the two concepts of “true corresponding point” and “calculated corresponding point”.

【0020】ここで、基準フレームと対象フレームが異
時刻フレームであるとき、代表点と対応点の位置関係か
ら、さらに別の対象フレームの対応点の位置を予想し、
対応点を探索すべき領域を限定してもよい。最も簡単な
例では、基準フレームと対象フレーム間で検出された被
写体の動きが同じ速度で維持されると仮定して、別の対
象フレームにおける被写体の存在個所を予想すればよ
い。
Here, when the reference frame and the target frame are different time frames, the position of the corresponding point of another target frame is predicted from the positional relationship between the representative point and the corresponding point.
The area for searching for the corresponding point may be limited. In the simplest example, the position of the subject in another target frame may be predicted on the assumption that the motion of the subject detected between the reference frame and the target frame is maintained at the same speed.

【0021】このとき、前記代表点のうち幾何的に特徴
のある映像領域に関連するものについては、それら代表
点の対応点の関連する映像領域についても前記幾何的な
特徴が維持されるよう、前記対応点の位置を調整しても
よい。「幾何的な特徴」を有する映像部分の例は、家の
屋根の角や地平線などである。幾何的な特徴は被写体の
幾何的特徴のみならず、映像中の色の変化点で構成され
ることもある。幾何的な特徴を維持すれば対応関係がよ
り正確に把握されるという経験則に基づく。
At this time, for the representative points related to the image region having a geometric feature, the geometric characteristics are maintained so that the image region related to the corresponding point of the representative point is also maintained. The position of the corresponding point may be adjusted. Examples of video parts having “geometric features” are the corners of the roof of a house and the horizon. The geometric feature may be constituted not only by the geometric feature of the subject but also by a color change point in the video. It is based on an empirical rule that if geometric features are maintained, correspondences can be grasped more accurately.

【0022】このとき、幾何的に特徴のある映像領域と
して直線を含む領域を採用してもよい。基準フレームで
直線をなした部分は対象フレームでも直線をなすと仮定
するのである。対応点の位置を微調整して直線上に乗せ
る計算負荷は比較的軽い。
At this time, an area including a straight line may be adopted as a geometrically characteristic image area. It is assumed that a portion that forms a straight line in the reference frame also forms a straight line in the target frame. The calculation load for finely adjusting the position of the corresponding point and putting it on a straight line is relatively light.

【0023】対象フレームにおける特定点近傍の映像領
域と、基準フレームの代表点近傍の映像領域間で映像の
類似性を評価し、この評価結果が良好な場合に前記特定
点をもって前記代表点の対応点と決めてもよい。対応関
係の把握に映像の類似性を採用するのである。「類似
性」の判断基準は、色の近さ、形の近さなどである。
The similarity of the video is evaluated between the video area near the specific point in the target frame and the video area near the representative point of the reference frame. If the evaluation result is good, the specific point corresponds to the representative point. You may decide a point. The similarity of the video is used to grasp the correspondence. The criterion of “similarity” is closeness of colors, closeness of shapes, and the like.

【0024】ここで「特定点」とは、評価に投入される
対応点の候補をいう。候補の決め方は問わない。例えば
等間隔に複数の特定点をとり、これらのうちで評価結果
が最良だった点を対応点とすればよい。
Here, the "specific point" refers to a candidate of a corresponding point to be input into the evaluation. There is no limitation on how to determine candidates. For example, a plurality of specific points may be taken at equal intervals, and a point having the best evaluation result among these points may be set as a corresponding point.

【0025】さらに、この類似性だけでなく、特定点間
の相対位置の妥当性を評価し、これら両評価の結果が良
好な場合に前記特定点をもって前記代表点の対応点と決
めてもよい。例えば、基準フレームで点Aよりも右にあ
った点Bが、類似性評価の結果、対象フレームにおいて
点Aよりも左に存在するとされた場合、その周囲の対応
関係にもこうした逆転現象があれば、点Bの位置は妥当
と考えることができる。別の例としては、基準フレーム
に取られたある領域の重心は対象フレームでもその領域
の重心付近にくると仮定し、位置の評価を行ってもよ
い。
Further, not only the similarity but also the validity of the relative position between the specific points is evaluated, and if the result of both the evaluations is good, the specific point may be determined as the corresponding point of the representative point. . For example, if it is determined that point B, which was on the right of point A in the reference frame, exists on the left of point A in the target frame as a result of the similarity evaluation, such a reversal phenomenon may also occur in the surrounding correspondence. For example, the position of point B can be considered valid. As another example, the position may be evaluated by assuming that the center of gravity of a certain region taken in the reference frame is also near the center of gravity of the region in the target frame.

【0026】ここでは、2つの評価を終えてから対応点
を決めてもよいし、いずれか一方が終わった段階で対応
点を仮りに決め、他方の評価によってその妥当性を判断
してもよい。
Here, the corresponding point may be determined after the two evaluations have been completed, or the corresponding point may be temporarily determined at the stage when one of the two evaluations has been completed, and the validity thereof may be determined by the other evaluation. .

【0027】こうした2つの評価を経て対応点が決まっ
た場合、本発明のある態様では、各評価の結果を数値化
して統合し、対応点の位置を変化させながらその数値を
再計算し、繰り返し計算を通して対応点の位置精度を改
善してもよい。つまり、2種類の評価結果を重み付けし
て加算し、この加算結果を最適化する対応点を求める。
When a corresponding point is determined through these two evaluations, in one embodiment of the present invention, the results of each evaluation are quantified and integrated, and the numerical value is recalculated while changing the position of the corresponding point, and repeated. The position accuracy of the corresponding point may be improved through the calculation. That is, the two types of evaluation results are weighted and added, and a corresponding point for optimizing the added results is obtained.

【0028】このときさらに、一旦全対応点の位置を固
定した上で、1つの対応点のみを移動させながら前記各
評価の結果が最良となる点を探索し、探索された最良点
の位置を前記1つの対応点の新たな位置とし、これらの
探索および位置の変更を順次全対応点について行っても
よい。
At this time, further, once the positions of all the corresponding points are fixed, a point where the result of each evaluation is the best is searched while moving only one corresponding point, and the position of the searched best point is determined. The new position of the one corresponding point may be set as a new position, and the search and the change of the position may be sequentially performed on all the corresponding points.

【0029】ある対応点Xを移動するとき、他の対応点
を固定した上で2つの評価を行い、その結果が最良とな
る点をもって対応点Xの新たな位置とする。これで対応
点Xの1回の位置改善が終わる。つづいて、次の対応点
について同様の探索と移動処理を行う。このときも他の
点は固定しておく。処理は全対応点について行い、必要
に応じて二巡以上繰り返す。以下、この改善手法を「固
定探索手法」と呼ぶことにする。
When moving a corresponding point X, two evaluations are performed after fixing the other corresponding point, and a point at which the result is the best is set as a new position of the corresponding point X. This completes one position improvement of the corresponding point X. Subsequently, similar search and movement processing are performed for the next corresponding point. At this time, other points are fixed. The processing is performed for all corresponding points, and is repeated twice or more as necessary. Hereinafter, this improved method will be referred to as a “fixed search method”.

【0030】固定探索処理が終了したのち、オイラー方
程式を用いて対応点の位置精度を高めてもよい。オイラ
ー方程式は2つの評価の統合後の数値が極大値または極
小値をとる条件を表す。この数値には、全対応点の評価
結果が反映されている。オイラー方程式によれば、画像
の最小単位(例えば画素)よりも高い精度で対応点の位
置を改善することも可能である。
After the fixed search processing is completed, the position accuracy of the corresponding point may be improved using Euler's equation. The Euler equation represents a condition under which the numerical value after integration of the two evaluations has a maximum value or a minimum value. This numerical value reflects the evaluation results of all corresponding points. According to the Euler equation, it is possible to improve the position of the corresponding point with higher accuracy than the minimum unit (for example, pixel) of the image.

【0031】本発明では、前記類似性評価をブロックマ
ッチングによって行ってもよい。この方法によれば、色
の類似性と形状の類似性の両方が同時に評価される。
In the present invention, the similarity evaluation may be performed by block matching. According to this method, both color similarity and shape similarity are evaluated simultaneously.

【0032】より具体的には、このブロックマッチング
は、比較すべき映像領域の間で色濃度のn乗誤差総和を
計算すればよい。nは1または2とする。n=1のとき
は色濃度の差の絶対値の総和を求める。
More specifically, this block matching may be performed by calculating the sum of the n-th error of the color density between the video areas to be compared. n is 1 or 2. When n = 1, the sum of the absolute values of the color density differences is obtained.

【0033】ここで色濃度に対し、所定の色偏向定数を
考慮してブロックマッチングを行ってもよい(以下「バ
イアスド・ブロックマッチング」と呼ぶ)。同時刻フレ
ームの場合、複数のカメラの特性によって色濃度に一定
の偏位が生じやすい。同じカメラによる異時刻フレーム
の場合にも、時刻によって天候が変わる(つまり映像の
明度等が変わる)ようなとき、同様の現象が起こる。こ
れを打ち消すように色偏向定数を与える。
Here, block matching may be performed on the color density in consideration of a predetermined color deflection constant (hereinafter referred to as "biased block matching"). In the case of the same time frame, a certain deviation in color density is likely to occur due to the characteristics of a plurality of cameras. The same phenomenon occurs when the weather changes with the time (that is, the brightness of the image changes) even in the case of different time frames by the same camera. A color deflection constant is given so as to cancel this.

【0034】ここで色偏向定数は、n乗誤差総和が最小
となるよう決められる。そのように決めることで色濃度
の偏向が最もよく解消されると考えられるためである。
Here, the color deflection constant is determined so that the sum of the n-th power errors is minimized. This is because it is considered that the determination of the color density is most effectively eliminated.

【0035】具体的には、色偏向定数は映像領域間の各
画素の色濃度差の平均値とすればよい。このとき、最も
一般的な2乗誤差総和が最小になるためである。前記ブ
ロックマッチングは、映像領域間で各画素の色濃度差か
ら色偏向定数を減算した後に2乗誤差総和を算出すれば
よい。
More specifically, the color deflection constant may be an average value of the color density difference of each pixel between the image areas. At this time, the most general sum of squared errors is minimized. In the block matching, the sum of square errors may be calculated after subtracting the color deflection constant from the color density difference of each pixel between image areas.

【0036】本発明のある態様では、映像に含まれる点
を特徴点と非特徴点に分類し、特徴点である代表点につ
いて優先的に対応点を決める。特徴点である対応点を補
間して非特徴点である対応点を決めることもできる。基
準フレームと対象フレームの間でブロックマッチングを
行い、その結果、代表点との対応が良好な対応点を特徴
点と決めてもよい。ブロックマッチングはバイアスド・
ブロックマッチングでもよい。
In one embodiment of the present invention, points included in an image are classified into feature points and non-feature points, and a corresponding point is preferentially determined for a representative point which is a feature point. The corresponding points that are non-feature points can be determined by interpolating the corresponding points that are feature points. Block matching may be performed between the reference frame and the target frame, and as a result, a corresponding point having a good correspondence with the representative point may be determined as a feature point. Block matching is biased
Block matching may be used.

【0037】本発明では、異時刻フレームにおいて位置
が安定的に変化している点を特徴点としてもよい。別の
言い方をすれば、動きベクトルが安定している点を特徴
点とする。このような点は的確に追跡されていると考え
られるためである。
In the present invention, the point where the position is stably changed in the different time frame may be set as a feature point. In other words, a point where the motion vector is stable is defined as a feature point. This is because such points are considered to be accurately tracked.

【0038】同時刻フレーム間における位置の変位(す
なわち位置のずれ)が、その近傍時刻において撮影され
た同時刻フレーム間においてもほぼ一定であるか、また
は一定変化する点を特徴点としてもよい。このような点
も追跡の精度が高いためである。
A feature point may be that a point at which the displacement of the position between the same time frames (that is, the displacement of the position) is substantially constant or changes constantly between the same time frames photographed at the near time. This is also because tracking accuracy is high.

【0039】本発明の別の態様では、奥行き情報に従っ
て視点変更映像を生成する。このために、想定される視
点の変更に伴う映像各部位の位置の変位を前記奥行き情
報から逆算し、前記位置の変位に従って映像を再構築す
る。これは、一種の画像加工技術である。例えば視点の
高さを変えてみる場合、カメラの移動距離と前記奥行き
情報から被写体(映像各部位)の変位(並進量と回転
量)が計算できる。この計算結果に従って所期の映像を
構築すればよい。
In another aspect of the present invention, a viewpoint-change video is generated according to the depth information. For this purpose, the displacement of the position of each part of the image due to the assumed viewpoint change is calculated back from the depth information, and the image is reconstructed according to the displacement of the position. This is a kind of image processing technology. For example, when changing the height of the viewpoint, the displacement (translation amount and rotation amount) of the subject (each part of the image) can be calculated from the moving distance of the camera and the depth information. An intended video may be constructed according to the calculation result.

【0040】元の映像が2眼カメラによって撮影された
ものであるとき、これら2眼から十分に近い位置に仮想
カメラを想定し、この仮想カメラから撮影されるべき映
像を視点変更映像として生成し、この視点変更映像と前
記2眼カメラによって撮影された現実の映像とによって
多視点映像を生成してもよい。一般に多視点映像を得る
場合、3眼以上のカメラによって映像を撮影しなければ
ならない。そこでこの態様では、もともと2眼カメラに
よる映像が存在する場合、仮想カメラで撮影される映像
を視点変更映像として生成し、これら3以上の映像によ
って多視点映像を生成する。
When the original video was captured by a twin-lens camera, a virtual camera is assumed to be located sufficiently close to these two eyes, and a video to be captured from this virtual camera is generated as a viewpoint change video. Alternatively, a multi-viewpoint image may be generated from the viewpoint-changed image and a real image captured by the twin-lens camera. Generally, when obtaining a multi-view video, it is necessary to shoot the video with three or more cameras. Therefore, in this embodiment, when a video image using a twin-lens camera originally exists, a video image captured by a virtual camera is generated as a viewpoint change video image, and a multi-view video image is generated using these three or more video images.

【0041】別の態様として、映像の視点を、ある映像
フレームを撮影した視点から別の映像フレームを撮影し
た視点まで仮想的に移動させながら、移動経路上の任意
の個所を視点とする視点変更映像を生成するしてもよ
い。例えば、映像フレーム1を撮影した視点を視点1、
別の映像フレーム2を撮影した視点を視点2と定義する
と、本発明は映像の視点を視点1から視点2に仮想的に
移動させながら、移動中の任意の視点で撮影されるべき
映像を視点変更映像として生成する。映像フレーム1と
2が異時刻フレームを構成する場合、視点変更映像を多
めに生成すれば、映像フレーム1と2の間を滑らかに変
化する映像を得ることができる。これは、例えば滑らか
なスローモーション画像を得る場合などに応用すること
ができる。当然ながら、映像フレーム1、2は同時刻フ
レームであってもよい。
As another mode, while changing the viewpoint of a video virtually from the viewpoint at which a certain video frame is captured to the viewpoint at which another video frame is captured, a viewpoint change is performed at an arbitrary point on the movement route. An image may be generated. For example, the viewpoint at which the video frame 1 is photographed is the viewpoint 1,
If the viewpoint at which another video frame 2 is photographed is defined as viewpoint 2, the present invention virtually shifts the viewpoint of the image from viewpoint 1 to viewpoint 2 while moving the image to be photographed at any moving viewpoint. Generate as change video. When the video frames 1 and 2 form different time frames, if the viewpoint change video is generated more, a video that smoothly changes between the video frames 1 and 2 can be obtained. This can be applied, for example, when obtaining a smooth slow motion image. Of course, the video frames 1 and 2 may be the same time frame.

【0042】また別の態様によれば、奥行き情報を基準
として映像の一部領域の大きさを変更した上で画像が生
成される。映像の一部領域として奥行きが小さな領域を
選定し、該領域を拡大した上で画像を生成してもよい。
一般に視点から近い被写体をさらに近くに見せることに
より、強調表示が可能となる。そこで小さな奥行きを持
つ領域を選定し、これを拡大する。
According to another aspect, an image is generated after changing the size of a partial region of a video image based on depth information. A region having a small depth may be selected as a partial region of a video, and the region may be enlarged before generating an image.
In general, highlighting is possible by making a subject closer to the viewpoint look closer. Therefore, an area having a small depth is selected and expanded.

【0043】逆の態様として、奥行きが大きな領域を選
定し、該領域を縮小した上で画像を生成してもよい。も
ともと視線から遠い被写体をさらに遠くに見せることに
より、こうした領域の重要度を落として表示するためで
ある。
As a reverse mode, an area having a large depth may be selected, the area may be reduced, and an image may be generated. This is because, by making a subject that is originally far from the line of sight look farther away, the importance of such an area is reduced and displayed.

【0044】なお、こうして異なる視点からの映像や、
拡大・縮小を行った後の映像については、映像領域間の
遮蔽関係を考慮してもよい。例えば、視点が移動するこ
とによって奥行きの大きな被写体が奥行きの小さな被写
体に遮蔽されたり、ある被写体の拡大によって背景が遮
蔽される場合がある。こうした場合は、遮蔽される部分
の画像を削除して画像を生成することにより、さらに自
然な画像を得ることが可能となる。
It should be noted that images from different viewpoints,
For the video after the enlargement / reduction, the occlusion relationship between the video regions may be considered. For example, a subject having a large depth may be shielded by a subject having a small depth by moving the viewpoint, or a background may be blocked by enlarging a certain subject. In such a case, a more natural image can be obtained by generating an image by deleting the image of the portion to be occluded.

【0045】視点変更映像や一部領域の拡大縮小等の画
像処理に伴い、画像枠に望ましくない段差が現れること
がある。本発明ではこの段差を修正してもよい。例え
ば、画像処理の結果、画像端部が画像中央方向に移動す
るような変位を受ける場合、その部分が中央方向に凹ん
で見えるためである。この部分は補間等の方法によって
もとの映像同様に滑らかな端部を再生すればよい。
Undesired steps may appear in the image frame due to the image processing such as the viewpoint change image and the enlargement / reduction of a partial area. In the present invention, this step may be corrected. This is because, for example, as a result of the image processing, when the image edge is displaced such that it moves toward the center of the image, that portion appears to be depressed toward the center. In this portion, a smooth end portion may be reproduced as in the case of the original video by a method such as interpolation.

【0046】さらに別の態様では、奥行き情報に従い、
所望の映像領域を切り出して画像を生成する。切り出し
は例えば、映像各部位のうち所定範囲の奥行きを持つ部
位を選定することによって行われる。例えば、奥行きが
10メートル以内の映像部位のみを選定する場合、視点
から10メートル以内の被写体のみが切り出される。こ
れは一種の画像認識技術である。
In still another embodiment, according to the depth information,
A desired video area is cut out to generate an image. The cutout is performed, for example, by selecting a part having a depth within a predetermined range from each part of the image. For example, when selecting only an image part with a depth of 10 meters or less, only a subject within 10 meters from the viewpoint is cut out. This is a kind of image recognition technology.

【0047】このときさらに、切り出された映像領域を
別の映像に重ねることによって新たな画像を生成しても
よい。上記の例でいえば、10メートル以内に存在する
被写体を切り出し、これを別途用意した風景、同時に撮
影された別の風景、同時に生成したCG映像などに張り
付けて仮想的な画像を得ることができる。
At this time, a new image may be generated by superimposing the clipped video area on another video. In the above example, a virtual image can be obtained by cutting out a subject existing within 10 meters and pasting it to a separately prepared scenery, another scenery shot at the same time, a CG image generated at the same time, or the like. .

【0048】[0048]

【発明の実施の形態】実施形態1. 本発明の好適な実施形態を適宜図面を参照
しながら説明する。実施形態1と2では、単眼で撮影さ
れた映像が入力されるものとする。多眼(ステレオ映
像)の場合は実施形態3で説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Embodiment 1 FIG . Preferred embodiments of the present invention will be described with reference to the drawings as appropriate. In the first and second embodiments, it is assumed that a video shot with a single eye is input. The case of multi-view (stereo video) will be described in a third embodiment.

【0049】図1は本実施形態によって二次元表示画像
を生成するための主な工程を示す図である。図に示すよ
うに本実施形態は以下の工程に従って、元となる入力映
像から二次元表示用の画像を生成する。ここで工程1〜
3が映像の解析による奥行き情報の導出に関するもので
あり、工程4が所期の画像の生成に関するものである。
まず各工程の概略を説明する。
FIG. 1 is a view showing main steps for generating a two-dimensional display image according to the present embodiment. As shown in the figure, according to the present embodiment, an image for two-dimensional display is generated from an original input video according to the following steps. Here, steps 1 to
3 relates to derivation of depth information by analyzing a video, and step 4 relates to generation of a desired image.
First, the outline of each step will be described.

【0050】[工程1]二次元動き情報の抽出 映像に含まれる被写体の動き情報を抽出する。動き情報
を二次元情報であり、表示画面を座標平面上にとり、被
写体のこの画面上の動きを二次元座標で記述する。
[Step 1] Extraction of two-dimensional motion information The motion information of the subject contained in the video is extracted. The motion information is two-dimensional information, and the display screen is set on a coordinate plane, and the motion of the subject on the screen is described in two-dimensional coordinates.

【0051】本工程では、被写体の動きの把握のために
映像フレーム間の対応関係を検出する。基準フレームで
ある時刻tの映像フレーム(以降「フレームt」とい
う)に予め複数の代表点を設定しておき、別の時刻t'
の対象フレーム(以降「フレームt' 」という)におけ
る前記各代表点の対応点を追跡する。フレームtとt'
は異時刻フレームを形成するが、これらは時間的に隣接
するフレームである必要はない。本工程の特徴は、被写
体の任意の方向の動きから二次元動き情報を抽出するこ
とができる点にある。
In this step, the correspondence between video frames is detected in order to grasp the movement of the subject. A plurality of representative points are set in advance in a video frame at time t (hereinafter referred to as “frame t”) which is a reference frame, and a different time t ′
The corresponding points of the respective representative points in the target frame (hereinafter referred to as “frame t ′”) are tracked. Frames t and t '
Form inter-time frames, which need not be temporally adjacent frames. The feature of this step is that two-dimensional motion information can be extracted from the motion of the subject in an arbitrary direction.

【0052】本明細書では以降「フレーム」といえば、
フィールドなど広く映像構成単位全般を指すものとし、
例えば525本の走査線によって構成されるテレビ受像
器の1フレームや、640×480画素によって構成さ
れるパーソナルコンピュータの一画面のみを指すもので
はない。また、代表点はフレームtのみならず、フレー
ムt、t' の両方に設定してもよい。
In the present specification, the term “frame” is hereinafter referred to as “frame”.
Broadly refers to the overall video composition unit such as the field,
For example, it does not refer to only one frame of a television receiver composed of 525 scanning lines or one screen of a personal computer composed of 640 × 480 pixels. The representative point may be set not only in the frame t but also in both the frames t and t ′.

【0053】[工程2]三次元動き情報の算出 被写体の二次元的な動きが判明すれば、この被写体の三
次元空間における現実の動き情報(三次元動き情報)を
算出する。この際、代表点と対応点の組を多数とること
により、被写体が実際に起こす動きを並進および回転の
両運動成分によって記述する。
[Step 2] Calculation of Three-Dimensional Motion Information When the two-dimensional motion of the subject is determined, actual motion information (three-dimensional motion information) of the subject in the three-dimensional space is calculated. At this time, by taking a large number of pairs of representative points and corresponding points, the motion actually caused by the subject is described by both translational and rotational motion components.

【0054】[工程3]奥行き情報の獲得 被写体の現実の動きの様子がわかれば、各時刻における
被写体の相対位置関係が判明する。この関係がわかれば
被写体またはその各部位(以降単に「映像各部位」とも
いう)の奥行き情報が求められる。
[Step 3] Acquisition of Depth Information If the actual state of movement of the subject is known, the relative positional relationship of the subject at each time can be determined. If this relationship is known, depth information of the subject or each part thereof (hereinafter, also simply referred to as “each part of the image”) is obtained.

【0055】[工程4]画像の生成 奥行き情報を含む三次元情報に応じて所期の画像を自動
生成する。ここでは、視点変更映像、画像の一部拡大・
縮小によって生成される画像、ある画像領域を切り出し
て生成される画像を説明する。
[Step 4] Generation of Image The desired image is automatically generated according to the three-dimensional information including the depth information. Here, the viewpoint change video, part of the image
An image generated by reduction and an image generated by cutting out a certain image area will be described.

【0056】以上が概略である。以降、各工程を詳述す
る。
The above is an outline. Hereinafter, each step will be described in detail.

【0057】[工程1]二次元動き情報の抽出 図2は映像フレーム間の対応関係を検出するためのフロ
ーチャートである。同図に示す各ステップを説明する。
[Step 1] Extraction of Two-Dimensional Motion Information FIG. 2 is a flowchart for detecting the correspondence between video frames. Each step shown in the figure will be described.

【0058】(S10)フレームtに代表点を設定 図3に示すように、まず基準フレームtに代表点を設定
する。同図では、フレームtを8×8画素ごとにメッシ
ュによって分割し、各代表点を格子点に置いている。こ
こでは左からi番目、上からj番目の代表点をPt
(i, j)と記述し、Pt (i, j)に対する時刻t'
の対応点をPt'(i, j)と記述する。また、必要に応
じてPt (i, j)のx、y座標をそれぞれ、Pt
(i, j)x 、Pt (i, j)y と記述する。
(S10) Setting a representative point in the frame t As shown in FIG. 3, first, a representative point is set in the reference frame t. In the figure, a frame t is divided by a mesh every 8 × 8 pixels, and each representative point is placed at a grid point. Here, the i-th representative point from the left and the j-th representative point from the top are Pt
(I, j), and the time t 'with respect to Pt (i, j).
Is described as Pt '(i, j). Also, if necessary, the x and y coordinates of Pt (i, j)
(I, j) x and Pt (i, j) y.

【0059】なお本ステップにおいて、代表点は格子点
に限らず任意の箇所に配置してもよい。極端な場合は全
画素を代表点とすることもできる。
In this step, the representative points are not limited to the lattice points, but may be arranged at arbitrary positions. In extreme cases, all pixels can be used as representative points.

【0060】(S11)対応点候補領域の設定 例えば図3に示すPt (6, 4)という代表点を考えた
場合、Pt'(6, 4)の存在しうる領域を予め設定す
る。これは映像の動きがある限度以上に急激な場合を除
き、Pt'(6, 4)がPt (6, 4)の近傍にあるとい
う仮定に基づく。本実施形態では、例えばPt (6,
4)の近傍100×60画素の領域にPt'(6, 4)が
入るものとし、Pt'(6, 4)の検出の際の計算量を削
減する。
(S11) Setting of Corresponding Point Candidate Area For example, in consideration of a representative point Pt (6, 4) shown in FIG. 3, an area where Pt ′ (6, 4) can exist is set in advance. This is based on the assumption that Pt '(6,4) is in the vicinity of Pt (6,4), except when the motion of the image is more abrupt than a certain limit. In the present embodiment, for example, Pt (6,
It is assumed that Pt ′ (6, 4) is included in the area of 100 × 60 pixels in the vicinity of 4), and the amount of calculation when Pt ′ (6, 4) is detected is reduced.

【0061】なお、本ステップについては以下の応用が
可能である。
The following application is possible for this step.

【0062】1.映像が比較的激しく動いているときは
フレームt、t' が隣接するようにt' を決める。代表
点の位置変化は最小に抑制され、対応点が前記領域に入
らないおそれも最小となる。ただし当然ながら、予め候
補領域を画面全体とする方法も考えられる。その場合、
計算量が増加するが、映像の大きな動きよって対応点を
取り逃すおそれは減る。
1. When the image is moving relatively violently, t 'is determined so that frames t and t' are adjacent to each other. The change in the position of the representative point is suppressed to a minimum, and the possibility that the corresponding point does not enter the area is also minimized. However, as a matter of course, a method in which the candidate area is set to the entire screen in advance is also conceivable. In that case,
Although the amount of calculation increases, the possibility that a corresponding point is missed due to a large motion of the image is reduced.

【0063】2.本実施形態では単にPt'(6, 4)が
Pt (6, 4)の近傍にあると仮定したが、いったんP
t (6, 4)の複数フレームにおける移動軌跡が判明し
たときは、この軌跡の延長線上に候補領域を決めること
も可能である。映像の動きがある程度一定している場
合、この方法による対応点候補領域の絞り込みは非常に
有効である。
2. In the present embodiment, it is simply assumed that Pt ′ (6, 4) is near Pt (6, 4).
When the movement trajectory in a plurality of frames of t (6, 4) is found, it is possible to determine a candidate area on an extension of this trajectory. If the motion of the video is constant to some extent, narrowing down the corresponding point candidate areas by this method is very effective.

【0064】(S12)対応点候補領域における非類似
度の計算 つづいて、候補領域から対応点の位置を具体的に決めて
いく。ただし本ステップでは、前ステップとは逆に、映
像の動きが緩慢過ぎる場合に問題が生じる。動きが少な
いと動き情報の抽出が困難になり、抽出された情報が大
きな誤差を含む可能性があるためである。
(S12) Calculation of Dissimilarity in Corresponding Point Candidate Area Next, the position of the corresponding point is specifically determined from the candidate area. However, in this step, contrary to the previous step, a problem occurs when the motion of the video is too slow. This is because if the movement is small, it becomes difficult to extract the motion information, and the extracted information may include a large error.

【0065】そこでこのようなときには、予めフレーム
t、t' がある程度離れるようt'を決める。この際、
映像各部位の変化量を統計的に処理し、例えば変化量の
分散が所定値を超えるようなt' を決めればよい。な
お、仮に条件を満たすt' が見つからなければ、二次元
表示用画像の生成を中止する。このときは入力された映
像をそのまま出力してもよい。
In such a case, t 'is determined in advance so that the frames t and t' are separated to some extent. On this occasion,
The amount of change in each part of the image is statistically processed, and for example, t 'may be determined so that the variance of the amount of change exceeds a predetermined value. If t ′ that satisfies the condition is not found, the generation of the two-dimensional display image is stopped. In this case, the input video may be output as it is.

【0066】本ステップでは、対応点の位置を決めるべ
く、フレームt、t' 間でブロックマッチングによる非
類似度の計算を行う。前記対応点候補領域内のある点を
中心とする近傍ブロックと代表点の近傍ブロックとの間
で濃度の2乗誤差の総和(非類似度)を求め、これが最
小になる点を計算上の対応点と決める。
In this step, the dissimilarity is calculated by block matching between the frames t and t 'in order to determine the position of the corresponding point. The sum (dissimilarity) of density square errors between a neighboring block centered on a certain point in the corresponding point candidate area and a neighboring block of the representative point is obtained, and a point at which this is minimized is calculated. Determine the point.

【0067】図4はブロックマッチングの様子を示す図
で、本実施形態では9画素で1ブロックと定義し、中央
の画素を代表点とする。同図において、まずフレームt
上にPt (i, j)を含むブロック1を取り、フレーム
t’側では対応点の候補Pt'(i, j)を含むブロック
2を取る。ここで一般に、画素(x, y)の時刻tにお
ける画素値をIt (x, y)と記述すれば、非類似度
(E1とする)は、
FIG. 4 is a diagram showing the state of block matching. In this embodiment, nine pixels are defined as one block, and the central pixel is used as a representative point. Referring to FIG.
A block 1 containing Pt (i, j) is taken above, and a block 2 containing a corresponding point candidate Pt '(i, j) is taken on the frame t' side. Here, generally, if the pixel value of the pixel (x, y) at the time t is described as It (x, y), the dissimilarity (E1) is as follows.

【数1】 E1=ΣΣ{It(Pt(i,j)x+u,Pt(i,j)y+v)-It'(Pt'(i,j)x+u,Pt'(i,j)y+v)}2 (式1) によって求められる。ここで2つのΣはu、vに関す
る。これらはそれぞれ、 u=−1,0,1 v=−1,0,1 の値を取り、仮のPt'(i, j)に対して合計9画素に
関する2乗誤差総和が計算できる。そこでPt'(i,
j)を候補領域内で少しずつ動かしていき、E1が最小
になる点を対応点と決めればよい。
E1 = ΣΣ {It (Pt (i, j) x + u, Pt (i, j) y + v) -It '(Pt' (i, j) x + u, Pt '(i, j) y + v)} 2 (Equation 1) Here, two Σs relate to u and v. These take values u = -1,0,1 v = -1,0,1 respectively, and the sum of square errors for a total of 9 pixels can be calculated for the temporary Pt '(i, j). Then Pt '(i,
j) may be moved little by little in the candidate area, and a point at which E1 becomes minimum may be determined as a corresponding point.

【0068】図5はPt'(i, j)ごとにE1の値を縦
方向に表した模式図であり、同図の場合、非類似度が急
峻なピークをとる点Qが対応点と決まる。以降、同様に
他の代表点についても対応点を決めていく。
FIG. 5 is a schematic diagram showing the value of E1 in the vertical direction for each Pt '(i, j). In this case, the point Q at which the dissimilarity has a steep peak is determined as the corresponding point. . Thereafter, corresponding points are similarly determined for other representative points.

【0069】なお、本ステップには以下の応用または変
形がある。
This step has the following applications or modifications.

【0070】1.ここでは濃淡画像を前提に、濃度の2
乗誤差を計算したが、カラー画像の場合、RGB各濃度
の2乗誤差の総和、すなわちE1R +E1G +E1B
非類似度としてもよい。これは他の色空間による濃度、
例えばHVC濃度であってもよい。2乗誤差の代わりに
単なる誤差の絶対値(残差の総和)を採用してもよい。 2.本ステップでは1ブロックを9画素としたが、通常
はある程度多数の画素によってブロックを定義すること
が望ましい。例えば通常のパーソナルコンピュータまた
はワークステーションの高解像度画面を想定する場合、
実験の結果、16×16画素程度のブロックによって良
好な結果が得られている。
1. Here, the density 2
Although the squared error has been calculated, in the case of a color image, the sum of squared errors of each density of RGB, that is, E1 R + E1 G + E1 B may be used as the dissimilarity. This is the density from other color spaces,
For example, it may be an HVC concentration. Instead of the square error, a simple absolute value of the error (sum of residuals) may be employed. 2. In this step, one block has 9 pixels, but it is usually desirable to define a block by a relatively large number of pixels. For example, assuming a high resolution screen of a normal personal computer or workstation,
As a result of the experiment, good results have been obtained with blocks of about 16 × 16 pixels.

【0071】(S13)対応点の初期位置の決定 前ステップにより、一応は対応点を求めることができ
た。しかしこの段階では対応点の位置が最適とは限らな
い。被写体の境界やエッジについては対応点が比較的正
しく求まるものの、例えば変化の乏しい映像部位では、
対応点の位置は相当誤差を含んでいるとみるべきであ
る。図5でいえばE1が明確なピークをとらない状態と
いってよい。図6は前ステップの結果求められた対応点
と代表点の関係を示す図で、同図に示すごとく、家や
木、特にそれらの輪郭等の特徴的な点については対応点
が良好に求まるが、空や地面については誤差が大きい。
(S13) Determination of Initial Position of Corresponding Point In the previous step, the corresponding point could be determined. However, at this stage, the position of the corresponding point is not always optimal. Although the corresponding points are relatively correctly determined for the boundaries and edges of the subject, for example, in an image portion with little change,
The position of the corresponding point should be considered to contain a considerable error. In FIG. 5, it may be said that E1 does not take a clear peak. FIG. 6 is a diagram showing the relationship between the corresponding points and the representative points obtained as a result of the previous step. As shown in FIG. 6, the corresponding points are satisfactorily obtained for characteristic points such as a house and a tree, especially their contours. However, the error is large for the sky and the ground.

【0072】そこで本ステップと次ステップにより、対
応点の位置補正を行う。本ステップでは、まず対応点の
初期位置という概念を導入し、実際にその初期位置を決
める。次ステップで繰り返し計算による位置精度の改善
を図る。本ステップにおける対応点初期位置の決定には
以下の方針が考えられる。
Therefore, in this step and the next step, the position of the corresponding point is corrected. In this step, first, the concept of the initial position of the corresponding point is introduced, and the initial position is actually determined. In the next step, the position accuracy is improved by repeated calculation. The following policy can be considered for determining the corresponding point initial position in this step.

【0073】1.前ステップで求められた全対応点を同
等に扱う 全対応点の位置をそのままそれらの初期位置として次ス
テップへ投入する。
1. Treat all the corresponding points found in the previous step equally. The positions of all the corresponding points are input to the next step as their initial positions.

【0074】2.対応点の扱いに差異を設ける 当初よりある程度正しい位置にあると思われる対応点
(以降「特徴点」という)の位置はそのまま初期位置と
して使い、そうでない対応点(以降「非特徴点」とい
う)の初期位置については、前記特徴点のそれをもとに
決めるというものである。ここで特徴点としては以下の
点を想定することができるが、これらの点は現実には一
致することも多い。
2. Provide a difference in handling of corresponding points The positions of corresponding points (hereinafter referred to as “feature points”) that seem to be in a correct position to some extent from the beginning are used as initial positions as they are, and corresponding points that are not (hereinafter referred to as “non-feature points”) Is determined based on that of the feature points. Here, the following points can be assumed as the feature points, but these points often coincide in reality.

【0075】(1)前ステップのE1が明確なピークを
示した対応点 このような対応点の位置精度は一般に高いためである。
(1) Corresponding point where E1 in the previous step shows a clear peak This is because the positional accuracy of such a corresponding point is generally high.

【0076】(2)直交エッジ成分が多く存在する箇所
にある対応点 建物の角などの部分では対応点の位置がかなり正しいと
思われるためである。 (3)フレームt、t' 、・・・において位置が安定的
に変化している対応点 ここで変化の安定性は、動きベクトルの一定性というこ
とができる。ここでは、フレームの進行に伴って移動方
向、移動距離が一定な対応点を選ぶ。具体的には、例え
ば動きベクトルのばらつきが所定値以下の対応点を選定
する。こうした対応点は的確に追跡されているはずであ
り、代表点と正しい対応関係にあると判断できるためで
ある。ただし、例えば映像を撮影するカメラが不規則に
動いた場合には、その影響を加味して判断する。
(2) Corresponding point at a position where many orthogonal edge components exist This is because the position of the corresponding point seems to be fairly correct in a portion such as a corner of a building. (3) Corresponding points whose positions are stably changing in frames t, t ',... Here, the stability of the change can be said to be the uniformity of the motion vector. Here, a corresponding point whose moving direction and moving distance are constant as the frame progresses is selected. Specifically, for example, a corresponding point whose variation of the motion vector is equal to or less than a predetermined value is selected. This is because such corresponding points should be accurately tracked, and it can be determined that they have a correct correspondence with the representative points. However, for example, when the camera that shoots the video moves irregularly, the determination is made in consideration of the influence.

【0077】こうして特徴点が選定されれば、これらは
そのまま初期位置として使い、非特徴点の初期位置は特
徴点の位置を補間したり、または特徴点の近傍から順に
決めていくことができる。すなわち、前ステップによる
非特徴点の位置精度は低いため、精度の高い特徴点から
幾何的に非特徴点の初期位置を与えるのである。なお当
然ながら、(3)の特徴点を見つける場合にも前ステッ
プの方法を有効利用できる。
When feature points are selected in this way, they can be used as initial positions as they are, and the initial positions of non-feature points can be determined by interpolating the positions of feature points or sequentially starting from the vicinity of feature points. That is, since the position accuracy of the non-feature point in the previous step is low, the initial position of the non-feature point is given geometrically from the highly accurate feature point. Of course, the method of the previous step can also be used effectively when finding the feature point of (3).

【0078】以上、特徴点の選定に基づいた対応点初期
位置の決定方法を述べたが、この他、動的計画法(ダイ
ナミック・プログラミング)を用いて対応点の初期値を
求めてもよい。
Although the method of determining the corresponding point initial position based on the selection of the feature point has been described above, the initial value of the corresponding point may be obtained by using a dynamic programming method (dynamic programming).

【0079】(S14)対応点の改善処理 対応点の位置の妥当性を評価するために式を導入し、繰
り返し計算によって位置精度を改善する。S12ステッ
プでは非類似度を評価する式1を導入したが、ここでは
さらに、対応点間の相対位置関係の妥当性を評価する式
を導入し、これら2つ評価結果を統合して位置の改善を
図る。
(S14) Corresponding Point Improvement Process An equation is introduced to evaluate the validity of the position of the corresponding point, and the position accuracy is improved by iterative calculation. In step S12, equation 1 for evaluating the degree of dissimilarity was introduced, but here, an equation for evaluating the validity of the relative positional relationship between corresponding points is introduced, and these two evaluation results are integrated to improve the position. Plan.

【0080】図7は相対位置を評価する原理を説明する
図である。同図において、各点はそれぞれ対応点を表し
ている。このうち、図中のPt'(i, j)を中心に考え
ると、これには以下の4つの対応点、
FIG. 7 is a diagram for explaining the principle of evaluating the relative position. In the figure, each point represents a corresponding point. Considering Pt '(i, j) in the figure, the following four corresponding points

【数2】Pt'(i-1,j)、Pt'(i+1,j)、Pt'(i,j
-1)、Pt'(i,j+1)が隣接している。Pt'(i, j)
は通常、これら4つの点の重心付近に存在すると考える
のが妥当である。これは、映像各部位が動いても画素単
位の微視的な見方をすれば相対位置関係がほぼ保たれる
という経験則に基づいている。なお、この性質を数学的
にいえば、(i, j)の関数Pt'(i, j)の2次微分
がほぼ0であるということにほかならない。
## EQU2 ## Pt '(i-1, j), Pt' (i + 1, j), Pt '(i, j
-1) and Pt '(i, j + 1) are adjacent. Pt '(i, j)
Is usually near the center of gravity of these four points. This is based on an empirical rule that, even when each part of the image moves, the relative positional relationship is substantially maintained if viewed microscopically in pixel units. In mathematical terms, this property is nothing but that the second derivative of the function Pt '(i, j) of (i, j) is almost zero.

【0081】従って上記4点の重心を(St'(i,j)x ,S
t'(i,j)y )と表記すれば、
Therefore, the center of gravity of the above four points is defined as (St '(i, j) x, S
t '(i, j) y)

【数3】 E2={Pt'(i,j)x-St'(i,j)x }2 +{Pt'(i,j)y-St'(i,j)y }2 (式2) が相対位置の妥当性評価式となる。この式だけを考えれ
ば、E2が最小値になるときに対応点の位置が最も望ま
しい状態となる。
Equation 3] E2 = {Pt '(i, j) x-St' (i, j) x} 2 + {Pt '(i, j) y-St' (i, j) y} 2 ( Formula 2 ) Is the formula for evaluating the validity of the relative position. Considering only this equation, the position of the corresponding point becomes the most desirable state when E2 becomes the minimum value.

【0082】本ステップでは、式1および式2の評価結
果を適当な結合定数kで加算し、 E=E1/N+k・E2 (式3) で表されるEを最終的な評価式とする(Nはブロックマ
ッチングの際に定義された1つのブロックに含まれる画
素数である)。すなわち、まず各対応点についてEを計
算し、続いて全対応点のEの総和ΣEを計算し、ΣEが
最小値となるよう、各対応点の位置をすこしずつ変化さ
せる。ΣEの値が収束するか、または繰り返し計算を所
定の上限回数に達するまで行い、改善処理を施す。より
具体的には、各対応点の位置を変化させるとき、以下の
いずれかの方法を実施すればよい。
In this step, the evaluation results of Equations 1 and 2 are added with an appropriate coupling constant k, and E expressed by E = E1 / N + kE2 (Equation 3) is used as the final evaluation equation ( N is the number of pixels included in one block defined at the time of block matching). That is, first, E is calculated for each corresponding point, then the sum ΣE of E of all corresponding points is calculated, and the position of each corresponding point is changed little by little so that ΣE becomes the minimum value. The improvement processing is performed until the value of ΣE converges or until the repetition calculation reaches a predetermined upper limit number. More specifically, when changing the position of each corresponding point, one of the following methods may be performed.

【0083】(1)オイラー方程式を解く方法 ΣEが極値(ここでは極小値)をとる条件を示すオイラ
ー方程式を数値的に解くことによって対応点を得る。こ
の手法自体は既知である。これは、各代表点を含むブロ
ックでの画像傾き情報と、対応ブロック間の画素差分情
報から改善すべき方向を見い出し、これに基づいて対応
点の位置を初期位置から徐々に動かしていき、最終解を
求める。
(1) Method of Solving Euler's Equation Corresponding points are obtained by numerically solving the Euler's equation showing the condition that ΣE takes an extreme value (here, a minimal value). This technique itself is known. This is because the direction to be improved is found from the image inclination information in the block including each representative point and the pixel difference information between the corresponding blocks, and based on this, the position of the corresponding point is gradually moved from the initial position. Find a solution.

【0084】(2)固定探索手法 まず、対応点候補領域において、改善対象の対応点のE
が最小になる点を探し、これを新たな対応点とする。こ
のとき、他の点の位置を不動とみなして探索を行う点に
特徴がある。この処理を順次全対応点に対して行う。
(2) Fixed Search Method First, in the corresponding point candidate area, the E of the corresponding point to be improved is
Find a point where is minimum, and use this as a new corresponding point. At this time, it is characterized in that the search is performed by regarding the positions of other points as immovable. This process is sequentially performed on all corresponding points.

【0085】(3)混合手法 (2)の手法によれば、画素単位の精度で対応点の位置
が求まる。一方、(1)によれば、理論上画素単位以下
の精度で位置を求めることができる。そこで、まず
(2)の手法によって画素単位の精度で対応関係を求
め、しかる後にオイラー方程式を適用して精度を高める
ことも可能である。
(3) Mixing Method According to the method (2), the position of the corresponding point can be determined with an accuracy of a pixel unit. On the other hand, according to (1), the position can be theoretically obtained with an accuracy of a pixel unit or less. Therefore, it is also possible to first obtain the correspondence with the accuracy of the pixel unit by the method (2), and thereafter to improve the accuracy by applying the Euler equation.

【0086】なお実験によれば、同じ精度で比較した場
合、(2)の手法によって(1)よりも短時間で好まし
い解が得られている。
According to the experiment, when compared with the same accuracy, a preferable solution was obtained in a shorter time than the method (1) by the method (2).

【0087】図8は図6の対応点候補に対して本ステッ
プの改善処理を行った結果を示す図である。実験によれ
ば、カラー画像の場合、kは5〜200程度で良好な結
果が得られることがわかった。図6と図8はともに模式
的な図であるが、実験の結果、実際にこれらの図に近い
改善が見られた。
FIG. 8 is a diagram showing the result of performing the improvement processing of this step on the corresponding point candidates of FIG. According to an experiment, in the case of a color image, k was about 5 to 200, and a good result was obtained. FIG. 6 and FIG. 8 are schematic diagrams, but as a result of the experiment, improvements close to those in these figures were actually observed.

【0088】以上が工程1の詳細である。なお本工程に
は、以下の応用または変形がある。 1.E2導出の際、上下左右の4点のみならず、斜め方
向の4点を加えた計8点の重心を考える。いかなる組合
せが最適であるかは映像の種類にも依存するため、適宜
実験によって決めていくことが望ましい。
The above is the details of the step 1. This step has the following applications or modifications. 1. When deriving E2, consider not only the four points in the up, down, left, and right, but also the center of gravity of a total of eight points including four points in the oblique direction. Which combination is optimal depends on the type of video, so it is desirable to appropriately determine the combination by experiment.

【0089】2.式3による評価は、E1のみによる評
価結果が思わしくなかった対応点から優先的に行う。こ
れはE1の結果が悪い対応点は一般に位置の誤差が大き
いと考えられるためであり、こうした対応点の位置を早
期に、かつ大幅に改善することが望ましいためである。
2. The evaluation based on Expression 3 is preferentially performed from the corresponding point where the evaluation result based on only E1 is not good. This is because a corresponding point having a poor result of E1 is generally considered to have a large position error, and it is desirable to improve the position of such a corresponding point early and significantly.

【0090】3.位置改善の際、幾何情報も利用する。
フレームtにおいて幾何的に特徴のある領域、例えば直
線を形成していた複数の代表点については、それらの対
応点も直線を形成するように位置を補正する。これは映
像上直線に見える部分は現実の三次元空間でも直線であ
る可能性が高く、一方、三次元空間の直線はフレーム
t' でも直線となるべきだからである。本来奥行きは直
線に沿って一様に変化するものであり、直線に沿う変化
は視覚的に容易に把握されるため、この方法による改善
効果は大きい。かかる改善をしない場合、最終的に生成
される画像において直線に沿う奥行きにむらが生じ、不
自然な画像になることがある。
3. Geometric information is also used for position improvement.
For a region having a geometric characteristic in the frame t, for example, a plurality of representative points that have formed a straight line, the positions are corrected so that their corresponding points also form a straight line. This is because a portion that appears to be a straight line on an image is likely to be a straight line even in the actual three-dimensional space, while a straight line in the three-dimensional space should be a straight line even in the frame t ′. Originally, the depth changes uniformly along the straight line, and the change along the straight line can be easily grasped visually, so that the improvement effect by this method is great. If such improvement is not made, the depth of the finally generated image will be uneven along the straight line, which may result in an unnatural image.

【0091】4.さらに別のフレームについても対応点
を求める。本工程ではフレームtに対するフレームt'
の対応点を求めたが、さらに第三のフレームt''におけ
る対応点も求め、映像各部位の平均化された動きを求め
ることができる。この方法は、フレームt' における対
応点位置を改善していくのではない。多くのフレームで
対応点をとることにより、対応点の位置とそのフレーム
が撮影された時間から映像各部位の動きを統計的に決め
ていくのである。
4. A corresponding point is obtained for another frame. In this step, the frame t 'with respect to the frame t
Are obtained, the corresponding points in the third frame t '' are also obtained, and the averaged motion of each part of the video can be obtained. This method does not improve the position of the corresponding point in the frame t '. By taking the corresponding points in many frames, the movement of each part of the video is statistically determined from the positions of the corresponding points and the time at which the frames were taken.

【0092】[工程2]三次元動き情報の算出 工程1により、映像各部位の画面上の二次元的な動きが
判明した。工程2ではこの情報から各部位の三次元的な
動きを算出する。映像は被写体の現実の動きを平面に投
影したものであり、本工程では代表点と対応点の位置関
係からもとの動きを導出する。
[Step 2] Calculation of Three-Dimensional Motion Information In step 1, two-dimensional motion of each part of the image on the screen was determined. In step 2, a three-dimensional movement of each part is calculated from this information. The image is obtained by projecting the actual movement of the subject on a plane, and in this step, the original movement is derived from the positional relationship between the representative point and the corresponding point.

【0093】一般に被写体の三次元空間における動き
は、並進運動と回転運動の合成として記述することがで
きる。ここではまず、動きが並進運動のみで構成される
場合の計算方法を説明し、後に一般化された方法を概説
する。
In general, the motion of a subject in a three-dimensional space can be described as a combination of a translational motion and a rotational motion. Here, first, a calculation method in the case where the motion is composed of only translational motion will be described, and then a generalized method will be outlined later.

【0094】1.動きが並進運動のみの場合 図9はある点Pの画面上の移動と三次元空間での現実の
移動の対応を示す図である。同図では画面上の二次元座
標を大文字X等で、現実の三次元座標を小文字x等で表
記するものとし、三次元座標のうちx、y軸を画面上
に、z軸を奥行き方向にとっている。また、視点から画
面までの距離を1とする。
1. FIG. 9 is a diagram showing the correspondence between the movement of a certain point P on the screen and the actual movement in a three-dimensional space. In the figure, the two-dimensional coordinates on the screen are represented by capital letters X and the like, and the actual three-dimensional coordinates are represented by small letters x and the like. The x- and y-axes of the three-dimensional coordinates are represented on the screen, and the z-axis is represented in the depth direction. I have. Further, the distance from the viewpoint to the screen is set to 1.

【0095】この図に示す通り、P(X, Y)は画面上
をP' (X',Y' )へ移動するが、この間、この点は三
次元空間においてS(x, y, z)からS(x',y',
z' )へと移動する。ここで、
As shown in this figure, P (X, Y) moves on the screen to P ′ (X ′, Y ′), and during this time, this point is S (x, y, z) in the three-dimensional space. To S (x ', y',
z '). here,

【数4】 (x',y',z' )=(x, y, z)+(a, b, c) とすれば、画面までの距離が1なので、 X =x/z, Y =y/z X' =x' /z' , Y' =y' /z' となる。これを解けば、 X' =(Xz+a)/(z+c) Y' =(Yz+b)/(z+c) となるため、zを消去し、次式が求められる。If (x ′, y ′, z ′) = (x, y, z) + (a, b, c), the distance to the screen is 1, so that X = x / z, Y = y / z X ′ = x ′ / z ′ and Y ′ = y ′ / z ′. If this is solved, X '= (Xz + a) / (z + c) Y' = (Yz + b) / (z + c), so z is eliminated and the following equation is obtained.

【0096】[0096]

【数5】 (a−X' c)(Y' −Y)=(b−Y' c)(X' −X) (式4) 式4は画面上の動き情報で表現されているため、工程1
で得られた情報によって未知数a, b, cを決めること
ができる。しかしこの際、現実にはk倍の大きさの物体
がk倍離れたところをk倍の速さで移動するケースにお
いて、このkの値(スケールファクター)を決めること
はできず、a, b, cについてはそれらの比のみを求め
ることが可能となる。数学的にいえば、(X, Y)と
(X',Y')の対応を3組与えても、この連立方程式を
行列表示した際の係数行列のランク(階数)は高々2で
あり、a, b, cは相対値としてしか決まらない。そこ
で本工程では、仮にc=1と正規化してa, bを表すこ
とにする。比のみでも、次工程による処理が可能なため
である。
(A−X ′ c) (Y′−Y) = (b−Y ′ c) (X′−X) (Equation 4) Since Equation 4 is represented by motion information on the screen, Step 1
The unknowns a, b, and c can be determined based on the information obtained in (1). However, in this case, in reality, in the case where an object having a size of k times moves at a speed of k times at a position separated by k times, the value of k (scale factor) cannot be determined. , c, it is possible to determine only their ratio. Mathematically speaking, even if three sets of (X, Y) and (X ', Y') are given, the rank (order) of the coefficient matrix when this simultaneous equation is represented as a matrix is at most 2; a, b, and c can be determined only as relative values. Therefore, in this step, a and b are temporarily represented by normalizing c = 1. This is because the process in the next step can be performed using only the ratio.

【0097】並進運動の別の解法として、式4から誤差
eを、
As another solution for the translational motion, the error e from equation 4 is given by

【数6】 e ={(a-X'c)(Y'-Y) −(b-Y'c)(X'-X) }2 ={(Y'-Y)a-(X'-X)b−(XY'-X'Y)c}2 (式5) と定義し、代表点と対応点の全対応関係についてeの総
和Σeをとり、この値を最小にするa, b, cを次の式
から求めてもよい。
E = e (a-X′c) (Y′-Y) − (b-Y′c) (X′-X)} 2 = {(Y′-Y) a- (X′- X) b− (XY′−X′Y) c} 2 (Equation 5), and the sum Σe of e is obtained for all the correspondences between the representative points and the corresponding points, and a, b, c may be calculated from the following equation.

【0098】d(Σe)/da=0 (式6) d(Σe)/db=0 (式7) d(Σe)/dc=0 (式8) より具体的には、式6〜8はそれぞれ次の形に展開され
る。
D (Σe) / da = 0 (formula 6) d (Σe) / db = 0 (formula 7) d (Σe) / dc = 0 (formula 8) More specifically, formulas 6 to 8 are Each is expanded to the following form.

【0099】[0099]

【数7】 a Σ(Y'-Y)2 -bΣ(X'-X)(Y'-Y)-cΣ(Y'-Y)(XY'-X'Y)=0 (式9) -a Σ(X'-X)(Y'-Y)+bΣ(X'-X)2 +cΣ(X'-X)(XY'-X'Y)=0 (式10) -a Σ(Y'-Y)(XY'-X'Y)+b Σ(X'-X)(XY'-X'Y)+c Σ(XY'-X'Y) 2 =0 (式11) 以上が並進運動に関する計算方法の例である。7 (Y′-Y) 2 -bΣ (X'-X) (Y'-Y) -cΣ (Y'-Y) (XY'-X'Y) = 0 (Equation 9)- a Σ (X'-X) (Y'-Y) + bΣ (X'-X) 2 + cΣ (X'-X) (XY'-X'Y) = 0 (Equation 10) -a Σ (Y '-Y) (XY'-X'Y) + b Σ (X'-X) (XY'-X'Y) + c Σ (XY'-X'Y) 2 = 0 (Equation 11) It is an example of the calculation method regarding exercise.

【0100】2.動きが回転運動を含む場合 回転運動はx, y, z方向の3つの変位と各軸を中心と
する3つの回転角、例えばα, β, γによって記述する
ことができる。回転角はオイラー角またはロールピッチ
法などによって表現することができる。
2. When Motion Includes Rotational Motion Rotational motion can be described by three displacements in the x, y, and z directions and three angles of rotation about each axis, for example, α, β, γ. The rotation angle can be expressed by an Euler angle or a roll pitch method.

【0101】ここで上記合計6つの変数を決定すればよ
いが、ここでも上述のごとくスケールファクターが決ま
らないため、ある変数を1として各変数の比を求める。
理論的上、代表点と対応点を5組とれば運動を記述する
ことができる。
Here, the total of six variables may be determined. However, since the scale factor is not determined as described above, a certain variable is set to 1 and the ratio of each variable is determined.
Theoretically, the movement can be described if there are five sets of representative points and corresponding points.

【0102】ここで注意すべきは、組のとりかたによっ
ては動きの様子が線形解法によって求まらないことがあ
る点である。こうした場合を考慮する際、組を8以上と
ればよいことが知られている。8組の変化から線形解法
によって回転運動を記述しうる根拠については、例えば
「動きからの単眼立体視による形状認識の線形解法につ
いて」(出口・秋場、計測自動制御学会論文集vol.26,
No.6,714/720 (1990))などに示されている。
It should be noted here that, depending on how the pairs are set, the state of the movement may not be obtained by the linear solution method. When such a case is considered, it is known that the number of sets should be eight or more. For the grounds that can describe the rotational motion by the linear solution from the eight sets of changes, see, for example, “About the linear solution of shape recognition by monocular stereoscopic vision from motion” (Exit / Akiba, Transactions of the Society of Instrument and Control Engineers vol.26,
No. 6, 714/720 (1990)).

【0103】[工程3]奥行き情報の獲得工程2によっ
て映像各部位の三次元的な動きの相対量がわかった。工
程3では、この相対量から各部位の奥行き情報を導出す
る。本工程では説明のために、被写体は静止しており、
それを撮影するカメラの側が動くものと仮定する。映像
処理の際には被写体とカメラの相対運動が問題となるた
め、この仮定によって良好な結果が得られる。
[Step 3] The relative amount of the three-dimensional movement of each part of the image was found in step 2 of acquiring depth information. In step 3, depth information of each part is derived from the relative amount. In this process, for the sake of explanation, the subject is stationary,
Assume that the side of the camera that shoots it moves. Since the relative motion between the subject and the camera becomes a problem during image processing, a good result can be obtained by this assumption.

【0104】映像のある部位の動きを回転行列Rと並進
ベクトル(a, b, c)により、 (x',y',z' )=R(x, y, z)+(a, b, c) と表す場合、この逆変換、
The motion of a certain part of the image is represented by (x ′, y ′, z ′) = R (x, y, z) + (a, b, c) using the rotation matrix R and the translation vector (a, b, c). c) this inverse transformation,

【数8】 (x, y, z)=R-1{(x',y',z' )−(a, b, c)} (式12) をカメラの動きと考える。(X, y, z) = R −1 {(x ′, y ′, z ′) − (a, b, c)} (Equation 12) is considered as the motion of the camera.

【0105】図10はカメラの三次元移動とある点Pの
画面上の移動から点Pの三次元座標を導く原理を説明す
る図である。同図からわかるように、この原理は一般に
三角測量の原理として知られるもので、位置の異なる2
点から点Pの方向を見たとき、点Pの現実の位置(図中
の点S)はそれら2つの視線の交点に存在するというも
のである。
FIG. 10 is a diagram for explaining the principle of deriving the three-dimensional coordinates of the point P from the three-dimensional movement of the camera and the movement of the point P on the screen. As can be seen from the figure, this principle is generally known as the principle of triangulation,
When the direction of the point P is viewed from the point, the actual position of the point P (point S in the figure) exists at the intersection of these two lines of sight.

【0106】同図では、時刻t〜t' の間にカメラが矢
印で示すように式12に従って移動したとする。フレー
ムtでは点Sが点Pt に、t' では点Pt'にそれぞれ投
影されている。点Sは図中の2つの直線Lt、Lt' の
交点にある。
In the figure, it is assumed that the camera has moved in accordance with Equation 12 as shown by the arrow between times t and t '. In frame t, point S is projected on point Pt, and in t ', point S is projected on point Pt'. Point S is located at the intersection of two straight lines Lt and Lt 'in the figure.

【0107】この条件下、カメラの方向とLt、Lt'
のなす角θt、θt' は既知であり、一方カメラの移動
方向と距離が判明しているため、点Sの三次元座標を求
めることが可能となる。この座標により、映像各部位の
奥行き情報が判明する。
Under these conditions, the direction of the camera and Lt, Lt '
Since the angles θt and θt ′ are known and the moving direction and distance of the camera are known, the three-dimensional coordinates of the point S can be obtained. From these coordinates, the depth information of each part of the image is determined.

【0108】ここで注意すべきは、前述のごとくc=1
という正規化のため、求められた座標も一定の割合で拡
大または圧縮されていることである。しかしこの場合で
も、奥行き情報は一様に拡大圧縮されているため、奥行
きの相互関係は正しい。
It should be noted that c = 1 as described above.
For this normalization, the obtained coordinates are also expanded or compressed at a constant rate. However, also in this case, the depth information is correct because the depth information is uniformly expanded and compressed.

【0109】以上が本工程の概要であるが、本工程では
前工程までの誤差を考慮する必要がある。誤差により、
通常は前記Lt、Lt' が計算上交わらないためであ
る。こうした事情に配慮し、本工程では両直線の最接近
点の中点のz座標を点Sの奥行き値と近似する。これを
数式によって説明する。
The above is the outline of the present step. In this step, it is necessary to consider errors up to the previous step. Due to the error,
This is because Lt and Lt 'do not normally intersect in calculation. In consideration of such circumstances, in this step, the z coordinate of the midpoint between the closest points of both straight lines is approximated to the depth value of the point S. This will be described using mathematical expressions.

【0110】上記Lt、Lt' の方向ベクトルをそれぞ
れ(u, v, w)、(u',v',w')とする。ここで実
数パラメータα、βにより両直線は、 Lt :(x, y, z)+α(u, v, w) Lt' :(x',y',z' )+β(u',v',w' ) (式13) と表すことができる。従って、
The direction vectors of Lt and Lt ′ are (u, v, w) and (u ′, v ′, w ′), respectively. Here, both straight lines are expressed by the real number parameters α and β as follows: Lt: (x, y, z) + α (u, v, w) Lt ′: (x ′, y ′, z ′) + β (u ′, v ′, w ′) (Equation 13). Therefore,

【数9】 e = {(x+βu)-(x'+ αu')}2 +{(y+ βv)-(y'+ αv')}2 +{(z+βw)-(z'+ αw')}2 とし、eを最小にするα、βをde/dα=0、de/
dβ=0より求める。すなわち、
E = {(x + βu)-(x ′ + αu ′)} 2 + {(y + βv)-(y ′ + αv ′)} 2 + {(z + βw)-(z ′ + αw ′)} 2, and α and β that minimize e are de / dα = 0, de /
It is determined from dβ = 0. That is,

【数10】 (u2 +v2 +w2 ) α-(uu'+vv'+ww')β+(x-x')u+(y-y')v+(z-z')w=0 (u' 2 +v' 2 +w' 2 ) β-(uu'+vv'+ww')α+(x-x')u'+(y-y')v'+(z-z')w'=0 を解いてα、βを求め、最終的に点Sの奥行き値を、(U 2 + v 2 + w 2 ) α- (uu '+ vv' + ww ') β + (x-x') u + (y-y ') v + (z-z') w = 0 (u ' 2 + v' 2 + w ' 2 ) β- (uu' + vv '+ ww') α + (x-x ') u' + (y-y ') v' + (z-z ') w' = 0 to obtain α and β, and finally the depth value of the point S,

【数11】{(z+αw)+(z'+ βw')}/2 とすればよい。ここで仮に誤差が0だったとすれば、こ
の座標は両直線の交点のz座標に一致する。
[Equation 11] {(z + αw) + (z ′ + βw ′)} / 2 Here, if the error is 0, this coordinate coincides with the z coordinate of the intersection of both straight lines.

【0111】また別の方法として、これら両直線を一旦
フレームtの画面に透視投影し、投影後の最近接点のz
座標を求めることもできる。ここでLtは代表点である
一点に投影され、一方Lt' は一般に直線に投影され
る。Lt' が式13で表記されるならば、投影後の各点
のx、y座標は、Lt' 上の各点のそれらをそのz座標
で割ることにより、 x = f(x'+ βu')/(z'+βw') (式14) y = f(y'+ βv')/(z'+βw') (式15) と書くことができる。ここでfは視点からフレームtの
画面までの距離で、実際にはf=1などとして扱えばよ
い。式14、15からβを消去すれば投影後の直線(以
下Liという)が以下のように求まる。
As another method, these two straight lines are once perspectively projected on the screen of frame t, and the projected closest point z is projected.
Coordinates can also be determined. Here, Lt is projected to one point which is a representative point, while Lt 'is generally projected to a straight line. If Lt ′ is expressed by Equation 13, the x, y coordinates of each point after projection can be obtained by dividing those of each point on Lt ′ by its z coordinate, as x = f (x ′ + βu ′). ) / (z ′ + βw ′) (Equation 14) y = f (y ′ + βv ′) / (z ′ + βw ′) (Equation 15) Here, f is the distance from the viewpoint to the screen of the frame t, and may be handled as f = 1 in practice. If β is eliminated from Expressions 14 and 15, a straight line after projection (hereinafter referred to as Li) is obtained as follows.

【0112】kx+my+f n=0 ただしここで、 k=v'z'-w'y' 、m=w'x'-u'z' 、n=u'y'-v'x' とおいている。Kx + my + f n = 0 where k = v'z'-w'y ', m = w'x'-u'z', and n = u'y'-v'x '.

【0113】求めるべき最近接点は、代表点PtからL
iに下ろした垂線とLiの交点(以下Dとする)であ
り、その座標は、 x=(m 2 X-kn-kmY)/(k 2 +m2 ) (式16) y=(k 2 Y-mn-kmX)/(k 2 +m2 ) となる。ここで点Tに対応するもとのLt' 上の点をE
(x'',y'',z'' )とすれば、点Eは、式16を式14に
代入してβを求め、これをLt' の式に代入することよ
って求められる。βは、 β=(xz'-fx' )/(fu'-xw') であるため、これを式13へ代入し、点Eのz座標 z''
は、 z'' =z'+ w'(xz'-fx' )/(fu'-xw' ) と求まる。これを点Sの奥行き値とすればよい。
The closest point to be obtained is L from the representative point Pt.
It is the intersection (hereinafter referred to as D) of the perpendicular drawn to i and Li, and its coordinates are x = (m 2 X-kn-kmY) / (k 2 + m 2 ) (Equation 16) y = (k 2 Y-mn-kmX) / (k 2 + m 2 ). Here, a point on Lt ′ corresponding to point T is represented by E
If (x '', y '', z ''), the point E is obtained by substituting equation 16 into equation 14 to obtain β, and substituting this into the equation Lt '. Since β is β = (xz′−fx ′) / (fu′−xw ′), this is substituted into Expression 13 to obtain the z coordinate z ″ of the point E.
Is obtained as z '' = z '+ w'(xz'-fx') / (fu'-xw'). This may be used as the depth value of the point S.

【0114】なお、画像処理の際の誤差によって上記の
奥行きが負の値となる場合(点Sがカメラの後方に存在
することになる場合)、この計算結果は信頼することが
できない。このときは正の奥行き値を持つ近傍の代表点
から補間するなどの処理を行う。
When the depth becomes a negative value due to an error in image processing (when the point S is located behind the camera), the calculation result cannot be trusted. At this time, processing such as interpolation from a nearby representative point having a positive depth value is performed.

【0115】以上、いずれの方法をとるかは別として、
求められた映像各部位の奥行きは、例えば代表点ごとに
数値として与えればよい。図11はフレームtにおいて
各代表点に数値が与えられた状態を示す図で、例えばP
t (2, 3)、Pt (4, 3)それぞれの奥行きは10
0、200となり、後者の実際の位置は前者よりも2倍
離れたところにあることがわかる。
As described above, aside from which method is taken,
The obtained depth of each part of the image may be given as a numerical value for each representative point, for example. FIG. 11 is a diagram showing a state in which a numerical value is given to each representative point in a frame t.
t (2, 3) and Pt (4, 3) each have a depth of 10
0 and 200, indicating that the actual position of the latter is twice as far as the former.

【0116】[工程4]画像の生成 工程3で求められた奥行き情報に応じて、所期の画像を
生成する。いままでの工程では少なくとも2つの映像フ
レームから必要情報を抽出したが、本工程では1つの映
像フレームをもとに所期の画像を得ることができる。
[Step 4] Generation of Image An expected image is generated according to the depth information obtained in Step 3. In the steps so far, necessary information has been extracted from at least two video frames. However, in this step, a desired image can be obtained based on one video frame.

【0117】(1)視点変更映像 図12、13は元の映像と視点変更映像の対応関係を示
す図である。図12には元の映像が示され、この映像は
奥行きが小さい順に「木」、「家」、「人」の映像領域
を含んでいる。一方、図13には視点変更映像が示され
ている。ここでは、視点を仮想的に右上に移動した場合
を例にしている。
(1) Viewpoint change video FIGS. 12 and 13 are diagrams showing the correspondence between the original video and the viewpoint change video. FIG. 12 shows an original image, which includes image areas of “tree”, “house”, and “person” in order of decreasing depth. On the other hand, FIG. 13 shows a viewpoint change video. Here, a case where the viewpoint is virtually moved to the upper right is taken as an example.

【0118】これらの図からわかるように、本発明によ
れば、実際にカメラの位置を移動しなくとも、異なる視
点からの映像を得ることができる。工程3により、映像
各部位について奥行き情報を含む三次元位置座標が把握
されているためである。ここでは視点が右上に移動する
と仮定したが、これは被写体が左下に移動すると考える
ことと等価である。この左下への移動は、工程3で説明
したように、回転と並進によって表すことができる。そ
こで、本実施形態の工程1〜3を逆向きに辿ることによ
り、この仮想的な三次元移動から画像上の二次元移動を
逆算することが可能となる。この結果、図13に示す画
像が得られる。工程1〜4の画像生成過程には人が恣意
をさし挟む余地はなく、得られる画像は極めて自然なも
のとなる。
As can be seen from these figures, according to the present invention, it is possible to obtain images from different viewpoints without actually moving the position of the camera. This is because the three-dimensional position coordinates including the depth information for each part of the image are grasped in step 3. Here, it is assumed that the viewpoint moves to the upper right, which is equivalent to thinking that the subject moves to the lower left. This movement to the lower left can be represented by rotation and translation, as described in step 3. Therefore, by following steps 1 to 3 of the present embodiment in the opposite direction, it is possible to reversely calculate the two-dimensional movement on the image from the virtual three-dimensional movement. As a result, an image shown in FIG. 13 is obtained. There is no room for human beings to arbitrarily place the images in the steps 1 to 4 and the obtained image is extremely natural.

【0119】本工程では、遮蔽関係を考慮して画像を生
成することが望ましい。例えば図13の場合、視点の移
動に伴って「木」の下端が「家」の屋根に隠される。そ
こで「木」の下端の部分を「家」の画像データで塗りつ
ぶすことにより、自然な画像を生成する。実際のソフト
ウエア処理では、奥行きの大きい映像部位から順に、視
点移動後の画像を生成していけばよい。遮蔽関係を計算
によって把握したいときは、新たな視点から映像各部位
を見込む視線ベクトルが一致するか否かを判定すればよ
い。視線ベクトルが一致する2つの部位A、Bがある場
合、部位Aのほうが部位Bよりも視点に近ければ、部位
Bが部位Aによって隠されることになる。この情報に従
って画像を生成してもよい。
In this step, it is desirable to generate an image in consideration of the shielding relationship. For example, in the case of FIG. 13, the lower end of the "tree" is hidden by the roof of the "house" as the viewpoint moves. Therefore, a natural image is generated by painting the lower end of the “tree” with the image data of the “house”. In the actual software processing, the images after the movement of the viewpoint may be generated in order from the video part having the largest depth. When it is desired to grasp the occlusion relationship by calculation, it is sufficient to determine whether or not the gaze vectors that look at each part of the video from a new viewpoint match. In the case where there are two parts A and B having the same gaze vector, if the part A is closer to the viewpoint than the part B, the part B is hidden by the part A. An image may be generated according to this information.

【0120】なお、視点変更映像を生成する場合、当然
ながら、視点の仮想的な移動距離が短いほうが正確な画
像を得ることができる。この事実を利用して、視点変更
映像には次のような用途も考えられる。
When a viewpoint-changed video is generated, it is natural that the shorter the virtual moving distance of the viewpoint is, the more accurate an image can be obtained. Utilizing this fact, the following applications can be considered for the viewpoint change video.

【0121】1.2眼映像から多視点映像の生成 2眼カメラによってステレオ映像が得られているとき、
仮想的に第3のカメラを設けて多視点映像を生成する。
2眼カメラの間隔は一般に小さいため、例えばこれらと
ともに小さな三角形をなす点を視点とする視点変更映像
を生成する。この映像は比較的正確であり、もとの2眼
カメラによる映像と合わせることで良好な多視点映像を
形成することができる。
1.2 Generation of Multi-View Image from Eye Image When a stereo image is obtained by a two-eye camera,
A third camera is virtually provided to generate a multi-view video.
Since the interval between the twin-lens cameras is generally small, for example, a viewpoint-changed video is generated with a point forming a small triangle with them. This image is relatively accurate, and a good multi-view image can be formed by combining the image with the image obtained by the original twin-lens camera.

【0122】2.スローモーション映像の生成 例えば時間的に最も近い2枚の異時刻フレームをフレー
ムt、t' とする。これらのフレームを撮影した視点を
それぞれ視点t、t' とする。視点はフレームt、t'
の間に視点tから視点t' に実際に移動しているが、こ
の間の映像は存在しない。そこで視点t、t' 間に仮想
的な視点を設け、視点変更映像を生成する。視点変更映
像を多数設けて順次表示すればスローモーション映像が
得られる。この際、次の効果がある。
2. Generation of Slow Motion Video For example, two different time frames that are closest in time are frames t and t ′. The viewpoints at which these frames are photographed are referred to as viewpoints t and t ', respectively. The viewpoint is frame t, t '
Is actually moving from the viewpoint t to the viewpoint t 'during this period, but no image exists during this period. Therefore, a virtual viewpoint is provided between the viewpoints t and t ', and a viewpoint change video is generated. If a large number of viewpoint change images are provided and sequentially displayed, a slow motion image can be obtained. At this time, the following effects are obtained.

【0123】a.本来ならコマ送り的な映像となるべき
映像の動きが極めて滑らかになる b.時間的に近いフレーム間では一般に視点の移動が少
ないため、非常に良好な映像が得られる c.視点t、t' 間の視点の移動経路を変化させれば、
異なるイメージのスローモーション映像が得られる。
A. The motion of the video, which should be a frame-by-frame video, becomes extremely smooth. B. Very good images can be obtained since the viewpoint is generally not moved between frames that are close in time. C. By changing the movement path of the viewpoint between viewpoints t and t ',
Slow motion images of different images can be obtained.

【0124】なおこの技術は、当然ながら同時刻フレー
ム間に適用することもできる。
Note that this technique can naturally be applied between frames at the same time.

【0125】(2)一部拡大・縮小画像 画像表示技術の1つに強調表示がある。強調表示の一例
として、近い被写体はより近く、遠い被写体はより遠く
に配置しなおす場合がある。画像にメリハリを付けるた
めである。
(2) Partially Enlarged / Reduced Image One of the image display techniques is an emphasis display. As an example of the highlighting, there is a case where a closer subject is closer and a farther subject is farther away. This is for adding sharpness to the image.

【0126】こうした要請に答えるべく、本発明では奥
行き情報に基づいて画像の一部拡大・縮小を行う。図1
4は図12の画像の一部を拡大して生成された画像を示
す。ここでは拡大処理の対象を奥行きの小さな領域、す
なわち「人」としている。この結果、観視者に最も近い
「人」がさらに手前に知覚され、効果的な強調表示が可
能となる。ここでも(1)同様、遮蔽関係を考慮するこ
とが望ましい。
In order to respond to such a request, the present invention performs partial enlargement / reduction of an image based on depth information. FIG.
Reference numeral 4 denotes an image generated by enlarging a part of the image in FIG. Here, the target of the enlargement processing is an area having a small depth, that is, a “person”. As a result, the "person" closest to the viewer is perceived further to the front, and effective highlighting can be performed. Here, as in (1), it is desirable to consider the shielding relationship.

【0127】ここで注意すべきは、最小の奥行きを持つ
領域を拡大する限り、原則として拡大率に制限がないこ
とである。その領域が理論上奥行きゼロの距離に知覚さ
れてもよいためである。一方、中間の奥行きを持つ領
域、例えば図14の「家」を拡大する場合、これは
「人」よりも手前に知覚されるべきではないため、自ず
と制限が生じる。この制限を守らない場合、非常に不自
然な画像が生成される。本発明にように、奥行き情報に
基づいて拡大を行う場合、例えば、「最小の奥行きを持
つ領域のみを拡大し、最大の奥行きを持つ領域のみを縮
小する」という規則を設けることが可能となり、現実に
マッチした自然な画像(自然法則に則った画像)を得る
ことができる。
It should be noted here that, as long as the region having the minimum depth is enlarged, the enlargement ratio is not limited in principle. This is because the region may be theoretically perceived at a distance of zero depth. On the other hand, when an area having an intermediate depth, for example, “house” in FIG. 14 is enlarged, it should not be perceived in front of “person”, so that a restriction naturally occurs. Failure to observe this restriction will result in very unnatural images. As in the present invention, when performing enlargement based on depth information, for example, it is possible to provide a rule that "only expands the area having the minimum depth and reduces only the area having the maximum depth". It is possible to obtain a natural image (an image according to the law of nature) that matches reality.

【0128】ここでは自然な画像の生成について触れた
が、逆に、敢えて不自然な画像を作りたいという要望も
ある。例えばゲームの画像において、遠い個所にあるも
のを拡大して一種のちぐはぐ感を創出するような用途が
考えられる。いずれにせよ、本実施形態の特徴はこうし
た自然感、不自然感の選択を意識的に行うことのできる
点にある。従来の手法では、ある領域を拡大してみたら
偶然自然な画像が得られた、というような事態が発生し
がちだったが、本実施形態はこうした事態を解消する。
Although the generation of a natural image has been described here, there is also a demand for creating an unnatural image. For example, in an image of a game, an application in which a distant place is enlarged to create a kind of incongruous feeling can be considered. In any case, the feature of the present embodiment is that the selection of such a natural feeling or an unnatural feeling can be made consciously. In the conventional method, a situation in which a natural image is accidentally obtained when a certain area is enlarged tends to occur, but the present embodiment solves such a situation.

【0129】なお、本工程の結果自然な画像を得られた
として、この画像に対し、さらに上記(1)または後述
(3)の処理を施す場合、まず拡大・縮小した領域の奥
行きを変更することが望ましい。例えば、2倍の長さに
拡大した領域については、その奥行きを約1/2にす
る。逆に、1/2の大きさに縮小した領域は奥行きを約
2倍にする。これは領域の大きさと奥行きがほぼ反比例
する事実による。この配慮により、後段の処理において
も自然な画像を得ることができる。
Assuming that a natural image is obtained as a result of this process, when further processing (1) or (3) described below is performed on this image, first, the depth of the enlarged or reduced area is changed. It is desirable. For example, the depth of a region that is doubled in length is reduced to about 1/2. Conversely, the depth of a region reduced to half the size is approximately doubled. This is due to the fact that the size and the depth of the region are almost inversely proportional. With this consideration, a natural image can be obtained even in the subsequent processing.

【0130】また、(1)と(2)の画像処理に際し
て、画像枠に現れる段差を修正して最終画像を生成して
もよい。例えば、図12の元の映像から図13の視点変
更映像を生成する場合、一般に図13に含まれるすべて
の映像部位と図12のそれらが完全に一対一に対応する
ことはない。図13の右上端は、図12の場合に比べ
て、より「家」の右上端から遠いため、図13の右上端
付近の映像の元となる映像は図12に含まれていない。
従って、図12に含まれる映像情報から単純に図13の
映像を生成する場合、右上端付近が欠ける。この部分が
図13に示す理想的な画像枠から内側に凹む。同様の理
由から、図12に含まれる剰余の映像情報は図13の画
像枠から外に飛び出す。
In the image processing of (1) and (2), a final image may be generated by correcting a step appearing in an image frame. For example, when generating the viewpoint change image of FIG. 13 from the original image of FIG. 12, generally, not all of the image parts included in FIG. 13 and those of FIG. 12 correspond completely one-to-one. The upper right end of FIG. 13 is farther from the upper right end of the “house” than the case of FIG. 12, and thus the image that is the source of the image near the upper right end of FIG. 13 is not included in FIG.
Therefore, when the video of FIG. 13 is simply generated from the video information included in FIG. 12, the vicinity of the upper right end is missing. This portion is depressed inward from the ideal image frame shown in FIG. For the same reason, the surplus video information included in FIG. 12 jumps out of the image frame of FIG.

【0131】そこでここでは、凹部に画素を充当し、一
方凸部から余剰画素を切除することにより、画像枠(画
像領域の外形で、ここでは矩形)をもとのまま維持する
ものとする。充当は、例えば近傍の画素と同じ色の画素
によって行う。(2)の一部拡大・縮小の場合も、それ
ぞれ凸凹が発生すると考えられるため、同様の処理を施
す。こうした処理により、不自然な画像枠の表示を回避
することができる。
Here, it is assumed here that the image frame (the outer shape of the image area, which is a rectangle in this case) is maintained as it is by allocating the pixels to the concave portions and cutting off the surplus pixels from the convex portions. The allocation is performed by, for example, pixels of the same color as the neighboring pixels. In the case of (2) partial enlargement / reduction, similar processing is performed because it is considered that each of the irregularities occurs. Through such processing, display of an unnatural image frame can be avoided.

【0132】(3)切り出しによる画像 所期の領域を切り出して画像を生成する。例えば図12
において、「人」「家」「木」の奥行きがそれぞれ3、
10、20メートルであるとする。ここで仮に、「人」
のみを切り出す場合、例えば「奥行き5メートル以内」
という条件を与えて各部位の奥行きを検索、判定してい
けばよい。「家」の場合は「奥行き5〜15メートル」
などとする。
(3) Image by cutting out An intended area is cut out to generate an image. For example, FIG.
, The depth of “person”, “house”, and “tree” is 3,
Let it be 10, 20 meters. Here, temporarily, "person"
When cutting out only, for example, "within 5 meters in depth"
In this case, the depth of each part may be searched and determined. In the case of "house", "5-15 meters in depth"
And so on.

【0133】図15は図12の画像のうち、「家」を切
り出して生成された画像を示している。所望の領域が切
り出された後は、それ以外の領域を空白にしたり、別の
映像に切り出した領域を貼り付けることができる。
FIG. 15 shows an image generated by cutting out “house” from the image of FIG. After the desired area is cut out, the other area can be blanked or the cut out area can be pasted on another image.

【0134】このように、本発明は一種の画像認識・加
工技術をも与える。従来、画像領域の切り出しは人手作
業または色によるクラスタリング等の手法によって行わ
れたが、本発明は奥行き情報という新しい観点から、相
当精度の高い領域認識手法を提供する。
As described above, the present invention also provides a kind of image recognition / processing technique. Conventionally, an image area is cut out by a technique such as manual clustering or color clustering. However, the present invention provides a highly accurate area recognition technique from a new viewpoint of depth information.

【0135】以上が実施形態1に係る二次元表示画像生
成方法の説明である。本発明によれば、正確な奥行き情
報の導出とその利用により、新しい画像処理技術が開示
される。一連の処理は、例えばソフトウエア的にすべて
自動化することができるため、本発明の用途は広範であ
る。
The two-dimensional display image generation method according to the first embodiment has been described. According to the present invention, a new image processing technique is disclosed by deriving and using accurate depth information. Since the series of processes can be fully automated, for example, by software, the use of the present invention is wide.

【0136】実施形態2.実施形態2では実施形態1の
実施に最適な装置を説明する。
Embodiment 2 FIG . In a second embodiment, an apparatus most suitable for implementing the first embodiment will be described.

【0137】図16は実施形態1を実施するためのハー
ドウエア構成例を示す図である。
FIG. 16 is a diagram showing an example of a hardware configuration for implementing the first embodiment.

【0138】同図において、処理対象となる映像は映像
入力回路20から入力され、ここでA/D変換を受け
る。変換後の映像はフレームメモリ制御回路22によっ
てフレームメモリ24に格納される。フレームメモリ2
4の後段には、複数の映像フレームを読み出して対応点
を検出する対応点検出回路26が置かれている。この回
路は実施形態1の工程1をハードウエア的に実施するも
ので、ブロックマッチングには、例えばMPEGのエン
コーダ回路を採用することができる。
In the figure, a video to be processed is input from a video input circuit 20, where it undergoes A / D conversion. The converted video is stored in the frame memory 24 by the frame memory control circuit 22. Frame memory 2
Subsequent to 4, a corresponding point detection circuit 26 that reads a plurality of video frames and detects corresponding points is provided. This circuit implements step 1 of the first embodiment by hardware, and for block matching, for example, an MPEG encoder circuit can be employed.

【0139】対応点検出回路26において検出された対
応点の座標は、いったん対応点座標メモリ28に格納さ
れ、動き検出回路30によって適宜読み出される。動き
検出回路30は実施形態1の工程2、3を実施するもの
で、並進・回転運動から被写体の三次元相対位置を算出
する。
The coordinates of the corresponding points detected by the corresponding point detecting circuit 26 are temporarily stored in the corresponding point coordinate memory 28 and read out by the motion detecting circuit 30 as appropriate. The motion detection circuit 30 performs steps 2 and 3 of the first embodiment, and calculates a three-dimensional relative position of a subject from translation / rotational motion.

【0140】つづいて三次元位置情報は画像生成回路3
2へ入力される。この回路はフレームメモリ24から元
の映像を読み出し、所定の処理を加えて画像を生成す
る。画像生成回路32の前段には、外部から各種指示を
受け付ける指示入力部34が設けられている。
Subsequently, the three-dimensional position information is stored in the image generation circuit 3.
2 is input. This circuit reads an original video from the frame memory 24 and performs predetermined processing to generate an image. An instruction input unit 34 for receiving various instructions from the outside is provided at a stage preceding the image generation circuit 32.

【0141】こうして生成された画像は、画像出力回路
36によるD/A変換を受け、図示しないディスプレイ
装置へ出力される。
The image thus generated is subjected to D / A conversion by the image output circuit 36 and output to a display device (not shown).

【0142】以上の構成による本装置の動作を説明す
る。
The operation of the present apparatus having the above configuration will be described.

【0143】まず、カメラによって撮影された映像また
はビデオ再生装置によって再生された映像等が映像入力
回路20から入力される。この映像はフレームメモリ2
4に格納される。フレームメモリ24から読み出された
複数の映像フレームに対し、対応点検出回路26、動き
検出回路30によって被写体の奥行き情報が獲得され
る。つづいて画像生成回路32がこの奥行き情報に従
い、視点変更映像等の画像を生成する。この際、前述の
指示入力部34からの入力により、視点変更、拡大・縮
小、切り出しを行う。こうした指示は、既知のユーザー
・インタフェイスによって実現可能である。
First, an image captured by a camera or an image reproduced by a video reproducing apparatus is input from the image input circuit 20. This video is frame memory 2
4 is stored. With respect to a plurality of video frames read from the frame memory 24, depth information of the subject is obtained by the corresponding point detection circuit 26 and the motion detection circuit 30. Subsequently, the image generation circuit 32 generates an image such as a viewpoint change video according to the depth information. At this time, the viewpoint is changed, enlarged / reduced, and cut out based on the input from the instruction input unit 34 described above. These instructions can be realized by a known user interface.

【0144】以上、本装置をワークステーションに組み
込んで映像の奥行き情報を求めた実験の結果を図面によ
って説明する。
The results of an experiment in which the present apparatus is incorporated into a workstation to determine depth information of a video will be described with reference to the drawings.

【0145】図17〜22は本装置による画像生成の過
程を示すもので、いずれもディスプレイ上に表示された
中間調画像の写真であり、約640×480画素領域で
構成されている。
FIGS. 17 to 22 show a process of generating an image by the present apparatus, all of which are photographs of a halftone image displayed on a display, and are composed of about 640 × 480 pixel areas.

【0146】図17と図18はそれぞれフレームtとフ
レームt' の映像で、カメラの移動によって多少映像に
動きがある。図19はフレームtをメッシュ分割して代
表点を設けた状態を示し、図20はフレームt' におけ
る対応点の初期位置を示している。ここでは特徴点を優
先的に扱い、代表点を中心とする16×16画素の領域
でブロックマッチングを行った結果の最良点を初期位置
とした。
FIGS. 17 and 18 are images of frame t and frame t ', respectively, and the image slightly moves due to the movement of the camera. FIG. 19 shows a state in which a representative point is provided by dividing the frame t into meshes, and FIG. 20 shows an initial position of a corresponding point in the frame t '. Here, feature points are preferentially treated, and the best point obtained by performing block matching in a 16 × 16 pixel area centered on the representative point is set as the initial position.

【0147】図21は実施形態1の式3、つまり対応点
の位置関係をも考慮して対応点位置を改善した結果を示
す図で、図20に比べて位置の大幅な改善が見られる。
FIG. 21 is a diagram showing Expression 3 of the first embodiment, that is, a result of improving the position of the corresponding point in consideration of the positional relationship of the corresponding points. The position is greatly improved as compared with FIG.

【0148】図22は獲得された奥行き情報を濃淡で表
したもので、薄い画素ほど奥行きが小さい。同図からわ
かるように、奥行き情報がかなり正確に得られている。
FIG. 22 shows the obtained depth information in light and shade, and the thinner the pixel, the smaller the depth. As can be seen from the figure, the depth information is obtained fairly accurately.

【0149】以上、本装置によれば実施形態1を円滑に
実施することができる。この際、特にブロックマッチン
グのソフトウエアによる実行時間を考慮すれば、ここを
ハードウエアで行うことによる処理速度の改善効果は大
きい。
As described above, according to the present apparatus, the first embodiment can be carried out smoothly. At this time, if the execution time of the software for block matching is taken into consideration, the effect of improving the processing speed by performing this processing by hardware is significant.

【0150】本装置を製品とする場合の態様としては、
例えばパーソナルコンピュータやワークステーションに
図16の構成を有するアド・オンカードを搭載する方
法、テレビ受信装置やビデオ再生装置に図16の構成を
予め内蔵する方法等が有効である。本装置をカメラと組
み合わせた場合、従来必要とされたレーザ、赤外線、超
音波等による奥行きの測定が不要となる。
As a mode of using the present apparatus as a product,
For example, a method of mounting the add-on card having the configuration of FIG. 16 in a personal computer or a workstation, a method of previously incorporating the configuration of FIG. 16 in a television receiver or a video playback device, and the like are effective. When this apparatus is combined with a camera, depth measurement using laser, infrared rays, ultrasonic waves, or the like, which is conventionally required, becomes unnecessary.

【0151】実施形態3.実施形態1、2では、入力映
像が単眼カメラによって撮影されるものとした。ここで
は、多眼カメラによるステレオ映像を入力映像とする場
合の二次元表示画像生成方法を、実施形態1との相違点
を中心に説明する。
Embodiment 3 In the first and second embodiments, the input video is taken by the monocular camera. Here, a method of generating a two-dimensional display image when a stereo image by a multi-lens camera is used as an input image will be described focusing on differences from the first embodiment.

【0152】図23は実施形態3によって二次元表示画
像を生成するための主な工程を示す。同図と実施形態1
の図1との主な違いは以下の通りである。
FIG. 23 shows main steps for generating a two-dimensional display image according to the third embodiment. FIG. 1 and Embodiment 1
The main differences from FIG. 1 are as follows.

【0153】1.工程1の「動き情報」が「変位情報」
に変更される 実施形態1では異時刻フレームを扱ったが、実施形態3
では基本的に同時刻フレームを扱う。同時刻の場合、被
写体に動きを定義することはできないため、代わりに同
時刻フレーム間の被写体の位置のずれ(変位)の情報を
抽出する。
1. "Motion information" in step 1 is "displacement information"
The first embodiment deals with a different time frame, but the third embodiment
So basically we deal with the same time frame. In the case of the same time, since movement cannot be defined for the subject, information on the displacement (displacement) of the position of the subject between frames at the same time is extracted instead.

【0154】2.工程2が不要となる 図1の工程2「三次元動き情報の算出」に対応するステ
ップがない。多眼の場合、はじめから図10の状態で撮
影がなされるため、三角測量の原理によって直接的に奥
行き情報が獲得できるためである。
[0154] 2. Step 2 becomes unnecessary There is no step corresponding to step 2 “calculation of three-dimensional motion information” in FIG. This is because, in the case of a multi-view, since the shooting is performed in the state of FIG. 10 from the beginning, depth information can be directly obtained by the principle of triangulation.

【0155】なお、複数カメラの相対位置関係に狂いが
発生しうる多眼カメラシステムを用いる場合、この狂い
を補正するセルフキャリブレーションを行ったほうがよ
い。この場合、工程2はセルフキャリブレーション工程
となる。セルフキャリブレーションの手法については、
例えば、富田、高橋「ステレオカメラのセルフキャリブ
レーション」(情報処理Vol.31,No.5(1990)650 〜65
9 ページ)、特開昭63−293038号公報、特開昭
63−293039号公報などに示されている。
When using a multi-lens camera system in which the relative positional relationship between a plurality of cameras may be deviated, it is better to perform a self-calibration to correct the deviation. In this case, step 2 is a self-calibration step. For the self-calibration method,
For example, Tomita and Takahashi "Self-calibration of stereo camera" (Information Processing Vol. 31, No. 5 (1990) 650-65)
9), JP-A-63-293038, JP-A-63-293039 and the like.

【0156】以下、実施形態3の工程1〜3を説明す
る。
Hereinafter, Steps 1 to 3 of Embodiment 3 will be described.

【0157】[工程1]二次元変位情報の抽出 実施形態1の説明において、「動き」を「変位」に置き
換える他、フレームt、t' の組をフレーム1、2に置
き換えればよい。フレーム1、2はそれぞれカメラ1、
2から撮影された映像を指し、撮影時刻はtで固定とす
る。実施形態3では、最低これら2枚のフレームのみか
ら最終画像を得ることができる。すなわち多眼撮影の場
合は、入力は静止映像であってもよい。その他、実施形
態1の工程1との相違は以下の通りである。
[Step 1] Extraction of Two-Dimensional Displacement Information In the description of the first embodiment, in addition to replacing “movement” with “displacement”, a set of frames t and t ′ may be replaced with frames 1 and 2. Frames 1 and 2 are camera 1,
2 indicates a video taken, and the shooting time is fixed at t. In the third embodiment, the final image can be obtained from at least these two frames. That is, in the case of multi-view photography, the input may be a still image. In addition, the differences from Step 1 of Embodiment 1 are as follows.

【0158】(1)実施形態1のS11(対応点候補領
域の設定)では、映像の動きの激しさまたは各部位の移
動軌跡に基づき、異時刻フレームの選択または対応点候
補領域を絞り込んで対応点検出処理の計算量削減を行っ
た。実施形態3では絞り込みの方法を以下のように変更
し、同様に有効な計算量削減を実現する。
(1) In S11 (setting of corresponding point candidate area) in the first embodiment, selection of a different time frame or narrowing down the corresponding point candidate area is performed based on the intensity of the motion of the image or the movement trajectory of each part. The calculation amount of point detection processing was reduced. In the third embodiment, the narrowing-down method is changed as described below, and similarly, an effective calculation amount is reduced.

【0159】まず、通常どおり多眼カメラが水平に設置
されると仮定する。このとき、対応点のy座標(上下方
向の座標)はほぼ等くなる。この仮定と画像処理に伴う
誤差およびカメラの設置誤差を考慮し、対応点候補領域
を横長の帯状領域に限定する。さらに、フレームt'
(t' =t−1)において対応する代表点の位置の差が
xであれば、フレームtにおける対応点探索領域も、や
はり差がxとなる近傍に限定することができる。
First, it is assumed that the multi-lens camera is installed horizontally as usual. At this time, the y-coordinates (vertical coordinates) of the corresponding points are substantially equal. Considering this assumption, an error associated with image processing, and a camera installation error, the corresponding point candidate area is limited to a horizontally long band-like area. Further, the frame t '
If the difference between the positions of the corresponding representative points at (t ′ = t−1) is x, the corresponding point search area in the frame t can also be limited to the neighborhood where the difference is also x.

【0160】(2)実施形態1のS12(対応点候補領
域における非類似度の計算)では、映像の動きが緩慢過
ぎる場合に統計処理を導入したが、実施形態3ではこの
作業も不要である。
(2) In S12 of the first embodiment (calculation of dissimilarity in the corresponding point candidate area), statistical processing is introduced when the movement of the video is too slow. However, in the third embodiment, this operation is unnecessary. .

【0161】(3)実施形態1のS12同様、実施形態
3でも対応点の位置を決めるべくブロックマッチングを
行うが、ここではバイアスド・ブロックマッチングを採
用したほうがよい場合がある。バイアスド・ブロックマ
ッチングは、多眼カメラを構成する各カメラが異なる特
性を持つ場合、有効に機能する。例えば、カメラ2がカ
メラ1よりも青味がかった映像を送出するとすれば、フ
レーム2の色濃度から青(B)の成分を一定量差し引い
た後(すなわち所定の色偏向定数αB を引いた後)、ブ
ロックマッチングを行うべきである。こうした処理を行
わない場合、最良マッチングを取り逃がすおそれがあ
る。ただし実際には、例えばRGBで色濃度を表す場
合、前記の青(B)のみならず、赤(R)と緑(G)に
ついてもそれぞれ色偏向定数αR 、αG を引くべきであ
る。
(3) As in S12 of the first embodiment, in the third embodiment, block matching is performed in order to determine the position of the corresponding point. Here, it may be better to employ biased block matching. Biased block matching works effectively when the cameras constituting the multi-view camera have different characteristics. For example, if camera 2 transmits an image bluish than the camera 1, minus (i.e. predetermined color deflection constants alpha B after subtracting a certain amount of blue components (B) from the color density of Frame 2 After), block matching should be performed. If such processing is not performed, the best matching may be missed. However, actually, for example, when the color density is represented by RGB, the color deflection constants α R and α G should be subtracted not only for the blue (B), but also for the red (R) and the green (G).

【0162】図4および式1を基礎として、バイアスド
・ブロックマッチングを式で説明する。ここでは、実施
形態1で用いたPt (i, j)をフレーム1、2に対応
して単にP1、P2と表記し、It (i, j)も同様に
I1、I2と表記する。このとき式1は、
The biased block matching will be described using equations based on FIG. 4 and equation 1. Here, Pt (i, j) used in the first embodiment is simply expressed as P1 and P2 corresponding to frames 1 and 2, and It (i, j) is similarly expressed as I1 and I2. At this time, Equation 1 is

【数12】 E1= ΣΣ{I1(P1x+u,P1y+v)-I2(P2x+u,P2y+v) }2 (式18) と簡単になる。この式が濃淡画像の場合の通常のブロッ
クマッチングを表す。
[Equation 12] E1 = {I1 (P1x + u, P1y + v) -I2 (P2x + u, P2y + v)} 2 (Equation 18) This expression represents normal block matching for a grayscale image.

【0163】一方、バイアスド・ブロックマッチングで
は、式18を、
On the other hand, in biased block matching, Expression 18 is

【数13】 E1= ΣΣ{I1(P1x+u,P1y+v)-I2(P2x+u,P2y+v)-α}2 (式19) とすればよい。カラー画像の場合、αはαR 、αG また
はαB であり、RGBそれぞれの画像において求めたE
1の和、すなわちE1R +E1G +E1B でマッチング
を行う。さらに見やすさを考えて、I1(P1x+u,P1y+v) を
単にI1、I2(P2x+u,P2y+v) を単にI2と表記すれば、
式19は、 E1= ΣΣ(I1-I2-α)2 (式20) となる。I1、I2はu、vの関数であるが、αは定数
である。
E1 = {I1 (P1x + u, P1y + v) -I2 (P2x + u, P2y + v) -α} 2 (Equation 19) In the case of a color image, α is α R , α G or α B , and E obtained in each of the RGB images is
Matching is performed with the sum of 1, that is, E1 R + E1 G + E1 B. Further considering the legibility, if I1 (P1x + u, P1y + v) is simply expressed as I1, and I2 (P2x + u, P2y + v) is simply expressed as I2,
Equation 19 is given by E1 = ΣΣ (I1-I2-α) 2 (Equation 20). I1 and I2 are functions of u and v, while α is a constant.

【0164】αの最適値を考える。カメラ1、2は同じ
被写体を撮影しているはずだから、フレーム1、2の映
像は、映像各部位の変位は別として、ほぼ同様の内容を
含む。すなわちカメラの特性が近づくほど、式20のE
1の値は小さくなる。この事実から逆に、αはE1を最
小にする値とすべきである。式20は、
Consider the optimal value of α. Since the cameras 1 and 2 should have photographed the same subject, the images of the frames 1 and 2 include substantially the same contents except for the displacement of each part of the image. That is, as the characteristics of the camera get closer, E
The value of 1 becomes smaller. Conversely from this fact, α should be a value that minimizes E1. Equation 20 is

【数14】 E1=ΣΣ{(I1-I2 )2 −2 α(I1-I2 )+α2 } =ΣΣ(I1-I2 )2 −2 αΣΣ(I1-I2 )+ΣΣα2 (式21) であり、領域の総画素数をNと仮定すれば、ΣΣ1=N
だから式21は、
Equation 14] is E1 = ΣΣ {(I1-I2 ) 2 -2 α (I1-I2) + α 2} = ΣΣ (I1-I2) 2 -2 αΣΣ (I1-I2) + ΣΣα 2 ( Equation 21), Assuming that the total number of pixels in the region is N, ΣΣ1 = N
So Equation 21 is

【数15】 E1=ΣΣ(I1-I2 )2 −2 αΣΣ(I1-I2 )+Nα2 (式22) となる。従って、 dE1/dα=−2ΣΣ(I1-I2 )+2Nα であるから、 α={ΣΣ(I1-I2 )}/N (式23) のとき、E1は最小となる。このαは、ブロックマッチ
ングの対象となる2つの領域間の各画素の色濃度差の平
均値と言い換えられる。式23を式22に代入して計算
すれば、
[Equation 15] E1 = {(I1-I2) 2 −2 α} (I1-I2) + Nα 2 (Equation 22) Therefore, since dE1 / dα = −2ΣΣ (I1−I2) + 2Nα, when α = {(I1−I2)} / N (Equation 23), E1 becomes the minimum. This α is rephrased as the average value of the color density difference of each pixel between the two regions to be subjected to block matching. Substituting Equation 23 into Equation 22 and calculating,

【数16】 E1=ΣΣ(I1-I2 )2 −{ΣΣ(I1-I2 )}2 /N (式24) となるため、結局バイアスド・ブロックマッチングでは
式24を計算すればよい。あとは実施形態1同様の処理
を経て最良マッチングを探索すればよい。
## EQU16 ## Since E1 = {(I1-I2) 2 -{(I1-I2)} 2 / N (Equation 24) In the end, Expression 24 may be calculated in biased block matching. After that, the best matching may be searched through the same processing as in the first embodiment.

【0165】ここでは当然ながら、HVC濃度などRG
B濃度以外の色空間による濃度を採用してもよい。2乗
誤差の代わりに一般の1乗誤差、すなわち色の残差に基
づいてブロックマッチングを行ってもよい。
Here, naturally, RG such as HVC concentration is used.
A density in a color space other than the B density may be adopted. Instead of the square error, block matching may be performed based on a general square error, that is, a color residual.

【0166】(4)実施形態1のS13(対応点の初期
位置の決定)では特徴点として、異時刻フレームt、
t' 、・・・において位置が安定的に変化している点を
選んだが、ここでは選定基準を加重する。
(4) In S13 of the first embodiment (determination of the initial position of the corresponding point), the different time frame t,
At t ',..., a point whose position is stably changed is selected, but the selection criterion is weighted here.

【0167】図24は実施形態3で導入される特徴点の
選定基準を示す図である。同図において、F10〜F1
2の3枚がカメラ1によって撮影された異時刻フレー
ム、F20〜F22の3枚がカメラ2によって撮影され
た異時刻フレームである。それぞれ左右2枚の組が同時
刻フレームを示す。ここではある点Pに注目し、点Pの
位置の異時刻フレーム間の動きをベクトルAnで、点P
の同時刻フレーム間の変位をベクトルBn(n:自然
数)でそれぞれ表している。
FIG. 24 is a diagram showing criteria for selecting feature points introduced in the third embodiment. In the figure, F10 to F1
3 are different time frames taken by the camera 1, and F20 to F22 are different time frames taken by the camera 2. Each set of two right and left pieces indicates the same time frame. Here, focusing on a certain point P, the movement of the position of the point P between different time frames is represented by
Are represented by a vector Bn (n: natural number).

【0168】以上の設定の下、実施形態3では、次の基
準を満足する点を特徴点として選定する。
Under the above settings, in Embodiment 3, points satisfying the following criteria are selected as feature points.

【0169】(a)ベクトルBnがほぼ一定であるか、
ほぼ一定変化する あるいは、この他、 (b)ベクトルAnがほぼ一定であるか、ほぼ一定変化
する の基準も追加し、(a)、(b)をともに満足する点を
特徴点として選定してもよい。
(A) Whether the vector Bn is substantially constant,
Alternatively, a criterion that (b) the vector An is almost constant or changes almost constant is added, and a point satisfying both (a) and (b) is selected as a feature point. Is also good.

【0170】(b)は実施形態1で導入した条件に相当
する。既述のごとく、多眼撮影では同時刻フレームのみ
から奥行き情報を求めることができる。しかしその前提
となる映像間の対応関係の正確な把握は、これとは別問
題であり、異時刻フレーム間の情報も積極的に利用すべ
きである。上記の2条件を同時に満たす点は、相当正確
に追跡されていると考えられるため、二次元変位情報の
抽出に対して重要な手掛かりを与える。ただし入力が静
止映像の場合は、既知の動的計画法(ダイナミック・プ
ログラミング)によって対応点を求めることもできる。
(B) corresponds to the condition introduced in the first embodiment. As described above, in multi-view imaging, depth information can be obtained only from the same time frame. However, accurate understanding of the correspondence between videos as a premise is another problem, and information between frames at different times should be actively used. Points satisfying the above two conditions at the same time are considered to be tracked quite accurately, and thus provide important clues to extraction of two-dimensional displacement information. However, if the input is a still image, the corresponding point can be obtained by a known dynamic programming method (dynamic programming).

【0171】[工程2]奥行き情報の獲得 工程1で求められた映像各部位の変位から各部位の奥行
き情報を導出する。多眼の場合、ある時刻tで図10の
状態が実現されるので、以下、実施形態1の工程3の方
法によって奥行き情報を獲得すればよい。
[Step 2] Acquisition of Depth Information Depth information of each part is derived from the displacement of each part of the video obtained in Step 1. In the case of multi-view, since the state of FIG. 10 is realized at a certain time t, depth information may be obtained by the method of step 3 of the first embodiment.

【0172】ここで注意すべきは、撮影カメラの位置関
係が固定であるため、この関係およびカメラの倍率(焦
点距離)が既知であれば、実施形態1で決まらないとさ
れたスケールファクターcも含め、実施形態3では奥行
き情報が正しく求まる。
It should be noted here that since the positional relationship between the photographing cameras is fixed, if this relationship and the magnification (focal length) of the camera are known, the scale factor c, which is not determined in the first embodiment, is also determined. In the third embodiment, depth information is correctly obtained.

【0173】[工程3]画像の生成 実施形態1の工程4(画像の生成)と同等の処理を行え
ばよい。
[Step 3] Image Generation Processing equivalent to step 4 (image generation) of the first embodiment may be performed.

【0174】以上が実施形態3の概要である。実施形態
3の場合、一般に非常に高い精度で奥行き情報を求める
ことができ、最終画像である視点変更映像等の精度も高
くなる。
The above is the outline of the third embodiment. In the case of the third embodiment, generally, depth information can be obtained with very high accuracy, and the accuracy of the final image, that is, the viewpoint change video, etc., also increases.

【0175】[0175]

【発明の効果】本発明によれば元の映像の奥行き情報か
ら二次元表示用の画像を生成することができ、課題であ
った機能的・技術的制約が解消される。入力映像は単
眼、多眼のいずれでもよく、適用範囲が広い。単眼の場
合はシステム構成が簡素化でき、多眼の場合は奥行きの
計算精度がさらに高くなる。
According to the present invention, an image for two-dimensional display can be generated from the depth information of the original video, and the functional and technical restrictions which have been a problem can be solved. The input image may be either monocular or multi-view, and has a wide application range. In the case of a single eye, the system configuration can be simplified.

【0176】本発明によれば、複数の映像フレーム間に
おける映像各部位の二次元的な位置の変位から奥行き情
報を抽出することができる。
According to the present invention, depth information can be extracted from a two-dimensional displacement of each part of an image between a plurality of image frames.

【0177】二次元的な位置の変位量に基づいて複数の
映像フレームを選択する場合は、計算途上の誤差が減
る。
In the case where a plurality of video frames are selected based on the two-dimensional displacement of the position, errors during the calculation are reduced.

【0178】二次元的な位置の変位量を統計的に処理す
る場合は、選択の最適化、客観化が可能となる。
When the two-dimensional position displacement is statistically processed, the selection can be optimized and the object can be made objective.

【0179】映像各部位の動きベクトルの分散が所定値
よりも大きくなるように複数の映像フレームを選択する
場合は、選択の客観化に加え、計算精度の保証が可能と
なる。 分散が大きくなるような選択ができない場合、
通常の映像表示等、他の表示で代替できる。
When a plurality of video frames are selected so that the variance of the motion vector of each part of the video becomes larger than a predetermined value, it is possible to guarantee the calculation accuracy in addition to the objectivity of the selection. If you can't choose to increase the variance,
Other displays, such as a normal video display, can be substituted.

【0180】二次元的な位置の変化から映像各部位が現
実の三次元空間において占める相対位置関係を導出する
場合は、奥行きを正しく求めることができる。
When the relative positional relationship occupied by each part of the image in the actual three-dimensional space is derived from the two-dimensional position change, the depth can be obtained correctly.

【0181】映像各部位の三次元的な動きから三角測量
の原理によって映像各部位の三次元空間における位置座
標を算出する場合は、奥行きの決定を容易かつ正確に行
うことができる。
When the position coordinates of each part of the image in the three-dimensional space are calculated from the three-dimensional movement of each part of the image by the principle of triangulation, the depth can be determined easily and accurately.

【0182】本発明では、代表点と対応点という概念を
導入したため、動き情報の把握が容易になる。
In the present invention, the concept of representative points and corresponding points is introduced, so that it is easy to grasp the motion information.

【0183】代表点と対応点の位置関係から他の異時刻
フレームの対応点の位置を予想する場合は、対応点探索
の計算量が削減される。
When the position of the corresponding point in another different time frame is predicted from the positional relationship between the representative point and the corresponding point, the calculation amount of the corresponding point search is reduced.

【0184】代表点のうち幾何的に特徴のある映像領域
に関連するものについては、対応点の関連する映像領域
についてもその特徴が維持されるため、対応点の位置精
度が高い。
[0184] Of the representative points, those related to the image region having a geometric feature are maintained in the image region related to the corresponding point, so that the position accuracy of the corresponding point is high.

【0185】幾何的に特徴のある映像領域として直線を
含む領域を採用する場合は、対応点の位置精度が改善さ
れる。
When a region including a straight line is employed as a geometrically characteristic image region, the positional accuracy of the corresponding point is improved.

【0186】複数の映像フレーム間で映像の類似度が高
い点を対応点とする場合は、対応点を正しく求めること
ができる。
When a point having a high degree of video similarity between a plurality of video frames is set as a corresponding point, the corresponding point can be correctly obtained.

【0187】映像の類似性のみならず、対応点間の相対
位置の妥当性も評価する場合は、両評価の結果から対応
点の位置精度を改善することができる。
When evaluating not only the similarity of the images but also the validity of the relative position between the corresponding points, the position accuracy of the corresponding points can be improved from the results of both evaluations.

【0188】前記各評価の結果が統合され、繰り返し計
算がなされる場合は、対応点の位置精度を徐々に改善し
ていくことができる。
When the results of the above evaluations are integrated and repeated calculations are performed, the positional accuracy of the corresponding points can be gradually improved.

【0189】前記類似性の評価をブロックマッチングに
よって行う場合は、容易かつ妥当な評価が可能となる。
When the similarity is evaluated by block matching, easy and appropriate evaluation can be performed.

【0190】ブロックマッチングでは、色濃度のn乗誤
差が計算されるため、映像に応じて実験等により最適の
条件を設定することができる。
In the block matching, since the n-th error of the color density is calculated, optimal conditions can be set by experiments or the like according to the video.

【0191】バイアスド・ブロックマッチングを行う場
合は、特に多眼撮影された入力映像に対して良好な二次
元表示画像の生成が可能となる。
When biased block matching is performed, it is possible to generate a good two-dimensional display image especially for an input video image captured with multiple eyes.

【0192】色偏向定数をn乗誤差総和が最小となるよ
う決めらる場合は、評価結果の信頼性が高まる。
In the case where the color deflection constant is determined so that the sum of the n-th power errors is minimized, the reliability of the evaluation result increases.

【0193】色偏向定数として映像領域間の各画素の色
濃度差の平均値を採用する場合は、2乗誤差総和が最小
となり、評価結果の信頼性が高まる。
When the average value of the color density difference of each pixel between the image areas is used as the color deflection constant, the sum of the square errors is minimized, and the reliability of the evaluation result is improved.

【0194】特徴点の対応点を優先的に決める場合は、
対応点の位置精度が高まる。
When preferentially determining a corresponding point of a feature point,
The position accuracy of the corresponding point increases.

【0195】特徴点である対応点を補間することで非特
徴点である対応点を決める場合は、非特徴点の対応点の
位置精度も必然的に高くなる。
When a corresponding point that is a non-characteristic point is determined by interpolating a corresponding point that is a characteristic point, the positional accuracy of the corresponding point of the non-characteristic point necessarily increases.

【0196】複数の映像フレーム間でブロックマッチン
グを行って特徴点を決める場合は、特徴点選定の客観
化、選定結果の妥当性向上が可能となる。
When a feature point is determined by performing block matching between a plurality of video frames, it is possible to make the feature point selection objective and improve the validity of the selection result.

【0197】異時刻フレームで位置の変化が安定して発
生する点を特徴点とした場合、かかる点は精度よく追跡
されているため、その位置精度が高い。
When a point at which a change in position occurs stably in a different time frame is set as a feature point, such point is tracked with high accuracy, and thus the position accuracy is high.

【0198】同時刻フレーム間における位置の変位が、
その近傍時刻に撮影された同時刻フレーム間においても
ほぼ一定となるか点を特徴点とする場合、多眼映像から
二次元表示画像を良好に生成することができる。
The displacement of the position between the same time frames is
In the case where a point is substantially constant or a feature point between frames at the same time captured at the near time, a two-dimensional display image can be satisfactorily generated from the multiview video.

【0199】奥行き情報に従って視点変更映像を生成す
る場合は、カメラの実際の移動が不要である。生成され
る画像も自然である。2眼映像から多視点映像を生成し
たり、滑らかなスローモーション映像を作ることも可能
となる。
When a viewpoint-changed image is generated according to the depth information, it is not necessary to actually move the camera. The generated image is also natural. It is also possible to generate a multi-viewpoint video from a twin-lens video and to create a smooth slow motion video.

【0200】前記奥行き情報を基準とし、映像の一部拡
大・縮小を行う場合は、画像の自然さを失うことなく、
強調表示等が可能となる。奥行きの小さい領域を拡大し
たり、逆に大きな領域を縮小する場合は特に効果的であ
る。
When a part of an image is enlarged / reduced based on the depth information, the naturalness of the image is not lost.
Highlighting and the like can be performed. This is particularly effective when a region with a small depth is enlarged or a region with a large depth is reduced.

【0201】これらの画像処理によって発生する画像端
部の段差を修正する場合は、もとの映像同様、自然な画
像枠を再生することができる。
When correcting a step at an end of an image caused by these image processing, a natural image frame can be reproduced similarly to the original video.

【0202】奥行き情報に従って映像領域を切り出しを
行う場合は、従来と全く異なる観点から相当正確な切り
出しが可能となる。映像各部位のうち所定範囲の奥行き
を持つ部位を切り出す場合は、映像の貼り付け等、画像
加工処理が可能となる。
In the case where a video area is cut out according to depth information, it is possible to cut out a considerably accurate cutout from a completely different point of view. When cutting out a part having a predetermined range of depth from each part of the image, image processing such as pasting of an image can be performed.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 実施形態1によって二次元表示画像を生成す
るための主な工程を示す図である。
FIG. 1 is a diagram illustrating main steps for generating a two-dimensional display image according to a first embodiment.

【図2】 映像フレーム間の対応関係を検出するための
フローチャートである。
FIG. 2 is a flowchart for detecting a correspondence between video frames.

【図3】 基準フレームtに代表点を設定する様子を示
す図である。
FIG. 3 is a diagram showing how a representative point is set in a reference frame t.

【図4】 ブロックマッチングの様子を示す図である。FIG. 4 is a diagram showing a state of block matching.

【図5】 仮の対応点Pt'(i, j)ごとにEの値を縦
方向に示した模式図である。
FIG. 5 is a schematic diagram showing the value of E in the vertical direction for each provisional corresponding point Pt ′ (i, j).

【図6】 S12ステップの結果求められた対応点と代
表点の関係を示す図である。
FIG. 6 is a diagram showing a relationship between corresponding points and representative points obtained as a result of step S12.

【図7】 対応点の相対位置を評価する原理を説明する
図である。
FIG. 7 is a diagram illustrating a principle of evaluating a relative position of a corresponding point.

【図8】 図6の対応点候補に対して本ステップの改善
処理を行った結果を示す図である。
8 is a diagram illustrating a result of performing the improvement processing of this step on the corresponding point candidates in FIG. 6;

【図9】 ある点Pの画面上の移動と三次元空間での移
動の対応を示す図である。
FIG. 9 is a diagram showing a correspondence between a movement of a certain point P on the screen and a movement in a three-dimensional space.

【図10】 カメラの三次元移動とある点Pの画面上の
移動から点Pの三次元座標を導く原理を説明する図であ
る。
FIG. 10 is a diagram illustrating the principle of deriving the three-dimensional coordinates of a point P from the three-dimensional movement of the camera and the movement of a point P on the screen.

【図11】 フレームtにおいて各代表点に数値が与え
られた状態を示す図である。
FIG. 11 is a diagram showing a state where numerical values are given to respective representative points in a frame t.

【図12】 元の映像と視点変更映像の対応関係を示す
図である。
FIG. 12 is a diagram showing a correspondence relationship between an original video and a viewpoint-changed video.

【図13】 元の映像と視点変更映像の対応関係を示す
図である。
FIG. 13 is a diagram showing a correspondence relationship between an original video and a viewpoint-changed video.

【図14】 画像の一部を拡大して生成された画像を示
す図である。
FIG. 14 is a diagram illustrating an image generated by enlarging a part of the image.

【図15】 図12の画像のうち、「家」を切り出して
生成された画像を示す図である。
FIG. 15 is a diagram showing an image generated by cutting out “house” from the image of FIG. 12;

【図16】 実施形態1を実施するためのハードウエア
構成例を示す図である。
FIG. 16 is a diagram illustrating an example of a hardware configuration for implementing the first embodiment.

【図17】 フレームtの映像をディスプレイ上に表示
した中間調画像の写真である。
FIG. 17 is a photograph of a halftone image in which a video image of a frame t is displayed on a display.

【図18】 フレームt' の映像をディスプレイ上に表
示した中間調画像の写真である。
FIG. 18 is a photograph of a halftone image in which an image of a frame t ′ is displayed on a display.

【図19】 フレームtをメッシュ状に分割して代表点
を設けた状態をディスプレイ上に表示した中間調画像の
写真である。
FIG. 19 is a photograph of a halftone image in which a state in which a frame t is divided into meshes and representative points are provided is displayed on a display.

【図20】 フレームt' における対応点の初期位置を
ディスプレイ上に表示した中間調画像の写真である。
FIG. 20 is a photograph of a halftone image in which an initial position of a corresponding point in a frame t ′ is displayed on a display.

【図21】 対応点位置を改善した結果をディスプレイ
上に表示した中間調画像の写真である。
FIG. 21 is a photograph of a halftone image showing the result of improving the corresponding point position on a display.

【図22】 奥行き情報を濃淡でディスプレイ上に表示
した中間調画像の写真である。
FIG. 22 is a photograph of a halftone image in which depth information is displayed on a display in light and shade.

【図23】 実施形態3によって二次元表示画像を生成
するための主な工程を示す図である。
FIG. 23 is a diagram illustrating main steps for generating a two-dimensional display image according to the third embodiment.

【図24】 実施形態3で導入される特徴点の選定基準
を示す図である。
FIG. 24 is a diagram showing a feature point selection criterion introduced in the third embodiment.

【符号の説明】[Explanation of symbols]

20 映像入力回路、22 フレームメモリ制御回路、
24 フレームメモリ、26 対応点検出回路、28
対応点座標メモリ、30 動き検出回路、32画像生成
回路、34 指示入力部、36 画像出力回路。
20 video input circuit, 22 frame memory control circuit,
24 frame memory, 26 corresponding point detection circuit, 28
Corresponding point coordinate memory, 30 motion detection circuit, 32 image generation circuit, 34 instruction input unit, 36 image output circuit.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 荒川 勉 大阪府守口市京阪本通2丁目5番5号 三洋電機株式会社内 (56)参考文献 特開 平7−162744(JP,A) 特開 平5−250459(JP,A) 特開 平6−203163(JP,A) 特開 平4−4476(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06T 1/00 G06T 3/00 - 3/60 G06T 7/00,7/20 ──────────────────────────────────────────────────続 き Continuation of the front page (72) Inventor Tsutomu Arakawa 2-5-5 Keihanhondori, Moriguchi-shi, Osaka Sanyo Electric Co., Ltd. (56) References JP-A-7-162744 (JP, A) JP-A-5-250459 (JP, A) JP-A-6-203163 (JP, A) JP-A-4-4476 (JP, A) (58) Fields investigated (Int. Cl. 7 , DB name) G06T 1 / 00 G06T 3/00-3/60 G06T 7 / 00,7 / 20

Claims (35)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 処理の対象となる元の映像から該映像の
奥行き情報を抽出し、この情報に従って二次元表示用の
画像を生成する二次元表示画像生成方法であって、 複数の映像フレーム間相互における二次元的な位置の変
位を検出する二次元的位置変化検出ステップと、 前記複数の映像フレーム数以下の所定の複数フレームを
選択する複数フレーム選択ステップと、 前記選択された所定の複数フレーム間相互における映像
各部位の二次元的な位置の変位から前記映像各部位が現
実の三次元空間において占める相対位置関係を導出し、
その結果に従って前記奥行きを決定する奥行き決定ステ
ップと、 を有し、 前記複数の映像フレームは異なる時刻に撮影されたもの
であり、前記複数フレーム選択ステップでは、前記二次
元的位置変化検出ステップで検出された映像フレーム間
の位置変化量に基づいて、所定の複数フレーム間の二次
元的な位置の変位量を更に求め、該変化量と所定値とを
比較することによって前記所定の複数フレームから特定
の複数の映像フレームを選択することを特徴とする二次
元表示画像生成方法。
1. A two-dimensional display image generating method for extracting depth information of a video from an original video to be processed, and generating a two-dimensional display image according to the information. A two-dimensional position change detection step of detecting a two-dimensional position displacement in each other; a plurality of frame selection steps of selecting a plurality of predetermined frames equal to or less than the plurality of video frames; and the selected plurality of selected frames Deriving the relative positional relationship occupied in the actual three-dimensional space by each part of the image from the displacement of the two-dimensional position of each part of the image between each other,
A depth determination step of determining the depth according to the result, wherein the plurality of video frames are shot at different times, and in the plurality of frame selection step, the plurality of video frames are detected by the two-dimensional position change detection step. The two-dimensional position displacement between a plurality of predetermined frames is further obtained based on the position change amount between the video frames, and the change amount is compared with a predetermined value to specify the displacement amount from the predetermined plurality of frames. A two-dimensional display image generating method, wherein a plurality of video frames are selected.
【請求項2】 処理の対象となる元の映像から該映像の
奥行き情報を抽出し、この情報に従って二次元表示用の
画像を生成する二次元表示画像生成方法であって、 複数の映像フレーム間相互における二次元的な位置の変
位を検出する二次元的位置変化検出ステップと、 前記複数の映像フレーム数以下の所定の複数フレームを
選択する複数フレーム選択ステップと、 前記選択された所定の複数フレーム間相互における映像
各部位の二次元的な位置の変位から前記映像各部位が現
実の三次元空間において占める相対位置関係を導出し、
その結果に従って前記奥行きを決定する奥行き決定ステ
ップと、 を有し、 前記複数の映像フレームは異なる時刻に撮影されたもの
であり、前記複数フレーム選択ステップでは、前記二次
元的位置変化検出ステップで検出された映像フレーム間
の位置変化量に基づいて、所定の複数フレーム間の二次
元的な位置の変位量を更に求め、該変化量の平均値が所
定値より大きくなるよう前記所定の複数フレームから特
定の複数の映像フレームを選択することを特徴とする二
次元表示画像生成方法。
2. A two-dimensional display image generating method for extracting depth information of an image from an original image to be processed and generating an image for two-dimensional display according to the information, comprising: A two-dimensional position change detection step of detecting a two-dimensional position displacement in each other; a plurality of frame selection steps of selecting a plurality of predetermined frames equal to or less than the plurality of video frames; and the selected plurality of selected frames Deriving the relative positional relationship occupied in the actual three-dimensional space by each part of the image from the displacement of the two-dimensional position of each part of the image between each other,
A depth determination step of determining the depth according to the result, wherein the plurality of video frames are shot at different times, and in the plurality of frame selection step, the plurality of video frames are detected by the two-dimensional position change detection step. Based on the amount of position change between the video frames, the amount of displacement of the two-dimensional position between a plurality of predetermined frames is further obtained, from the predetermined plurality of frames such that the average value of the amount of change is larger than a predetermined value. A two-dimensional display image generation method, wherein a plurality of specific video frames are selected.
【請求項3】 処理の対象となる元の映像から該映像の
奥行き情報を抽出し、この情報に従って二次元表示用の
画像を生成する二次元表示画像生成方法であって、 複数の映像フレーム間相互における二次元的な位置の変
位を検出する二次元的位置変化検出ステップと、 前記複数の映像フレーム数以下の所定の複数フレームを
選択する複数フレーム選択ステップと、 前記選択された所定の複数フレーム間相互における映像
各部位の二次元的な位置の変位から前記映像各部位が現
実の三次元空間において占める相対位置関係を導出し、
その結果に従って前記奥行きを決定する奥行き決定ステ
ップと、 を有し、 前記複数の映像フレームは異なる時刻に撮影されたもの
であり、前記複数フレーム選択ステップでは、前記二次
元的位置変化検出ステップで検出された映像フレーム間
の位置変化量に基づいて、所定の複数フレーム間の動き
ベクトルの分散を求め、該分散値が所定値より大きくな
るよう前記所定の複数の映像フレームから特定の複数の
映像フレームを選択することを特徴とする二次元表示画
像生成方法。
3. A two-dimensional display image generating method for extracting depth information of an image from an original image to be processed and generating an image for two-dimensional display according to the information, the method comprising: A two-dimensional position change detection step of detecting a two-dimensional position displacement in each other; a plurality of frame selection steps of selecting a plurality of predetermined frames equal to or less than the plurality of video frames; and the selected plurality of selected frames Deriving the relative positional relationship occupied in the actual three-dimensional space by each part of the image from the displacement of the two-dimensional position of each part of the image between each other,
A depth determination step of determining the depth according to the result, wherein the plurality of video frames are shot at different times, and in the plurality of frame selection step, the plurality of video frames are detected by the two-dimensional position change detection step. The variance of a motion vector between a plurality of predetermined frames is determined based on the amount of position change between the plurality of video frames. A two-dimensional display image generation method, characterized by selecting:
【請求項4】 請求項3に記載の二次元表示画像生成方
法において、前記分散値が所定値より大きくなるような
所定の複数の映像フレームを選択することができない場
合には、二次元表示用画像の生成を中止することを特徴
とする二次元表示画像生成方法。
4. The two-dimensional display image generating method according to claim 3, wherein when it is not possible to select a plurality of predetermined video frames such that the variance is larger than a predetermined value, the two-dimensional display image generation method is used. A two-dimensional display image generation method, which stops generating an image.
【請求項5】 請求項1〜4のいずれかに記載の二次元
表示画像生成方法において、前記二次元的な位置の変位
から前記映像各部位の三次元的な動きを算出し、この動
きから三角測量の原理によって前記映像各部位の三次元
空間における位置座標を算出し、その結果に従って前記
奥行きを決定することを特徴とする二次元表示画像生成
方法。
5. The two-dimensional display image generation method according to claim 1, wherein a three-dimensional movement of each part of the image is calculated from the displacement of the two-dimensional position. A two-dimensional display image generation method, wherein position coordinates of each part of the image in a three-dimensional space are calculated according to the principle of triangulation, and the depth is determined according to the result.
【請求項6】 処理の対象となる元の映像から該映像の
奥行き情報を抽出し、この情報に従って二次元表示用の
画像を生成する二次元表示画像生成方法であって、 複数の映像フレーム間相互における二次元的な位置の変
位を検出する二次元的位置変化検出ステップと、 前記複数の映像フレーム数以下の所定の複数フレームを
選択する複数フレーム選択ステップと、 前記選択された所定の複数フレーム間相互における映像
各部位の二次元的な位置の変位から前記映像各部位が現
実の三次元空間において占める相対位置関係を導出し、
その結果に従って前記奥行きを決定する奥行き決定ステ
ップと、 を有し、 前記複数の映像フレームは異なる時刻に撮影されたもの
であり、前記複数フレーム選択ステップでは、前記二次
元的位置変化検出ステップで検出された映像フレーム間
の位置変化量に基づいて、所定の複数フレーム間の二次
元的な位置の変位量を更に求め、該変化量と所定値とを
比較することによって前記所定の複数フレームから特定
の複数の映像フレームを選択し、前記奥行き決定ステッ
プでは、前記所定の複数フレームのうち、基準となる映
像フレームに代表点を設定し、他の映像フレームにおけ
る前記代表点の対応点を求め、これら代表点と対応点と
の位置関係を求めることによって、前記映像各部位の二
次元的な位置の変化を認識することを特徴とする二次元
表示画像生成方法。
6. A two-dimensional display image generating method for extracting depth information of a video from an original video to be processed and generating an image for two-dimensional display according to the information. A two-dimensional position change detection step of detecting a two-dimensional position displacement in each other; a plurality of frame selection steps of selecting a plurality of predetermined frames equal to or less than the plurality of video frames; and the selected plurality of selected frames Deriving a relative positional relationship occupied in the actual three-dimensional space by each part of the image from the displacement of the two-dimensional position of each part of the image between each other,
A depth determination step of determining the depth according to the result, wherein the plurality of video frames are shot at different times, and in the plurality of frame selection step, the plurality of video frames are detected by the two-dimensional position change detection step. Based on the position change amount between the video frames, a displacement amount of a two-dimensional position between predetermined frames is further obtained, and the change amount is compared with a predetermined value to specify the displacement amount from the predetermined plurality of frames. A plurality of video frames, and in the depth determination step, among the predetermined plurality of frames, a representative point is set in a reference video frame, and a corresponding point of the representative point in another video frame is obtained. A secondary characteristic characterized by recognizing a two-dimensional position change of each part of the image by obtaining a positional relationship between a representative point and a corresponding point. Display image generation method.
【請求項7】 請求項6に記載の二次元表示画像生成方
法において、前記基準となる映像フレームと前記他の映
像フレームが異なる時刻に撮影されたものであるとき、
前記代表点と前記対応点との位置関係から、さらに他の
映像フレームの対応点の位置を予想し、対応点を探索す
べき領域を限定することを特徴とする二次元表示画像生
成方法。
7. The two-dimensional display image generation method according to claim 6, wherein the reference video frame and the other video frame are captured at different times.
A two-dimensional display image generation method, wherein a position of a corresponding point in another video frame is predicted from a positional relationship between the representative point and the corresponding point, and an area in which the corresponding point is searched is limited.
【請求項8】 請求項6、7のいずれかに記載の二次元
表示画像生成方法において、前記代表点のうち、幾何的
に特徴のある映像領域に関連するものについては、それ
ら代表点の対応点の関連する映像領域についても前記幾
何的な特徴が維持されるよう、前記対応点の位置を調整
することを特徴とする二次元表示画像生成方法。
8. The two-dimensional display image generation method according to claim 6, wherein, among the representative points, those corresponding to a geometrically characteristic image area correspond to the representative points. A two-dimensional display image generation method, comprising: adjusting a position of the corresponding point so that the geometric feature is maintained even in a video area related to the point.
【請求項9】 請求項8に記載の二次元表示画像生成方
法において、前記幾何的に特徴のある映像領域は、直線
を含む領域であることを特徴とする二次元表示画像生成
方法。
9. The two-dimensional display image generation method according to claim 8, wherein the geometrically distinctive video region is a region including a straight line.
【請求項10】 請求項6に記載の二次元表示画像生成
方法において、前記他の映像フレームにおける特定点近
傍の映像領域と、前記基準となる映像フレームの代表点
近傍の映像領域間で映像の類似性を評価し、この評価結
果が良好な場合に前記特定点をもって前記代表点の対応
点と決めることを特徴とする二次元表示画像生成方法。
10. The two-dimensional display image generation method according to claim 6, wherein a video area between a video area near a specific point in the another video frame and a video area near a representative point of the reference video frame is displayed. A two-dimensional display image generation method, wherein similarity is evaluated, and when the evaluation result is good, the specific point is determined as a corresponding point of the representative point.
【請求項11】 請求項6に記載の二次元表示画像生成
方法において、前記他の映像フレームにおける特定点近
傍の映像領域と、前記基準となる映像フレームの代表点
近傍の映像領域間で映像の類似性を評価し、前記特定点
間の相対位置の妥当性を評価し、これら両評価の結果が
良好な場合に前記特定点をもって前記代表点の対応点と
決めることを特徴とする二次元表示画像生成方法。
11. The two-dimensional display image generation method according to claim 6, wherein a video area between a video area near a specific point in the other video frame and a video area near a representative point of the reference video frame is displayed. Two-dimensional display, wherein the similarity is evaluated, the validity of the relative position between the specific points is evaluated, and when the results of these two evaluations are good, the specific point is determined as the corresponding point of the representative point. Image generation method.
【請求項12】 請求項11に記載の二次元表示画像生
成方法において、前記各評価の結果を数値化して統合
し、前記対応点の位置を変化させながら前記数値を再計
算し、繰り返し計算を通して前記対応点の位置精度を改
善することを特徴とする二次元表示画像生成方法。
12. The two-dimensional display image generating method according to claim 11, wherein the results of the respective evaluations are digitized and integrated, and the numerical values are recalculated while changing the positions of the corresponding points, and are repeatedly calculated. A two-dimensional display image generation method, wherein the position accuracy of the corresponding point is improved.
【請求項13】 請求項12に記載の二次元表示画像生
成方法において、一旦全対応点の位置を固定した上で、
1つの対応点のみを移動させながら前記各評価の結果が
最良となる点を探索し、探索された最良点の位置を前記
1つの対応点の新たな位置とし、これらの探索および位
置の変更を順次全対応点について行うことを特徴とする
二次元表示画像生成方法。
13. The two-dimensional display image generation method according to claim 12, wherein the positions of all corresponding points are fixed once,
While moving only one corresponding point, a point where the result of each evaluation is the best is searched for, the position of the searched best point is set as a new position of the one corresponding point, and the search and change of the position are performed. A two-dimensional display image generation method, characterized in that the method is sequentially performed for all corresponding points.
【請求項14】 請求項13に記載の二次元表示画像生
成方法において、前記探索および位置の変更を全対応点
について行った後、統合された各評価の数値が極値をと
る条件を表すオイラー方程式を数値的に解くことによ
り、前記対応点の位置精度を改善することを特徴とする
二次元表示画像生成方法。
14. The two-dimensional display image generating method according to claim 13, wherein after the search and the change of the position are performed for all the corresponding points, a numerical value of each integrated evaluation indicates an extreme value. A two-dimensional display image generation method, characterized by improving the positional accuracy of the corresponding point by numerically solving an equation.
【請求項15】 請求項10〜14のいずれかに記載の
二次元表示画像生成方法において、前記類似性の評価が
ブロックマッチングによって行われることを特徴とする
二次元表示画像生成方法。
15. The two-dimensional display image generation method according to claim 10, wherein the similarity is evaluated by block matching.
【請求項16】 請求項15に記載の二次元表示画像生
成方法において、前記ブロックマッチングでは、比較す
べき映像領域の間で色濃度のn乗誤差総和(nは1また
は2)が計算されることを特徴とする二次元表示画像生
成方法。
16. The two-dimensional display image generating method according to claim 15, wherein, in the block matching, a sum of n-th errors (n is 1 or 2) of color densities between video regions to be compared is calculated. A method for generating a two-dimensional display image, the method comprising:
【請求項17】 請求項16に記載の二次元表示画像生
成方法において、前記色濃度に対して、所定の色偏向定
数を考慮して前記ブロックマッチングを行うことを特徴
とする二次元表示画像生成方法。
17. The two-dimensional display image generation method according to claim 16, wherein the block matching is performed on the color density in consideration of a predetermined color deflection constant. Method.
【請求項18】 請求項17に記載の二次元表示画像生
成方法において、前記色偏向定数は、前記n乗誤差総和
が最小となるよう決められることを特徴とする二次元表
示画像生成方法。
18. The two-dimensional display image generation method according to claim 17, wherein the color deflection constant is determined so that the sum of the n-th power errors is minimized.
【請求項19】 請求項18に記載の二次元表示画像生
成方法において、前記色偏向定数は、前記映像領域間の
各画素の色濃度差の平均値であり、前記ブロックマッチ
ングは、前記映像領域間で各画素の色濃度差から前記色
偏向定数を減算した後に2乗誤差総和を算出することを
特徴とする二次元表示画像生成方法。
19. The two-dimensional display image generation method according to claim 18, wherein the color deflection constant is an average value of a color density difference of each pixel between the image areas, and the block matching is performed on the image area. A two-dimensional display image generating method, wherein the sum of squared errors is calculated after subtracting the color deflection constant from the color density difference of each pixel.
【請求項20】 請求項10〜14のいずれかに記載の
二次元表示画像生成方法において、映像に含まれる点を
特徴点と非特徴点に分類し、特徴点である代表点につい
て優先的に対応点を決めることを特徴とする二次元表示
画像生成方法。
20. The two-dimensional display image generation method according to claim 10, wherein points included in the video are classified into feature points and non-feature points, and a representative point which is a feature point is preferentially given. A two-dimensional display image generation method characterized by determining corresponding points.
【請求項21】 請求項20に記載の二次元表示画像生
成方法において、前記特徴点である対応点を補間して前
記非特徴点である対応点を決めることを特徴とする二次
元表示画像生成方法。
21. The two-dimensional display image generation method according to claim 20, wherein the corresponding points as the non-characteristic points are determined by interpolating the corresponding points as the characteristic points. Method.
【請求項22】 請求項20に記載の二次元表示画像生
成方法において、前記基準となる映像フレームと前記他
の映像フレームの間でブロックマッチングを行い、その
結果、代表点との対応が良好である対応点を前記特徴点
とすることを特徴とする二次元表示画像生成方法。
22. The two-dimensional display image generation method according to claim 20, wherein block matching is performed between the reference video frame and the other video frame, and as a result, the correspondence with the representative point is good. A two-dimensional display image generation method, wherein a certain corresponding point is set as the feature point.
【請求項23】 請求項20に記載の二次元表示画像生
成方法において、前記特徴点は、撮影時刻の異なる複数
の映像フレームにおいて位置が安定的に変化している点
であることを特徴とする二次元表示画像生成方法。
23. The two-dimensional display image generation method according to claim 20, wherein the characteristic point is a point whose position is stably changing in a plurality of video frames having different shooting times. 2D display image generation method.
【請求項24】 請求項20に記載の二次元表示画像生
成方法において、前記特徴点は、同時に撮影された映像
フレーム間における位置の変位が、その近傍時刻におい
て同時に撮影された映像フレーム間においてもほぼ一定
であるか、または一定変化する点であることを特徴とす
る二次元表示画像生成方法。
24. The two-dimensional display image generation method according to claim 20, wherein the feature point is such that the displacement of the position between the video frames shot simultaneously is also determined between the video frames shot simultaneously at a time near the same. A two-dimensional display image generation method, wherein the two-dimensional display image generation point is substantially constant or a point that constantly changes.
【請求項25】 請求項1〜24のいずれかに記載の二
次元表示画像生成方法において、前記奥行き情報に従
い、映像の視点を仮想的に変更したときに得られるべき
視点変更映像を生成することを特徴とする二次元表示画
像生成方法。
25. The two-dimensional display image generation method according to claim 1, wherein a viewpoint-changed image to be obtained when a viewpoint of the image is virtually changed according to the depth information. A two-dimensional display image generation method characterized by the following.
【請求項26】 請求項25に記載の二次元表示画像生
成方法において、想定される視点の変更に伴う映像各部
位の位置の変位を前記奥行き情報から逆算し、その位置
の変位に従って映像を再構築することにより、前記視点
変更映像を生成することを特徴とする二次元表示画像生
成方法。
26. The two-dimensional display image generating method according to claim 25, wherein the displacement of the position of each part of the image due to the assumed change of the viewpoint is calculated back from the depth information, and the image is reproduced according to the displacement of the position. A two-dimensional display image generation method, wherein the two-dimensional display image generation method comprises:
【請求項27】 請求項25、26のいずれかに記載の
二次元表示画像生成方法において、元の映像が2眼カメ
ラによって撮影されたものであるとき、これら2眼から
十分に近い位置に仮想カメラを想定し、この仮想カメラ
から撮影されるべき映像を視点変更映像として生成し、
この視点変更映像と前記2眼カメラによって撮影された
現実の映像とによって多視点映像を生成することを特徴
とする二次元表示画像生成方法。
27. The two-dimensional display image generating method according to claim 25, wherein when the original video is captured by a twin-lens camera, the virtual image is located at a position sufficiently close to the two eyes. Assuming a camera, generate a video to be shot from this virtual camera as a viewpoint change video,
A two-dimensional display image generating method, wherein a multi-viewpoint image is generated from the viewpoint-changed image and a real image taken by the twin-lens camera.
【請求項28】 請求項25〜27のいずれかに記載の
二次元表示画像生成方法において、映像の視点を、ある
映像フレームを撮影した視点から別の映像フレームを撮
影した視点まで仮想的に移動させながら、移動経路上の
任意の個所を視点とする視点変更映像を生成することを
特徴とする二次元表示画像生成方法。
28. The two-dimensional display image generation method according to claim 25, wherein a viewpoint of the video is virtually moved from a viewpoint at which a certain video frame is captured to a viewpoint at which another video frame is captured. A two-dimensional display image generation method, wherein a viewpoint-change video is generated with an arbitrary point on a moving route as a viewpoint.
【請求項29】 処理の対象となる元の映像から該映像
の奥行き情報を抽出し、この情報に従って二次元表示用
の画像を生成する二次元表示画像生成方法であって、 複数の映像フレーム間相互における二次元的な位置の変
位を検出する二次元的位置変化検出ステップと、 前記複数の映像フレーム数以下の所定の複数フレームを
選択する複数フレーム選択ステップと、 前記選択された所定の複数フレーム間相互における映像
各部位の二次元的な位置の変位から前記映像各部位が現
実の三次元空間において占める相対位置関係を導出し、
その結果に従って前記奥行きを決定する奥行き決定ステ
ップと、 を有し、 前記複数の映像フレームは異なる時刻に撮影されたもの
であり、前記複数フレーム選択ステップでは、前記二次
元的位置変化検出ステップで検出された映像フレーム間
の位置変化量に基づいて、所定の複数フレーム間の二次
元的な位置の変位量を更に求め、該変化量と所定値とを
比較することによって前記所定の複数フレームを選択す
ることを特徴とする二次元表示画像生成方法。
29. A two-dimensional display image generating method for extracting depth information of an original video to be processed and generating an image for two-dimensional display according to the information, the method comprising: A two-dimensional position change detection step of detecting a two-dimensional position displacement in each other; a plurality of frame selection steps of selecting a plurality of predetermined frames equal to or less than the plurality of video frames; and the selected plurality of selected frames Deriving a relative positional relationship occupied in the actual three-dimensional space by each part of the image from the displacement of the two-dimensional position of each part of the image between each other,
And a depth determination step of determining the depth according to the result. Based on the position change amount between the video frames, the amount of displacement of the two-dimensional position between a plurality of predetermined frames is further obtained, and the predetermined amount of frames is selected by comparing the change amount with a predetermined value. A two-dimensional display image generating method.
【請求項30】 請求項29に記載の二次元表示画像生
成方法において、前記元の映像の一部領域として奥行き
が小さな領域を選定し、該領域を拡大した上で画像を生
成することを特徴とする二次元表示画像生成方法。
30. The two-dimensional display image generation method according to claim 29, wherein an area having a small depth is selected as a partial area of the original video, and an image is generated after enlarging the area. Two-dimensional display image generation method.
【請求項31】 請求項29に記載の二次元表示画像生
成方法において、前記元の映像の一部領域として奥行き
が大きな領域を選定し、該領域を縮小した上で画像を生
成することを特徴とする二次元表示画像生成方法。
31. The two-dimensional display image generation method according to claim 29, wherein a region having a large depth is selected as a partial region of the original video, and the region is reduced before generating an image. Two-dimensional display image generation method.
【請求項32】 請求項25〜31のいずれかに記載の
二次元表示画像生成方法において、画像の処理に伴って
画像枠に現れる段差を修正することを特徴とする二次元
表示画像生成方法。
32. The two-dimensional display image generation method according to claim 25, wherein a step appearing in an image frame is corrected with image processing.
【請求項33】 請求項1〜32のいずれかに記載の二
次元表示画像生成方法において、前記奥行き情報に従
い、所望の映像領域を切り出して画像を生成することを
特徴とする二次元表示画像生成方法。
33. A two-dimensional display image generation method according to claim 1, wherein a desired video area is cut out to generate an image in accordance with the depth information. Method.
【請求項34】 請求項33に記載の二次元表示画像生
成方法において、映像各部位のうち所定範囲の奥行きを
持つ部位を選定することによって前記切り出しを行うこ
とを特徴とする二次元表示画像生成方法。
34. The two-dimensional display image generation method according to claim 33, wherein the clipping is performed by selecting a part having a predetermined range of depth from each part of the video. Method.
【請求項35】 請求項33、34のいずれかに記載の
二次元表示画像生成方法において、前記切り出しの後、
切り出された映像領域を別の映像に重ねることによって
新たな画像を生成することを特徴とする二次元表示画像
生成方法。
35. The two-dimensional display image generation method according to claim 33, wherein after the clipping,
A two-dimensional display image generation method, wherein a new image is generated by superimposing a cut-out video area on another video.
JP25677295A 1995-03-29 1995-09-08 2D display image generation method Expired - Fee Related JP3197801B2 (en)

Priority Applications (9)

Application Number Priority Date Filing Date Title
JP25677295A JP3197801B2 (en) 1995-09-08 1995-09-08 2D display image generation method
US08/622,047 US6384859B1 (en) 1995-03-29 1996-03-26 Methods for creating an image for a three-dimensional display, for calculating depth information and for image processing using the depth information
KR1019960008266A KR100414629B1 (en) 1995-03-29 1996-03-26 3D display image generation method, image processing method using depth information, depth information generation method
EP01119254A EP1150253A2 (en) 1995-03-29 1996-03-28 Methods for creating an image for a three-dimensional display, for calculating depth information, and for image processing using the depth information
EP01119255A EP1150254A3 (en) 1995-03-29 1996-03-28 Methods for creating an image for a three-dimensional display, for calculating depth information, and for image processing using the depth information
DE69621509T DE69621509T2 (en) 1995-03-29 1996-03-28 Process for the selection of two individual images of a two-dimensional image sequence as the basis for the calculation of the relative depth of image objects
EP96105004A EP0735512B1 (en) 1995-03-29 1996-03-28 Methods for selecting two frames of a two-dimensional image sequence to form the basis for calculating the relative depth of image objects
CN96108487A CN1132123C (en) 1995-03-29 1996-03-29 Methods for creating image for three-dimensional display, for calculating depth information, and for image processing using depth information
US09/916,869 US20010045979A1 (en) 1995-03-29 2001-07-26 Methods for creating an image for a three-dimensional display, for calculating depth information, and for image processing using the depth information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25677295A JP3197801B2 (en) 1995-09-08 1995-09-08 2D display image generation method

Publications (2)

Publication Number Publication Date
JPH0981746A JPH0981746A (en) 1997-03-28
JP3197801B2 true JP3197801B2 (en) 2001-08-13

Family

ID=17297239

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25677295A Expired - Fee Related JP3197801B2 (en) 1995-03-29 1995-09-08 2D display image generation method

Country Status (1)

Country Link
JP (1) JP3197801B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102157018A (en) * 2011-03-02 2011-08-17 中国科学院空间科学与应用研究中心 Open single-blade hyperboloid projection method

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3077745B2 (en) 1997-07-31 2000-08-14 日本電気株式会社 Data processing method and apparatus, information storage medium
KR100304662B1 (en) * 1998-01-21 2001-09-29 윤종용 System and method for generating stereo image using two-dimensional image sequence
JP2002230575A (en) 2000-11-30 2002-08-16 Monolith Co Ltd Method and device for image effect
JP4177689B2 (en) * 2003-03-18 2008-11-05 日本放送協会 Video feature information generator
JP5034733B2 (en) * 2007-07-13 2012-09-26 カシオ計算機株式会社 Feature point tracking device and program
KR101260613B1 (en) 2008-12-26 2013-05-03 닛뽕빅터 가부시키가이샤 Image encoding device, image encoding method, program thereof, image decoding device, image decoding method, and program thereof
JP5249088B2 (en) * 2009-03-03 2013-07-31 Kddi株式会社 Image search system
DE102009041328A1 (en) * 2009-09-15 2011-03-24 Natural View Systems Gmbh Method and device for generating partial views and / or a spatial image template from a 2D view for stereoscopic reproduction
JP5516444B2 (en) * 2011-01-31 2014-06-11 富士通株式会社 Thumbnail extraction program and thumbnail extraction method
TWI489859B (en) * 2011-11-01 2015-06-21 Inst Information Industry Image warping method and computer program product thereof

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102157018A (en) * 2011-03-02 2011-08-17 中国科学院空间科学与应用研究中心 Open single-blade hyperboloid projection method

Also Published As

Publication number Publication date
JPH0981746A (en) 1997-03-28

Similar Documents

Publication Publication Date Title
JPH08331607A (en) Three-dimensional display image generating method
EP0735512B1 (en) Methods for selecting two frames of a two-dimensional image sequence to form the basis for calculating the relative depth of image objects
US8009897B2 (en) Method and apparatus for image matching
US9117295B2 (en) Refinement of depth maps by fusion of multiple estimates
US10609282B2 (en) Wide-area image acquiring method and apparatus
KR101956149B1 (en) Efficient Determination of Optical Flow Between Images
JP3593466B2 (en) Method and apparatus for generating virtual viewpoint image
KR101038402B1 (en) Real-time capturing and generating stereo images and videos with a monoscopic low power mobile device
US20150379720A1 (en) Methods for converting two-dimensional images into three-dimensional images
US20120320152A1 (en) Stereoscopic image generation apparatus and method
KR101969082B1 (en) Optimal Spherical Image Acquisition Method Using Multiple Cameras
WO1999026198A2 (en) System and method for merging objects into an image sequence without prior knowledge of the scene in the image sequence
US20140035917A1 (en) Techniques for automating stereo settings for stereoscopic computer animation
JP3197801B2 (en) 2D display image generation method
CN110197529B (en) Indoor space three-dimensional reconstruction method
CN111866523B (en) Panoramic video synthesis method and device, electronic equipment and computer storage medium
JP3561446B2 (en) Image generation method and apparatus
Park et al. Efficient viewer-centric depth adjustment based on virtual fronto-parallel planar projection in stereo 3D images
CN111179281A (en) Human body image extraction method and human body action video extraction method
JPH10208074A (en) Picture generation method
JPH1042273A (en) Three-dimensional position recognition utilization system
US20240013492A1 (en) Image processing apparatus, image processing method, and image processing system
CN117061720B (en) Stereo image pair generation method based on monocular image and depth image rendering
KR20230082949A (en) Device for performing dynamic projection
Tanaka et al. Dynamically visual learning for people identification with sparsely distributed cameras

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080608

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090608

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees