JP2000172842A - Unknown target and method for estimating unknown target from observation record of training data - Google Patents

Unknown target and method for estimating unknown target from observation record of training data

Info

Publication number
JP2000172842A
JP2000172842A JP11337740A JP33774099A JP2000172842A JP 2000172842 A JP2000172842 A JP 2000172842A JP 11337740 A JP11337740 A JP 11337740A JP 33774099 A JP33774099 A JP 33774099A JP 2000172842 A JP2000172842 A JP 2000172842A
Authority
JP
Japan
Prior art keywords
training data
node
unknown target
target
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11337740A
Other languages
Japanese (ja)
Inventor
William T Freeman
ウィリアム・ティー・フリーマン
Egon C Pasztor
エゴン・シー・パスツール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Information Technology Corp
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Information Technology Corp
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/203,108 external-priority patent/US6263103B1/en
Priority claimed from US09/236,839 external-priority patent/US6380934B1/en
Application filed by Mitsubishi Electric Information Technology Corp, Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Information Technology Corp
Publication of JP2000172842A publication Critical patent/JP2000172842A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • G06T7/41Analysis of texture based on statistical description of texture
    • G06T7/46Analysis of texture based on statistical description of texture using random fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • G06T2207/20056Discrete and fast Fourier transform, [DFT, FFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

PROBLEM TO BE SOLVED: To solve a general kind of problem of low-level vision by sending a local evidence to an adjacent node in an inference stage and determining the maximum post-probability of scene estimation. SOLUTION: Training data 2 is an observation record of a known target. A display of discontinuity 11 or continuity 12 modeling the training data 2 is selected. The statistical relationship of the training data 2 is learnt by using the display of discontinuity 11 or continuity 12. Their relationship is represented as a mix of a vector, a matrix, or a Gaussian distribution. After the learning stage, inference is carried out as to the unknown target. A probability function Pd21 or Pc22 is used to infer one which is possibly a target 31 from the observation record 32 of the unknown target. This inference is carried out by locally transmitting the reliability through the Markov network.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、一般的にコンピ
ュータビジョンに関し、より詳細には、画像が表す情景
の特性を推定することに関するものである。すなわち、
既知のターゲットの観察記録の統計的特性を用いてター
ゲットを推定する方法に関するものである。
The present invention relates generally to computer vision, and more particularly, to estimating the characteristics of a scene represented by an image. That is,
The present invention relates to a method for estimating a target by using statistical characteristics of observation records of a known target.

【0002】[0002]

【従来の技術】コンピュータビジョンにおける一般的な
問題の1つは、その下にある情景を表す画像からどのよ
うにしてその情景の特性を判定するか、ということであ
る。いくつかの特定の問題点を以下に挙げる。動きの推
定については、入力は通常、一時的に順序づけられたの
一連の画像、例えば「ビデオ」、である。問題となるの
は、様々なもの−人間、車、ボール、そのビデオにおい
て動いている背景−の見積もり速度をどのように推定す
るか、ということである。他の問題は、2D画像から現
実世界の三次元(3D)構造を回復すること、例えば、
線描、写真、または1対の立体写真からどのようにオブ
ジェクトの形状を回復するか、を取り扱う。更に他の問
題は、低解像度の画像からどのようにして高解像度の情
景の詳細を回復するか、ということである。
BACKGROUND OF THE INVENTION One of the common problems in computer vision is how to determine the characteristics of an underlying scene from an image representing the scene. Some specific issues are listed below. For motion estimation, the input is typically a temporally ordered sequence of images, eg, “video”. The question is how to estimate the estimated speed of various things-humans, cars, balls, moving background in the video. Other problems include recovering real-world three-dimensional (3D) structures from 2D images, eg,
It deals with how to recover the shape of an object from a line drawing, a photograph, or a pair of stereo photographs. Yet another problem is how to recover high-resolution scene details from low-resolution images.

【0003】人間は、このようなタイプの推定を、しば
しば半ば無意識のうちに、いつも行っている。機械にこ
れができるようにするアプリケーションもまた多く存在
する。これらの問題は、何年もの間、多くの研究者によ
って異なるアプローチで研究されてきており、様々に成
功している。最も知られたアプローチに伴う問題は、一
般的な枠組み内で現在のプロセッサのパワーを利用する
ことができる機械学習法を欠いている、ということであ
る。
[0003] Humans always make this type of estimation, often semi-involuntarily. There are also many applications that allow machines to do this. These problems have been studied by many researchers for many years with different approaches, with varying success. The problem with the best-known approach is that it lacks machine learning methods that can utilize the power of current processors within a general framework.

【0004】[0004]

【発明が解決しようとする課題】従来技術において、ブ
ロックの世界の画像を解釈する各方法が開発されてい
る。手でラベル付けした情景を用いる他の従来技術の作
業は、ベクトルコードをベースにして空中の画像の局所
的な特徴を分析しており、情景解釈を伝える各規則を開
発している。しかし、これらの解決法は、ある特定の1
ステップの範疇用のものであり、従って、一般的な種類
の低レベルビジョンの問題を解決するのに用いることは
できない。確率を伝える各方法が用いられてきている
が、これらの方法は、ビジョンの各問題を解決する一般
的な枠組み内に入れられてはいない。
In the prior art, methods have been developed for interpreting an image of the world of blocks. Other prior art work with hand-labeled scenes has analyzed local features of aerial images based on vector codes, and has developed rules that convey scene interpretation. However, these solutions are not
It is for the category of steps and therefore cannot be used to solve the general class of low-level vision problems. Although methods of communicating probabilities have been used, they are not within the general framework for solving vision problems.

【0005】または、4つ1組のツリーを用いることに
よって画像から光流(optical flow)を推定して、色々
な割合で動き情報を伝えることができる。その場合に
は、明るさ一定の仮定を用い、光流の速度についての信
頼度がガウス確率分布として表される。
[0005] Alternatively, by using a set of four trees, the optical flow can be estimated from the image to convey motion information at various rates. In that case, using the assumption of constant brightness, the reliability of the speed of the light flow is expressed as a Gaussian probability distribution.

【0006】[0006]

【課題を解決するための手段】本発明は、対応する画像
データから視覚情景を推定するために、ラベル付けした
視覚世界の統計的特性を分析する。画像データは、フレ
ームが単一であっても多数であってもよい。推定する情
景特性は、投影オブジェクト速度、表面形状、反射度パ
ターン、またはカラーであってもよい。本発明は、ラベ
ル付けしたトレーニングデータから集めた統計的特性を
用いて、下にある情景の「最良推測」推定、すなわち最
適解釈を形成する。
SUMMARY OF THE INVENTION The present invention analyzes the statistical properties of a labeled visual world to estimate a visual scene from corresponding image data. The image data may have a single frame or a large number of frames. The estimated scene characteristics may be a projected object velocity, surface shape, reflectance pattern, or color. The present invention uses statistical properties gathered from labeled training data to form a "best guess" estimate, or optimal interpretation, of the underlying scene.

【0007】本発明は、学習段階および推論段階におい
て動作する。学習段階の間に、トレーニングデータにつ
いての統計的特性が、確率密度関数、例えば、ガウス分
布のミックスとしてモデル化される。マルコフネットワ
ークが確立される。推論段階の間に、ある特定の画像か
ら取り出した信頼度および密度関数がネットワークの回
りで伝えられ、その特定の画像に対応する特定の情景に
ついての推定を行う。
The present invention operates in the learning and inference stages. During the learning phase, the statistical properties for the training data are modeled as a mix of probability density functions, eg, Gaussian distributions. A Markov network is established. During the inference phase, the confidence and density functions extracted from a particular image are passed around the network to make an estimate about the particular scene corresponding to that particular image.

【0008】従って、学習段階の間に、通常の画像およ
び情景についてのトレーニングデータが合成して生成さ
れる。画像と情景の両方についてのパラメータ記号表が
生成される。隣接した情景パラメータを条件とする情景
パラメータの確率のように、情景パラメータ(尤度関
数)を条件とする画像パラメータの確率がモデル化され
る。これらの関係はマルコフネットワークでモデル化さ
れ、このマルコフネットワークにおいては、推論段階の
間に局所的な証拠が隣接したノードに伝えられて、情景
推定の最大事後確率を決定する。
Thus, during the learning phase, training data for normal images and scenes is synthesized and generated. Parameter symbol tables are generated for both images and scenes. Like the probability of a scene parameter conditioned on adjacent scene parameters, the probability of an image parameter conditioned on a scene parameter (likelihood function) is modeled. These relationships are modeled in a Markov network, where local evidence is passed to neighboring nodes during the inference phase to determine the maximum posterior probability of the scene estimation.

【0009】人間が情景解釈を行う方法は、大部分が未
知であるが、数学的にはっきりと言い表せるものでない
ことは確かである。我々は、すべての局所的画像につい
て可能性のある情景解釈それぞれの確率を決定し、互い
に隣接したいかなる2つの局所的情景の確率も決定する
ことによって、視覚情景を解釈する視覚システムを、説
明する。第1の確率によって、視覚システムが局所的画
像データから情景推定を行うことができ、第2の確率に
よって、これらの局所的推定を伝えることができる。1
つの実施の形態では、マルコフ仮定によって拘束される
ベイズ的方法を用いる。
The way in which humans interpret scenes is largely unknown, but certainly not mathematically explicit. We describe a visual system that interprets visual scenes by determining the probabilities of each possible scene interpretation for all local images and determining the probabilities of any two local scenes adjacent to each other. . The first probability allows the visual system to make scene estimates from local image data, and the second probability conveys these local estimates. 1
One embodiment uses a Bayesian method constrained by the Markov assumption.

【0010】本発明による本方法は、様々な低レベルビ
ジョンの問題、例えば、低解像度の画像バージョンから
高解像度の情景の詳細の推定、線描からのオブジェクト
の形状の推定、に適用することができる。これらのアプ
リケーションにおいては、ドメイン知識なしでも、空間
的に局所的な統計的情報であれば、合理的な全体的情景
解釈に達するのに十分である。
The method according to the invention can be applied to various low-level vision problems, such as estimating high-resolution scene details from low-resolution image versions, estimating the shape of objects from line drawings. . In these applications, even without domain knowledge, spatially localized statistical information is sufficient to reach a reasonable overall scene interpretation.

【0011】特に本発明は、画像から情景を推定する方
法を提供する。複数の情景が生成され、それぞれの情景
について画像がレンダリングされる。これらによって、
トレーニングデータが形成される。これらの情景および
対応する画像は、パッチに分割される。それぞれのパッ
チはベクトルとして定量化され、これらのベクトルが確
率密度、例えば、ガウス分布のミックスとしてモデル化
される。パッチ同士の間の統計的関係は、マルコフネッ
トワークとしてモデル化される。局所的確率情報は、ネ
ットワークの隣接したノードに繰り返して伝えられ、結
果として得られるそれぞれのノードにおける確率密度、
「信頼度」が読み出されて情景が推定される。
In particular, the present invention provides a method for estimating a scene from an image. A plurality of scenes are generated, and an image is rendered for each scene. By these,
Training data is formed. These scenes and corresponding images are divided into patches. Each patch is quantified as vectors, and these vectors are modeled as a mix of probability densities, eg, Gaussian. Statistical relationships between patches are modeled as Markov networks. Local probability information is repeatedly transmitted to adjacent nodes of the network, and the resulting probability density at each node,
The “reliability” is read to estimate the scene.

【0012】本発明の1つのアプリケーションにおい
て、ぼんやりとした、すなわち低解像度の画像から高解
像度の詳細を推定することが可能である。低解像度の画
像は、入力「画像」データであり、「情景」データは、
高解像度の詳細の画像強さである。本発明はまた、一連
の画像から情景の動きを推定するのに用いることもでき
る。このアプリケーションにおいては、画像データはそ
の一連のうちの2つの連続する画像からの画像強さであ
り、情景データは、それぞれの画素位置における可視オ
ブジェクトの投影速度を示す連続した速度マップであ
る。本発明の他のアプリケーションは、陰影付けおよび
反射度の統一である。
In one application of the present invention, it is possible to estimate high-resolution details from blurry, ie, low-resolution, images. The low resolution image is the input "image" data, and the "scene" data is
High resolution detail image strength. The invention can also be used to estimate scene motion from a sequence of images. In this application, the image data is the image intensity from two consecutive images in the series, and the scene data is a continuous speed map showing the projection speed of the visible object at each pixel location. Another application of the invention is shading and reflectivity unification.

【0013】本発明はまた、トレーニングデータおよび
ターゲットデータを確率密度関数でモデル化することが
できる他の推定の問題に、例えば、音声認識、地震学研
究、EEGやEIKG等の医学診断信号において、適用
することもできる。更に、確率表示は、学習段階または
推論段階のどちらにおいても、不連続であっても連続で
あってもよい。
The present invention also provides other estimation problems that allow training data and target data to be modeled with a probability density function, such as speech recognition, seismic research, and medical diagnostic signals such as EEG and EIKG. It can also be applied. Further, the probability indication may be discontinuous or continuous, at either the learning stage or the inference stage.

【0014】[0014]

【発明の実施の形態】実施の形態1. (導入)単一の画像または多数の画像のどちらかを用い
て、情景の特性を推定するために、ラベル付けした視覚
世界の統計的特性を用いる方法を説明する。推定する情
景特性は、情景における投影オブジェクト速度、オブジ
ェクトの表面形状、反射度パターン、またはカラーを含
んでもよい。この一般的な方法は、多数の低レベルビジ
ョンの問題に適用することができる。本方法はまた、例
えば人間の音声、地震計等の他の複雑なデジタル信号の
統計的特性をモデル化するためにも用いることができ
る。
DESCRIPTION OF THE PREFERRED EMBODIMENTS Embodiment 1 (Introduction) Describes how to use the statistical properties of the labeled visual world to estimate the properties of a scene using either a single image or multiple images. The estimated scene characteristics may include a projected object velocity in the scene, a surface shape of the object, a reflectance pattern, or a color. This general approach can be applied to many low-level vision problems. The method can also be used to model the statistical properties of other complex digital signals, such as, for example, human speech, seismographs, and the like.

【0015】図1に示すように、一般的方法1は、トレ
ーニングデータ2で始まる。トレーニングデータは、既
知のターゲットの観察記録である。トレーニングデータ
2は、ランダムに生成されてもよい。ステップ10にお
いて、トレーニングデータをモデル化する不連続11ま
たは連続12の表示を選択する。ステップ20におい
て、不連続または連続のどちらかの表示を用いて、トレ
ーニングデータについての統計的関係を学習する。これ
らの関係は、不連続または連続のどちらかの確率関数
(Pd21、またはPc22)、例えば、ベクトルおよび
マトリクス、またはガウス分布のミックスとして表すこ
とができる。
As shown in FIG. 1, the general method 1 starts with training data 2. The training data is an observation record of a known target. The training data 2 may be randomly generated. In step 10, a display of discontinuities 11 or series 12 for modeling the training data is selected. In step 20, a statistical relationship for the training data is learned using either a discontinuous or continuous representation. These relationships can be expressed as either discrete or continuous probability functions (P d 21, or P c 22), for example, vectors and matrices, or a mix of Gaussian distributions.

【0016】学習段階の後、未知のターゲットについて
の推論を行うことができる。ステップ30において、P
d21またはPc22のどちらかを用いて、未知のターゲ
ットの観察記録32から、ターゲット31でありそうな
ものを推論する。この推論は、マルコフネットワークに
おいて、信頼度を局所的に伝えることによって行われ
る。マルコフネットワークにおいては、ネットワークに
おけるノードが観察記録を表し、信頼度は、信頼度の不
連続または連続の統計的表示である。ステップ30は、
そのトレーニングデータに似た他のターゲットについて
繰り返してもよい。
After the learning phase, inferences about unknown targets can be made. In step 30, P
Either d 21 or P c 22 is used to infer what is likely to be the target 31 from the observation record 32 of the unknown target. This inference is performed in a Markov network by locally transmitting the reliability. In a Markov network, nodes in the network represent observational records, and the confidence is a statistical indication of the discontinuity or continuity of the confidence. Step 30 is
It may be repeated for other targets similar to the training data.

【0017】(トレーニングデータについてのランダム
な情景および画像の生成)図2により詳細に示すよう
に、トレーニング段階の間に、一般的方法100は、ス
テップ110において、ランダムな情景xi(既知のタ
ーゲット)および対応する画像yi(観察記録)をトレ
ーニングデータ111として生成する。ランダムな情景
およびレンダリングされた画像は、コンピュータグラフ
ィックスを用いて合成して生成することができる。合成
画像は、システムが処理する未知の画像の特色をいくら
か示している。
Generating Random Scenes and Images for Training Data As shown in more detail in FIG. 2, during the training phase, the general method 100 includes, in step 110, a random scene x i (known target) ) And the corresponding image y i (observation record) are generated as training data 111. Random scenes and rendered images can be generated synthetically using computer graphics. The composite image shows some of the features of the unknown image that the system processes.

【0018】(情景のパッチへの分割)ステップ120
において、情景および対応する画像が、局所的パッチ1
21に分割される。分割は、情景および画像を覆う正方
形のパッチワークであってもよい。パッチの大きさは多
数であってもよく、パッチは冗長して載せてもよい。例
えば、パッチは多数のガウスピラミッドにおいて形成し
てもよい。ピラミッドは、例えば、5レベルの解像度−
密から粗まで−を有してもよい。更に、パッチは、異な
る向きをつけたフィルタを通して見る画像情報を表して
もよい。
(Division of Scene into Patches) Step 120
, The scene and the corresponding image are in local patch 1
It is divided into 21. The segmentation may be a square patchwork covering the scene and the image. The size of the patch may be many, and the patch may be redundantly mounted. For example, patches may be formed in multiple Gaussian pyramids. The pyramid has, for example, five levels of resolution-
It may have-from dense to coarse. Further, the patches may represent image information viewed through differently oriented filters.

【0019】解像度や向き等であるが、空間的に異な
る、与えられた1組の基準のすべてのパッチは、同じ区
分であると言われており、同じ統計的分布から引き出さ
れると仮定される。パッチの大きさは、モデル化ができ
るほど十分小さく、しかしながら、情景全体について意
味のある情報を伝えるほど十分大きい。
All patches of a given set of references, such as resolution, orientation, etc., but spatially different, are said to be of the same partition and are assumed to be drawn from the same statistical distribution. . The size of the patch is small enough to allow modeling, but large enough to convey meaningful information about the entire scene.

【0020】(パッチのベクトルとしての定量化)ステ
ップ130において、プリンシプル・コンポーネント・
アナリシス(PCA)を用いて、それぞれのパッチにつ
いての表示を決定する。それぞれのパッチは、ベース関
数同士の線形の組み合わせとして表される。パッチ12
1を、低次元ベクトル131として表す。例えば、それ
ぞれの情景パッチを五次元ベクトルとして表し、それぞ
れの画像パッチを七次元ベクトルとして表してもよい。
言い換えれば、ランダムなトレーニングデータ、情景、
および画像のそれぞれのパッチを、例えば、五次元およ
び七次元の空間における点として表す。
(Quantification of Patch as Vector) In step 130, the principal component
The display for each patch is determined using analysis (PCA). Each patch is represented as a linear combination of the base functions. Patch 12
1 is represented as a low-dimensional vector 131. For example, each scene patch may be represented as a five-dimensional vector, and each image patch may be represented as a seven-dimensional vector.
In other words, random training data, scenes,
And each patch of the image is represented, for example, as a point in five-dimensional and seven-dimensional space.

【0021】(トレーニングデータの確率密度のモデル
化)ステップ140において、これら低次元空間におけ
るすべてのトレーニングデータの確率密度を、ガウス分
布のミックスでモデル化する。トレーニングデータを用
いて、次式のような非常に一般的な形で局所的パッチの
確率を推定する。
(Modeling of probability density of training data) In step 140, the probability densities of all training data in these low-dimensional spaces are modeled by a mix of Gaussian distribution. The training data is used to estimate the local patch probabilities in a very general form:

【0022】P(scene),P(image|sc
ene) and P(neighboring sc
ene|scene)
P (scene), P (image | sc
ene) and P (neighboring sc
ene | scene)

【0023】よりはっきりと言えば、以下の3つの確率
密度141をモデル化する。
More specifically, the following three probability densities 141 are modeled.

【0024】(1)それぞれの情景要素xの先験的確
率、情景要素のそれぞれの区分について異なる先験的確
率が存在する、
(1) There is a priori probability of each scene element x, and a different a priori probability exists for each segment of the scene element.

【0025】(2)関連する画像要素yが与えられたと
きの情景要素xの条件付き確率、すなわちP(y|
x)、および
(2) The conditional probability of the scene element x when the related image element y is given, that is, P (y |
x), and

【0026】(3)情景要素x1および隣接した情景要
素x2の条件付き確率、すなわちP(x1|x2)であ
る。
(3) The conditional probability of the scene element x 1 and the adjacent scene element x 2 , that is, P (x 1 | x 2 ).

【0027】隣接した要素は、空間的位置において近接
したものでもよいが、また、縮尺や向き等の区分属性の
うちの何らかの1つにおいて近いものであってもよい。
The adjacent elements may be close in spatial position, or may be close in any one of the segmentation attributes such as scale and orientation.

【0028】トレーニングデータを修正して、ガウス分
布のミックスに適合するのがより容易な確率分布を有す
るようにするのが有用かもしれない。現実の画像につい
ては、関係のある多くの分布は、原点において非常に急
峻なスパイクを有する。このピークは、ガウス分布のミ
ックスと適合し、ガウス分布のミックスを操作するのは
困難である。ラベル付けした視覚データの統計的分析か
ら、情景データの先験的確率を求めることができる。そ
うすれば、トレーニングデータを二度目に通って、情景
データの先験的確率に反比例する確率でそれぞれのトレ
ーニングサンプルをランダムに削除することができる。
これによって、モデル化がより容易な確率分布を有する
バイアスされた1組のデータが与えられる。
It may be useful to modify the training data so that it has a probability distribution that is easier to fit into a mix of Gaussian distributions. For real images, many distributions of interest have very steep spikes at the origin. This peak matches the Gaussian distribution mix, and it is difficult to manipulate the Gaussian mix. A priori probabilities of the scene data can be determined from the statistical analysis of the labeled visual data. Then, it is possible to pass the training data a second time and randomly delete each training sample with a probability that is inversely proportional to the a priori probability of the scene data.
This gives a biased set of data with a probability distribution that is easier to model.

【0029】(マルコフネットワークの確立)学習段階
の最後のステップ150において、パッチおよびそれら
の関連する確率密度が、情景と画像との統計的関係を表
すマルコフネットワーク200に組織される。マルコフ
ネットワークにおいて、各ノードは低次元ベクトルを表
し、ノードxiは情景を、ノードyiは画像を表す。ノー
ド同士を接続する縁は、それらのノード同士の間の統計
的依存を表す。
(Establishment of Markov Network) In the last step 150 of the learning phase, the patches and their associated probability densities are organized into a Markov network 200 representing the statistical relationship between the scene and the image. In a Markov network, each node represents a low-dimensional vector, node x i represents a scene, and node y i represents an image. The edges connecting nodes represent the statistical dependence between those nodes.

【0030】また、ガウスピラミッドを用いる場合に
は、与えられた解像度レベルのノードを、同レベルの空
間的に隣接したノードおよび近接した解像度レベルの同
じ空間的位置におけるノードに接続することができる。
更に、向きをつけたフィルタの向き等の何か他の次元に
おいて異なる情景要素に接続することもできる。
Also, when a Gaussian pyramid is used, nodes of a given resolution level can be connected to nodes of the same level spatially adjacent and nodes of the same resolution level and at the same spatial location.
In addition, different scene elements can be connected in some other dimension, such as the orientation of an oriented filter.

【0031】これらの接続は、情景を推定しながら空間
的アーティファクトを除去するのを促進する。接続され
たマルコフネットワーク200によって、それぞれの情
景ノードは、以下の推論段階の間に他のノードから集め
られた蓄積した局所的な証拠をベースにして、自らの信
頼度を更新することができる。信頼度は、最終最良推定
を形成する組み合わせ確率密度である。
These connections facilitate removing spatial artifacts while estimating the scene. The connected Markov network 200 allows each scene node to update its confidence based on accumulated local evidence gathered from other nodes during the following inference phase. Confidence is the combined probability density that forms the final best estimate.

【0032】(信頼度を繰り返して伝え最良推定を読み
出す)推論段階の間に、未知の観察記録つまり画像17
2から、未知のターゲット情景171を推定する。後述
の規則をベースにして、ステップ160は、それぞれの
ノードにおけるベイズ的「信頼度」を、メッセージ16
1によって隣接したノードに繰り返し伝える。ベイズ的
すなわち規則正しくするアプローチは、これまでにも低
レベルビジョンの問題において用いられてきた。しか
し、従来技術とは対照的に、ラベル付けしたトレーニン
グデータ(情景および対応する画像)を用い、強いマル
コフ仮定を用いる。
During the inference phase (repeating confidence and reading out the best estimate), an unknown observation record or image 17
2, an unknown target scene 171 is estimated. Based on the rules described below, step 160 determines the Bayesian "reliability" at each node in message 16
1 is repeatedly transmitted to adjacent nodes. The Bayesian or regular approach has been used in low-level vision issues. However, in contrast to the prior art, it uses labeled training data (scenes and corresponding images) and uses strong Markov assumptions.

【0033】ステップ170において、観察した画像情
報が与えられたときの、対応する情景についてのそれぞ
れのノードにおける最良推定171が読み出される。こ
れは、それぞれのノードにおける信頼度についての確率
分布を検討して、ガウス分布のそのミックスの平均値ま
たは最大値のどちらかを取ることによって行うことがで
きる。これによって、観察した画像データが与えられた
ときの、その位置における真の下にあるターゲット情景
についての最良推定が、どんな情景値であるかがわか
る。
At step 170, the best estimate 171 at each node for the corresponding scene given the observed image information is read. This can be done by examining the probability distribution for reliability at each node and taking either the mean or the maximum of that mix of Gaussian distributions. This tells us what scene value is the best estimate for the target scene directly below at that location given the observed image data.

【0034】(3×3のマルコフネットワークの例)図
3は、簡単な3×3のマルコフネットワークを示す。簡
略化のために、すべてのデータを一次元にして、データ
をプロットすることができるようにしている。推定する
「情景データ」は、それぞれのノードにおいて1Dのx
201である。それぞれのノードにくる1Dの画像デー
タy202を用いて、xが何であるかを推定する。
(Example of 3 × 3 Markov Network) FIG. 3 shows a simple 3 × 3 Markov network. For simplicity, we have made all data one-dimensional so that we can plot the data. The “scene data” to be estimated is a 1D x at each node.
201. Using 1D image data y202 coming to each node, what x is is estimated.

【0035】本発明の通常の使用においては、トレーニ
ングの1組の画像および情景を作り出すために、ランダ
ムに作ったコンピュータグラフィック情景(既知のター
ゲット)およびそれらの対応するレンダリングされた画
像(観察記録)を生成する。それらを用いて、そこから
所望の先験的および条件付き統計を集める、画像および
情景のトレーニングのパッチを表すベクトルを生成す
る。
In a typical use of the present invention, randomly generated computer graphic scenes (known targets) and their corresponding rendered images (observation records) to produce a set of images and scenes for training. Generate They are used to generate vectors representing image and scene training patches from which to gather desired a priori and conditional statistics.

【0036】しかし、この簡単な例については、画像お
よび情景のトレーニングのパッチを表すベクトルに対応
する合成データを形成する。画像および情景を支配す
る、下にある同時確率関係を形成する。
However, for this simple example, composite data corresponding to vectors representing training patches for images and scenes is formed. Form the underlying joint probability relationship that governs the image and the scene.

【0037】図4は、この簡単な例についての変数xお
よびyの同時確率関係300を示す。図4において、変
数xは水平軸301に沿っており、変数yは垂直軸30
2に沿っている。yがゼロである場合には、変数xは、
図4の中央のぼやけた水平線303の幅広い分布によっ
て示されるように、多くの可能な値のうちの1つを有す
ることができる。観察記録yが2である場合には、xは
いくらか3に近い。
FIG. 4 shows the joint probability relationship 300 of the variables x and y for this simple example. 4, the variable x is along the horizontal axis 301 and the variable y is the vertical axis 30.
Along 2. If y is zero, the variable x is
It can have one of many possible values, as shown by the wide distribution of the central blurred horizontal line 303 in FIG. If the observation record y is 2, x is somewhat closer to 3.

【0038】更に、この簡単な例においては、隣接した
情景パッチの値x同士の間の関係は以下のようになる。
ネットワーク200の「行」203を下げるときには常
に情景データxに2を掛け、右に1列204行くときに
は情景データxに1.5を掛ける。
Further, in this simple example, the relationship between the values x of adjacent scene patches is as follows.
When lowering the "row" 203 of the network 200, the scene data x is always multiplied by 2; when going to the right one column 204, the scene data x is multiplied by 1.5.

【0039】この簡単な例について、ノードにくる画像
データyを形成する。ここでもまた簡単のために、ノー
ド5を除くすべてのノードは、y=0にセットされてい
る。
For this simple example, image data y coming to a node is formed. Again, for simplicity, all nodes except node 5 are set to y = 0.

【0040】従って、すべてのノードは、自らの値に関
して不確定性の幅が広い。ノード5は、観察した値y=
2を有する。この場合には、中央のノード5の観察した
値は、ほとんど確かに3であるはずである。そうする
と、ベイズ的信頼度を伝えることは、その知識をネット
ワーク200における他のすべてのノードに伝えること
を行う。最終推定は、ノード5においてx=3であり、
他のノードのx値は、ノード5から遠ざかる方向に水平
に右へまたは下へ1つ行く毎にそれぞれ1.5または2
の係数だけ増える(そして反対方向に行く場合には1/
1.5および1/2の割合で)であろう。
Therefore, all nodes have a wide range of uncertainties regarding their values. Node 5 determines the observed value y =
2 In this case, the observed value of the central node 5 should almost certainly be 3. Propagating the Bayesian trust then conveys that knowledge to all other nodes in the network 200. The final estimate is x = 3 at node 5;
The x value of the other node is 1.5 or 2 each time one goes horizontally to the right or down in the direction away from node 5.
(And going in the opposite direction, 1 /
1.5 and 1/2).

【0041】例のネットワーク200は、樹形図のルー
トにおける1から始まって、連続した番号が各ノードに
ついた、ノードが9つの樹形図である。i番目のノード
の局所的な情景状態はxiであり、i番目のノードにお
ける画像証拠はyiである。
The example network 200 is a nine-node dendrogram, starting at 1 at the root of the dendrogram, with consecutive numbers assigned to each node. The local scene state of the i-th node is x i , and the image evidence at the i-th node is y i .

【0042】上で概要を述べた一般的方法100の各ス
テップの次は、以下のように進んでいく。問題のコンピ
ュータグラフィックのシミュレーションから、トレーニ
ングデータを集める。この例の問題について、yおよび
xの、およびx1およびその隣接したノードのx2の既知
の同時分布から引き出すことによって、シミュレーショ
ンしたデータを生成する。
Following each step of the general method 100 outlined above, proceeds as follows. Gather training data from computer graphic simulations of the problem. For the problem in this example, simulated data is generated by drawing from a known joint distribution of y and x, and x 1 and its neighboring nodes x 2 .

【0043】簡単な1Dの問題については、プリンシプ
ル・コンポーネント・アナリシス(PCA)を行ってそ
れぞれのノードにおいて集められるデータの次元を低く
する必要はない。次に、ガウス確率モデルのミックスを
用いて、所望の同時確率を推定する。Bishop“Neural n
etworks for pattern recognition,”Oxford,1995を参
照されたい。
For simple 1D problems, it is not necessary to perform Principal Component Analysis (PCA) to reduce the dimensions of the data collected at each node. Next, a desired joint probability is estimated using a mix of Gaussian probability models. Bishop “Neural n
See etworks for pattern recognition, "Oxford, 1995.

【0044】図5は、xの観察した値のヒストグラムを
示し、図6は、先験的確率密度に適合するガウス分布の
ミックスを示し、図7は、そのガウス分布のミックスを
簡潔にしたものである。後述の理由のために、それぞれ
のかけ算や確率の適合の後は削除する。
FIG. 5 shows a histogram of the observed values of x, FIG. 6 shows a mix of Gaussian distributions that fits a priori probability density, and FIG. 7 shows a simplified mix of the Gaussian distributions. It is. After each multiplication or probability match, it is deleted for the reasons described below.

【0045】図8は、必要な条件付き確率141のうち
のいくつかに適合するガウス分布のミックスを示す。
(a)および(b)が同時に起こることについての同時
データを用いて、P(a,b)/P(b)=P(a|
b)が与えられたとき、1/P(b)だけ各点に重みを
つけることによって、ガウス分布のミックスをモデルの
条件付き確率P(a|b)に適合させる。図8(a)
は、xが与えられたときの確率密度yへのガウス分布の
適合のミックスを示し、図8(b)は、1/1.5の勾
配の直線の、xの値が与えられたときのxの右に隣接し
たものの確率密度へのガウス分布の適合のミックスを示
す。図8(c)は、1/2の勾配の直線の、xの値が与
えられたときのxの下に隣接したものの確率密度へのガ
ウス分布の適合のミックスを示す。
FIG. 8 shows a mix of Gaussian distributions that fits some of the required conditional probabilities 141.
Using simultaneous data about what happens (a) and (b) at the same time, P (a, b) / P (b) = P (a |
Given b), fit the Gaussian mix to the model's conditional probability P (a | b) by weighting each point by 1 / P (b). FIG. 8 (a)
Shows the mix of fits of the Gaussian distribution to the probability density y given x, and FIG. 8 (b) shows a straight line with a slope of 1 / 1.5 given the value of x. Shown is a mix of Gaussian fits to the probability density of the neighbors to the right of x. FIG. 8 (c) shows a mix of fits of the Gaussian distribution to the probability density of the neighbors below x for a straight line of 勾 配 slope, given the value of x.

【0046】後述する規則に従って、それぞれのノード
において信頼度を繰り返し計算する。第1のステップ
は、それぞれのノードからその隣接したもののそれぞれ
にどんなメッセージを伝えるかを決定する、ということ
である。
According to the rules described later, the reliability is repeatedly calculated at each node. The first step is to determine what message to pass from each node to each of its neighbors.

【0047】図9(a)〜(d)は、一緒に掛け合わせ
て、ノード5が第1の繰り返しでその上のノードである
ノード4に伝えるメッセージを生成する確率のそれぞれ
をグラフで示す。図9(a)は画像からの確率であり、
図9(b)はノード2からであり、図9(c)はノード
6からであり、図9(d)はノード8からである。
FIGS. 9 (a)-(d) graphically illustrate each of the probabilities of multiplying together to generate a message that node 5 conveys to node 4 above it in the first iteration. FIG. 9A shows the probability from the image.
9 (b) is from node 2, FIG. 9 (c) is from node 6, and FIG. 9 (d) is from node 8.

【0048】図9(e)は、図9(a)〜(d)に示す
確率の積である。次に、図9(e)に示す分布の次元を
高くして、図9(f)には含まれているが図9(e)に
は含まれていない次元において分布を一定に保つことに
よって、図9(f)に示す分布の次元を等しくする。次
に、この高くした分布に、図9(f)示す条件付き密度
を掛けて、図9(e)に含まれる分布の次元に沿って周
辺化する。その結果、図9(g)に示すメッセージ16
1がノード5からノード4に送られる。
FIG. 9E is the product of the probabilities shown in FIGS. 9A to 9D. Next, by increasing the dimension of the distribution shown in FIG. 9 (e) and keeping the distribution constant in the dimensions included in FIG. 9 (f) but not included in FIG. 9 (e). , The dimensions of the distribution shown in FIG. Next, the raised distribution is multiplied by the conditional density shown in FIG. 9F to form a margin along the dimension of the distribution included in FIG. 9E. As a result, the message 16 shown in FIG.
1 is sent from node 5 to node 4.

【0049】図10は、一緒に掛け合わせて先験的確率
の順にノード5がノード4に送るメッセージ、局所的画
像データから、隣接したノード4、ノード2、ノード
6、およびノード8からのメッセージ、および、第1の
繰り返しの最後でノード5における画像からの最終信頼
度(推定)を計算する確率をグラフで示す。
FIG. 10 shows a message that node 5 sends to node 4 in the order of a priori probabilities multiplied together, from local image data, a message from adjacent nodes 4, 2, 6, and 8. , And the probability of calculating the final confidence (estimate) from the image at node 5 at the end of the first iteration.

【0050】図11〜図13は、本方法の第1の3つの
繰り返しの間のネットワークでのそれぞれのノードにお
ける「信頼度」を示す。図11に示すように、ノード同
士の間にはまだ情報が伝わっておらず、それぞれのノー
ドは、自らの局所的画像情報であるyのみに依存して、
自らのx値を推定する。ノード5を除くすべてのノード
においてy=0であったので、これらは自らのx値につ
いてほとんど情報を受け取っておらず、自らのx値につ
いての自らの信頼度は非常に幅広く分布している。ノー
ド5には、自らのx値が3に近いということがわかって
いる。これはy=2によって暗示されているからであ
る。それぞれのノードにおいて示す信頼度は、それぞれ
のノードにおけるyの適当な値について、P(y|x)
P(x)である。
FIGS. 11-13 show the "reliability" at each node in the network during the first three iterations of the method. As shown in FIG. 11, information has not yet been transmitted between the nodes, and each node depends only on its own local image information y,
Estimate its own x value. Since y = 0 at all nodes except node 5, they have received very little information about their x-values and their confidence in their x-values is very widely distributed. Node 5 knows that its x value is close to three. This is because it is implied by y = 2. The reliability shown at each node is P (y | x) for an appropriate value of y at each node.
P (x).

【0051】第2の伝わりにおいて、図12に示すよう
に、それぞれのノードはその隣接したノードと自らの情
報を共用している。ノード2、4、6、および8は、自
らがおそらく有しているxがどんな値であるかを知って
いる唯一のノードであるノード5から、情報を提供する
メッセージを受け取っており、これらのノードは、それ
に応じて、自らのxの値についての自らの信頼度を調整
する。それぞれのノードにおいて示される分布は、P
(y|x)P(x)とそのノードに隣接したもののそれ
ぞれからのメッセージとを掛け合わせたものである。
In the second transmission, as shown in FIG. 12, each node shares its own information with its adjacent nodes. Nodes 2, 4, 6, and 8 have received informational messages from node 5, which is the only node that probably knows what value of x they have, The node adjusts its confidence in its value of x accordingly. The distribution shown at each node is P
(Y | x) P (x) multiplied by a message from each of the nodes adjacent to the node.

【0052】第3の伝わりによって、それぞれのノード
には2つ向こうにあるすべてのノードから伝えられてお
り、従って、それぞれのノードがノード5からの知識を
受け取っている。第3の伝わりの後、それぞれのノード
の信頼度の平均値または最大値は、そうであるべきもの
と略同じである。つまりノード5のxは略3の値を有
し、他のxの値は、右に行くと1.5倍、下に行くと2
倍になる。
According to the third transmission, each node is informed by all two nodes behind it, and thus each node has received knowledge from node 5. After the third propagation, the average or maximum of the confidence of each node is about the same as it should be. That is, x of the node 5 has a value of approximately 3, and the other x values are 1.5 times to the right and 2 to the bottom.
Double.

【0053】(ミックスの簡潔化)N個のガウス分布の
確率ミックスに、M個のガウス分布の確率ミックスを掛
けると、NM個のガウス分布のミックスが生じる。従っ
て、ガウス分布のミックス同士を掛け合わせると、ガウ
ス分布の数は急速に増えるので、ガウス分布を簡潔にし
なければならない。ミックスからの非常に小さい重み
で、簡単にしきい値によってガウス分布をふるいにかけ
ることができるが、このようにすると、ミックス適合が
不正確になる可能性がある。
(Simplification of Mix) When the probability mix of N Gaussian distributions is multiplied by the probability mix of M Gaussian distributions, a mix of NM Gaussian distributions is generated. Therefore, when the Gaussian distribution mix is multiplied, the number of Gaussian distributions increases rapidly, so that the Gaussian distribution must be simplified. The Gaussian distribution can be easily sieved by the threshold with very little weight from the mix, but this can result in inaccurate mix fitting.

【0054】(同時確率の因数分解)局所的証拠を隣接
したノードに伝えるのに用いられる同時確率の因数分解
の詳細を、図14を参照して説明する。図14に示すネ
ットワークは、それぞれ以下の4つの情景ノードおよび
画像ノードを有する。
(Factorization of Joint Probability) The factorization of joint probability used for transmitting local evidence to an adjacent node will be described in detail with reference to FIG. The network shown in FIG. 14 has the following four scene nodes and image nodes, respectively.

【0055】x1,...x4,およびy1,...y4 X 1 ,. . . x 4, and y 1,. . . y 4

【0056】局所的証拠を伝えるルールを生じる同時確
率の因数分解を求める。この因数分解では、以下の3つ
の確率操作規則を繰り返して用いる。
Find the factorization of joint probabilities that results in rules that convey local evidence. In this factorization, the following three probability operation rules are used repeatedly.

【0057】規則[1] 基本確率P(a,b)=P(a|b)P(b)に従う。Rule [1] The basic probability P (a, b) = P (a | b) P (b).

【0058】規則[2] ノードbがノードaとノードcとの間にある場合には、
P(a,c|b)=P(a|b)P(c|b)である。
これは、bが与えられたときのaおよびcの条件付き独
立のステートメントである。
Rule [2] If node b is between node a and node c,
P (a, c | b) = P (a | b) P (c | b).
This is a conditionally independent statement of a and c when b is given.

【0059】規則[3] ノードbがノードaとノードcとの間にある場合には、
P(c|a,b)=P(c|b)である。これは、最も
近いノードについての知識によってチェーンの残りにつ
いての知識を要約できるようにするマルコフ特性であ
る。
Rule [3] If node b is between node a and node c,
P (c | a, b) = P (c | b). This is a Markov property that allows knowledge of the rest of the chain to be summarized by knowledge of the closest node.

【0060】これら3つの規則のいずれも、ノード同士
を接続している縁を送る必要はない、ということに注意
されたい。これによって、ネットワーク200における
因果関係について恣意的な選択をする必要がなくなる。
It should be noted that none of these three rules need send the edges connecting the nodes. This eliminates the need for arbitrarily selecting causal relationships in the network 200.

【0061】パラメータx1,x2,x3,x4の最大事後
(MAP)確率を推定するためには、argmax
x1,x2,x3,x4P(x1,x2,x3,x4|y1,y2,y3
4)を決定したい。この条件付き確率は、同時確率P
(x1,x2,x3,x4,y1,y2,y3,y4)とは、変
化する独立変数にわたって一定である係数だけ異なる。
従って、argmaxx1,x2,x3,x4P(x1,x2,x3
4,y1,y2,y3,y4)を求めるように同等に選択
でき、こちらの方が簡単に決定される。
To estimate the maximum posterior (MAP) probabilities of the parameters x 1 , x 2 , x 3 , x 4 , argmax
x1, x2, x3, x4 P (x 1, x 2, x 3, x 4 | y 1, y 2, y 3,
y 4) I want to determine. This conditional probability is the joint probability P
(X 1 , x 2 , x 3 , x 4 , y 1 , y 2 , y 3 , y 4 ) by a factor that is constant over the changing independent variables.
Therefore, argmax x1, x2, x3, x4 P (x 1, x 2, x 3,
x 4 , y 1 , y 2 , y 3 , y 4 ) can be equally selected to be determined, which is easier to determine.

【0062】それぞれのパラメータxiの他の有用な推
定は、周辺分布の平均値、P(xi|y1,y2,y3,y
4)である。この平均値は、同時分布P(x1,x2
3,x4,y1,y2,y3,y4)から、xi以外のすべ
てのxパラメータを周辺化する(積分する)ことによっ
て、求めることができる。この周辺化によって、P(x
i,y1,y2,y3,y4)が生じる。これは、一定の目
盛係数によって、分布P(xi|y1,y2,y3,y4
に関係しており、従って、この2つの分布の平均値は同
じになる。MAP推定についての次の因数分解ステップ
もまた、周辺分布の平均値に当てはまるが、以下の変更
がある。演算argmaxxjの代わりに、変数xj(I
j)の積分となる。ノードにおける信頼度に関する最
終argmax演算の代わりに、その信頼度の平均を取
る。
Another useful estimate of each parameter x i is the mean of the marginal distribution, P (x i | y 1 , y 2 , y 3 , y
4 ). This average value is represented by the joint distribution P (x 1 , x 2 ,
x 3 , x 4 , y 1 , y 2 , y 3 , y 4 ) by peripheralizing (integrating) all x parameters other than x i . By this peripheralization, P (x
i, y 1, y 2, y 3, y 4) is produced. This is due to the distribution P (x i | y 1 , y 2 , y 3 , y 4 )
Therefore, the average values of the two distributions are the same. The next factorization step for MAP estimation also applies to the mean of the marginal distribution, with the following changes. Instead of the operation argmax xj , a variable x j (I
x j ). Instead of the final argmax operation on the reliability at a node, take the average of that reliability.

【0063】それぞれのノードにおける計算について
は、同時確率を異なった方法で因数分解する。それぞれ
のノードjは、その計算のまさに最後においてはP(x
j)の原因となり、隣接したノードにその量を伝えるこ
とはない。これによって、不変の局所的証拠を伝えるア
ルゴリズムができ、報告されているノードの数が与えら
れたときに出力が常に最適となる。
For the calculation at each node, the joint probabilities are factored in different ways. Each node j has P (x
j ), and does not transmit the quantity to the adjacent node. This allows an algorithm to convey invariant local evidence, and the output is always optimal given the number of nodes being reported.

【0064】例を挙げて続けると、ネットワーク200
における4つのノードのそれぞれについて4つの異なる
場合を説明する。第1に、ノードjにおけるargma
jが次式と同じ値になるように、それぞれのノードに
おいて行う因数分解を説明する。
Continuing with an example, the network 200
, Four different cases will be described for each of the four nodes. First, argma at node j
Factorization performed at each node so that x j has the same value as the following equation will be described.

【0065】argmaxx1,x2,x3,x4P(x1,x2
3,x4|y1,y2,y3,y4
Argmax x1, x2, x3, x4 P (x 1 , x 2 ,
x 3, x 4 | y 1 , y 2, y 3, y 4)

【0066】この4つの場合の後に、一般的な局所的証
拠を伝える規則を提示する。これらは、それぞれの因数
分解の計算を行うものである。
After these four cases, the rules that convey general local evidence are presented. These perform the calculation of each factorization.

【0067】(ノード1における計算)規則1を適用
し、次に規則2を適用すると、次式が得られる。
(Calculation at Node 1) By applying rule 1 and then applying rule 2, the following equation is obtained.

【0068】 P(x1,x2,x3,x4,y1,y2,y3,y4) =P(x2,x3,x4,y1,y2,y3,y4|x1)P(x1) =P(y1,x1)P(x2,x3,x4,y2,y3,y4|x1)P(x1P (x 1 , x 2 , x 3 , x 4 , y 1 , y 2 , y 3 , y 4 ) = P (x 2 , x 3 , x 4 , y 1 , y 2 , y 3 , y 4 | x 1 ) P (x 1 ) = P (y 1 , x 1 ) P (x 2 , x 3 , x 4 , y 2 , y 3 , y 4 | x 1 ) P (x 1 )

【0069】規則1を適用し、次に規則3を適用する
と、因数分解が次式のように続く。
Applying rule 1 and then applying rule 3, the factorization continues as follows:

【0070】 P(x2,x3,x4,y2,y3,y4|x1) =P(x3,x4,y2,y3,y4|x1,x2)P(x2|x1) =P(x3,x4,y2,y3,y4|x2)P(x2|x1P (x 2 , x 3 , x 4 , y 2 , y 3 , y 4 | x 1 ) = P (x 3 , x 4 , y 2 , y 3 , y 4 | x 1 , x 2 ) P (x 2 | x 1 ) = P (x 3 , x 4 , y 2 , y 3 , y 4 | x 2 ) P (x 2 | x 1 )

【0071】規則2を二度適用して、Applying rule 2 twice,

【0072】 P(x3,x4,y2,y3,y4|x2) =P(y2|x2)P(x3,y3|x2)P(x4,y4|x2P (x 3 , x 4 , y 2 , y 3 , y 4 | x 2 ) = P (y 2 | x 2 ) P (x 3 , y 3 | x 2 ) P (x 4 , y 4 | X 2 )

【0073】規則1を適用し、次に規則3を適用して、Applying rule 1, then applying rule 3,

【0074】 P(x3,y3|x2)=P(y3|x2,x3)P(x3|x2) =P(y3|x3)P(x3|x2) および P(x4,y4|x2)=P(y4|x2,x4)P(x4|x2) =P(y4|x4)P(x4|x2P (x 3 , y 3 | x 2 ) = P (y 3 | x 2 , x 3 ) P (x 3 | x 2 ) = P (y 3 | x 3 ) P (x 3 | x 2 ) And P (x 4 , y 4 | x 2 ) = P (y 4 | x 2 , x 4 ) P (x 4 | x 2 ) = P (y 4 | x 4 ) P (x 4 | x 2 )

【0075】これらすべての代入を適用することによっ
て、次式が得られる。
By applying all these substitutions, the following equation is obtained.

【0076】 P(x1,x2,x3,x4,y1,y2,y3,y4) =P(x1)P(y1|x1) P(x2|x1)P(y2|x2) P(x3|x2)P(y3|x3) P(x4|x2)P(y4|x4P (x 1 , x 2 , x 3 , x 4 , y 1 , y 2 , y 3 , y 4 ) = P (x 1 ) P (y 1 | x 1 ) P (x 2 | x 1 ) P (y 2 | x 2 ) P (x 3 | x 2 ) P (y 3 | x 3 ) P (x 4 | x 2 ) P (y 4 | x 4 )

【0077】argmaxの勾配を、代入が一定である
変数に通らせると、次式が得られる。
Passing the argmax gradient through a variable with constant substitution yields:

【0078】 argmaxx1,x2,x3,x4P(x1,x2,x3,x4,y1,y2,y3,y4) =argmaxx1P(x1)P(y1|x1) argmaxx2P(x2|x1)P(y2|x2) argmaxx3P(x3|x2)P(y3|x3[0078] argmax x1, x2, x3, x4 P (x 1, x 2, x 3, x 4, y 1, y 2, y 3, y 4) = argmax x1 P (x 1) P (y 1 | x 1) argmax x2 P (x 2 | x 1) P (y 2 | x 2) argmax x3 P (x 3 | x 2) P (y 3 | x 3)

【0079】上記結果は、同時事後確率のMAP推定を
求めるためのものである。上述のように、そうしない
で、周辺分布の平均値を求めるには、次式の分布のx1
に関する平均を取る。
The above result is for obtaining the MAP estimation of the joint posterior probability. As described above, instead of this, to obtain the average value of the marginal distribution, x 1 of the following expression
Take an average about.

【0080】 P(x1,y1,y2,y3,y4) =P(x1)P(y1|x1)Ix2P(x2|x1)P(y2|x2)Ix3 P(x3|x2)P(y3|x3P (x 1 , y 1 , y 2 , y 3 , y 4 ) = P (x 1 ) P (y 1 | x 1 ) I x2 P (x 2 | x 1 ) P (y 2 | x 2 ) I x3 P (x 3 | x 2 ) P (y 3 | x 3 )

【0081】(一般化)規則1を用いてP(xa)がノ
ードaに現れるようにした。規則2によって、ノードa
を出るそれぞれの縁が、P(他の変数|xa)の形の係
数を与える。これらの「他の変数」のストリングのそれ
ぞれが、規則1および2を用いて再び分解され、規則3
を用いることによっていかなる追加の条件付け変数も簡
単にする。
(Generalization) Using rule 1, P (x a ) is made to appear at node a. According to rule 2, node a
Each edge gives a coefficient in the form of P (the other variable | x a ). Each of these "other variable" strings is decomposed again using rules 1 and 2 and
Simplifies any additional conditioning variables.

【0082】これによって、同時確率が、ノードaの立
場からネットワークのトポロジーを反映するような方法
で因数分解される。ノードbおよびcがノードaから分
岐しているノードが3つのチェーンについては、次式の
ようになる。
Thus, the joint probability is factorized in a manner that reflects the topology of the network from the viewpoint of node a. For a chain of three nodes where nodes b and c branch off from node a, the following equation is obtained.

【0083】P(xa,xb,xc)=P(xa)P(xb
|xa)P(xc|xa
P (x a , x b , x c ) = P (x a ) P (x b
│x a ) P (x c │x a )

【0084】それぞれのノードから分岐している画像y
を含めると、次式のようになる。
Image y branching from each node
Is included, the following equation is obtained.

【0085】 P(xa,xb,xc,ya,yb,yc) =P(xa)P(ya|xa)P(xb|xa)P(yb|xb) P(xc|xa)P(yc|xc[0085] P (x a, x b, x c, y a, y b, y c) = P (x a) P (y a | x a) P (x b | x a) P (y b | x b) P (x c | x a) P (y c | x c)

【0086】(ノード2における計算)3つの操作規則
を用いて、ノード2において用いる異なる因数分解を書
き込む。今、単一の変数に関する唯一の先験的確率は、
P(x2)である。
(Calculation at Node 2) The different factorizations used at Node 2 are written using the three operating rules. Now, the only a priori probability for a single variable is
P (x 2 ).

【0087】 argmaxx1,x2,x3,x4P(x1,x2,x3,x4,y1,y2,y3,y4) =argmaxx2P(x2)P(y2|x2) argmaxx1P(x1|x2)P(y1|x1) argmaxx3P(x3|x2)P(y3|x3) argmaxx4P(x4|x2)P(y4|x4[0087] argmax x1, x2, x3, x4 P (x 1, x 2, x 3, x 4, y 1, y 2, y 3, y 4) = argmax x2 P (x 2) P (y 2 | x 2) argmax x1 P (x 1 | x 2) P (y 1 | x 1) argmax x3 P (x 3 | x 2) P (y 3 | x 3) argmax x4 P (x 4 | x 2) P (Y 4 | x 4 )

【0088】(ノード3における計算)P(x1,x2
3,x4,y1,y2,y3,y4)を因数分解して、次式
の因数を外に出す。
(Calculation at Node 3) P (x 1 , x 2 ,
x 3 , x 4 , y 1 , y 2 , y 3 , y 4 ) are factorized, and a factor of the following equation is taken out.

【0089】 P(x3),argmaxx1,x2,x3,x4P(x1,x2,x3,x4,y1,y2,y 3 ,y4) =argmaxx3P(x3)P(y3|x3) argmaxx2P(x2|x3)P(y2|x2) argmaxx1P(x1|x2)P(y1|x1) argmaxx4P(x4|x2)P(y4|x4P (xThree), Argmaxx1, x2, x3, x4P (x1, XTwo, XThree, XFour, Y1, YTwo, Y Three , YFour) = Argmaxx3P (xThree) P (yThree| XThree) Argmaxx2P (xTwo| XThree) P (yTwo| XTwo) Argmaxx1P (x1| XTwo) P (y1| X1) Argmaxx4P (xFour| XTwo) P (yFour| XFour)

【0090】(ノード4における計算)P(x1,x2
3,x4,y1,y2,y3,y4)を因数分解して、次式
の因数を外に出す。
(Calculation at Node 4) P (x 1 , x 2 ,
x 3 , x 4 , y 1 , y 2 , y 3 , y 4 ) are factorized, and a factor of the following equation is taken out.

【0091】 P(x4),argmaxx1,x2,x3,x4P(x1,x2,x3,x4,y1,y2,y 3 ,y4) =argmaxx4P(x4)P(y4|x4) argmaxx2P(x2|x4)P(y2|x2) argmaxx1P(x1|x2)P(y1|x1) argmaxx3P(x3|x2)P(y3|x3P (xFour), Argmaxx1, x2, x3, x4P (x1, XTwo, XThree, XFour, Y1, YTwo, Y Three , YFour) = Argmaxx4P (xFour) P (yFour| XFour) Argmaxx2P (xTwo| XFour) P (yTwo| XTwo) Argmaxx1P (x1| XTwo) P (y1| X1) Argmaxx3P (xThree| XTwo) P (yThree| XThree)

【0092】(局所的に伝える規則)単一の組の伝える
規則で、上記4つの計算のそれぞれが4つの異なるノー
ドに到着する。
(Locally Transmitted Rules) With a single set of transmitted rules, each of the above four calculations arrives at four different nodes.

【0093】それぞれの繰り返しの間に、それぞれのノ
ードxjは証拠を集め、次にそれぞれの接続ノードxk
適当なメッセージを伝える。ノードkからの証拠は、そ
こから受け取る最も最近のメッセージである。画像yj
からの証拠は、P(yj|x j)である。
During each iteration, each node
Code xjGathers evidence, then each connection node xkTo
Give an appropriate message. The evidence from node k is
Here is the latest message you will receive. Image yj
Evidence from P (yj| X j).

【0094】(1)ノードjからノードkに送られるメ
ッセージは、ノードk以外のノードからのノードjにお
ける証拠の積Q(j;k)で始まる。ノードkは、その
メッセージを受け取っているノードである。これには、
局所的ノードの証拠P(yj|xj)が含まれる。
(1) A message sent from the node j to the node k starts with a product Q (j; k) of evidence at the node j from a node other than the node k. Node k is the node receiving the message. This includes
Includes local node evidence P (y j | x j ).

【0095】(2)そうすると、ノードkに送られるメ
ッセージはargmaxxjP(xj|xk)Q(j;k)
である。異なる計算を用いて、ノードjから最適のxj
を読み出す。
(2) Then, the message sent to node k is argmax xj P (x j | x k ) Q (j; k)
It is. Using a different calculation, the optimal x j from node j
Is read.

【0096】(3)P(x1,x2,x3,x4,y1
2)を最大にするxjを求めるために、ノードjにおけ
るすべての証拠とP(xj)との積に関するargma
xjを取る。
(3) P (x 1 , x 2 , x 3 , x 4 , y 1 ,
argma for the product of P (x j ) with all the evidence at node j to find x j that maximizes y 2 )
Take x xj .

【0097】(伝える規則、不連続の場合)この伝える
動作は、不連続の確率表示の場合について、より容易に
表すことができるかもしれない。本実施例においては、
学習段階と推論段階の両方の間に不連続の確率表示を用
いる。トレーニングの間に、ノードkの隣にあるノード
jについて、同時に起こるヒストグラムH(yj,xj
およびH(xj,xk)を測定する。これらのヒストグラ
ムから、P(yj|xj)およびP(xj|xk)を推定す
ることができる。同時に起こるヒストグラムH(a,
b)を、aで示す行およびbで示す列のマトリクスとし
て記憶する場合には、ポアッソン到着統計についてそれ
ぞれのカウントに小さな定数を加えた後のP(a|b)
が、そのマトリクスの行を標準化したものである。それ
ぞれの行は、合計すると1になる。
(Conveying Rule, In the Case of Discontinuity) This transmitting operation may be more easily expressed in the case of displaying the probability of discontinuity. In this embodiment,
A discontinuous probability representation is used during both the learning phase and the inference phase. During training, for node j next to node k, the concurrent histogram H (y j , x j )
And H (x j , x k ) are measured. From these histograms, P (y j | x j ) and P (x j | x k ) can be estimated. The histograms H (a,
If b) is stored as a matrix of rows denoted by a and columns denoted by b, P (a | b) after adding a small constant to each count for Poisson arrival statistics
Are standardized rows of the matrix. Each row sums to one.

【0098】ノードjは、それぞれのノードから列ベク
トルメッセージを受け取る。ノードjからノードkにメ
ッセージを送るためには、ノードjは、
Node j receives a column vector message from each node. To send a message from node j to node k, node j

【0099】(1)それぞれの入メッセージ(ノードk
からのものを除く)を1項ずつ掛け合わせて、列ベクト
ルP(yj|xj)において掛け、次に
(1) Each incoming message (node k
) Are multiplied one by one and multiplied by a column vector P (y j | x j ), and then

【0100】(2)結果として得られるベクトルとP
(xj|xj)との「最大マトリクス乗算」を行う。
(2) The resulting vector and P
(Maximum matrix multiplication) with (x j | x j ).

【0101】結果として得られる列ベクトルが、ノード
kへのメッセージである。
The resulting column vector is the message to node k.

【0102】「最大マトリクス乗算」という用語は、列
ベクトルとマトリクスのそれぞれの行との1項ずつ掛け
合わせた積を意味し、出力列ベクトルのインデックスに
ついての出力を、掛け合わせた積の最大値と等しくなる
ようにセットする。最小平均平方誤差(MMSE)推定
については、最大マトリクス乗算のステップの代わり
に、従来技術のベクトルとマトリクスとの積を用いる。
The term "maximum matrix multiplication" means the product of the column vector multiplied by one term with each row of the matrix, and the output for the index of the output column vector is multiplied by the maximum value of the multiplied product. Set to equal. For minimum mean squared error (MMSE) estimation, the prior art vector-matrix product is used instead of the maximum matrix multiplication step.

【0103】不連続の確率表示において、ノードjにお
けるxの最良推定を読み出すために、それぞれの接続ノ
ードからの最も最近のメッセージを1項ずつ掛け合わせ
て、列ベクトルP(yj|xj)において掛け、列ベクト
ルP(xj)において掛ける。結果として得られる列ベ
クトルを最大にするインデックスが、xの最良推定であ
り、これはターゲット情景内にある。
In the discrete probability representation, to read out the best estimate of x at node j, the most recent message from each connected node is multiplied by one term to form a column vector P (y j | x j ). And multiply by the column vector P (x j ). The index that maximizes the resulting column vector is the best estimate of x, which is in the target scene.

【0104】(超解像度の問題)本発明の1つのアプリ
ケーションにおいて、ぼんやりとした、すなわち低解像
度の、画像から高解像度の詳細を推定する。このアプリ
ケーションにおいては、画像データは低解像度の画像の
画像強さであり、「情景」データは、高解像度の詳細の
画像強さである。
(Super Resolution Problem) In one application of the present invention, high resolution details are estimated from a blurry, ie, low resolution, image. In this application, the image data is the image intensity of the low-resolution image, and the "scene" data is the image intensity of the high-resolution detail.

【0105】トレーニング画像は、コンピュータグラフ
ィックス技術によってレンダリングされたランダムな表
面マーキングで覆われたランダムな形状のブロブから始
まる。まず帯域通過画像を得るために、向きのついた帯
域フィルタを作用させる。この帯域通過画像に、空間的
に変化する局所的乗法利得制御係数を適用する。利得制
御係数は、帯域通過画像の2乗しぼんやりした値の平方
根として計算される。この一定の利得制御によって、画
像の縁の強さが標準化され、次のモデル化ステップにか
かる負担を軽くする。結果として得られる画像は、「観
察した」情報を表す。
The training image begins with a randomly shaped blob covered with random surface markings rendered by computer graphics techniques. First, in order to obtain a bandpass image, an oriented bandpass filter is applied. A spatially varying local multiplicative gain control coefficient is applied to this bandpass image. The gain control factor is calculated as the square root of the squared blurred value of the bandpass image. This constant gain control standardizes the edge strength of the image and reduces the burden on the next modeling step. The resulting image represents "observed" information.

【0106】また、レンダリングした画像に向きのつい
た高域フィルタも作用させて、次に帯域通過画像から計
算された空間的に変化する局所的利得制御係数を適用す
る。この結果は、対応するターゲットすなわち「情景」
情報を表す。
The oriented high-pass filter also acts on the rendered image, and then applies the spatially varying local gain control coefficients calculated from the bandpass image. The result is the corresponding target or "scene"
Represents information.

【0107】多くのこのような画像と情景との対を生成
してトレーニングデータを確立した。それぞれの画像と
情景との対を、単一の空間的割合で同じ格子構造内でパ
ッチに分割した。画像パッチと情景パッチに別個にPC
Aを適用して、それぞれのパッチについての低次元表示
を得た。
Many such pairs of images and scenes were generated to establish training data. Each image-scene pair was divided into patches in the same grid structure at a single spatial rate. Separate PC for image patch and scene patch
A was applied to obtain a low dimensional representation for each patch.

【0108】トレーニングデータから必要な条件付き確
率および先験的確率を決定し、そのデータにガウス分布
のミックスを適合させた。局所的情報を伝えて、推定高
解像度画像を得た。本実施例においては、学習段階と推
論段階の両方の間に連続の確率表示を用いる。
The required conditional and a priori probabilities were determined from the training data and a Gaussian mix was fitted to the data. The local information was conveyed to obtain an estimated high-resolution image. In this embodiment, a continuous probability expression is used during both the learning stage and the inference stage.

【0109】(ハイブリッド確率密度表示)上述の確率
密度を伝える方法は、処理速度の点から改善することが
できる。確率密度の連続表示によって、学習段階の間に
入力画像データが良好に適合することができる。不連続
の表示であれば、推論段階の間に速く伝わることができ
る。次に、良好な適合と速い伝わりの両方を可能にする
ハイブリッドな方法を説明する。
(Hybrid Probability Density Display) The above method of transmitting the probability density can be improved in terms of processing speed. The continuous display of the probability densities allows the input image data to better match during the learning phase. Discontinuous indications can travel faster during the inference phase. Next, a hybrid method is described that allows both good fit and fast propagation.

【0110】このハイブリッドの場合においては、図2
の先験的分布および条件付き分布141を、図3のマル
コフネットワーク200におけるそれぞれのノード20
1について異なる不連続な1組の情景値においてのみ評
価する。情景値は、そのノードにおいてその画像にレン
ダリングする情景のサンプリングである。これによっ
て、計算が、局所的に実行可能な情景解釈に集中する。
条件付き確率P(xj|xk)は、それぞれノードjおよ
びノードkにおける情景サンプルにおいて評価される、
ガウス分布のミックスP(xj,xk)とP(xk)との
比を表す。条件付き確率P(yk|xk)は、ノードkの
情景サンプルにおいて、そこでの観察した画像値yk
ついて評価される、確率P(yk,xk)/P(xk)で
ある。
In the case of this hybrid, FIG.
The a priori and conditional distributions 141 of each node 20 in the Markov network 200 of FIG.
1 is evaluated only in a set of different discontinuous scene values. The scene value is a sampling of the scene to render in the image at that node. This concentrates the computation on locally viable scene interpretation.
The conditional probabilities P (x j | x k ) are evaluated in the scene samples at nodes j and k, respectively.
Represents the ratio between the Gaussian distribution mix P ( xj , xk ) and P ( xk ). The conditional probability P (y k | x k ) is the probability P (y k , x k ) / P (x k ) evaluated in the scene sample at node k for the observed image value y k there. .

【0111】従って、上述のようにノード同士の間で情
報を伝えるために、ガウス分布のミックスを互いに掛け
合わせる代わりに、情景ドメイン内での不連続な1組の
点において、確率サンプル同士を掛け合わせる。情景サ
ンプルの組は、ネットワーク200のそれぞれのノード
において異なっており、そのノードにくる画像情報によ
って決まる。1つのノードにおける信頼度は、そのノー
ドにおける情景サンプルのそれぞれにかかる1組の確率
重みである。ノードjからノードkへの信頼度の伝わり
には、Q(j:k)からの不連続なサンプルのベクトル
とリンクマトリクスのそれぞれの行との1点ずつの積で
ある、P(xj|xk)を含む(伝わりの規則1から)。
伝わりの規則2に従って、結果として得られるベクトル
の値は、それぞれの行の積の最大値である。例えば、1
0から15のサンプルを用いる場合には、処理時間を低
減しながら下にある情景を十分に記述することが可能で
ある。推論の間に不連続の表現を用いることによって、
処理速度が24時間から約10分へと、大きさで2桁以
上改善される。
Thus, instead of multiplying the Gaussian mix by each other in order to convey information between nodes as described above, the probability samples are multiplied by a set of discrete points in the scene domain. Match. The set of scene samples is different at each node of the network 200 and depends on the image information coming to that node. The confidence at one node is a set of probability weights on each of the scene samples at that node. The transfer of reliability from node j to node k includes P (x j |, which is the product of the vector of discontinuous samples from Q (j: k) and each row of the link matrix, one point at a time. x k ) (from Rule 1 of the Tradition).
In accordance with Tradition Rule 2, the value of the resulting vector is the maximum of the product of each row. For example, 1
When using samples from 0 to 15, it is possible to fully describe the underlying scene while reducing processing time. By using discontinuous expressions during inference,
Processing speed is improved by more than two orders of magnitude from 24 hours to about 10 minutes.

【0112】情景サンプルを選択するのに、それぞれの
ノードにおいて観察される画像要素yをミックスP
(y,x)の条件とし、情景要素xを結果として得られ
るガウス分布のミックスからサンプリングすることがで
きる。これらの情景を、その画像がそのノードにおいて
観察される画像と最もよく適合するトレーニングの組か
ら用いるだけで、より良好な結果を得ることができる。
これによって、ガウス分布のミックスのモデル化ステッ
プが1つ回避される。
To select a scene sample, the image element y observed at each node is mixed P
Given the condition of (y, x), the scene element x can be sampled from the resulting Gaussian mix. Better results can be obtained simply by using these scenes from the training set whose image best matches the image observed at the node.
This avoids one modeling step of a Gaussian mix.

【0113】超サンプリングのアプリケーションにおけ
るこの情景推定方法によって、低解像度の画像が高品質
でズームされる。
With this scene estimation method in a supersampling application, low resolution images are zoomed with high quality.

【0114】(他のアプリケーション)本発明はまた、
一連の画像から情景の動きを推定するのに用いることも
できる。このアプリケーションにおいては、画像データ
はその一連のうちの2つの連続する画像からの画像強さ
であり、情景データは、それぞれの画素位置における可
視オブジェクトの投影速度を示す連続した速度マップで
ある。
(Other Applications) The present invention also provides
It can also be used to estimate scene motion from a series of images. In this application, the image data is the image intensity from two consecutive images in the series, and the scene data is a continuous speed map showing the projection speed of the visible object at each pixel location.

【0115】本発明の他のアプリケーションは、陰影付
けおよび反射度の統一である。画像は、表面上の陰影効
果からも、表面自体の反射度の変化からも生じることが
できる。例えば、陰影付けした表面の画像は、陰影付け
した表面自体からも、陰影付けした表面のように見える
ように描いた平らな表面(例えば、その平らな絵)から
も生じることができる。そのアプリケーション用の画像
データは、画像自体であろう。下にある推定する情景デ
ータは、下にある表面の形状および反射度のパターンで
あろう。本方法は、画像によって表す3Dの情景および
描くパターンを最良に推定するのに用いることができ
る。
Another application of the present invention is unifying shading and reflectivity. Images can result from shading effects on the surface as well as changes in the reflectivity of the surface itself. For example, an image of a shaded surface can originate from the shaded surface itself, as well as from a flat surface (eg, a flat picture thereof) painted to look like the shaded surface. The image data for the application would be the image itself. The underlying estimated scene data would be the underlying surface shape and reflectivity pattern. The method can be used to best estimate the 3D scene represented by the image and the pattern to be drawn.

【0116】本発明はまた、他の複雑なデジタル信号に
ついての推定を行うのにも用いることができる。例え
ば、本発明を用いて、音声、地震データ、医学診断デー
タ、等の、統計的にサンプリングして確率密度関数とし
て表すことができるいかなる信号にも用いることができ
る。
The present invention can also be used to make estimates for other complex digital signals. For example, the present invention can be used with any signal that can be statistically sampled and represented as a probability density function, such as speech, seismic data, medical diagnostic data, and the like.

【0117】[0117]

【発明の効果】本発明による本方法は、様々な低レベル
ビジョンの問題、例えば、低解像度の画像バージョンか
ら高解像度の情景の詳細の推定、線描からのオブジェク
トの形状の推定、に適用することができる。これらのア
プリケーションにおいては、ドメイン知識なしでも、空
間的に局所的な統計的情報であれば、合理的な全体的情
景解釈に達するのに十分である。
The method according to the invention applies to various low-level vision problems, for example estimating high-resolution scene details from low-resolution image versions, estimating the shape of objects from line drawings. Can be. In these applications, even without domain knowledge, spatially localized statistical information is sufficient to reach a reasonable overall scene interpretation.

【0118】本発明のこの説明においては、特定の用語
および例を用いた。本発明の精神および範囲内で、様々
な他の適合および変形を行ってもよい、ということが理
解されるべきである。従って、添付の特許請求の範囲の
目的は、本発明の真の精神および範囲内にあるすべての
このような変更および変形を包含することである。
In this description of the present invention, certain terms and examples have been used. It is to be understood that various other adaptations and modifications may be made within the spirit and scope of the invention. It is therefore the object of the appended claims to cover all such changes and modifications that fall within the true spirit and scope of the invention.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 ターゲットを推定する方法のフローチャート
である。
FIG. 1 is a flowchart of a method for estimating a target.

【図2】 本発明による画像から情景を推定する方法の
詳細のフローチャートである。
FIG. 2 is a detailed flowchart of a method for estimating a scene from an image according to the present invention;

【図3】 本方法の信頼度を伝えるネットワークのグラ
フである。
FIG. 3 is a graph of a network conveying the reliability of the method.

【図4】 情景変数xを画像変数yと関係づける真の下
にある同時確率のグラフである。
FIG. 4 is a graph of the true underlying joint probability relating a scene variable x to an image variable y.

【図5】 トレーニングデータにおいて観察される情景
値のヒストグラムである。
FIG. 5 is a histogram of scene values observed in training data.

【図6】 図5のヒストグラムに示す分布に適合するガ
ウス分布の初期のミックスである。
6 is an initial mix of a Gaussian distribution that fits the distribution shown in the histogram of FIG.

【図7】 図6の適合を簡潔にしたものである。FIG. 7 is a simplification of the adaptation of FIG. 6;

【図8】 トレーニングデータにおいて観察される条件
付き確率へのガウス分布の適合のミックスを示す。
FIG. 8 shows a mix of fitting a Gaussian distribution to the conditional probabilities observed in the training data.

【図9】 ネットワークの様々なノードにおける確率の
グラフ(a〜d)、a〜dに示す確率の積(e)、条件
付き密度のグラフ(f)、及びメッセージ内を伝わる確
率のグラフ(g)である。
FIG. 9 is a graph of probabilities at various nodes of the network (ad), a product of probabilities shown in ad (e), a graph of conditional density (f), and a graph of probabilities of propagating in a message (g) ).

【図10】 組み合わせてノードの信頼度を形成する確
率のグラフである。
FIG. 10 is a graph of the probability of combining to form node reliability.

【図11】 初期確率のグラフである。FIG. 11 is a graph of initial probabilities.

【図12】 第1の繰り返し後の確率のグラフである。FIG. 12 is a graph of the probability after the first iteration.

【図13】 第2の繰り返し後の確率のグラフである。FIG. 13 is a graph of the probability after the second iteration.

【図14】 4つの情景ノードおよび画像ノードを有す
るマルコフネットワークのグラフである。
FIG. 14 is a graph of a Markov network having four scene nodes and image nodes.

【符号の説明】[Explanation of symbols]

1 一般的方法、2 トレーニングデータ、11 不連
続、12 連続、31ターゲット、32 観察記録、1
00 一般的方法、200 マルコフネットワーク。
1 general method, 2 training data, 11 discontinuous, 12 continuous, 31 targets, 32 observation records, 1
00 General method, 200 Markov network.

───────────────────────────────────────────────────── フロントページの続き (71)出願人 597067574 201 BROADWAY, CAMBRI DGE, MASSACHUSETTS 02139, U.S.A. (72)発明者 ウィリアム・ティー・フリーマン アメリカ合衆国、マサチューセッツ州、ア クトン、ハーフ・ムーン・ヒル 16 (72)発明者 エゴン・シー・パスツール アメリカ合衆国、マサチューセッツ州、ジ ャマイカ・プレイン、ウォレン・スクエア 6 ──────────────────────────────────────────────────続 き Continuation of the front page (71) Applicant 597067574 201 BROADWAY, CAMBRIDGE, MASSACHUSETS 02139, S. A. (72) Inventor William T. Freeman Half Moon Hill, Acton, Massachusetts, United States of America 16 (72) Inventor Egon Sea Pasteur Jamaica Plain, Warren Square, Massachusetts, United States of America 6

Claims (9)

【特許請求の範囲】[Claims] 【請求項1】 未知のターゲットおよびトレーニングデ
ータの観察記録から未知のターゲットを推定する方法で
あって、 複数の既知のターゲットおよび該既知のターゲットの観
察記録を生成してトレーニングデータを形成するステッ
プと、 該トレーニングデータを対応するサブセットに分割する
ステップと、 それぞれのサブセットをベクトルとして定量化し、それ
ぞれのベクトルに確率をモデル化するステップと、 未知のターゲットの観察記録および前記トレーニングデ
ータの前記確率についての局所的確率情報を、ネットワ
ークの隣接したノードに繰り返し伝えるステップと、 それぞれのノードにおいて前記確率を読み出して、前記
未知のターゲットと前記トレーニングデータの前記観察
記録から前記未知のターゲットを推定するステップとを
含む未知のターゲットおよびトレーニングデータの観察
記録から未知のターゲットを推定する方法。
1. A method for estimating an unknown target from an unknown target and an observation record of training data, comprising: generating a plurality of known targets and an observation record of the known target to form training data; Dividing the training data into corresponding subsets; quantifying each subset as a vector and modeling the probabilities for each vector; observing an unknown target and the probabilities of the training data. Repeatedly transmitting local probability information to adjacent nodes of the network; reading the probabilities at each node to estimate the unknown target from the unknown target and the observation record of the training data. Method of estimating the unknown target from observations of an unknown target and the training data including and.
【請求項2】 前記分割するステップと前記定量化する
ステップは、学習段階の間に行われ、前記伝えるステッ
プと前記読み出すステップは、推論段階の間に行われ
る、請求項1に記載の未知のターゲットおよびトレーニ
ングデータの観察記録から未知のターゲットを推定する
方法。
2. The method of claim 1, wherein said dividing and said quantifying are performed during a learning phase, and said transmitting and reading are performed during an inference phase. A method for estimating unknown targets from observation records of targets and training data.
【請求項3】 前記確率は、前記学習段階および前記推
論段階の間に不連続の関数として表される、請求項2に
記載の未知のターゲットおよびトレーニングデータの観
察記録から未知のターゲットを推定する方法。
3. Estimating an unknown target from an unknown target and an observation record of training data according to claim 2, wherein the probability is represented as a function of a discontinuity between the learning phase and the inference phase. Method.
【請求項4】 前記確率は、前記学習段階および前記推
論段階の間に連続の関数として表される、請求項2に記
載の未知のターゲットおよびトレーニングデータの観察
記録から未知のターゲットを推定する方法。
4. The method of claim 2, wherein the probabilities are expressed as a continuous function during the learning and inference stages. .
【請求項5】 前記確率は、前記学習段階の間に不連続
の関数として表され、前記推論段階の間に不連続関数と
して表される、請求項2に記載の未知のターゲットおよ
びトレーニングデータの観察記録から未知のターゲット
を推定する方法。
5. The unknown target and training data of claim 2, wherein the probabilities are represented as a discontinuous function during the learning phase and as a discontinuous function during the inference phase. A method of estimating unknown targets from observation records.
【請求項6】 前記不連続関数は、ベクトルおよびマト
リクスを含み、前記連続関数は、ガウス分布のミックス
である、請求項5に記載の未知のターゲットおよびトレ
ーニングデータの観察記録から未知のターゲットを推定
する方法。
6. The unknown target according to claim 5, wherein the discontinuous function comprises a vector and a matrix, and the continuous function is a mix of Gaussian distributions. how to.
【請求項7】 前記未知のターゲットが推定する情景で
あり、前記トレーニングデータは、ランダムなターゲッ
トおよび該ランダムなターゲットの対応する画像を含
む、請求項1に記載の未知のターゲットおよびトレーニ
ングデータの観察記録から未知のターゲットを推定する
方法。
7. The observation of unknown target and training data according to claim 1, wherein the unknown target is a scene to be estimated, and the training data includes a random target and a corresponding image of the random target. A method of estimating unknown targets from records.
【請求項8】 前記ネットワークはマルコフネットワー
クであり、前記ネットワークにおける前記ノードが、前
記未知のターゲットの前記観察記録を表す、請求項1に
記載の未知のターゲットおよびトレーニングデータの観
察記録から未知のターゲットを推定する方法。
8. The unknown target and the unknown target from the training data observation record of claim 1, wherein the network is a Markov network and the nodes in the network represent the observation record of the unknown target. How to estimate.
【請求項9】 未知のターゲットの異なる観察記録につ
いて前記推論段階を繰り返すステップを含む、請求項1
に記載の未知のターゲットおよびトレーニングデータの
観察記録から未知のターゲットを推定する方法。
9. The method of claim 1, further comprising the step of repeating the inference step for different observation records of an unknown target.
The method for estimating an unknown target from the unknown target and the observation record of the training data described in 1.
JP11337740A 1998-11-30 1999-11-29 Unknown target and method for estimating unknown target from observation record of training data Pending JP2000172842A (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US09/203,108 US6263103B1 (en) 1998-11-30 1998-11-30 Estimating scenes using statistical properties of images and scenes
US09/203108 1999-01-25
US09/236,839 US6380934B1 (en) 1998-11-30 1999-01-25 Estimating targets using statistical properties of observations of known targets
US09/236839 1999-01-25

Publications (1)

Publication Number Publication Date
JP2000172842A true JP2000172842A (en) 2000-06-23

Family

ID=26898320

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11337740A Pending JP2000172842A (en) 1998-11-30 1999-11-29 Unknown target and method for estimating unknown target from observation record of training data

Country Status (1)

Country Link
JP (1) JP2000172842A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100421740B1 (en) * 2000-11-14 2004-03-10 삼성전자주식회사 Object activity modeling method
JP2011170456A (en) * 2010-02-16 2011-09-01 Fujifilm Corp Image processing method, apparatus, and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100421740B1 (en) * 2000-11-14 2004-03-10 삼성전자주식회사 Object activity modeling method
JP2011170456A (en) * 2010-02-16 2011-09-01 Fujifilm Corp Image processing method, apparatus, and program

Similar Documents

Publication Publication Date Title
JP3369520B2 (en) Scene estimation method from images
KR102302725B1 (en) Room Layout Estimation Methods and Techniques
KR102235745B1 (en) Method for training a convolutional recurrent neural network and for semantic segmentation of inputted video using the trained convolutional recurrent neural network
US6496184B1 (en) Method for inferring scenes from test images and training data using probability propagation in a markov network
US6380934B1 (en) Estimating targets using statistical properties of observations of known targets
US7750903B2 (en) Modeling reflections within an image sequence
Freeman et al. Learning to estimate scenes from images
CN108960212A (en) Based on the detection of human joint points end to end and classification method
CN111582483A (en) Unsupervised learning optical flow estimation method based on space and channel combined attention mechanism
CN112560918B (en) Dish identification method based on improved YOLO v3
CN111815665B (en) Single image crowd counting method based on depth information and scale perception information
CN115130643A (en) Graphical neural network of data sets with heterogeneity
CN110660020A (en) Image super-resolution method of countermeasure generation network based on fusion mutual information
CN115393231B (en) Defect image generation method and device, electronic equipment and storage medium
CN116310219A (en) Three-dimensional foot shape generation method based on conditional diffusion model
CN113298129A (en) Polarized SAR image classification method based on superpixel and graph convolution network
CN114663880A (en) Three-dimensional target detection method based on multi-level cross-modal self-attention mechanism
CN113989612A (en) Remote sensing image target detection method based on attention and generation countermeasure network
CN115860113B (en) Training method and related device for self-countermeasure neural network model
CN115346091B (en) Method and device for generating Mura defect image data set
CN112053290A (en) Unsupervised event camera denoising method and unsupervised event camera denoising device based on convolution denoising self-encoder
Jeong et al. Fast stereo matching using constraints in discrete space
JP2021527859A (en) Irregular shape segmentation in an image using deep region expansion
JP2000172842A (en) Unknown target and method for estimating unknown target from observation record of training data
CN115018726A (en) U-Net-based image non-uniform blur kernel estimation method