JP6504590B2 - System and computer implemented method for semantic segmentation of images and non-transitory computer readable medium - Google Patents
System and computer implemented method for semantic segmentation of images and non-transitory computer readable mediumInfo
- Publication number
- JP6504590B2 JP6504590B2 JP2018523830A JP2018523830A JP6504590B2 JP 6504590 B2 JP6504590 B2 JP 6504590B2 JP 2018523830 A JP2018523830 A JP 2018523830A JP 2018523830 A JP2018523830 A JP 2018523830A JP 6504590 B2 JP6504590 B2 JP 6504590B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- pixel
- subnetwork
- pixels
- energy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 43
- 230000011218 segmentation Effects 0.000 title claims description 29
- 230000006870 function Effects 0.000 claims description 57
- 238000013528 artificial neural network Methods 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000012886 linear function Methods 0.000 claims description 2
- 238000012887 quadratic function Methods 0.000 claims description 2
- 238000009877 rendering Methods 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 18
- 238000002372 labelling Methods 0.000 description 9
- 210000002569 neuron Anatomy 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 238000009826 distribution Methods 0.000 description 6
- 230000003936 working memory Effects 0.000 description 5
- 238000003384 imaging method Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000135 prohibitive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000859 sublimation Methods 0.000 description 1
- 230000008022 sublimation Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/143—Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/84—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
- G06V10/85—Markov-related models; Markov random fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20088—Trinocular vision calculations; trifocal tensor
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Image Analysis (AREA)
Description
本発明は、包括的には、コンピュータービジョン及び機械学習に関し、より詳細には、画像を意味的にラベル付けすることに関する。 The present invention relates generally to computer vision and machine learning, and more particularly to semantically labeling images.
画像におけるあらゆるピクセルのカテゴリラベルを予測することを目的としたセマンティックセグメンテーションは、シーンの理解のための重要なタスクである。セマンティックセグメンテーションは、意味クラスの視覚的外観の大きな変化と、視覚世界における様々なクラス間の複雑な相互作用とに起因する困難な問題である。近年、畳み込みニューラルネットワーク(CNN(convolutional neural network))が、この困難なタスクに効果的であることが示されている。しかしながら、畳み込みニューラルネットワークは、セマンティックセグメンテーション等の構造予測タスクには最適でない場合がある。なぜならば、構造予測タスクは、出力変数間の相互作用を直接モデル化するものではないからである。 Semantic segmentation aimed at predicting the category labels of every pixel in an image is an important task for understanding the scene. Semantic segmentation is a difficult problem due to the large changes in the visual appearance of semantic classes and the complex interactions between the various classes in the visual world. In recent years convolutional neural networks (CNNs) have been shown to be effective for this difficult task. However, convolutional neural networks may not be optimal for structural prediction tasks such as semantic segmentation. This is because the structural prediction task does not directly model the interaction between output variables.
様々なセマンティックセグメンテーション方法が、CNN上で離散条件付き確率場(CRF(conditional random field))を用いる。CNN及びCRFを組み合わせることによって、これらの方法は、CNNが複雑な入力出力関係をモデル化する能力と、CRFが出力変数間の相互作用を直接モデル化する能力とを提供する。これらの方法の大部分は、CRFを別個の後処理ステップとして用いる。通常、CNNは、画像を処理してユーナリ(unary:単一)エネルギーを生成し、このユーナリエネルギーは、次に、CRFによって処理され、画像がラベル付けされる。しかしながら、CRFは、CNNと異なる動作原理を有する。そのことは、CNNをCRFから切り離し、それらの合同トレーニングを妨げる。一般に、CRFは、手動で調節されるか、又は、CNNとは別にトレーニングされる。 Various semantic segmentation methods use discrete conditional random fields (CRFs) on CNN. By combining CNN and CRF, these methods provide the ability of CNN to model complex input-output relationships and the ability of CRF to directly model interactions between output variables. Most of these methods use CRF as a separate post-processing step. Typically, the CNN processes the image to generate unary energy, which is then processed by the CRF to label the image. However, CRF has an operating principle different from CNN. That decouples the CNN from the CRF and prevents their joint training. In general, CRF is either manually adjusted or trained separately from CNN.
CRFを後処理ステップとして用いることに代わる1つの方法は、離散CRFの推定手順をリカレントニューラルネットワークに変換することによって、離散CRFとともにCNNをトレーニングするものである。しかしながら、一般に、離散CRFにおける推定は、CRF定式化の離散的で微分不能な性質に起因して取り扱いにくい。そのために、その方法は、大域的最適保証を有せず、不十分なトレーニング結果をもたらす可能性がある近似推定手順を用いる。 One alternative to using CRF as a post-processing step is to train CNN with discrete CRF by transforming the discrete CRF estimation procedure into a recurrent neural network. However, in general, estimation in discrete CRF is cumbersome due to the discrete and non-differentiable nature of CRF formulation. To that end, the method uses an approximate estimation procedure that does not have a global optimum guarantee and can lead to poor training results.
本発明の幾つかの実施の形態は、畳み込みニューラルネットワーク(CNN)及び離散条件付き確率場(CRF)の組み合わせを用いて画像のセマンティックセグメンテーションを提供することが有利であるという認識に基づいている。一方、幾つかの実施の形態は、この組み合わせにおいて、CRFをニューラルネットワーク(NN(neural network))と置き換えることが有利であるというさらなる別の認識に基づいている。そのような置き換えは、セマンティックセグメンテーションに参加する様々なサブネットワークを、合同でトレーニングすることができる共通のニューラルネットワーク内に接続することができる。しかしながら、NNを用いてCRFの演算をエミュレートすることは、CRF定式化の離散的で微分不能な性質に起因して困難である。 Some embodiments of the present invention are based on the recognition that it is advantageous to provide semantic segmentation of images using a combination of convolutional neural networks (CNN) and discrete conditional random fields (CRF). On the other hand, some embodiments are based on yet another recognition that it is advantageous to replace CRF with a neural network (NN) in this combination. Such permutations can connect the various sub-networks participating in semantic segmentation into a common neural network that can be jointly trained. However, emulating the operation of CRF with NN is difficult due to the discrete and non-differentiable nature of the CRF formulation.
幾つかの実施の形態は、最初に、CRFを、当該CRFのサブクラスであるガウス確率場(GRF(Gaussian random field))に置き換えることができるという認識に基づいている。GRF推定の演算は、連続かつ微分可能であり、最適に解くことができる。画像セグメンテーションが離散タスクであるにもかかわらず、GRFは、それでもセマンティックセグメンテーションに適している。 Some embodiments are based initially on the recognition that CRF can be replaced by a Gaussian random field (GRF), which is a subclass of CRF. The operations of GRF estimation are continuous and differentiable, and can be solved optimally. Although image segmentation is a discrete task, GRF is still suitable for semantic segmentation.
幾つかの実施の形態は、ニューラルネットワークを用いてGRF推定の演算をエミュレートすることが可能であるという認識に基づいている。ニューロン演算及びGRF演算の双方は、連続かつ微分可能であるので、GRFの演算の連続性によって、GRFにおける各代数的演算を幾つかのニューロン演算に置き換えることが可能になる。これらのニューロン演算は、GRF推定中に適用されるそれらの代数的演算として逐次的に適用される。 Some embodiments are based on the recognition that neural networks can be used to emulate the operation of GRF estimation. Since both neuron operations and GRF operations are continuous and differentiable, the continuity of the operations of GRF makes it possible to replace each algebraic operation in GRF with several neuron operations. These neuron operations are applied sequentially as their algebraic operations applied during GRF estimation.
そのために、実施の形態は、ユーナリエネルギーを求める第1のサブネットワークと、ペアワイズ(pairwise:対)エネルギーを求める第2のサブネットワークと、GRF推定をエミュレートする第3のサブネットワークとを作成し、3つの全てのサブネットワークを合同でトレーニングする。 To that end, the embodiment creates a first sub-network for unary energy, a second sub-network for pairwise energy, and a third sub-network emulating GRF estimation. And jointly train all three sub-networks.
したがって、本発明の1つの実施形態は、画像のセマンティックセグメンテーションのためのコンピューター実施方法を開示する。本方法は、第1のサブネットワークを用いて、画像における各ピクセルのユーナリエネルギーを求めることと、第2のサブネットワークを用いて、前記画像のピクセルの少なくとも幾つかのペアのペアワイズエネルギーを求めることと、第3のサブネットワークを用いて、前記ユーナリエネルギー及び前記ペアワイズエネルギーの組み合わせを含むエネルギー関数を最小にするガウス確率場(GRF)に関する推定結果を求めて、前記画像における各ピクセルの意味ラベルの確率を規定するGRF推定結果を生成することと、意味的セグメント化画像におけるピクセルに、前記第3のサブネットワークによって求められる前記確率の中で前記画像における対応するピクセルの最も高い確率を有する意味ラベルを割り当てることによって、前記画像を前記意味的セグメント化画像に変換することと、を含み、前記第1のサブネットワーク、前記第2のサブネットワーク、及び前記第3のサブネットワークは、ニューラルネットワークの一部分である。本方法のステップは、プロセッサによって実行される。 Thus, one embodiment of the present invention discloses a computer-implemented method for semantic segmentation of images. The method uses a first subnetwork to determine the unary energy of each pixel in the image and a second subnetwork to determine the pairwise energy of at least some pairs of pixels of the image. And the meaning of each pixel in the image using a third subnetwork to obtain an estimation result on a Gaussian random field (GRF) minimizing an energy function including a combination of the unary energy and the pairwise energy Generating a GRF estimation result defining the probability of the label, and having pixels in the semantic segmented image with the highest probability of the corresponding pixel in the image among the probabilities determined by the third subnetwork By assigning a semantic label, It comprises, converting the image into the semantic segmented image, the first sub-network, the second sub-network, and the third sub-network is part of a neural network. The steps of the method are performed by a processor.
更に別の実施形態は、画像のセマンティックセグメンテーションのためのシステムであって、前記画像及び意味的セグメント化画像を記憶する少なくとも1つの非一時的コンピューター可読メモリと、ガウス確率場(GRF)ネットワークを用いて前記画像のセマンティックセグメンテーションを実行して、前記意味的セグメント化画像を生成するプロセッサと、を備え、前記GRFネットワークは、画像における各ピクセルのユーナリエネルギーを求める第1のサブネットワークと、前記画像のピクセルの少なくとも幾つかのペアのペアワイズエネルギーを求める第2のサブネットワークと、前記ユーナリエネルギー及び前記ペアワイズエネルギーの組み合わせを含むエネルギー関数を最小にするガウス確率場(GRF)に関する推定結果を求めて、前記画像における各ピクセルの意味ラベルの確率を規定するGRF推定結果を生成する第3のサブネットワークと、を備えるニューラルネットワークであり、前記プロセッサは、意味的セグメント化画像におけるピクセルに、前記第3のサブネットワークによって求められる前記確率の中で前記画像における対応するピクセルの最も高い確率を有する意味ラベルを割り当てることによって、前記画像を前記意味的セグメント化画像に変換する、システムを開示する。 Yet another embodiment is a system for semantic segmentation of an image, using at least one non-temporary computer readable memory for storing the image and semantically segmented image, and a Gaussian random field (GRF) network. A processor for performing semantic segmentation of the image to generate the semantically segmented image, the GRF network comprising: a first sub-network for determining the unary energy of each pixel in the image; A second sub-network for determining pairwise energy of at least some pairs of pixels, and estimation results on Gaussian random field (GRF) minimizing an energy function including a combination of the unary energy and the pairwise energy And a third sub-network for generating a GRF estimation result defining the probability of the semantic label of each pixel in the image, and the processor is further configured to: A system is disclosed that converts the image into the semantic segmented image by assigning a semantic label having the highest probability of the corresponding pixel in the image among the probabilities determined by the third subnetwork.
更に別の実施形態は、命令が記憶された非一時的コンピューター可読媒体であって、前記命令は、プロセッサによって実行されると、第1のサブネットワークを用いて、画像における各ピクセルのユーナリエネルギーを求めることと、第2のサブネットワークを用いて、前記画像のピクセルの少なくとも幾つかのペアのペアワイズエネルギーを求めることと、第3のサブネットワークを用いて、前記ユーナリエネルギー及び前記ペアワイズエネルギーの組み合わせを含むエネルギー関数を最小にするガウス確率場(GRF)に関する推定結果を求めて、前記画像における各ピクセルの意味ラベルの確率を規定するGRF推定結果を生成することと、意味的セグメント化画像におけるピクセルに、前記第3のサブネットワークによって求められる前記確率の中で前記画像における対応するピクセルの最も高い確率を有する意味ラベルを割り当てることによって、前記画像を前記意味的セグメント化画像に変換することと、を含むステップを実行し、前記第1のサブネットワーク、前記第2のサブネットワーク、及び前記第3のサブネットワークは、ニューラルネットワークの一部分として合同でトレーニングされる、非一時的コンピューター可読媒体を開示する。 Yet another embodiment is a non-transitory computer readable medium having instructions stored thereon, wherein the instructions, when executed by the processor, use a first subnetwork to generate a unique energy for each pixel in the image. Determining the pairwise energy of at least some pairs of pixels of the image using a second subnetwork, and using the third subnetwork to calculate the unary energy and the pairwise energy. Determining an estimation result on a Gaussian random field (GRF) minimizing energy functions including combinations, generating a GRF estimation result defining the probability of the semantic label of each pixel in the image, and in the semantic segmented image Determined by the third sub-network And D. converting the image into the semantic segmented image by assigning the semantic label having the highest probability of the corresponding pixel in the image among the probabilities. The subnetwork, the second subnetwork, and the third subnetwork disclose a non-transitory computer readable medium jointly trained as part of a neural network.
図1Aは、本発明の幾つかの実施形態による画像のセマンティックセグメンテーションのためのコンピューターシステム100のブロック図を示す。コンピューターシステム100は、記憶された命令を実行するように構成されたプロセッサ102と、このプロセッサによって実行可能な命令を記憶するメモリ104とを備える。プロセッサ102は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスター、又は任意の数の他の構成体とすることができる。メモリ104は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、フラッシュメモリ、又は他の任意の適したメモリシステムを含むことができる。プロセッサ102は、バス106を通じて1つ以上の入力デバイス及び出力デバイスに接続される。
FIG. 1A shows a block diagram of a
図1Bは、本発明の幾つかの実施形態によるガウス確率場(GRF)ニューラルネットワークを用いる画像ラベル付け(image labeling:画像ラベリング)を介したセマンティックセグメンテーションの概略図を示す。セマンティックセグメンテーションは、メモリ104に記憶された命令を実行するプロセッサ102によって実行することができる。GRFネットワーク114は、画像160の意味的ラベル付けを実行して、意味クラス、例えば、意味ラベル171、172、及び173を用いてラベル付けされたピクセルを有するセグメント化画像170を生成する。GRFネットワーク114は、ニューラルネットワークであり、GRFネットワーク114の少なくとも幾つかの演算は、GRF推定の演算をエミュレートする。
FIG. 1B shows a schematic of semantic segmentation via image labeling using a Gaussian random field (GRF) neural network according to some embodiments of the present invention. Semantic segmentation may be performed by
GRFは、変数のガウス分布及び/又はガウス確率密度関数を伴う確率場である。1次元GRFは、ガウスプロセスとも呼ばれる。例えば、GRFネットワーク114は、画像160の各ピクセルの値を条件とする可能な意味ラベル171、172、及び173の確率密度をユーナリエネルギー及びペアワイズエネルギーを含むエネルギー関数のガウス分布としてモデル化し、エネルギー関数に関するガウス推定を実行して、画像の各ピクセルの各意味ラベルの確率を求める。
GRF is a random field with a Gaussian distribution of variables and / or Gaussian probability density functions. One-dimensional GRF is also called Gaussian process. For example, the
一般に、ガウス推定は、基礎をなすガウス分布の特性(例えば、平均又は共分散)を求めることを指す。この場合、このガウス分布は、画像のピクセルが異なる意味クラスに属する確率を規定する統計的変数によって形成される。そのために、ユーナリエネルギー及びペアワイズエネルギーは、ピクセルの意味ラベルの確率の関数である。例えば、幾つかの実施形態では、ガウス推定は、ユーナリエネルギー及びペアワイズエネルギーを用いて規定されるガウス分布の平均を求める。 In general, Gaussian estimation refers to determining properties (eg, mean or covariance) of the underlying Gaussian distribution. In this case, this Gaussian distribution is formed by statistical variables which define the probability that the pixels of the image belong to different semantic classes. Thus, the unary energy and the pairwise energy are functions of the probability of the semantic label of the pixel. For example, in some embodiments, Gaussian estimation determines the mean of Gaussian distributions defined using unary energy and pairwise energy.
幾つかの実施形態は、最初に、CRFを、当該CRFのサブクラスであるGRFに置き換えることができるという認識に基づいている。GRF推定の演算は、連続かつ微分可能であり、最適に解くことができる。画像のセマンティックセグメンテーションが離散タスクであるにもかかわらず、GRFは、それでもセマンティックセグメンテーションに適している。 Some embodiments are based initially on the recognition that CRF can be replaced by GRF, which is a subclass of CRF. The operations of GRF estimation are continuous and differentiable, and can be solved optimally. Although semantic segmentation of images is a discrete task, GRF is still suitable for semantic segmentation.
コンピューターシステム100は、元画像110を記憶するように適合された記憶デバイス108、元画像をフィルタリングして、セグメンテーションに適した画像160を生成するフィルター112を備えることもできる。例えば、このフィルターは、元画像をサイズ変更して、トレーニングデータの画像と位置合わせすることができる。記憶デバイス108は、GRFネットワーク114の構造及びパラメーターも記憶することができる。様々な実施形態では、GRFネットワーク114は、トレーニング画像のセット及び対応するトレーニング意味ラベルのセットに関してトレーニングされる。
記憶デバイス108は、ハードドライブ、光学ドライブ、サムドライブ、ドライブのアレイ、又はそれらの任意の組み合わせを含むことができる。コンピューターシステム100内のヒューマンマシンインターフェース116は、システムをキーボード118及びポインティングデバイス120に接続することができ、ポインティングデバイス120は、とりわけ、マウス、トラックボール、タッチパッド、ジョイスティック、ポインティングスティック、スタイラス、又はタッチ画面を含むことができる。コンピューターシステム100は、当該システム100をディスプレイデバイス124に接続するように適合されたディスプレイインターフェース122にバス106を通じてリンクすることができ、ディスプレイデバイス124は、とりわけ、コンピューターモニター、カメラ、テレビ、プロジェクター、又はモバイルデバイスを含むことができる。
コンピューターシステム100は、当該システムを撮像デバイス128に接続するように適合された撮像インターフェース126に接続することもできる。1つの実施形態では、セマンティックセグメンテーション用の画像は、この撮像デバイスから受信される。撮像デバイス128は、カメラ、コンピューター、スキャナー、モバイルデバイス、ウェブカム、又はそれらの任意の組み合わせを含むことができる。プリンターインターフェース130も、バス106を通じてコンピューターシステム100に接続することができ、コンピューターシステム100を印刷デバイス132に接続するように適合させることができ、印刷デバイス132は、とりわけ、液体インクジェットプリンター、固体インクプリンター、大規模商用プリンター、サーマルプリンター、UVプリンター、又は昇華型プリンターを含むことができる。ネットワークインターフェースコントローラー134は、コンピューターシステム100を、バス106を通じてネットワーク136に接続するように適合されている。ネットワーク136を通じて、電子テキスト及び撮像入力文書のうちの一方又は組み合わせを含む画像138をダウンロードし、記憶及び/又は更なる処理のためにコンピューターの記憶システム108内に記憶することができる。
説明を容易にするために、本開示は、太字体小文字を用いてベクトルを示し、太字体大文字を用いて行列を示す。
ニューラルネットワークは、生物学的なニューラルネットワークによってインスパイアされたモデルのファミリーであり、多数の入力に依存する可能性があり一般に未知である関数を推定又は近似するのに用いられる。ニューラルネットワークは、一般に、互いの間でメッセージを交換する相互接続されたノード又は「ニューロン」のシステムとして提供される。各ノードは、メッセージを変換する関数に関連付けられている。この関数は、通常、メッセージ変換の非線形部分を形成するために非線形である。ノード間の各接続は、メッセージ変換の線形部分を形成するためにメッセージをスケーリングする数値重みに関連付けられる。通常、これらの関数は、全てのノードについて固定され、事前に定められ、例えば、ニューラルネットワークの設計者によって選択されている。ノードについて通常選択される関数の例には、シグモイド関数及び整流関数が含まれる。これとは対照的に、数値重みは異なり、トレーニングデータに基づいて調節され、ニューラルネットワークを入力に適応したものとするとともに学習可能なものにする。 A neural network is a family of models inspired by biological neural networks and is used to estimate or approximate functions that may depend on multiple inputs and are generally unknown. Neural networks are generally provided as a system of interconnected nodes or "neurons" that exchange messages between one another. Each node is associated with a function that translates messages. This function is usually non-linear to form the non-linear part of message conversion. Each connection between nodes is associated with a numerical weight that scales the message to form a linear part of the message transformation. Usually, these functions are fixed for all nodes and are predetermined, for example, selected by the designer of the neural network. Examples of functions that are usually selected for nodes include sigmoid functions and rectification functions. In contrast, the numerical weights are different and are adjusted based on the training data, making the neural network adaptive and learnable to the input.
幾つかの実施形態は、ニューラルネットワークを用いてGRF推定の演算をエミュレートすることが可能であるという認識に基づいている。ニューロン演算及びGRF演算の双方は、連続かつ微分可能であるので、GRFの演算の連続性によって、GRFにおける各代数的演算を幾つかのニューロン演算に置き換えることが可能になる。これらのニューロン演算は、GRF推定中に適用されるそれらの代数的演算として逐次的に適用される。 Some embodiments are based on the recognition that neural networks can be used to emulate the operation of GRF estimation. Since both neuron operations and GRF operations are continuous and differentiable, the continuity of the operations of GRF makes it possible to replace each algebraic operation in GRF with several neuron operations. These neuron operations are applied sequentially as their algebraic operations applied during GRF estimation.
セマンティックセグメンテーションは、画像
上記エネルギー関数Eにおける第1項は、ユーナリエネルギーを表すユーナリ項であり、第2項は、ペアワイズエネルギーを表すペアワイズ項である。ここで、各ピクセルiのユーナリエネルギーパラメーター
図1Cは、本発明の1つの実施形態による画像の意味的ラベル付けの方法のブロック図を示している。本方法は、プロセッサ102によって実行されるGRFネットワーク114によって実行することができる。本方法は、画像における各ピクセルのユーナリエネルギー185を求め(180)、画像のピクセルの少なくとも幾つかのペアのペアワイズエネルギー195を求める(190)。次に、本方法は、ユーナリエネルギー185及びペアワイズエネルギー195を処理することによって画像のGRF推定176を求める(175)。例えば、幾つかの実施形態では、GRF推定は、ユーナリエネルギー及びペアワイズエネルギーの組み合わせを含むエネルギー関数を最小にすることによって求められる。
FIG. 1C shows a block diagram of a method of semantic labeling of an image according to one embodiment of the invention. The method may be performed by the
様々な実施形態では、ユーナリエネルギー185は、第1のサブネットワークを用いて求められ(180)、ペアワイズエネルギー195は、第2のサブネットワークを用いて求められ(190)、GRF推定176は、第3のサブネットワークを用いて求められる(175)。これらの第1のサブネットワーク、第2のサブネットワーク、及び第3のサブネットワークは、ニューラルネットワークの一部分である。そのような方法では、ニューラルネットワークの全てのパラメーターを合同でトレーニングすることができる。
In various embodiments, the
GRF推定は、画像における各ピクセルの意味ラベルの確率を規定する。例えば、本発明の幾つかの実施形態では、ユーナリエネルギー185は、第1のサブネットワークを用いて求められるピクセルの意味ラベルの確率の第1の関数であり、ペアワイズエネルギー195は、第2のサブネットワークを用いて求められるピクセルの意味ラベルの確率の第2の関数である。そのために、本方法は、意味的セグメント化画像170におけるピクセルに、第3のサブネットワークによって求められる確率の中で画像160における対応するピクセルの最も高い確率を有する意味ラベルを割り当てる(196)ことによって、画像160を意味的セグメント化画像170に変換する。ここで、第1のサブネットワーク、第2のサブネットワーク。
GRF estimation defines the probability of semantic labels for each pixel in the image. For example, in some embodiments of the present invention, the
エネルギー関数Eを最小にする最適な意味ラベル
図2Aは、本発明の1つの実施形態によるGRFネットワークのブロック図を示す。この実施形態では、GRFネットワークは、3つのサブネットワーク、すなわち、ユーナリエネルギー185を求めるユーナリネットワーク201としてトレーニングされる第1のサブネットワークと、ペアワイズエネルギー195を求めるペアワイズネットワーク202としてトレーニングされる第2のサブネットワークと、エネルギー関数を最小にする平均場推定更新を求めるGMIネットワーク203である第3のサブネットワークとを備える。ユーナリネットワーク及びペアワイズネットワークは、エネルギー関数式(1)のユーナリ項及びペアワイズ項においてそれぞれ用いられるパラメーター
1つの実施形態では、平均
ここで、これらの更新は、各ピクセルiについて逐次的に実行される。エネルギー関数は、GRFの場合には凸二次であり、式(2)の更新は、各部分問題(sub-problem)を最適に解く。すなわち、他の全ての
図2Bは、本発明の幾つかの実施形態によるNNを含有するエネルギー関数の最小化の概略図を示す。エネルギー関数210は、ユーナリエネルギー185及びペアワイズエネルギー195の組み合わせを含む。エネルギー関数の一例は、式(1)の関数である。第3のサブネットワーク203の各層231、232、233、234、235、及び236は、エネルギー関数210を最小にする平均場推定更新を再帰的に求める。再帰的最小化の例は、式(2)に提供されている。サブネットワーク203における層の数は、更新の所望の反復数に基づいて選択することができる。
FIG. 2B shows a schematic diagram of the minimization of the energy function containing the NN according to some embodiments of the present invention. The
図3Aは、本発明の1つの実施形態によるGRFネットワークのブロック図を示す。この実施形態では、第1のサブネットワーク201は、パラメーター
この実施形態では、ユーナリエネルギーパラメーター
例えば、1つの実施態様では、ユーナリCNN305は、オックスフォードビジュアルジオメトリグループ(Oxford Visual Geometry Group)(VGG−16)ネットワークの変更版である。VGG−16と比較した変更点には、完全接続層を畳み込み層に変換することと、ダウンサンプリング層をスキップすることと、例えば、第4のプーリング層後の畳み込み層を変更して、ダウンサンプリングをスキップすることによる視野の損失を補償することと、マルチスケール特徴量を用いることとが含まれる。
For example, in one embodiment,
第2のサブネットワーク(すなわち、ペアワイズネットワーク)202は、式(1)のエネルギー関数のペアワイズ項において用いられる行列
例えば、ペアワイズネットワーク202は、ペアの第1のピクセルiの近傍の第1のピクセルのサブセットを処理して、第1のピクセルの特徴量
ペアワイズCNNの構造は、ユーナリCNNと同じものとすることができる。幾つかの実施形態では、sijの指数は以下となる。
1つの実施形態では、ペアワイズネットワーク202は、ピクセル特徴量
GMI203は、ユーナリエネルギー及びペアワイズエネルギーの組み合わせを含むエネルギー関数が最小になるような各ピクセルの意味ラベルの確率を反復して求める。各ピクセルにおける最終出力は、K次元クラス予測スコアベクトル307である。ここで、Kはクラスの数である。第iのピクセルにおける最終出力を
図3Bは、本発明の1つの実施形態によるGRFネットワークの実施態様の擬似コードである。 FIG. 3B is pseudo code of an implementation of a GRF network according to one embodiment of the present invention.
図4Aは、本発明の1つの実施形態によるペアワイズエネルギーを求める画像160のピクセルのペアを形成する方法のブロック図を示す。この実施形態は、画像160におけるピクセルの全ての可能なペアのペアワイズエネルギーを求めることが、多数の変数に起因して計算を遅くするという理解に基づいている。全てのピクセルの並列更新を同時に用いることが、合理的な代替案であるように見えるが、並列更新の収束は、限られた条件下でしか保証されない。
FIG. 4A shows a block diagram of a method of forming pairs of pixels of
この問題に対処するために、実施形態は2部グラフ構造を用いる。この2部グラフ構造によって、各ステップにおいて変数の半分を並列に更新することが可能になるとともに、それでも、対角優位制約なしの収束が保証される。例えば、実施形態は、ピクセルの列又は行のインデックスのパリティに基づいて画像160におけるピクセルを奇数ピクセル又は偶数ピクセルに分割し(420)、ピクセルの各ペアにおいて、第1のピクセルが奇数ピクセルであり、第2のピクセルが偶数ピクセルであるようにピクセルのペアを形成する(430)。例えば、ピクセル410は、ピクセル411、412、413、及び414等のより大きな黒色の円を用いて示された7×7空間近傍内のピクセルとのみペアリングされる。
To address this problem, embodiments use a bipartite graph structure. This bipartite graph structure allows half of the variables to be updated in parallel at each step, while still ensuring convergence without diagonal dominance constraints. For example, the embodiment divides 420 pixels in the
幾つかの実施態様では、グラフィカルモデルは各ピクセルのノードを有し、各ノードはK個の変数のベクトルを表す。式(2)を用いて第iのノードを更新するために、実施形態は、第iのノードに接続された他の全てのノード(すなわち、非ゼロの
図4Bは、本発明の幾つかの実施形態による図4Aの2部グラフ構造を利用するGMIネットワーク440のブロック図を示す。GMIネットワーク440は、ユーナリネットワーク及びペアワイズネットワークの出力を用いて固定数のガウス平均場更新を実行する。このネットワークへの入力は、ユーナリ出力
GMIネットワーク440は、連続的に組み合わされた幾つかのGMI層401を備える。各層は、2つの副層、すなわち、偶数更新副層402と、これに後続又は先行する奇数更新副層403とを有する。偶数更新副層402は、先行層の出力を入力として取り込み、奇数ピクセルノードを固定した状態のままで式(2)を用いて偶数ピクセルノードを更新する。同様に、奇数更新副層は、偶数更新副層の出力を入力として取り込み、偶数ピクセルノードを固定した状態のままで式(2)を用いて奇数ピクセルノードを更新する。奇数更新副層及び偶数更新副層の順序は逆にすることができる。
The
2部グラフ構造に起因して、上記副層のそれぞれによって実行される更新は、最適な更新であり得る。したがって、本発明者らのGMIネットワークの各層は、その入力と比較してMAP解により近い出力を生成することが保証される(入力自体がMAP解でない場合であり、入力自体がMAP解である場合に、出力は入力に等しい)。 Due to the bipartite graph structure, the updates performed by each of the sublayers may be optimal updates. Thus, each layer of our GMI network is guaranteed to produce an output that is closer to the MAP solution compared to its input (if the input itself is not a MAP solution and the input itself is a MAP solution) In which case the output is equal to the input).
トレーニング
GRFネットワーク114は、相互接続されたサブネットワークを備えるので、GRFネットワーク114のこれらの様々なサブネットワークを合同でトレーニングすることができる。例えば、図3Aのユーナリネットワーク、ペアワイズネットワーク及びGMIネットワークの組み合わせをエンドツーエンド形式でトレーニングすることができる。1つの実施形態は、GMIネットワーク内の固定数の層を用いる。層が有限個であるので、GRFネットワークの出力は、潜在的に準最適であり得る。一方、実施形態は、GRFネットワーク全体をエンドツーエンド形式で弁別的にトレーニングするので、ユーナリネットワーク及びペアワイズネットワークは、固定数の平均場更新後の出力が最適解に近づくように近似的なユーナリエネルギーパラメーター
図5は、本発明の幾つかの実施形態によって用いられるトレーニングの概略図を示す。トレーニング510は、画像のペアのトレーニングセット501と、対応する意味的セグメント化画像502とを用いて、GRFネットワークのパラメーター520を生成する。一般に、人工ニューラルネットワークをトレーニングすることは、トレーニングセットを考慮して、「学習」アルゴリズムと呼ばれることがあるトレーニングアルゴリズムを人工ニューラルネットワークに適用することを含む。トレーニングセットは、入力の1つ以上のセットと、出力の1つ以上のセットとを含むことができ、入力の各セットは、出力の1つのセットに対応する。トレーニングセットにおける出力のセットは、対応する入力のセットが人工ニューラルネットワークに入力され、人工ニューラルネットワークがその後フィードフォワード形式で動作されたときに人工ニューラルネットワークが生成することが望まれる出力のセットを含む。ニューラルネットワークをトレーニングすることは、パラメーター、例えば、人工ニューラルネットワークにおける接続に関連付けられた重み値を計算することを伴う。例えば、GRFネットワークのパラメーターは、ユーナリネットワークパラメーター
図6は、本発明の幾つかの実施形態によって用いられるトレーニング方法510のブロック図を示す。本方法は、GRFネットワーク114を用いてセット501からの画像610を処理して意味的セグメント化画像630を生成し、この意味的セグメント化画像630を、セット502からの対応する意味的セグメント化画像620と比較して、これらの2つの意味的セグメント化画像間の距離を生成する(640)。例えば、1つの実施形態は、各ピクセルにおける以下の損失関数を求める。
そのために、実施形態は、損失関数を最小にすることによってGRFネットワーク114を弁別的にトレーニングする。例えば、トレーニングは、ネットワークパラメーターの勾配を計算するバックプロパゲーションを用いて実行される。トレーニングは、パラメーター
図7は、本発明の1つの実施形態によるトレーニングシステムのブロック図を示す。このトレーニングシステムは、バス22によって読み出し専用メモリ(ROM)24及びメモリ38に接続されたプロセッサを備える。このトレーニングシステムは、ユーザーに情報を提示するディスプレイ28と、キーボード26、マウス34及び入力/出力ポート30を介して取り付けることができる他のデバイスを含む複数の入力デバイスとを備えることもできる。他のポインティングデバイス又は音声センサー若しくは画像センサー等の他の入力デバイスも取り付けることができる。他のポインティングデバイスは、タブレット、数値キーパッド、タッチ画面、タッチ画面オーバーレイ、トラックボール、ジョイスティック、ライトペン、サムホイール等を含む。I/O30は、通信ライン、ディスク記憶装置、入力デバイス、出力デバイス又は他のI/O機器に接続することができる。メモリ38は、表示画面のピクセル強度値を含むディスプレイバッファー72を備える。ディスプレイ28は、ディスプレイバッファー72からピクセル値を周期的に読み出し、これらの値を表示画面上に表示する。ピクセル強度値は、グレーレベルを表すこともできるし、カラーを表すこともできる。
FIG. 7 shows a block diagram of a training system according to one embodiment of the present invention. The training system comprises a processor connected by a
メモリ38は、データベース90、トレーナー82、GRF114、プリプロセッサ84を含む。データベース90は、履歴データ105、トレーニングデータ、テストデータ92を含むことができる。データベースは、ニューラルネットワークを用いる動作モード、トレーニングモード又は保持モードからの結果も含むことができる。これらの要素は、上記で詳細に説明されている。
The
メモリ38には、オペレーティングシステム74も示されている。オペレーティングシステムの例には、AIX、OS/2、及びDOSが含まれる。メモリ38に示されている他の要素は、キーボード及びマウス等のデバイスによって生成された電気信号を解釈するデバイスドライバー76を含む。ワーキングメモリエリア78もメモリ38に示されている。ワーキングメモリエリア78は、メモリ38に示された要素のいずれもが利用することができる。ワーキングメモリエリアは、ニューラルネットワーク101、トレーナー82、オペレーティングシステム74及び他の機能が利用することができる。ワーキングメモリエリア78は、要素間で分割することもできるし、或る要素内において分割することもできる。ワーキングメモリエリア78は、通信、バッファリング、一時記憶、又はプログラムが実行されている間のデータの記憶に利用することができる。
Also shown in
本発明の上記で説明した実施形態は、多数の方法のうちの任意のもので実施することができる。例えば、実施形態は、ハードウェア、ソフトウェア又はそれらの組み合わせを用いて実施することができる。ソフトウェアで実施される場合、ソフトウェアコードは、単一のコンピューターに設けられるのか又は複数のコンピューター間に分散されるのかにかかわらず、任意の適したプロセッサ又はプロセッサの集合体において実行することができる。そのようなプロセッサは、1つ以上のプロセッサを集積回路部品に有する集積回路として実装することができる。ただし、プロセッサは、任意の適したフォーマットの回路類を用いて実装することができる。 The above-described embodiments of the present invention can be implemented in any of numerous ways. For example, the embodiments may be implemented using hardware, software or a combination thereof. When implemented in software, the software codes may be executed on any suitable processor or collection of processors, whether provided on a single computer or distributed among multiple computers. Such processors can be implemented as integrated circuits having one or more processors in integrated circuit components. However, a processor may be implemented using circuitry of any suitable format.
また、本発明の実施形態は、例が提供された方法として実施することができる。この方法の一部として実行される動作は、任意の適切な方法で順序付けすることができる。したがって、動作が示したものと異なる順序で実行される実施形態を構築することができ、これには、例示の実施形態では一連の動作として示されたにもかかわらず、幾つかの動作を同時に実行することを含めることもできる。 Also, embodiments of the present invention can be implemented as a method provided an example. The operations performed as part of this method can be ordered in any suitable manner. Thus, embodiments can be constructed in which the operations are performed in a different order than that shown, and although this is illustrated as a series of operations in the illustrated embodiment, several operations may be performed simultaneously. It can also include doing.
請求項の要素を修飾する、特許請求の範囲における「第1」、「第2」等の序数の使用は、それ自体で、1つの請求項の要素の別の請求項の要素に対する優先順位も、優位性も、順序も暗示するものでもなければ、方法の動作が実行される時間的な順序も暗示するものでもなく、請求項の要素を区別するために、単に、或る特定の名称を有する1つの請求項の要素を、同じ(序数の用語の使用を除く)名称を有する別の要素と区別するラベルとして用いられているにすぎない。 The use of ordinal numbers such as “first”, “second” and the like in a claim to modify elements of the claims themselves is also a priority to elements of another claim of one claim In order to distinguish between the elements of the claims, it is merely understood that the advantages, the ordering, the ordering and the implicit order of execution, and neither the temporal ordering in which the acts of the method are performed nor implied. The elements of one claim are merely used as labels to distinguish them from other elements having the same (except for the use of ordinal terms) names.
Claims (18)
第1のサブネットワークを用いて、画像における各ピクセルのユーナリエネルギーを求めるステップと、
第2のサブネットワークを用いて、前記画像のピクセルの少なくとも幾つかのペアのペアワイズエネルギーを求めるステップと、
第3のサブネットワークを用いて、前記ユーナリエネルギー及び前記ペアワイズエネルギーの組み合わせを含むエネルギー関数を最小にするガウス確率場(GRF)に関する推定結果を求めて、前記画像における各ピクセルの意味ラベルの確率を規定するGRF推定結果を生成するステップと、
意味的セグメント化画像におけるピクセルに、前記第3のサブネットワークによって求められる前記確率の中で前記画像における対応するピクセルの最も高い確率を有する意味ラベルを割り当てることによって、前記画像を前記意味的セグメント化画像に変換するステップと
を含み、前記第1のサブネットワーク、前記第2のサブネットワーク、及び前記第3のサブネットワークは、ニューラルネットワークの一部分であり、
前記画像のピクセルのペアのペアワイズエネルギーを求める前記ステップは、
前記画像における前記ペアの前記ピクセル間の類似度を求めることと、
前記類似度に基づいて共分散行列を求めることと、
前記ペアワイズエネルギーを前記共分散行列の関数として求めることと
を含み、
該方法の各前記ステップは、プロセッサが実行する、方法。 A computer-implemented method for semantic segmentation of an image, comprising
Determining the unary energy of each pixel in the image using the first subnetwork;
Determining the pairwise energy of at least some pairs of pixels of the image using a second subnetwork;
The probability of the semantic label of each pixel in the image is determined using the third subnetwork to obtain an estimation result on a Gaussian random field (GRF) minimizing an energy function including a combination of the unary energy and the pairwise energy. Generating a GRF estimation result defining
The semantic segmentation of the image by assigning to the pixels in the semantic segmentation image the semantic label having the highest probability of the corresponding pixel in the image among the probabilities determined by the third subnetwork. Converting into an image, the first subnetwork, the second subnetwork, and the third subnetwork being part of a neural network.
The step of determining the pairwise energy of pixel pairs of the image is:
Determining the similarity between the pixels of the pair in the image;
Determining a covariance matrix based on the degree of similarity;
Determining the pairwise energy as a function of the covariance matrix
Including
Each said step of the method is performed by a processor.
を更に含む、請求項1に記載の方法。 Rendering said semantically segmented image in non-transitory computer readable memory;
The method of claim 1, further comprising
前記第1のサブネットワークの幾つかの層において、各線形フィルターの出力のための非線形関数を適用することと
を更に含む、請求項4に記載の方法。 Applying a series of linear filters to perform convolution operations on the inputs to each layer of the first subnetwork;
5. The method according to claim 4, further comprising: applying a non-linear function for the output of each linear filter in several layers of the first subnetwork.
前記第2のサブネットワークを用いて、前記ペアの第1のピクセルiの近傍の第1のピクセルのサブセットを処理して、前記第1のピクセルの特徴量
前記第2のサブネットワークを用いて、前記ペアの第2のピクセルjの近傍の第2のピクセルのサブセットを処理して、前記第2のピクセルの特徴量
前記第1の特徴量と前記第2の特徴量との間の差の関数を求めて前記類似度sijを生成することと
を含む、請求項1に記載の方法。 The determination of the similarity is
The second sub-network is used to process a subset of first pixels in the vicinity of the first pixel i of the pair to characterize the first pixels
The second sub-network is used to process a subset of second pixels in the vicinity of the second pixel j of the pair to characterize the second pixels.
The method according to claim 1 , comprising determining the function of the difference between the first feature and the second feature to generate the similarity s ij .
前記ピクセルの各ペアにおいて、前記第1のピクセルが前記奇数ピクセルであり、前記第2のピクセルが前記偶数ピクセルであるように、前記ピクセルのペアを形成することと
を更に含む、請求項8に記載の方法。 Dividing the pixels in the image into odd pixels or even pixels based on the parity of the index of the column or row of pixels in the image;
In each pair of the pixels, the first pixel is said odd pixels, as the second pixel is in the even pixels, further including forming a pair of said pixel to claim 8 Method described.
前記画像及び意味的セグメント化画像を記憶する少なくとも1つの非一時的コンピューター可読メモリと、
ガウス確率場(GRF)ネットワークを用いて前記画像のセマンティックセグメンテーションを実行して、前記意味的セグメント化画像を生成するプロセッサと、
を備え、
前記GRFネットワークは、
画像における各ピクセルのユーナリエネルギーを求める第1のサブネットワークと、
前記画像のピクセルの少なくとも幾つかのペアのペアワイズエネルギーを求める第2のサブネットワークと、
前記ユーナリエネルギー及び前記ペアワイズエネルギーの組み合わせを含むエネルギー関数を最小にするガウス確率場(GRF)に関する推定結果を求めて、前記画像における各ピクセルの意味ラベルの確率を規定するGRF推定結果を生成する第3のサブネットワークと、
を備えるニューラルネットワークであり、
前記プロセッサは、意味的セグメント化画像におけるピクセルに、前記第3のサブネットワークによって求められる前記確率の中で前記画像における対応するピクセルの最も高い確率を有する意味ラベルを割り当てることによって、前記画像を前記意味的セグメント化画像に変換し、
前記第2のサブネットワークは、
前記画像における前記ペアの前記ピクセル間の類似度を求め、
前記類似度に基づいて共分散行列を求め、
前記ペアワイズエネルギーを前記共分散行列の関数として求める、
システム。 A system for semantic segmentation of images,
At least one non-transitory computer readable memory for storing the image and semantically segmented image;
A processor that performs semantic segmentation of the image using a Gaussian random field (GRF) network to generate the semantic segmented image;
Equipped with
The GRF network is
A first subnetwork for determining the unary energy of each pixel in the image;
A second sub-network for determining pairwise energy of at least some pairs of pixels of the image;
An estimation result on a Gaussian random field (GRF) minimizing an energy function including a combination of the unary energy and the pairwise energy is obtained, and a GRF estimation result defining the probability of the semantic label of each pixel in the image is generated. The third subnetwork,
A neural network comprising
The processor assigns the image to the pixels in the semantic segmented image by assigning a semantic label having the highest probability of the corresponding pixel in the image among the probabilities determined by the third subnetwork. Convert to semantically segmented images,
The second subnetwork is
Determine the similarity between the pixels of the pair in the image;
Determining a covariance matrix based on the degree of similarity;
Determine the pairwise energy as a function of the covariance matrix,
system.
請求項12に記載のシステム。 The third subnetwork is a Gaussian mean field such that each layer of the third subnetwork recursively finds a mean field estimate update that minimizes an energy function including a combination of the unary energy and the pairwise energy Determine the GRF estimation result by emulating the operation of the (GMI) estimation,
A system according to claim 12 .
前記ペアの第1のピクセルiの近傍の第1のピクセルのサブセットを処理して、前記第1のピクセルの特徴量
前記ペアの第2のピクセルjの近傍の第2のピクセルのサブセットを処理して、前記第2のピクセルの特徴量
前記第1の特徴量と前記第2の特徴量との間の差の関数を求めて前記類似度sijを生成することと
によって前記類似度を求める、請求項12に記載のシステム。 The second subnetwork is
Processing a subset of the first pixels in the vicinity of the first pixel i of the pair to obtain the feature quantities of the first pixels
Processing a second subset of pixels in the vicinity of the second pixel j of the pair, and processing the feature quantity of the second pixel
The system according to claim 12 , wherein the similarity is determined by determining a function of a difference between the first feature and the second feature to generate the similarity s ij .
前記画像における前記ピクセルの列又は行のインデックスのパリティに基づいて、前記画像における前記ピクセルを奇数ピクセル又は偶数ピクセルに分割し、
前記ピクセルの各ペアにおいて、前記第1のピクセルが前記奇数ピクセルであり、前記第2のピクセルが前記偶数ピクセルであるように、前記ピクセルのペアを形成する、請求項12に記載のシステム。 The processor is
Dividing the pixels in the image into odd pixels or even pixels based on the parity of the index of the column or row of pixels in the image;
The system of claim 12 , wherein in each pair of pixels, the pair of pixels is formed such that the first pixel is the odd pixel and the second pixel is the even pixel.
第1のサブネットワークを用いて、画像における各ピクセルのユーナリエネルギーを求めるステップと、
第2のサブネットワークを用いて、前記画像のピクセルの少なくとも幾つかのペアのペアワイズエネルギーを求めるステップと、
第3のサブネットワークを用いて、前記ユーナリエネルギー及び前記ペアワイズエネルギーの組み合わせを含むエネルギー関数を最小にするガウス確率場(GRF)に関する推定結果を求めて、前記画像における各ピクセルの意味ラベルの確率を規定するGRF推定結果を生成するステップと、
意味的セグメント化画像におけるピクセルに、前記第3のサブネットワークによって求められる前記確率の中で前記画像における対応するピクセルの最も高い確率を有する意味ラベルを割り当てることによって、前記画像を前記意味的セグメント化画像に変換するステップと
を実行し、
前記第1のサブネットワーク、前記第2のサブネットワーク、及び前記第3のサブネットワークは、ニューラルネットワークの一部分として合同でトレーニングされ、
前記画像のピクセルのペアのペアワイズエネルギーを求める前記ステップは、
前記画像における前記ペアの前記ピクセル間の類似度を求めることと、
前記類似度に基づいて共分散行列を求めることと、
前記ペアワイズエネルギーを前記共分散行列の関数として求めることと
を含む、
非一時的コンピューター可読媒体。 A non-transitory computer readable medium having instructions stored thereon, wherein the instructions are executed by a processor
Determining the unary energy of each pixel in the image using the first subnetwork;
Determining the pairwise energy of at least some pairs of pixels of the image using a second subnetwork;
The probability of the semantic label of each pixel in the image is determined using the third subnetwork to obtain an estimation result on a Gaussian random field (GRF) minimizing an energy function including a combination of the unary energy and the pairwise energy. Generating a GRF estimation result defining
The semantic segmentation of the image by assigning to the pixels in the semantic segmentation image the semantic label having the highest probability of the corresponding pixel in the image among the probabilities determined by the third subnetwork. Perform the steps of converting to an image,
The first subnetwork, the second subnetwork, and the third subnetwork are jointly trained as part of a neural network ,
The step of determining the pairwise energy of pixel pairs of the image is:
Determining the similarity between the pixels of the pair in the image;
Determining a covariance matrix based on the degree of similarity;
Determining the pairwise energy as a function of the covariance matrix
including,
Non-transitory computer readable medium.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/081,337 US9704257B1 (en) | 2016-03-25 | 2016-03-25 | System and method for semantic segmentation using Gaussian random field network |
US15/081,337 | 2016-03-25 | ||
PCT/JP2017/007263 WO2017163759A1 (en) | 2016-03-25 | 2017-02-21 | System and computer-implemented method for semantic segmentation of image, and non-transitory computer-readable medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018535491A JP2018535491A (en) | 2018-11-29 |
JP6504590B2 true JP6504590B2 (en) | 2019-04-24 |
Family
ID=58455587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018523830A Expired - Fee Related JP6504590B2 (en) | 2016-03-25 | 2017-02-21 | System and computer implemented method for semantic segmentation of images and non-transitory computer readable medium |
Country Status (3)
Country | Link |
---|---|
US (1) | US9704257B1 (en) |
JP (1) | JP6504590B2 (en) |
WO (1) | WO2017163759A1 (en) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10719939B2 (en) * | 2014-10-31 | 2020-07-21 | Fyusion, Inc. | Real-time mobile device capture and generation of AR/VR content |
US10242474B2 (en) | 2015-07-15 | 2019-03-26 | Fyusion, Inc. | Artificially rendering images using viewpoint interpolation and extrapolation |
US11095869B2 (en) | 2015-09-22 | 2021-08-17 | Fyusion, Inc. | System and method for generating combined embedded multi-view interactive digital media representations |
US10222932B2 (en) | 2015-07-15 | 2019-03-05 | Fyusion, Inc. | Virtual reality environment based manipulation of multilayered multi-view interactive digital media representations |
US10147211B2 (en) | 2015-07-15 | 2018-12-04 | Fyusion, Inc. | Artificially rendering images using viewpoint interpolation and extrapolation |
US11006095B2 (en) | 2015-07-15 | 2021-05-11 | Fyusion, Inc. | Drone based capture of a multi-view interactive digital media |
US11783864B2 (en) | 2015-09-22 | 2023-10-10 | Fyusion, Inc. | Integration of audio into a multi-view interactive digital media representation |
KR102565274B1 (en) * | 2016-07-07 | 2023-08-09 | 삼성전자주식회사 | Automatic interpretation method and apparatus, and machine translation method and apparatus |
CN109804386A (en) * | 2016-10-03 | 2019-05-24 | 三菱电机株式会社 | Network building device and network construction method |
US11202017B2 (en) | 2016-10-06 | 2021-12-14 | Fyusion, Inc. | Live style transfer on a mobile device |
US10437879B2 (en) | 2017-01-18 | 2019-10-08 | Fyusion, Inc. | Visual search using multi-view interactive digital media representations |
US10699412B2 (en) * | 2017-03-23 | 2020-06-30 | Petuum Inc. | Structure correcting adversarial network for chest X-rays organ segmentation |
CN106886801B (en) * | 2017-04-14 | 2021-12-17 | 北京图森智途科技有限公司 | Image semantic segmentation method and device |
US10313651B2 (en) | 2017-05-22 | 2019-06-04 | Fyusion, Inc. | Snapshots at predefined intervals or angles |
US11069147B2 (en) | 2017-06-26 | 2021-07-20 | Fyusion, Inc. | Modification of multi-view interactive digital media representation |
JP6989688B2 (en) * | 2017-07-21 | 2022-01-05 | トヨタ モーター ヨーロッパ | Methods and systems for training neural networks used for semantic instance segmentation |
CN108229479B (en) | 2017-08-01 | 2019-12-31 | 北京市商汤科技开发有限公司 | Training method and device of semantic segmentation model, electronic equipment and storage medium |
US11961001B2 (en) | 2017-12-15 | 2024-04-16 | Nvidia Corporation | Parallel forward and backward propagation |
JP6809495B2 (en) * | 2018-03-05 | 2021-01-06 | 株式会社デンソー | Image creation device |
US10592747B2 (en) | 2018-04-26 | 2020-03-17 | Fyusion, Inc. | Method and apparatus for 3-D auto tagging |
CN109145939B (en) * | 2018-07-02 | 2021-11-02 | 南京师范大学 | Semantic segmentation method for small-target sensitive dual-channel convolutional neural network |
CN110163862B (en) * | 2018-10-22 | 2023-08-25 | 腾讯科技(深圳)有限公司 | Image semantic segmentation method and device and computer equipment |
CN114026592A (en) | 2019-06-25 | 2022-02-08 | 株式会社半导体能源研究所 | Information processing system and information processing method |
JP7148462B2 (en) * | 2019-07-19 | 2022-10-05 | 京セラ株式会社 | Image recognition evaluation program, image recognition evaluation method, evaluation device and evaluation system |
CN112288748B (en) * | 2019-07-25 | 2024-03-01 | 银河水滴科技(北京)有限公司 | Semantic segmentation network training and image semantic segmentation method and device |
US11263756B2 (en) * | 2019-12-09 | 2022-03-01 | Naver Corporation | Method and apparatus for semantic segmentation and depth completion using a convolutional neural network |
US11361484B1 (en) | 2020-12-04 | 2022-06-14 | Argo AI, LLC | Methods and systems for ground segmentation using graph-cuts |
CN113657403B (en) * | 2021-10-18 | 2022-02-25 | 北京市商汤科技开发有限公司 | Image processing method and training method of image processing network |
CN114332466B (en) * | 2022-03-11 | 2022-07-15 | 中国科学技术大学 | Continuous learning method, system, equipment and storage medium for image semantic segmentation network |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69630935T2 (en) * | 1995-09-29 | 2004-11-04 | Koninklijke Philips Electronics N.V. | Image processing method and apparatus for automatically detecting areas of a predetermined type of cancer in an intensity image |
US7729537B2 (en) * | 2005-08-01 | 2010-06-01 | Siemens Medical Solutions Usa, Inc. | Editing of presegemented images/volumes with the multilabel random walker or graph cut segmentations |
US8467599B2 (en) * | 2010-09-02 | 2013-06-18 | Edge 3 Technologies, Inc. | Method and apparatus for confusion learning |
US9344690B2 (en) * | 2014-01-24 | 2016-05-17 | Microsoft Technology Licensing, Llc | Image demosaicing |
-
2016
- 2016-03-25 US US15/081,337 patent/US9704257B1/en not_active Expired - Fee Related
-
2017
- 2017-02-21 WO PCT/JP2017/007263 patent/WO2017163759A1/en active Application Filing
- 2017-02-21 JP JP2018523830A patent/JP6504590B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US9704257B1 (en) | 2017-07-11 |
WO2017163759A1 (en) | 2017-09-28 |
JP2018535491A (en) | 2018-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6504590B2 (en) | System and computer implemented method for semantic segmentation of images and non-transitory computer readable medium | |
US11875268B2 (en) | Object recognition with reduced neural network weight precision | |
US20210390653A1 (en) | Learning robotic tasks using one or more neural networks | |
Jaafra et al. | Reinforcement learning for neural architecture search: A review | |
JP6983937B2 (en) | Structural learning in convolutional neural networks | |
JP6574503B2 (en) | Machine learning method and apparatus | |
JP6807471B2 (en) | Semantic segmentation model training methods and equipment, electronics, and storage media | |
JP6639700B2 (en) | Method and system for generating a multimodal digital image | |
KR102693803B1 (en) | Generation of 3D object models from 2D images | |
Chalasani et al. | Deep predictive coding networks | |
US20240037398A1 (en) | Reinforcement learning-based techniques for training a natural media agent | |
JP2021535482A (en) | Deep learning-based registration | |
CN109816098B (en) | Processing method and evaluation method of neural network, and data analysis method and device | |
WO2022105108A1 (en) | Network data classification method, apparatus, and device, and readable storage medium | |
JP7536893B2 (en) | Image Processing Using Self-Attention Based Neural Networks | |
JP6107531B2 (en) | Feature extraction program and information processing apparatus | |
Jaafra et al. | A review of meta-reinforcement learning for deep neural networks architecture search | |
Tesfaldet et al. | Attention-based neural cellular automata | |
Liu et al. | Dunhuang murals contour generation network based on convolution and self-attention fusion | |
CN110222817A (en) | Convolutional neural networks compression method, system and medium based on learning automaton | |
CN110188621A (en) | A kind of three-dimensional face expression recognition methods based on SSF-IL-CNN | |
US20230342626A1 (en) | Model processing method and related apparatus | |
WO2021059527A1 (en) | Learning device, learning method, and recording medium | |
JP2021527859A (en) | Irregular shape segmentation in an image using deep region expansion | |
Bhattacharjya et al. | A genetic algorithm for intelligent imaging from quantum-limited data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180509 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20180509 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20181130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181211 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190319 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6504590 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |