JP6485646B2 - ストリートビューの画像をラベル付けする方法 - Google Patents

ストリートビューの画像をラベル付けする方法 Download PDF

Info

Publication number
JP6485646B2
JP6485646B2 JP2016020588A JP2016020588A JP6485646B2 JP 6485646 B2 JP6485646 B2 JP 6485646B2 JP 2016020588 A JP2016020588 A JP 2016020588A JP 2016020588 A JP2016020588 A JP 2016020588A JP 6485646 B2 JP6485646 B2 JP 6485646B2
Authority
JP
Japan
Prior art keywords
image
pixels
column
layer
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016020588A
Other languages
English (en)
Other versions
JP2016157434A (ja
JP2016157434A5 (ja
Inventor
ミン−ユ、リウ
スリクマール・ラマリンガム
オンセル・チュゼル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2016157434A publication Critical patent/JP2016157434A/ja
Publication of JP2016157434A5 publication Critical patent/JP2016157434A5/ja
Application granted granted Critical
Publication of JP6485646B2 publication Critical patent/JP6485646B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/50Maintenance of biometric data or enrolment thereof
    • G06V40/53Measures to keep reference information secret, e.g. cancellable biometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、包括的には、画像処理に関し、より詳細には、画像内の意味特徴及び奥行き特徴に基づいてストリートシーン(street scene:街頭風景)の画像をラベル付けすることに関する。
オンラインストリートビューアプリケーションは、多くの場合、オンラインマッピングアプリケーションと組み合わされる。例えば、ユーザーは、マップ又は衛星画像から特定の地理的対象点を選択し、次に、パノラマストリートビューに切り替える。ストリートビューは、ユーザーが、例えば車両の運転者によって見えるとおりに対象点までナビゲートすることを可能にする。ストリートビューは、多くの他のコンピュータービジョン、拡張現実、スマートカー及び安全性の用途に用いることもできる。
通常のストリートシーンは、コンポーネント、例えば、基面の道路と、歩行者、自転車運転者、他の車両等のオブジェクトと、建物と、空とを含む。そのようなシーンの画像を理解しラベル付けすることは、コンポーネント及びそれらの相対的空間ロケーションを理解することを必要とする。ほとんどの従来の方法はこれを2つの問題、すなわち三次元(3D)シーン再構成及びコンポーネントセグメンテーションとして解く。
近年、これらの2つの問題は統合され、単一の最適化問題として解決されているが、依然として幾つかの課題が存在している。従来技術によるセグメンテーションは、ピクセルを様々なクラスに分類することに焦点を当てる。そのような手法は、一般的に長時間かかり、ストリートシーンについて守られる階層制約(layered constraint)を遵守しない場合がある。
ストリートシーンのラベル付けは、意味的セグメンテーション及びシーンの理解に関連する。初期の従来技術による方法は、通常、手作業で設計された(hand-designed)特徴に基づいていた。近年、特徴学習のためにディープニューラルネットワークを用いることによって、より良好な性能がもたらされることが示されている。意味的セグメンテーション及び奥行き推定の双方をステレオカメラから解くことは、統一されたエネルギー最小化フレームワークを用いて行うことができる。
道路シーンの1つの一般的なモデルは、基面と、障害を表す地面上の1組の垂直スティックとを用いてワールドを単純化する「stixelワールド」である。stixelは、地面に立っている直立したオブジェクトの一部を、その3Dフットプリント、高さ、幅、及びカメラまでの距離(奥行き)によってコンパクトでかつ効率的に表す。stixel表現は、場合によっては非常に非平滑的な2つの曲線の計算によって特徴付けることができる。ここで、第1の曲線は衝突なしで即座に到達可能であり得る自由空間を取り囲む基面上を通り、第2の曲線は、自由空間の垂直オブジェクトの境界を符号化する。stixelワールドを求めるために、半グローバルステレオマッチング手順(SGM)からの奥行きマップ、又はステレオマッチングコストを用いることができる。
stixmanticsシーン表現は、stixelと比較して柔軟性が高い。列ごとに1つのstixelのみを有する代わりに、stixmanticsは、画像内の全ての列に沿った複数のセグメントを可能にし、また、近隣のセグメントを組み合わせて、より良好な幾何学的意味を有するスーパーピクセル型エンティティを形成する。
本発明の実施形態は、ストリートシーンのための4階層モデルと、地面、例えば道路、歩行者及び車両等の移動オブジェクト、建物並びに空等のコンポーネントの意味クラスをラベル付けする方法とを提供する。
方法への入力はステレオ画像対である。ニューラルネットワークを用いて、ステレオ画像から意味クラスのための特徴を抽出する。画像列ごとに意味クラス及び階層型奥行きを共同で推定する推測手順を用いて階層モデルを得る。
本発明の実施形態による、ステレオ画像対におけるコンポーネントをラベル付けする方法の概略図である。 本発明の実施形態による、図1の方法の流れ図である。 本発明の実施形態による、4つの層を有するストリートシーンの画像である。 本発明の実施形態による、ラベル付けされた層の概略図である。
図1及び図2に示すように、本発明の実施形態は、ストリートシーンのための4階層モデルと、ステレオ画像対101内のコンポーネントをラベル付けする方法200とを提供する。当該コンポーネントには、例えば道路等の地面と、歩行者及び車両等のオブジェクトと、建物と、空とが、含まれる。当該画像は、カメラ201によって取得することができる。ラベル付けされた画像102はディスプレイ202上に出力することができる。本方法のステップは、当該技術分野において既知のバスによって、メモリ、および、入出力インターフェースに接続されたプロセッサ203において実行することができる。1つの実施形態では、ディスプレイ及びプロセッサは車両内に配置することができる。このようにして、車両の運転者に、向上したシーン画像を知らせることができる。
ディープニューラルネットワーク、例えば、畳み込みニューラルネットワーク(CNN)210を用いて、ステレオ画像101から、意味クラスのための画像特徴211を抽出する。ステレオコスト関数220を用いて奥行き特徴221を抽出する。画像特徴及び奥行き特徴は、層順序制約231を受けた列単位の画像ラベル付け手順230によって処理されて、ラベル付けされた画像102が生成される。
階層型ストリートシーン
図3に示すように、本発明の目的は、外観情報及び三次元情報を用いて、ストリートビュー画像内のピクセルごとに意味ラベル及び奥行きを共同で(jointly)推定することである。本発明では、階層型画像解釈を用いる。画像は、異なる意味コンポーネント及び奥行きコンポーネントの1つ〜4つの層に水平に分割される。層1は地面、例えば道路である。層2は、歩行者(peds)と、車両やオートバイ等の他の動的オブジェクトとを含み得る。層3は建物を含み、層4は空である。
各層は下から上に向かって順序付けされる。各画像列において、同じ層に属するピクセルは、同じ意味ラベル、及び、ほぼ同じ奥行きを有する。唯一の例外は、地面層におけるピクセルの奥行きは、地面によって決定されるそれらのピクセルの垂直画像座標に応じて変動する可能性があることである。本発明では、奥行き順序制約、すなわち、各画像列において、低次層の奥行きは常に高次層の奥行きよりも小さくなくてはならないという制約を課す。
例えば、第1の層は、地面、例えば運転可能エリアのみを有することができる。第2の層は、オブジェクト、例えば歩行者又は車両を含むことができる。第3の層は、建物のみを有することができる。第4の層は、空のみを有することができる。本発明では、各画像列が厳密に4つの層を有することを強制しない。1つの列は、1つ〜4つの層を有することができ、換言すれば、列は4つの層全てを含まなくてもよい。これは、層を分離する境界が平滑でかつ連続している必要がないことを暗に意味する。4層モデルは、ストリートシーンの豊富で系統的な解釈をもたらす。本発明では、以下で説明するように、シーン内で幾何学及び意味論を実施するための柔軟な方法を提供する。
注記
Figure 0006485646
及び
Figure 0006485646
を用いて、それぞれ水平のx座標及び垂直のy座標を含む組を指す。ここで、
Figure 0006485646
は画像幅であり、
Figure 0006485646
は画像高さである。5つの異なる意味クラス、すなわち、それぞれシンボル
Figure 0006485646
によって表される地面、車両、歩行者、建物及び空を用いる。意味クラスラベルの組は、
Figure 0006485646
によって表される。視差(奥行き)の組のために
Figure 0006485646
を用いる。本明細書において、視差及び奥行きは、相互に置き換え可能なもの(interchangeably)として用いられる。カメラ較正パラメーターを用いることによって、1対1の変換を得ることができることを理解されたい。意味ラベル空間及び視差値の濃度はそれぞれ
Figure 0006485646
及び
Figure 0006485646
によって表される。
ストリートシーンモデル
図4に示すように、階層型ストリートビュー問題を、制約付きエネルギー最小化問題として定式化する。制約は、各列における意味オブジェクトクラスラベル及び奥行き値の順序を符号化する。制約は、各画像列に関連付けられた変数の解空間を制限する。本発明では、動的計画法に基づく推測アルゴリズムを用いて制約付きエネルギー最小化問題を効率的に解く。
本発明では、変数hi1、hi2、hi3及びhi4を用いて、画像列400内の4つの層の最上部ピクセルのy座標を表す。li1、li2、li3及びli4を、4つの層のための意味オブジェクトクラスラベルとし、di1、di2、di3及びdi4を、画像列i内の4つの層の奥行きとする。順序付け制約及び地面の知識によって、これらのパラメーターのうちの幾つかを知ることが可能になる。未知数の実際の数は、x=[hi1,hi2,hi3,li2,di3]によって与えられる5つのみである。このため、全体画像のためのラベル割り当ては、x=[x,x,...,x]によって与えられる。画像列のための可能な割り当ての数は、
Figure 0006485646
であるため、O(HLD)のオーダーである。
ラベル尤度ランク付け
ラベル割り当ての尤度をランク付けするために、画像外観特徴211及びステレオ視差マッチング特徴221からの証拠を用いる。列内の全てのピクセルからの証拠を総計して、証拠を計算する。
Figure 0006485646
及び
Figure 0006485646
を、それぞれ、xを画像列iに割り当てるときに被る意味ラベルコスト及び奥行きラベルコストを表すデータ項とする。2つの項は合算され、xを画像列iに割り当てるコストを表すデータ項
Figure 0006485646
が得られる。各ピクセルが独立した変数として奥行き値及び意味ラベルを有することができる標準2Dマルコフ確率場(MRF)空間に対し作用する代わりに、本発明では、問題を以下によって与えられる制約付きエネルギー最小化問題に変換する。
Figure 0006485646
ここで、第1の制約は層構造を与え、第2の制約は奥行き順序を強制し、第3の制約は意味変動を制限する。変数di2はhi1の関数、すなわち地面層の最上部ピクセルロケーションである。なぜなら、本発明では、動的オブジェクトが画像のhi1番目の行において水平地表面に対し垂直であると仮定するためである。エネルギー関数
Figure 0006485646
は、同じ列内のピクセルの関係をモデル化するが、同じ行内のピクセルの関係はモデル化しない。同じ行内のピクセルの関係は、特徴関数内に暗黙的に符号化される。ピクセルロケーションにおける特徴計算のための受容野(reception fields)として、ピクセルを中心とする画像パッチを用いる。近傍ピクセルは類似した受容野を有し、このため、類似した特徴表現及びクラスラベル割り当てを有する。
データ項U(x)は、ラベルxを列iに割り当てるコストである。データ項は以下によって与えられるピクセル単位のデータ項の総和である。
Figure 0006485646
ここで、ピクセルごとの外観データ項E(x,y,l)は、ラベルlをピクセル(x,y)に割り当てるコストであり、ピクセルごとの奥行きデータ項E(x,y,d)は奥行きdをピクセル(x,y)に割り当てるコストである。ピクセルごとの外観データ項E(x,y,l)を得るためにディープ畳み込みニューラルネットワークを用い、ピクセルごとの奥行きデータ項E(x,y,d)を得るために従来の視差コストを用いる。
奥行き特徴
本発明では、ピクセルごとの奥行きデータ項のための平滑化された絶対輝度差を用いる。これは、ステレオ再構成アルゴリズムにおいて一般的に用いられる。まず、D内の視差値ごとにピクセルごとの絶対輝度差を計算し、これによりコストボリューム表現をレンダリングする。次に、コストボリュームを平滑化するためにボックスフィルターを適用する。ピクセルごとの奥行きデータ項は以下によって与えられる。
Figure 0006485646
ここで、I及びIは左画像及び右画像の輝度値を指し、P(x,y)は(x,y)を中心とする画像パッチであり、N=|P(x,y)|は正規化定数としての役割を果たすパッチの濃度を表す。パッチサイズは、例えば11×11ピクセルに固定される。
外観特徴
ディープマルチスケール畳み込みニューラルネットワーク(CNN)を用いてピクセルごとの外観データ項を求める。例えば、ネットワークは3つの畳み込み層を有する。
(1)サイズ8×8の16個のフィルター、それに続く正規化線形関数(ReLU:Rectified Linear Unit)非線形性、及び2×2の最大値プーリング、
(2)サイズ7×7×16の64個のフィルター、それに続くReLU、及び2×2の非重複最大値プーリング、及び、
(3)サイズ7×7×64の256個のフィルター、それに続くReLU。
1つの実施形態では、0.5を減算することによって0と1との間にスケーリングされたグレースケール画像をCNNのための入力として用いる。スケール間で共有されるフィルターが、入力画像のガウスピラミッドの3つのスケールに別個に適用される。
より低いスケールからの特徴は、元の画像サイズにアップサンプリングされることに留意されたい。3つのスケールからの特徴は、ピクセルごとに3×256=768個の特徴を得るように連結される。ネットワークをトレーニングするために、特徴層を、5つのニューロン(クラス)を有する全結合層に結合し、それに続いて、softmax又は正規化指数層に結合する。全結合層においてドロップアウトを用いることもできる。ネットワークは、運動量を用いた確率的勾配降下法により交差エントロピー誤差を最小化することによってトレーニングされる。クラスのsoftmaxスコアの負対数を、ピクセルごとの外観データ項として用いる。
推測手順
式(2)のエネルギー最小化問題をW個の部分問題に分解する。ここで、i番目の部分問題は以下によって与えられる。
Figure 0006485646
部分問題のそれぞれを最適に解き、これらの解を組み合わせて画像の意味及び奥行きの完全なラベル付けを構築する。表記を簡単にするために以下の記載では下付き文字iを省く。
部分問題のそれぞれを1Dチェーンラベル付け問題にマッピングすることができる。チェーンは4つのノードを有することができる。ここで、第1のノードは変数(h,d,l)を含み、第2のノードは変数(h,d,l)を含み、第3のノードは変数(h,d,l)を含み、第4のノードは変数(h,d,l)を含む。従来の動的計画アルゴリズムは、ラベルコスト評価において再帰を利用し、複雑度O((HDL・H))で1Dチェーンラベル付け問題を解くことができる。ここで、積HDLは各ノードにおけるラベル空間のサイズを表し、第2のHは各ノードにおけるラベルコスト評価のために必要とされる複雑度である。不都合なことに、この複雑度はリアルタイム用途には高すぎる。
(9)における部分問題を解く複雑度をO(HD)に低減してリアルタイム動作を達成するための動的計画アルゴリズムの一変形を記載する。まず、問題定式化セクションに記載したように、変数のうちの幾つかが、本発明によるストリートビューセットアップから既知であることを記す。本発明では、h、h、h、l、dの値を検索するのみでよい。h、h及びlの任意の組み合わせについて、d及びhの最良の組み合わせを求める。以下において、任意のh、h及びlのためのd及びhの最良の組み合わせを事前に計算することを、再帰を用いてO(HD)の時間で達成することができることを示す。
まず、(9)における問題を、このとき以下のように書き換えることができることに着目する。
Figure 0006485646
ここで、Qは、以下によって与えられる中間コストテーブルである。
Figure 0006485646
第2の層オブジェクトdの奥行きは、hの関数であることに留意されたい。なぜなら、dはh及び地面方程式(基面方程式)から一意に求めることができるためである。結果として、Qはh及びhの双方によって決まる。
Figure 0006485646
及び
Figure 0006485646
をy方向に沿って積分することによって、h及びhの全ての組み合わせについて、下式によって得られる総和は、固定のdについてO(H)の時間で計算することができる。
Figure 0006485646
なお、Qは、下式によって与えられる再帰更新規則により計算することができることも更に記す。
Figure 0006485646
ここで、
Figure 0006485646
は、
Figure 0006485646
を満たす整数であり、第2の層と第3の層との間の奥行き順序付け制約が満たされることを確実にするのに用いられる。
直観的に、本発明では、建物層の減少していく奥行きに沿って移動最小構造(running min structure)を計算している。再帰的更新規則によって、O(HD)の時間で任意のh及びhについてQを計算することが可能になる。結果として、分割のための最良構成を得る複雑度を、O(HL+HD)=O(HD)に低減することができる。ここで、HLはh、h及びlの組み合わせを探索するのに必要な時間である。各画像列に対し1Dラベル付けアルゴリズムを実行する。ラベル付けアルゴリズムの全体複雑度はO(WHD)である。

Claims (13)

  1. ストリートビューの画像をラベル付けする方法であって、前記画像はピクセルの列のセットを含み、該方法は、
    少なくとも1つのコンピュータ読み取り可能なメモリに記憶されたコンピュータ実行可能な命令を実行する少なくとも1つのプロセッサを使用するステップであって、2次元の各特徴を含む画像ピクセルを有する画像を受信するステップと、前記画像に対応する、3次元の各画像特徴を含む画像データ点を受信するステップと、を実行するステップと、
    ピクセルごとに、前記画像ピクセルから外観特徴を抽出するステップであって、前記外観特徴は、ラベル付きデータセットから学習されたディープニューラルネットワークを用いて決定される、ステップと、
    ピクセルごとに、前記画像データ点から奥行き特徴を抽出するステップと、
    列単位のラベル付け手順を適用して、前記画像のピクセルの列の前記セットからのピクセルの各列ごとに、前記外観特徴及び前記奥行き特徴の両方を用いてピクセルの各列からピクセルごとに意味ラベル及び奥行きラベルを共同で求めるステップであって、前記列単位のラベル付け手順は、前記ストリートビューのモデルに従い、ピクセルの列の前記セットのピクセルの各列は、最上層または第4の層から、第1の層または最下層までの、最大で4つの順序付けられた層を含前記最大で4つの順序付けられた層は、各画像列ごとに前記意味ラベル及び前記奥行きラベルを共同で推定する推測手順を用いて、取得される、ステップと、
    前記最大で4つの順序付けられた層に施された前記列単位のラベル付け手順を処理するステップと
    を含み、前記ステップは前記プロセッサが実行する、方法。
  2. 前記ストリートビューのモデルの前記第1の層は運転可能エリアを表し、第2の層は、ストリートにおける動的オブジェクトを表し、第3の層は静的オブジェクトを表し、前記第4の層は空を表し、これらの層における奥行きは上から下に向かって順序付けされる、請求項1に記載の方法。
  3. 前記第1の層内の前記運転可能エリアは、地面、草、歩道を含む、請求項2に記載の方法。
  4. 前記第2の層内の前記動的オブジェクトは、車両、歩行者、自転車運転者、オートバイ運転者及び動物を含む、請求項2に記載の方法。
  5. 前記第3の層内の前記静的オブジェクトは、建物、橋及び木を含む、請求項2に記載の方法。
  6. 前記外観特徴は、前記ラベル付けされたデータセットから学習された前記ディープニューラルネットワークを用いて求められ、前記ディープニューラルネットワークは、意味クラスのための画像特徴を前記画像から抽出するのに用いられる、
    請求項1に記載の方法。
  7. 前記奥行き特徴は、ステレオ画像から得られた視差マッチングコストから求められる、請求項1に記載の方法。
  8. ピクセルの列の最上層におけるピクセルのための前記奥行きラベルは、ピクセルの前記列の残りの低次層内のピクセルの前記奥行きラベルより大きい、
    請求項1に記載の方法。
  9. ピクセルの列の最下層におけるピクセルのための前記奥行きラベルは、基面定数によって決定される、
    請求項1に記載の方法。
  10. 前記画像は、カメラ装置または画像取得装置によって取得され、前記ラベル付けされた画像は、ディスプレイ上の出力であり、前記ディスプレイおよび前記プロセッサは車両に搭載されている、
    請求項1に記載の方法。
  11. ストリートビューの画像をラベル付けする方法であって、前記画像はピクセルの列のセットを含み、該方法は、
    少なくとも1つのコンピュータ読み取り可能なメモリに記憶されたコンピュータ実行可能な命令を実行する少なくとも1つのプロセッサを使用するステップであって、2次元の各特徴を含む画像ピクセルを有する画像を受信するステップと、前記画像に対応する、3次元の各画像特徴を含む画像データ点を受信するステップと、を実行するステップと、
    ピクセルごとに、前記画像ピクセルから外観特徴を抽出するステップであって、前記外観特徴は、前記画像から意味的クラスのための画像特徴を抽出するのに用いられるラベル付きデータセットから、ディープ・マルチスケール・畳み込みネットワークを用いて決定される、ステップと、
    ピクセルごとに、前記画像データ点から奥行き特徴を抽出するステップと、
    列単位のラベル付け手順を適用して、前記画像のピクセルの列の前記セットからのピクセルの各列ごとに、前記外観特徴及び前記奥行き特徴の両方を用いてピクセルの各列からピクセルごとに意味ラベル及び奥行きラベルを共同で求めるステップであって、前記列単位のラベル付け手順は、前記ストリートビューのモデルに従い、ピクセルの列の前記セットのピクセルの各列は、最上層または第4の層から、第1の層または最下層までの、最大で4つの順序付けられた層を含み、前記最大で4つの順序付けられた層は、各画像列ごとに前記意味ラベル及び前記奥行きラベルを共同で推定する推測手順を用いて、取得される、ステップと、
    前記最大で4つの順序付けられた層に施された前記列単位のラベル付け手順を処理するステップと
    を含み、各前記ステップは前記プロセッサが実行する、方法。
  12. 前記推測手順は動的アルゴリズムに基づき、
    前記動的アルゴリズムは、
    前記最大で4つの順序付けられた層の最上部ピクセルのy座標を示す変数h i1 、h i2 、h i3 及びh i4 を含み、
    変数l i1 、l i2 、l i3 及びl i4 は、前記最大で4つの順序付けられた層のための意味的ラベルであり、
    変数d i1 、d i2 、d i3 及びd i4 は、前記最大で4つの順序付けられた層の奥行きであり、
    未知の変数のみが決定され、例えば、前記未知の変数がh 、h 、h 、l 、d を含むとき、前記未知の変数は、下式によって求められる、
    Figure 0006485646
    請求項1に記載の方法。
  13. 前記推測手順は動的アルゴリズムに基づき、
    前記動的アルゴリズムは、
    前記最大で4つの順序付けられた層の最上部ピクセルのy座標を示す変数h i1 、h i2 、h i3 及びh i4 を含み、
    変数l i1 、l i2 、l i3 及びl i4 は、前記最大で4つの順序付けられた層のための意味的ラベルであり、
    変数d i1 、d i2 、d i3 及びd i4 は、前記最大で4つの順序付けられた層の奥行きであり、
    未知の変数のみが決定され、例えば、前記未知の変数がh 、h 、h 、l 、d を含むとき、前記未知の変数は、下式によって求められる、
    Figure 0006485646
    請求項11に記載の方法。
JP2016020588A 2015-02-23 2016-02-05 ストリートビューの画像をラベル付けする方法 Active JP6485646B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/628,808 2015-02-23
US14/628,808 US9811756B2 (en) 2015-02-23 2015-02-23 Method for labeling images of street scenes

Publications (3)

Publication Number Publication Date
JP2016157434A JP2016157434A (ja) 2016-09-01
JP2016157434A5 JP2016157434A5 (ja) 2019-01-24
JP6485646B2 true JP6485646B2 (ja) 2019-03-20

Family

ID=56693221

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016020588A Active JP6485646B2 (ja) 2015-02-23 2016-02-05 ストリートビューの画像をラベル付けする方法

Country Status (2)

Country Link
US (1) US9811756B2 (ja)
JP (1) JP6485646B2 (ja)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10726560B2 (en) * 2014-10-31 2020-07-28 Fyusion, Inc. Real-time mobile device capture and generation of art-styled AR/VR content
US10019657B2 (en) 2015-05-28 2018-07-10 Adobe Systems Incorporated Joint depth estimation and semantic segmentation from a single image
JP6564275B2 (ja) * 2015-08-20 2019-08-21 キヤノン株式会社 画像処理装置、及び画像処理方法
JP6326641B2 (ja) * 2015-08-21 2018-05-23 パナソニックIpマネジメント株式会社 画像処理装置および画像処理方法
US10346996B2 (en) * 2015-08-21 2019-07-09 Adobe Inc. Image depth inference from semantic labels
CA3015164A1 (en) * 2016-02-18 2017-08-24 Edx Technologies, Inc. Systems and methods for augmented reality representations of networks
KR102590411B1 (ko) 2016-09-15 2023-10-17 구글 엘엘씨 로봇 에이전트용 제어 정책
WO2018066351A1 (ja) * 2016-10-06 2018-04-12 株式会社アドバンスド・データ・コントロールズ シミュレーションシステム、シミュレーションプログラム及びシミュレーション方法
JP6548690B2 (ja) * 2016-10-06 2019-07-24 株式会社アドバンスド・データ・コントロールズ シミュレーションシステム、シミュレーションプログラム及びシミュレーション方法
JP6581068B2 (ja) * 2016-11-11 2019-09-25 株式会社東芝 画像処理装置、画像処理方法、プログラム、運転制御システム、および、車両
KR102696652B1 (ko) 2017-01-26 2024-08-21 삼성전자주식회사 스테레오 매칭 방법 및 영상 처리 장치
US20180239969A1 (en) * 2017-02-23 2018-08-23 Ford Global Technologies, Llc Free Space Detection Using Monocular Camera and Deep Learning
JP6802756B2 (ja) * 2017-05-18 2020-12-16 株式会社デンソーアイティーラボラトリ 認識システム、共通特徴量抽出ユニット、及び認識システム構成方法
US10474908B2 (en) * 2017-07-06 2019-11-12 GM Global Technology Operations LLC Unified deep convolutional neural net for free-space estimation, object detection and object pose estimation
US10395144B2 (en) * 2017-07-24 2019-08-27 GM Global Technology Operations LLC Deeply integrated fusion architecture for automated driving systems
AT520579B1 (de) 2017-09-26 2022-07-15 Tec Innovation Gmbh Verfahren und Vorrichtung zur Detektion eines hindernisfreien Bereichs
US10678256B2 (en) * 2017-09-28 2020-06-09 Nec Corporation Generating occlusion-aware bird eye view representations of complex road scenes
CN107844541A (zh) * 2017-10-25 2018-03-27 北京奇虎科技有限公司 图像查重的方法及装置
US10970553B2 (en) * 2017-11-15 2021-04-06 Uatc, Llc Semantic segmentation of three-dimensional data
CN107977641A (zh) * 2017-12-14 2018-05-01 东软集团股份有限公司 一种智能识别地形的方法、装置、车载终端及车辆
EP3506211B1 (en) * 2017-12-28 2021-02-24 Dassault Systèmes Generating 3d models representing buildings
EP3506160B1 (en) * 2017-12-28 2022-06-01 Dassault Systèmes Semantic segmentation of 2d floor plans with a pixel-wise classifier
CN110248861B (zh) 2018-01-07 2023-05-30 辉达公司 在车辆操纵过程中使用机器学习模型来引导车辆
KR101957089B1 (ko) * 2018-01-08 2019-03-11 인하대학교 산학협력단 스테레오 정합을 위한 심층 자기유도 비용집계 방법 및 시스템
CN108335322B (zh) * 2018-02-01 2021-02-12 深圳市商汤科技有限公司 深度估计方法和装置、电子设备、程序和介质
DE112019000065T5 (de) 2018-02-02 2020-03-05 Nvidia Corporation Sicherheitsprozeduranalyse zur hindernisvermeidung in einem autonomen fahrzeug
DE112019000049T5 (de) 2018-02-18 2020-01-23 Nvidia Corporation Für autonomes fahren geeignete objekterfassung und erfassungssicherheit
US10997433B2 (en) * 2018-02-27 2021-05-04 Nvidia Corporation Real-time detection of lanes and boundaries by autonomous vehicles
KR102595787B1 (ko) 2018-02-27 2023-11-24 삼성전자주식회사 전자 장치 및 그 제어 방법
CN110494863B (zh) * 2018-03-15 2024-02-09 辉达公司 确定自主车辆的可驾驶自由空间
WO2019182974A2 (en) 2018-03-21 2019-09-26 Nvidia Corporation Stereo depth estimation using deep neural networks
WO2019191306A1 (en) 2018-03-27 2019-10-03 Nvidia Corporation Training, testing, and verifying autonomous machines using simulated environments
US11966838B2 (en) 2018-06-19 2024-04-23 Nvidia Corporation Behavior-guided path planning in autonomous machine applications
US10362491B1 (en) 2018-07-12 2019-07-23 At&T Intellectual Property I, L.P. System and method for classifying a physical object
CN110363191A (zh) * 2018-08-24 2019-10-22 北京建筑大学 一种基于poi对象的街景影像时空描述、检索方法及装置
WO2020048618A1 (en) * 2018-09-07 2020-03-12 Huawei Technologies Co., Ltd. Device and method for performing simultaneous localization and mapping
EP3850539B1 (en) * 2018-09-13 2024-05-29 NVIDIA Corporation Deep neural network processing for sensor blindness detection in autonomous machine applications
US11508049B2 (en) 2018-09-13 2022-11-22 Nvidia Corporation Deep neural network processing for sensor blindness detection in autonomous machine applications
CN109461177B (zh) * 2018-09-29 2021-12-10 浙江科技学院 一种基于神经网络的单目图像深度预测方法
CN109410261B (zh) * 2018-10-08 2021-12-10 浙江科技学院 基于金字塔池化模块的单目图像深度估计方法
US10438082B1 (en) * 2018-10-26 2019-10-08 StradVision, Inc. Learning method, learning device for detecting ROI on the basis of bottom lines of obstacles and testing method, testing device using the same
WO2020102733A1 (en) 2018-11-16 2020-05-22 Nvidia Corporation Learning to generate synthetic datasets for training neural networks
WO2020140049A1 (en) 2018-12-28 2020-07-02 Nvidia Corporation Distance to obstacle detection in autonomous machine applications
US11308338B2 (en) 2018-12-28 2022-04-19 Nvidia Corporation Distance to obstacle detection in autonomous machine applications
US11170299B2 (en) 2018-12-28 2021-11-09 Nvidia Corporation Distance estimation to objects and free-space boundaries in autonomous machine applications
CN111508010B (zh) * 2019-01-31 2023-08-08 北京地平线机器人技术研发有限公司 对二维图像进行深度估计的方法、装置及电子设备
US11520345B2 (en) 2019-02-05 2022-12-06 Nvidia Corporation Path perception diversity and redundancy in autonomous machine applications
US11648945B2 (en) 2019-03-11 2023-05-16 Nvidia Corporation Intersection detection and classification in autonomous machine applications
US11176374B2 (en) * 2019-05-01 2021-11-16 Microsoft Technology Licensing, Llc Deriving information from images
US11301722B2 (en) 2019-05-14 2022-04-12 Here Global B.V. Method, apparatus, and system for providing map embedding analytics
US11468591B2 (en) * 2019-06-13 2022-10-11 Nec Corporation Scene attribute annotation of complex road typographies
CN114667437A (zh) 2019-08-31 2022-06-24 辉达公司 用于自主驾驶应用的地图创建和定位
CN110941994B (zh) * 2019-10-30 2021-05-04 杭州电子科技大学 一种基于元类基学习器的行人重识别集成方法
US12077190B2 (en) 2020-05-18 2024-09-03 Nvidia Corporation Efficient safety aware path selection and planning for autonomous machine applications
CN111754618B (zh) * 2020-05-28 2024-04-02 深圳大学 一种面向对象的实景三维模型多层次解译方法及系统
CN111858992B (zh) * 2020-07-04 2023-10-20 广东粤源工程咨询有限公司 基于gps和标签信息的水利工程照片管理方法及系统
US11978266B2 (en) 2020-10-21 2024-05-07 Nvidia Corporation Occupant attentiveness and cognitive load monitoring for autonomous and semi-autonomous driving applications
CN118505982B (zh) * 2024-07-16 2024-10-18 广东海洋大学 一种基于有限时间梯度投影神经动力学的目标检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9342998B2 (en) 2010-11-16 2016-05-17 Microsoft Technology Licensing, Llc Techniques to annotate street view images with contextual information
CN103955718A (zh) * 2014-05-15 2014-07-30 厦门美图之家科技有限公司 一种图像主体对象的识别方法
US9978013B2 (en) * 2014-07-16 2018-05-22 Deep Learning Analytics, LLC Systems and methods for recognizing objects in radar imagery

Also Published As

Publication number Publication date
JP2016157434A (ja) 2016-09-01
US9811756B2 (en) 2017-11-07
US20160247290A1 (en) 2016-08-25

Similar Documents

Publication Publication Date Title
JP6485646B2 (ja) ストリートビューの画像をラベル付けする方法
CN110674829B (zh) 一种基于图卷积注意网络的三维目标检测方法
Jaritz et al. Sparse and dense data with cnns: Depth completion and semantic segmentation
KR102096673B1 (ko) 포인트 클라우드에서의 포인트 백필링
CN110084304B (zh) 一种基于合成数据集的目标检测方法
CN109741383A (zh) 基于空洞卷积和半监督学习的图像深度估计系统与方法
CN103606151B (zh) 基于影像点云的大范围虚拟地理场景自动构建方法
JP2016157434A5 (ja)
CN110232738B (zh) 基于视差图和关键点的多视图遥感图像立体重构方法
CN113378756B (zh) 一种三维人体语义分割方法、终端设备及存储介质
EP4174792A1 (en) Method for scene understanding and semantic analysis of objects
CN114764856A (zh) 图像语义分割方法和图像语义分割装置
Liu et al. Layered interpretation of street view images
CN114549338A (zh) 一种电子地图的生成方法、装置和计算机可读存储介质
CN114677479A (zh) 一种基于深度学习的自然景观多视图三维重建方法
CN117422629A (zh) 一种实例感知的单目语义场景补全方法、介质及设备
CN117475428A (zh) 一种三维目标检测方法、系统及设备
CN114996814A (zh) 一种基于深度学习与三维重建的家具设计系统
Yang et al. [Retracted] A Method of Image Semantic Segmentation Based on PSPNet
CN113592015A (zh) 定位以及训练特征匹配网络的方法和装置
Chidanand et al. Multi-scale voxel class balanced ASPP for LIDAR pointcloud semantic segmentation
JP2023508276A (ja) 多重解像度ボクセルにおける共分散を含むマップ
CN117132973A (zh) 一种地外行星表面环境重建与增强可视化方法及系统
Siddiqui et al. Multi-modal depth estimation using convolutional neural networks
CN110245553B (zh) 路面测距方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181203

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181203

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20181203

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20181214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190205

R150 Certificate of patent or registration of utility model

Ref document number: 6485646

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250