JP7353389B2

JP7353389B2 - 複雑な道路の活字のシーン属性注釈

Info

Publication number: JP7353389B2
Application number: JP2021564865A
Authority: JP
Inventors: サミュエルシュルター、
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2019-06-13
Filing date: 2020-06-03
Publication date: 2023-09-29
Anticipated expiration: 2040-06-03
Also published as: US20200394814A1; US11468591B2; DE112020002874T5; WO2020251811A1; JP2022531361A

Description

関連出願情報
本出願は、２０１９年６月１３日に出願された米国仮特許出願第６２/８６０，８７４号および２０２０年６月２日に出願された米国実用特許出願第１６／８９０，１２３号の優先権を主張し、その全体が参照により本明細書に組み込まれる。

本発明は、道路ネットワークをモデル化することに関し、より詳細には、複雑な道路タイポロジのためのシーン属性注釈を生成することに関する。
関連技術の説明

自動自動車ナビゲーションシステムは、道路タイポロジの信頼できる正確なモデルから利益を得る。車線の数、横断歩道および歩道の存在、交差点などの道路タイポロジは、道路セグメントのシーン属性と見なすことができる。

全地球測位システム（ＧＰＳ）データが与えられると、道路レイアウトに関するいくつかの情報を決定できるが、正確ではないかもしれない。精度の高いＧＰＳは高価で、地図データの精度は保証されない。このようなデータはしばしば不完全であり、道路レイアウト情報は画像と結合されない。したがって、地図が古い場合、撮影された画像は、道路レイアウトに関係する地図情報と矛盾する可能性がある。

さらに、複雑な道路タイポロジを確実に表すのに十分な数の正確なシーン属性を生成することは、しばしば困難である。したがって、例えば、機械学習システムを訓練するための適切な量の道路タイポロジ訓練データは、収集することが困難であり得る。

本発明の一態様によれば、道路タイポロジシーン注釈付けのための方法が提供される。この方法は、道路シーンを有する画像を受信することを含む。画像は、撮像装置から受信される。さらに、この方法は、機械学習モデルを使用して、道路シーンを表す値を属性設定のセットに入力する。注釈インタフェースは、道路シーンに対応するように属性設定の値を調整するように実装され、構成される。属性設定の値に基づいて、それぞれの道路シーンのシミュレートされたオーバーヘッドビューが生成される。

本発明の別の態様によれば、道路タイポロジシーン注釈付けのためのシステムが提供される。システムは、コンピュータ可読命令を実施するコンピュータ可読記憶媒体と、コンピュータ可読命令に基づいて分類モデルを実施するように構成されたプロセッサ装置とを含む。プロセッサ装置はさらに、道路シーンを有する画像を撮像装置から受信するように構成される。さらに、プロセッサ装置は、分類モデルを使用して、属性設定のセットに、道路シーンを表す値を入力する。プロセッサ装置はまた、道路シーンに対応するように属性設定の値を調整するように構成された注釈インタフェースを実装する。属性設定の値に基づいて、プロセッサ装置は、それぞれの道路シーンのシミュレートされたオーバーヘッドビューを生成する。

本発明のさらに別の態様によれば、道路タイポロジシーン注釈のためのコンピュータ可読プログラムを含む非一時的コンピュータ可読記憶媒体が提供される。コンピュータ可読プログラムは、コンピュータ上で実行されると、コンピュータに道路シーンを有する画像を受信させる。画像は、撮像装置から受信される。さらに、コンピュータ可読プログラムは、コンピュータに、機械学習モデルを使用して、道路シーンを表す値を属性設定のセットに入力させる。また、コンピュータ可読プログラムは、道路シーンに対応するように属性設定の値を調整するように構成された注釈インタフェースをコンピュータに実装させる。属性設定の値に基づいて、コンピュータ可読プログラムは、コンピュータに、それぞれの道路シーンのシミュレートされたオーバーヘッドビューを生成させる。

これらおよび他の特徴および利点は、添付の図面に関連して読まれるべき、その例示的な実施形態の以下の詳細な説明から明らかになるであろう。

本開示は、以下の図面を参照して、好ましい実施形態の以下の説明において詳細を提供する。

本発明の一実施形態による、道路タイポロジシーン注釈のための高レベルシステムのブロック図である

本発明の一実施形態による、道路シーンを含む画像の表現である。

本発明の一実施形態による、別の道路シーンを含む画像の表現である。

本発明の一実施形態による、道路タイポロジシーン注釈のための注釈インタフェースの表現である。

本発明の別の実施形態による、道路タイポロジシーン注釈のための注釈インタフェースの表現である。

本発明の別の実施形態による、道路タイポロジシーン注釈付けのための方法を示す流れ図である。

本発明の別の実施形態による、道路タイポロジシーン注釈付けのためのシステムのブロック表現である。

本発明の別の実施形態による、機械学習モデルを訓練するために使用される道路タイポロジシーン注釈付けのためのシステムのブロック表現である。

実際のアプリケーションにおける本発明のグラフィカル・ユーザ・インタフェースの実施形態を示す。

複雑な道路タイポロジを認識するための分類モデルなどの訓練機械学習モデル、シーン属性の正確な注釈を有する道路シーンが提供される。シーン属性の実施例には、車線の数、車線の幅、側道および横断歩道の存在およびそれらまでの距離、交通方向等が含まれる。これらの属性は、シーンの意味的および幾何学的特性の両方を記述し、これは、トップビュー（または鳥瞰図）として画像またはビデオに示される道路のタイポロジの再構成を可能にする。

特定の道路タイポロジのためのシーン属性を自動的に推論することができることは、自動車産業におけるいくつかの実施形態の適用を可能にすることができる。いくつかの実施形態はまた、保険業界において、例えば、事故シーンを再構築するためのツールとしての用途を見出すことができる。自動車産業からの１つの実施例は、死角推論であり、これは、運転者の注意を必要とするシーンの領域が遮られた場合に運転者に警告を与える。加えて、死角推論は、自動運転車両を実現するために重要であり得る。

しかしながら、例えばカメラのような知覚による入力から道路シーンを正確に記述するシーン属性を自動的に推論することは、困難な作業であり得るが、コンピュータビジョンおよび機械学習の分野からの技術の組み合わせを用いて試みることができる。そのようなシステムを構築するために、入力が画像またはビデオであり得、出力が入力を記述する正確なシーン属性であり得る、入力－出力対を含む訓練データの大きなコーパスが必要とされ得る。入力画像またはビデオの取得は、車両にカメラを搭載することによって行うことができる。しかしながら、シーン属性を取得することは、直接的な人間の注釈の努力を伴うことがある。これは、費用がかかり、面倒な方法であり得る。

図１は、本発明の一実施形態による、シーン属性注釈システム１００を実装するように構成されたシステム１００を示す。システム１００は、例えば、中央処理装置（ＣＰＵ）、グラフィカル処理装置（ＧＰＵ）、構成されたフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、またはこれらの組合せなどのプロセッサ１０４を含む。いくつかの実施形態では、プロセッサ１０４は、ニューラルネットワーク１２６の機能を実装し、例えば、受け取った画像から道路のタイポロジを識別するように構成された分類モデルなどの機械学習モデルを形成する。

分類モデル（１つまたは複数）（１２６）は、シミュレートされたデータを用いて訓練され得るか、またはシミュレートされたデータと実データとの両方を用いて訓練され得るか、または実データを用いて訓練され得るモデルを含むことができ、実データは、収集されたデータに注釈を付けるために使用されるモデリングツール（例えば、注釈ツール１２８、１３０）を用いて注釈付けされた。一例では、ユーザは、まず、シミュレートされたデータのみを用いてモデルを訓練し、次に、注釈付けすることができる実際の画像から予測された属性を抽出し、次いで、これらの値を用いて注釈ツールをロードすることができる。人間のアノテータまたは自動アノテータを使用して、残りのデータを記入し、誤りを訂正することができる。

プロセッサ１０４は、システムバス１２０を介して、ランダムアクセスメモリ（ＲＡＭ）１０６およびリードオンリーメモリ（ＲＯＭ）１０８などのメモリ装置と通信している。システムバス１２０は、例えば、ハードドライブ、ソリッドステートドライブなどの１つまたは複数の大容量記憶装置１１０にも結合される。ディスプレイ１１２、ユーザインタフェースコントローラ１１６、およびネットワークインタフェース１１４もシステムバス１２０に結合されている。ユーザインタフェースコントローラ１１６は、例えば、キーボード１４２、マウス１４４、スピーカ１４０等の様々なヒューマンインタフェース装置（ＨＩＤ）を介して、システム１００とユーザとの間のインタフェースを提供する。ネットワークインタフェース１１４は、ネットワーク１５０を介して、システム１００と、１つまたは複数の画像センサ１６０などの外部デバイスとの間でデータ通信を送受信する。しかしながら、いくつかの実施形態では、道路シーンを含む画像データを生成した画像センサ１６０は、シリアル接続（例えば、ユニバーサルシリアルバス（ＵＳＢ）、ＩＥＥＥＲＳ２３２シリアル、および同様のもの）または他のデータ入力／出力（Ｉ／Ｏ）インタフェース１４６を介してシステム１００に直接接続することができる。記憶装置１１０は、注釈付き道路シーン１３０を記憶するように構成することができる。いくつかの実施形態では、ストア注釈付き道路シーン１３０は、１つまたは複数のデータベースに格納することができる。他の実施形態では、注釈付き道路シーン１３０は、複数のフラットファイルに格納することができる。例えば、複雑な運転シーンのレイアウトは、単一のカメラから得ることができる。３Ｄシーンをキャプチャする透視画像が与えられると、豊富で解釈可能なシーン記述の予測を導出することができ、これは、オクルージョン推論されたセマンティックトップビューにおいてシーンを表す。

ネットワーク１５０は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、インターネット、またはこれらの組み合わせとすることができる。さらに、ネットワーク１５０は、例えば、イーサネット（ＩＥＥＥ８０２．３）、無線ＬＡＮ（ＩＥＥＥ８０２．１１）などの任意のＩＥＥＥ８０２ファミリのネットワーキングプロトコルを使用して構成することができ、例えば、ＴＣＰ（ＴｒａｎｓｍｉｓｓｉｏｎＣｏｎｔｒｏｌＰｒｏｔｏｃｏｌ）、ＵＤＰ（ＵｓｅｒＤａｔａｇｒａｍＰｒｏｔｏｃｏｌ）などを使用してデータを送信することができる。

道路シーンを有する画像の一例を図２に示す。図２において、トラック２０２は歩道および横断歩道２０４を遮蔽しており、これは正しいシーン属性を予測することによって自動的に推測される。道路２０６を横断する歩行者は、運転者の車両が衝撃を避けるには近すぎるまで、運転者に見えなくなることがある。さらに、トラック２０２は、交差する通り２０８を部分的に覆い隠す。車両が自動化されているか、または早期警報を含む状況では、シーン属性の適切な分析を使用して、自動的に検出されたシーンの危険領域、すなわちトラック２０２に注意を集中させることができる。例えば、トラック２０２は、囲むボックス２１０によって強調表示され、道路シーン２１２のトップダウンビューを運転者に提示することができ、これにより、自動化されたシステムは、道路のタイポロジおよび危険性を認識させることができる。

図３に示されている別の例の道路シーン画像では、トラック２０２は潜在的に対向してくる自動車３０２（トップダウンビューに示されている）を遮蔽し、これは運転者または対向車のいずれかが左折しようとする場合に危険となり得る。どちらの車両も相手車両との視線が明確でないため、潜在的に危険な状況が発生する可能性がある。

屋外運転シーンのシーン属性に注釈を付けるために、図４に示す本発明の一実施形態は、注釈ツール４００を含む。注釈ツール４００は、道路シーンの画像４０２を提示する。さらに、注釈ツール４００は、画像４０２に示された道路タイポロジのシミュレーションまたはレンダリング４０４を含む。いくつかの実施形態では、注釈ツール４００は、画像４０２で識別された属性値を属性フォーム４０６に初期入力するように構成することができる。他の実施形態では、属性フォーム４０６は、最初は空白であり、個人、例えば、注釈付け者からの入力を待つ。いくつかの実施形態では、属性フォーム４０６は、関連する属性が同じセクションにグループ化されるように、複数のセクションに編成することができる。セクションは、「一般」４０８、「主要道路属性」４１０、「交差点」４１２などの個々のブロックとして表示することができる。他の実施形態では、セクションは、属性フォーム内の別個のタブまたはシート（図示せず）として実装することができる。属性形態４０２は、部ブロックの各々における様々な属性を示すが、示されている属性は、例示のためのものであり、属性形態４０６に含めることができる全ての属性、および特定の属性が関連付けられるグループを包含するものではない。

道路シーンの属性は、例えば、車線の数、車線の種類（ＨＯＶ）、一方通行道路、対向する走行方向の追加車線、曲がるための車線、カーブした道路、直線道路、主要道路の回転、主道路上の走行方向間の区切り幅、歩道、縁石または他の区切り、横断歩道、この横断歩道までの距離、側方道路（なし、左、右、両方）、Ｔ交差点、交差点区切りなどを含むことができる。これらの属性は、シミュレートされても、実際のものであっても、組み合わせのものであってもよい。これらの属性の代わりに、または追加で、他の属性も存在する可能性があることに注意する。例えば、交通信号および交通標識の存在および位置に注釈を付けることができる。

注釈ツール４００に提供される値は、属性形態４０６に入力される属性値によって、表示されるレンダリング４０４に直接影響を与える。このようにして、注釈付け者は、画像４０２に対するレンダリング４０４の検査および比較によって、属性値が画像４０２に示された道路タイポロジを正しく表すことを容易に検証することができる。いくつかの実施形態では、属性フォーム４０６内の属性の値に対する変更は、レンダリング４０４に即座に反映され、注釈付け者は、値が入力されているときに、誤った属性値を容易に識別することができる。一実施形態では、ユーザがインタフェースフォーム４０６で何らかの変更を行うたびに、フォームのすべての値がプロセッサ１０４に送られ、プロセッサは、すべての値を取り、シーンをゼロからレンダリングする。これは、レンダリングがフォトリアリスティックな画像を生成するために適切な照明およびシェーディングの詳細を必要とするゲームエンジンのようなものではないことに留意されたい。これは、全ての属性を取得し、トップビュー画像を生成する比較的単純なコード（例えば、－１０００行のＰｙｔｈｏｎコード）である。これはミリ秒以下のオーダーで実行でき、ネットワーク伝送がレンダリング自体より遅くなる可能性が高いほど効率的である。

ある実施形態では、注釈ツール４００は、属性値が他の関連属性または従属属性の値が与えられて実現可能であることを検証するための検証アルゴリズムを提供する。例えば、多車線道路における車線幅の属性値は、道路幅の属性値よりも大きくすることができない。２つ以上の属性値が互いに競合する場合、注釈ツール４００は、例えば、属性値を対比色（例えば、赤）で囲むことによって、競合する属性を強調することができる。属性検証は、条件を検証するためにコード内にｉｆ／ｅｌｓｅステートメントを含むことができる。１つの実施例は、注釈フォームを見るとき、「左側の横断歩道」を「はい」に設定することは、「側道左車線」が「０」に設定された場合にエラーを招くことを含むことができる。別の実施例は、「側道が主要道路を終わらせる」を「はい」に設定することは、側道がない場合にエラーを招くこと、すなわち、「側道左車線」および「側道右車線」が両方とも「０」に設定された場合にエラーを招くことを含むことができる。

いくつかの実施態様において、画像４０２は、図５に示されるように、複数の領域または画素についての奥行きデータ５０２と重ね合わせることができる。奥行きデータ５０２は、光検出および測距（ＬＩＤＡＲ）システムから取得されたデータに基づいて生成することができる。他の実施形態では、表示画像４０２および奥行きデータ５０２の両方を生成するために、ステレオ撮像システムを使用することができる。奥行きデータ５０２は、例えば、道路の幅、交差点までの距離など、シーンの幾何学的推定値を含む特定の属性値を決定するために、注釈付け者によって見ることができる。

一例では、ＲＧＢ画像を、ＬＩＤＡＲ３Ｄスキャナから来る奥行きデータと共に使用することができる。また、スキャナを車に搭載し、反射するレーザ光線を撮影することができ、距離を計測することができる。レーザスキャナおよびカメラを較正することができ、これにより、取り込まれたＲＧＢ画像との任意の３Ｄ点との位置合わせが可能になり、例えば、ＲＧＢ画像のいくつかの画素までの距離を決定することができる。別のオプションとしては、ステレオセットアップ、例えば、車内で２台のカメラを並べて使用することができる。このセットアップを用いて、画像内の多くの画素までの奥行きを計算することもできる。

一般に、奥行き／距離は、現実世界の３Ｄ点から来ており、ある座標系、例えばレーザの座標系に存在する。ＲＧＢカメラとレーザとの間の較正が与えられると、３Ｄ点をカメラ座標系に移動させ、画像平面に投影することができる。次に、これは、画像（画素）内の３Ｄ点の位置、ならびに距離を教示する。

さらに、いくつかの実施形態では、注釈ツール４００は、単一の無関係な画像の代わりに、フレームのシーケンス（例えば、ビデオセグメント、または連続画像）に注釈を付けることができる。注釈ツール４００による注釈付け処理において、ビデオセグメントのローフレームレートを選択することができ、これにより、多くの場合、システムは、変更を加えることなく、ビデオセグメント内の前のフレームから現在のフレームに属性をコピーすることができる。その理由は、いくつかの属性が、例えば歩道の存在のように、より長い期間にわたって一定のままであるからである。さらに、より低いフレームレートで注釈を付けることは、固定された注釈付けの量に対するデータの変動性を増加させる。

より低いフレームレートは、注釈付けされるべき画像の固定された経費を有する場合、変動性を増加させることができる。毎秒１０００フレームのフレームレートを有するビデオを考える。最初の１０００フレームに注釈を付けると、実際のビデオの１秒間の注釈しか表示されないが、１秒間はあまり表示されない。自動車は１秒以内に遠くまで運転されず、場面は同じである可能性が高い。また、そのビデオ内の第１の画像と第２の画像とは、１ミリ秒しか経過していないため、ほとんど異なるものではない。

同じビデオを取るが、フレームレートを１フレーム／秒に減らす。この場合、１０００フレームに注釈を付けることは、１０００秒のビデオを見ることを意味する（より大きなフレームレートを有する１秒と比較して）。この場合、１０００秒後には、走行距離が長くなり、シーンが変わった可能性があるので、実際のビデオコンテンツのより高い変化が見られるはずである。この場合、同じ数の注釈付きフレームを用いて、より大きなデータ変動性が得られる。

図６を参照すると、本発明の一実施形態による注釈ツールを実装するためのコンピュータ実装方法が示されている。ブロック６０１では、例えば、図４に示す画像４０２のような、図１に示すカメラ１６０のような撮像装置によって記録された道路シーンを含む画像が受信される。画像４０２は、個々の画像の形態であってもよいし、ビデオのセグメントであってもよい。さらに、いくつかの実施形態は、カメラ１６０から直接画像データ４０２を受信するように構成することができ、他の実施形態は、以前に記憶された画像データを取り出すためにデータ記憶装置（例えば、図１の記憶装置１１０）にアクセスするように構成することができる。画像データは、奥行きデータも含むことができる。

あるいは、奥行きデータは、別々に受信されてもよい。奥行きデータが画像データから分離されている場合、画像データと奥行きデータとの両方に識別子を提供して、奥行きデータを対応する画像データに関連付けることができる。
ブロック６０３において、この方法は、例えば、図４の属性設定４０６のような属性設定のセットに、画像４０２に描かれた道路シーンを表す値を加えることを含む。図１に示すニューラルネットワーク１２６のような機械学習モデルは、例えば、ブロック６０１で受信された画像４０２および奥行きデータを分析し、属性設定４０６の属性値を提供するように実施することができる。モデル訓練環境では、機械学習モデル１２６によって提供される属性値は、最初は正しくないことがある。しかしながら、機械学習モデル１２６が学習するにつれて、機械学習モデル１２６によって提供される属性値はより正確になる。

ブロック６０５において、この方法は、例えば、図１に示す注釈インタフェース１２８のような注釈インタフェースを実施し、この注釈インタフェースは、注釈付け者が、属性設定４０６の値を、画像４０２内の道路シーンに対応するように調整することを可能にするように構成される。属性設定４０６の調整は、いくつかの実施形態では、注釈付け者によって手動で実行することができる。注釈インタフェース１２８は、機械学習モデル１２６によって提供される誤った属性値を訂正するために使用することができ、また、注釈付け者が、機械学習モデル１２６が値を提供していない属性値を入力することができるようにするために使用することができる。

ブロック６０７で、注釈ツール４００は、機械学習モデル１２６または注釈インタフェース１２８を介して注釈付け者のいずれかによって提供される属性値に基づいて、それぞれの道路シーンのシミュレートされたオーバーヘッドビュー（例えば、鳥瞰図）、例えば、図４のレンダリング４０４を生成する。いくつかの実施形態では、シミュレートされたオーバーヘッドビュー４０４は、機械学習モデル１２６によって提供される初期属性値に基づいて生成することができる。シミュレートされたオーバーヘッドビュー４０４は、追加の属性値が追加されるときに、または初期属性値が注釈インタフェース１２８を介して注釈付け者によって修正されるときに、更新することができる。したがって、いくつかの実施形態では、ブロック６０７の実行は、ブロック６０３およびブロック６０５と同時に行うことができる。他の実施形態では、ブロック６０７は、ブロック６０５で注釈付け者による属性値エントリの完了時に実行される。ブロック６０５の完了は、「有効化」などとラベル付けされたボタンなどのグラフィカル・ユーザ・インタフェース（ＧＵＩ）要素の作動によって信号で伝えることができる。

いくつかの実施形態では、図６に示す方法が、画像４０２または一連の関連画像４０２について完了すると、機械学習モデル１２６は、機械学習モデル１２６によって入力された初期値と比較して、最終的に検証された属性値を分析するように構成することができる。このようにして、機械学習モデル１２６は、画像４０２から道路タイポロジをより良く認識するように訓練され得る。

図７および図８に示す他の実施形態では、注釈ツール７００は、道路シーンを含む画像から訓練データセットを生成するように構成される。注釈ツール７００は、注釈インタフェース７１０およびデータサーバ７２０を含む。注釈インタフェース７１０は、画像７０４および奥行き測定値７０６を含む入力データ７０２を受信する。いくつかの実施形態では、入力データ７０２は、図８に示すように、例えば、関連する奥行き測定値を生成するように構成されたＬＩＤＡＲシステムを装備したカメラ８０２によって生成することができる。他の実施形態では、カメラ８０２およびＬＩＤＡＲシステム（図示せず）は、注釈ツール７００の別個の構成要素として提供することができる。さらに他の実施形態では、カメラ８０２は、奥行き測定値を導出することができる立体画像を生成する。

入力データ７０２は、注釈インタフェース７１０の入力ディスプレイ７１２上に表示される。入力ディスプレイ７１２を見る注釈付け者は、属性値を属性設定フォーム７１４に入力することができる。入力された属性値に基づいて、レンダラ７１６は、入力ディスプレイ７１２に表示される画像に示される道路のトップダウンビューを提示するシミュレートされた道路タイポロジを生成する。レンダラ７１６によって生成されたシミュレートされた道路タイポロジが入力ディスプレイ７１２上に表示された画像を表すことを注釈付け者が満足すると、注釈付けされた画像およびシミュレートされた道路タイポロジをデータサーバ７２０に記憶することができる。この実施形態では、注釈付き画像およびシミュレートされた道路タイポロジは、図８に示されている道路タイポロジを認識するように訓練され、訓練データセットとして使用される機械学習モデル８０６によって検索することができる。

ある実施形態では、注釈ツール７００は、例えば、シーケンス内の前の画像フレーム７０４または現在の画像フレーム７０４の前に保存されたバージョン内の既存の注釈を探すことができる。既存の注釈が見つかった場合、注釈ツール７００は、既存の属性をフォーム７１４にロードすることができる。しかしながら、既存の注釈が存在しない場合、注釈ツール７００は、属性設定フォーム７１４にシーン属性のデフォルト値を入力することができる。

入力ディスプレイ７１２は、注釈付け者に遠近画像７０４を示すことができる。画像７０４は、フルカラー（例えば、ＲＧＢ）画像、またはモノクロ（例えば、グレースケール）画像とすることができる。さらに、いくつかの実施形態では、入力ディスプレイ７１２は、対応する画像７０４内の１つ以上の画素についての奥行き測定値７０６をオーバーレイすることができる。奥行き測定値７０６は、シーン属性に正確に注釈を付けるのに十分な、画像７０４内の画素のサブセットに対してのみ提供される必要がある。一実施形態では、マウス・ポインタがその画素の上をホバリングするときに、画素の奥行き測定値７０６を画像の上に（例えば、テキストとして）示すことができる。画素は、例えば、注釈付け者が関連する奥行き測定値７０６を有する画素を容易に識別することができるように、赤色で強調表示することができる。また、ボタンなどのＧＵＩ要素を注釈インタフェース７１０上に設けることができ、注釈付け者が奥行き測定値７０４に関連するすべての画素を見ることができるようにする。

属性設定フォーム７１４は、テキストフィールド、チェックボックスおよびドロップダウンリストの組み合わせを含むことができる。上述したように、属性設定フォーム７１４は、画像に対して何らかの注釈がすでに存在する場合、ロード時に満たされてもよい。シーン属性の任意の値を変更することは、属性を使用してシミュレートされた道路を生成するために、レンダラ７１６を呼び出すことができる。

レンダラ７１６は、属性設定フォーム７１４からのシーン属性の現在の値に従って、トップダウンビューをレンダリングする。レンダラ７１６は、属性設定フォーム７１４内の属性値が変化するたびに呼び出すことができ、それによって即時フィードバックを注釈付け者に提供する。

データサーバ７２０は、図８に示す記憶データベース８０４を含む。いくつかの実施形態において、記憶データベース８０４は、クラウド記憶装置であってもよい。他の実施形態では、記憶データベース８０４は、ローカル・エリア・ネットワーク（ＬＡＮ）を介して注釈インタフェース７１０によってアクセス可能な記憶装置のローカル・セットで実現することができる。さらに別の実施形態では、記憶データベース８０４は、注釈インタフェース７１０に直接結合された１つ以上の記憶装置内に実施可能である。

図９を参照すると、本発明の一実施形態を実施するために注釈付け者９０２によって使用されるワークステーション９００が示されている。ワークステーション９００は、ディスプレイ装置９０６に結合されたコンピュータ９０４を含むことができる。さらに、例えば、キーボード９０８やマウス９１０などのユーザインタフェース装置を設けて、注釈付け者９０２とワークステーション９００との間のユーザインタラクションを可能にすることもできる。コンピュータ９０４は、例えば、図１に示す構成要素を含むことができ、ディスプレイ装置９０６は、図１のディスプレイ１１２にも対応することができる。表示装置９０６は、図４および図５に示される注釈インタフェース４００のような注釈インタフェース９１２の実施形態を表示するように構成される。

図９は、デスクトップ型ワークステーション９００として構成される本発明の実施形態を示す。しかしながら、他の実施形態では、本発明の注釈ツールは、タブレットフォームファクタで実施することができ、コンピュータ９０４およびディスプレイデバイスは、個人が保持することができる単一の本体に組み合わされる。さらに、ユーザインタフェース装置、例えば、キーボード９０８およびマウス９１０は、ディスプレイ装置９０６上に配置されたタッチセンシティブ表面オーバーレイおよびオンスクリーンキーボードグラフィカルエレメントによって実装され得る。さらに、カメラをタブレット上に設けることもできる。この実施形態のタブレットフォームファクタは、例えば、自動車事故のシーンを文書化するために、注釈ツールが損害査定人または警察官によって使用されるときなどに、現場での画像注釈を容易にすることができる。

本明細書に記載する実施形態は、完全にハードウェアであってもよく、完全にソフトウェアであってもよく、または、ハードウェアおよびソフトウェア要素の両方を含むものであってもよい。好ましい実施形態では、本発明は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むが、これらに限定されないソフトウェアで実施される。

実施形態は、コンピュータまたは任意の命令実行システムによって、またはそれに関連して使用するためのプログラムコードを提供する、コンピュータ使用可能またはコンピュータ可読媒体からアクセス可能なコンピュータプログラム製品を含むことができる。コンピュータ使用可能媒体またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれに関連して使用するためのプログラムを格納、通信、伝搬、またはトランスポートする任意の装置を含むことができる。媒体は、磁気、光学、電子、電磁気、赤外線、または半導体システム（または装置またはデバイス）、または伝搬媒体とすることができる。媒体は、半導体または固体ステートメモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、リジッド磁気ディスクおよび光ディスクなどのコンピュータ読み取り可能な記憶媒体を含むことができる。

各コンピュータプログラムは、本明細書に記載する手順を実行するために、記憶媒体または装置がコンピュータによって読み取られるときに、コンピュータの操作を構成し制御するために、汎用または特殊目的のプログラム可能コンピュータによって読み取り可能な、機械読み取り可能な記憶媒体または装置（例えば、プログラムメモリまたは磁気ディスク）に実体的に記憶することができる。本発明のシステムはまた、コンピュータプログラムで構成された、コンピュータ読み取り可能な記憶媒体で実施されるものと考えることができ、その場合、構成された記憶媒体は、コンピュータを特定の所定の方法で動作させて、本明細書に記載する機能を実行させる。

プログラムコードを記憶および／または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接的または間接的に結合された少なくとも１つのプロセッサを含んでもよい。メモリ要素は、プログラムコードの実際の実行中に採用されるローカルメモリ、バルクストレージ、および実行中にバルクストレージからコードが検索される回数を減らすために少なくとも何らかのプログラムコードの一時記憶を提供するキャッシュメモリを含むことができる。入力／出力またはＩ／Ｏ装置（キーボード、ディスプレイ、ポインティング装置などを含むが、これらに限定されない）は、直接または介在するＩ／Ｏコントローラを介してシステムに結合され得る。

介在する専用ネットワークまたは公衆ネットワークを介して、データ処理システムを他のデータ処理システムあるいはリモートプリンタまたはストレージデバイスに結合できるようにするために、ネットワークアダプタをシステムに結合することもできる。モデム、ケーブルモデム、およびイーサネット（登録商標）カードは、現在使用可能なネットワークアダプタのタイプの一例に過ぎない。

本明細書で採用されるように、「ハードウェアプロセッササブシステム」または「ハードウェアプロセッサ」という用語は、１つ以上の特定のタスクを実行するために協働するプロセッサ、メモリ、ソフトウェアまたはそれらの組み合わせを指すことができる。有用な実施形態では、ハードウェアプロセッササブシステムは、１つまたは複数のデータ処理要素（例えば、論理回路、処理回路、命令実行デバイスなど）を含むことができる。１つまたは複数のデータ処理要素は、中央処理ユニット、画像処理ユニットおよび／または別個のプロセッサまたはコンピューティング要素ベースのコントローラ（たとえば、論理ゲートなど）に含めることができる。ハードウェアプロセッササブシステムは、１つ以上のオンボードメモリ（例えば、キャッシュ、専用メモリアレイ、読み出し専用メモリなど）を含むことができる。いくつかの実施形態では、ハードウェアプロセッササブシステムは、オンボードまたはオフボードにすることができるか、またはハードウェアプロセッササブシステム（例えば、ＲＯＭ、ＲＡＭ、基本入出力システム（ＢＩＯＳ）など）によって使用するために専用にすることができる１つ以上のメモリを含むことができる。

ある実施形態では、ハードウェアプロセッササブシステムは、１つ以上のソフトウェア要素を含むことができ、実行することができる。１つ以上のソフトウェア要素は、特定の結果を達成するために、オペレーティングシステムおよび／または１つ以上のアプリケーションおよび／または特定のコードを含むことができる。

他の実施形態では、ハードウェアプロセッササブシステムは、指定された結果を達成するために１つまたは複数の電子処理機能を実行する専用の専用回路を含むことができる。そのような回路は、１つまたは複数のアプリケーション専用集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、および／またはプログラマブルロジックアレイ（ＰＬＡ）を含むことができる。

ハードウェアプロセッササブシステムのこれらおよび他の変形もまた、本発明の実施形態に従って企図される。

本明細書において、本発明の「一実施形態」又は「一実施形態」とは、その他の変形例と同様に、その実施形態に関連して説明した特定の特徴、構造、特性等が、本発明の少なくとも一実施形態に含まれることを意味するものであり、「一実施形態において」又は「一実施形態において」の語句の出現、並びに本明細書全体の様々な箇所に出現する他の変形例は、必ずしも全て同一の実施形態を意味するものではない。しかしながら、本明細書で提供される本発明の教示を前提として、１つまたは複数の実施形態の特徴を組み合わせることができることを理解されたい。

以下の「／」、「および／または」、および「少なくとも１つ」、例えば、「Ａ／Ｂ」、「Ａおよび／またはＢ」、および「ＡおよびＢの少なくとも１つ」のいずれかの使用は、第１のリストされた実施例（Ａ）のみの選択、または第２のリストされた実施例（Ｂ）のみの選択、または両方の実施例（ＡおよびＢ）の選択を包含することが意図されることを理解されたい。さらなる例として、「Ａ、Ｂ、および／またはＣ」、および「Ａ、Ｂ、およびＣの少なくとも１つ」の場合、このような句は、第１のリストされた実施例（Ａ）のみの選択、または第２のリストされた実施例（Ｂ）のみの選択、または第３のリストされた実施例（Ｃ）のみの選択、または第１および第２のリストされた実施例（ＡおよびＢ）のみの選択、または第１および第３のリストされた実施例（ＡおよびＣ）のみの選択、または第２および第３のリストされた実施例（ＢおよびＣ）のみの選択、または３つすべての実施例（ＡおよびＢおよびＣ）の選択を包含することを意図する。これは、列挙された項目の数だけ拡張することができる。

上記は、あらゆる点で例示的かつ例示的であるが、限定的ではないと理解されるべきであり、本明細書に開示される本発明の範囲は、詳細な説明からではなく、むしろ特許法によって許容される全範囲に従って解釈されるような特許請求の範囲から決定されるべきである。本明細書に示され、説明された実施形態は、本発明の例示にすぎず、当業者は、本発明の範囲および精神から逸脱することなく、様々な修正を実施することができることを理解されたい。当業者は、本発明の範囲および精神から逸脱することなく、様々な他の特徴の組み合わせを実施することができる。このように、本発明の態様を、特許法によって要求される詳細および特殊性と共に説明してきたが、特許状によって保護されることが請求され、望まれるものは、添付の特許請求の範囲に記載されている。

Claims

道路タイポロジシーン注釈のためのコンピュータ化された方法であって、
撮像装置から道路シーンを含む画像を受信すること（６０１）と、
機械学習モデルを使用して、前記道路シーンを表す値を属性設定のセットに入力すること（６０３）と、
前記道路シーンに対応するように前記属性設定の値を調整するように構成された注釈インタフェースを実装すること（６０５）と、
前記属性設定の値に基づいて、それぞれの道路シーンのシミュレートされたオーバーヘッドビューを生成すること（６０７）とを含み、
前記属性設定の少なくとも２つの属性が関連付けられ、
前記２つの関連付けられた属性の第２の属性に割り当てられた値に基づいて、前記２つの関連付けられた属性の第１の属性の許容可能な値を制約することをさらに含み、前記第１の属性の前記許容可能な値は、前記第２の属性の前記値への変化に応答して変化する、道路タイポロジシーン注釈のためのコンピュータ化された方法。
前記属性設定の手動で調整された値に基づいて、前記機械学習モデルを調整することをさらに含む、請求項１に記載のコンピュータ化された方法。
距離測定値を、前記画像に示される前記道路シーンに関連付けることをさらに含む、請求項１に記載のコンピュータ化された方法。
前記距離測定値は、光検出および測距（ＬＩＤＡＲ）システムを使用して記録される、請求項３に記載のコンピュータ化された方法。
前記距離測定値は、前記画像に重ね合わされて合成画像を形成し、前記合成画像は、前記インタフェースに表示される、請求項３に記載のコンピュータ化された方法。
道路タイポロジシーン注釈のためのシステムであって、
コンピュータ可読命令を具体化する非一時的コンピュータ可読記憶媒体（１１０）と、
前記コンピュータ可読命令に基づいて分類モデル（１２６）を実装するように構成されたプロセッサ装置（１０４）とを含み、前記プロセッサはさらに、
撮像装置（１６０）から道路シーンを含む画像を受信し、
前記分類モデルを使用して、属性設定のセット（１３０）に前記道路シーンを表す値を入力し、
前記道路シーンに対応するように前記属性設定の値を調整するように構成された注釈インタフェース（１２８）を実装し、
前記属性設定の値に基づいて、それぞれの道路シーンのシミュレートされたオーバーヘッドビュー（４０４）を生成するように構成され、
前記属性設定の少なくとも２つの属性が関連付けられ、
前記プロセッサは、前記２つの関連付けられた属性の第２の属性に割り当てられた値に基づいて、前記２つの関連付けられた属性の第１の属性の許容可能な値を制約するようにさらに構成され、
前記第１の属性の許容可能な値は、前記第２の属性の前記値への変化に応じて変化する、システム。
前記プロセッサは、前記属性設定の手動で調整された値に基づいて、前記分類モデルを調整するようにさらに構成される、請求項６に記載のシステム。
前記プロセッサは、距離測定値を前記画像に示される前記道路シーンに関連付けるようにさらに構成される、請求項６に記載のシステム。
前記距離測定値は、光検出および測距（ＬＩＤＡＲ）システムを使用して記録される、請求項８に記載のシステム。
前記距離測定値は、前記画像に重ね合わされて合成画像を形成し、前記合成画像は、前記インタフェースに表示される、請求項８に記載のシステム。
道路タイポロジシーン注釈のためのコンピュータ可読プログラムを備えた非一時的コンピュータ可読記憶媒体であって、前記コンピュータ可読プログラムがコンピュータ上で実行されるときに、前記コンピュータに、
道路シーンを含む画像の受信すること（６０１）と、
機械学習モデルを使用して、前記道路シーンを表す値を属性設定のセットに入力すること（６０３）と、
前記道路シーンに対応するように前記属性設定の値を調整するように構成されたインタフェースを実装すること（６０５）と、
前記属性設定の値に基づいて、それぞれの道路シーンのシミュレートされたオーバーヘッドビューを生成すること（６０７）とを含む方法を実行させ、
前記属性設定の少なくとも２つの属性が関連付けられ、前記２つの関連付けられた属性の第２の属性に割り当てられた値に基づいて、前記２つの関連付けられた属性の第１の属性の許容可能な値を制約することをさらに含み、前記第１の属性の許容可能な値は、前記第２の属性の前記値への変化に応じて変化する、非一時的コンピュータ可読記憶媒体。
前記属性設定の手動で調整された値に基づいて、前記機械学習モデルを調整することをさらに含む、請求項１１に記載の非一時的コンピュータ可読記憶媒体。
距離測定値を、前記画像に示される前記道路シーンに関連付けることをさらに含む、請求項１１に記載の非一時的コンピュータ可読記憶媒体。
前記距離測定値は、光検出および測距（ＬＩＤＡＲ）システムを使用して記録される、請求項１３に記載の非一時的コンピュータ可読記憶媒体。
前記距離測定値は、前記画像に重ね合わされて合成画像を形成し、前記合成画像は、前記インタフェースに表示される、請求項１３に記載の非一時的コンピュータ可読記憶媒体。