JP7372488B2 - 機械学習モデルの精度を調べるためのグラウンドトゥルースを修正するための装置と方法 - Google Patents

機械学習モデルの精度を調べるためのグラウンドトゥルースを修正するための装置と方法 Download PDF

Info

Publication number
JP7372488B2
JP7372488B2 JP2023007371A JP2023007371A JP7372488B2 JP 7372488 B2 JP7372488 B2 JP 7372488B2 JP 2023007371 A JP2023007371 A JP 2023007371A JP 2023007371 A JP2023007371 A JP 2023007371A JP 7372488 B2 JP7372488 B2 JP 7372488B2
Authority
JP
Japan
Prior art keywords
image data
ground truth
determining
area
size
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023007371A
Other languages
English (en)
Other versions
JP2023130300A (ja
Inventor
林玉 孫
Original Assignee
ウーブン・バイ・トヨタ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ウーブン・バイ・トヨタ株式会社 filed Critical ウーブン・バイ・トヨタ株式会社
Publication of JP2023130300A publication Critical patent/JP2023130300A/ja
Application granted granted Critical
Publication of JP7372488B2 publication Critical patent/JP7372488B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Description

本開示は機械学習モデルに関し、より特別には、機械学習モデルの精度をテストするためのグラウンドトゥルースデータに関する。
自律運転アプリケーションは典型的に、決定を行うために、センサにより取り込まれたデータを解析する。例えば、自律運転アプリケーションは、カメラにより取り込まれた画像データを利用できる。この画像データは、車両の周囲の対象物を検出するために、訓練データセットを使用して訓練された機械学習モデルに入力できる。
図8を参照すると、例えば、対象物(つまり、車両101、102、オートバイに乗っている人103、および歩行者104)は、カメラにより取り込まれた画像データから知覚または検出でき、別個のカテゴリ(つまり、車両、歩行者、オートバイに乗っている人など)に分類できる。決定は、検出された対象物に基づいてなされ、例えば、車両の位置および/または速度は、検出された対象物との衝突を回避するために自律的に変更または修正される。
上述したように、機械学習モデルは、画像における対象物を検出するために使用できる。例えば、US2018/0336424における電子装置は、フレームにおける対象物を検出し、第1訓練済みモデルと、車両の運転中に取得された複数のフレームを含むビデオシーケンスを使用して、対象物の位置を認識する。US2020/0074230の自動化された訓練データセット生成器においては、生成器は、仮想環境に基づく、現実世界の自律運転アプリケーションにおける使用のための訓練データセットを生成する。訓練データセットは、現実世界の自律車両を制御するために機械学習モデルを訓練することと関連付けることができる。
関連する技術の機械学習モデルは、モデルの精度をテストするために使用されるテストデータ、例えば、訓練データに基づいて洗練且つ更新される。モデルの精度をテストするときは、テストデータセットからの画像が機械学習モデルに入力される。そして、機械学習モデルは典型的には、二次元または三次元バウンディングボックス、画像における目標対象物のクラス(例えば、車両、歩行者、オートバイなど)、画像セグメンテーションなどのような結果を出力する。モデルの精度をテストするために、これらの結果は、画像における目標対象物のグラウンドトゥルースデータ(つまり、実際の分類、セグメンテーションなど)に対して比較される。
シミュレータにより生成された画像データ、例えば、車両モデルを取り囲んでいる仮想世界の画像であって、自律運転シミュレータのカメラセンサモデルにより取り込まれた画像の状況においては、すべての目標対象物の位置が、グラウンドトゥルース(例えば、グラウンドトゥルースデータまたは信号)に含まれている。言い換えると、シミュレータにより生成または出力されたグラウンドトゥルースデータは、隠されている目標対象物を含んでいる。例えば、シミュレータは、仮想世界のセンサにより取り込まれた画像において隠されている車両、または、オートバイの背後に位置している車両を含むグラウンドトゥルースデータを出力する。しかし、このグラウンドトゥルースが、機械学習モデルの精度をテストするために、または、訓練データセットの目標変数を定義するために使用される場合は、精度は低くなり、過小評価されてしまう。これは、機械学習モデルは、隠されている対象物を検出する可能性が低く、一方、シミュレータにより出力されるグラウンドトゥルースは隠されている対象物を含んでいるからである。
例えば、図8において、機械学習モデルは、車両101の背後に位置している車両102を検出する可能性は低く、一方、グラウンドトゥルースセグメンテーションは、車両102全体を含んでいる。
本開示は、テストデータのグラウンドトゥルースセグメンテーションに含まれる目標対象物に対する可視率を組み入れることにより、自律運転および自律運転シミュレータにおいて使用される機械学習モデルをより精度よくテストするための装置と方法を提供する。
本開示の態様は、対象物検出機械学習モデルの精度をテストするためのグラウンドトゥルースデータを修正するための方法を提供する。方法は、カメラ視点からの画像取り込み領域の画像データを取得することと、画像取り込み領域における対象物に関するグラウンドトゥルースデータを取得することと、取得した画像データに含まれている対象物の可視率を決定することと、決定された可視率に基づいて、グラウンドトゥルースデータを修正することを含んでいる。
可視率を決定することは、対象物の全体のサイズを決定することと、取得した画像データにおける対象物の可視領域のサイズを計算することと、可視率を取得するために、可視領域のサイズを対象物の全体のサイズで割ることを含むことができる。
対象物の全体のサイズを決定することは、対象物を個々に完全に描画することと、個々に描画された対象物の領域を計算することを含むことができる。
対象物の全体のサイズを決定することは、画像取り込み領域の全シーンに対するグラウンドトゥルース対象物セグメンテーションを取得することと、グラウンドトゥルース対象物セグメンテーションにおける対象物の領域を計算することを含むことができる。
取得した画像データにおける対象物の可視領域のサイズを計算することは、可視領域に含まれている画素の数を決定すること、または、可視領域の境界を形成する多角形の領域を決定することを含むことができる。
画像取り込み領域の画像データを取得することは、自律運転シミュレータのカメラセンサモデルにより生成された画像データを取得することを含むことができる。
本開示の他の態様は、対象物検出機械学習モデルの精度をテストするための画像データのグラウンドトゥルースを修正するための装置を提供する。装置は、命令を格納しているメモリと、少なくとも1つのプロセッサを含み、少なくとも1つのプロセッサは、カメラ視点からの画像取り込み領域の画像データを取得し、画像取り込み領域における対象物に関するグラウンドトゥルースデータを取得し、取得した画像データに含まれている対象物の可視率を決定し、決定された可視率に基づいて、グラウンドトゥルースデータを修正するために、命令を実行するように構成されている。
少なくとも1つのプロセッサは更に、対象物の全体のサイズを決定し、取得した画像データにおける対象物の可視領域のサイズを計算し、可視率を取得するために、可視領域のサイズを対象物の全体のサイズで割るために、命令を実行するように構成できる。
少なくとも1つのプロセッサは更に、対象物を個々に完全に描画し、対象物の全体のサイズとして、個々に描画された対象物の領域を計算するために、命令を実行するように構成できる。
少なくとも1つのプロセッサは更に、画像取り込み領域の全シーンに対するグラウンドトゥルース対象物セグメンテーションを取得し、対象物の全体のサイズとして、グラウンドトゥルース対象物セグメンテーションにおける対象物の領域を計算するために、命令を実行するように構成できる。
少なくとも1つのプロセッサは更に、可視領域に含まれている画素の数を決定することにより、または、可視領域の境界を形成する多角形の領域を決定することにより、取得した画像データにおける対象物の可視領域のサイズを計算するために、命令を実行するように構成できる。
少なくとも1つのプロセッサは更に、自律運転シミュレータのカメラセンサモデルにより生成された画像データを取得するために、命令を実行するように構成できる。
本開示の他の態様は、命令を記録している非一時的コンピュータ読み取り可能記録媒体を提供し、その命令は、対象物検出機械学習モデルの精度をテストするための画像データのグラウンドトゥルースを修正するための方法を実行するために少なくとも1つのプロセッサにより実行可能である。方法は、カメラ視点からの画像取り込み領域の画像データを取得することと、画像取り込み領域における対象物に関するグラウンドトゥルースデータを取得することと、取得した画像データに含まれている対象物の可視率を決定することと、決定された可視率に基づいて、グラウンドトゥルースデータを修正することを含んでいる。
可視率を決定することは、対象物の全体のサイズを決定することと、取得した画像データにおける対象物の可視領域のサイズを計算することと、可視率を取得するために、可視領域のサイズを対象物の全体のサイズで割ることを含むことができる。
対象物の全体のサイズを決定することは、対象物を個々に完全に描画することと、個々に描画された対象物の領域を計算することを含むことができる。
対象物の全体のサイズを決定することは、画像取り込み領域の全シーンに対するグラウンドトゥルース対象物セグメンテーションを取得することと、グラウンドトゥルース対象物セグメンテーションにおける対象物の領域を計算することを含むことができる。
取得した画像データにおける対象物の可視領域のサイズを計算することは、可視領域に含まれている画素の数を決定すること、または、可視領域の境界を形成する多角形の領域を決定することを含むことができる。
画像取り込み領域の画像データを取得することは、自律運転シミュレータのカメラセンサモデルにより生成された画像データを取得することを含むことができる。
開示の例としての実施形態の特徴、利点、および技術的且つ産業的意味は、付随する図面を参照して下記に記述され、図面においては類似の符号は類似の要素を示している。
実施形態に係わる、グラウンドトゥルースデータを修正するための方法を例示しているフローチャートである。
実施形態に係わる、対象物の可視率を決定するための方法を例示しているフローチャートである。
第1実施形態に係わる、対象物の全体のサイズを取得するための方法を例示しているフローチャートである。
第2実施形態に係わる、対象物の全体のサイズを取得するための方法を例示しているフローチャートである。
自律運転シミュレータのカメラセンサモデルにより生成された画像データの例である。
実施形態に係わる、対象物に対する可視率決定の例の模式図である。
実施形態に係わる、グラウンドトゥルースデータを修正するための装置のブロック図である。
自律運転シミュレータのカメラセンサモデルにより生成された画像データの例である。
以降、本開示が適用される特定の実施形態を、図面を参照して詳細に記述する。本開示は下記の実施形態に制限されない。追加的に、下記の記述と図面は、明確性のために適切に簡略化されている。
実施形態に係わる、グラウンドトゥルースを修正するための方法が、ここで図1から図6を参照して記述される。図1は、第1実施形態に係わる、グラウンドトゥルースデータを修正するための方法を例示しているフローチャートを示している。
図1を参照すると、ステップS100において、カメラ視点に対応する画像データが取得される。つまり、画像データは、カメラから見える画像取り込み領域の画像データである。画像データは、自律運転アプリケーションにおいて対象物(例えば、バウンディングボックス、クラス、セグメンテーションなど)を識別するために訓練された機械学習モデルをテストするためのテストデータであってよい。例えば、画像データは、自律運転シミュレータのカメラセンサモデルにより生成できる。カメラセンサモデルは、自律運転シミュレータに埋め込むことができ、または、自律運転シミュレータと相互動作できるが、それに制限されない。自律運転シミュレータは、自律運転アプリケーションとアルゴリズムをテストするために利用される任意のシミュレータを含むことができる。
自律運転シミュレータは、1つ以上のコンピュータ読み取り可能記録媒体に格納されている命令を実行するように構成されている少なくとも1つのプロセッサを含むことができる。これらの命令は、コアシミュレータ、車両シミュレータ、およびセンサシミュレータを定義でき、または、それらを実現するために実行できる。コアシミュレータは、シミュレーションを作動させるシナリオを作成、編集、および/または実行するシミュレーションツールである。コアシミュレータを介して、アクタとそれらの動きと共に、シミュレーションの仮想世界(つまり、グラウンドトゥルース)を定義できる。車両シミュレータは、自律運転車両(エゴ車両)をシミュレートし、周囲の対象物に基づいて車両の位置を制御するための車両コントローラを含んでいる。センサシミュレータは、エゴ車両の種々のセンサをシミュレートし、仮想世界におけるエゴ車両の周囲の画像を取り込むためのカメラセンサモデルを含んでいる。
カメラセンサモデルにより生成された画像データは、個々のカメラセンサから、または、シミュレータ内の、自律運転車両上の複数の箇所に位置している複数のカメラセンサから取得した画像データを含むことができる。これらの箇所は、車両の前部、車両の側部、車両の後部、車両の上部、またはそれらの組み合わせの少なくとも1つを含むことができる。画像データは、カメラセンサモデルにより取り込まれた仮想世界の画像取り込み領域の画像である。
追加的に、車両は自動車に制限されず、人間または物を輸送するための(つまり、トラック、バス、オートバイ、トラクタ、電動スクータなど)、そして自律的に運転することができる任意の機構を含むことができる。
画像取り込み領域におけるすべての対象物(隠されている対象物を含む)に関するグラウンドトゥルースデータがステップS101において取得される。例えば、グラウンドトゥルースデータは、シミュレータ(例えば、コアシミュレータ)から、または、仮想世界に含まれている対象物についての情報を有している(または対象物データを格納している)任意のツール、モデル、または装置から取得される。グラウンドトゥルースデータは、画像データに対応する画像取り込み領域における対象物(例えば、他の車両、歩行者、物理的障害物など)の実際の分類、セグメンテーションなどを含むことができる。グラウンドトゥルースデータは、画像データにおいて、カメラ(例えば、カメラセンサモデル内のカメラセンサ)の視点から部分的に、または完全に隠されている対象物を含む、画像取り込み領域のすべての対象物をその全体において含んでいる。例えば、グラウンドトゥルースセグメンテーションは、駐車している車両の背後に位置している歩行者の全体を含むことができ、およびそれを分類できる。図8を参照すると、グラウンドトゥルースは、第2車両102が第1車両101の背後に位置していても、第2車両102の全体のセグメントを分類する。
図1に戻って参照すると、カメラの視点からの画像データにおける対象物の可視率が、ステップS102において決定される。
図2は、実施形態に係わる、対象物の可視率を決定するための方法のフローチャートを示している。図2を参照すると、対象物の全体のサイズ(つまり、隠されている何れの部分も含む、グラウンドトゥルースデータにおける元々のサイズ)がステップS201において決定される。対象物の全体のサイズは、実施形態に係わる種々の方法で決定できる。例えば、全体のサイズは、第1実施形態(図3を参照して下記に記述される)に従って対象物を個々に描画することにより決定でき、または、グラウンドトゥルースセグメンテーション(図4を参照して下記に記述される)を使用して決定できる。
図3は、第1実施形態に係わる、対象物の全体のサイズを取得する方法を例示しているフローチャートである。図3を参照すると、画像取り込み領域における対象物は、ステップS301において個々に完全に描画される。例えば、対象物は、コアシミュレータを介して作成または組み込まれた仮想世界に対する対象物定義を使用して描画できる。特別な目標対象物のみを個々に描画でき、または、画像取り込み領域における対象物のそれぞれをステップS301において個々に描画できるということは理解される。更に、特別な対象物のそれぞれを、実施形態に従って個々に描画できる。例えば、全体的に、および/または部分的に隠されている対象物を個々に描画でき、または、特別な分類を有している対象物(例えば、歩行者および/または車両)を種々の実施形態において個々に描画できる。次に、個々に描画された対象物の全体の領域が、ステップS302において計算でき、または取得できる。例えば、全体の領域は、描画された対象物を構成している画素の数を決定することにより、または、描画された対象物の境界を形成する多角形の領域を計算することにより取得できる。
図4は、第2実施形態に係わる、対象物の全体のサイズを取得する方法を例示しているフローチャートである。第2実施形態によれば、対象物の全体のサイズは、典型的なグラウンドトゥルースセグメンテーションを介して、ステップS201において決定できる。図4を参照すると、画像取り込み領域に対するグラウンドトゥルースセグメンテーションをステップS401において取得でき、各対象物、または1つ以上の特定の対象物の全体の領域は、ステップS402において計算または取得される。例えば、全体の領域は、グラウンドトゥルースセグメンテーションにおける対象物を構成している画素の数を決定することにより、または、グラウンドトゥルースセグメンテーションにおける対象物の境界を形成している多角形の領域を計算することにより取得できる。更に、画像セグメンテーションにおけるすべての対象物の領域を取得でき、関心のある対象物(例えば、部分的または全体的に隠されている特別な目標対象物)の領域のみを取得でき、または、特別な対象物(例えば、歩行者および/または車両などのような特別な分類を有している対象物、部分的に隠されている目標対象物、および/または、全体的に隠されている目標対象物)の領域のみを取得できる。
図2に戻って参照すると、画像データにおける対象物の可視領域(つまり、センサの視点からの)は、ステップS202において決定される。可視領域は、画像データの対象物セグメンテーションを利用することにより決定できる。この場合、画像データは正常に描画でき、そこにおける対象物の可視領域も描画される。そして、描画された画像における対象物の可視部分はセグメント化でき(例えば、グラウンドトゥルースセグメンテーションを利用することにより)、セグメント化された対象物の領域(つまり、可視領域)を決定できる。図5を参照すると、例えば、他の対象物11(歩行者)の背後で部分的に隠されている対象物12(駐車しているバン)の可視領域は、センサの視点からの対象物に対するセグメンテーション画像から計算できる。
描画された画像からの対象物の可視領域は、対象物の可視部分の画素の数を計算することにより、または、対象物の可視領域に類似しているサイズである多角形(例えば、対象物の可視領域の境界を形成している多角形)を計算することにより計算できる。しかし、対象物の可視領域を計算することはそれに制限されず、画像内の対象物の領域を計算するために利用できる任意の式またはアルゴリズムを含むことができる。ステップS201とS202は、如何なる順序でも実行でき、または同時に、実質的に同時に、または部分的に同時に実行できるということは理解される。
対象物の可視率はステップS203において決定される。可視率は、ステップS202において決定された対象物の可視領域のサイズを、ステップS201において決定された対象物の全体のサイズで割ることにより計算できる。例えば、対象物の可視部分の画素の数を、対象物の全体のサイズの画素の数で割ることができ、センサの視点から見ることができる対象物の割合(つまり、可視率)という結果になる。他の例として、可視率は、対象物の可視領域の多角形の領域(面積)を、対象物の全体のサイズの多角形の領域(面積)で割ることにより計算できる。
図1に戻って参照すると、可視率は、ステップS103においてグラウンドトゥルースデータを修正するために利用される。例えば、可視率が50%の場合、グラウンドトゥルースデータは、個々の対象物に対してこの率で修正される。この場合、インターセクションオバーユニオン(IOU(2つの領域の共通部分(インターセクション)を和集合(ユニオン)で割ったもので、2つの領域がどのくらい重なっているかを示す指標))、ミーンアヴェレッジプレシジョン(mAP(検出した物体の分類があっている程度を示す指標))、または他の評価測定基準は、可視率をグラウンドトゥルースデータに組み込むことができる。更に、可視率が0%の場合(また、所定の閾値未満の場合)、対象物はグラウンドトゥルースデータから省略できる。追加的に、実施形態によれば、対象物に対する所定の閾値未満(例えば、85%または75%未満)の可視率のみがグラウンドトゥルースデータを修正するために使用できる。
図6の例を参照すると、対象物2、3、および4に対する可視率は示されているように決定されている。つまり、対象物2と4は100%の可視率を有し、一方、対象物3は20%の可視率を有している。上述したように、対象物3の可視率は、第1実施形態に従って、その全体のサイズを計算するために対象物3を個々に描画することにより決定でき、または、第2実施形態に従って、画像取り込み領域(つまり、グラウンドトゥルースセグメンテーション)の全シーンに対するセグメンテーション画像からその全体のサイズを取得することにより決定できる。対象物3の全体のサイズは、300画素と決定できる。更に、対象物3の可視領域は、センサにより取り込まれた画像データにおける対象物をセグメント化することにより決定できる。この例においては、対象物3の可視領域は60画素と決定できる。そのため、20%の可視率は、可視領域(60画素)のサイズを、対象物の全体のサイズ(300画素)で割ることにより決定できる。
そして、グラウンドトゥルースデータは、図6における対象物2、3、および4のそれぞれに対する可視率に基づいて修正できる。この修正は、グラウンドトゥルースデータに含まれている対象物の隠された部分を明らかにし、それに従ってグラウンドトゥルースデータを修正する。修正されたグラウンドトゥルースデータは、機械学習モデルを使用して対象物検出の精度をテストするときに、機械学習モデルからの結果を評価する(例えば、修正されたグラウンドトゥルースデータを、機械学習モデルからの結果と比較することにより)ために利用でき、それにより、より精度の高いテストという結果になる。
図7は、実施形態に係わる、グラウンドトゥルースデータを修正するための装置700のブロック図である。装置700は、パーソナルコンピュータ、ラップトップコンピュータ、モバイル装置、ワークステーション、クライアント端末、サーバなどとして実現でき、または、それらの内部において実現できる。図7を参照すると、装置700は、命令および/またはソフトウェアコードを格納しているメモリ710と、図1から4を参照して上述した方法の1つ以上を実現するために、それらの命令および/またはコードを実行するように構成されているプロセッサ720(例えば、少なくとも1つのプロセッサ)を含んでいる。プロセッサ720は、特定用途向け集積回路(ASIC)、埋め込み型プロセッサ、マイクロプロセッサ、ハードウェア制御ロジック、ハードウェア有限状態機械(FSM)、デジタル信号プロセッサ(DSP)、ニューラルネットワークプロセッサ(NPU)などの少なくとも1つとして実現できる。プロセッサ720は、中央演算処理装置(CPU)、グラフィック処理ユニット(GPU)、メイン処理ユニット(MPU)などを含むことができる。追加的に、プロセッサ720は、1つ以上のプロセッサを含むことができる。
メモリ710は、フラッシュメモリなどのような半導体メモリ、ハードディスクなどのような磁気格納媒体などを含むことができる。メモリ710とは、プロセッサ110に通信可能に結合される任意の揮発性または不揮発性メモリ、リードオンリメモリ(ROM)、ランダムアクセスメモリ(RAM)、または、装置100に接続可能なメモリカード(例えば、マイクロSDカード、メモリスティック)を指すことができる。メモリ710は、装置700を動作させるための種々のソフトウェアモジュールまたはコードを格納でき、プロセッサ720は、メモリ710に格納されている種々のソフトウェアモジュールを実行することにより、装置700の動作を制御できる。つまり、メモリ710は、データの読み取り、記録、修正、消去、更新などを実行するためにプロセッサ720によりアクセスできる。更に、メモリ710は、実行可能な命令、コード、データオブジェクトなどを格納できる。
追加的に、装置700は、ディスプレイ730と入力インタフェース740を含むことができる。実施形態によれば、ディスプレイ730は、上記の画像の何れも出力できる。例えば、ディスプレイ730は、カメラの視点からの画像取り込み領域、個々に描画された対象物、および/または、グラウンドトゥルースセグメンテーションの画像データを出力できる。入力インタフェース740は、可視率を計算し、および/または、グラウンドトゥルースデータを修正する対象である、表示されている画像における目標対象物を選択するためのユーザ入力を受信できる。
ディスプレイ730は、液晶ディスプレイ(LCD)パネル、有機発光ダイオード(OLED)ディスプレイ、フレキシブルディスプレイ、タッチスクリーンディスプレイ、透明ディスプレイなどとして実現できる。プロセッサ720は、画像信号を表示するようにディスプレイ730を制御できる。
入力インタフェース740は、ユーザまたは他の装置からの入力を受信するように構成でき、プロセッサ720は、入力インタフェース740を通して、装置700の動作を制御するためのユーザコマンドを受信できる。入/出力インタフェース150は、例えば、マイクロフォン、カメラ、リモートコントローラ、キーボード、マウス、タッチスクリーンなどを含むことができる。
実施形態によれば、ここにおいて開示されている方法と装置は、コンピュータプログラム製品のソフトウェアとして提供できる。コンピュータプログラム製品は、機械読み取り可能格納媒体(例えば、コンパクトディスクリードオンリメモリ(CD-ROM))の形で配布でき、または、アプリケーション店を通してオンラインで配布でき、または装置間で直接配布できる。オンライン配布の場合、コンピュータプログラム製品の少なくとも一部(例えば、ダウンロード可能アプリケーション)は、製造業者のサーバ、アプリケーション店におけるサーバ、または中継サーバにおけるメモリなどのような格納媒体に一時的に、または、少なくとも一時的に格納できる。
開示の実施形態が上記に示され記述されてきたが、開示の実施形態は前述の特定の実施形態に制限されない。種々の修正、置換、および改良を、開示が属する技術分野においてこの技術における通常の技量を有する者により、付随する特許の請求範囲により請求されているような開示の精神から逸脱することなく行うことができるということは理解され得る。そのような修正、置換、および改良は、開示の保護される範囲内であり、開示の技術的思想または将来性とは無関係に解釈されるべきではないということは理解されるべきである。

Claims (18)

  1. 対象物検出機械学習モデルの精度をテストするための画像データのグラウンドトゥルースを修正するための方法であって、
    カメラ視点からの画像取り込み領域の画像データを取得することと、
    前記画像取り込み領域における対象物に関するグラウンドトゥルースデータを取得することと、
    前記取得した画像データに含まれている対象物の可視率を決定することと、
    前記決定された可視率に基づいて、前記グラウンドトゥルースデータを修正することと、
    を備えていることを特徴とする方法。
  2. 前記可視率を前記決定することは、
    前記対象物の全体のサイズを決定することと、
    前記取得した画像データにおける前記対象物の可視領域のサイズを計算することと、
    前記可視率を取得するために、前記可視領域の前記サイズを前記対象物の前記全体のサイズで割ることと、
    を備えていることを特徴とする請求項1に記載の方法。
  3. 前記対象物の前記全体のサイズを前記決定することは、
    前記対象物を個々に完全に描画することと、
    前記個々に描画された対象物の領域を計算することと、
    を備えていることを特徴とする請求項2に記載の方法。
  4. 前記対象物の前記全体のサイズを前記決定することは、
    前記画像取り込み領域の全シーンに対するグラウンドトゥルース対象物セグメンテーションを取得することと、
    前記グラウンドトゥルース対象物セグメンテーションにおける前記対象物の領域を計算することと、
    を備えていることを特徴とする請求項2に記載の方法。
  5. 前記取得した画像データにおける前記対象物の前記可視領域の前記サイズを前記計算することは、前記可視領域に含まれている画素の数を決定すること、または、前記可視領域の境界を形成する多角形の領域を決定することを備えていることを特徴とする請求項2に記載の方法。
  6. 前記画像取り込み領域の前記画像データを前記取得することは、自律運転シミュレータのカメラセンサモデルにより生成された前記画像データを取得することを備えていることを特徴とする請求項1~5のいずれか1項に記載の方法。
  7. 対象物検出機械学習モデルの精度をテストするための画像データのグラウンドトゥルースを修正するための装置であって、
    命令を格納しているメモリと、
    少なくとも1つのプロセッサを備え、前記少なくとも1つのプロセッサは、
    カメラ視点からの画像取り込み領域の画像データを取得し、
    前記画像取り込み領域における対象物に関するグラウンドトゥルースデータを取得し、
    前記取得した画像データに含まれている対象物の可視率を決定し、
    前記決定された可視率に基づいて、前記グラウンドトゥルースデータを修正する、
    ために前記命令を実行するように構成されていることを特徴とする装置。
  8. 前記少なくとも1つのプロセッサは更に、
    前記対象物の全体のサイズを決定し、
    前記取得した画像データにおける前記対象物の可視領域のサイズを計算し、
    前記可視率を取得するために、前記可視領域の前記サイズを前記対象物の前記全体のサイズで割る、
    ために前記命令を実行するように構成されていることを特徴とする請求項7に記載の装置。
  9. 前記少なくとも1つのプロセッサは更に、
    前記対象物を個々に完全に描画し、
    前記対象物の前記全体のサイズとして、前記個々に描画された対象物の領域を計算する、
    ために前記命令を実行するように構成されていることを特徴とする請求項8に記載の装置。
  10. 前記少なくとも1つのプロセッサは更に、
    前記画像取り込み領域の全シーンに対するグラウンドトゥルース対象物セグメンテーションを取得し、
    前記対象物の前記全体のサイズとして、前記グラウンドトゥルース対象物セグメンテーションにおける前記対象物の領域を計算する、
    ために前記命令を実行するように構成されていることを特徴とする請求項8に記載の装置。
  11. 前記少なくとも1つのプロセッサは更に、前記可視領域に含まれている画素の数を決定することにより、または、前記可視領域の境界を形成する多角形の領域を決定することにより、前記取得した画像データにおける前記対象物の前記可視領域の前記サイズを計算するために前記命令を実行するように構成されていることを特徴とする請求項8に記載の装置。
  12. 前記少なくとも1つのプロセッサは更に、自律運転シミュレータのカメラセンサモデルにより生成された前記画像データを取得するために前記命令を実行するように構成されていることを特徴とする請求項7~11のいずれか1項に記載の装置。
  13. 命令を記録している非一時的コンピュータ読み取り可能記録媒体であって、前記命令は、対象物検出機械学習モデルの精度をテストするための画像データのグラウンドトゥルースを修正するための方法を実行するために少なくとも1つのプロセッサにより実行可能であり、前記方法は、
    カメラ視点からの画像取り込み領域の画像データを取得することと、
    前記画像取り込み領域における対象物に関するグラウンドトゥルースデータを取得することと、
    前記取得した画像データに含まれている対象物の可視率を決定することと、
    前記決定された可視率に基づいて、前記グラウンドトゥルースデータを修正することと、
    を備えていることを特徴とする非一時的コンピュータ読み取り可能記録媒体。
  14. 前記可視率を前記決定することは、
    前記対象物の全体のサイズを決定することと、
    前記取得した画像データにおける前記対象物の可視領域のサイズを計算することと、
    前記可視率を取得するために、前記可視領域の前記サイズを前記対象物の前記全体のサイズで割ることと、
    を備えていることを特徴とする請求項13に記載の非一時的コンピュータ読み取り可能記録媒体。
  15. 前記対象物の前記全体のサイズを前記決定することは、
    前記対象物を個々に完全に描画することと、
    前記個々に描画された対象物の領域を計算することと、
    を備えていることを特徴とする請求項14に記載の非一時的コンピュータ読み取り可能記録媒体。
  16. 前記対象物の前記全体のサイズを前記決定することは、
    前記画像取り込み領域の全シーンに対するグラウンドトゥルース対象物セグメンテーションを取得することと、
    前記グラウンドトゥルース対象物セグメンテーションにおける前記対象物の領域を計算することと、
    を備えていることを特徴とする請求項14に記載の非一時的コンピュータ読み取り可能記録媒体。
  17. 前記取得した画像データにおける前記対象物の前記可視領域の前記サイズを前記計算することは、前記可視領域に含まれている画素の数を決定すること、または、前記可視領域の境界を形成する多角形の領域を決定することを備えていることを特徴とする請求項14に記載の非一時的コンピュータ読み取り可能記録媒体。
  18. 前記画像取り込み領域の前記画像データを前記取得することは、自律運転シミュレータのカメラセンサモデルにより生成された前記画像データを取得することを備えていることを特徴とする請求項13~17のいずれか1項に記載の非一時的コンピュータ読み取り可能記録媒体。
JP2023007371A 2022-03-07 2023-01-20 機械学習モデルの精度を調べるためのグラウンドトゥルースを修正するための装置と方法 Active JP7372488B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/687,860 US20230282002A1 (en) 2022-03-07 2022-03-07 Apparatus and method for modifying ground truth for checking accuracy of machine learning model
US17/687,860 2022-03-07

Publications (2)

Publication Number Publication Date
JP2023130300A JP2023130300A (ja) 2023-09-20
JP7372488B2 true JP7372488B2 (ja) 2023-10-31

Family

ID=87850865

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023007371A Active JP7372488B2 (ja) 2022-03-07 2023-01-20 機械学習モデルの精度を調べるためのグラウンドトゥルースを修正するための装置と方法

Country Status (3)

Country Link
US (1) US20230282002A1 (ja)
JP (1) JP7372488B2 (ja)
CN (1) CN116778283A (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018207365A1 (ja) 2017-05-12 2018-11-15 富士通株式会社 距離画像処理装置、距離画像処理システム、距離画像処理方法および距離画像処理プログラム
JP2019003554A (ja) 2017-06-19 2019-01-10 コニカミノルタ株式会社 画像認識装置、画像認識方法、および画像認識装置用プログラム
JP2019046095A (ja) 2017-08-31 2019-03-22 キヤノン株式会社 情報処理装置、情報処理装置の制御方法及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9842274B2 (en) * 2014-03-28 2017-12-12 Xerox Corporation Extending data-driven detection to the prediction of object part locations
JP6782108B2 (ja) * 2016-07-19 2020-11-11 大成建設株式会社 可視率算出装置
US10635844B1 (en) * 2018-02-27 2020-04-28 The Mathworks, Inc. Methods and systems for simulating vision sensor detection at medium fidelity
US11801861B2 (en) * 2020-04-01 2023-10-31 Nvidia Corporation Using image augmentation with simulated objects for training machine learning models in autonomous driving applications
GB202101254D0 (en) * 2021-01-29 2021-03-17 Five Ai Ltd Performance testing for robotic systems

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018207365A1 (ja) 2017-05-12 2018-11-15 富士通株式会社 距離画像処理装置、距離画像処理システム、距離画像処理方法および距離画像処理プログラム
JP2019003554A (ja) 2017-06-19 2019-01-10 コニカミノルタ株式会社 画像認識装置、画像認識方法、および画像認識装置用プログラム
JP2019046095A (ja) 2017-08-31 2019-03-22 キヤノン株式会社 情報処理装置、情報処理装置の制御方法及びプログラム

Also Published As

Publication number Publication date
CN116778283A (zh) 2023-09-19
US20230282002A1 (en) 2023-09-07
JP2023130300A (ja) 2023-09-20

Similar Documents

Publication Publication Date Title
KR102677044B1 (ko) 이미지 처리 방법, 장치 및 디바이스, 및 저장 매체
CN111161349B (zh) 物体姿态估计方法、装置与设备
EP3644277B1 (en) Image processing system, image processing method, and program
US11341653B2 (en) Apparatus and method for training model for image segmentation
CN111144242B (zh) 一种三维目标检测方法、装置及终端
US10679099B2 (en) Method and apparatus for a manifold view of space
US10891795B2 (en) Localization method and apparatus based on 3D color map
WO2019183087A1 (en) Data augmentation using computer simulated objects for autonomous control systems
CN108121997A (zh) 使用机器学习模型的图像数据中的对象分类
CN109101690A (zh) 用于渲染车辆自动驾驶模拟器中的场景的方法和装置
US11748937B2 (en) Sub-pixel data simulation system
CN108122239A (zh) 使用深度分割的图像数据中的对象检测
US10165168B2 (en) Model-based classification of ambiguous depth image data
US11748998B1 (en) Three-dimensional object estimation using two-dimensional annotations
GB2550037A (en) Method and system for virtual sensor data generation with depth ground truth annotation
CN111091038A (zh) 训练方法、计算机可读介质和检测消失点的方法及装置
WO2022193604A1 (en) Devices, systems, methods, and media for point cloud data augmentation using model injection
CN115362478A (zh) 用于标记图像之间的空间关系的强化学习模型
CN114830177A (zh) 电子设备和用于控制该电子设备的方法
US20230377160A1 (en) Method and electronic device for achieving accurate point cloud segmentation
JP7372488B2 (ja) 機械学習モデルの精度を調べるためのグラウンドトゥルースを修正するための装置と方法
GB2605621A (en) Monocular depth estimation
JP6481596B2 (ja) 車両用ヘッドアップディスプレイの評価支援装置
US20230186512A1 (en) Electronic device and method for obtaining three-dimensional (3d) skeleton data of user's hand photographed using plurality of cameras
CN112926378B (zh) 一种车辆侧边棱确定方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230120

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20230516

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231019

R150 Certificate of patent or registration of utility model

Ref document number: 7372488

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150