JP2023513385A - 画像分類器を評価するための方法及び装置 - Google Patents

画像分類器を評価するための方法及び装置 Download PDF

Info

Publication number
JP2023513385A
JP2023513385A JP2022549288A JP2022549288A JP2023513385A JP 2023513385 A JP2023513385 A JP 2023513385A JP 2022549288 A JP2022549288 A JP 2022549288A JP 2022549288 A JP2022549288 A JP 2022549288A JP 2023513385 A JP2023513385 A JP 2023513385A
Authority
JP
Japan
Prior art keywords
image
classifier
robot
image classifier
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022549288A
Other languages
English (en)
Other versions
JPWO2021165077A5 (ja
JP7473663B2 (ja
Inventor
リッテル ミヒャエル
エーラーキング イェンス
グラディッシュ クリストフ
グロー コンラート
ウィラーズ オリヴァー
サドホルト セバスティアン
ヴェールレ マティアス
ハインツェマン クリスティアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of JP2023513385A publication Critical patent/JP2023513385A/ja
Publication of JPWO2021165077A5 publication Critical patent/JPWO2021165077A5/ja
Application granted granted Critical
Publication of JP7473663B2 publication Critical patent/JP7473663B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0014Image feed-back for automatic industrial control, e.g. robot with camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/06Recognition of objects for industrial automation

Abstract

本発明は、画像分類器(60)を評価するためのコンピュータ実装による方法であって、少なくとも部分的に自律型のロボット(100、220)を制御するために、画像分類器(60)の分類器出力(y)が用いられる、方法に関する。当該評価方法は、第1のデータセットを求めるステップ(300)であって、第1のデータセットは画像データを含み、画像データにアノテーションが割り当てられており、アノテーションは、個々の画像において描写されたシーン、及び/又は、分類されるべき画像領域、及び/又は、ロボット(100、220)の運動情報に関する情報を含む、ステップ(300)と、アノテーションに基づき、ロボット(100、220)により到達可能なシーンの領域(212)を求めるステップ(301)と、画像分類器により分類されるべき画像領域について関係値を求めるステップ(302)と、画像分類器により、第1の画像データセットの画像データを分類するステップ(303)と、画像分類器(60)により正しく分類された画像領域と、誤って分類された画像領域と、対応する画像領域の計算された関係値とに基づき、画像分類器を評価するステップ(304)と、を含む。

Description

本発明は、画像分類器を評価するための方法、画像分類器をトレーニングするための方法、画像分類器を動作させるための方法、トレーニング装置、コンピュータプログラム、制御システム及び機械可読記憶媒体に関する。
背景技術
Matthias Althoff著の学術論文「Reachability Analysis and its Application to the Safety Assessment of Auto-nomous Cars(ミュンヘン工科大学、2010年)」には、自律型車両の到達可能領域を特定するための方法が開示されている。
Matthias Althoff著の学術論文「Reachability Analysis and its Application to the Safety Assessment of Auto-nomous Cars(ミュンヘン工科大学、2010年)」
発明の利点
画像分類器は、少なくとも部分的に自律型及び/又は可動型のロボットを動作させるための鍵となる技術を成している。データから学習させられた画像分類器、特にニューラルネットワークは、現在のところ、最良の分類性能をもたらすということが判明している。
しかしながら、このような機械学習に基づく画像分類器の検査は困難なものとなっており、それというのも、画像分類器がどのようにしてその分類に至るのかが明白でないことが多いからである。特に安全上重大な用途において、機械学習に基づく画像分類器を含む製品がその環境内において安全に行動するということを確実に判定することが、この特性によって困難になる。
独立請求項1に記載の特徴を備えた方法の利点とは、画像分類器の動作の仕方についての洞察が得られることである。特にこの方法によれば、安全上の観点から重要である、画像分類器が認識すべき画像の要素を求めることができる。これにより、分類器の分類精度について洞察することができる。逆に言えば、画像分類器の出力基づき自身のナビゲーションを行う可動型ロボットが、自身を動作させ得るために十分に安全であるか否かについて、判定することができるようにする目的で、この方法を用いることができる。
発明の開示
第1の態様によれば、本発明は、画像分類器を評価するためのコンピュータ実装による方法に取り組むものであって、少なくとも部分的に自律型のロボット(100、220)を制御するために、画像分類器の分類器出力が供給され、この評価方法は、以下のステップ、即ち、
・第1のデータセットを求めるステップ(300)であって、この第1のデータセットは複数の画像を含み、これら複数の画像にアノテーションが割り当てられており、これらのアノテーションは、個々の画像において描写されたシーン、及び/又は、分類されるべき画像領域、及び/又は、ロボット(100、220)の運動情報に関する情報を含むステップ(300)と、
・アノテーションに基づき、ロボット(100、220)により到達可能なシーンの領域(212)を求めるステップ(301)と、
・画像分類器により分類されるべき画像領域について関係値を求めるステップ(302)と、
・画像分類器により、第1の画像データセットの画像を分類するステップ(303)と、
・画像分類器(60)により正しく分類された画像領域と、誤って分類された画像領域と、対応する画像領域の計算された関係値とに基づき、画像分類器を評価するステップ(304)と、
を含む。
画像分類器とは、これが画像(画像データともいう)を受け取ることができ、画像データ又はその一部分を特徴づける分類出力を生成することができるように構成された装置であると解することができる。例えば、入力画像のどの部分に物体が存在するのかを特定する目的で、画像分類器を用いることができる。例えば、自律型車両のような可動型ロボットの場合には、画像分類器を、これが他の道路利用者を検出するように用いることができる。次いで、対応する分類器出力を、ロボットを制御するために用いることができる。例えば、分類器出力を用いて、ロボットが衝突することなく自身の環境を通って移動する軌跡を特定することができる。即ち、好ましくは、画像データは、ロボットの周囲を示す。
物体検出のほか、画像分類器を、他の分類タスクのために、例えばセマンティックセグメンテーションのために用いることもできる。この場合、画像分類器は、入力画像内の所望の各ポイントを、例えば、カメラ画像の各ピクセルを、望ましいクラスに分類する。このことを例えば、可動型ロボットが入力画像に基づき、周囲の走行可能領域の境界を認識し、それに基づき軌跡をプラニングするために用いることができる。
画像分類器は、例えばニューラルネットワークのような、機械学習の分野に属するモデルを含み得る。画像分類器の入力を分類するために、このモデルを用いることができる。さらに画像分類器は、前処理プロセス及び/又は後処理プロセスを行うことができる。物体検出の場合、後処理プロセスを、例えばNon-Maximum Suppresionとすることができ、これを用いて同一の物体の様々なバウンディングボックスを融合することができる。
画像分類器のために、入力データとして種々の形式の画像を用いることができ、特にセンサデータ、例えば、カメラセンサ、レーダセンサ、LIDARセンサ、超音波センサ又は赤外線カメラセンサからのセンサデータを用いることができる。マイクロフォンによるオーディオ録音も、画像データとして表現して、例えばスペクトル画像の形態において、分類器のための入力として用いることができる。さらに想定されることは、画像分類器のために1つの入力データを取得するために、複数の種類のセンサデータを組み合わせることができる、ということである。
また、選択的に、画像データを、コンピュータ支援処理によって合成して生成することができる。例えば、物理的なモデルに基づき、画像を計算又はレンダリングすることができる。
画像分類器のための入力に用いられる画像は、センサによって直接撮影して、画像分類器に転送することができる。選択的に、画像データは、分類前に撮影又は生成し、次いで、好ましくは、記憶媒体に一時記憶してから、それらを画像分類器に転送することができる。この場合には、記憶媒体として、特に、ハードディスク、フラッシュドライバ又は固体ディスクを用いることができる。画像データをダイナミックメモリに保持することもできる。
画像分類器の出力に基づき、少なくとも部分的に自律型のロボットを制御可能な制御信号を求めることができる。少なくとも部分的に自律型のロボットとは、少なくとも一時的に人間の制御なしでタスクを自主的に実施するロボットであると解することができる。この目的で、ロボットは、例えば、センサ及びアクチュエータを用いることができる。部分的に自律的なロボットを、例えば、自律走行車両、芝刈りロボット、掃除ロボット又はドローンとすることができる。以下においては、ロボットという用語は、少なくとも部分的に自律型のロボットであると解される。
この方法のためには、第1の画像データセットが必要とされ、この第1の画像データセットを用いて評価を実施することができる。画像データセットとは、複数の画像データから成る集合であると解することができ、その際に画像データにアノテーションの形態で固有の情報を対応づけることができる。この場合、画像データのアノテーションとは、画像データ若しくはその一部分を記述する情報、又は、画像に関するさらに他の付加的な情報を含む情報から成る集合であると解することができる。
画像データは、物体を含む可能性のあるシーンを描写することができる。1つ又は複数のセンサによって撮影された画像データの場合、シーンとは現実世界の状況、特にロボット周囲の状況であると解することができる。例えば、シーンは、道路状況における複数の物体から成る集合を表現することができる。物体とは、この場合においては、例えば、他の交通利用者であると解することができる。
合成されて生成された画像データの場合には、シーンとは、画像データを合成したときに基礎とした仮想世界であると解することができる。この場合においては、物体は、シーンの仮想要素であると解することができる。
画像データにアノテーションを対応づけることができ、この場合、アノテーションは、それぞれ描写されたシーン及び/又は画像領域に関する情報を含み得る。例えば、アノテーションは、画像データにおいて描写された物体のポジションを記述する複数のバウンディングボックスから成る集合を含み得る。選択的に又は付加的に想定されることは、アノテーションは、画像データのピクセルのクラスに関するピクセル精度の情報(即ち、セマンティックセグメンテーション)を含むということである。
選択的に又は付加的に想定されることは、アノテーションは、固有の画像データの撮影時に発生していた天候及び/又は環境の影響、例えば、雨、日射、時刻又はグラウンドコンディションの情報を含む、ということである。
選択的に又は付加的に想定されることは、アノテーションは、画像が撮影されたシーンに関する情報を含むということである。現実のシーンの場合には、アノテーションは、例えば、シーンの他の物体と対比したセンサの相対ポジションに関する情報を含み得る。画像データ(例えばカメラ画像)において二次元で描写されている物体の三次元ポジションを特定するために、この情報を後で利用することができる。選択的に、シーンにおける物体の三次元のポジション情報がそのまま、例えば、物体に対するセンサの相対ベクトルの形態でアノテーションに含まれる、ということも考えられる。
この方法のために、好ましくは、後のロボットと一致する又は類似するシステムが記録のために用いられるように、第1の画像データセットを選択することができる。例えば、自律型車両において用いられることになる画像分類器を評価するために、所望の画像データを車両のセンサにより記録することができるように、テストドライバが車両を操縦するというようにして、第1の画像データセットを撮影することができる。選択的に想定されることは、画像分類器を評価すべき対象である車両とセンサ機構が構造的に同等の車両によって、第1のデータセットが撮影される、ということである。
選択的に想定されることは、第1の画像データセットがコンピュータ支援によるモデルによって合成されて生成されるということである。この場合には、モデルを、好ましくは、このモデルが形状、物理特性及びセンサ機構についてロボットに少なくとも類似するように、選択することができる。この場合においては、シーンを、仮想の物体の配置及び特性の組合せとして解することができ、それらを用いて合成画像データを生成することができる。
選択的に、第1の画像データを既存のソースから取得することもできる。例えば、任意にアクセス可能な一連のデータセットがインターネットに存在しており、画像分類器を評価する目的で、それらのデータセットを利用することができる。
この方法のために必要とされるアノテーションを、手動により又は少なくとも半自動的に、種々の画像データのために生成することができる。好ましくは、アノテーションには、画像データの分類されるべき要素と、記録に用いられる/用いられたシステムとに関する相対的な情報が含まれる。例えば、車両を、この車両がカメラに基づく画像データセットを撮影可能であるように構成することができ、次いで、この画像データセットを、その車両又は構造的に同等の車両において後で用いられることになる画像分類器の評価に用いることができる。この場合において、画像データのアノテーションは、例えば、車両周囲において検出されるべき物体のバウンディングボックスを含み得る。付加的にこれらのアノテーションは、固有の画像データにおいて認識されるべき物体が、車両と対比していずれのポジションを有するのかに関する情報を含み得る。これらの情報を、物体の関係値を特定するために後で利用することができる。
選択的に、合成により生成された画像データの場合に、合成されたモデルのモデルデータをそのまま、情報としてアノテーションに採用することができる。例えば、前段で述べたデータを、コンピュータにより相応にシミュレートすることができる。このためには、センサの仮想モデルが、さらにはシミュレートされたシーンにおけるそのセンサのポジションが必要とされる。後で画像分類器により認識されることになるシミュレートされた物体のこのポジション及び/又はこれらのポジションを、この場合においては、そのままアノテーションに共に採用することができる。
しかも、好ましくは、アノテーションは、例えば、ロボットの速度、加速度、操舵角、駆動調整、又は、プラニングされた軌跡に関する情報を含み、その際にこれらの情報各々は、画像データの撮影時点において発生している又は発生していた値を描写する。これらの情報は、好ましくは、理に適っている限りは、シーンの物体に関してもアノテーションに含まれる。
次いで、運動情報を用いて、ロボットが撮影時点において決められた時間内に到達している可能性のあるシーンの領域を求めることができる。これらの領域を、他の物体とのタイム・トゥ・コリジョン及び/又はタイム・トゥ・リアクト及び/又はタイム・トゥ・ブレーキ及び/又はタイム・トゥ・ステア及び/又はタイム・トゥ・キックダウンを用いて、求めることができる。これらの領域を安全上重大な領域であると解することができ、これらの領域において、ロボットは、例えば安全な軌跡をプラニングする目的で、他の物体を高い精度及び信頼性で認識可能でなければならない。
分類されるべき画像領域を、画像データの少なくとも一部分であると解することができ、この少なくとも一部分について画像分類器は、当該画像領域によって描写されている特定の物体又は特定のクラスを叙述することになる。物体検出の場合には、分類されるべき領域を、画像分類器によって検出されるべき物体の描写であると解することができる。セマンティックセグメンテーションの場合には、画像領域を画像のピクセルであると解することができ、その際に各ピクセルに物体を対応づけることができる。
次いで、分類されるべき画像領域に関係値を対応づけることができる。好ましくは、分類されるべき各領域に1つの関係値が与えられる。この場合、関係値とは、この画像領域についての画像分類器の検出失敗が、画像分類器を使用するロボットの挙動にとって、どの程度重大になる可能性があるかを表す値であると解することができる。例えば、ロボットからかなり遠く離隔した物体を描写する画像領域には、低い関係値を対応づけることができる。これに対し、ロボットに近い物体を描写する画像領域には、高い関係値を与えることができ、それというのも、それらの物体の検出失敗は、ロボットに、より大きい影響を及ぼすことになるからである。
関係値は、スカラ値によって表すことができる。この場合、関係値は、バイナリ又は実数値とすることができる。
次いで、分類されるべき画像領域のすべて又は一部分について、それらが画像分類器により正しく分類されたか否かを判定することができる。次いで、好ましくは、誤って分類された画像領域の関係値に基づき、画像分類器の評価を行うことができる。例えば、この評価を、誤って分類された領域の関係値の合計又は平均の形態において行うことができる。
このアプローチの利点は、画像分類器をロボットの制御の一部分として使用可能か否かの判定を下す目的で用いることができる数値による客観的な値を特定できる、ということである。これによって、上述の画像分類器の動作の仕方について細分化された洞察が可能となる。これはかなりの改善であり、その理由は、特に機械学習に基づく画像分類器は、ブラックボックスの挙動を有しており、これは、他の方法では、満足し得るように見通すことができないからである。
本発明の第1の態様において、さらに想定されることは、分類されるべき領域がそれぞれ1つの物体に対応づけられる、ということである。
このアプローチの利点は、画像領域の関係によって物体の関係を反映させることができるということである。これによって、画像領域に基づき、あるシーンにおける物体の関係を評価することができる。逆に言えば、これによって、あるシーンにおける物体を認識するための画像分類器の挙動について、詳細化された洞察が可能となる。
本発明の第1の態様において、さらに想定されることは、ロボットにより到達可能な領域を求めるステップがロボットの運動情報に基づく、ということである。
例えば、速度又は加速度といったロボットの運動情報によって、ロボットはそもそもシーンのどの領域に移動する可能性がありそうであるのかを特定することができる。よって、ロボットが、例えば物体と衝突しないようにロボットを制御する目的で、この領域にある物体を高い精度で予測し得ることが望ましい。運動情報を、存在する場合には、アノテーションから抽出することができ、又は、画像データを用いて推定することができる。例えば、ロボットの速度を推定するために、第1の画像データセットの相前後する複数の画像を用いることができる。例えば、定置型の製造ロボットの場合においては、ロボットの到達可能領域に関する情報を、ロボットのデータシートから取得することもできる。
従って、このアプローチの利点は、画像分類器が物体を確実に認識し得ることが望ましい領域を特定することができるということである。シーンの他の領域を、あまり重要ではない又は重要ではないものとすることができるので、かくしてこの方法によれば、画像分類器の動作の仕方について詳細化されかつ目的に適った洞察が可能となり、さらに評価によって、画像分類器の認識性能(パフォーマンスともいう)の改善された査定が可能となる。公知の方法の場合には、画像分類器の認識性能が1つの画像のすべての画像領域において査定されることから、このことは重要である。よって、求められた到達可能領域に関して、ロボットの認識性能を、確実で誤りのない動作に関して著しく改善して評価することができる。
本発明の第1の態様において、さらに想定されることは、関係値を求めるステップが、以下のステップ、即ち、
・物体の立体情報を求めるステップと、
・求められた立体情報に基づき、到達可能領域に対する物体ポジションの関係を特定するステップと、
・この関係に基づき関係値を求めるステップと、
を含む、ということである。
このアプローチの利点は、対応する物体が実際にロボットと安全上重大な相互作用をする可能性がある場合には、画像領域に、例えばゼロではない関連値を割り当てることができる、ということである。例えば、ロボットが例えば時速30kmよりも速く走行することはできず、かつ、認識されるべき歩行者が例えば500mよりも遠くに離隔している場合には、ロボットの軌跡プラニングに関して、歩行者の認識は安全上重大な尺度の下では重要でない。逆に言えば、ここで説明した方法によれば、画像分類器の挙動を、ロボットの安全性に関してかなり精度を高めて評価することができる。
本発明の第1の態様において、さらに想定されることは、画像分類器を評価するステップは、評価量を特定するステップを含み、さらにその際に、画像分類器を評価するための方法は、以下の付加的なステップ、即ち、
・評価量が予め定められた評価閾値よりも悪い場合には、第2の画像データセットに基づき画像分類器を再トレーニングするステップ
を含む、ということである。
例えば、評価量を、画像分類器の性能が悪くなればなるほど評価量が大きくなるように、選定することができる。即ち、このケースでは、評価量が評価閾値よりも大きい場合には、再トレーニングされることになる。
上述のように評価量を、例えば、誤って分類されたすべての画像領域の関係値の合計又は平均とすることができる。
画像分類器の再トレーニングとは、画像分類器の認識精度が第2の画像データセットを用いることによってさらに改善されるように、この第2の画像データセットを用いて画像分類器のパラメータを整合させるという方法であると解することができる。この目的において、第2の画像データセットもやはりアノテーションを含み得るものであり、パラメータを整合させるために、それらのアノテーションを教師あり学習方法によって使用することができる。この場合、第2の画像データセットを、第1の画像データセットと同様の方法により求めることができる。さらに想定されることは、第2の画像データセットは少なくとも、第1の画像データセットの画像データ及び/又はアノテーションの一部分を含む、ということである。
このアプローチの利点は、改善された認識精度によって、ロボットの安全性、ひいては認識性能を格段に高めることができる、ということである。これによって、システム全体の改善がもたらされ、これは現実世界において、より良好にかつ確実に機能する。
本発明の第1の態様において、さらに想定されることは、予め定められた回数の反復が実施されるまで、及び/又は、予め定められた評価閾値よりも小さくなるまで、既述のステップを反復して繰り返す、ということである。
このアプローチの利点は、画像分類器を現実の製品において動作させることができるために画像分類器の認識性能が十分なものとなるまで、この認識性能を改善することができる、ということである。付加的にこのアプローチによってもたらされる利点とは、現在のところ、十分である評価結果をさらに改善することができ、そのようにすれば、画像分類器の認識精度に関して、所定の安全バッファを達成することができる、ということである。さらに想定されることは、認識性能をさらに高める目的で、それぞれの反復同士で異なる第2の画像データセットによって画像分類器が再トレーニングされる、ということである。
ここで説明した反復動作において、第1の画像データセットの画像データを、第2の画像データセットの少なくとも一部分のために用いることができる。好ましくは、反復のたびに第1の画像データセットから画像を除去し又は交換することができる。さらに、反復のたびに第2の画像データセットから画像を除去し又は交換することができる。第1及び/又は第2の画像データセットにおいて画像データの交換が行われる場合、好ましくは、アノテーションが新たな画像データに関する情報を含むように、アノテーションを変更することができる。
本発明の第1の態様において、さらに想定されることは、画像分類器の再トレーニングが、第2の画像データセットの画像領域の関係値に基づいて実施される、ということである。
このアプローチの利点は、評価の視点からトレーニングにおいてあまり重要ではない画像領域又は全く重要ではない画像領域を、それらが画像分類器のトレーニングにわずかな影響しか及ぼさないように又は全く影響を及ぼさないように、重み付けることができる、ということである。その結果として、画像分類器のトレーニングが簡単になり、逆に言えば、このことによって、画像分類器の認識性能が著しく高められる。さらに、その結果として、このようにトレーニングされた画像分類器がロボットの制御部の一部分として用いられる場合に、システム全体の性能が高められる。
次に、添付の図面を参照しながら、本発明の実施形態について詳細に説明する。
画像分類器を評価するための方法のフローチャートを概略的に示す図である。 制御システムを概略的に示す図である。 制御システムにより制御される自律型車両を概略的に示す図である。 制御システムにより制御される製造ロボットを概略的に示す図である。
実施例の説明
図1には、画像分類器(60)を評価するための方法のフローチャートが示されている。この実施例によれば、画像分類器(60)は、これが高速道路状況において車両を認識し得るように構成されており、ここで、分類器出力(y)には、バウンディングボックスが含まれる。
第1のステップ(300)において、画像データセットが求められる。このステップは、例えば、画像データを撮影するために適したカメラが設置されているテスト車両を用いて行うことができる。この実施例によれば、画像データセットは、車両が認識されるべき高速道路状況の画像データを示す。さらに、この実施例によれば、画像データセットの撮影中に、個々の画像撮影時点に生じている速度及び操舵角といった車両データが、画像データにそれぞれ対応づけられている。選択的に、これらの車両データを、撮影された画像データから撮影後に推定することもできる。
このようにして求められた画像データセットには、次いで、人間による手動によってアノテーションが付けられる。選択的に、手動によるアノテーションの代わりに、ここでは第2の画像分類器を用いて半自動アノテーションを実施することもできる。この場合においては、第2の画像分類器がアノテーションを提案し、それらのアノテーションを人間がチェックし、必要に応じて変更することができる。さらに選択的に想定されることは、第2の画像分類器の提案がそのままアノテーションとして用いられるというようにして、第2の画像分類器がアノテーションを全自動で実施する、ということである。
この実施例によれば、生成されたアノテーションは、それぞれ撮影された画像データにおける他の車両、画像中のそれらの車両のバウンディングボックス、並びに、カメラの組み込みポジション及び配向に関する情報を含む。他の実施例おいて想定されることは、アノテーションが付加的に、対応して検出されるべき車両のポジション、配向、速度、及び/又は、走行方向といった三次元情報を含む、ということである。
次いで、第2のステップ(301)において、画像データセットの画像についてそれぞれ、テスト車両が画像の撮影時点において規定された時間内にいずれの領域に到達している可能性があるのかが特定される。時間として、ここでは例えば、タイム・トゥ・リアクトを用いることができる。選択的に想定されることは、タイム・トゥ・リアクトの代わりに、タイム・トゥ・コリジョン、タイム・トゥ・ブレーキ、タイム・トゥ・ステア若しくはタイム・トゥ・キックダウン、又は、これらの時間の組合せを用いる、ということである。
到達可能領域の計算は、アノテーションにおける速度情報及び車両ポジションに関する情報を用いて行われる。その結果は、車両が画像データの撮影時点において、その画像データが撮影されたシーンにおいて、決められた時間内にいずれの領域に到達している可能性があるのかに関する情報である。
第3のステップ(302)において、画像データの他の車両について関係値が特定される。このために、アノテーションが付けられたバウンディングボックスとカメラセンサの組み込みポジションとに基づき、他の車両の三次元ポジションが求められる。選択的に、これらの情報が存在していないときに、これらをアノテーションから直接引き出すこともできる。
関係値を、先行のステップにおいて特定された領域のうちの1つに存在しているすべての車両について1として定義することができ、そうでない場合には、0として定義することができる。選択的に、車両が先行のステップにおいて特定された領域外に存在しているときに、車両に0から1までの間の値を割り当てる、ということが可能である。さらに、選択的に想定されることは、先行のステップにおいて特定された領域のうちの1つの中にある車両にも0から1までの間の値を割り当てる、ということである。さらに想定されることは、物体の関係値が物体の速度及び軌跡にも依存する、ということである。例えば、到達可能領域外の物体にも、その物体が例えば、対応する到達可能領域に向かって移動している場合には、0より大きい関係値を与えることができる。
第4のステップ(303)において、第1の画像データセットの画像データが画像分類器(60)によって分類される。分類に際して、画像データ内において1つの車両が検出され、即ち、適正に分類される又は分類されない可能性がある。
第5のステップ(304)において、画像分類器(60)の認識精度が評価される。評価量として、検出されなかった車両に属する関係値の合計を用いることができる。選択的に想定されることは、関係値の平均値又はメジアンも評価量として用いることができる、ということである。
評価量が予め定められた評価閾値よりも悪い場合には、第6のステップ(305)において、第2の画像データセットを用いて画像分類器(60)を再トレーニングすることができる。この実施例において、例えば、想定されることは、評価閾値がゼロとして定義される、ということである。このことは、0よりも大きい関連を有するすべての車両は認識されなければならない、という命題と同様の意味を持つ。このことが生じない場合には、画像分類器が再トレーニングされる。この場合においては、第1の画像データセットを求めるためにも用いることができる方法のうちの1つに従って、第2の画像データセットを求めることができる。評価量が評価閾値を満たしている場合には、画像分類器(60)を許容することができる。
他の実施例において想定されることは、評価量が閾値を満たすまで、画像分類器を評価するステップ(300、301、302、303、304、305)を反復して繰り返す、ということである。
他の実施例において想定されることは、事前に定義された回数の反復が成し遂げられるまで、画像分類器を評価するステップ(300、301、302、303、304、305)を反復して繰り返す、ということである。
図2には、アクチュエータ(10)がその周囲(20)において制御システム(40)とインタラクションしている状態で示されている。好ましくは、規則的なタイムインターバルで、周囲(20)がセンサ(30)によって、特にビデオセンサのような画像生成センサによって検出され、そのようなセンサを複数のセンサによって構成することもでき、これは、例えばステレオカメラである。センサ(30)のセンサ信号(S)、又は、複数のセンサの場合にはそれぞれ1つのセンサ信号(S)は、制御システム(40)に伝達される。かくして制御システム(40)は、一連のセンサ信号(S)を受信する。制御システム(40)は、それらから制御信号(A)を求め、これがアクチュエータ(10)に伝送される。
制御システム(40)は、センサ(30)の一連のセンサ信号(S)を任意選択的な受信ユニット(50)において受信し、この受信ユニット(50)は、一連のセンサ信号(S)を一連の入力画像(x)に変換する(選択的に、それぞれセンサ信号(S)を入力画像(x)として直接引き継ぐこともできる)。入力信号(x)は、例えば、センサ信号(S)の抜粋又はさらに処理したものとすることができる。入力画像(x)は、ビデオ記録の個々のフレームを含む。換言すれば、入力画像(x)は、センサ信号(S)に依存して求められる。一連の入力画像(x)は、画像分類器(60)に供給され、この画像分類器(60)は、例えば、第1の実施例の場合のように評価されたものであり、その評価量が評価閾値よりも小さかったものである。
画像分類器(60)は、好ましくは、パラメータメモリ(P)に格納されていてそこから供給されるパラメータ(φ)によってパラメータ化される。
画像分類器(60)は、入力画像(x)から分類器出力(y)を求める。分類器出力(y)は、任意選択的な変換ユニット(80)に供給され、この変換ユニット(80)は、そこから制御信号(A)を求め、この制御信号(A)は、アクチュエータ(10)を対応して制御する目的でアクチュエータ(10)に供給される。分類器出力(y)は、センサ(30)により検出された物体に関する情報を含む。
アクチュエータ(10)は、制御信号(A)を受信し、それに応じて制御され、対応する動作を実施する。アクチュエータ(10)は、この場合、(必ずしも構造的に統合されてはいない)制御ロジックを含み得るものであり、この制御ロジックは、制御信号(A)から第2の制御信号を求め、次いで、この第2の制御信号によってアクチュエータ(10)が制御される。
他の実施形態によれば、制御システム(40)は、センサ(30)を含む。さらに他の実施形態によれば、制御システム(40)は、選択的に又は付加的に、アクチュエータ(10)も含む。
他の好ましい実施形態によれば、制御システム(40)は、1つ又は複数のプロセッサ(45)と、少なくとも1つの機械可読記憶媒体(46)とを含み、この記憶媒体(46)には、プロセッサ(45)において実行されるときに、本発明に係る方法を制御システム(40)に実施させるための命令が記憶されている。
選択的な実施形態によれば、アクチュエータ(10)に対して、選択的に又は付加的に、表示ユニット(10a)が設けられている。
図3には、少なくとも部分的に自律型のロボット、ここでは少なくとも部分的に自律型の自動車(100)を制御するために、制御システム(40)をどのように使用することができるのかについて示されている。
センサ(30)を、例えば、好ましくは、自動車(100)に配置されたビデオセンサとすることができる。
画像分類器(60)は、入力画像(x)から物体を識別するように構成されている。
好ましくは、自動車(100)に配置されたアクチュエータ(10)を、例えば、自動車(100)のブレーキ、駆動装置又は操縦装置とすることができる。この場合に制御信号(A)を以下のように求めることができる。即ち、特に物体が特定のクラス、例えば歩行者である場合に、自動車(100)が、例えば画像分類器(60)により識別された物体との衝突を回避するように、1つ又は複数のアクチュエータ(10)が制御されるように、求めることができる。
選択的に、少なくとも部分的に自律型のロボットを、他の可動型ロボット(図示せず)とすることができ、例えば、飛行、水上航行、潜水又は歩行によって前進するようなロボットとすることができる。可動型ロボットは、例えば、少なくとも部分的に自律型の芝刈り機又は少なくとも部分的に自律型の掃除ロボットとすることができる。この場合においても、制御信号(A)を以下のように求めることができる。即ち、少なくとも部分的に自律型のロボットが、例えば、画像分類器(60)により識別された物体との衝突を回避するように、可動型ロボットの駆動装置及び/又は操縦装置が制御されるように、求めることができる。
選択的に又は付加的に、制御信号(A)によって表示ユニット(10a)を制御することができ、例えば、求められた安全な領域を表示することができる。例えば、操縦が自動化されていない自動車(100)の場合に、自動車(100)が画像分類器(60)によって識別された物体のうちの1つと衝突しそうである、ということが特定されたときに、表示ユニット(10a)が視覚的又は聴覚的な警告信号を送出するように、表示ユニット(10a)が制御信号(A)によって制御される、ということも可能である。
図4には、例えばPUMAロボットなどのような製造ロボット(220)を制御するために、制御システムをどのように使用することができるかについて示されており、この場合、製造ロボット(220)の作業スペース(212)には、人間(210)も立ち入る可能性がある。ここでは、以下のことが考えられる。即ち、この実施例によれば、制御システム(40)は、カメラセンサ(30)から画像データを受け取り、これに基づきアクチュエータ(10)を制御し、その際に、アクチュエータ(10)は、製造ロボット(220)の運動及び製造ロボット(220)のアーム終端にあるグリッパを駆動し、それによって被加工物(211a、211b)を把持することができる。
しかも、カメラセンサ(30)の画像データを介して制御システム(40)は、内部に設けられている画像分類器(60)を用いて、製造ロボット(220)の作業スペース(212)内に存在する人間(210)を認識することができる。1人又は複数の人間(210)が作業スペース(212)内において認識された場合には、製造ロボット(220)が1人又は複数の人間(210)に触れたり負傷させたりしないように、製造ロボット(220)の運動を制御システム(40)によって整合させることができる。任意選択的に、製造ロボット(220)のアームが作業スペース(212)内の1人又は複数の人間に対して所定の最小距離を維持するように、製造ロボット(220)の運動が選択される、ということも考えられる。
この実施例のために可能であることは、製造ロボット(220)の作業スペース(212)内又はその周囲の人間(210)の画像によって、画像分類器(60)がトレーニング済みである、ということである。製造ロボット(220)を確実に動作させることができるか否かを評価するために、第1の画像データセットを撮影することができ、この場合、第1の画像データセットの画像は、同様に、製造ロボット(220)の作業スペース内又はその周囲の人間(210)を示すことができる。評価のために、第1の画像データセットの画像に、対応する画像における人間(210)に対するバウンディングボックスの形態で、アノテーションを付けることができ、しかもその際に、バウンディングボックス各々に関係値が割り当てられる。対応するバウンディングボックスが、製造ロボット(220)の作業スペース(212)内に存在する人間(210)を示している場合には、この関係値を1として定義することができ、そうでない場合には、0として定義することができる。
評価のために、これに続いて、画像分類器(60)によって認識されていない第1のデータセットのバウンディングボックスの関係値の合計が0でなければならない、ということを規定することができる。このことは、画像分類器(60)が製造ロボット(220)の作業スペース(212)内の人間(210)を検出し損なってはならない、という命題と同様の意味を持つ一方、作業スペース外の人間である場合には、このことは要求されていない。選択的に想定されることは、作業スペース(212)外の人間に対し、それらの人間が作業スペース(212)に、より近く立っていればいるほど、より高い関係値が与えられる、ということである。さらに想定されることは、この場合においては、使用のために十分に安全であると画像分類器(60)を評価するために、関係値の合計が0よりも大きくてよい、ということである。

Claims (12)

  1. 画像分類器(60)を評価するためのコンピュータ実装による方法であって、
    少なくとも部分的に自律型のロボット(100、220)を制御するために、前記画像分類器(60)の分類器出力(y)が供給され、評価するための前記方法は、以下のステップ、即ち、
    ・第1のデータセットを求めるステップ(300)であって、前記第1のデータセットは複数の画像を含み、前記複数の画像にアノテーションが割り当てられており、前記アノテーションは、個々の前記画像において描写されたシーン、及び/又は、分類されるべき画像領域、及び/又は、前記ロボット(100、220)の運動情報に関する情報を含む、ステップ(300)と、
    ・前記アノテーションに基づき、前記ロボット(100、220)により到達可能な前記シーンの領域(212)を求めるステップ(301)と、
    ・前記画像分類器により分類されるべき画像領域について関係値を求めるステップ(302)と、
    ・前記画像分類器により、第1の画像データセットの画像データを分類するステップ(303)と、
    ・前記画像分類器(60)により正しく分類された画像領域と、誤って分類された画像領域と、対応する前記画像領域の計算された前記関係値とに基づき、前記画像分類器を評価するステップ(304)と、
    を含む、
    コンピュータ実装による方法。
  2. 分類されるべき前記画像領域は、それぞれ1つの物体(210)に対応づけられる、
    請求項1に記載の方法。
  3. 前記ロボット(100、220)により到達可能な前記領域を求めるステップ(301)は、前記ロボット(100、220)の運動情報に基づく、
    請求項1又は2に記載の方法。
  4. 前記関係値を求めるステップ(302)は、以下のステップ、即ち、
    ・前記物体(210)の立体情報を求めるステップと、
    ・前記立体情報に基づき、到達可能領域(212)に対する物体ポジションの関係を特定するステップと、
    ・前記関係に基づき関係値を求めるステップと、
    を含む、
    請求項1から3までのいずれか1項に記載の方法。
  5. 前記画像分類器を評価するステップ(304)は、評価量を特定するステップを含み、さらに、前記画像分類器(60)を評価するための前記方法は、以下の付加的なステップ、即ち、
    ・前記評価量が予め定められた評価閾値よりも悪い場合には、第2の画像データセットに基づき前記画像分類器(60)を再トレーニングするステップ(305)
    を含む、
    請求項1から4までのいずれか1項に記載の方法。
  6. 予め定められた回数の反復が実施されるまで、及び/又は、前記予め定められた評価閾値よりも小さくなるまで、前記ステップを反復して繰り返す、
    請求項5に記載の方法。
  7. 前記画像分類器(60)の前記再トレーニングを、前記第2の画像データセットの画像領域の関係値に基づき実施する、
    請求項5又は6に記載の方法。
  8. 画像分類器(60)を動作させるためのコンピュータ実装による方法であって、
    前記画像分類器(60)は、請求項1から5までのいずれか1項に従って評価されており、又は、請求項5から7までのいずれか1項に従って再トレーニングされている、
    コンピュータ実装による方法。
  9. 少なくとも部分的に自律型のロボットを制御するための制御システム(40)であって、
    当該制御システム(40)は、請求項1から7までのいずれか1項に記載の画像分類器(60)を含み、
    さらに当該制御システム(40)は、センサ(30)のセンサ信号(S)に基づき画像データ(x)を前記画像分類器(60)に引き渡し、及び/又は、
    分類器出力(y)に基づき制御信号(A)が求められ、前記制御信号(A)は、前記ロボットのアクチュエータ(10)を制御するために用いられる、
    制御システム(40)。
  10. 請求項5から7までのいずれか1項に記載の方法を実施するように構成されているトレーニング装置。
  11. 請求項1から7までのいずれか1項に記載の方法を実施するために構成されているコンピュータプログラム。
  12. 請求項11に記載のコンピュータプログラムが記憶されている機械可読記憶媒体(46)。
JP2022549288A 2020-02-17 2021-02-08 画像分類器を評価するための方法及び装置 Active JP7473663B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102020201939.8 2020-02-17
DE102020201939.8A DE102020201939A1 (de) 2020-02-17 2020-02-17 Verfahren und Vorrichtung zur Bewertung eines Bildklassifikators
PCT/EP2021/052931 WO2021165077A1 (de) 2020-02-17 2021-02-08 Verfahren und vorrichtung zur bewertung eines bildklassifikators

Publications (3)

Publication Number Publication Date
JP2023513385A true JP2023513385A (ja) 2023-03-30
JPWO2021165077A5 JPWO2021165077A5 (ja) 2023-09-27
JP7473663B2 JP7473663B2 (ja) 2024-04-23

Family

ID=

Also Published As

Publication number Publication date
US20230038337A1 (en) 2023-02-09
CN115104132A (zh) 2022-09-23
WO2021165077A1 (de) 2021-08-26
DE102020201939A1 (de) 2021-08-19

Similar Documents

Publication Publication Date Title
EP3405845B1 (en) Object-focused active three-dimensional reconstruction
US11694432B2 (en) System and method for augmenting a visual output from a robotic device
JP5782088B2 (ja) 歪みのあるカメラ画像を補正するシステム及び方法
KR20160135482A (ko) 동적 장애물 움직임 예측 장치 및 그 방법
CN105719311A (zh) 用于检测目标的车辆系统及其操作方法
EP3913527A1 (en) Method and device for performing behavior prediction by using explainable self-focused attention
US20230038337A1 (en) Method and device for evaluating an image classifier
JP2023010697A (ja) 異常検出及びセグメンテーションのための対比予測符号化
TW202213015A (zh) 自走車導航裝置及其方法
Manglik et al. Future near-collision prediction from monocular video: Feasibility, dataset, and challenges
JP2023010698A (ja) 局所ニューラル変換を用いた異常領域検出
CN115439401A (zh) 用于深度神经网络的图像标注
Puls et al. Cognitive robotics in industrial environments
Vitor et al. Stereo vision for dynamic urban environment perception using semantic context in evidential grid
Rodrigues et al. Modeling and assessing an intelligent system for safety in human-robot collaboration using deep and machine learning techniques
CN116523823A (zh) 用于半监督对象检测的鲁棒伪标签生成的系统和方法
JP7473663B2 (ja) 画像分類器を評価するための方法及び装置
CN116523952A (zh) 利用2d和3d逐点特征估计6d目标姿态
JP2021197184A (ja) 分類器を訓練及びテストするためのデバイス及び方法
CN115482442A (zh) 多模态融合模型对单源对抗的防御
CN114092899A (zh) 从输入数据中识别对象的方法和设备
Memon et al. Self-driving car using lidar sensing and image processing
US20240046659A1 (en) Method for detecting an environment by means of images from at least two image sensors
US20230303084A1 (en) Systems and methods for multi-modal data augmentation for perception tasks in autonomous driving
WO2023219008A1 (ja) 評価方法、プログラム、及び、評価システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220816

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230620

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20230919

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240214

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240411