JP2023513385A

JP2023513385A - 画像分類器を評価するための方法及び装置

Info

Publication number: JP2023513385A
Application number: JP2022549288A
Authority: JP
Inventors: リッテルミヒャエル; エーラーキングイェンス; グラディッシュクリストフ; グローコンラート; ウィラーズオリヴァー; サドホルトセバスティアン; ヴェールレマティアス; ハインツェマンクリスティアン
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2020-02-17
Filing date: 2021-02-08
Publication date: 2023-03-30
Anticipated expiration: 2041-02-08
Also published as: US20230038337A1; CN115104132A; WO2021165077A1; DE102020201939A1

Abstract

本発明は、画像分類器（６０）を評価するためのコンピュータ実装による方法であって、少なくとも部分的に自律型のロボット（１００、２２０）を制御するために、画像分類器（６０）の分類器出力（ｙ）が用いられる、方法に関する。当該評価方法は、第１のデータセットを求めるステップ（３００）であって、第１のデータセットは画像データを含み、画像データにアノテーションが割り当てられており、アノテーションは、個々の画像において描写されたシーン、及び／又は、分類されるべき画像領域、及び／又は、ロボット（１００、２２０）の運動情報に関する情報を含む、ステップ（３００）と、アノテーションに基づき、ロボット（１００、２２０）により到達可能なシーンの領域（２１２）を求めるステップ（３０１）と、画像分類器により分類されるべき画像領域について関係値を求めるステップ（３０２）と、画像分類器により、第１の画像データセットの画像データを分類するステップ（３０３）と、画像分類器（６０）により正しく分類された画像領域と、誤って分類された画像領域と、対応する画像領域の計算された関係値とに基づき、画像分類器を評価するステップ（３０４）と、を含む。

Description

本発明は、画像分類器を評価するための方法、画像分類器をトレーニングするための方法、画像分類器を動作させるための方法、トレーニング装置、コンピュータプログラム、制御システム及び機械可読記憶媒体に関する。

背景技術
ＭａｔｔｈｉａｓＡｌｔｈｏｆｆ著の学術論文「ＲｅａｃｈａｂｉｌｉｔｙＡｎａｌｙｓｉｓａｎｄｉｔｓＡｐｐｌｉｃａｔｉｏｎｔｏｔｈｅＳａｆｅｔｙＡｓｓｅｓｓｍｅｎｔｏｆＡｕｔｏ－ｎｏｍｏｕｓＣａｒｓ（ミュンヘン工科大学、２０１０年）」には、自律型車両の到達可能領域を特定するための方法が開示されている。

ＭａｔｔｈｉａｓＡｌｔｈｏｆｆ著の学術論文「ＲｅａｃｈａｂｉｌｉｔｙＡｎａｌｙｓｉｓａｎｄｉｔｓＡｐｐｌｉｃａｔｉｏｎｔｏｔｈｅＳａｆｅｔｙＡｓｓｅｓｓｍｅｎｔｏｆＡｕｔｏ－ｎｏｍｏｕｓＣａｒｓ（ミュンヘン工科大学、２０１０年）」

発明の利点
画像分類器は、少なくとも部分的に自律型及び／又は可動型のロボットを動作させるための鍵となる技術を成している。データから学習させられた画像分類器、特にニューラルネットワークは、現在のところ、最良の分類性能をもたらすということが判明している。

しかしながら、このような機械学習に基づく画像分類器の検査は困難なものとなっており、それというのも、画像分類器がどのようにしてその分類に至るのかが明白でないことが多いからである。特に安全上重大な用途において、機械学習に基づく画像分類器を含む製品がその環境内において安全に行動するということを確実に判定することが、この特性によって困難になる。

独立請求項１に記載の特徴を備えた方法の利点とは、画像分類器の動作の仕方についての洞察が得られることである。特にこの方法によれば、安全上の観点から重要である、画像分類器が認識すべき画像の要素を求めることができる。これにより、分類器の分類精度について洞察することができる。逆に言えば、画像分類器の出力基づき自身のナビゲーションを行う可動型ロボットが、自身を動作させ得るために十分に安全であるか否かについて、判定することができるようにする目的で、この方法を用いることができる。

発明の開示
第１の態様によれば、本発明は、画像分類器を評価するためのコンピュータ実装による方法に取り組むものであって、少なくとも部分的に自律型のロボット（１００、２２０）を制御するために、画像分類器の分類器出力が供給され、この評価方法は、以下のステップ、即ち、
・第１のデータセットを求めるステップ（３００）であって、この第１のデータセットは複数の画像を含み、これら複数の画像にアノテーションが割り当てられており、これらのアノテーションは、個々の画像において描写されたシーン、及び／又は、分類されるべき画像領域、及び／又は、ロボット（１００、２２０）の運動情報に関する情報を含むステップ（３００）と、
・アノテーションに基づき、ロボット（１００、２２０）により到達可能なシーンの領域（２１２）を求めるステップ（３０１）と、
・画像分類器により分類されるべき画像領域について関係値を求めるステップ（３０２）と、
・画像分類器により、第１の画像データセットの画像を分類するステップ（３０３）と、
・画像分類器（６０）により正しく分類された画像領域と、誤って分類された画像領域と、対応する画像領域の計算された関係値とに基づき、画像分類器を評価するステップ（３０４）と、
を含む。

画像分類器とは、これが画像（画像データともいう）を受け取ることができ、画像データ又はその一部分を特徴づける分類出力を生成することができるように構成された装置であると解することができる。例えば、入力画像のどの部分に物体が存在するのかを特定する目的で、画像分類器を用いることができる。例えば、自律型車両のような可動型ロボットの場合には、画像分類器を、これが他の道路利用者を検出するように用いることができる。次いで、対応する分類器出力を、ロボットを制御するために用いることができる。例えば、分類器出力を用いて、ロボットが衝突することなく自身の環境を通って移動する軌跡を特定することができる。即ち、好ましくは、画像データは、ロボットの周囲を示す。

物体検出のほか、画像分類器を、他の分類タスクのために、例えばセマンティックセグメンテーションのために用いることもできる。この場合、画像分類器は、入力画像内の所望の各ポイントを、例えば、カメラ画像の各ピクセルを、望ましいクラスに分類する。このことを例えば、可動型ロボットが入力画像に基づき、周囲の走行可能領域の境界を認識し、それに基づき軌跡をプラニングするために用いることができる。

画像分類器は、例えばニューラルネットワークのような、機械学習の分野に属するモデルを含み得る。画像分類器の入力を分類するために、このモデルを用いることができる。さらに画像分類器は、前処理プロセス及び／又は後処理プロセスを行うことができる。物体検出の場合、後処理プロセスを、例えばＮｏｎ－ＭａｘｉｍｕｍＳｕｐｐｒｅｓｉｏｎとすることができ、これを用いて同一の物体の様々なバウンディングボックスを融合することができる。

画像分類器のために、入力データとして種々の形式の画像を用いることができ、特にセンサデータ、例えば、カメラセンサ、レーダセンサ、ＬＩＤＡＲセンサ、超音波センサ又は赤外線カメラセンサからのセンサデータを用いることができる。マイクロフォンによるオーディオ録音も、画像データとして表現して、例えばスペクトル画像の形態において、分類器のための入力として用いることができる。さらに想定されることは、画像分類器のために１つの入力データを取得するために、複数の種類のセンサデータを組み合わせることができる、ということである。

また、選択的に、画像データを、コンピュータ支援処理によって合成して生成することができる。例えば、物理的なモデルに基づき、画像を計算又はレンダリングすることができる。

画像分類器のための入力に用いられる画像は、センサによって直接撮影して、画像分類器に転送することができる。選択的に、画像データは、分類前に撮影又は生成し、次いで、好ましくは、記憶媒体に一時記憶してから、それらを画像分類器に転送することができる。この場合には、記憶媒体として、特に、ハードディスク、フラッシュドライバ又は固体ディスクを用いることができる。画像データをダイナミックメモリに保持することもできる。

画像分類器の出力に基づき、少なくとも部分的に自律型のロボットを制御可能な制御信号を求めることができる。少なくとも部分的に自律型のロボットとは、少なくとも一時的に人間の制御なしでタスクを自主的に実施するロボットであると解することができる。この目的で、ロボットは、例えば、センサ及びアクチュエータを用いることができる。部分的に自律的なロボットを、例えば、自律走行車両、芝刈りロボット、掃除ロボット又はドローンとすることができる。以下においては、ロボットという用語は、少なくとも部分的に自律型のロボットであると解される。

この方法のためには、第１の画像データセットが必要とされ、この第１の画像データセットを用いて評価を実施することができる。画像データセットとは、複数の画像データから成る集合であると解することができ、その際に画像データにアノテーションの形態で固有の情報を対応づけることができる。この場合、画像データのアノテーションとは、画像データ若しくはその一部分を記述する情報、又は、画像に関するさらに他の付加的な情報を含む情報から成る集合であると解することができる。

画像データは、物体を含む可能性のあるシーンを描写することができる。１つ又は複数のセンサによって撮影された画像データの場合、シーンとは現実世界の状況、特にロボット周囲の状況であると解することができる。例えば、シーンは、道路状況における複数の物体から成る集合を表現することができる。物体とは、この場合においては、例えば、他の交通利用者であると解することができる。

合成されて生成された画像データの場合には、シーンとは、画像データを合成したときに基礎とした仮想世界であると解することができる。この場合においては、物体は、シーンの仮想要素であると解することができる。

画像データにアノテーションを対応づけることができ、この場合、アノテーションは、それぞれ描写されたシーン及び／又は画像領域に関する情報を含み得る。例えば、アノテーションは、画像データにおいて描写された物体のポジションを記述する複数のバウンディングボックスから成る集合を含み得る。選択的に又は付加的に想定されることは、アノテーションは、画像データのピクセルのクラスに関するピクセル精度の情報（即ち、セマンティックセグメンテーション）を含むということである。

選択的に又は付加的に想定されることは、アノテーションは、固有の画像データの撮影時に発生していた天候及び／又は環境の影響、例えば、雨、日射、時刻又はグラウンドコンディションの情報を含む、ということである。

選択的に又は付加的に想定されることは、アノテーションは、画像が撮影されたシーンに関する情報を含むということである。現実のシーンの場合には、アノテーションは、例えば、シーンの他の物体と対比したセンサの相対ポジションに関する情報を含み得る。画像データ（例えばカメラ画像）において二次元で描写されている物体の三次元ポジションを特定するために、この情報を後で利用することができる。選択的に、シーンにおける物体の三次元のポジション情報がそのまま、例えば、物体に対するセンサの相対ベクトルの形態でアノテーションに含まれる、ということも考えられる。

この方法のために、好ましくは、後のロボットと一致する又は類似するシステムが記録のために用いられるように、第１の画像データセットを選択することができる。例えば、自律型車両において用いられることになる画像分類器を評価するために、所望の画像データを車両のセンサにより記録することができるように、テストドライバが車両を操縦するというようにして、第１の画像データセットを撮影することができる。選択的に想定されることは、画像分類器を評価すべき対象である車両とセンサ機構が構造的に同等の車両によって、第１のデータセットが撮影される、ということである。

選択的に想定されることは、第１の画像データセットがコンピュータ支援によるモデルによって合成されて生成されるということである。この場合には、モデルを、好ましくは、このモデルが形状、物理特性及びセンサ機構についてロボットに少なくとも類似するように、選択することができる。この場合においては、シーンを、仮想の物体の配置及び特性の組合せとして解することができ、それらを用いて合成画像データを生成することができる。

選択的に、第１の画像データを既存のソースから取得することもできる。例えば、任意にアクセス可能な一連のデータセットがインターネットに存在しており、画像分類器を評価する目的で、それらのデータセットを利用することができる。

この方法のために必要とされるアノテーションを、手動により又は少なくとも半自動的に、種々の画像データのために生成することができる。好ましくは、アノテーションには、画像データの分類されるべき要素と、記録に用いられる／用いられたシステムとに関する相対的な情報が含まれる。例えば、車両を、この車両がカメラに基づく画像データセットを撮影可能であるように構成することができ、次いで、この画像データセットを、その車両又は構造的に同等の車両において後で用いられることになる画像分類器の評価に用いることができる。この場合において、画像データのアノテーションは、例えば、車両周囲において検出されるべき物体のバウンディングボックスを含み得る。付加的にこれらのアノテーションは、固有の画像データにおいて認識されるべき物体が、車両と対比していずれのポジションを有するのかに関する情報を含み得る。これらの情報を、物体の関係値を特定するために後で利用することができる。

選択的に、合成により生成された画像データの場合に、合成されたモデルのモデルデータをそのまま、情報としてアノテーションに採用することができる。例えば、前段で述べたデータを、コンピュータにより相応にシミュレートすることができる。このためには、センサの仮想モデルが、さらにはシミュレートされたシーンにおけるそのセンサのポジションが必要とされる。後で画像分類器により認識されることになるシミュレートされた物体のこのポジション及び／又はこれらのポジションを、この場合においては、そのままアノテーションに共に採用することができる。

しかも、好ましくは、アノテーションは、例えば、ロボットの速度、加速度、操舵角、駆動調整、又は、プラニングされた軌跡に関する情報を含み、その際にこれらの情報各々は、画像データの撮影時点において発生している又は発生していた値を描写する。これらの情報は、好ましくは、理に適っている限りは、シーンの物体に関してもアノテーションに含まれる。

次いで、運動情報を用いて、ロボットが撮影時点において決められた時間内に到達している可能性のあるシーンの領域を求めることができる。これらの領域を、他の物体とのタイム・トゥ・コリジョン及び／又はタイム・トゥ・リアクト及び／又はタイム・トゥ・ブレーキ及び／又はタイム・トゥ・ステア及び／又はタイム・トゥ・キックダウンを用いて、求めることができる。これらの領域を安全上重大な領域であると解することができ、これらの領域において、ロボットは、例えば安全な軌跡をプラニングする目的で、他の物体を高い精度及び信頼性で認識可能でなければならない。

分類されるべき画像領域を、画像データの少なくとも一部分であると解することができ、この少なくとも一部分について画像分類器は、当該画像領域によって描写されている特定の物体又は特定のクラスを叙述することになる。物体検出の場合には、分類されるべき領域を、画像分類器によって検出されるべき物体の描写であると解することができる。セマンティックセグメンテーションの場合には、画像領域を画像のピクセルであると解することができ、その際に各ピクセルに物体を対応づけることができる。

次いで、分類されるべき画像領域に関係値を対応づけることができる。好ましくは、分類されるべき各領域に１つの関係値が与えられる。この場合、関係値とは、この画像領域についての画像分類器の検出失敗が、画像分類器を使用するロボットの挙動にとって、どの程度重大になる可能性があるかを表す値であると解することができる。例えば、ロボットからかなり遠く離隔した物体を描写する画像領域には、低い関係値を対応づけることができる。これに対し、ロボットに近い物体を描写する画像領域には、高い関係値を与えることができ、それというのも、それらの物体の検出失敗は、ロボットに、より大きい影響を及ぼすことになるからである。

関係値は、スカラ値によって表すことができる。この場合、関係値は、バイナリ又は実数値とすることができる。

次いで、分類されるべき画像領域のすべて又は一部分について、それらが画像分類器により正しく分類されたか否かを判定することができる。次いで、好ましくは、誤って分類された画像領域の関係値に基づき、画像分類器の評価を行うことができる。例えば、この評価を、誤って分類された領域の関係値の合計又は平均の形態において行うことができる。

このアプローチの利点は、画像分類器をロボットの制御の一部分として使用可能か否かの判定を下す目的で用いることができる数値による客観的な値を特定できる、ということである。これによって、上述の画像分類器の動作の仕方について細分化された洞察が可能となる。これはかなりの改善であり、その理由は、特に機械学習に基づく画像分類器は、ブラックボックスの挙動を有しており、これは、他の方法では、満足し得るように見通すことができないからである。

本発明の第１の態様において、さらに想定されることは、分類されるべき領域がそれぞれ１つの物体に対応づけられる、ということである。

このアプローチの利点は、画像領域の関係によって物体の関係を反映させることができるということである。これによって、画像領域に基づき、あるシーンにおける物体の関係を評価することができる。逆に言えば、これによって、あるシーンにおける物体を認識するための画像分類器の挙動について、詳細化された洞察が可能となる。

本発明の第１の態様において、さらに想定されることは、ロボットにより到達可能な領域を求めるステップがロボットの運動情報に基づく、ということである。

例えば、速度又は加速度といったロボットの運動情報によって、ロボットはそもそもシーンのどの領域に移動する可能性がありそうであるのかを特定することができる。よって、ロボットが、例えば物体と衝突しないようにロボットを制御する目的で、この領域にある物体を高い精度で予測し得ることが望ましい。運動情報を、存在する場合には、アノテーションから抽出することができ、又は、画像データを用いて推定することができる。例えば、ロボットの速度を推定するために、第１の画像データセットの相前後する複数の画像を用いることができる。例えば、定置型の製造ロボットの場合においては、ロボットの到達可能領域に関する情報を、ロボットのデータシートから取得することもできる。

従って、このアプローチの利点は、画像分類器が物体を確実に認識し得ることが望ましい領域を特定することができるということである。シーンの他の領域を、あまり重要ではない又は重要ではないものとすることができるので、かくしてこの方法によれば、画像分類器の動作の仕方について詳細化されかつ目的に適った洞察が可能となり、さらに評価によって、画像分類器の認識性能（パフォーマンスともいう）の改善された査定が可能となる。公知の方法の場合には、画像分類器の認識性能が１つの画像のすべての画像領域において査定されることから、このことは重要である。よって、求められた到達可能領域に関して、ロボットの認識性能を、確実で誤りのない動作に関して著しく改善して評価することができる。

本発明の第１の態様において、さらに想定されることは、関係値を求めるステップが、以下のステップ、即ち、
・物体の立体情報を求めるステップと、
・求められた立体情報に基づき、到達可能領域に対する物体ポジションの関係を特定するステップと、
・この関係に基づき関係値を求めるステップと、
を含む、ということである。

このアプローチの利点は、対応する物体が実際にロボットと安全上重大な相互作用をする可能性がある場合には、画像領域に、例えばゼロではない関連値を割り当てることができる、ということである。例えば、ロボットが例えば時速３０ｋｍよりも速く走行することはできず、かつ、認識されるべき歩行者が例えば５００ｍよりも遠くに離隔している場合には、ロボットの軌跡プラニングに関して、歩行者の認識は安全上重大な尺度の下では重要でない。逆に言えば、ここで説明した方法によれば、画像分類器の挙動を、ロボットの安全性に関してかなり精度を高めて評価することができる。

本発明の第１の態様において、さらに想定されることは、画像分類器を評価するステップは、評価量を特定するステップを含み、さらにその際に、画像分類器を評価するための方法は、以下の付加的なステップ、即ち、
・評価量が予め定められた評価閾値よりも悪い場合には、第２の画像データセットに基づき画像分類器を再トレーニングするステップ
を含む、ということである。

例えば、評価量を、画像分類器の性能が悪くなればなるほど評価量が大きくなるように、選定することができる。即ち、このケースでは、評価量が評価閾値よりも大きい場合には、再トレーニングされることになる。

上述のように評価量を、例えば、誤って分類されたすべての画像領域の関係値の合計又は平均とすることができる。

画像分類器の再トレーニングとは、画像分類器の認識精度が第２の画像データセットを用いることによってさらに改善されるように、この第２の画像データセットを用いて画像分類器のパラメータを整合させるという方法であると解することができる。この目的において、第２の画像データセットもやはりアノテーションを含み得るものであり、パラメータを整合させるために、それらのアノテーションを教師あり学習方法によって使用することができる。この場合、第２の画像データセットを、第１の画像データセットと同様の方法により求めることができる。さらに想定されることは、第２の画像データセットは少なくとも、第１の画像データセットの画像データ及び／又はアノテーションの一部分を含む、ということである。

このアプローチの利点は、改善された認識精度によって、ロボットの安全性、ひいては認識性能を格段に高めることができる、ということである。これによって、システム全体の改善がもたらされ、これは現実世界において、より良好にかつ確実に機能する。

本発明の第１の態様において、さらに想定されることは、予め定められた回数の反復が実施されるまで、及び／又は、予め定められた評価閾値よりも小さくなるまで、既述のステップを反復して繰り返す、ということである。

このアプローチの利点は、画像分類器を現実の製品において動作させることができるために画像分類器の認識性能が十分なものとなるまで、この認識性能を改善することができる、ということである。付加的にこのアプローチによってもたらされる利点とは、現在のところ、十分である評価結果をさらに改善することができ、そのようにすれば、画像分類器の認識精度に関して、所定の安全バッファを達成することができる、ということである。さらに想定されることは、認識性能をさらに高める目的で、それぞれの反復同士で異なる第２の画像データセットによって画像分類器が再トレーニングされる、ということである。

ここで説明した反復動作において、第１の画像データセットの画像データを、第２の画像データセットの少なくとも一部分のために用いることができる。好ましくは、反復のたびに第１の画像データセットから画像を除去し又は交換することができる。さらに、反復のたびに第２の画像データセットから画像を除去し又は交換することができる。第１及び／又は第２の画像データセットにおいて画像データの交換が行われる場合、好ましくは、アノテーションが新たな画像データに関する情報を含むように、アノテーションを変更することができる。

本発明の第１の態様において、さらに想定されることは、画像分類器の再トレーニングが、第２の画像データセットの画像領域の関係値に基づいて実施される、ということである。

このアプローチの利点は、評価の視点からトレーニングにおいてあまり重要ではない画像領域又は全く重要ではない画像領域を、それらが画像分類器のトレーニングにわずかな影響しか及ぼさないように又は全く影響を及ぼさないように、重み付けることができる、ということである。その結果として、画像分類器のトレーニングが簡単になり、逆に言えば、このことによって、画像分類器の認識性能が著しく高められる。さらに、その結果として、このようにトレーニングされた画像分類器がロボットの制御部の一部分として用いられる場合に、システム全体の性能が高められる。

次に、添付の図面を参照しながら、本発明の実施形態について詳細に説明する。

画像分類器を評価するための方法のフローチャートを概略的に示す図である。制御システムを概略的に示す図である。制御システムにより制御される自律型車両を概略的に示す図である。制御システムにより制御される製造ロボットを概略的に示す図である。

実施例の説明
図１には、画像分類器（６０）を評価するための方法のフローチャートが示されている。この実施例によれば、画像分類器（６０）は、これが高速道路状況において車両を認識し得るように構成されており、ここで、分類器出力（ｙ）には、バウンディングボックスが含まれる。

第１のステップ（３００）において、画像データセットが求められる。このステップは、例えば、画像データを撮影するために適したカメラが設置されているテスト車両を用いて行うことができる。この実施例によれば、画像データセットは、車両が認識されるべき高速道路状況の画像データを示す。さらに、この実施例によれば、画像データセットの撮影中に、個々の画像撮影時点に生じている速度及び操舵角といった車両データが、画像データにそれぞれ対応づけられている。選択的に、これらの車両データを、撮影された画像データから撮影後に推定することもできる。

このようにして求められた画像データセットには、次いで、人間による手動によってアノテーションが付けられる。選択的に、手動によるアノテーションの代わりに、ここでは第２の画像分類器を用いて半自動アノテーションを実施することもできる。この場合においては、第２の画像分類器がアノテーションを提案し、それらのアノテーションを人間がチェックし、必要に応じて変更することができる。さらに選択的に想定されることは、第２の画像分類器の提案がそのままアノテーションとして用いられるというようにして、第２の画像分類器がアノテーションを全自動で実施する、ということである。

この実施例によれば、生成されたアノテーションは、それぞれ撮影された画像データにおける他の車両、画像中のそれらの車両のバウンディングボックス、並びに、カメラの組み込みポジション及び配向に関する情報を含む。他の実施例おいて想定されることは、アノテーションが付加的に、対応して検出されるべき車両のポジション、配向、速度、及び／又は、走行方向といった三次元情報を含む、ということである。

次いで、第２のステップ（３０１）において、画像データセットの画像についてそれぞれ、テスト車両が画像の撮影時点において規定された時間内にいずれの領域に到達している可能性があるのかが特定される。時間として、ここでは例えば、タイム・トゥ・リアクトを用いることができる。選択的に想定されることは、タイム・トゥ・リアクトの代わりに、タイム・トゥ・コリジョン、タイム・トゥ・ブレーキ、タイム・トゥ・ステア若しくはタイム・トゥ・キックダウン、又は、これらの時間の組合せを用いる、ということである。

到達可能領域の計算は、アノテーションにおける速度情報及び車両ポジションに関する情報を用いて行われる。その結果は、車両が画像データの撮影時点において、その画像データが撮影されたシーンにおいて、決められた時間内にいずれの領域に到達している可能性があるのかに関する情報である。

第３のステップ（３０２）において、画像データの他の車両について関係値が特定される。このために、アノテーションが付けられたバウンディングボックスとカメラセンサの組み込みポジションとに基づき、他の車両の三次元ポジションが求められる。選択的に、これらの情報が存在していないときに、これらをアノテーションから直接引き出すこともできる。

関係値を、先行のステップにおいて特定された領域のうちの１つに存在しているすべての車両について１として定義することができ、そうでない場合には、０として定義することができる。選択的に、車両が先行のステップにおいて特定された領域外に存在しているときに、車両に０から１までの間の値を割り当てる、ということが可能である。さらに、選択的に想定されることは、先行のステップにおいて特定された領域のうちの１つの中にある車両にも０から１までの間の値を割り当てる、ということである。さらに想定されることは、物体の関係値が物体の速度及び軌跡にも依存する、ということである。例えば、到達可能領域外の物体にも、その物体が例えば、対応する到達可能領域に向かって移動している場合には、０より大きい関係値を与えることができる。

第４のステップ（３０３）において、第１の画像データセットの画像データが画像分類器（６０）によって分類される。分類に際して、画像データ内において１つの車両が検出され、即ち、適正に分類される又は分類されない可能性がある。

第５のステップ（３０４）において、画像分類器（６０）の認識精度が評価される。評価量として、検出されなかった車両に属する関係値の合計を用いることができる。選択的に想定されることは、関係値の平均値又はメジアンも評価量として用いることができる、ということである。

評価量が予め定められた評価閾値よりも悪い場合には、第６のステップ（３０５）において、第２の画像データセットを用いて画像分類器（６０）を再トレーニングすることができる。この実施例において、例えば、想定されることは、評価閾値がゼロとして定義される、ということである。このことは、０よりも大きい関連を有するすべての車両は認識されなければならない、という命題と同様の意味を持つ。このことが生じない場合には、画像分類器が再トレーニングされる。この場合においては、第１の画像データセットを求めるためにも用いることができる方法のうちの１つに従って、第２の画像データセットを求めることができる。評価量が評価閾値を満たしている場合には、画像分類器（６０）を許容することができる。

他の実施例において想定されることは、評価量が閾値を満たすまで、画像分類器を評価するステップ（３００、３０１、３０２、３０３、３０４、３０５）を反復して繰り返す、ということである。

他の実施例において想定されることは、事前に定義された回数の反復が成し遂げられるまで、画像分類器を評価するステップ（３００、３０１、３０２、３０３、３０４、３０５）を反復して繰り返す、ということである。

図２には、アクチュエータ（１０）がその周囲（２０）において制御システム（４０）とインタラクションしている状態で示されている。好ましくは、規則的なタイムインターバルで、周囲（２０）がセンサ（３０）によって、特にビデオセンサのような画像生成センサによって検出され、そのようなセンサを複数のセンサによって構成することもでき、これは、例えばステレオカメラである。センサ（３０）のセンサ信号（Ｓ）、又は、複数のセンサの場合にはそれぞれ１つのセンサ信号（Ｓ）は、制御システム（４０）に伝達される。かくして制御システム（４０）は、一連のセンサ信号（Ｓ）を受信する。制御システム（４０）は、それらから制御信号（Ａ）を求め、これがアクチュエータ（１０）に伝送される。

制御システム（４０）は、センサ（３０）の一連のセンサ信号（Ｓ）を任意選択的な受信ユニット（５０）において受信し、この受信ユニット（５０）は、一連のセンサ信号（Ｓ）を一連の入力画像（ｘ）に変換する（選択的に、それぞれセンサ信号（Ｓ）を入力画像（ｘ）として直接引き継ぐこともできる）。入力信号（ｘ）は、例えば、センサ信号（Ｓ）の抜粋又はさらに処理したものとすることができる。入力画像（ｘ）は、ビデオ記録の個々のフレームを含む。換言すれば、入力画像（ｘ）は、センサ信号（Ｓ）に依存して求められる。一連の入力画像（ｘ）は、画像分類器（６０）に供給され、この画像分類器（６０）は、例えば、第１の実施例の場合のように評価されたものであり、その評価量が評価閾値よりも小さかったものである。

画像分類器（６０）は、好ましくは、パラメータメモリ（Ｐ）に格納されていてそこから供給されるパラメータ（φ）によってパラメータ化される。

画像分類器（６０）は、入力画像（ｘ）から分類器出力（ｙ）を求める。分類器出力（ｙ）は、任意選択的な変換ユニット（８０）に供給され、この変換ユニット（８０）は、そこから制御信号（Ａ）を求め、この制御信号（Ａ）は、アクチュエータ（１０）を対応して制御する目的でアクチュエータ（１０）に供給される。分類器出力（ｙ）は、センサ（３０）により検出された物体に関する情報を含む。

アクチュエータ（１０）は、制御信号（Ａ）を受信し、それに応じて制御され、対応する動作を実施する。アクチュエータ（１０）は、この場合、（必ずしも構造的に統合されてはいない）制御ロジックを含み得るものであり、この制御ロジックは、制御信号（Ａ）から第２の制御信号を求め、次いで、この第２の制御信号によってアクチュエータ（１０）が制御される。

他の実施形態によれば、制御システム（４０）は、センサ（３０）を含む。さらに他の実施形態によれば、制御システム（４０）は、選択的に又は付加的に、アクチュエータ（１０）も含む。

他の好ましい実施形態によれば、制御システム（４０）は、１つ又は複数のプロセッサ（４５）と、少なくとも１つの機械可読記憶媒体（４６）とを含み、この記憶媒体（４６）には、プロセッサ（４５）において実行されるときに、本発明に係る方法を制御システム（４０）に実施させるための命令が記憶されている。

選択的な実施形態によれば、アクチュエータ（１０）に対して、選択的に又は付加的に、表示ユニット（１０ａ）が設けられている。

図３には、少なくとも部分的に自律型のロボット、ここでは少なくとも部分的に自律型の自動車（１００）を制御するために、制御システム（４０）をどのように使用することができるのかについて示されている。

センサ（３０）を、例えば、好ましくは、自動車（１００）に配置されたビデオセンサとすることができる。

画像分類器（６０）は、入力画像（ｘ）から物体を識別するように構成されている。

好ましくは、自動車（１００）に配置されたアクチュエータ（１０）を、例えば、自動車（１００）のブレーキ、駆動装置又は操縦装置とすることができる。この場合に制御信号（Ａ）を以下のように求めることができる。即ち、特に物体が特定のクラス、例えば歩行者である場合に、自動車（１００）が、例えば画像分類器（６０）により識別された物体との衝突を回避するように、１つ又は複数のアクチュエータ（１０）が制御されるように、求めることができる。

選択的に、少なくとも部分的に自律型のロボットを、他の可動型ロボット（図示せず）とすることができ、例えば、飛行、水上航行、潜水又は歩行によって前進するようなロボットとすることができる。可動型ロボットは、例えば、少なくとも部分的に自律型の芝刈り機又は少なくとも部分的に自律型の掃除ロボットとすることができる。この場合においても、制御信号（Ａ）を以下のように求めることができる。即ち、少なくとも部分的に自律型のロボットが、例えば、画像分類器（６０）により識別された物体との衝突を回避するように、可動型ロボットの駆動装置及び／又は操縦装置が制御されるように、求めることができる。

選択的に又は付加的に、制御信号（Ａ）によって表示ユニット（１０ａ）を制御することができ、例えば、求められた安全な領域を表示することができる。例えば、操縦が自動化されていない自動車（１００）の場合に、自動車（１００）が画像分類器（６０）によって識別された物体のうちの１つと衝突しそうである、ということが特定されたときに、表示ユニット（１０ａ）が視覚的又は聴覚的な警告信号を送出するように、表示ユニット（１０ａ）が制御信号（Ａ）によって制御される、ということも可能である。

図４には、例えばＰＵＭＡロボットなどのような製造ロボット（２２０）を制御するために、制御システムをどのように使用することができるかについて示されており、この場合、製造ロボット（２２０）の作業スペース（２１２）には、人間（２１０）も立ち入る可能性がある。ここでは、以下のことが考えられる。即ち、この実施例によれば、制御システム（４０）は、カメラセンサ（３０）から画像データを受け取り、これに基づきアクチュエータ（１０）を制御し、その際に、アクチュエータ（１０）は、製造ロボット（２２０）の運動及び製造ロボット（２２０）のアーム終端にあるグリッパを駆動し、それによって被加工物（２１１ａ、２１１ｂ）を把持することができる。

しかも、カメラセンサ（３０）の画像データを介して制御システム（４０）は、内部に設けられている画像分類器（６０）を用いて、製造ロボット（２２０）の作業スペース（２１２）内に存在する人間（２１０）を認識することができる。１人又は複数の人間（２１０）が作業スペース（２１２）内において認識された場合には、製造ロボット（２２０）が１人又は複数の人間（２１０）に触れたり負傷させたりしないように、製造ロボット（２２０）の運動を制御システム（４０）によって整合させることができる。任意選択的に、製造ロボット（２２０）のアームが作業スペース（２１２）内の１人又は複数の人間に対して所定の最小距離を維持するように、製造ロボット（２２０）の運動が選択される、ということも考えられる。

この実施例のために可能であることは、製造ロボット（２２０）の作業スペース（２１２）内又はその周囲の人間（２１０）の画像によって、画像分類器（６０）がトレーニング済みである、ということである。製造ロボット（２２０）を確実に動作させることができるか否かを評価するために、第１の画像データセットを撮影することができ、この場合、第１の画像データセットの画像は、同様に、製造ロボット（２２０）の作業スペース内又はその周囲の人間（２１０）を示すことができる。評価のために、第１の画像データセットの画像に、対応する画像における人間（２１０）に対するバウンディングボックスの形態で、アノテーションを付けることができ、しかもその際に、バウンディングボックス各々に関係値が割り当てられる。対応するバウンディングボックスが、製造ロボット（２２０）の作業スペース（２１２）内に存在する人間（２１０）を示している場合には、この関係値を１として定義することができ、そうでない場合には、０として定義することができる。

評価のために、これに続いて、画像分類器（６０）によって認識されていない第１のデータセットのバウンディングボックスの関係値の合計が０でなければならない、ということを規定することができる。このことは、画像分類器（６０）が製造ロボット（２２０）の作業スペース（２１２）内の人間（２１０）を検出し損なってはならない、という命題と同様の意味を持つ一方、作業スペース外の人間である場合には、このことは要求されていない。選択的に想定されることは、作業スペース（２１２）外の人間に対し、それらの人間が作業スペース（２１２）に、より近く立っていればいるほど、より高い関係値が与えられる、ということである。さらに想定されることは、この場合においては、使用のために十分に安全であると画像分類器（６０）を評価するために、関係値の合計が０よりも大きくてよい、ということである。

Claims

画像分類器（６０）を評価するためのコンピュータ実装による方法であって、
少なくとも部分的に自律型のロボット（１００、２２０）を制御するために、前記画像分類器（６０）の分類器出力（ｙ）が供給され、評価するための前記方法は、以下のステップ、即ち、
・第１のデータセットを求めるステップ（３００）であって、前記第１のデータセットは複数の画像を含み、前記複数の画像にアノテーションが割り当てられており、前記アノテーションは、個々の前記画像において描写されたシーン、及び／又は、分類されるべき画像領域、及び／又は、前記ロボット（１００、２２０）の運動情報に関する情報を含む、ステップ（３００）と、
・前記アノテーションに基づき、前記ロボット（１００、２２０）により到達可能な前記シーンの領域（２１２）を求めるステップ（３０１）と、
・前記画像分類器により分類されるべき画像領域について関係値を求めるステップ（３０２）と、
・前記画像分類器により、第１の画像データセットの画像データを分類するステップ（３０３）と、
・前記画像分類器（６０）により正しく分類された画像領域と、誤って分類された画像領域と、対応する前記画像領域の計算された前記関係値とに基づき、前記画像分類器を評価するステップ（３０４）と、
を含む、
コンピュータ実装による方法。
分類されるべき前記画像領域は、それぞれ１つの物体（２１０）に対応づけられる、
請求項１に記載の方法。
前記ロボット（１００、２２０）により到達可能な前記領域を求めるステップ（３０１）は、前記ロボット（１００、２２０）の運動情報に基づく、
請求項１又は２に記載の方法。
前記関係値を求めるステップ（３０２）は、以下のステップ、即ち、
・前記物体（２１０）の立体情報を求めるステップと、
・前記立体情報に基づき、到達可能領域（２１２）に対する物体ポジションの関係を特定するステップと、
・前記関係に基づき関係値を求めるステップと、
を含む、
請求項１から３までのいずれか１項に記載の方法。
前記画像分類器を評価するステップ（３０４）は、評価量を特定するステップを含み、さらに、前記画像分類器（６０）を評価するための前記方法は、以下の付加的なステップ、即ち、
・前記評価量が予め定められた評価閾値よりも悪い場合には、第２の画像データセットに基づき前記画像分類器（６０）を再トレーニングするステップ（３０５）
を含む、
請求項１から４までのいずれか１項に記載の方法。
予め定められた回数の反復が実施されるまで、及び／又は、前記予め定められた評価閾値よりも小さくなるまで、前記ステップを反復して繰り返す、
請求項５に記載の方法。
前記画像分類器（６０）の前記再トレーニングを、前記第２の画像データセットの画像領域の関係値に基づき実施する、
請求項５又は６に記載の方法。
画像分類器（６０）を動作させるためのコンピュータ実装による方法であって、
前記画像分類器（６０）は、請求項１から５までのいずれか１項に従って評価されており、又は、請求項５から７までのいずれか１項に従って再トレーニングされている、
コンピュータ実装による方法。
少なくとも部分的に自律型のロボットを制御するための制御システム（４０）であって、
当該制御システム（４０）は、請求項１から７までのいずれか１項に記載の画像分類器（６０）を含み、
さらに当該制御システム（４０）は、センサ（３０）のセンサ信号（Ｓ）に基づき画像データ（ｘ）を前記画像分類器（６０）に引き渡し、及び／又は、
分類器出力（ｙ）に基づき制御信号（Ａ）が求められ、前記制御信号（Ａ）は、前記ロボットのアクチュエータ（１０）を制御するために用いられる、
制御システム（４０）。
請求項５から７までのいずれか１項に記載の方法を実施するように構成されているトレーニング装置。
請求項１から７までのいずれか１項に記載の方法を実施するために構成されているコンピュータプログラム。
請求項１１に記載のコンピュータプログラムが記憶されている機械可読記憶媒体（４６）。