JP2023031291A

JP2023031291A - 画像の物体検出部を特定するための方法及び装置

Info

Publication number: JP2023031291A
Application number: JP2022131584A
Authority: JP
Inventors: ポトツキーダニエル; Pototzky Daniel
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-08-23
Filing date: 2022-08-22
Publication date: 2023-03-08
Also published as: CN115719427A; KR20230029547A; DE102021209212A1; US20230056387A1

Abstract

【課題】画像の物体の物体検出部を特徴付ける出力信号を特定するためのコンピュータ実装された方法（１００）に関する。
【解決手段】当該方法は、ａ．画像に関して複数の物体検出部を特定するステップ（１０１）と、ｂ．複数の物体検出部に基づいてグラフを特定するステップ（１０２）であって、複数の物体検出部における物体検出部は、グラフのノードによって特徴付けられ、それぞれ２つの物体検出部の間の重なりは、グラフのエッジによって特徴付けられる、ステップ（１０２）と、ｃ．密度に基づくクラスタ分析法を用いて、グラフのノード及びエッジに基づいてグラフのクラスタを特定するステップ（１０３）と、ｄ．クラスタに基づいて１つの物体検出部を特定し、出力信号において当該物体検出部を提供するステップ（１０４）と、を含む。
【選択図】図１

Description

従来技術
Radosavovicら著の「“Data Distillation: Towards Omni-Supervised Learning”, 2018年，Conference on Computer Vision and Pattern Recognition (CVPR)」は、画像の物体検出部を特定するための方法を開示している。

発明の背景
画像内の物体を検出するために、機械学習システムが益々使用されるようになっている。これらのシステムのうちの最も性能が高いシステム、即ち、最も良好な検出性能を有するシステムは、典型的には、注釈が付けられた画像に基づいて教師あり訓練される（英語：supervised learning）。このような機械学習システムの訓練は、訓練のために、注釈が付けられた多数の画像を必要とする。なぜなら、典型的には、機械学習システムの性能は、訓練中に、注釈が付けられた画像の数と共に増加するからである。

画像内の物体への注釈付けは、時間及びコストがかかる無謀な企てであるので、機械学習システムの半教師あり学習（英語：semi-supervised learning）のための訓練方法が益々重要になってきている。この種の訓練においては、注釈が付けられた画像と注釈が付けられていない画像との両方が機械学習システムに供給される。この場合、注釈を可能な限り精確に形成することが望ましい。

Radosavovicら著、"Data Distillation: Towards Omni-Supervised Learning", 2018年，Conference on Computer Vision and Pattern Recognition (CVPR)

発明の開示
このような背景を前提として、本発明は、画像の物体の物体検出部を特徴付ける出力信号を特定するためのコンピュータ実装された方法であって、
ａ．画像に関して複数の物体検出部を特定するステップと、
ｂ．複数の物体検出部に基づいてグラフを特定するステップであって、複数の物体検出部における物体検出部は、グラフのノードによって特徴付けられ、それぞれ２つの物体検出部の間の重なりは、グラフのエッジによって特徴付けられる、ステップと、
ｃ．密度に基づくクラスタ分析法を用いて、グラフのノード及びエッジに基づいてグラフのクラスタを特定するステップと、
ｄ．クラスタに基づいて１つの物体検出部を特定し、出力信号において当該物体検出部を提供するステップと、
を含む方法に関する。

特定された出力信号は、画像の、１つ又は複数の物体検出部を特徴付ける注釈として理解可能である。この場合の画像は、特に光学センサによって、例えば、カメラセンサ、ＬＩＤＡＲセンサ、レーダセンサ、超音波センサ又はサーマルカメラによって記録されたものであってよい。

特に、このように出力信号において複数の物体検出部を提供できるようにするために、本方法のステップｃ．及びステップｄ．を複数回実施することができる。

物体検出部を、特にバウンディングボックス（英語：Bounding Box）によって特徴付けることができる。従って、出力信号は、特に１つ又は複数のバウンディングボックスを含み得る。しかしながら、物体検出部を、一般的には連続した領域によって、例えば多角形によって特徴付けることも可能である。

画像に関して複数の物体検出部を特定するために、特に、既に訓練された物体検出器を使用することができる。例えば、半教師あり訓練方法（英語：semi-supervised learning）の一部として画像に注釈を付け、既に注釈が付けられた画像に対して事前に訓練された物体検出器によって、複数の物体検出部を特定することが可能である。一般的に、物体検出器は、特にニューラルネットワークを含み得るものであり、ニューラルネットワークの出力に基づいて物体検出部を特定することができる。物体検出器を、ニューラルネットワークとすることも可能である。

物体検出器は、特に、画像を処理して、複数の物体検出部を予測するように構成可能である。物体検出器は、好ましくは、それぞれのバウンディングボックスごとに、そのバウンディングボックスが画像の物体のバウンディングボックスであるという確信度値を特定するように構成可能である。この確信度値は、例えば、パーセント数であるものとしてよい。

本方法の有利な実施形態においては、複数の物体検出部を、画像の複数の異なる前処理に基づいて特定することが可能である。

画像の前処理は、例えば、画像が種々のスケールに応じてスケーリングされるように、及び／又は、画像が鏡面反転される（英語：horizontal flip）ように、及び／又は、画像の縁部が切り落とされる（英語：cropping）ように、構成可能である。これらの前処理のうちの１つ又は複数を、前処理された画像を特定するために使用することができる。その場合、複数の物体検出部を、特に画像に関する物体検出部と、前処理された画像の物体検出部とから合成することができる。好ましくは、複数の前処理された画像を、前処理形式の種々の適用又はパラメータ化によって特定することができ、これらの複数の前処理された画像に関する物体検出部を、複数の物体検出部の一部として使用することができる。

特に、種々異なる前処理された画像のヴァリエーションを使用する場合に、同一の物体に関する物体検出部をフィルタリングすることができるようにするために、本方法においては、有利には、密度に基づくクラスタ分析法（英語：cluster analysis）が使用される。本方法の目的は、画像の物体の十分に類似した位置及び面積を特徴付けている物体検出部をまとめることであると理解可能である。有利には、提案されている本方法においては、物体検出部のクラスタを特定するために、非最大値抑圧法（英語：non-maximum suppresion）又はバウンディングボックス投票法（英語：bounding box voting）が使用されるのではなく、密度に基づくクラスタ分析法が使用される。本発明者らは、他の方法のうちの１つを使用する方法とは異なり、このようにして特定された複数の物体検出部の方がより精確であることを発見することができた。

物体検出部をクラスタ分析するために、特定された複数の物体検出部から、特にグラフを特定することができる。このために、複数の物体検出部における物体検出部は、それぞれグラフのノードとして理解可能であり、ノードは、エッジを介して接続されており、エッジの重みは、それぞれ、エッジによって接続されているノード同士の重なり（と、ひいては物体検出部同士の間の重なりと）を特徴付ける。重なりとして、特に、エッジによって接続されているノード同士、ひいては物体検出部同士の間の共通集合・和集合の比率（英語：intersection over union, IoU）のような指標を使用することができる。

以下においては、ノードと、ノードによって特徴付けされた物体検出部とは、同義語として理解可能である。特に、物体検出部に関して物体検出器によって特定された確信度は、ノードの確信度として理解可能である。

２つの物体検出部の間の重なりが所定の閾値以下である場合には、本方法においては、グラフ内において２つの物体検出部の間にエッジが存在しないことを想定することもできる。物体検出器によって特定された確信度が所定の閾値を上回っている物体検出部のみを、共にグラフに取り入れることも可能である。

好ましくは、本方法により、画像上の種々のクラスの物体に注釈を付けることが可能である。この場合には、１つのクラスにつき１つの別個のグラフを作成し、このようにして特定されたそれぞれのグラフごとに、密度に基づくクラスタ分析法を実施することが可能である。このことは、グラフに関して、複数の物体検出部のうちの同一のクラスに所属する物体検出部だけが考慮されることであると理解可能である。

好ましくは、クラスタ分析法は、クラスタの密度尺度に基づいて、かつ、クラスタの接続尺度に基づいて実施される。

このアプローチの利点は、クラスタの個数、ひいては画像内の物体の個数が既知である必要がなく、本方法によって自動的に特定可能であることである。これによって、出力信号の物体検出部の精度がさらに改善される。

クラスタ分析法を適用した結果を、１つ又は複数のクラスタとすることができる。それぞれのクラスタは、好ましくは、複数の物体検出部（例えば、複数のバウンディングボックス）を含む。クラスタは、特にクラスタの中心を含み得る。好ましくは、ノードは、クラスタの中心を特徴付けることができる。好ましくは、クラスタのノードは、クラスタのノードの確信度の中で最大の確信度を有する中心を特徴付ける。クラスタ分析法によってクラスタが特定された場合には、出力信号において物体検出部として中心を提供することができる。クラスタのノードを、そのノードの確信度に応じて重み付けしてマージすることも可能である。例えば、クラスタの物体検出部を、それぞれバウンディングボックスの中心点と高さ及び幅とによって特徴付けることができる。中心点、高さ及び幅は、特にベクトルとして表現可能であり、物体検出部同士のマージを、ベクトルの重み付けされた加算によって実施することができる。特に、クラスタに基づいて物体検出部を特定するために、加算の結果を、クラスタのノードの確信度の合計によって除算することができる。

本方法のさらなる実施形態においては、中心点の代わりに、バウンディングボックスの他の点、例えばバウンディングボックスの角部を選択することも可能である。

しかしながら、本発明者らは、ただ１つの物体検出部しか含まないクラスタの物体検出部を、出力信号において物体検出部として提供しないことが、完全に適当であり得ることを発見することができた。このような中心を除外することによって、出力信号の物体検出部の精度が高められる。

出力信号を特定するための方法の好ましい実施形態においては、密度に基づくクラスタ分析法は、
ｅ．グラフ内のそれぞれのノードのエッジの重みの合計に基づいて開始ノードを特定し、開始ノードをクラスタのノードとして提供するステップと、
ｆ．クラスタに含まれておらず、かつ、クラスタとの接続が最大である、グラフのノードを特定するステップと、
ｇ．ノードの追加によってそのノードの分だけ拡張されたクラスタの密度尺度が、所定の第１の閾値を下回らない場合であって、かつ、追加によってそのノードの分だけ拡張されたクラスタの接続尺度が、所定の第２の閾値を下回らない場合に、当該ノードをクラスタに追加するステップと、
ｈ．そうでない場合には、クラスタを提供するステップと、
を含み得る。

開始ノードを特定するために、最初に、グラフ内のそれぞれのノードごとに、それぞれのノードに接続されているエッジの重みの合計を特定することができる。これにより、それぞれのノードごとに１つの指数を特定することができ、最高の指数を有するノードが、開始ノードとして使用される。さらに、開始ノードは、クラスタの中心として理解可能であり、このクラスタを、クラスタ分析法の後続のステップにおいてさらなるノードの分だけ拡張することができる。

続いて、クラスタとの数値的な最大の接続を有していて、かつ、まだクラスタの一部ではない、グラフのノードが特定される。ノードとクラスタとの接続とは、特に、ノードに関して、そのノードをクラスタのノードに接続する全てのエッジの中で、最大の重みを有するエッジが特定されることであると理解可能である。続いて、このエッジの重みを、ノードとクラスタとの接続として使用することができる。次いで、クラスタに所属していないノードの中で、最大の接続を有しているノード、即ち、クラスタとの接続が数値的に最大であるノードを特定することができる。

ノードの追加によってそのノードの分だけ拡張されたクラスタの密度尺度が、所定の第１の閾値を下回らない場合であって、かつ、追加によってそのノードの分だけ拡張されたクラスタの接続尺度が、所定の第２の閾値を下回らない場合に、当該ノードをクラスタに追加することができる。このステップは、最初に、クラスタへのノードの取り入れが、そのクラスタへの作用に関してどの程度の影響を有する可能性があるかを検査することであると理解可能である。この作用を決定するための指数として、密度尺度及び接続尺度を使用することができる。

密度尺度とは、ノードを取り入れることにより、取り入れた後にも依然としてクラスタの全てのノードが互いに十分に接続されていることが保証されるかどうかを特徴付けることであると理解可能であり、この場合、十分に接続されているかどうかは、第１の閾値を用いてチェックされる。好ましくは、密度尺度を、以下の式
ｄ_Ｚ＝２・（Ｗ_Ｚ＋Ｗ_Ｚｋ）／ｎ・（ｎ＋１）
によって特徴付けることができ、ここで、Ｗ_Ｚは、クラスタＺのノード間のエッジの全ての重みの合計を特徴付け、Ｗ_Ｚｋは、クラスタのノードからノードへのエッジの全ての重みの合計であり、ｎは、クラスタ内のノードの個数、即ち、潜在的にノードがクラスタに取り入れられる前のクラスタ内のノードの個数である。

接続尺度とは、ノードを取り入れることにより、このノード自体がクラスタのノードとの十分な接続を有することが保証されるかどうかを特徴付けることであると理解可能であり、この場合、十分に接続されているかどうかは、第２の閾値を用いてチェックされる。好ましくは、接続尺度を、以下の式
ｃｐ_Ｚ＝Ｗ_Ｚｋ／ｄ_Ｚ・（ｎ＋１）
によって特徴付けることができる。

好ましくは、本方法においては、ステップｆ．において反復的にノードを特定し、ステップｇ．の条件のうちの少なくとも一方がもはや満たされなくなるまで、クラスタに追加することができ、少なくとも一方の条件がもはや満たされていない場合には、クラスタが提供され、クラスタのノードがグラフから除去される。

このことは、貪欲アルゴリズム（英語：greedy algorithm）によって徐々にクラスタが特定されることであると理解可能である。それぞれの反復において、最初に新しい開始ノードが選択され、続いて、この開始ノードに基づいてノードが反復的に追加されることによってクラスタが形成される。特に、ステップｅ．乃至ステップｈ．を、グラフ内にもはやノードが存在しなくなるまで反復的に繰り返すことができる。本発明者らは、例えば非最大値抑圧法に基づく他の方法とは異なり、このようにして得られたクラスタ、ひいては出力信号において提供される物体検出部の方がより精確であることを発見することができた。

さらに、クラスタに基づいて特定された物体検出部は、クラスタが開始ノードのみからなる場合には、出力信号において提供されないようにすることができる。本発明者らは、１つの物体検出部のみからなるクラスタが、典型的には物体検出器の偽陽性の物体検出部に起因するものであることを確認することができた（英語：false positives）。従って、１つのノードしか、即ち、開始ノードしか含まないクラスタを除外することによって、結果のさらなる改善がもたらされる。

一般的に、グラフは、物体検出器によって認識することができる物体検出部の全てのクラスを含むことが可能である。例えば、物体検出器は、車両の周囲の画像上において、車両、歩行者、自転車走行者及び信号機を認識することができるように構成可能である。しかしながら、好ましくは、グラフを、物体検出部のクラスに関して特定することも可能である。換言すれば、グラフを特定する際に、同一のクラスに所属する物体検出部だけを考慮することもできる。従って、上記の例においては、車両というクラスの物体検出部に関するグラフ、歩行者というクラスの物体検出部に関するグラフ、自転車走行者というクラスの物体検出部に関するグラフ、及び、信号機というクラスの物体検出部に関するグラフをそれぞれ特定することができる。

特に、物体検出器によって分類することができるそれぞれ１つの物体のクラスについて、有利には、物体検出器によって分類することができる物体のクラスの各々に対して、上述した特徴のうちの１つにおける上述した方法を実施することができる。その後、このようにして特定された、種々異なるクラスに関する物体検出部を、出力信号において提供することができる。

さらなる態様においては、本発明は、機械学習システムを訓練するためのコンピュータ実装された方法であって、
ｉ．出力信号を特定するための方法の１つの実施形態によって、画像に関する出力信号を特定するステップと、
ｊ．機械学習システムを訓練するステップであって、画像は、機械学習システムの入力信号として使用され、特定された出力信号は、所望の出力信号として使用される、ステップと、
を含む方法に関する。

訓練するための方法は、特に、半教師あり訓練方法の一部として使用可能である。特に、機械学習システムは、複数の物体検出部を特定する物体検出器であるものとしてよい。その場合、特定された出力信号に基づいて、機械学習システムをさらに訓練することができる。好ましくは、このステップは、それぞれ異なる画像に対して複数回実施される。これによって、特に、画像のデータセットに注釈を付けることが可能となり、即ち、データセット内の画像を、機械学習システムによってその画像に対して予測されるべき所望の出力信号によってエンリッチ化することができる。その場合、特定された出力信号と組み合わせて、機械学習システムを訓練するために元々注釈が付けられている画像と、データセットの画像とに対して、機械学習システムを訓練することができる。自己教師あり訓練により、機械学習システムの予測精度が改善される。

さらに、少なくとも１つの画像に関する出力信号を特定するための方法を用いて、第１の出力信号を特定し、第２の機械学習システムによって第２の出力信号を特定し、続いて、第１の出力信号が第２の出力信号と一致するかどうかを検査することが可能である。換言すれば、出力信号を特定するための方法によって、第２の機械学習システムをテストすることができる。一致するかどうかを検査するために、通常の尺度を使用することができ、例えば、平均期待精度（英語：mean average precision）を使用することができる。

以下に、本発明の実施形態を、添付の図面を参照しながら、より詳細に説明する。

注釈を特定するための方法のフローを概略的に示す図である。分類器を訓練するための訓練システムを概略的に示す図である。アクチュエータを駆動するための制御システムの構造を概略的に示す図である。少なくとも半自律的なロボットを制御するための実施例を概略的に示す図である。製造システムを制御するための実施例を概略的に示す図である。アクセスシステムを制御するための実施例を概略的に示す図である。監視システムを制御するための実施例を概略的に示す図である。パーソナルアシスタントを制御するための実施例を概略的に示す図である。医用イメージングシステムを制御するための実施例を概略的に示す図である。

実施例の説明
図１は、注釈を特定するための方法（１００）のフローを概略的に示しており、本方法においては、複数の画像に関する注釈が反復的に特定され、これらの注釈は、画像の物体の物体検出部をそれぞれ特徴付ける。好ましくは、画像及び特定された注釈は、本方法の終了時に、例えば、全ての画像又は所望数の画像に注釈が付けられた場合に、訓練データセット（Ｔ）として提供される。

第１のステップ（１０１）においては、画像に関して複数の物体検出部が特定される。このために、特に物体検出器を使用することができ、物体検出器は、画像に対して、この画像内において画像化されている物体の物体検出部を特定するように構成されている。有利には、物体検出器はさらに、それぞれの物体検出部に対して、それぞれの物体検出部がどの程度の確率で画像の物体を特徴付けているかを特定するように構成されている。画像は、好ましくは前処理方法によって処理され、従って、前処理された画像が特定される。物体検出器は、前処理された画像に対して適用され、このようにして特定された物体検出部が、複数の物体検出部に共に取り入れられる。前処理が画像の鏡像を特徴付けている場合には、前処理された画像に関して特定された物体検出部を、好ましくは、それらが複数の物体検出部に取り入れられる前に鏡面反転して戻すことができる。好ましくは、それぞれ異なる前処理方法を用いて、及び／又は、それぞれ異なる前処理方法のパラメータ化を用いて、複数の前処理された画像を特定することができ、これらの前処理された画像が、それぞれ物体検出器によって処理されて、結果として生じた物体検出部が、複数の物体検出部に取り入れられる。

方法（１００）の第２のステップ（１０２）においては、複数の物体検出部に基づいてグラフが特定され、複数の物体検出部における物体検出部は、グラフのノードによって特徴付けられ、それぞれ２つの物体検出部の間の重なりは、グラフのエッジによって特徴付けられる。従って、グラフのそれぞれ１つのノードと、複数の物体検出部のうちのそれぞれ１つの物体検出部との一対一の関係が存在する。このような一対一の関係は、それぞれ１つのノードがそれぞれ１つの物体検出部に対応することであるとも理解可能である。好ましくは、グラフ内のそれぞれのノードを、エッジによってグラフ内のそれぞれ他のノードと接続させることができる。特に、それぞれ対応するノードがエッジによって接続されている物体検出部同士の重なりの尺度を、エッジの重みとして使用することができる。好ましくは、グラフ内のエッジを、そのエッジの重みが所定の閾値に達している又は所定の閾値を上回っている場合にのみ、挿入することもできる。さらに、グラフを、物体検出部のクラスのみに関して特定することができる。

第３のステップ（１０３）においては、密度に基づくクラスタ分析法を用いて、グラフのノード及びエッジに基づいてクラスタが特定される。好ましい実施形態においては、第３のステップ（１０３）は、第１のサブステップ（１０３ａ）を含み、第１のサブステップ（１０３ａ）においては、最初にクラスタの開始ノードが特定される。開始ノードを特定するために、好ましくは以下の方法を選択することができる。即ち、最初に、グラフ内のそれぞれのノードごとに、そのノードに接続されているエッジの重みの合計が特定される。これにより、それぞれのノードごとに１つの指数が特定される。次いで、数値的に最大の指数が特定されたノードが、開始ノードとして選択される。

次いで、第３のステップ（１０３）の第２のサブステップ（１０３ｂ）においては、まだクラスタに含まれておらず、かつ、クラスタとの接続が最大である、グラフのノードを特定することができる。ノードとクラスタとの接続とは、特に、ノードに関して、そのノードをクラスタのノードに接続する全てのエッジの中で、最大の重みを有するエッジが特定されることであると理解可能である。続いて、このエッジの重みを、ノードとクラスタとの接続として使用することができる。次いで、クラスタに所属していないノードの中で、最大の接続を有しているノード、即ち、クラスタとの接続が数値的に最大であるノードを特定することができる。

第３のサブステップ（１０３ｃ）においては、第２のサブステップで特定されたノードに関して、そのノードの追加によってそのノードの分だけ拡張されたクラスタの密度尺度が、所定の第１の閾値を下回らないかどうかをチェックすることができる。さらに、追加によってそのノードの分だけ拡張されたクラスタの接続尺度が、所定の第２の閾値を下回らないかどうかをチェックすることができる。２つのチェックに肯定回答することができた場合には、そのノードをクラスタに追加することができる。第３のサブステップ（１０３ｃ）は、最初に、クラスタへのノードの取り入れが、そのクラスタへの作用に関してどの程度の影響を有する可能性があるかを検査することであると理解可能である。この作用を決定するための指数として、密度尺度及び接続尺度を使用することができる。

ノードがクラスタに取り入れられた場合には、本方法においては、好ましくは第２のサブステップ（１０３ｂ）に戻ることができ、グラフの新しいノードを特定することができ、この新しいノードについても上述したように、そのノードがクラスタに取り入れられるべきかどうかをチェックすることができる。

方法（１００）の、戻りによって形成されるこのループは、クラスタに取り入れられないノードが特定されるまで、又は、まだクラスタに含まれていないさらなるノードがグラフ内に存在しなくなるまで、実施可能である。この場合には、第４のサブステップ（１０３ｄ）において、クラスタに含まれている全てのノードをグラフから除去して、クラスタを提供することができる。グラフ内に依然としてノードが存在している場合には、好ましくは、第１のサブステップに戻って、新しいクラスタを特定することができる。グラフが空になると、第３のステップ（１０３）を終了することができる。

次いで、第４のステップ（１０４）においては、第３のステップ（１０３）において特定されたクラスタに基づいて、それぞれ１つのクラスタに対して１つの物体検出部を特定することができる。このために、クラスタのノードに対応する物体検出部同士をマージすることができる。有利には、このマージは、物体検出部の表現の重み付けされた合計によって実施可能である。表現は、例えば、物体検出部のベクトル表現であるものとしてよい。例えば、ベクトルを介して中心点と高さ及び幅とを表すことができ、この場合、ベクトルは、物体検出部であるボックスの表現である。その場合、このマージを、ベクトルの重み付けされた合計を用いて実施することができる。例えば、ベクトルを、それぞれのベクトルに対応する物体検出部の確信度に従って重み付けすることができる。好ましくは、クラスタに関する物体検出部を特定するために、この合計の結果を確信度の合計によって除算することができる。

このようにして、第３のステップ（１０３）において特定されたクラスタに関して、１つ又は複数の物体検出部を特定することができる。まだ画像に注釈を付けるべき場合には、第４のステップ（１０４）の後、再び第１のステップ（１０１）に進み、この際、まだ注釈付けされていない画像を使用することができる。全ての画像又は所望数の画像に注釈が付けられた場合には、これらの画像及びそれらの画像に対応する注釈を、訓練データセット（Ｔ）として提供することができる。

図２は、訓練データセット（Ｔ）を用いて制御システム（４０）の分類器（６０）を訓練するための訓練システム（１４０）の実施例を示している。訓練データセット（Ｔ）は、分類器（６０）を訓練するために使用される複数の入力信号（ｘ_ｉ）を含み、訓練データセット（Ｔ）はさらに、それぞれ１つの入力信号（ｘ_ｉ）に対して１つの所望の出力信号（ｔ_ｉ）を含み、この出力信号（ｔ_ｉ）は、入力信号（ｘ_ｉ）に対応していて、入力信号（ｘ_ｉ）の分類を特徴付ける。

訓練のために、訓練データユニット（１５０）は、コンピュータ実装データベース（Ｓｔ_２）にアクセスし、データベース（Ｓｔ_２）は、訓練データセット（Ｔ）を提供する。訓練データユニット（１５０）は、訓練データセット（Ｔ）から、好ましくはランダムに、少なくとも１つの入力信号（ｘ_ｉ）と、この入力信号（ｘ_ｉ）に対応する所望の出力信号（ｔ_ｉ）とを特定し、入力信号（ｘ_ｉ）を分類器（６０）に伝送する。分類器（６０）は、入力信号（ｘ_ｉ）に基づいて出力信号（ｙ_ｉ）を特定する。

所望の出力信号（ｔ_ｉ）及び特定された出力信号（ｙ_ｉ）は、変化ユニット（１８０）に伝送される。

次いで、所望の出力信号（ｔ_ｉ）と、特定された出力信号（ｙ_ｉ）とに基づいて、変化ユニット（１８０）により、分類器（６０）のための新しいパラメータ（Φ’）が決定される。このために、変化ユニット（１８０）は、損失関数（英語：Loss Function）を用いて所望の出力信号（ｔ_ｉ）と、特定された出力信号（ｙ_ｉ）とを比較する。損失関数は、特定された出力信号（ｙ_ｉ）が所望の出力信号（ｔ_ｉ）からどの程度偏差しているかを特徴付ける第１の損失値を特定する。損失関数として、本実施例においては、負の対数尤度関数（英語：negative log-likehood function）が選択される。代替的な実施例においては、他の損失関数も考えられる。

さらに、特定された出力信号（ｙ_ｉ）及び所望の出力信号（ｔ_ｉ）が、例えばテンソルの形態の複数のサブ信号をそれぞれ含むことを想定することができ、所望の出力信号（ｔ_ｉ）のそれぞれ１つのサブ信号は、特定された出力信号（ｙ_ｉ）の１つのサブ信号に対応する。例えば、分類器（６０）が、物体検出のために構成されており、第１のサブ信号が、それぞれ入力信号（ｘ_ｉ）の一部に関する物体の発生確率を特徴付け、第２のサブ信号が、物体の正確な位置を特徴付けることを想定することができる。特定された出力信号（ｙ_ｉ）及び所望の出力信号（ｔ_ｉ）が、複数の対応するサブ信号を含む場合には、好ましくは、それぞれの対応するサブ信号ごとに、適当な損失関数を用いて第２の損失値が特定され、これらの特定された第２の損失値が、例えば重み付けされた合計を介して第１の損失値のために適当にマージされる。

変化ユニット（１８０）は、第１の損失値に基づいて新しいパラメータ（Φ’）を特定する。本実施例においては、このことは、勾配降下法、好ましくは、確率的勾配降下法、Ａｄａｍ又はＡｄａｍＷによって行われる。さらなる実施例においては、訓練は、進化的アルゴリズム又は二次最適化（英語：second-order optimization）に基づくこともできる。

特定された新しいパラメータ（Φ’）は、モデルパラメータメモリ（Ｓｔ_１）に保存される。好ましくは、特定された新しいパラメータ（Φ’）は、パラメータ（Φ）として分類器（６０）に供給される。

さらなる好ましい実施例においては、上述した訓練が、所定回数の反復ステップだけ反復的に繰り返され、又は、第１の損失値が所定の閾値を下回るまで反復的に繰り返される。代替的又は追加的に、テストデータセット又は検証データセットに関する平均的な第１の損失値が所定の閾値を下回った場合に、訓練を終了させることを想定することもできる。複数回の反復のうちの少なくとも１回の反復において、前回の反復において決定された新しいパラメータ（Φ’）が、分類器（６０）のパラメータ（Φ）として使用される。

さらに、訓練システム（１４０）は、少なくとも１つのプロセッサ（１４５）と、少なくとも１つの機械可読記憶媒体（１４６）とを含み得るものであり、少なくとも１つの機械可読記憶媒体（１４６）は、命令を含み、これらの命令は、プロセッサ（１４５）によって実行された場合に、本発明の態様のうちの１つによる訓練方法を訓練システム（１４０）に実施させる。

図３は、アクチュエータ（１０）を、分類器（６０）の出力信号（ｙ）に基づいてアクチュエータ（１０）の環境（２０）において制御するための制御システム（４０）を示している。環境（２０）は、センサ（３０）、特にカメラセンサのようなイメージングセンサにおいて、好ましくは規則的な時間間隔で検出され、このセンサ（３０）は、複数のセンサによって提供可能であり、例えば、ステレオカメラであるものとしてよい。センサ（３０）のセンサ信号（Ｓ）－又はセンサが複数ある場合には、それぞれ１つのセンサ信号（Ｓ）－は、制御システム（４０）に伝送される。従って、制御システム（４０）は、センサ信号（Ｓ）のシーケンスを受信する。制御システム（４０）は、これらのセンサ信号（Ｓ）のシーケンスから駆動信号（Ａ）を特定し、この駆動信号（Ａ）がアクチュエータ（１０）に伝送される。

制御システム（４０）は、任意選択肢の受信ユニット（５０）においてセンサ（３０）のセンサ信号（Ｓ）のシーケンスを受信し、受信ユニット（５０）は、センサ信号（Ｓ）のシーケンスを入力信号（ｘ）のシーケンスに変換する（代替的に、それぞれセンサ信号（Ｓ）を直接的に入力信号（ｘ）として受信することもできる）。入力信号（ｘ）は、例えば、センサ信号（Ｓ）の一部又は後続処理であるものとしてよい。換言すれば、入力信号（ｘ）は、センサ信号（Ｓ）に依存して特定される。入力信号（ｘ）のシーケンスは、分類器（６０）に供給される。

分類器（６０）は、好ましくはパラメータ（Φ）によってパラメータ化され、これらのパラメータ（Φ）は、パラメータメモリ（Ｐ）に格納されており、パラメータメモリ（Ｐ）によって供給される。

分類器（６０）は、入力信号（ｘ）から出力信号（ｙ）を特定する。出力信号（ｙ）は、任意選択肢の変形ユニット（８０）に供給され、変形ユニット（８０）は、この出力信号（ｙ）から駆動信号（Ａ）を特定し、この駆動信号（Ａ）は、アクチュエータ（１０）を相応に駆動するためにアクチュエータ（１０）に供給される。

アクチュエータ（１０）は、駆動信号（Ａ）を受信し、相応に駆動され、対応するアクションを実施する。この場合、アクチュエータ（１０）は、（必ずしも構造的に組み込まれているわけではない）駆動ロジックを含み得るものであり、駆動ロジックは、駆動信号（Ａ）から第２の駆動信号を特定し、次いで、この第２の駆動信号によってアクチュエータ（１０）が駆動される。

さらなる実施形態においては、制御システム（４０）は、センサ（３０）を含む。さらなる他の実施形態においては、制御システム（４０）は、代替的又は追加的にアクチュエータ（１０）も含む。

さらなる好ましい実施形態においては、制御システム（４０）は、少なくとも１つのプロセッサ（４５）と、少なくとも１つの機械可読記憶媒体（４６）とを含み、少なくとも１つの機械可読記憶媒体（４６）上には命令が保存されており、これらの命令は、少なくとも１つのプロセッサ（４５）によって実行された場合に、本発明に係る方法を制御システム（４０）に実施させる。

代替的な実施形態においては、アクチュエータ（１０）に代えて又はこれに加えて、ディスプレイユニット（１０ａ）が設けられている。

図４は、少なくとも半自律的なロボット、ここでは少なくとも半自律的な自動車（１００）を制御するために、どのようにして制御システム（４０）を使用することができるかを示している。

センサ（３０）は、例えば、好ましくは、自動車（１００）内に配置されているビデオセンサであるものとしてよい。入力信号（ｘ）は、この場合には入力画像として理解可能であり、分類器（６０）は、画像分類器として理解可能である。

画像分類器（６０）は、入力画像（ｘ）上において認識可能な物体を識別するように構成されている。

好ましくは自動車（１００）内に配置されているアクチュエータ（１０）は、例えば、自動車（１００）のブレーキ、駆動部又は操舵部であるものとしてよい。その場合、自動車（１００）が、例えば画像分類器（６０）によって識別された物体との衝突を、特に、この物体が所定のクラスの物体、例えば歩行者である場合に阻止するように、アクチュエータ（１０）を駆動するように、駆動信号（Ａ）を特定することができる。

代替的又は追加的に、駆動信号（Ａ）によってディスプレイユニット（１０ａ）を駆動することができ、例えば、識別された物体を表示することができる。識別された物体のうちの１つと自動車（１００）とが衝突するおそれがあることが特定された場合に、光学的又は音響的な警告信号を出力するように、駆動信号（Ａ）によってディスプレイユニット（１０ａ）を駆動することも考えられる。警告信号を用いた警告を、触覚的な警告信号を用いて、例えば、自動車（１００）のステアリングホイールの振動を用いて実施することもできる。

代替的に、少なくとも半自律的なロボットは、他の移動型ロボット（図示せず）であるものとしてもよく、例えば、飛行、水泳、潜水又は歩行によって前進するようなロボットであるものとしてもよい。移動型ロボットは、例えば、少なくとも半自律的な芝刈り機、又は、少なくとも半自律的な掃除ロボットであるものとしてもよい。このような場合にも、少なくとも半自律的なロボットが、例えば画像分類器（６０）によって識別された物体との衝突を阻止するように、移動型ロボットの駆動部及び／又は操舵部が駆動されるように、駆動信号（Ａ）を特定することができる。

図５は、製造機械（１１）を制御するアクチュエータ（１０）を駆動することによって、製造システム（２００）の製造機械（１１）を駆動するために制御システム（４０）が使用される実施例を示している。製造機械（１１）は、例えば、打ち抜き、鋸断、穿孔、及び／又は、切断のための機械であるものとしてよい。さらに、製造機械（１１）を、グリッパを用いて製造生産物（１２ａ，１２ｂ）を把持するように構成することが考えられる。

その場合、センサ（３０）は、例えば、コンベヤベルト（１３）の搬送面を検出するビデオセンサであるものとしてよく、コンベヤベルト（１３）上に、製造生産物（１２ａ，１２ｂ）を配置することができる、この場合には、入力信号（ｘ）は、入力画像（ｘ）であり、分類器（６０）は、画像分類器である。画像分類器（６０）は、例えば、コンベヤベルト上の製造生産物（１２ａ，１２ｂ）の位置を特定するように構成可能である。次いで、製造機械（１１）を制御するアクチュエータ（１０）を、特定された製造生産物（１２ａ，１２ｂ）の位置に依存して駆動することができる。例えば、製造生産物（１２ａ，１２ｂ）の所定の箇所において製造生産物（１２ａ，１２ｂ）を打ち抜き、鋸断し、穿孔し、及び／又は、切断するように、アクチュエータ（１０）を駆動することができる。

さらに、画像分類器（６０）を、位置に代えて又はこれに加えて製造生産物（１２ａ，１２ｂ）のさらなる特性を特定するように構成することが考えられる。特に、製造生産物（１２ａ，１２ｂ）が欠陥及び／又は損傷を有するかどうかを、画像分類器（６０）が特定することを想定することができる。この場合には、欠陥及び／又は損傷を有する製造生産物（１２ａ，１２ｂ）を製造機械（１１）が選別するように、アクチュエータ（１０）を駆動することができる。

図６は、アクセスシステム（３００）を制御するために制御システム（４０）が使用される実施例を示している。アクセスシステム（３００）は、物理的なアクセスコントロール、例えばドア（４０１）を含み得る。センサ（３０）は、特に、ドア（４０１）の前方の領域を検出するように構成されているビデオセンサ又はサーモグラフィセンサであるものとしてよい。従って、分類器（６０）は、画像分類器として理解可能である。画像分類器（６０）を用いて、検出された画像を解釈することができる。特に、画像分類器（６０）は、画像分類器（６０）に伝送された入力画像（ｘ）上の人物を検出することができる。複数の人物が同時に検出された場合には、これらの人物（即ち、物体）を相互に対応付けることにより、例えば、これらの人物の動作を分析することによって、例えば、それらの人物の身元を特に確実に特定することができる。

アクチュエータ（１０）は、駆動信号（Ａ）に依存してアクセスコントロールを解除又は非解除するロック、例えば、ドア（４０１）を開放又は閉鎖するロックであるものとしてよい。このために、画像分類器（６０）を用いて入力画像（ｘ）に対して特定された出力信号（ｙ）に依存して、駆動信号（Ａ）を選択することができる。例えば、出力信号（ｙ）が、画像分類器（６０）によって検出された人物の身元を特徴付ける情報を含み、その人物の身元に基づいて駆動信号（Ａ）を選択することが考えられる。

物理的なアクセスコントロールの代わりに、論理的なアクセスコントロールを設けることもできる。

図７は、監視システム（４００）を制御するために制御システム（４０）が使用される実施例を示している。この実施例は、アクチュエータ（１０）の代わりに、制御システム（４０）によって駆動されるディスプレイユニット（１０ａ）が設けられているという点において、図４に示されている実施例とは異なっている。例えば、センサ（３０）は、少なくとも１人の人物が認識されるべき入力画像（ｘ）を記録することができ、少なくとも１人の人物の位置を、画像分類器（６０）を用いて検出することができる。次いで、入力画像（ｘ）を、ディスプレイユニット（１０ａ）上に表示することができ、この際、検出された人物を、色彩的に強調して表示することができる。

図８は、パーソナルアシスタント（２５０）を制御するために制御システム（４０）が使用される実施例を示している。センサ（３０）は、好ましくはユーザ（２４９）のジェスチャの画像を受信する光学センサ、例えばビデオセンサ又はサーモグラフィカメラである。この場合には、分類器（６０）は、画像分類器である。

制御システム（４０）は、センサ（３０）の信号に依存して、例えば、画像分類器（６０）がジェスチャ認識を実施することによって、パーソナルアシスタント（２５０）の駆動信号（Ａ）を特定する。次いで、この特定された駆動信号（Ａ）がパーソナルアシスタント（２５０）に伝送され、これにより、パーソナルアシスタント（２５０）が相応に駆動を行う。特定された駆動信号（Ａ）を、特に、ユーザ（２４９）による推測される所望の駆動に対応するように選択することができる。この推測される所望の駆動は、画像分類器（６０）によって認識されたジェスチャに依存して特定可能である。次いで、制御システム（４０）は、推測される所望の駆動に依存してパーソナルアシスタント（２５０）に伝送するための駆動信号（Ａ）を選択することができ、及び／又は、推測される所望の駆動に応じたパーソナルアシスタント（２５０）に伝送するための駆動信号（Ａ）を選択することができる。

このような対応する駆動は、例えば、パーソナルアシスタント（２５０）がデータベースから情報を呼び出して、この情報をユーザ（２４９）のために受信可能に再生することを含み得る。

パーソナルアシスタント（２５０）の代わりに、家電装置（図示せず）、特に、洗濯機、コンロ、オーブン、電子レンジ又は食器洗浄機を設けて、相応に駆動することも可能である。

図９は、医用イメージングシステム（５００）、例えば、ＭＲＴ装置、Ｘ線装置又は超音波装置を制御するために制御システム（４０）が使用される実施例を示している。センサ（３０）は、例えば、イメージングセンサによって提供可能である。従って、分類器（６０）は、画像分類器として理解可能である。制御システム（４０）によってディスプレイユニット（１０ａ）が駆動される。

センサ（３０）は、患者の画像、例えば、Ｘ線画像、ＭＲＴ画像又は超音波画像を特定するように構成されている。画像のうちの少なくとも一部が、入力画像（ｘ）として画像分類器（６０）に伝送される。画像分類器（６０）は、例えば、入力画像（ｘ）上において認識されるべき種々異なる種類の組織を、例えばセマンティックセグメンテーションによって分類するように構成可能である。

次いで、特定された組織の種類がディスプレイユニット（１０ａ）上において色彩的に強調して表示されるように、駆動信号（Ａ）を選択することができる。

さらなる実施例（図示せず）においては、イメージングシステム（５００）を非医用目的においても使用することができ、例えば、被加工物の材料特性を特定するためにも使用することができる。この目的のために、イメージングシステム（５００）は、被加工物の画像を記録することができる。画像分類器（６０）は、この場合には、画像のうちの少なくとも一部を入力画像（ｘ）として受信し、被加工物の材料特性に関して分類するように構成可能である。このことは、例えば、入力画像（ｘ）のセマンティックセグメンテーションによって実施可能である。このようにして特定された分類を、例えば入力画像と共に表示装置（１０ａ）上に表示することができる。

「コンピュータ」という用語は、所定の計算規則を処理するための任意の装置を含む。これらの計算規則は、ソフトウェアの形態で、又は、ハードウェアの形態で、又は、ソフトウェアとハードウェアとの混合形態で存在することができる。

一般的に、複数には添字が付されていると理解することができ、即ち、複数のうちのそれぞれの要素に、１つの一意の添字が割り当てられ、好ましくは、複数の中に含まれている要素に連続する整数を対応付けることによって割り当てられる。好ましくは、複数のＮ個の要素が含まれていて、かつ、Ｎが複数の中の要素の個数である場合には、これらの要素に１からＮまでの整数が割り当てられる。

Claims

画像の物体の物体検出部を特徴付ける出力信号を特定するためのコンピュータ実装された方法（１００）であって、
ａ．前記画像に関して複数の物体検出部を特定するステップ（１０１）と、
ｂ．前記複数の物体検出部に基づいてグラフを特定するステップ（１０２）であって、前記複数の物体検出部における物体検出部は、前記グラフのノードによって特徴付けられ、それぞれ２つの物体検出部の間の重なりは、前記グラフのエッジによって特徴付けられる、ステップ（１０２）と、
ｃ．密度に基づくクラスタ分析法を用いて、前記グラフの前記ノード及び前記エッジに基づいて前記グラフのクラスタを特定するステップ（１０３）と、
ｄ．前記クラスタに基づいて１つの物体検出部を特定し、前記出力信号において当該物体検出部を提供するステップ（１０４）と、
を含む方法（１００）。
前記クラスタ分析法は、前記クラスタの密度尺度に基づいて、かつ、前記クラスタの接続尺度に基づいて実施される、
請求項１に記載の方法（１００）。
前記クラスタ分析法は、
ｅ．前記グラフ内のそれぞれの前記ノードのエッジの重みの合計に基づいて開始ノードを特定し、前記開始ノードを前記クラスタのノードとして提供するステップ（１０３ａ）と、
ｆ．前記クラスタに含まれておらず、かつ、前記クラスタとの接続が最大である、前記グラフのノードを特定するステップ（１０３ｂ）と、
ｇ．前記ノードの追加によってそのノードの分だけ拡張された前記クラスタの密度尺度が、所定の第１の閾値を下回らない場合であって、かつ、前記追加によって当該ノードの分だけ拡張された前記クラスタの接続尺度が、所定の第２の閾値を下回らない場合に、当該ノードを前記クラスタに追加するステップ（１０３ｃ）と、
ｈ．そうでない場合には、前記クラスタを、特定されたクラスタとして提供するステップ（１０３ｄ）と、
を含む、請求項２に記載の方法（１００）。
前記ステップｆ．において反復的にノードが特定され、前記ステップｇ．の条件のうちの少なくとも一方がもはや満たされなくなるまで、当該ノードが前記クラスタに追加され、
前記少なくとも一方の条件がもはや満たされていない場合には、前記クラスタが提供され、前記クラスタの前記ノードが前記グラフから除去される、
請求項３に記載の方法（１００）。
前記ステップｅ．乃至ステップｈ．は、前記グラフ内にもはやノードが含まれなくなるまで反復的に繰り返される、
請求項４に記載の方法（１００）。
前記クラスタに基づいて特定された前記物体検出部は、前記クラスタが前記開始ノードのみからなる場合には、前記出力信号において提供されない、
請求項４又は５に記載の方法（１００）。
前記複数の物体検出部は、前記画像の複数の異なる前処理に基づいて特定される、
請求項１乃至６のいずれか一項に記載の方法（１００）。
前記グラフは、物体検出部のクラスに関して特定される、
請求項１乃至７のいずれか一項に記載の方法（１００）。
機械学習システム（６０）を訓練するためのコンピュータ実装された方法であって、
ｉ．請求項１乃至８のいずれか一項に記載の方法によって、画像（ｘ_ｉ）に関する出力信号（ｔ_ｉ）を特定するステップと、
ｊ．前記機械学習システム（６０）を訓練するステップであって、前記画像（ｘ_ｉ）は、前記機械学習システムの入力信号として使用され、特定された前記出力信号（ｔ_ｉ）は、所望の出力信号として使用される、ステップと、
を含む方法。
請求項１乃至８のいずれか一項に記載の方法によって、複数の画像に対してそれぞれ１つの出力信号が特定され、
前記機械学習システムは、前記複数の画像と、それぞれ特定された前記出力信号とに基づいて訓練される、
請求項９に記載の方法。
前記密度尺度は、以下の式
ｄ_Ｚ＝２・（Ｗ_Ｚ＋Ｗ_Ｚｋ）／ｎ・（ｎ＋１）
によって特徴付けられる、
請求項１乃至１０のいずれか一項に記載の方法。
前記接続尺度は、以下の式
ｃｐ_Ｚ＝Ｗ_Ｚｋ／ｄ_Ｚ・（ｎ＋１）
によって特徴付けられる、
請求項１乃至１１のいずれか一項に記載の方法。
請求項９乃至１２のいずれか一項に記載の方法を実施するように構成されている訓練装置（１４０）。
プロセッサ（４５，１４５）によって実行された場合に、請求項１乃至１２のいずれか一項に記載の方法を実施するために構成されているコンピュータプログラム。
請求項１４に記載のコンピュータプログラムが保存されている機械可読記憶媒体（４６，１４６）。