JP2022064808A

JP2022064808A - 画像認識方法および画像認識システム

Info

Publication number: JP2022064808A
Application number: JP2021030701A
Authority: JP
Inventors: 得欽高; De-Qin Gao; 泗得 ▲蒋▼; Si De Jiang; 美恩邵; Mei-En Shao; 聖彰阮; Shanq-Jang Ruan
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2020-10-14
Filing date: 2021-02-26
Publication date: 2022-04-26
Also published as: US20220114383A1; US11507776B2; CN114419313A; TWI812888B; TW202215367A

Abstract

【課題】得られた特徴に応じて異なる検出タスクに対応する認識結果を同時に出力する画像認識方法および画像認識システムを提供する。【解決手段】画像認識方法は、画認識対象画像を取得し、認識対象画像を単一の畳み込みニューラルネットワークに入力し、単一の畳み込みニューラルネットワークの出力結果に従って、第１の特徴マップと第２の特徴マップが共有特徴を有する、第１の検出タスクの第１の特徴マップおよび第２の検出タスクの第２の特徴マップを取得し、エンドレイヤーネットワークモジュールにより、第１の特徴マップに従って、認識対象画像から第１の検出タスクに対応する第１の認識結果を生成し、第２の特徴マップに従って、認識対象画像から第２の検出タスクに対応する第２の認識結果を生成、第１の検出タスクに対応する第１の認識結果と第２の検出タスクに対応する第２の認識結果を出力する。【選択図】図１０

Description

本発明は、画像認識方法および画像認識システムに関する。

画像認識の分野では、ニューラルネットワークが広く使用されてきた。ただし、認識の種類が異なれば、多くの場合、異なるニューラルネットワークアーキテクチャが必要になる。したがって、伝統的に、複数の特徴の認識は、ニューラルネットワークの複数のセットの構築を必要とする。単一のニューラルネットワークアーキテクチャを使って複数の特徴を認識して性能を向上させる方法が当業者の目標である。

本発明は、得られた特徴に応じて異なる検出タスクに対応する認識結果を同時に出力することができる画像認識方法および画像認識システムを提供する。

本発明は、複数の検出タスクのための画像認識方法を提供する。本画像認識方法は、画像センサによって認識対象画像を取得するステップと、前記認識対象画像を単一の畳み込みニューラルネットワークに入力するステップと、前記単一の畳み込みニューラルネットワークの出力結果に従って、第１の検出タスクの第１の特徴マップおよび第２の検出タスクの第２の特徴マップを取得するステップであり、前記第１の特徴マップと前記第２の特徴マップが共有特徴を有する、ステップと、最終層ネットワークモジュールを使用して、前記第１の特徴マップに従って、前記認識対象画像から、前記第１の検出タスクに対応する第１の認識結果を生成し、前記第２の特徴マップに従って、前記認識対象画像から、前記第２の検出タスクに対応する第２の認識結果を生成するステップと、前記第１の検出タスクに対応する前記第１の認識結果と、前記第２の検出タスクに対応する前記第２の認識結果を出力するステップとを含む。

本発明は、画像センサ、記憶装置、出力装置、およびプロセッサを含む画像認識システムを提供する。前記画像センサは、認識対象画像を取得する。前記プロセッサは、前記画像センサ、前記記憶装置、および出力装置に結合されている。前記プロセッサは、前記認識対象画像を単一の畳み込みニューラルネットワークに入力する。前記記憶装置は、前記単一の畳み込みニューラルネットワークを格納する。前記プロセッサは、前記単一の畳み込みニューラルネットワークの出力結果に従って、第１の検出タスクに属する第１の特徴マップおよび第２の検出タスクに属する第２の特徴マップを取得し、ここで第１の特徴マップと第２の特徴マップは共有特徴を有する。前記プロセッサは、最終層ネットワークモジュールを使用して、前記第１の特徴マップに従って、認識対象画像から、前記第１の検出タスクに対応する第１の認識結果を生成し、前記第２の特徴に従って、前記認識対象画像から、前記第２の検出タスクに対応する第２の認識結果を生成する。前記出力装置は、前記第１の検出タスクに対応する前記第１の認識結果と、前記第２の検出タスクに対応する前記第２の認識結果とを出力する。

上記に基づいて、本発明の例示的な実施形態の画像認識方法およびシステムは、単一の畳み込みニューラルネットワークを使用することによって、異なる検出タスクの認識結果を得ることができる。

以上をより理解しやすくするために、図面とともにいくつかの実施形態を以下で詳細に説明する。

本発明の例示的な実施形態による画像認識システムを示すブロック図である。本発明の例示的な実施形態による、単一の畳み込みニューラルネットワークに基づく画像認識モジュールを示すブロック図である。本発明の例示的な実施形態による画像前処理を示す概略図である。本発明の例示的な実施形態による、異なる検出タスクに対して得られた特徴マップを示す概略図である。本発明の例示的な実施形態によるコンピュータビジョン技術を使用することによって得られたグリッドマップを示す概略図である。本発明の例示的な実施形態による、第１の特徴マップおよび第２の特徴マップを示す概略図である。本発明の例示的な実施形態による、第１の損失関数の入力を示す概略図である。本発明の例示的な実施形態による、第２の損失関数の入力を示す概略図である。図９Ａ～図９Ｄは、本発明の例示的な実施形態によるコンピュータビジョン技術を使用することによって得られたセグメンテーションマップを示す概略図である。本発明の例示的な実施形態による画像認識方法を示すフローチャートである。

図１は、本発明の例示的な実施形態による画像認識システムを示すブロック図である。

図１に示すように、画像認識システム１００は、単一の畳み込みニューラルネットワークを使用して異なる検出タスクの認識結果を取得するために、本開示に記載の画像認識方法を実行するように構成されている。画像認識システム１００は、例えば、モバイルデバイス、携帯情報端末（ＰＤＡ）、ノートブックコンピュータ、タブレットコンピュータ、一般的なデスクトップコンピュータ、または本明細書に限定されていない他の電子デバイスであってよい。

画像認識システム１００は、画像センサ１１０、記憶装置１２０、出力装置１３０、およびプロセッサ１４０を含む。

画像センサ１１０は、認識対象画像を取得するように構成される。この例示的な実施形態では、画像センサ１１０は、例えば、カムコーダまたはモバイルデバイスのカメラのカムコーダである。

記憶装置１２０は、単一の畳み込みニューラルネットワーク、認識対象画像、および認識結果を記憶するように構成される。この例示的な実施形態では、記憶装置１２０は、任意の可能な形態の固定または可動デバイス、例えば、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、フラッシュメモリ、ハードドライブまたは他の同様のデバイスなど、または上記のデバイスの組み合わせであってよい。

出力装置１３０は、画像認識結果を出力するように構成されたデバイスまたは要素である。出力装置１３０は、例えば、ディスプレイである。例えば、認識対象画像が道路画像（例えば、木、車両、歩行者の画像を含む）である場合、出力装置１３０は、開示の画像認識方法に従って認識対象画像内の樹木、車両、および歩行者の画像を出力することができる。

プロセッサ１４０は、画像センサ１１０、記憶装置１２０、および出力装置１３０に結合されて、画像認識システム１００の動作を制御する。この例示的な実施形態では、プロセッサ１４０は、例えば、汎用プロセッサ、専用プロセッサ、従来のプロセッサ、データ信号プロセッサ、複数のマイクロプロセッサ、1つまたは複数のマイクロプロセッサ、コントローラ、マイクロコンピュータ、およびデジタル信号プロセッサのコアに結合された特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、その他の集積回路、ステートマシン、ＡｄｖａｎｃｅｄＲＩＳＣＭａｃｈｉｎｅ（ＡＲＭ）に基づくプロセッサおよび同様の製品である。

この例示的な実施形態では、プロセッサ１４０は、単一の畳み込みニューラルネットワークに基づく画像認識モジュールを実行して、複数の検出タスクの認識を同時に実行することができる。

図２は、本発明の例示的な実施形態による、単一の畳み込みニューラルネットワークに基づく画像認識モジュールを示すブロック図である。

図２に示されるように、単一の畳み込みニューラルネットワークに基づく画像認識モジュール２０００は、画像前処理モジュール２００２、バックボーンアーキテクチャモジュール２００４、最終層ネットワークモジュール２００６、およびコンピュータビジョン処理モジュール２００８を含む。

この例示的な実施形態では、プロセッサ１４０は、画像前処理モジュール２００２を実行して、画像センサ１１０によって取得された認識対象画像に対して前処理を実行する。

図３は、本発明の例示的な実施形態による画像前処理を示す概略図である。

図３に示されるように、画像前処理モジュール２００２は、認識対象画像（例えば、生画像３１１または生画像３２１）の高さおよび幅の寸法をニューラルネットワークモデルの寸法に正規化することができる。

具体的には、ニューラルネットワークモデルの寸法は、図３の操作３１０の画像パディングによって示されるように、幅Ｗ_Ｍおよび高さＨ_Ｍを含むと想定される。画像前処理モジュール２００２は、生画像３１１（幅Ｗ_１および高さＨ_１）に対して画像パディングを実行し、画像のアスペクト比を調整して、入力画像３１２を取得する。

さらに、別の例では、以下の操作３２０および操作３３０および式１によって示されるように、画像前処理モジュール２００２は、バイキュービック補間を使用して生画像３２１のサイズを変更することによって入力画像３２２を取得することもできる。

図２に示すように、バックボーンアーキテクチャモジュール２００４は、認識対象画像の特徴を抽出するように構成され、最終層ネットワークモジュール２００６は、バックボーンアーキテクチャモジュール２００４によって出力される特徴マップに従って複数の検出タスクおよび認識を実行するように構成される。

具体的には、バックボーンアーキテクチャモジュール２００４は、単一の畳み込みニューラルネットワーク内の複数の畳み込み層で構成され、プロセッサ１４０は、バックボーンアーキテクチャモジュール２００４を実行して、認識対象画像から検出タスクに対応する特徴を抽出して特徴マップを生成する。次に、プロセッサ１４０は、最終層ネットワークモジュール２００６を実行して、検出タスクおよび認識を実行する。

この例示的な実施形態では、例えば、第１の検出タスクは２Ｄ物体検出タスクであり、第２の検出タスクは画像セグメンテーション検出タスクである。したがって、バックボーンアーキテクチャモジュール２００４は、第１の検出タスクに対応する第１の特徴マップおよび第２の検出タスクに対応する第２の特徴マップを出力し、最終層ネットワークモジュール２００６は、第1および第2の特徴マップに従って第１の検出タスクに対する物体検出および第2の検出タスクに対する点検出を実行する。

図４は、本発明の例示的な実施形態による、異なる検出タスクに対して得られた特徴マップを示す概略図である。

図４に示されるように、入力画像３１２がバックボーンアーキテクチャモジュール２００４に入力されると、プロセッサ１４０は、バックボーンアーキテクチャモジュール２００４内に構成された単一の畳み込みニューラルネットワーク４１０から、第１の検出タスクの第１の特徴マップ４２０-１、４２０-２および４２０-３と、第２の検出タスクの第２の特徴マップ４３０を取得することができる。具体的には、プロセッサ１４０は、複数の畳み込み層を有するバックボーンアーキテクチャモジュール２００４を使用して、認識対象画像（例えば、入力画像３１２）から、第１の検出タスクの第１の特徴マップ４２０-１、４２０-２および４２０－３と第２の検出タスクの第２の特徴マップ４３０の共有特徴を抽出することができ、したがって、第１の検出タスクの第１の特徴マップ４２０－１、４２０-２および４２０-３と第２の検出タスクの第２の特徴マップ４３０の共有特徴マップを生成することができる。

例えば、この例示的な実施形態では、第１の検出タスクは２Ｄ物体検出タスクであるため、第１の検出タスクの第１の特徴マップは、境界ボックスの座標、境界ボックスの幅および高さ、境界ボックスの検出信頼度および境界ボックスのクラス確率を含むことができる。第2の検出タスクは画像セグメンテーション検出タスクであるため、第2の検出タスクの第2の特徴マップは、境界ボックスの座標、境界ボックスの検出信頼度、および境界ボックスのクラス確率を含むことができる。

図２に示すように、コンピュータビジョン処理モジュール２００８は、特徴マップの情報に従って点検出を実行するように構成される。具体的には、画像セグメンテーション検出を正しく実行するために、この例示的な実施形態では、プロセッサ１４０は、コンピュータビジョン処理モジュール２００８を実行して、第２の検出タスクの第２の特徴マップの情報に従ってコンピュータビジョンベースの処理を実行する。

図５は、本発明の例示的な実施形態によるコンピュータビジョン技術を使用することによって得られるグリッドマップを示す概略図である。

図５に示されるように、コンピュータビジョン処理モジュール２００８は、バックボーンアーキテクチャモジュール２００４によって生成された特徴マップに従って、入力画像（すなわち、入力画像３１２）から対応する画像セグメンテーションのグラウンドトゥルース（すなわち、画像セグメンテーションのグラウンドトゥルース５１０）を取得することができる。

図５に示されるように、画像セグメンテーションのグラウンドトゥルース５１０は、点ＧＳ_０、ＧＳ_１、ＧＳ_２、ＧＳ_３、ＧＳ_４、ＧＳ_５、ＧＳ_６およびＧＳ_７を含む。ニューラルネットワークモデルの次元は幅W_Mと高さH_Mを含み、γはセルマップのスケーラーであると仮定される。グリッドマップ５２０において、点ＧＳ_０、ＧＳ_１、ＧＳ_２、ＧＳ_３、ＧＳ_４、ＧＳ_５、ＧＳ_６およびＧＳ_７を含むセルは、正のデータと見なすことができ、点ＧＳ_０、ＧＳ_１、ＧＳ_２、ＧＳ_３、ＧＳ_４、ＧＳ_５、ＧＳ_６およびＧＳ_７を含まないセルは、一時的に負のデータと見なすことができる。次に、以下の式２および式３を使用することにより、コンピュータビジョン処理モジュール２００８は、隣接する点ＧＳ_nとＧＳ_{n + 1}との間のベクトル分析を計算することができる。

隣接する点ＧＳ_nとＧＳ_{n + 1}との間のベクトル分析を計算した後、プロセッサ１４０は、ＧＳ_n≦ＧＳ_{n + 1}毎にＧＳ_n ＝ＧＳ_Ｎ＋ Δ_ｘｙを繰り返し実行し、負のセルデータに最初に遭遇するすべての点を正のデータに変換することができる。このようにして、プロセッサ１４０は、画像セグメンテーションのグラウンドトゥルース５１０から正のデータグリッドマップ５２０を取得することができる。すなわち、点ＧＳ_０、ＧＳ_１、ＧＳ_２、ＧＳ_３、ＧＳ_４、ＧＳ_５、ＧＳ_６およびＧＳ_７を含むすべてのセルを備えた正のデータグリッドマップ５２０を得ることができる。

図６は、本発明の例示的な実施形態による、第１の特徴マップおよび第２の特徴マップを示す概略図である。

図６に示されるように、第２の特徴マップ（点候補ＲＳ^０（ｘ、ｙ、ｃｌ、ｐ））は、境界ボックスの座標（ｘ、ｙ）、境界ボックスの検出信頼度ｃｌ、および境界ボックスのクラス確率ｐを含み得る。第１の特徴マップ（検出ボックス候補ＲＤ^０（ｘ、ｙ、ｗ、ｈ、ｃｌ、ｐ））には、境界ボックスの座標（x、y）、境界ボックスの幅wと高さh、境界ボックスの検出信頼度ｃｌおよび境界ボックスのクラス確率ｐを含み得る。点候補ＲＳ^０（ｘ、ｙ、ｃｌ、ｐ）および検出ボックス候補ＲＤ^０（ｘ、ｙ、ｗ、ｈ、ｃｌ、ｐ）が図６に示すようにアレイに配置された後に、ノンマキシマムサプレッション（ＮＭＳ）技術を使用して、信頼度が低い点候補および検出ボックス候補を除去することができる。このようにして、点予測（ＲＳ（ｘ、ｙ、ｃ、ｃｌ、ｐ））および検出ボックス予測（ＲＤ（ｘ、ｙ、ｗ、ｈ、ｃ、ｃｌ、ｐ））を生成することができる。

例示的な実施形態では、第１の損失関数を、第１の検出タスクのために構成することができ、第２の損失関数を、第２の検出タスクのために構成することができる。第１の損失関数は、第１の検出タスクに対応する第１の認識結果と第１の基準結果との間の誤差を測定するように構成され、第２の損失関数は、第２の検出タスクに対応する第２の認識結果と第２の基準結果との間の誤差を測定するように構成される。

図７は、本発明の例示的な実施形態による、第１の損失関数の入力を示す概略図である。

画像セグメンテーションのグラウンドトゥルース５１０（すなわち、ＧＳ（ｘ、ｙ、ｃ））と図６に示される方法によって生成された点予測ＲＳ（ｘ、ｙ、ｃ、ｃｌ、ｐ）に応じて、第１の損失関数（セグメンテーション損失Ｓｅｇ_ｌｏｓｓ）が第１の認識結果（点予測ＲＳ（x、y、c、cl、p））と第１の基準結果（画像セグメンテーションのグラウンドトゥルース５１０、すなわち、第１の検出タスクに対応するGS（x、y、c））との間の誤差を測定することができる。Ｓｅｇ_ｌｏｓｓは、以下の式4から式7を介して得ることができる。

ここで、λｐｔは正のｘｙ予測の正規化の重みを示す。
[外１]

は、正の点予測を示す。 λnoptは、負（ｎｕｌｌ値）のｘｙ予測の正規化重みを示す
[外２]

は、負の点予測を示す。ＧＳ_ｉ(ｃｌ)= １；ＧＳ_ｉ（p（c））= １；ｍｆはバッチ番号を示し、 fはフレームインデックスを示す。

図８は、本発明の例示的な実施形態による、第２の損失関数の入力を示す概略図である。

プロセッサ１４０のバックボーンアーキテクチャモジュール２００４は、入力画像（例えば、入力画像３１２）から２Ｄグラウンドトゥルース８１０を取得することができる。図６に示される方法によって生成された２Ｄグラウンドトゥルース８１０（すなわち、ＧＤ（ｘ、ｙ、ｗ、ｈ、ｃ））と検出ボックス予測ＲＤ（ｘ、ｙ、ｗ、ｈ、ｃ、ｃｌ、ｐ））に応じて、第２の損失関数（２Ｄ物体検出損失Ｏｂｊ_ｌｏｓｓ）が、第２の認識結果（検出ボックス予測ＲＤ（ｘ、ｙ、ｗ、ｈ、ｃ、ｃｌ、ｐ）と第２の検出タスクに対応する第２の認識結果（２Ｄグラウンドトゥルース８１０、すなわちＧＤ（ｘ、ｙ、ｗ、ｈ、ｃ））との間の誤差を測定することができる。Ｏｂｊ_ｌｏｓｓは、以下の式８から式１２を介して得ることができる。

ここで、λｘｙは正のｘｙ予測の正規化重みを示す。
[外３]

は、正の検出予測を示す。 λnobbは、負（ヌル値）のｘｙ予測の正規化重みを示す。
[外４]

は、負の検出予測を示し、 GD_ｉ（ｃｌ）は１であり、 GD_ｉ（ｐ（ｃ））は1であり、 Aはボックスの総数を示し、ｍｆはバッチ番号を示し、fはフレームインデックスを示す。

例示的な実施形態では、プロセッサ１４０は、最終層ネットワークモジュール２００６内に複数の予測層を構成し、第１の検出タスクに対応する第１の損失関数および第２の検出タスクに対応する第２の損失関数に従って共有特徴マップを処理することができる。言い換えれば、プロセッサ１４０は認識対象画像（入力画像３１２）から共有特徴を抽出し、バックボーンアーキテクチャモジュール２００４を介して、第１の特徴マップ４２０-１、４２０-２および４２０-３および第２の特徴マップ４３０の共有特徴マップを生成した後に、上記の式４～式７から得られた第１の検出タスクに対応する第１の損失関数および上記の式８～式１２から得られた第２の検出タスクに対応する第２の損失関数に従って共有特徴マップを処理することができる。

例示的な実施形態では、プロセッサ１４０は、複数の正規化重みを使用して、第２の検出タスクの損失値の範囲のバランスを取り、第１の検出タスクの損失値の範囲を参照してバックボーンアーキテクチャモジュールの学習可能な重みを調整することができる。たとえば、第１の損失関数（セグメンテーション損失Ｓｅｇ_ｌｏｓｓ）と第２の損失関数（２Ｄ物体検出損失Ｏｂｊ_ｌｏｓｓ）が得られた後で、以下の式１３を使用して合成損失Ｆｉｎａｌ_ｌｏｓｓを得ることができる。プロセッサ１４０は、合成損失Ｆｉｎａｌ_ｌｏｓｓを使用して、バックボーンアーキテクチャモジュール２００４の学習可能な重みを調整することができる。

ここで、
[外５]

であり、
[外６]

は、バックボーンアーキテクチャモジュール２００４が画像セグメンテーション検出タスクのみでトレーニングされた場合の最小セグメンテーション損失を示し、
[外７]

は、バックボーンアーキテクチャモジュールが２Ｄ物体検出タスクのみでトレーニングされた場合の最小２Ｄ物体検出損失を示す。

例示的な実施形態では、プロセッサ１４０は、最終層ネットワークモジュール内のコンピュータビジョン技術を使用して、第２の検出タスクに対応する認識結果をクラスタ化および結合することができる。

図９Ａ～図９Ｄは、本発明の例示的な実施形態によるコンピュータビジョン技術を使用することによって得られたセグメンテーションマップを示す概略図である。

図９Ａを参照するに、図６に示す方法によって得られる点候補ＲＳ^０（ｘ、ｙ、ｃｌ、ｐ）が図９の点候補９１０であり、図４に示す方法によって得られる第２の検出タスク（画像セグメンテーション）の第２の特徴マップ４３０が図９の特徴マップ９２０であり、そして、図５に示される方法によって得られる正のデータグリッドマップ５２０が図９の正のデータグリッドマップ９３０である、と想定される。この例示的な実施形態では、プロセッサ１４０は、コンピュータビジョン技術を使用して、点候補９１０と、特徴マップ９２０と、正のデータグリッドマップ９３０を使用することによってセグメンテーションマップを得ることができる。

この例示的な実施形態では、プロセッサ１４０がコンピュータビジョン技術を使用してセグメンテーションマップを取得する操作は、３つの段階に分割することができる。第１段階では、プロセッサ１４０は、以下の式１４および式１５を使用することにより、始点ｓｔ_ｐｔおよび終点ｅｄ_ｐｔを認識することができる。

ここで、
［外８］

は正点予測を示し、
[外９]

は最低の正点予測を示す。

第２の段階では、プロセッサ１４０は、点の順序インデックスを見つけ続ける。

図９Ｂは、本発明の例示的な実施形態によるコンピュータビジョン技術を使用することによってセグメンテーションマップを取得するための第２の段階を示す概略図である。

図９Ｂを参照するに、第１段階で得られた始点ｓｔ_ｐｔは点９１０－１であり、第１段階で得られた終点ｅｄ_ｐｔは点９１０－２であると想定される。第２段階を実施すると、開始点ｓｔ_ｐｔ（点9１０－１）から出発して、カーネルが正のデータグリッドマップ９３０内の隣接セルに正のセルがあるかどうかを検索することができる。ここでは、カーネルは、図９Ｂの高さと幅が両方とも３のカーネル９４０であり、順序インデックスを決定するために以下の式１６および式１７が使用される。

ポイント９１０-１から出発して、カーネルが正のデータグリッドマップ９３０内の隣接するセルに正のセルがあるかどうかを検索する。ここでは、カーネルは、図９Ｂの長さと幅が両方とも３のカーネル９４０であり、順序インデックスを決定するために式１６および式１７が使用される。

カーネル９４０（すなわち、Ｋｎ）を使用することによって、隣接する正のセルが正のデータグリッドマップ９３０内に見つからない場合、高さと幅の両方が５（Ｋ_ｇａｐ）である別のカーネル９５０を使用して、特徴マップ９２０および正のデータグリッドマップ９３０内の隣接するセルを検索することができ、そのような動作は、以下の式１８から式２０で表すことができる。

状況1：

状況2：

第２段階が処理された後、次に、ソートされた点を使用して、図９Ｄに示されるような輪郭を描いて、認識対象画像の第２の検出タスク（画像セグメンテーション）に対応する第２の認識結果（すなわち、画像セグメンテーション結果）を取得することができる。

図１０は、本発明の例示的な実施形態による画像認識方法を示すフローチャートである。

図１０に示されるように、ステップＳ１０１０において、画像センサ１１０は、認識対象画像を取得する。

ステップＳ１０２０において、プロセッサ１４０は、画像に対して前処理を実行する。

ステップＳ１０３０において、プロセッサ１４０は、認識対象画像（すなわち、図３の入力画像３１２または入力画像３２２）を単一の畳み込みニューラルネットワークに入力することができる。ここで、単一の畳み込みニューラルネットワークは、たとえば、画像認識用のニューラルネットワークアルゴリズムＹＯＬＯｖ３（ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅＶｅｒｓｉｏｎ（ＹＯＬＯバージョン3）である。ただし、本開示は、使用される単一の畳み込みニューラルネットワークのタイプを制限するものではない。

次に、ステップＳ１０４０において、プロセッサ１４０は、単一の畳み込みニューラルネットワークに従って、第１の検出タスクに属する第１の特徴マップと、第２の検出タスクに属する第２の特徴マップを取得する。

ステップＳ１０５０において、プロセッサ１４０は、第１の特徴マップ（第１の特徴マップ４２０-１、４２０-２および４２０-３）に従って、認識対象画像から、第１の検出タスク（２Ｄ物体検出）に対応する第１の認識結果（すなわち、２Ｄ物体検出結果）を生成することができ、且つ第２の特徴マップ（第２の特徴マップ４３０）に従って、認識対象画像から、第２の検出タスク（画像セグメンテーション）に対応する第２の認識結果（すなわち、画像セグメンテーション結果）を生成することができる。

ステップＳ１０６０において、出力装置１３０は、第１の検出タスク（２Ｄ物体検出）に対応する第１の認識結果（すなわち、２Ｄ物体検出結果）および第２の検出タスク（すなわち、画像セグメンテーション）に対応する第２の認識結果（すなわち、画像セグメンテーション結果）を出力する。

要約すると、本発明の例示的な実施形態の画像認識方法およびシステムは、異なる検出タスクの特徴マップ間に共有特徴がある場合、単一の畳み込みニューラルネットワークを使用することによって、異なる検出タスクの認識結果を得ることができる。これにより、画像認識に必要な時間を節約し、画像認識の精度を向上させることができる。

本発明は、上記の実施形態を参照して説明されてきたが、本発明の精神から逸脱することなく、上記の実施形態に様々な変更を行うことができることは当業者には明らかである。したがって、本発明の範囲は、上記の詳細な説明ではなく、添付の特許請求の範囲によって特定される。

本発明の画像認識方法および画像認識システムは、画像認識の分野に適用することができる。

１００：画像認識システム
１１０：画像センサ
１２０：記憶装置
１３０：出力装置
１４０：プロセッサ
２０００：単一の畳み込みニューラルネットワークに基づく画像認識モジュール
２００２：画像前処理モジュール
２００４：バックボーンアーキテクチャモジュール
２００６：最終層ネットワークモジュール
２００８：コンピュータビジョン処理モジュール
ＷＭ：ニューラルネットワークモデルの幅の次元
ＨＭ：ニューラルネットワークモデルの高さ次元
Ｗ_Ｉ：生画像の幅
Ｈ_Ｉ：生画像の高さ
Ｉ_Ｉ：認識対象画像
Ｉ：入力画像
３１０：画像パディング操作
３２０、３３０：画像のサイズ変更操作
３１１、３２１：生画像
３１２、３２２：入力画像
４１０：単一の畳み込みニューラルネットワーク
４２０－１、４２０－２、４２０－３：第１の特徴マップ
４３０：第２の特徴マップ
５１０：画像セグメンテーションのグラウンドトゥルース
５２０：正データのグリッドマップ
ｘ、ｙ：境界ボックスの座標
ｗ：境界ボックスの幅
ｈ：境界ボックスの高さ
ｃｌ：検出信頼度
ｐ：クラス確率
ＲＳ^０：点候補
ＲＤ^０：検出ボックス候補
ＲＳ：点予測
ＲＤ：検出ボックス予測
９１０：点候補
９２０：特徴マップ
９３０：正データのグリッドマップ
9４０、９５０：カーネル
Ｓ１０１０、Ｓ１０２０、Ｓ１０３０、Ｓ１０４０、Ｓ１０５０、Ｓ１０６０：手順

Claims

複数の検出タスクのための画像認識方法であって、該画像認識方法は、
画像センサによって認識対象画像を取得するステップと、
前記認識対象画像を単一の畳み込みニューラルネットワークに入力するステップと、
前記単一の畳み込みニューラルネットワークの出力結果に従って、第１の検出タスクに属する第１の特徴マップおよび第２の検出タスクに属する第２の特徴マップを取得するステップであり、前記第１の特徴マップと前記第２の特徴マップが共有特徴を有する、ステップと、
最終層ネットワークモジュールを使用して、前記第１の特徴マップに従って、前記認識対象画像から前記第１の検出タスクに対応する第１の認識結果を生成し、前記第２の特徴マップに従って、前記認識対象画像から前記第２の検出タスクに対応する第２の認識結果を生成するステップと、
前記第１の検出タスクに対応する前記第１の認識結果と、前記第２の検出タスクに対応する前記第２の認識結果を出力するステップと、
を含むことを特徴とする、画像認識方法。
前記第１の検出タスクが２Ｄ物体検出であり、前記第２の検出タスクが画像セグメンテーションである、請求項１に記載の画像認識方法。
前記単一の畳み込みニューラルネットワーク内に複数の畳み込み層を有するバックボーンアーキテクチャモジュールを構成するステップと、
前記バックボーンアーキテクチャモジュールを使用して、前記認識対象画像から前記共有特徴を抽出し、共有特徴マップを生成するステップと、
をさらに含む、請求項１または２に記載の画像認識方法。
前記第１の検出タスクのための第１の損失関数を構成し、前記第２の検出タスクのための第２の損失関数を構成するステップをさらに備え、
前記第１の損失関数が、前記第１の認識結果と前記第１の検出タスクに対応する第１の基準結果との間の誤差を測定し、
前記第２の損失関数が、前記第２の認識結果と前記第２の検出タスクに対応する第２の基準結果との間の誤差を測定する、請求項３に記載の画像認識方法。
前記最終層ネットワークモジュール内に複数の予測層を構成し、前記第１の検出タスクに対応する前記第１の損失関数および前記第２の検出タスクに対応する前記第２の損失関数に従って前記共有特徴マップを処理するステップ、
をさらに含む、請求項４に記載の画像認識方法。
複数の正規化重みを使用して、前記第２の検出タスクの損失値の範囲のバランスを取り、前記第１の検出タスクの損失値の範囲を参照して前記バックボーンアーキテクチャモジュールの学習可能な重みを調整するステップ、
をさらに含む、請求項４に記載の画像認識方法。
前記最終層ネットワークモジュール内のコンピュータビジョン技術を使用して、前記第２の検出タスクに対応する前記第２の認識結果をクラスタ化および結合するステップ、
をさらに含む、請求項１から６のいずれか一項に記載の画像認識方法。
前記第１の検出タスクの前記第１の特徴マップは、境界ボックスの座標、前記境界ボックスの幅および高さ、前記境界ボックスの検出信頼度および前記境界ボックスのクラス確率を含み、前記第２の検出タスクの前記第２の特徴マップは、前記境界ボックスの前記座標、前記境界ボックスの前記検出信頼度、および前記境界ボックスの前記クラス確率を含む、請求項１から７のいずれか一項に記載の画像認識方法。
認識対象画像を取得する画像センサと、
記憶装置と、
出力装置と、
前記画像センサ、前記記憶装置、および前記出力装置に結合されたプロセッサと、
を備え、
前記プロセッサが、前記認識対象画像を単一の畳み込みニューラルネットワークに入力し、前記記憶装置が、前記単一の畳み込みニューラルネットワークを記憶すること、
前記プロセッサが、前記単一の畳み込みニューラルネットワークの出力結果に従って、第１の検出タスクに属する第１の特徴マップおよび第２の検出タスクに属する第２の特徴マップを取得し、前記第１の特徴マップと前記第２の特徴マップが共有特徴を有すること、
前記プロセッサが、最終層ネットワークモジュールを使用して、前記第１の特徴マップに従って、前記認識対象画像から前記第１の検出タスクに対応する第１の認識結果を生成し、前記第２の特徴マップに従って、前記認識対象画像から前記第２の検出タスクに対応する第２の認識結果を生成すること、
前記出力装置が、前記第１の検出タスクに対応する前記第１の認識結果と、前記第２の検出タスクに対応する前記第２の認識結果とを出力すること、
を特徴とする、画像認識システム。
前記第１の検出タスクが２Ｄ物体検出であり、前記第２の検出タスクが画像セグメンテーションである、請求項９に記載の画像認識システム。
前記プロセッサが、前記単一の畳み込みニューラルネットワーク内に複数の畳み込み層を有するバックボーンアーキテクチャモジュールを構成し、
前記プロセッサが、前記バックボーンアーキテクチャモジュールを使用して、前記認識対象画像から前記共有特徴を抽出し、共有特徴マップを生成する、請求項９または１０に記載の画像認識システム。
前記プロセッサが、前記第１の検出タスクのための第１の損失関数を構成し、且つ前記第２の検出タスクのための第２の損失関数を構成し、
前記第１の損失関数が、前記第１の認識結果と前記第１の検出タスクに対応する第１の基準結果との間の誤差を測定し、
前記第２の損失関数が、前記第２の認識結果と前記第２の検出タスクに対応する第２の基準結果との間の誤差を測定する、請求項１１に記載の画像認識システム。
前記プロセッサが、前記最終層ネットワークモジュール内に複数の予測層を構成し、前記第１の検出タスクに対応する前記第１の損失関数および前記第２の検出タスクに対応する前記第２の損失関数に従って前記共有特徴マップを処理する、請求項１２に記載の画像認識システム。
前記プロセッサが、複数の正規化重みを使用して、前記第２の検出タスクの損失値の範囲のバランスを取り、前記第１の検出タスクの損失値の範囲を参照して前記バックボーンアーキテクチャモジュールの学習可能な重みを調整する、請求項１２に記載の画像認識システム。
前記プロセッサが、前記最終層ネットワークモジュール内のコンピュータビジョン技術を使用して、前記第２の検出タスクに対応する前記第２の認識結果をクラスタ化および結合する、請求項９から１４のいずれか一項に記載の画像認識システム。
前記第１の検出タスクの前記第１の特徴マップは、境界ボックスの座標、前記境界ボックスの幅および高さ、前記境界ボックスの検出信頼度および前記境界ボックスのクラス確率を含み、前記第２の検出タスクの前記第２の特徴マップは、前記境界ボックスの前記座標、前記境界ボックスの前記検出信頼度、および前記境界ボックスの前記クラス確率を含む、請求項９から１５のいずれか一項に記載の画像認識システム。