JP7133585B2

JP7133585B2 - オブジェクト認識装置およびオブジェクト認識方法

Info

Publication number: JP7133585B2
Application number: JP2020086385A
Authority: JP
Inventors: ユ，ヨンジュン; ハン，ドンユン; ユン，サンド
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2019-06-13
Filing date: 2020-05-18
Publication date: 2022-09-08
Anticipated expiration: 2040-05-18
Also published as: JP2020201944A

Description

本出願は、対象イメージ内に含まれたオブジェクトを認識できるオブジェクト認識装置およびオブジェクト認識方法に関する。

最近、顔情報を用いた様々なアプリケーションが登場することにより、実用的な顔検出方法に関する関心が高まっている。顔認識システムは、特定人の出入りを許可するセキュリティシステムと監視環境において個人のプライバシー保護のために用いられている。また、表情認識は、顔領域に対して表情変化を分析して外形的な表情変化から人の感情を解釈する分野に用いられている。このような顔情報を活用したアプリケーションの領域が拡大しその数が増加することにより、様々な環境において顔領域を正確に抽出できる実用性の高い顔検出方法に関する研究が活発に行われている。

最近、様々なコンピュータビジョンの分野において、学習に基づいた畳み込みニューラルネットワーク（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ；ＣＮＮ）方法が大きな成果を成し遂げた。ＣＮＮの顔検出方法が検出性能において大きい発展を成し遂げたが、システムの増加した複雑度はそれに対する実用性に疑問を持たせた。３２０×２４０のイメージから抽出できるウィンドウの数は１０億個に達する。数多くのパッチに対して各々ＣＮＮに基づいて特徴情報を抽出し、顔と顔ではない領域に分類をするようになる。これは、顔検出性能とシステムの複雑度との間のトレードオフ関係をよく示すものである。また、隣接したウィンドウ間の共通集合領域に対して畳み込み演算が繰り返し実行されることによって不要な演算過程が含まれ、畳み込みニューラルネットワークの全結合層（ｆｕｌｌｙ－ｃｏｎｎｅｃｔｅｄｌａｙｅｒ）の入力と出力が固定されることによってそのニューラルネットワークを通過する全ての入力データは入力データの大きさを固定された大きさに再調整する過程を伴うことによってシステムの演算複雑度が増加するようになる。

本出願は、相対的に少ない容量で様々な大きさのオブジェクトに対する高いオブジェクト認識性能を実現できるオブジェクト認識装置およびオブジェクト認識方法を提供しようとする。

本出願は、バックボーンネットワークの繰り返しの再使用を利用して複数の特徴マップを生成できるオブジェクト認識装置およびオブジェクト認識方法を提供しようとする。

本発明の一実施形態によるオブジェクト認識装置は、対象イメージが入力されれば、特徴抽出演算を実行して特徴イメージを生成する特徴抽出部、および前記特徴イメージに特徴マップ抽出演算を繰り返し実行し、前記特徴マップ抽出演算を適用した回数に応じて各々異なる解像度を有する複数の第１特徴マップを生成するバックボーンネットワーク部を含む。

本発明の他の一実施形態によるオブジェクト認識方法は、入力された対象イメージに特徴抽出演算を実行して特徴イメージを生成するステップ、前記特徴イメージに特徴マップ抽出演算を繰り返し実行し、前記特徴マップ抽出演算を適用した回数に応じて各々異なる解像度を有する複数の第１特徴マップを生成するステップ、および前記複数の第１特徴マップ内を移動する各々の境界ボックスを用いて、前記境界ボックス内のオブジェクト包含有無を判別し、前記オブジェクトが含まれた場合には前記第１特徴マップ内の境界ボックスを前記対象イメージ内の位置に回帰させて前記オブジェクトの位置情報を抽出するステップを含む。

本発明のまた他の実施形態によるオブジェクト認識方法は、入力された対象イメージに特徴抽出演算を実行して特徴イメージを生成するステップ、前記特徴イメージに特徴マップ抽出演算を繰り返し実行し、前記特徴マップ抽出演算を適用した回数に応じて各々異なる解像度を有する複数の第１特徴マップを生成するステップ、複数の第１特徴マップのうち解像度が最も低い第１特徴マップを最初の第２特徴マップに設定するステップ、直前に生成した第２特徴マップをアップサンプリングし、前記アップサンプリングした結果と同一な解像度を有する第１特徴マップをスキップ接続技法により連結して第２特徴マップを生成するステップ、および前記複数の第２特徴マップ内を移動する各々の境界ボックスを用いて、前記境界ボックス内のオブジェクト包含有無を判別し、前記オブジェクトが含まれた場合には前記第２特徴マップ内の境界ボックスを前記対象イメージ内の位置に回帰させて前記オブジェクトの位置情報を抽出するステップを含む。

なお、前記課題を解決するための手段は、本発明の特徴を全て列挙したものではない。本発明の様々な特徴とそれに応じた長所および効果は下記の具体的な実施形態を参照してより詳細に理解できるものである。

本発明の一実施形態によるオブジェクト認識装置およびオブジェクト認識方法は、バックボーンネットワークの繰り返しの再使用を利用して複数の特徴マップを生成することができるため、オブジェクト認識装置を実現するために必要なパラメータ数を画期的に減らすことができる。

本発明の一実施形態によるオブジェクト認識装置およびオブジェクト認識方法によれば、様々な大きさのオブジェクトに対する繰り返しの学習を実行するため、相対的に小さい大きさのオブジェクトに対するオブジェクト認識率を高めることができる。

但し、本発明の実施形態によるオブジェクト認識装置およびオブジェクト認識方法が達成できる効果は以上で言及したものに制限されず、言及していないまた他の効果は下記の記載によって本発明が属する技術分野における通常の知識を有する者に明らかに理解できるものである。

本発明の一実施形態によるオブジェクト認識装置を示すブロック図である。本発明の一実施形態による特徴抽出部を示すブロック図である。本発明の一実施形態による逆残差モジュールを示すブロック図である。本発明の一実施形態によるアップサンプリングモジュール、分類部および位置検知部を示すブロック図である。本発明の一実施形態によるバックボーンネットワークの構造を示すブロック図である。本発明の他の実施形態によるオブジェクト認識装置を示すブロック図である。本発明の一実施形態によるオブジェクト認識方法を示すフローチャートである。本発明の他の実施形態によるオブジェクト認識方法を示すフローチャートである。

以下では添付図面を参照して本明細書に開示された実施形態について詳しく説明するが、図面符号に関係なく同一または類似した構成要素には同一な参照番号を付し、それに対する重複する説明は省略することにする。以下の説明で用いられる構成要素に対する接尾辞「モジュール」および「部」は、明細書の作成の容易さだけを考慮して付与または混用されるものであって、それ自体で互いに区別される意味または役割を有するものではない。すなわち、本発明で用いられる「部」という用語はソフトウェア、ＦＰＧＡまたはＡＳＩＣのようなハードウェア構成要素を意味し、「部」はある役割をする。ところが、「部」はソフトウェアまたはハードウェアに限定される意味ではない。「部」は、アドレッシングできるストレージ媒体にあるように構成されてもよく、一つまたはそれ以上のプロセッサを再生させるように構成されてもよい。よって、一例として「部」は、ソフトウェア構成要素、オブジェクト向けソフトウェア構成要素、クラス構成要素およびタスク構成要素のような構成要素と、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイおよび変数を含む。構成要素および「部」において提供される機能は、さらに小さい数の構成要素および「部」で結合されるか、またはさらなる構成要素と「部」とにさらに分離されてもよい。

また、本明細書に開示された実施形態を説明するにおいて、関連の公知技術に関する具体的な説明が本明細書に開示された実施形態の要旨を不要に濁す恐れがあると判断される場合には、その詳細な説明は省略する。また、添付された図面は本明細書に開示された実施形態を容易に理解できるようにするためのものに過ぎず、添付された図面によって本明細書に開示された技術的思想が制限されるものではなく、本発明の思想および技術範囲に含まれる全ての変更、均等物乃至代替物を含むものとして理解しなければならない。

図１は、本発明の一実施形態によるオブジェクト認識装置を示すブロック図である。

図１を参照すれば、本発明の一実施形態によるオブジェクト認識装置は、特徴抽出部１１０、バックボーンネットワーク部１２０、アップサンプリング部１３０、分類部１４０および位置検知部１５０を含むことができる。

以下では、図１を参照して、本発明の一実施形態によるオブジェクト認識装置を説明する。

特徴抽出部１１０は、対象イメージが入力されれば、対象イメージに対する特徴抽出演算を実行して特徴イメージを生成することができる。図２に例示されているように、特徴抽出部１１０は３×３畳み込みレイヤ、バッチ正規化レイヤ（ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎｌａｙｅｒ）および活性関数レイヤ（Ａｃｔｉｖａｔｉｏｎｌａｙｅｒ）を含み、各々のレイヤを順次通過して特徴抽出演算を実行することができる。ここで、３×３畳み込みレイヤに含まれたｓは畳み込みレイヤのストライド（ｓｔｒｉｄｅ）であり、ｐはパッディングの実行可否、ｇはグループ、ｃ_ｉｎは入力チャネルの幅、ｃ_ｏｕｔは出力チャネルの幅に各々対応する。すなわち、図２によれば、特徴抽出部１１０は、ストライドが２であり、パッディングを実行し、入力チャネルの幅は３であり、出力チャネルの幅はｈである、３×３畳み込みフィルタ演算を実行できるように構成される。

例えば、対象イメージがカラーイメージである場合、入力チャネルはＲＧＢの三つの色に対応する３個のチャネルを含み、特徴抽出部１１０の３×３畳み込みレイヤは３個の入力チャネルを有することができる。ここで、出力チャネルはｈであるため、３×３畳み込みレイヤは特徴イメージのチャネルをｈ個に拡張させることができ、ストライドが２であるため、特徴イメージの解像度を対象イメージの半分に下げることができる。例えば、対象イメージの解像度が６４０×６４０である場合、特徴イメージは３２０×３２０に減る。

バックボーンネットワーク部１２０は、特徴イメージに対して特徴マップ抽出演算を繰り返し実行し、特徴マップ抽出演算を実行した回数に応じて、解像度が互いに異なる第１特徴マップを生成することができる。

図１を参照すれば、バックボーンネットワーク部１２０は複数の逆残差モジュール（ｉｎｖｅｒｔｅｄｒｅｓｉｄｕａｌｍｏｄｕｌｅ）１２１を含み、複数の逆残差モジュール１２１を全て含む一つのセットに対する演算を完了すれば、特徴マップ抽出演算を１回実行したことに該当する。

すなわち、特徴マップ抽出演算を１回実行すれば、演算結果として第１特徴マップｆ１を生成することができ、その後、第１特徴マップｆ１を再びバックボーンネットワーク部１２０に入力して、２回目の特徴マップ抽出演算を実行するようにすることができる。この場合、バックボーンネットワーク部１２０は、２回目の特徴マップ抽出演算に対応する第１特徴マップｆ２を生成することができる。その後、同様な方式で繰り返して、第１特徴マップｆ３、ｆ４、ｆ５、ｆ６を順次生成することができる。ここでは、第１特徴マップを６個生成する実施形態を提示しているが、これに限定されるものではなく、生成する第１特徴マップの個数は実施形態に応じて多様に変形可能である。

従来のＳＳＤ（ＳｉｎｇｌｅＳｈｏｔＤｅｔｅｃｔｏｒ）の場合、対象イメージに複数の畳み込みフィルタを順次適用して、各々の畳み込みフィルタに対応する特徴マップを生成した。すなわち、従来のＳＳＤでは互いに異なる畳み込みフィルタを順次通過して特徴マップを生成したため、６個の特徴マップを生成するためには互いに異なる６個の畳み込みフィルタのパラメータを設計する必要がある。

その反面、本発明においては、同一な特徴マップ抽出演算を繰り返し再使用するため、特徴マップ抽出演算のためのパラメータだけを設計しても複数の特徴マップを抽出することができる。したがって、本発明によれば、既存のＳＳＤに比べて必要なパラメータ数を画期的に減らすことができる。

一方、バックボーンネットワーク部１２０は以下のように表すことができる。

ここで、｛ｆ_１、ｆ_２、…、ｆ_Ｎ｝は各々の第１特徴マップであり、Ｎは１以上の整数、Ｆ（・）はバックボーンネットワーク部１２０の特徴マップ抽出演算に該当する。また、Ｅ（・）は特徴抽出部１１０の特徴抽出演算、ｘは対象イメージ、ｆ_０は特徴イメージに該当する。すなわち、出力値を再び入力値にする方式で繰り返して複数の第１特徴マップを生成することができる。

さらに、バックボーンネットワーク部１２０内に含まれた逆残差モジュール１２１は、第１逆残差モジュールと第２逆残差モジュールに区分することができる。ここで、第１逆残差モジュールはバックボーンネットワーク部１２０内で最も先に演算されるものであり、第２逆残差モジュールは第１逆残差モジュール以後に順次演算されるものである。具体的には、図５に示すように、１個の第１逆残差モジュールと複数の第２逆残差モジュールを含むように各々バックボーンネットワーク部１２０を実現することができる。図３には第１逆残差モジュールと第２逆残差モジュールの例示が示されており、ここで、図３（ａ）は第１逆残差モジュール、図３（ｂ）は第２逆残差モジュールの一例に該当する。

ここで、各々の逆残差モジュールは深さ基盤の分離コンボリューション（ｄｅｐｔｈ－ｗｉｓｅｓｅｐａｒａｂｌｅｃｏｎｖｏｌｕｔｉｏｎ）演算を実行し、それにより、特徴マップ抽出演算時に必要な演算量を減少させることができる。

具体的には、第１逆残差モジュールの場合、図３（ａ）に示すように、３×３畳み込みレイヤ、バッチ正規化レイヤ、活性化レイヤ、１×１畳み込みレイヤおよびバッチ正規化レイヤを含むことができる。ここで、特徴抽出部１１０が特徴イメージのチャネル幅を３からｈに拡張したため、３×３畳み込みレイヤでは深さ基盤のコンボリューション（ｄｅｐｔｈ－ｗｉｓｅｃｏｎｖｏｌｕｔｉｏｎ）演算を実行し、その後、１×１畳み込みレイヤを介してポイント基盤のコンボリューション（ｐｏｉｎｔ－ｗｉｓｅｃｏｎｖｏｌｕｔｉｏｎ）演算を実行してチャネル幅をｈからｃに再び縮小させることができる。

また、第２逆残差モジュールは、図３（ｂ）に示すように、１×１畳み込みレイヤ、バッチ正規化レイヤ、活性化レイヤ、３×３畳み込みレイヤ、バッチ正規化レイヤ、活性化レイヤ、１×１畳み込みレイヤおよびバッチ正規化レイヤを順次含み、深さ基盤の分離コンボリューション演算を実行することができる。すなわち、１番目の１×１畳み込みレイヤにおいてポイント基盤のコンボリューション演算を実行してチャネル幅をｃからｈに拡張させ、その後、３×３畳み込みレイヤにおいて拡張されたチャネル幅に対する深さ基盤のコンボリューション演算を実行した後、再び１×１畳み込みレイヤにおいてチャネル幅をｈからｃに減らすポイント基盤のコンボリューション演算を実行することができる。

一方、第１逆残差モジュールおよび第２逆残差モジュールに含まれた各々の活性化レイヤの場合、活性関数（ａｃｔｉｖａｔｉｏｎｆｕｎｃｔｉｏｎ）としてＰＲｅＬＵ（ＰａｒａｍｅｔｒｉｃＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）またはＬｅａｋｙ－ＲｅＬＵを用いることができる。従来にはＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）を活性関数として用いたが、ＲｅＬＵは、その特性上、負の値を０に設定するため、繰り返しの特徴マップ抽出演算時に情報の損失が発生するなどの問題が生じうる。したがって、ここでは、負の値を反映できるＰＲｅＬＵ（ＰａｒａｍｅｔｒｉｃＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）またはＬｅａｋｙ－ＲｅＬＵを活性関数として用いて、より正確なオブジェクト認識が可能となるようにすることができる。

さらに、バックボーンネットワーク部１２０は、複数の逆残差モジュールのうち、最後に演算される逆残差モジュール１２１のストライド（ｓｔｒｉｄｅ）を２に設定し、残りの逆残差モジュール１２１のストライドは１に設定することができる。この場合、新たに生成される第１特徴マップの解像度を半分に減らすことができる。例えば、特徴イメージの解像度が３２０×３２０である場合、第１特徴マップｆ１の解像度は１６０×１６０に減り、その後、第１特徴マップｆ２、ｆ３、ｆ４、ｆ５、ｆ６の解像度は各々８０×８０、４０×４０、２０×２０、１０×１０、５×５に生成される。このような特徴マップの個数は、速度と演算量を犠牲にしてより小さい顔を検出するか、そうでなければ速い速度と少ない演算量を確保するかに応じて、多くあるいは少なく調節することができる。

ここで、特徴マップの解像度が半分に減れば、特徴マップから相対的に大きい大きさのオブジェクトを認識することができる。オブジェクトの検出時には予め設定された境界ボックス内にオブジェクトが含まれるか否かを判別する方式を活用し、この時、特徴マップの解像度が半分に減れば、境界ボックスがカバーする領域が２倍に広くなる。したがって、以前には境界ボックス内に全部含まれなかったオブジェクトが境界ボックス内に全部含まれるため、相対的に大きい大きさのオブジェクトを検出することができる。すなわち、解像度の高い特徴マップでは相対的に小さい大きさのオブジェクトを検出し、解像度の低い特徴マップでは相対的に大きい大きさのオブジェクトを検出することができる。

このように、バックボーンネットワーク部１２０は、生成する各々の第１特徴マップの解像度を変更することによって、対象イメージ内に含まれた様々な大きさのオブジェクトを認識することができる。

実施形態によっては、バックボーンネットワーク部１２０に含まれる複数の逆残差モジュールの最後にストライドが２である３×３畳み込みフィルタを追加して、バックボーンネットワーク部１２０が生成する特徴マップの解像度を半分に減らすこともできる。

一方、図６に示すように、バックボーンネットワーク部１２０が生成した第１特徴マップを用いてオブジェクトを検出することもできる。但し、第１特徴マップを用いる場合、相対的に大きさの小さいオブジェクトを検出し難いという問題が発生しうる。すなわち、相対的に大きさの小さいオブジェクトは低いレベルの第１特徴マップから検出されるものであり、低いレベルの第１特徴マップは逆残差モジュールが十分な深さだけ形成されていない状態で生成されうる。

それを解決するために、本発明の一実施形態によるオブジェクト認識装置は、アップサンプリング部１３０をさらに含むことができる。すなわち、ＦＰＮ（ＦｅａｔｕｒｅＰｙｒａｍｉｄＮｅｔｗｏｋｒ）構造を導入して、低いレベルの特徴マップにも十分な逆残差モジュールの深さを形成するようにすることができる。

具体的には、アップサンプリング部１３０は、直前に生成した第２特徴マップをアップサンプリングし、アップサンプリングした結果と同一な解像度を有する第１特徴マップをスキップ接続（ｓｋｉｐｃｏｎｎｅｃｔｉｏｎ）技法により連結する方式で第２特徴マップを生成することができる。この時、アップサンプリング部１３０は、複数の第１特徴マップのうち解像度が最も低い第１特徴マップを最初の第２特徴マップに設定することができる。

すなわち、図１に示すように、最後に生成された第１特徴マップｆ６を１番目の第２特徴マップｇ１に設定し、その後、第２特徴マップｇ１をアップサンプリングし、アップサンプリングした結果を以前の第１特徴マップｆ５と加えて第２特徴マップｇ２を生成することができる。ここで、第２特徴マップｇ２は、第１特徴マップｆ５と同一な解像度を有することができる。

また、アップサンプリング部１３０は、第２特徴マップｇ２をアップサンプリングし、それを同一な解像度を有する第１特徴マップｆ４と加えて第２特徴マップｇ３を生成し、その後、同様な方式で繰り返して残りの第２特徴マップを生成することができる。

ここで、アップサンプリング部１３０の動作は以下の数式で表すことができ、｛ｇ_１、ｇ_２、…、ｇ_Ｎ｝は各々の第２特徴マップであり、｛ｆ_１、ｆ_２、…、ｆ_Ｎ｝は各々の第１特徴マップであり、Ｎは１以上の整数であり、Ｕ_ｉ（・）はアップサンプリング関数に該当する。

一方、図１に示すように、アップサンプリング部１３０はアップサンプリングモジュール１３１を含み、アップサンプリングモジュール１３１は各々の第２特徴マップに対するアップサンプリングを実行することができる。図４（ａ）を参照すれば、アップサンプリングモジュール１３１は、バイリニア・アップサンプル・レイヤ（ｂｉｌｉｎｅａｒｕｐｓａｍｐｌｅｌａｙｅｒ）、３×３畳み込みレイヤ、１×１畳み込みレイヤ、バッチ正規化レイヤおよび活性関数レイヤを含むことができる。

分類部１４０は、複数の第２特徴マップ内を移動する各々の境界ボックス（ｂｏｕｎｄａｒｙｂｏｘ）を用いて、境界ボックス内のオブジェクト包含有無を判別することができる。ここで、分類部１４０が検知するオブジェクトは顔であってもよい。

また、位置検知部１５０は、分類部１４０がオブジェクトを検知した場合、第２特徴マップ内の境界ボックスを対象イメージ内の位置に回帰させてオブジェクトの位置情報を抽出することができる。すなわち、対象イメージ内に含まれたオブジェクトの位置情報を提供することができ、位置情報を用いて対象イメージ内にオブジェクトの位置を表示ことができる。

一方、図４（ｂ）および図４（ｃ）は分類部１４０および位置検知部１５０に各々対応するものであり、分類部１４０および位置検知部１５０は３×３畳み込みフィルタで動作することができる。分類部１４０の場合、境界ボックス内にオブジェクトが含まれる場合と含まれていない場合の二つの場合を表示するため、出力チャネルは２個であってもよい。ここで、出力チャネルが４個である場合には、マックスアウト（Ｍａｘｏｕｔ）を用いて４個のチャネルのうち２個のチャネルを選択することができ、それにより、相対的に小さい大きさのオブジェクトに対する誤検出の比率を下げることができる。

また、位置検知部１５０の場合、出力チャネルは４個の次元を含み、各々は境界ボックスの幅、高さ、中心点位置座標などであってもよい。

一方、本発明の一実施形態によるオブジェクト認識装置は、マルチタスク損失関数を用いて同時に学習される。すなわち、特徴抽出部１１０、バックボーンネットワーク部１２０、アップサンプリング部１３０、分類部１４０および位置検知部１５０などの構成は、マルチタスク損失関数を用いて同時に学習される。

具体的には、マルチタスク損失関数は

である。ここで、ｌ_ｃは分類損失、ｌ_ｒは回帰損失、ｊは境界ボックス（ａｎｃｈｏｒｂｏｘ）のインデックス、ｒ_ｊ ^＊は前記境界ボックスに対応する実測値（ｇｒｏｕｎｄｔｒｕｔｈ）である。また、ｃ_ｊ ^＊は０または１に設定されるものであって、境界ボックスのジャカードオーバーラップ（Ｊａｃｃａｒｄｏｖｅｒｌａｐ）が基準値ｔ以上であれば１に設定され、基準値ｔ未満であれば０に設定される。また、Ｎ_ｃｌｓは学習時に用いられた類似サンプルおよび非類似サンプルの全体個数、Ｎ_ｒｅｇ＝Σ_ｊｃ_ｊ ^＊、λは任意の変数である。ここで、回帰損失は類似サンプルに対してのみ演算されるため、Ｎ_ｒｅｇはΣ_ｊｃ_ｊ ^＊を用いて計算することができる。また、分類損失はクロスエントロピー損失、前記回帰損失はスムーズｌ１損失に設定される。

その後、入力される学習データを用いて、マルチタスク損失関数の分類損失および回帰損失が最小になるようにオブジェクト認識装置の各構成のパラメータを設定することができる。

ここで、本発明の一実施形態によるオブジェクト認識装置は、バックボーンネットワーク部１２０の繰り返しの再使用を利用して特徴マップを生成するため、従来のオブジェクト認識装置に比べて必要なパラメータ数を画期的に減らすことができる。また、パラメータ数を減らしただけに特徴マップの抽出のための逆残差モジュールなどを追加することができるため、より正確なオブジェクト認識を実現することができる。

また、本発明の一実施形態によるバックボーンネットワーク１２０は様々な大きさのオブジェクトを繰り返し学習して生成されるため、相対的に小さいオブジェクトに対する認識率を向上させることができる。

図５は、本発明の一実施形態によるバックボーンネットワークの構造を示すブロック図である。図５にはバックボーンネットワークの三つの実施形態が示されており、各々の実施形態は図５（ａ）、図５（ｂ）および図５（ｃ）に対応する。

第１実施形態は、出力チャネル数が３２個であり、第２実施形態は出力チャネル数が４８個であり、第３実施形態は出力チャネル数が６４個である。その反面、第１実施形態は７個の逆残差モジュールを含み、第２実施形態および第３実施形態は各々５個の逆残差モジュールを含む。この時、第１実施形態は６万個のパラメータ、第２実施形態は１０万個のパラメータ、第３実施形態は１６万個のパラメータを含む。ここで、第２実施形態および第３実施形態の場合、出力チャネル数が多い代わりに逆残差モジュール数を減らしてパラメータ数を減らすようにした。

各々の実施形態に対するオブジェクト認識性能は、第３実施形態が最も優れた性能を示し、その後は第２実施形態、第１実施形態の順であった。これは、チャネル数が逆残差モジュール数など深さよりさらに重要な要素に該当することを示す。

図７は、本発明の一実施形態によるオブジェクト認識方法を示すフローチャートである。

図７を参照すれば、本発明の一実施形態によるオブジェクト認識方法は、特徴イメージ生成ステップ（Ｓ１１０）、第１特徴マップ生成ステップ（Ｓ１２０）およびオブジェクト認識ステップ（Ｓ１３０）を含み、各ステップは、オブジェクト認識装置により実行される。

以下では、図７を参照して、本発明の一実施形態によるオブジェクト認識方法を説明する。

特徴イメージ生成ステップ（Ｓ１１０）では、入力された対象イメージに特徴抽出演算を実行して特徴イメージを生成することができる。ここで、特徴イメージは３×３コンボリューション演算により生成し、この時、３×３コンボリューション演算のストライドを２に設定して特徴イメージの解像度を半分に下げることができる。また、対象イメージに含まれたＲＧＢの３個のチャネルをｈ個に拡張させて特徴イメージを生成することができる。

第１特徴マップ生成ステップ（Ｓ１２０）では、特徴イメージに対する特徴マップ抽出演算を繰り返し実行し、特徴マップ抽出演算を適用した回数に応じて各々異なる解像度を有する複数の第１特徴マップを生成することができる。

ここで、特徴マップ抽出演算は予め設定された複数の逆残差モジュールを全て含む一つのセットに対する演算に対応するものであってもよい。すなわち、特徴マップ抽出演算を１回実行すれば、演算結果として第１特徴マップｆ１を生成することができ、第１特徴マップｆ１に対して再び特徴マップ抽出演算を実行して第１特徴マップｆ２を生成することができる。その後、同様な方式で繰り返して、第１特徴マップｆ３、ｆ４、ｆ５、ｆ６を順次生成することができる。この場合、同一な特徴マップ抽出演算を繰り返し再使用するため、特徴マップ抽出演算のためのパラメータだけを設計しても複数の特徴マップを抽出することができる。

ここで、各々の逆残差モジュールは深さ基盤の分離コンボリューション演算を実行するものであり、それにより、特徴マップ抽出演算時に必要な演算量を減少させることができる。一方、逆残差モジュールは、活性関数としてＰＲｅＬＵ（ＰａｒａｍｅｔｒｉｃＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）またはＬｅａｋｙ－ＲｅＬＵを用いるものである。

さらに、複数の逆残差モジュールのうち最後に演算される逆残差モジュールに対してはストライドを２に設定し、残りの逆残差モジュールのストライドは１に設定することができる。すなわち、特徴マップ抽出演算時ごとに第１特徴マップの解像度を半分に減らすことができる。このように、各々の第１特徴マップの解像度を変更することによって、対象イメージ内に含まれた様々な大きさのオブジェクトを検出することができる。

オブジェクト認識ステップ（Ｓ１３０）では、複数の第１特徴マップ内を移動する各々の境界ボックスを用いて、前記境界ボックス内のオブジェクト包含有無を判別することができる。また、オブジェクトが含まれた場合には、第１特徴マップ内の境界ボックスを対象イメージ内の位置に回帰させてオブジェクトの位置情報を抽出することができる。ここで、オブジェクト認識ステップ（Ｓ１３０）は３×３畳み込みフィルタを用いて実現し、位置情報には境界ボックスの幅、高さ、中心点位置座標などが含まれる。

図８は、本発明の他の実施形態によるオブジェクト認識方法を示すフローチャートである。

図８を参照すれば、本発明の他の実施形態によるオブジェクト認識方法は、図７のオブジェクト認識方法と比較する時、初期設定ステップ（Ｓ１３０）および第２特徴マップ生成ステップ（Ｓ１４０）をさらに含むことができる。

すなわち、図７のように、第１特徴マップを用いてオブジェクトを検出することもできるが、第１特徴マップを用いる場合、相対的に大きさの小さいオブジェクトを検出し難いという問題が発生しうる。

それを解決するために、本発明の他の実施形態によるオブジェクト認識方法は、初期設定ステップ（Ｓ１３０）および第２特徴マップ生成ステップ（Ｓ１４０）をさらに含み、ＦＰＮ（ＦｅａｔｕｒｅＰｙｒａｍｉｄＮｅｔｗｏｋｒ）構造を導入することができる。

具体的には、初期設定ステップ（Ｓ１３０）では、複数の第１特徴マップのうち解像度が最も低い第１特徴マップを最初の第２特徴マップに設定し、その後、第２特徴マップ生成ステップ（Ｓ１４０）では、直前に生成した第２特徴マップをアップサンプリングし、前記アップサンプリングした結果と同一な解像度を有する第１特徴マップをスキップ接続技法により連結して第２特徴マップを生成することができる。

すなわち、最後に生成された第１特徴マップｆ６を１番目の第２特徴マップｇ１に設定し、その後、第２特徴マップｇ１をアップサンプリングし、アップサンプリングした結果を以前の第１特徴マップｆ５と加えて第２特徴マップｇ２を生成することができる。ここで、第２特徴マップｇ２は、第１特徴マップｆ５と同一な解像度を有することができる。

また、第２特徴マップｇ２をアップサンプリングし、それを同一な解像度を有する第１特徴マップｆ４と加えて第２特徴マップｇ３を生成し、その後、同様な方式で繰り返して残りの第２特徴マップを生成することができる。

前述した本発明は、プログラムが記録された媒体にコンピュータ読み取り可能なコードとして実現することができる。コンピュータ読み取り可能な媒体は、コンピュータで実行可能なプログラムを続けて格納するか、または実行またはダウンロードのために臨時格納するものであってもよい。また、媒体は単一または数個のハードウェアが結合された形態の様々な記録手段または格納手段であってもよく、或るコンピュータ・システムに直接接続される媒体に限定されず、ネットワーク上に分散存在するものであってもよい。媒体の例示としては、ハードディスク、フロッピーディスクおよび磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光気録媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気－光媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含めてプログラム命令語が格納されるように構成されたものがある。また、他の媒体の例示として、アプリケーションを流通するアプリストアやその他の様々なソフトウェアを供給乃至流通するサイト、サーバなどが管理する記録媒体乃至ストレージ媒体も挙げられる。したがって、上記の詳細な説明は、全ての面で制限的に解釈されてはならず、例示的なものに考慮されなければならない。本発明の範囲は添付された請求項の合理的な解釈によって決定されなければならず、本発明の等価的な範囲内の全ての変更は本発明の範囲に含まれる。

本発明は、前述した実施形態および添付された図面によって限定されるものではない。本発明が属する技術分野における通常の知識を有した者であれば、本発明の技術的思想を逸脱しない範囲内で本発明に係る構成要素を置換、変形および変更できることは明らかである。

１００・・・オブジェクト認識装置
１１０・・・特徴抽出部
１２０・・・バックボーンネットワーク部
１２１・・・逆残差モジュール
１３０・・・アップサンプリング部
１３１・・・アップサンプリングモジュール
１４０・・・分類部
１５０・・・位置検知部

Claims

対象イメージが入力されれば、特徴抽出演算を実行して特徴イメージを生成する特徴抽出部、および
前記特徴イメージに特徴マップ抽出演算を繰り返し実行し、前記特徴マップ抽出演算を適用した回数に応じて各々異なる解像度を有する複数の第１特徴マップを生成するバックボーンネットワーク部を含み、
前記バックボーンネットワーク部は、

を用いて前記第１特徴マップ｛ｆ_１、ｆ_２、…、ｆ_Ｎ｝を各々生成し、ここで、Ｎは１以上の整数、Ｆ（・）は前記バックボーンネットワーク部の特徴マップ抽出演算、Ｅ（・）は特徴抽出部の特徴抽出演算、ｘは対象イメージ、ｆ_０は前記特徴イメージであり、
前記バックボーンネットワーク部は、
複数の逆残差モジュールを含み、前記特徴イメージを前記複数の逆残差モジュールに順次適用して前記特徴マップ抽出演算を実行し、複数の逆残差モジュールのうち、最後に演算される逆残差モジュールのストライドを２に設定し、残りの逆残差モジュールのストライドは１に設定することを特徴とする、オブジェクト認識装置。
前記逆残差モジュールは、
深さ基盤の分離コンボリューション演算を含み、活性関数としてＰＲｅＬＵ（ＰａｒａｍｅｔｒｉｃＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）またはＬｅａｋｙ－ＲｅＬＵを用いることを特徴とする、請求項１に記載のオブジェクト認識装置。
対象イメージが入力されれば、特徴抽出演算を実行して特徴イメージを生成する特徴抽出部、および
前記特徴イメージに特徴マップ抽出演算を繰り返し実行し、前記特徴マップ抽出演算を適用した回数に応じて各々異なる解像度を有する複数の第１特徴マップを生成するバックボーンネットワーク部を含み、
前記バックボーンネットワーク部は、
複数の逆残差モジュールを含み、前記特徴イメージを前記複数の逆残差モジュールに順次適用して前記特徴マップ抽出演算を実行し、複数の逆残差モジュールのうち、最後に演算される逆残差モジュールのストライドを２に設定し、残りの逆残差モジュールのストライドは１に設定することを特徴とするオブジェクト認識装置。
前記複数の第１特徴マップ内を移動する各々の境界ボックスを用いて、前記境界ボックス内のオブジェクトの包含有無を判別する分類部、および
前記オブジェクトが含まれた場合には、前記第１特徴マップ内の境界ボックスを前記対象イメージ内の位置に回帰させて前記オブジェクトの位置情報を抽出する位置検知部をさらに含むことを特徴とする、請求項１に記載のオブジェクト認識装置。
前記特徴抽出部、バックボーンネットワーク部、前記分類部および位置検知部は、マルチタスク損失関数を用いて同時に学習されることを特徴とする、請求項４に記載のオブジェクト認識装置。
直前に生成した第２特徴マップをアップサンプリングし、前記アップサンプリングした結果と同一な解像度を有する第１特徴マップをスキップ接続技法により連結して第２特徴マップを生成するアップサンプリング部をさらに含み、
前記アップサンプリング部は、
複数の第１特徴マップのうち解像度が最も低い第１特徴マップを最初の第２特徴マップに設定することを特徴とする、請求項１に記載のオブジェクト認識装置。
入力された対象イメージに特徴抽出演算を実行して特徴イメージを生成するステップ、
前記特徴イメージに特徴マップ抽出演算を繰り返し実行し、前記特徴マップ抽出演算を適用した回数に応じて各々異なる解像度を有する複数の第１特徴マップを生成するステップ、および
前記複数の第１特徴マップ内を移動する各々の境界ボックスを用いて、前記境界ボックス内のオブジェクトの包含有無を判別し、前記オブジェクトが含まれた場合には前記第１特徴マップ内の境界ボックスを前記対象イメージ内の位置に回帰させて前記オブジェクトの位置情報を抽出するステップを含み、
前記複数の第１特徴マップを生成するステップは、

を用いて前記第１特徴マップ｛ｆ_１、ｆ_２、…、ｆ_Ｎ｝を各々生成し、ここで、Ｎは１以上の整数、Ｆ（・）はバックボーンネットワーク部の特徴マップ抽出演算、Ｅ（・）は特徴抽出部の特徴抽出演算、ｘは対象イメージ、ｆ_０は前記特徴イメージであり、
前記特徴イメージを複数の逆残差モジュールに順次適用して前記特徴マップ抽出演算を実行し、複数の逆残差モジュールのうち、最後に演算される逆残差モジュールのストライドを２に設定し、残りの逆残差モジュールのストライドは１に設定することを特徴とする、オブジェクト認識方法。
入力された対象イメージに特徴抽出演算を実行して特徴イメージを生成するステップ、
前記特徴イメージに特徴マップ抽出演算を繰り返し実行し、前記特徴マップ抽出演算を適用した回数に応じて各々異なる解像度を有する複数の第１特徴マップを生成するステップ、
複数の第１特徴マップのうち解像度が最も低い第１特徴マップを最初の第２特徴マップに設定するステップ、
直前に生成した第２特徴マップをアップサンプリングし、前記アップサンプリングした結果と同一な解像度を有する第１特徴マップをスキップ接続技法により連結して第２特徴マップを生成するステップ、および
前記複数の第２特徴マップ内を移動する各々の境界ボックスを用いて、前記境界ボックス内のオブジェクトの包含有無を判別し、前記オブジェクトが含まれた場合には前記第２特徴マップ内の境界ボックスを前記対象イメージ内の位置に回帰させて前記オブジェクトの位置情報を抽出するステップを含み、
複数の第１特徴マップを生成する前記ステップは、

を用いて前記第１特徴マップ｛ｆ_１、ｆ_２、…、ｆ_Ｎ｝を各々生成し、ここで、Ｎは１以上の整数、Ｆ（・）はバックボーンネットワーク部の特徴マップ抽出演算、Ｅ（・）は特徴抽出部の特徴抽出演算、ｘは対象イメージ、ｆ_０は前記特徴イメージであり、
前記特徴イメージを複数の逆残差モジュールに順次適用して前記特徴マップ抽出演算を実行し、複数の逆残差モジュールのうち、最後に演算される逆残差モジュールのストライドを２に設定し、残りの逆残差モジュールのストライドは１に設定することを特徴とする、オブジェクト認識方法。
コンピュータに請求項７～８のいずれか一項に記載のオブジェクト認識方法を実行させるためのコンピュータプログラム。