JP2020135872A

JP2020135872A - 物体認識方法、装置及びネットワーク

Info

Publication number: JP2020135872A
Application number: JP2020013209A
Authority: JP
Inventors: 路石; Lu Shi; ワン・チィ; Qi Wang
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-02-19
Filing date: 2020-01-30
Publication date: 2020-08-31
Also published as: US20200265254A1; US11281923B2; CN111582007A

Abstract

【課題】本発明の実施例は、物体認識方法、装置及びネットワークを提供する。【解決手段】従来のＹＯＬＯネットワークにおける畳み込み層の一部の代わりに深度分離可能な畳み込み層を用いることで、計算量が削減され、従来のＹＯＬＯネットワークにおける残差構造の代わりに密集接続構造を用いることで、収束速度が加速され、ネットワークの複雑さが低減され、元の物体認識精度が維持される。【選択図】図６

Description

本発明は、物体認識の技術分野に関し、特に物体認識方法、装置及びネットワークに関する。

現在、物体認識技術は多くの分野で広く用いられ、そのうち、ＹＯＬＯ（ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ）は高速、且つ高い認識精度を有する成功した構造の１つである。このネットワークは、位置機能と検出機能を統合したシングルステップ（ｓｉｎｇｌｅｓｔｅｐ）の認識ネットワークである。該ネットワークは、ＦＰＮ（ＦｅａｔｕｒｅＰｙｒａｍｉｄＮｅｔｗｏｒｋｓ）の構造と同様に、ＧＴＸ１０８０ＴｉＧＰＵを利用して、３０ｆｐｓ（ＹＯＬＯＶ３４１６）及び高速領域畳み込みニューラルネットワーク（ＦａｓｔｅｒＲ−ＣＮＮ：ＦａｓｔｅｒＲｅｇｉｏｎ−ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）と同様な精度を実現することができる。

なお、上述した技術背景の説明は、本発明の技術案を明確、完全に理解させるための説明であり、当業者を理解させるために記述されているものである。これらの技術案は、単なる本発明の背景技術部分として説明されたものであり、当業者により周知されたものではない。

本発明の発明者の発見によると、多くのプロジェクトでは、このような速度は遥かに十分ではない。ＹＯＬＯの当初の目的は、数千の分類タスクを処理することである。ＹＯＬＯＶ３では、複雑なバックボーンネットワークＤａｒｋｎｅｔ−５３を用いている。殆どの応用では、このようなバックボーンネットワークの構造は簡潔ではなく、複雑なネットワークは遅い速度と高いメモリ占用を意味する。一方、事前学習済みモデルは、一般的にパブリックデータセットに基づくものである。認識ターゲットとパブリックデータセットにおける物体とが非常に異なる場合、実際には、事前学習済みモデルは役に立たなくなる場合が多い。データセットが比較的に小さい場合、小さいサンプルデータを迅速に収束させることができるネットワークが必要である。

上記問題の少なくとも１つ又は他の同様の問題を解決するために、本発明の実施例は、計算量を削減し、収束速度を加速し、ネットワークの複雑さを低減し、元の物体認識精度を維持する、物体認識方法、装置及びネットワークを提供する。

本発明の実施例の第１態様では、物体認識ネットワークであって、互いに接続され、入力画像に対して特徴抽出を行う複数の第１畳み込み層グループであって、前記複数の第１畳み込み層グループのうちの少なくとも３つは第２畳み込み層グループに接続され、各第１畳み込み層グループは複数の第１畳み込み層を含み、少なくとも１つの第１畳み込み層グループに含まれる複数の第１畳み込み層は密集接続構造を介して接続され、密集接続構造を介して接続された複数の第１畳み込み層のうちの１つは深度分離可能な畳み込みを用いる、複数の第１畳み込み層グループと、複数の第２畳み込み層であって、各第２畳み込み層は２つの第１畳み込み層グループの間に位置し、或いは１番目の第１畳み込み層グループの前に位置する、複数の第２畳み込み層と、互いに接続された３つの第２畳み込み層グループであって、１番目の第２畳み込み層グループは最後の１つの第１畳み込み層グループに接続され、該１番目の第２畳み込み層グループの出力は検出モジュールの入力とされ、２番目の第２畳み込み層グループの出力と１つの第１畳み込み層グループの出力との和は検出モジュールの入力とされ、３番目の第２畳み込み層グループの出力と１つの第１畳み込み層グループの出力との和は検出モジュールの入力とされ、各第２畳み込み層グループは複数の第３畳み込み層を含む、３つの第２畳み込み層グループと、を含む、物体認識ネットワークを提供する。

本発明の実施例の第２態様では、物体認識方法であって、上記の第１態様に記載の物体認識ネットワークを用いて入力画像に対して特徴抽出を行うステップと、抽出された特徴に基づいて物体認識を行うステップと、を含む、方法を提供する。

本発明の実施例の第３態様では、物体認識装置であって、上記の第１態様に記載の物体認識ネットワークを用いて入力画像に対して特徴抽出を行う特徴抽出部と、前記特徴抽出部により抽出された特徴に基づいて物体認識を行う検出部と、を含む、装置を提供する。

本発明の実施例の第４態様では、コンピュータ読み取り可能なプログラムであって、物体認識装置又は画像処理装置において前記プログラムが実行される際に、前記物体認識装置又は前記画像処理装置に上記の第２態様に記載の物体認識方法を実行させる、プログラムを提供する。

本発明の実施例の第５態様では、コンピュータ読み取り可能なプログラムが記憶されている記憶媒体であって、前記コンピュータ読み取り可能なプログラムが物体認識装置又は画像処理装置に上記の第２態様に記載の物体認識方法を実行させる、記憶媒体を提供する。

本発明の実施例の有利な効果は以下の通りである。従来のＹＯＬＯネットワークにおける畳み込み層の一部の代わりに深度分離可能な畳み込み層を用いることで、計算量が削減され、従来のＹＯＬＯネットワークにおける残差構造の代わりに密集接続構造を用いることで、収束速度が加速され、ネットワークの複雑さが低減され、元の物体認識精度が維持される。

本発明の特定の実施形態は、後述の説明及び図面に示すように、詳細に開示され、本発明の原理を採用されることが可能な方式を示している。なお、本発明の実施形態は、範囲上には限定されるものではない。本発明の実施形態は、添付されている特許請求の範囲の主旨及び内容の範囲内、各種の改変、修正、及び均等的なものが含まれる。

ある一つの実施形態に説明及び又は示されている特徴は、同一又は類似の方式で一つ又は多くの他の実施形態に使用されてもよく、他の実施形態における特徴と組み合わせてもよく、他の実施形態における特徴を代替してもよい。

なお、用語「含む／有する」は、本文に使用される際に、特徴、要素、ステップ又は構成要件の存在を意味し、一つ又は複数の他の特徴、要素、ステップ又は構成要件の存在又は追加を排除するものではない。

本発明の実施例の図面又は実施形態に説明されている要素及び特徴は、１つ又は複数の他の図面又は実施形態に示す要素及び特徴と組み合わせてもよい。図面において、類似する符号は複数の図面における対応する構成部を表し、複数の態様に用いられる対応構成部を表してもよい。

ここで含まれる図面は、本発明の実施例を理解させるためのものであり、本明細書の一部を構成し、本発明の実施例を例示するためのものであり、文言の記載と合わせて本発明の原理を説明する。なお、ここに説明される図面は、単なる本発明の実施例を説明するためのものであり、当業者にとって、これらの図面に基づいて他の図面を容易に得ることができる。
実施例１の物体認識ネットワークを示す図である。グランドトゥルースとバッファゾーンをデータセットとすることを示す図である。逆ブロック（インバースブロック）を示す図である。密集接続構造を示す図である。実施例１の物体認識ネットワークを示す他の図である。図５に示す物体認識ネットワークの具体的な実装を示す図である。訓練損失を示す図である。本実施例の物体認識ネットワークの物体認識結果及び従来のＹＯＬＯＤａｒｋｎｅｔネットワークの物体認識結果を示す図である。実施例２の物体認識方法を示す図である。実施例３の物体認識装置を示す図である。実施例４の画像処理装置を示す図である。

本発明の上記及びその他の特徴は、図面及び下記の説明により明確になる。明細書及び図面では、本発明の特定の実施形態、即ち本発明の原則に従う一部の実施形態を表すものを公開している。なお、本発明は説明される実施形態に限定されず、本発明は、特許請求の範囲内の全ての修正、変更されたもの、及び均等なものを含む。

本発明の実施例では、用語「第１」、「第２」は異なる要素を名称で区分するためのものであり、これらの要素の空間的配列又は時間的順序などを意味するものではなく、これらの要素はこれらの用語に限定されない。用語「及び／又は」は列挙された用語の１つ又は複数のうち何れか及びその組み合わせを含む。用語「包括」、「含む」、「有する」は説明された特徴、要素、素子又は部材の存在を意味するが、他の１つ又は複数の特徴、要素、素子又は部材の存在又は追加を排除するものではない。

本発明の実施例では、単数形の「一」、「該」等は複数形を含み、「一種」又は「一類」を意味し、「１つ」に限定するものではない。また、用語「前記」は、文脈上明確に指示されない限り、単数形及び複数形両方を含む。また、文脈上明確に指示されない限り、用語「応じて」は「少なくとも部分的に応じて」を意味し、用語「に基づいて」は「少なくとも部分的に基づいて」を意味する。

以下は、図面を参照しながら本発明の実施例の各態様を説明する。これらの態様は単なる例示的なものであり、本発明を制限するものではない。

＜実施例１＞
本実施例は物体認識ネットワークを提供する。図１は本実施例の物体認識ネットワークを示す図である。図１に示すように、該物体認識ネットワークは、複数の第１畳み込み層グループ１００、複数の第２畳み込み層２００及び３つの第２畳み込み層グループ３００を含む。本実施例では、第１畳み込み層グループ１００及び第２畳み込み層２００は「特徴抽出ネットワーク」と称されてもよく、第２畳み込み層グループ３００は「分類回帰ネットワーク」と称されてもよい。第２畳み込み層グループ３００の出力は検出モジュールの入力とされ、検出モジュールは該第２畳み込み層グループ３００の出力に基づいて物体認識を行う。特徴抽出ネットワーク及び分類回帰ネットワークの定義は従来技術と同様であり、ここでその説明を省略する。

本実施例では、図１に示すように、該複数の第１畳み込み層グループ１００は、互いに接続され、入力画像に対して特徴抽出を行う。該複数の第１畳み込み層グループ１００のうちの少なくとも３つは第２畳み込み層グループ３００に接続され、各第１畳み込み層グループ１００は複数の畳み込み層（第１畳み込み層とも称される）を含み。ここで、少なくとも１つの第１畳み込み層グループ１００に含まれる複数の第１畳み込み層は密集接続構造（ｄｅｎｓｅｃｏｎｎｅｃｔｉｏｎｓｔｒｕｃｔｕｒｅ）を介して接続され、密集接続構造を介して接続された複数の第１畳み込み層のうちの１つは深度分離可能な（ｄｅｐｔｈｗｉｓｅｓｅｐａｒａｂｌｅ）畳み込みを用いる。密集接続構造を用いて該第１畳み込み層グループ１００における畳み込み層を接続することで、収束速度が加速され、ネットワークの複雑さが低減され、元の物体認識精度が維持された。また、従来のＹＯＬＯネットワークにおける畳み込み層の一部の代わりに深度分離可能な畳み込みを用いることで、計算量が削減された。

本実施例では、各第１畳み込み層グループ１００に含まれる畳み込み層の数は２つ若しくは３つ、又は他の数であってもよく、第２畳み込み層グループ３００に接続されていない第１畳み込み層グループ１００に含まれる少なくとも１つの第１畳み込み層も深度分離可能な畳み込みを用いてもよく、これによって、同様に計算量を削減することができる。また、第２畳み込み層グループ３００に接続されていない第１畳み込み層グループ１００に含まれる複数の第１畳み込み層は、密集接続構造を介して接続されてもよいし、残差構造を介して接続されてもよいし、他の従来の接続方式により接続されてもよい。密集接続構造を用いて接続されることで、同様に収束速度を加速することができ、ネットワークの複雑さを低減することができ、元の物体認識精度を維持することができる。残差構造を用いて接続されることで、収束効果を確保することができ、全体として物体認識精度を向上させることができる。

本実施例では、第２畳み込み層グループ３００に接続された各第１畳み込み層グループ１００（上記の少なくとも３つの第１畳み込み層グループ１００）に含まれる複数の第１畳み込み層は、上記効果を実現するように、密集接続構造を介して接続されてもよい。

本実施例では、図１に示すように、上記の複数の第２畳み込み層２００のそれぞれは、２つの第１畳み込み層グループ１００の間に位置してもよいし、１番目の第１畳み込み層グループ１００の前に位置してもよい。第２畳み込み層２００は、プーリング層であってもよいし、ストライド（ｓｔｒｉｄｅ）が２の畳み込み層であってもよい。プーリング層及びストライド（ｓｔｒｉｄｅ）が２の畳み込み層の定義及び実現方法について、従来技術を参照してもよく、ここでその説明を省略する。また、第２畳み込み層２００は、Ａｔｒｏｕｓアルゴリズムを用いて実現されてもよく、その具体的な実装方法について従来技術を参照してもよく、ここでその説明を省略する。

本実施例では、１番目の第１畳み込み層グループ１００とは、第１畳み込み層グループ１００のうち深度が最も浅い第１畳み込み層グループ１００、即ち図１に示す第１畳み込み層グループ１００−１を意味する。また、本実施例では、最後の１つの第１畳み込み層グループ１００とは、第１畳み込み層グループ１００のうち深度が最も深い第１畳み込み層グループ１００、即ち図１に示す第１畳み込み層グループ１００−ｎを意味する。

本実施例では、図１に示すように、上記の３つの第２畳み込み層グループ３００は、互いに接続され、且つその出力が検出モジュールの入力とされる。例えば、１番目の第２畳み込み層グループ３００−１は最後の１つの第１畳み込み層グループ１００−ｎに接続され、その出力が検出モジュールの入力とされ、２番目の第２畳み込み層グループ３００−２の出力と１つの第１畳み込み層グループ１００−ｍの出力との和は検出モジュールの入力とされ、３番目の第２畳み込み層グループ３００−３の出力と１つの第１畳み込み層グループ１００−ｋの出力との和は検出モジュールの入力とされる。

本実施例では、各第２畳み込み層グループ３００は複数の第３畳み込み層を含んでもよく、例えば６つの第３畳み込み層を含んでもよいが、本実施例はこれに限定されない。

本実施例では、第２畳み込み層グループ３００に含まれる複数の第３畳み込み層も密集接続構造を用いて接続されてもよく、また、それに含まれる複数の第３畳み込み層のうちの少なくとも１つは、上記の効果を実現するように、深度分離可能な畳み込みを用いてもよい。

本実施例によれば、従来のＹＯＬＯネットワークにおける畳み込み層の一部の代わりに深度分離可能な畳み込み層を用いることで、計算量が削減され、従来のＹＯＬＯネットワークにおける残差構造の代わりに密集接続構造を用いることで、収束速度が加速され、ネットワークの複雑さが低減され、元の物体認識精度が維持される。

本発明の実施例の有利な効果を理解しやすくするために、以下は、分離可能な畳み込み及び密集接続構造を簡単に説明する。

図２は、深度分離可能な畳み込みを示す図であり、ＭｏｂｉｌｅｎｅｔＶ２ネットワークで用いられるアーキテクチャが最適化された深度分離可能な畳み込みを示している。図２は、グランドトゥルースとバッファゾーンをデータセットとすることを示す図であり、簡略化ネットワークのコアステップである。

従来の畳み込み構造に比べると、深度分離可能な畳み込みは、深層畳み込み構造を接続しながらチャネル分離を維持することで、空間的畳み込みを実現することができる。例えば、サイズが３＊３の畳み込み層があると仮定する。従来の畳み込み構造では、入力チャネルが１６個あり、出力チャネルが３２個あり、１６＊３２＝５１２個の特徴マッピング及び４６０８個のパラメータが構築される。軽量の畳み込み構造の場合、深度分離可能な畳み込みは、融合処理の前に、サイズが１＊１の畳み込みカーネルの特徴マッピングを走査し、このプロセスでは１６＊３＊３＋１６＊３２＊１＊１＝６５６個のパラメータを用い、上記の従来の畳み込み構造の４６０８個のパラメータよりも遥かに低い。このため、深度分離可能な畳み込みを用いることで、計算量を減らすことができる。

図３は逆残差構造を示す図である。深度分離可能な畳み込みと異なり、逆残差構造は残差ブロック及び拡張畳み込み構造を追加している。残差ブロックはネットワークを深くすることができ、拡張畳み込み構造は重要な特徴の数を増やすことができる。このようなネットワークは、物体特徴をより効率的に抽出することができる。図３は、次元を６倍に拡大した後に次元を圧縮するプロセスを示している。

図４は密集接続構造を示す図である。該密集接続構造では、同一のサイズを有する特徴層を接続してもよい。言い換えれば、同一の大きさを有する特徴層は１つの整数と見なされてもよい。例えば、ストライドが２の畳み込み層の２つの部分の間の層は密集して接続されている。残差構造に比べると、このような構造は逆伝播のためにより多くの効果的な経路を提供することができる。これによって、浅い層に勾配降下情報を容易に伝送することができる。

本実施例では、第１畳み込み層グループ１００の数は限定されず、第２畳み込み層２００の位置は限定されず、２つの第１畳み込み層グループ１００の間に位置し、１番目の第１畳み込み層グループ１００の前に位置すればよい。また、本実施例では、第２畳み込み層グループ３００の数も限定されず、３つであってもよいし、他の数であってもよい。

図５は本実施例の物体認識ネットワークを示す他の図である。図５に示すように、該物体認識ネットワークでは、第１畳み込み層グループ１００の数は２３であり、１００−１〜１００−２３で示され、第２畳み込み層２００の数は５であり、２００−１〜６００−５で示され、第２畳み込み層グループ３００の数は３であり、３００−１〜３００−３で示される。また、図５の例では、第１畳み込み層グループ１００−２〜１００−３の構造は同じであり、第１畳み込み層グループ１００−４〜１００−１１の構造は同じであり、第１畳み込み層グループ１００−１２〜１００−１９の構造は同じであり、第１畳み込み層グループ１００−２０〜１００−２３の構造は同じである。ここで、構造が同じであることとは、それに含まれる複数の第１畳み込み層の各係数（例えばフィルタの数、サイズ、出力など）が全て同じであることを意味する。

図６は図５に示す物体認識ネットワークの具体的な実装を示す図である。図６に示すように、該物体認識ネットワークでは、第１畳み込み層グループ１００の構造、第１畳み込み層グループ１００に含まれる第１畳み込み層の係数、第２畳み込み層２００の係数、第２畳み込み層グループ３００の構造、及び第２畳み込み層グループ３００に含まれる第３畳み込み層の係数が示されている。図６の例は単なる説明用の一例であり、具体的な実装に応じて、第１畳み込み層グループ１００はより多く、又はより少ない第１畳み込み層を含んでもよく、第２畳み込み層グループ３００はより多く、又はより少ない第３畳み込み層を含んでもよく、各畳み込み層の係数も他の値であってもよい。

上記の実施例では、第１畳み込み層グループ１００に２つ又は３つの第１畳み込み層が含まれ、第２畳み込み層グループ３００に６つの第３畳み込み層が含まれることを一例にして説明しているが、本実施例はこれに限定されず、具体的な実装に応じて、第１畳み込み層グループ１００に含まれる第１畳み込み層の数、及び第２畳み込み層グループ３００に含まれる第３畳み込み層の数は他の値であってもよい。

本実施例の物体認識ネットワークを用いることで、計算量が削減され、収束速度が加速され、ネットワークの複雑さが低減され、元の物体認識精度が維持される。

表１は、逆残差構造及び逆残差構造＋密集接続構造を用いる本実施例の物体認識ネットワークの実験結果と従来のＹＯＬＯＤａｒｋｎｅｔネットワークの実験結果との対比を示している。この実験では、入力画像の大きさは全て４１６×４１６であり、計算量は表１に示す。
表１

表１から分かるように、逆残差構造＋密集接続構造を用いることで、ネットワークの複雑さを効果的に低減することができる。

表２は、逆残差構造及び逆残差構造＋密集接続構造を用いる本実施例の物体認識ネットワークの実験結果と従来の事前学習済みモデルを用いたＹＯＬＯＤａｒｋｎｅｔネットワークの実験結果との対比を示している。表２から分かるように、事前学習済みモデルを有しない小さな訓練データセットの訓練条件について、密集ブロック（密集接続構造）が重要な役割を果たした。
表２

図７は訓練損失を示す図であり、事前学習済みモデルを有するＹＯＬＯＤａｒｋｎｅｔネットワーク（左部分）及び本実施例の密集接続構造を用いる物体認識ネットワーク（右部分）の訓練損失を示している。図７では、横座標は訓練バッチを示し、縦座標は損失値を示す。図７から分かるように、元の構造に比べると、本実施例の逆密集ブロックを有する物体認識ネットワークは、速度を４倍に向上させると共に、元の精度を維持することができる。また、事前学習済みモデルを有しない場合であっても、モデルの収束速度を維持することができる。さらに、逆密集畳み込みブロックは、バックボーンネットワーク及び回帰ネットワークの両方で調整可能である。
本実施例の物体認識ネットワークでは、３つの異なる第１畳み込み層グループ１００は、異なるサイズを有する物体の回帰をそれぞれ行う。異なる応用条件に応じて、これらの層の数を調整することができる。例えば、小さな物体のより高い精度を達成したい場合、浅い層における逆密集ブロックの数を増やしてもよい。ここで、逆密集ブロックは、密集接続構造を用いる畳み込み層グループである。
図８は本実施例の物体認識ネットワークの物体認識結果及び従来のＹＯＬＯＤａｒｋｎｅｔネットワークの物体認識結果を示し、左部分は従来のＹＯＬＯＤａｒｋｎｅｔネットワークの認識結果であり、右部分は本実施例の密集接続構造を用いる物体認識ネットワークの認識結果である。図８から分かるように、本実施例の物体認識ネットワークは、計算量を減らし、収束速度を加速し、ネットワークの複雑さを低減し、元の物体認識精度を維持することができる。
＜実施例２＞
本実施例は物体認識方法を提供する。図９は本実施例の物体認識方法を示す図であり、図９に示すように、該方法は以下のステップを含む。
ステップ９０１：実施例１に記載された物体認識ネットワークを用いて入力画像に対して特徴抽出を行う。
ステップ９０２：抽出された特徴に基づいて物体認識を行う。
本実施例によれば、実施例１の物体認識ネットワークを用いて入力画像に対して特徴抽出を行うことで、計算量が削減され、収束速度が加速され、ネットワークの複雑さが低減され、元の物体認識精度が維持される。
本実施例では、特徴抽出の具体的な方法及び物体認識の具体的な方法について、従来技術を参照してもよく、ここでその説明を省略する。
＜実施例３＞
本実施例は物体認識装置を提供する。該装置の問題解決の原理は実施例２の方法と同様であるため、その具体的な実施は実施例２の方法の実施を参照してもよく、同様な内容について説明を省略する。
図１０は本実施例の物体認識装置１０００を示す図であり、図１０に示すように、該物体認識装置１０００は、特徴抽出部１００１及び検出部１００２を含む。特徴抽出部１００１は、実施例１に記載された物体認識ネットワークを用いて入力画像に対して特徴抽出を行う。検出部１００２は、特徴抽出部１００１により抽出された特徴に基づいて物体認識を行う。
本実施例によれば、実施例１の物体認識ネットワークを用いて入力画像に対して特徴抽出を行うことで、計算量が削減され、収束速度が加速され、ネットワークの複雑さが低減され、元の物体認識精度が維持される。
＜実施例４＞
本実施例は、実施例３に記載の物体認識装置を含む画像処理装置を提供する。
図１１は本実施例の画像処理装置を示す図である。図１１に示すように、画像処理装置１１００は、中央処理装置（ＣＰＵ）１１０１及び記憶装置１１０２を含んでもよく、記憶装置１１０２は中央処理装置１１０１に接続される。記憶装置１１０２は、各種のデータ及び情報処理のプログラムを記憶してもよく、中央処理装置１１０１の制御により該プログラムを実行する。
１つの態様では、物体認識装置１０００の機能は中央処理装置１１０１に統合されてもよい。ここで、中央処理装置１１０１は、実施例２に記載された物体認識方法を実現するように構成されてもよい。
もう１つの態様では、物体認識装置１０００は中央処理装置１１０１とそれぞれ配置されてもよく、例えば、物体認識装置は中央処理装置１１０１に接続されたチップであり、中央処理装置１１０１の制御により物体認識装置の機能を実現するように構成されてもよい。
また、図１１に示すように、画像処理装置は、入力出力（Ｉ／Ｏ）装置１１０３及び表示装置１１０４などをさらに含んでもよい。ここで、上記各部の機能は従来技術と類似し、ここでその説明を省略する。なお、画像処理装置は、図１１に示す全ての構成部を含まなくてもよい。また、画像処理装置は、図１１に示していない構成部を含んでもよく、従来技術を参考してもよい。
本発明の実施例は、物体認識装置又は画像処理装置においてプログラムを実行する際に、コンピュータに、該物体認識装置又は画像処理装置において実施例２に記載の方法を実行させる、コンピュータ読み取り可能なプログラムを提供する。
本発明の実施例は、コンピュータに、物体認識装置又は画像処理装置において実施例２に記載の方法を実行させるためのコンピュータ読み取り可能なプログラムを記憶する、記憶媒体をさらに提供する。
本発明の以上の装置及び方法は、ハードウェアにより実現されてもよく、ハードウェアとソフトウェアを結合して実現されてもよい。本発明はコンピュータが読み取り可能なプログラムに関し、該プログラムは論理部により実行される時に、該論理部に上述した装置又は構成要件を実現させる、或いは該論理部に上述した各種の方法又はステップを実現させることができる。本発明は上記のプログラムを記憶するための記憶媒体、例えばハードディスク、磁気ディスク、光ディスク、ＤＶＤ、フラッシュメモリ等に関する。
本発明の実施例を参照しながら説明した方法／装置は、ハードウェア、プロセッサにより実行されるソフトウェアモジュール、又は両者の組み合わせで実施されてもよい。例えば、図１０に示す機能的ブロック図における１つ若しくは複数、又は機能的ブロック図の１つ若しくは複数の組み合わせは、コンピュータプログラムフローの各ソフトウェアモジュールに対応してもよいし、各ハードウェアモジュールに対応してもよい。これらのソフトウェアモジュールは、図９に示す各ステップにそれぞれ対応してもよい。これらのハードウェアモジュールは、例えばフィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ）を用いてこれらのソフトウェアモジュールをハードウェア化して実現されてもよい。
ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、モバイルハードディスク、ＣＤ−ＲＯＭ又は当業者にとって既知の任意の他の形の記憶媒体に位置してもよい。プロセッサが記憶媒体から情報を読み取ったり、記憶媒体に情報を書き込むように該記憶媒体をプロセッサに接続してもよいし、記憶媒体がプロセッサの構成部であってもよい。プロセッサ及び記憶媒体はＡＳＩＣに位置する。該ソフトウェアモジュールは移動端末のメモリに記憶されてもよいし、移動端末に挿入されたメモリカードに記憶されてもよい。例えば、機器（例えば移動端末）が比較的に大きい容量のＭＥＧＡ−ＳＩＭカード又は大容量のフラッシュメモリ装置を用いる場合、該ソフトウェアモジュールは該ＭＥＧＡ−ＳＩＭカード又は大容量のフラッシュメモリ装置に記憶されてもよい。
図面に記載されている一つ以上の機能ブロックおよび/または機能ブロックの一つ以上の組合せは、本発明に記載されている機能を実行するための汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ）又は他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理装置、ディスクリートハードウェアコンポーネント、またはそれらの任意の適切な組み合わせで実現されてもよい。図面に記載されている一つ以上の機能ブロックおよび/または機能ブロックの一つ以上の組合せは、例えば、コンピューティング機器の組み合わせ、例えばＤＳＰとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、ＤＳＰ通信と組み合わせた１つ又は複数のマイクロプロセッサ又は他の任意の構成で実現されてもよい。
以上、具体的な実施形態を参照しながら本発明を説明しているが、上記の説明は、例示的なものに過ぎず、本発明の保護の範囲を限定するものではない。本発明の趣旨及び原理を離脱しない限り、本発明に対して各種の変形及び変更を行ってもよく、これらの変形及び変更も本発明の範囲に属する。

Claims

物体認識ネットワークであって、
互いに接続され、入力画像に対して特徴抽出を行う複数の第１畳み込み層グループであって、前記複数の第１畳み込み層グループのうちの少なくとも３つは第２畳み込み層グループに接続され、各第１畳み込み層グループは複数の第１畳み込み層を含み、少なくとも１つの第１畳み込み層グループに含まれる複数の第１畳み込み層は密集接続構造を介して接続され、密集接続構造を介して接続された複数の第１畳み込み層のうちの１つは深度分離可能な畳み込みを用いる、複数の第１畳み込み層グループと、
複数の第２畳み込み層であって、各第２畳み込み層は２つの第１畳み込み層グループの間に位置し、或いは１番目の第１畳み込み層グループの前に位置する、複数の第２畳み込み層と、
互いに接続された３つの第２畳み込み層グループであって、１番目の第２畳み込み層グループは最後の１つの第１畳み込み層グループに接続され、該１番目の第２畳み込み層グループの出力は検出モジュールの入力とされ、２番目の第２畳み込み層グループの出力と１つの第１畳み込み層グループの出力との和は検出モジュールの入力とされ、３番目の第２畳み込み層グループの出力と１つの第１畳み込み層グループの出力との和は検出モジュールの入力とされ、各第２畳み込み層グループは複数の第３畳み込み層を含む、３つの第２畳み込み層グループと、を含む、物体認識ネットワーク。
前記第２畳み込み層は、プーリング層、又はストライドが２の畳み込み層である、請求項１に記載の物体認識ネットワーク。
前記第２畳み込み層は、Ａｔｒｏｕｓアルゴリズムを用いる、請求項１に記載の物体認識ネットワーク。
前記少なくとも３つの第１畳み込み層グループのうちの各第１畳み込み層グループに含まれる複数の第１畳み込み層は、密集接続構造を介して接続されている、請求項１に記載の物体認識ネットワーク。
少なくとも１つの第１畳み込み層グループに含まれる複数の第１畳み込み層は、残差構造を介して接続されている、請求項１に記載の物体認識ネットワーク。
前記第２畳み込み層グループのそれぞれにおける複数の第３畳み込み層は、密集接続構造を用いて接続される、請求項１に記載の物体認識ネットワーク。
物体認識装置であって、
請求項１乃至６の何れかに記載の物体認識ネットワークを用いて入力画像に対して特徴抽出を行う特徴抽出部と、
前記特徴抽出部により抽出された特徴に基づいて物体認識を行う検出部と、を含む、装置。
物体認識方法であって、
請求項１乃至６の何れかに記載の物体認識ネットワークを用いて入力画像に対して特徴抽出を行うステップと、
抽出された特徴に基づいて物体認識を行うステップと、を含む、方法。