JP2020135872A - 物体認識方法、装置及びネットワーク - Google Patents

物体認識方法、装置及びネットワーク Download PDF

Info

Publication number
JP2020135872A
JP2020135872A JP2020013209A JP2020013209A JP2020135872A JP 2020135872 A JP2020135872 A JP 2020135872A JP 2020013209 A JP2020013209 A JP 2020013209A JP 2020013209 A JP2020013209 A JP 2020013209A JP 2020135872 A JP2020135872 A JP 2020135872A
Authority
JP
Japan
Prior art keywords
convolution layer
object recognition
convolution
layer group
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2020013209A
Other languages
English (en)
Inventor
路 石
Lu Shi
路 石
ワン・チィ
Qi Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2020135872A publication Critical patent/JP2020135872A/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/95Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

【課題】本発明の実施例は、物体認識方法、装置及びネットワークを提供する。【解決手段】従来のYOLOネットワークにおける畳み込み層の一部の代わりに深度分離可能な畳み込み層を用いることで、計算量が削減され、従来のYOLOネットワークにおける残差構造の代わりに密集接続構造を用いることで、収束速度が加速され、ネットワークの複雑さが低減され、元の物体認識精度が維持される。【選択図】図6

Description

本発明は、物体認識の技術分野に関し、特に物体認識方法、装置及びネットワークに関する。
現在、物体認識技術は多くの分野で広く用いられ、そのうち、YOLO(You Only Look Once)は高速、且つ高い認識精度を有する成功した構造の1つである。このネットワークは、位置機能と検出機能を統合したシングルステップ(single step)の認識ネットワークである。該ネットワークは、FPN(Feature Pyramid Networks)の構造と同様に、GTX1080Ti GPUを利用して、30fps(YOLO V3 416)及び高速領域畳み込みニューラルネットワーク(Faster R−CNN:Faster Region−Convolutional Neural Network)と同様な精度を実現することができる。
なお、上述した技術背景の説明は、本発明の技術案を明確、完全に理解させるための説明であり、当業者を理解させるために記述されているものである。これらの技術案は、単なる本発明の背景技術部分として説明されたものであり、当業者により周知されたものではない。
本発明の発明者の発見によると、多くのプロジェクトでは、このような速度は遥かに十分ではない。YOLOの当初の目的は、数千の分類タスクを処理することである。YOLO V3では、複雑なバックボーンネットワークDarknet−53を用いている。殆どの応用では、このようなバックボーンネットワークの構造は簡潔ではなく、複雑なネットワークは遅い速度と高いメモリ占用を意味する。一方、事前学習済みモデルは、一般的にパブリックデータセットに基づくものである。認識ターゲットとパブリックデータセットにおける物体とが非常に異なる場合、実際には、事前学習済みモデルは役に立たなくなる場合が多い。データセットが比較的に小さい場合、小さいサンプルデータを迅速に収束させることができるネットワークが必要である。
上記問題の少なくとも1つ又は他の同様の問題を解決するために、本発明の実施例は、計算量を削減し、収束速度を加速し、ネットワークの複雑さを低減し、元の物体認識精度を維持する、物体認識方法、装置及びネットワークを提供する。
本発明の実施例の第1態様では、物体認識ネットワークであって、互いに接続され、入力画像に対して特徴抽出を行う複数の第1畳み込み層グループであって、前記複数の第1畳み込み層グループのうちの少なくとも3つは第2畳み込み層グループに接続され、各第1畳み込み層グループは複数の第1畳み込み層を含み、少なくとも1つの第1畳み込み層グループに含まれる複数の第1畳み込み層は密集接続構造を介して接続され、密集接続構造を介して接続された複数の第1畳み込み層のうちの1つは深度分離可能な畳み込みを用いる、複数の第1畳み込み層グループと、複数の第2畳み込み層であって、各第2畳み込み層は2つの第1畳み込み層グループの間に位置し、或いは1番目の第1畳み込み層グループの前に位置する、複数の第2畳み込み層と、互いに接続された3つの第2畳み込み層グループであって、1番目の第2畳み込み層グループは最後の1つの第1畳み込み層グループに接続され、該1番目の第2畳み込み層グループの出力は検出モジュールの入力とされ、2番目の第2畳み込み層グループの出力と1つの第1畳み込み層グループの出力との和は検出モジュールの入力とされ、3番目の第2畳み込み層グループの出力と1つの第1畳み込み層グループの出力との和は検出モジュールの入力とされ、各第2畳み込み層グループは複数の第3畳み込み層を含む、3つの第2畳み込み層グループと、を含む、物体認識ネットワークを提供する。
本発明の実施例の第2態様では、物体認識方法であって、上記の第1態様に記載の物体認識ネットワークを用いて入力画像に対して特徴抽出を行うステップと、抽出された特徴に基づいて物体認識を行うステップと、を含む、方法を提供する。
本発明の実施例の第3態様では、物体認識装置であって、上記の第1態様に記載の物体認識ネットワークを用いて入力画像に対して特徴抽出を行う特徴抽出部と、前記特徴抽出部により抽出された特徴に基づいて物体認識を行う検出部と、を含む、装置を提供する。
本発明の実施例の第4態様では、コンピュータ読み取り可能なプログラムであって、物体認識装置又は画像処理装置において前記プログラムが実行される際に、前記物体認識装置又は前記画像処理装置に上記の第2態様に記載の物体認識方法を実行させる、プログラムを提供する。
本発明の実施例の第5態様では、コンピュータ読み取り可能なプログラムが記憶されている記憶媒体であって、前記コンピュータ読み取り可能なプログラムが物体認識装置又は画像処理装置に上記の第2態様に記載の物体認識方法を実行させる、記憶媒体を提供する。
本発明の実施例の有利な効果は以下の通りである。従来のYOLOネットワークにおける畳み込み層の一部の代わりに深度分離可能な畳み込み層を用いることで、計算量が削減され、従来のYOLOネットワークにおける残差構造の代わりに密集接続構造を用いることで、収束速度が加速され、ネットワークの複雑さが低減され、元の物体認識精度が維持される。
本発明の特定の実施形態は、後述の説明及び図面に示すように、詳細に開示され、本発明の原理を採用されることが可能な方式を示している。なお、本発明の実施形態は、範囲上には限定されるものではない。本発明の実施形態は、添付されている特許請求の範囲の主旨及び内容の範囲内、各種の改変、修正、及び均等的なものが含まれる。
ある一つの実施形態に説明及び又は示されている特徴は、同一又は類似の方式で一つ又は多くの他の実施形態に使用されてもよく、他の実施形態における特徴と組み合わせてもよく、他の実施形態における特徴を代替してもよい。
なお、用語「含む/有する」は、本文に使用される際に、特徴、要素、ステップ又は構成要件の存在を意味し、一つ又は複数の他の特徴、要素、ステップ又は構成要件の存在又は追加を排除するものではない。
本発明の実施例の図面又は実施形態に説明されている要素及び特徴は、1つ又は複数の他の図面又は実施形態に示す要素及び特徴と組み合わせてもよい。図面において、類似する符号は複数の図面における対応する構成部を表し、複数の態様に用いられる対応構成部を表してもよい。
ここで含まれる図面は、本発明の実施例を理解させるためのものであり、本明細書の一部を構成し、本発明の実施例を例示するためのものであり、文言の記載と合わせて本発明の原理を説明する。なお、ここに説明される図面は、単なる本発明の実施例を説明するためのものであり、当業者にとって、これらの図面に基づいて他の図面を容易に得ることができる。
実施例1の物体認識ネットワークを示す図である。 グランドトゥルースとバッファゾーンをデータセットとすることを示す図である。 逆ブロック(インバースブロック)を示す図である。 密集接続構造を示す図である。 実施例1の物体認識ネットワークを示す他の図である。 図5に示す物体認識ネットワークの具体的な実装を示す図である。 訓練損失を示す図である。 本実施例の物体認識ネットワークの物体認識結果及び従来のYOLO Darknetネットワークの物体認識結果を示す図である。 実施例2の物体認識方法を示す図である。 実施例3の物体認識装置を示す図である。 実施例4の画像処理装置を示す図である。
本発明の上記及びその他の特徴は、図面及び下記の説明により明確になる。明細書及び図面では、本発明の特定の実施形態、即ち本発明の原則に従う一部の実施形態を表すものを公開している。なお、本発明は説明される実施形態に限定されず、本発明は、特許請求の範囲内の全ての修正、変更されたもの、及び均等なものを含む。
本発明の実施例では、用語「第1」、「第2」は異なる要素を名称で区分するためのものであり、これらの要素の空間的配列又は時間的順序などを意味するものではなく、これらの要素はこれらの用語に限定されない。用語「及び/又は」は列挙された用語の1つ又は複数のうち何れか及びその組み合わせを含む。用語「包括」、「含む」、「有する」は説明された特徴、要素、素子又は部材の存在を意味するが、他の1つ又は複数の特徴、要素、素子又は部材の存在又は追加を排除するものではない。
本発明の実施例では、単数形の「一」、「該」等は複数形を含み、「一種」又は「一類」を意味し、「1つ」に限定するものではない。また、用語「前記」は、文脈上明確に指示されない限り、単数形及び複数形両方を含む。また、文脈上明確に指示されない限り、用語「応じて」は「少なくとも部分的に応じて」を意味し、用語「に基づいて」は「少なくとも部分的に基づいて」を意味する。
以下は、図面を参照しながら本発明の実施例の各態様を説明する。これらの態様は単なる例示的なものであり、本発明を制限するものではない。
<実施例1>
本実施例は物体認識ネットワークを提供する。図1は本実施例の物体認識ネットワークを示す図である。図1に示すように、該物体認識ネットワークは、複数の第1畳み込み層グループ100、複数の第2畳み込み層200及び3つの第2畳み込み層グループ300を含む。本実施例では、第1畳み込み層グループ100及び第2畳み込み層200は「特徴抽出ネットワーク」と称されてもよく、第2畳み込み層グループ300は「分類回帰ネットワーク」と称されてもよい。第2畳み込み層グループ300の出力は検出モジュールの入力とされ、検出モジュールは該第2畳み込み層グループ300の出力に基づいて物体認識を行う。特徴抽出ネットワーク及び分類回帰ネットワークの定義は従来技術と同様であり、ここでその説明を省略する。
本実施例では、図1に示すように、該複数の第1畳み込み層グループ100は、互いに接続され、入力画像に対して特徴抽出を行う。該複数の第1畳み込み層グループ100のうちの少なくとも3つは第2畳み込み層グループ300に接続され、各第1畳み込み層グループ100は複数の畳み込み層(第1畳み込み層とも称される)を含み。ここで、少なくとも1つの第1畳み込み層グループ100に含まれる複数の第1畳み込み層は密集接続構造(dense connection structure)を介して接続され、密集接続構造を介して接続された複数の第1畳み込み層のうちの1つは深度分離可能な(depthwise separable)畳み込みを用いる。密集接続構造を用いて該第1畳み込み層グループ100における畳み込み層を接続することで、収束速度が加速され、ネットワークの複雑さが低減され、元の物体認識精度が維持された。また、従来のYOLOネットワークにおける畳み込み層の一部の代わりに深度分離可能な畳み込みを用いることで、計算量が削減された。
本実施例では、各第1畳み込み層グループ100に含まれる畳み込み層の数は2つ若しくは3つ、又は他の数であってもよく、第2畳み込み層グループ300に接続されていない第1畳み込み層グループ100に含まれる少なくとも1つの第1畳み込み層も深度分離可能な畳み込みを用いてもよく、これによって、同様に計算量を削減することができる。また、第2畳み込み層グループ300に接続されていない第1畳み込み層グループ100に含まれる複数の第1畳み込み層は、密集接続構造を介して接続されてもよいし、残差構造を介して接続されてもよいし、他の従来の接続方式により接続されてもよい。密集接続構造を用いて接続されることで、同様に収束速度を加速することができ、ネットワークの複雑さを低減することができ、元の物体認識精度を維持することができる。残差構造を用いて接続されることで、収束効果を確保することができ、全体として物体認識精度を向上させることができる。
本実施例では、第2畳み込み層グループ300に接続された各第1畳み込み層グループ100(上記の少なくとも3つの第1畳み込み層グループ100)に含まれる複数の第1畳み込み層は、上記効果を実現するように、密集接続構造を介して接続されてもよい。
本実施例では、図1に示すように、上記の複数の第2畳み込み層200のそれぞれは、2つの第1畳み込み層グループ100の間に位置してもよいし、1番目の第1畳み込み層グループ100の前に位置してもよい。第2畳み込み層200は、プーリング層であってもよいし、ストライド(stride)が2の畳み込み層であってもよい。プーリング層及びストライド(stride)が2の畳み込み層の定義及び実現方法について、従来技術を参照してもよく、ここでその説明を省略する。また、第2畳み込み層200は、Atrousアルゴリズムを用いて実現されてもよく、その具体的な実装方法について従来技術を参照してもよく、ここでその説明を省略する。
本実施例では、1番目の第1畳み込み層グループ100とは、第1畳み込み層グループ100のうち深度が最も浅い第1畳み込み層グループ100、即ち図1に示す第1畳み込み層グループ100−1を意味する。また、本実施例では、最後の1つの第1畳み込み層グループ100とは、第1畳み込み層グループ100のうち深度が最も深い第1畳み込み層グループ100、即ち図1に示す第1畳み込み層グループ100−nを意味する。
本実施例では、図1に示すように、上記の3つの第2畳み込み層グループ300は、互いに接続され、且つその出力が検出モジュールの入力とされる。例えば、1番目の第2畳み込み層グループ300−1は最後の1つの第1畳み込み層グループ100−nに接続され、その出力が検出モジュールの入力とされ、2番目の第2畳み込み層グループ300−2の出力と1つの第1畳み込み層グループ100−mの出力との和は検出モジュールの入力とされ、3番目の第2畳み込み層グループ300−3の出力と1つの第1畳み込み層グループ100−kの出力との和は検出モジュールの入力とされる。
本実施例では、各第2畳み込み層グループ300は複数の第3畳み込み層を含んでもよく、例えば6つの第3畳み込み層を含んでもよいが、本実施例はこれに限定されない。
本実施例では、第2畳み込み層グループ300に含まれる複数の第3畳み込み層も密集接続構造を用いて接続されてもよく、また、それに含まれる複数の第3畳み込み層のうちの少なくとも1つは、上記の効果を実現するように、深度分離可能な畳み込みを用いてもよい。
本実施例によれば、従来のYOLOネットワークにおける畳み込み層の一部の代わりに深度分離可能な畳み込み層を用いることで、計算量が削減され、従来のYOLOネットワークにおける残差構造の代わりに密集接続構造を用いることで、収束速度が加速され、ネットワークの複雑さが低減され、元の物体認識精度が維持される。
本発明の実施例の有利な効果を理解しやすくするために、以下は、分離可能な畳み込み及び密集接続構造を簡単に説明する。
図2は、深度分離可能な畳み込みを示す図であり、Mobilenet V2ネットワークで用いられるアーキテクチャが最適化された深度分離可能な畳み込みを示している。図2は、グランドトゥルースとバッファゾーンをデータセットとすることを示す図であり、簡略化ネットワークのコアステップである。
従来の畳み込み構造に比べると、深度分離可能な畳み込みは、深層畳み込み構造を接続しながらチャネル分離を維持することで、空間的畳み込みを実現することができる。例えば、サイズが3*3の畳み込み層があると仮定する。従来の畳み込み構造では、入力チャネルが16個あり、出力チャネルが32個あり、16*32=512個の特徴マッピング及び4608個のパラメータが構築される。軽量の畳み込み構造の場合、深度分離可能な畳み込みは、融合処理の前に、サイズが1*1の畳み込みカーネルの特徴マッピングを走査し、このプロセスでは16*3*3+16*32*1*1=656個のパラメータを用い、上記の従来の畳み込み構造の4608個のパラメータよりも遥かに低い。このため、深度分離可能な畳み込みを用いることで、計算量を減らすことができる。
図3は逆残差構造を示す図である。深度分離可能な畳み込みと異なり、逆残差構造は残差ブロック及び拡張畳み込み構造を追加している。残差ブロックはネットワークを深くすることができ、拡張畳み込み構造は重要な特徴の数を増やすことができる。このようなネットワークは、物体特徴をより効率的に抽出することができる。図3は、次元を6倍に拡大した後に次元を圧縮するプロセスを示している。
図4は密集接続構造を示す図である。該密集接続構造では、同一のサイズを有する特徴層を接続してもよい。言い換えれば、同一の大きさを有する特徴層は1つの整数と見なされてもよい。例えば、ストライドが2の畳み込み層の2つの部分の間の層は密集して接続されている。残差構造に比べると、このような構造は逆伝播のためにより多くの効果的な経路を提供することができる。これによって、浅い層に勾配降下情報を容易に伝送することができる。
本実施例では、第1畳み込み層グループ100の数は限定されず、第2畳み込み層200の位置は限定されず、2つの第1畳み込み層グループ100の間に位置し、1番目の第1畳み込み層グループ100の前に位置すればよい。また、本実施例では、第2畳み込み層グループ300の数も限定されず、3つであってもよいし、他の数であってもよい。
図5は本実施例の物体認識ネットワークを示す他の図である。図5に示すように、該物体認識ネットワークでは、第1畳み込み層グループ100の数は23であり、100−1〜100−23で示され、第2畳み込み層200の数は5であり、200−1〜600−5で示され、第2畳み込み層グループ300の数は3であり、300−1〜300−3で示される。また、図5の例では、第1畳み込み層グループ100−2〜100−3の構造は同じであり、第1畳み込み層グループ100−4〜100−11の構造は同じであり、第1畳み込み層グループ100−12〜100−19の構造は同じであり、第1畳み込み層グループ100−20〜100−23の構造は同じである。ここで、構造が同じであることとは、それに含まれる複数の第1畳み込み層の各係数(例えばフィルタの数、サイズ、出力など)が全て同じであることを意味する。
図6は図5に示す物体認識ネットワークの具体的な実装を示す図である。図6に示すように、該物体認識ネットワークでは、第1畳み込み層グループ100の構造、第1畳み込み層グループ100に含まれる第1畳み込み層の係数、第2畳み込み層200の係数、第2畳み込み層グループ300の構造、及び第2畳み込み層グループ300に含まれる第3畳み込み層の係数が示されている。図6の例は単なる説明用の一例であり、具体的な実装に応じて、第1畳み込み層グループ100はより多く、又はより少ない第1畳み込み層を含んでもよく、第2畳み込み層グループ300はより多く、又はより少ない第3畳み込み層を含んでもよく、各畳み込み層の係数も他の値であってもよい。
上記の実施例では、第1畳み込み層グループ100に2つ又は3つの第1畳み込み層が含まれ、第2畳み込み層グループ300に6つの第3畳み込み層が含まれることを一例にして説明しているが、本実施例はこれに限定されず、具体的な実装に応じて、第1畳み込み層グループ100に含まれる第1畳み込み層の数、及び第2畳み込み層グループ300に含まれる第3畳み込み層の数は他の値であってもよい。
本実施例の物体認識ネットワークを用いることで、計算量が削減され、収束速度が加速され、ネットワークの複雑さが低減され、元の物体認識精度が維持される。
表1は、逆残差構造及び逆残差構造+密集接続構造を用いる本実施例の物体認識ネットワークの実験結果と従来のYOLO Darknetネットワークの実験結果との対比を示している。この実験では、入力画像の大きさは全て416×416であり、計算量は表1に示す。
表1
Figure 2020135872
表1から分かるように、逆残差構造+密集接続構造を用いることで、ネットワークの複雑さを効果的に低減することができる。
表2は、逆残差構造及び逆残差構造+密集接続構造を用いる本実施例の物体認識ネットワークの実験結果と従来の事前学習済みモデルを用いたYOLO Darknetネットワークの実験結果との対比を示している。表2から分かるように、事前学習済みモデルを有しない小さな訓練データセットの訓練条件について、密集ブロック(密集接続構造)が重要な役割を果たした。
表2
Figure 2020135872
図7は訓練損失を示す図であり、事前学習済みモデルを有するYOLO Darknetネットワーク(左部分)及び本実施例の密集接続構造を用いる物体認識ネットワーク(右部分)の訓練損失を示している。図7では、横座標は訓練バッチを示し、縦座標は損失値を示す。図7から分かるように、元の構造に比べると、本実施例の逆密集ブロックを有する物体認識ネットワークは、速度を4倍に向上させると共に、元の精度を維持することができる。また、事前学習済みモデルを有しない場合であっても、モデルの収束速度を維持することができる。さらに、逆密集畳み込みブロックは、バックボーンネットワーク及び回帰ネットワークの両方で調整可能である。
本実施例の物体認識ネットワークでは、3つの異なる第1畳み込み層グループ100は、異なるサイズを有する物体の回帰をそれぞれ行う。異なる応用条件に応じて、これらの層の数を調整することができる。例えば、小さな物体のより高い精度を達成したい場合、浅い層における逆密集ブロックの数を増やしてもよい。ここで、逆密集ブロックは、密集接続構造を用いる畳み込み層グループである。
図8は本実施例の物体認識ネットワークの物体認識結果及び従来のYOLO Darknetネットワークの物体認識結果を示し、左部分は従来のYOLO Darknetネットワークの認識結果であり、右部分は本実施例の密集接続構造を用いる物体認識ネットワークの認識結果である。図8から分かるように、本実施例の物体認識ネットワークは、計算量を減らし、収束速度を加速し、ネットワークの複雑さを低減し、元の物体認識精度を維持することができる。
<実施例2>
本実施例は物体認識方法を提供する。図9は本実施例の物体認識方法を示す図であり、図9に示すように、該方法は以下のステップを含む。
ステップ901:実施例1に記載された物体認識ネットワークを用いて入力画像に対して特徴抽出を行う。
ステップ902:抽出された特徴に基づいて物体認識を行う。
本実施例によれば、実施例1の物体認識ネットワークを用いて入力画像に対して特徴抽出を行うことで、計算量が削減され、収束速度が加速され、ネットワークの複雑さが低減され、元の物体認識精度が維持される。
本実施例では、特徴抽出の具体的な方法及び物体認識の具体的な方法について、従来技術を参照してもよく、ここでその説明を省略する。
<実施例3>
本実施例は物体認識装置を提供する。該装置の問題解決の原理は実施例2の方法と同様であるため、その具体的な実施は実施例2の方法の実施を参照してもよく、同様な内容について説明を省略する。
図10は本実施例の物体認識装置1000を示す図であり、図10に示すように、該物体認識装置1000は、特徴抽出部1001及び検出部1002を含む。特徴抽出部1001は、実施例1に記載された物体認識ネットワークを用いて入力画像に対して特徴抽出を行う。検出部1002は、特徴抽出部1001により抽出された特徴に基づいて物体認識を行う。
本実施例によれば、実施例1の物体認識ネットワークを用いて入力画像に対して特徴抽出を行うことで、計算量が削減され、収束速度が加速され、ネットワークの複雑さが低減され、元の物体認識精度が維持される。
<実施例4>
本実施例は、実施例3に記載の物体認識装置を含む画像処理装置を提供する。
図11は本実施例の画像処理装置を示す図である。図11に示すように、画像処理装置1100は、中央処理装置(CPU)1101及び記憶装置1102を含んでもよく、記憶装置1102は中央処理装置1101に接続される。記憶装置1102は、各種のデータ及び情報処理のプログラムを記憶してもよく、中央処理装置1101の制御により該プログラムを実行する。
1つの態様では、物体認識装置1000の機能は中央処理装置1101に統合されてもよい。ここで、中央処理装置1101は、実施例2に記載された物体認識方法を実現するように構成されてもよい。
もう1つの態様では、物体認識装置1000は中央処理装置1101とそれぞれ配置されてもよく、例えば、物体認識装置は中央処理装置1101に接続されたチップであり、中央処理装置1101の制御により物体認識装置の機能を実現するように構成されてもよい。
また、図11に示すように、画像処理装置は、入力出力(I/O)装置1103及び表示装置1104などをさらに含んでもよい。ここで、上記各部の機能は従来技術と類似し、ここでその説明を省略する。なお、画像処理装置は、図11に示す全ての構成部を含まなくてもよい。また、画像処理装置は、図11に示していない構成部を含んでもよく、従来技術を参考してもよい。
本発明の実施例は、物体認識装置又は画像処理装置においてプログラムを実行する際に、コンピュータに、該物体認識装置又は画像処理装置において実施例2に記載の方法を実行させる、コンピュータ読み取り可能なプログラムを提供する。
本発明の実施例は、コンピュータに、物体認識装置又は画像処理装置において実施例2に記載の方法を実行させるためのコンピュータ読み取り可能なプログラムを記憶する、記憶媒体をさらに提供する。
本発明の以上の装置及び方法は、ハードウェアにより実現されてもよく、ハードウェアとソフトウェアを結合して実現されてもよい。本発明はコンピュータが読み取り可能なプログラムに関し、該プログラムは論理部により実行される時に、該論理部に上述した装置又は構成要件を実現させる、或いは該論理部に上述した各種の方法又はステップを実現させることができる。本発明は上記のプログラムを記憶するための記憶媒体、例えばハードディスク、磁気ディスク、光ディスク、DVD、フラッシュメモリ等に関する。
本発明の実施例を参照しながら説明した方法/装置は、ハードウェア、プロセッサにより実行されるソフトウェアモジュール、又は両者の組み合わせで実施されてもよい。例えば、図10に示す機能的ブロック図における1つ若しくは複数、又は機能的ブロック図の1つ若しくは複数の組み合わせは、コンピュータプログラムフローの各ソフトウェアモジュールに対応してもよいし、各ハードウェアモジュールに対応してもよい。これらのソフトウェアモジュールは、図9に示す各ステップにそれぞれ対応してもよい。これらのハードウェアモジュールは、例えばフィールド・プログラマブル・ゲートアレイ(FPGA)を用いてこれらのソフトウェアモジュールをハードウェア化して実現されてもよい。
ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、モバイルハードディスク、CD−ROM又は当業者にとって既知の任意の他の形の記憶媒体に位置してもよい。プロセッサが記憶媒体から情報を読み取ったり、記憶媒体に情報を書き込むように該記憶媒体をプロセッサに接続してもよいし、記憶媒体がプロセッサの構成部であってもよい。プロセッサ及び記憶媒体はASICに位置する。該ソフトウェアモジュールは移動端末のメモリに記憶されてもよいし、移動端末に挿入されたメモリカードに記憶されてもよい。例えば、機器(例えば移動端末)が比較的に大きい容量のMEGA−SIMカード又は大容量のフラッシュメモリ装置を用いる場合、該ソフトウェアモジュールは該MEGA−SIMカード又は大容量のフラッシュメモリ装置に記憶されてもよい。
図面に記載されている一つ以上の機能ブロックおよび/または機能ブロックの一つ以上の組合せは、本発明に記載されている機能を実行するための汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲートアレイ(FPGA)又は他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理装置、ディスクリートハードウェアコンポーネント、またはそれらの任意の適切な組み合わせで実現されてもよい。図面に記載されている一つ以上の機能ブロックおよび/または機能ブロックの一つ以上の組合せは、例えば、コンピューティング機器の組み合わせ、例えばDSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、DSP通信と組み合わせた1つ又は複数のマイクロプロセッサ又は他の任意の構成で実現されてもよい。
以上、具体的な実施形態を参照しながら本発明を説明しているが、上記の説明は、例示的なものに過ぎず、本発明の保護の範囲を限定するものではない。本発明の趣旨及び原理を離脱しない限り、本発明に対して各種の変形及び変更を行ってもよく、これらの変形及び変更も本発明の範囲に属する。

Claims (8)

  1. 物体認識ネットワークであって、
    互いに接続され、入力画像に対して特徴抽出を行う複数の第1畳み込み層グループであって、前記複数の第1畳み込み層グループのうちの少なくとも3つは第2畳み込み層グループに接続され、各第1畳み込み層グループは複数の第1畳み込み層を含み、少なくとも1つの第1畳み込み層グループに含まれる複数の第1畳み込み層は密集接続構造を介して接続され、密集接続構造を介して接続された複数の第1畳み込み層のうちの1つは深度分離可能な畳み込みを用いる、複数の第1畳み込み層グループと、
    複数の第2畳み込み層であって、各第2畳み込み層は2つの第1畳み込み層グループの間に位置し、或いは1番目の第1畳み込み層グループの前に位置する、複数の第2畳み込み層と、
    互いに接続された3つの第2畳み込み層グループであって、1番目の第2畳み込み層グループは最後の1つの第1畳み込み層グループに接続され、該1番目の第2畳み込み層グループの出力は検出モジュールの入力とされ、2番目の第2畳み込み層グループの出力と1つの第1畳み込み層グループの出力との和は検出モジュールの入力とされ、3番目の第2畳み込み層グループの出力と1つの第1畳み込み層グループの出力との和は検出モジュールの入力とされ、各第2畳み込み層グループは複数の第3畳み込み層を含む、3つの第2畳み込み層グループと、を含む、物体認識ネットワーク。
  2. 前記第2畳み込み層は、プーリング層、又はストライドが2の畳み込み層である、請求項1に記載の物体認識ネットワーク。
  3. 前記第2畳み込み層は、Atrousアルゴリズムを用いる、請求項1に記載の物体認識ネットワーク。
  4. 前記少なくとも3つの第1畳み込み層グループのうちの各第1畳み込み層グループに含まれる複数の第1畳み込み層は、密集接続構造を介して接続されている、請求項1に記載の物体認識ネットワーク。
  5. 少なくとも1つの第1畳み込み層グループに含まれる複数の第1畳み込み層は、残差構造を介して接続されている、請求項1に記載の物体認識ネットワーク。
  6. 前記第2畳み込み層グループのそれぞれにおける複数の第3畳み込み層は、密集接続構造を用いて接続される、請求項1に記載の物体認識ネットワーク。
  7. 物体認識装置であって、
    請求項1乃至6の何れかに記載の物体認識ネットワークを用いて入力画像に対して特徴抽出を行う特徴抽出部と、
    前記特徴抽出部により抽出された特徴に基づいて物体認識を行う検出部と、を含む、装置。
  8. 物体認識方法であって、
    請求項1乃至6の何れかに記載の物体認識ネットワークを用いて入力画像に対して特徴抽出を行うステップと、
    抽出された特徴に基づいて物体認識を行うステップと、を含む、方法。
JP2020013209A 2019-02-19 2020-01-30 物体認識方法、装置及びネットワーク Ceased JP2020135872A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910121363.3 2019-02-19
CN201910121363.3A CN111582007A (zh) 2019-02-19 2019-02-19 物体识别方法、装置和网络

Publications (1)

Publication Number Publication Date
JP2020135872A true JP2020135872A (ja) 2020-08-31

Family

ID=72042026

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020013209A Ceased JP2020135872A (ja) 2019-02-19 2020-01-30 物体認識方法、装置及びネットワーク

Country Status (3)

Country Link
US (1) US11281923B2 (ja)
JP (1) JP2020135872A (ja)
CN (1) CN111582007A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022173321A (ja) * 2021-10-15 2022-11-18 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド オブジェクトの検出方法、装置、デバイス、媒体及びプログラム

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112258431B (zh) * 2020-09-27 2021-07-20 成都东方天呈智能科技有限公司 基于混合深度可分离膨胀卷积的图像分类模型及其分类方法
CN112164116A (zh) * 2020-09-27 2021-01-01 西南交通大学 一种基于改进fcm算法的列车定位方法及系统
CN112257793A (zh) * 2020-10-26 2021-01-22 大连理工大学 一种基于改进YOLO v3算法的远距离交通标志检测方法
CN112926552B (zh) * 2021-04-23 2022-08-12 河南大学 基于深度神经网络的遥感影像车辆目标识别模型及方法
CN113705423B (zh) * 2021-08-25 2024-05-17 西安电子科技大学 基于改进YOLOv3算法的红外车辆快速检测方法
CN114120154B (zh) * 2021-11-23 2022-10-28 宁波大学 一种高层建筑玻璃幕墙破损的自动检测方法
CN114418064B (zh) * 2021-12-27 2023-04-18 西安天和防务技术股份有限公司 一种目标检测方法、终端设备及存储介质
CN114511007B (zh) * 2022-01-17 2022-12-09 上海梦象智能科技有限公司 一种基于多尺度特征感知的非侵入式电气指纹识别方法
CN115240078B (zh) * 2022-06-24 2024-05-07 安徽大学 一种基于轻量化元学习的sar图像小样本目标检测方法
CN115147723B (zh) * 2022-07-11 2023-05-09 武汉理工大学 一种内河船舶识别与测距方法、系统、介质、设备及终端
CN118570626A (zh) * 2023-02-28 2024-08-30 中兴通讯股份有限公司 目标检测的方法和设备、计算机可读介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9760806B1 (en) 2016-05-11 2017-09-12 TCL Research America Inc. Method and system for vision-centric deep-learning-based road situation analysis
CN106709532B (zh) * 2017-01-25 2020-03-10 京东方科技集团股份有限公司 图像处理方法和装置
CN108229442B (zh) 2018-02-07 2022-03-11 西南科技大学 基于ms-kcf的图像序列中人脸快速稳定检测方法
CN108537117B (zh) 2018-03-06 2022-03-11 哈尔滨思派科技有限公司 一种基于深度学习的乘客检测方法和系统
CN108509859B (zh) 2018-03-09 2022-08-26 南京邮电大学 一种基于深度神经网络的无重叠区域行人跟踪方法
CN108875904A (zh) * 2018-04-04 2018-11-23 北京迈格威科技有限公司 图像处理方法、图像处理装置和计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ALEKSA COROVIC ET AL.: "The Real-Time Detection of Traffic Participants Using YOLO Algorithm", BOGDAN PAVKOVIC2018 26TH TELECOMMUNICATIONS FORUM (TELFOR), JPN6023035199, 2018, ISSN: 0005138446 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022173321A (ja) * 2021-10-15 2022-11-18 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド オブジェクトの検出方法、装置、デバイス、媒体及びプログラム
JP7387847B2 (ja) 2021-10-15 2023-11-28 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド オブジェクトの検出方法、装置、デバイス、媒体及びプログラム

Also Published As

Publication number Publication date
US20200265254A1 (en) 2020-08-20
US11281923B2 (en) 2022-03-22
CN111582007A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
JP2020135872A (ja) 物体認識方法、装置及びネットワーク
KR102172234B1 (ko) 영상 처리 방법 및 장치, 및 전자 디바이스
CN109740534B (zh) 图像处理方法、装置及处理设备
US11151361B2 (en) Dynamic emotion recognition in unconstrained scenarios
TWI759668B (zh) 視頻圖像處理方法、電子設備和電腦可讀儲存介質
WO2021184972A1 (zh) 图像分割方法、装置、电子设备及存储介质
Ignatov et al. Learned smartphone isp on mobile npus with deep learning, mobile ai 2021 challenge: Report
CN107516290B (zh) 图像转换网络获取方法、装置、计算设备及存储介质
WO2020125229A1 (zh) 特征融合方法、装置、电子设备及存储介质
CN111985281B (zh) 图像生成模型的生成方法、装置及图像生成方法、装置
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
WO2021103731A1 (zh) 一种语义分割方法、模型训练方法及装置
JP7389840B2 (ja) 画像画質補強方法、装置、機器および媒体
WO2023174098A1 (zh) 一种实时手势检测方法及装置
TWI719512B (zh) 使用像素通道置亂的卷積神經網路的演算方法與系統
CN109063776B (zh) 图像再识别网络训练方法、装置和图像再识别方法及装置
CN111062362B (zh) 人脸活体检测模型、方法、装置、设备及存储介质
WO2019076109A1 (zh) 图像信息的池化方法及装置、存储介质、处理器
Hsyu et al. Csanet: High speed channel spatial attention network for mobile isp
WO2022047783A1 (en) Poly-scale kernel-wise convolution for high-performance visual recognition applications
TWI711004B (zh) 圖片處理方法和裝置
JP2020135871A (ja) 物体認識方法、装置及びシングルステップの物体認識ニューラルネットワーク
WO2021037174A1 (zh) 一种神经网络模型训练方法及装置
CN111382753A (zh) 光场语义分割方法、系统、电子终端及存储介质
CN114299152A (zh) 一种获取姿态数据的方法及神经网络构建方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221006

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230822

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230829

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20231219