JP2021505992A

JP2021505992A - 物体検出方法及び装置

Info

Publication number: JP2021505992A
Application number: JP2020529127A
Authority: JP
Inventors: バイ・シアンホォイ; タヌ・ジミン
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-01-31
Filing date: 2018-01-31
Publication date: 2021-02-18
Anticipated expiration: 2038-01-31
Also published as: WO2019148362A1; JP6984750B2; CN111095295A; CN111095295B

Abstract

物体検出方法及び装置が提供され、該方法は、複数の畳み込み層を用いて入力画像からグローバル画像特徴を抽出し；該グローバル画像特徴を用いて複数の候補検出領域を確定し；該情報に基づいて、該複数の畳み込み層のうちの所定数の畳み込み層を用いて、該所定数の畳み込み層に対応する第一ローカル画像特徴を抽出し；該第一ローカル画像特徴に基づいて該複数の候補検出領域のうちの各候補検出領域の第二ローカル画像特徴を確定し、該複数の候補検出領域のうちの一部の候補検出領域の第二ローカル画像特徴が、抽出された該所定数の畳み込み層のうちの少なくとも2つの畳み込み層に対応する第一ローカル画像特徴を用いて確定され；及び、各候補検出領域の第二ローカル画像特徴に基づいて物体検出を行い、物体検出結果を出力することを含む。これにより、ローカル画像特徴抽出時に空間分解能と語義情報とのバランスを実現し、物体検出精度を向上させることができる。

Description

本発明は、画像処理技術分野に関し、特に、物体検出方法及び装置に関する。

ターゲット検出技術がコンピュータビジョン分野における重要な研究テーマの1つであり、その目的は、画像中の全てのターゲットの位置を見つけ、そして、各ターゲットの具体的な類別を確定することにある。従来のターゲット検出方法は、一般的に、3つのステップに分けることができ、即ち、まず、スライディングウィンドウを用いて画像上で幾つかの候補領域を選択し、それから、これらの候補領域のビジョン特徴を抽出し、最後に、訓練済みの分類器を用いて分類による認識を行うことで、ターゲット検出結果を得るという3つのステップである。

近年、深層学習がコンピュータビジョン分野で広く応用されている。従来の機械学習アルゴリズムに比べ、深層学習は、特徴抽出の面において圧倒的な優越性を有する。そのうち、畳み込みニューラルネットワーク（Convolutional Neural Networks、CNN）が深層学習の1つの重要なアルゴリズムであり、畳み込みニューラルネットワークの入力がオリジナル画像であり、畳み込み層の畳み込みカーネルが所定のサイズ及びステップでオリジナル画像に対して畳み込み演算を行って特徴マップを取得し、ダウンサンプリング層が特徴マップに対してサンプリング処理を行って特徴マップ上の所定定領域内の最大値又は平均値を抽出し、複数層の畳み込み及びダウンサンプリング処理を経た後に、分類器に分類処理をして貰うことで、ターゲット検出結果を取得することができる。

なお、上述の背景技術についての紹介は、本発明の技術案を明確且つ完全に説明し、また、当業者がそれを理解しやすいためのものである。これらの技術案は、本発明の背景技術に記述されているため、当業者にとって周知であると解釈してはならない。

深層学習がターゲット検出分野において応用されてから、システムアーキテクチャが絶えずに発展しており、CNNから領域に基づくCNN（Region-based CNN、RCNN）に進化し、さらに、RCNNから高速RCNN、例えば、Fast RCNN及びFaster RCNNに拡張している。

Faster RCNNは、その基本構造が依然としてCNNであり、それは、畳み込みニューラルネットワークの最後の層の特徴マップの後に1つのRPN（Region Proposal Network）を追加し、該RPNの訓練により候補領域を取得し、そして、候補領域中の画像特徴を抽出し、分類器を用いて分類処理を行うことで、ターゲット検出結果を取得することができる。

従来のターゲット検出方法では、まず、複数の畳み込み層を用いて入力画像に対して畳み込み演算を行い、特徴マップを得た後に、さらにRPNを用いて候補領域を確定し、最後の1つの、多くの語義情報を有する畳み込み層により抽出された候補領域内の特徴を返し、そして、分類器を用いて分類処理を行うことで、ターゲット検出結果を取得することができる。しかし、最後の1つの畳み込み層の空間分解能が小さいので、該方法は、入力画像における小さいターゲット（物体）を検出するときに、検出精度が低い。

本発明の実施例は、ローカル画像特徴抽出時に空間分解能と語義情報とのバランスを実現し、物体検出精度を向上させることができる物体検出方法及び装置を提供する。

本発明の実施例の上述の目的は、以下のような技術案により実現され得る。

本発明の実施例の第一側面によれば、物体検出方法が提供され、該方法は、
複数の畳み込み層を用いて入力画像からグローバル画像特徴を抽出し；
該グローバル画像特徴を用いて複数の候補検出領域を確定し；
該複数の候補検出領域の情報に基づいて、該複数の畳み込み層のうちの所定数の畳み込み層を用いて、該所定数の畳み込み層に対応する第一ローカル画像特徴を抽出し；
該第一ローカル画像特徴に基づいて該複数の候補検出領域のうちの各候補検出領域の第二ローカル画像特徴を確定し、そのうち、該複数の候補検出領域のうちの一部の候補検出領域の第二ローカル画像特徴が、抽出された、該所定数の畳み込み層のうちの少なくとも2つの畳み込み層に対応する第一ローカル画像特徴を用いて確定され；及び
前記各候補検出領域の第二ローカル画像特徴に基づいて物体検出を行い、物体検出結果を出力することを含む。

本発明の実施例の第二側面によれば、物体検出装置が提供され、該装置は、
特徴抽出ユニットであって、複数の畳み込み層を用いて入力画像からグローバル画像特徴を抽出するもの；
領域推奨ユニットであって、該グローバル画像特徴を用いて複数の候補検出領域を確定し、該複数の候補検出領域の情報を該特徴抽出ユニットにフィードバックし、該特徴抽出ユニットがさらに、該情報に基づいて、該複数の畳み込み層のうちの所定数の畳み込み層を用いて、該所定数の畳み込み層に対応する第一ローカル画像特徴を抽出するもの；
処理ユニットであって、該第一ローカル画像特徴に基づいて該複数の候補検出領域のうちの各候補検出領域の第二ローカル画像特徴を確定し、該複数の候補検出領域のうちの一部の候補検出領域の第二ローカル画像特徴が、抽出された、該所定数の畳み込み層のうちの少なくとも2つの畳み込み層に対応する第一ローカル画像特徴を用いて確定されるもの；及び
検出ユニットであって、前記各候補検出領域の第二ローカル画像特徴に基づいて物体検出を行い、物体検出結果を出力するものを含む。

本発明の実施例の有益な効果は、次の通りであり、即ち、本発明の実施例に係る方法及び装置により、特徴抽出時に、複数の候補領域のうちの一部の候補検出領域のローカル画像特徴が、少なくとも2つの畳み込み層により抽出されたローカル画像特徴を用いて確定されるので、ローカル画像特徴抽出時に空間分解能と語義情報とのバランスを実現し、物体検出精度を向上させることができる。

後述の説明及び図面を参照することで、本発明の特定の実施形態を詳しく開示し、本発明の原理を採用し得る態様を示す。なお、本発明の実施形態は、範囲上ではこれらによって限定されない。添付した特許請求の範囲内であれば、本発明の実施形態は、様々な変更、修正及び代替によるものを含んでも良い。

また、1つの実施方式について説明した及び／又は示した特徴は、同じ又は類似した方式で1つ又は複数の他の実施形態に用い、他の実施形態における特徴と組み合わせ、又は、他の実施形態における特徴を置換することもできる。

なお、「含む／有する」のような用語は、本明細書に使用されるときに、特徴、要素、ステップ、又はアセンブルの存在を指すが、1つ又は複数の他の特徴、要素、ステップ、又はアセンブリの存在又は付加を排除しないということも指す。

本発明の1つの図面又は1つの実施形態に記載の要素及び特徴は、1つ又は複数の他の図面又は実施形態に示した要素及び特徴と組み合わせることができる。また、図面では、類似した符号は、幾つの図面における対応する部品を示し、複数の実施形態に用いる対応部品を示すためにも用いられる。

含まれている図面は、本発明の実施例への更なる理解を提供するために用いられ、これらの図面は、本明細書の一部を構成し、本発明の実施形態を例示し、文字記載とともに本発明の原理を説明するために用いられる。また、明らかのように、以下に記載される図面は、本発明の幾つかの実施例を示すためのものに過ぎず、当業者は、創造性のある労働をせずに、これらの図面に基づいて他の図面を得ることもできる。
実施例1における物体検出装置を示す図である。実施例1における畳み込み層の畳み込み演算を示す図である。実施例1における候補検出領域の確定を示す図である。実施例2における物体検出方法のフローチャートである。実施例2における物体検出構造を示す図である。実施例2における物体検出結果を示す図である。実施例3における電子機器の構成を示す図である。実施例3における電子機器のハードウェア構成を示す図である。

添付した図面及び以下の説明を参照することにより、本発明の前述及び他の特徴が明らかになる。なお、明細書及び図面では、本発明の特定の実施形態を開示するが、それは、本発明の原理を採用し得る一部のみの実施形態を示し、理解すべきは、本発明は、記載されている実施形態に限定されず、即ち、本発明は、添付した特許請求の範囲内のすべての変更、変形及び代替によるものも含むということである。

本実施例1は、物体検出装置を提供する。

図1は、本実施例1における物体検出装置を示す図であり、図1に示すように、該装置は、以下のものを含む。

特徴抽出ユニット101：複数の畳み込み層を用いて入力画像からグローバル画像特徴を抽出し；
領域推奨ユニット102：該グローバル画像特徴を用いて複数の候補検出領域を確定し、該複数の候補検出領域の情報を該特徴抽出ユニット101にフィードバックし、該特徴抽出ユニット101はさらに、該情報に基づいて、該複数の畳み込み層のうちの所定数の畳み込み層を用いて、該所定数の畳み込み層に対応する第一ローカル画像特徴を抽出し；
処理ユニット103：該第一ローカル画像特徴に基づいて該複数の候補検出領域のうちの各候補検出領域の第二ローカル画像特徴を確定し、該複数の候補検出領域のうちの一部の候補検出領域の第二ローカル画像特徴が、抽出された、該所定数の畳み込み層のうちの少なくとも2つの畳み込み層に対応する第一ローカル画像特徴を用いて確定され；及び
検出ユニット104：各候補検出領域の第二ローカル画像特徴に基づいて物体検出を行い、物体検出結果を出力する。

上述の実施例から分かるように、特徴抽出時に、複数の候補領域のうちの一部の候補検出領域のローカル画像特徴が、少なくとも2つの畳み込み層により抽出されたローカル画像特徴を用いて確定されるので、ローカル画像特徴抽出時に空間分解能と語義情報とのバランスを実現し、物体検出精度を向上させることができる。

本実施例では、特徴抽出ユニット101は、畳み込みニューラルネットワーク構造により実現されても良く、それは、畳み込みニューラルネットワーク構造における複数（N個）の畳み込み層を用いて入力画像からグローバル画像特徴を抽出し、そのうち、各畳み込み層は、1つのフィルターと見なされても良く、該フィルターパラメータは、畳み込みカーネルと称されても良く、該畳み込みカーネルは、ニーズに応じて、1つ又は少なくとも2つが設定されても良く、複数の畳み込み層のうちの各畳み込み層に対応するフィルターパラメータはすべて異なる。入力画像を2次元の画像データに変換して畳み込み層（フィルター）に入力した後に、畳み込み演算により画像における特徴を抽出することができる。

図2は、1つの畳み込み層の畳み込み演算を示す図である。図2に示すように、該画像は、5×5の画像であり、該畳み込み層は、1つの3×3の畳み込みカーネル
（外1）

に対応する。該畳み込みカーネルを1つのスライディングウィンドウと見なし、画像上で順次スライドさせ、そして、対応する画像の画素との乗積を行った後に和を求めることで、抽出されたグローバル画像特徴を取得することができる。

本実施例では、説明の便宜のため、以下、入力画像が最初に通過する畳み込み層を第1層と称し、これに基づいて類推して、最後に通過する畳み込み層を第N層と称し、即ち、複数の畳み込み層に順次、順番号1、2、…、Nを付け、そのうち、順番号が小さい畳み込み層は、前に位置する畳み込み層であり、順番号が大きい畳み込み層は、後ろに位置する畳み込み層である。入力画像が第1個目の畳み込み層を通過した後に、抽出されたグローバル画像特徴を入力として第2個目の畳み込み層を通過させ、これに基づいて類推して、最後に第N個目の畳み込み層を通過させる。そのうち、複数の畳み込み層は、深いものと浅いものとの区別があり、該複数の畳み込み層のうち、前に位置する畳み込み層は、後ろに位置する畳み込み層に比べ、空間分解能が高く、前に位置する畳み込み層は、後ろに位置する畳み込み層に比べ、語義情報が少ない。通常、前に位置する畳み込み層が浅層と称され、後ろに位置する畳み込み層が深層と称され、即ち、浅層にある畳み込みカーネルは、エッジ、色などの画像特徴を抽出することができ、語義情報が少ないが、空間分解能が高い。層が深くなるにつれて、非線形度合い（程度）が強くなり、畳み込むことにより得られる画像特徴は、幾つかの特定の形状、例えば、鼻、目などであっても良く、語義情報が多いが、空間分解能が低い。そのうち、複数の畳み込み層の空間分解能は、倍数で順次減少しても良く、例えば、第W-1個目の畳み込み層の空間分解能は、第W個目の畳み込み層の2倍（Wは、2以上且つN以下である）であっても良いが、本実施例は、これに限定されない。

以上、如何に畳み込みニューラルネットワークを用いて特徴を抽出するかを例示的に説明したが、本実施例は、これに限定されない。該畳み込みニューラルネットワークの構造については、従来技術を参照することができ、例えば、LeNet、AlexNet、ZF Net、GoogleLeNet、VGGNet、ResNet、DenseNetなどであっても良いが、ここでは、網羅的な列挙を省略する。

本実施例では、Nのサイズ（値）は、ニーズに応じて確定されても良いが、本実施例は、これに限定されず、例えば、Nは、5であっても良い。

本実施例では、領域推奨ユニット102は、従来のRPN構造により実現されても良く、それは、特徴抽出ユニット101が抽出した該グローバル画像特徴を用いて複数の候補検出領域を確定し、そのうち、複数の畳み込み層のうち、任意の1つ又は任意の2つ以上の畳み込み層を用いて抽出したグローバル画像特徴を該RPNに入力しても良いが、本実施例は、これに限定されず、例えば、第N個目の畳み込み層が抽出したグローバル画像特徴をRPNに入力し、候補検出領域を確定しても良く、このように、第N個目の畳み込み層の語義情報が比較的多いから、候補検出領域をより正確に確定することができる。該RPNの具体的な実施方式については、従来技術を参照することができ、以下、例を挙げて説明する。

図3は、該第N個目の畳み込み層が抽出したグローバル画像特徴を用いて複数の候補検出領域を確定することを示す図である。図3に示すように、第N個目の畳み込み層が抽出したグローバル画像特徴上の各点を中心とし、異なる面積及びアスペクト比のスライディングウィンドウを使用してグローバル画像特徴の特定領域内の特徴を収集し、異なるウィンドウで収集した特徴を固定次元に次元削除し、次元削除後の特徴に基づいて、分類層により各スライディングウィンドウに含まれるターゲットのスコアを与え、スコアが高いウィンドウを正のサンプルとし、スコアが低いウィンドウを、物体を有しないものと見なして除去する。該分類層は、候補検出領域の中心アンカー（anchor）点及び候補検出領域の座標、幅、高さを確定することができる。もう1つの全結合層が、候補検出領域が前景かそれとも背景であるかを確定するために用いられ、該全結合層も、畳み込み層により実現されても良く、その具体的は実現方式については、従来技術を参照することができ、ここでは、詳しい説明を省略する。

本実施例では、上述のアルゴリズムに基づいて領域推奨ユニット102が確定した候補検出領域は、複数があり、そのうち、該複数の候補検出領域は、領域のサイズに従って、第一数量（M個）の領域組に分けることができ、それぞれ、第一領域組、第二領域組、…、第M領域組であり、異なる領域組中の候補検出領域のサイズは異なり、例えば、第一領域組中の候補検出領域は、すべて、第二領域組中の候補検出領域よりも小さく、第二領域組中の候補検出領域は、すべて、第三領域組中の候補検出領域よりも小さく、これに基づいて類推して、第M-1領域組中の候補検出領域は、すべて、第M領域組中の候補検出領域よりも小さく、ここで、Mは、2以上である。各領域組には、少なくとも1つの候補検出領域が含まれ、Mの値は、ニーズに応じて確定されても良く、例えば、M=3のときに、即ち、候補検出領域は、領域のサイズに従って3つの領域組に分けられ、それぞれ、大領域組、中領域組、及び小領域組であり、M=5のときに、即ち、候補検出領域は、領域のサイズに従って5つの領域組に分けられ、それぞれ、超大領域組、大領域組、中領域組、小領域組及び超小領域組であるが、これは、例示に過ぎず、本実施例は、これに限られない。そのうち、各領域組中の候補検出領域の第二ローカル画像特徴の確定方法については、同じである。

本実施例では、長さ閾値と幅閾値を設定することでM個の領域組に分けることができ、例えば、M=3のときに、第一長さ閾値L1と第一幅閾値W1、及び、第二長さ閾値L2と第二幅閾値W2を設定し、RPNに基づいて確定された候補検出領域の長さと幅がそれぞれL1とW1よりも小さいときに、該候補検出領域が小領域組に属すると確定し、長さと幅がそれぞれL2とW2よりも大きいときに、該候補検出領域が大領域組に属すると確定し、他の場合は、すべて、中領域組に属すると確定しても良いが、これは、例示に過ぎず、本実施例は、これに限定されず、例えば、面積閾値を設けてM個の領域組に分けても良く、例えば、M=3のときに、第一面積閾値S1及び第二面積閾値S2を設定し、RPNに基づいて確定された候補検出領域の面積がS1よりも小さいときに、該候補検出領域が小領域組に属すると確定し、面積がS2よりも大きいときに、該候補検出領域が大領域組に属すると確定し、他の場合は、すべて、中領域組に属すると確定しても良い。ここでは、M=3のときを例として如何に領域組に分けるかを説明したが、Mが他の値であるときの領域組の分け方についても、M=3のときと同様であるから、網羅的な列挙が省略される。

本実施例では、領域推奨ユニット102は、複数の候補検出領域を確定した後に、該複数の候補検出領域の情報を該特徴抽出ユニット101にフィードバックしても良い。特徴抽出ユニット101は、さらに、該情報に基づいて、該複数の畳み込み層のうちの所定数の畳み込み層を用いて、該所定数の畳み込み層に対応する第一ローカル画像特徴を抽出することができ、そのうち、該所定数は、2以上且つN以下である。処理ユニット103は、該第一ローカル画像特徴に基づいて該複数の候補検出領域のうちの各候補検出領域の第二ローカル画像特徴を確定し、そのうち、該複数の候補検出領域のうちの一部の候補検出領域の第二ローカル画像特徴が、抽出された、該所定数の畳み込み層のうちの少なくとも2つの畳み込み層に対応する第一ローカル画像特徴を用いて確定され、該複数の候補検出領域中の他の部分の候補検出領域の第二ローカル画像特徴が、抽出された、該所定数の畳み込み層のうちの少なくとも1つの畳み込み層に対応する第一ローカル画像特徴により確定され、そのうち、候補検出領域の属する領域組に基づいて、該候補検出領域が該一部の候補検出領域かそれとも該他の部分の候補検出領域であるかを確定することができ、例えば、領域サイズが比較的小さい1つの領域組中の候補検出領域を該一部の候補領域と確定しても良く、領域サイズが比較的大きい1つの領域組中の候補検出領域を該他の部分の候補検出領域と確定しても良く、このように、該領域サイズが比較的小さい1つの領域組中の候補検出領域の第二ローカル画像特徴が、抽出された、少なくとも2つの畳み込み層に対応する第一ローカル画像特徴を用いて確定されるので、第二ローカル画像特徴抽出時に空間分解能と語義情報とのバランスを実現し、物体検出精度を向上させることができ、特に、小さいターゲット（物体）の検出精度を向上させることができる。

1つの実施方式では、該特徴抽出ユニット101は、全ての候補検出領域の情報に基づいて、該所定数の畳み込み層のうちの各畳み込み層に対応する第一ローカル画像特徴を抽出することができ、そのうち、各領域組について、特徴抽出ユニット101は、各領域組中の候補検出領域の情報に基づいて、該所定数の畳み込み層のうちの各畳み込み層に対応する第一ローカル画像特徴を抽出しても良く、即ち、該所定数の畳み込み層のうちの各畳み込み層を用いて、該畳み込み層に対応する全ての領域組中の候補検出領域の第一ローカル画像特徴を抽出しても良く、例えば、所定数がZであるときに、Z個の畳み込み層のうちの各畳み込み層により、該畳み込み層に対応するM個の領域組中の候補検出領域の第一ローカル画像特徴を抽出することができる。

この実施方式では、処理ユニット103は、抽出された、該所定数の畳み込み層のうちの少なくとも2つの畳み込み層に対応する第一ローカル画像特徴から、該一部の候補検出領域の第二画像特徴を確定し、抽出された、該所定数の畳み込み層のうちの少なくとも1つの畳み込み層に対応する第一ローカル画像特徴から、該他の部分の候補検出領域の第二画像特徴を確定し、そのうち、該複数の領域組のうちの第一領域組及び第二領域組について、該処理ユニット103が該第一領域組中の候補検出領域の第二ローカル画像特徴を確定するときに利用する該少なくとも2つの畳み込み層のうちの1つの畳み込み層の位置は、該第二領域組中の候補検出領域の第二ローカル画像特徴を確定するときに利用する該少なくとも2つの畳み込み層のうちの1つの畳み込み層の位置よりも前にあり、そのうち、該第一領域組中の候補検出領域は、該第二領域組中の候補検出領域よりも小さい。例えば、処理ユニット103は、第3個目及び第5個目の畳み込み層に対応する第一ローカル画像特徴を用いて第一領域組中の候補検出領域の第二ローカル画像特徴を確定し、第4個目及び第5個目の畳み込み層に対応する第一ローカル画像特徴を用いて第二領域組中の候補検出領域の第二ローカル画像特徴を確定し、そのうち、該第3個目の畳み込み層の位置は、該第4個目の畳み込み層の位置よりも前にある。この実施方式では、該少なくとも2つの畳み込み層のうちの他の畳み込み層の位置関係については、限定せず、同じであっても良く、異なっても良い。

1つの実施方式では、該特徴抽出ユニット101は、一部の候補検出領域の情報に基づいて、該所定数の畳み込み層のうちの各畳み込み層に対応する第一ローカル画像特徴を抽出しても良く、そのうち、1つの領域組について、特徴抽出ユニット101は、該領域組中の候補検出領域の情報に基づいて、該所定数の畳み込み層のうちの一部の畳み込み層に対応する第一ローカル画像特徴を抽出し、即ち、該所定数の畳み込み層のうちの一部の畳み込み層を用いて、該一部の畳み込み層に対応する該領域組中の候補検出領域の第一ローカル画像特徴を抽出することができる。

この実施方式では、該複数の領域組のうちの第一領域組及び第二領域組について、該特徴抽出ユニット101は、該第一領域組の候補検出領域の情報に基づいて、第一所定畳み込み層に対応する第一ローカル画像特徴を抽出し、該第二領域組の候補検出領域の情報に基づいて、第二所定畳み込み層に対応する第一ローカル画像特徴を抽出し、そのうち、該第一所定畳み込み層のうちの1つの畳み込み層の位置は、該第二所定畳み込み層のうちの1つの畳み込み層の位置よりも前にあり、そのうち、該第一領域組中の候補検出領域は、該第二領域組中の候補検出領域よりも小さい。処理ユニット103は、該第一所定畳み込み層の第一ローカル画像特徴に基づいて、該第一領域組中の候補検出領域の第二ローカル画像特徴を確定し、該第二所定畳み込み層の第一ローカル画像特徴に基づいて、該第二領域組中の候補検出領域の第二ローカル画像特徴を確定する。例えば、該第一所定畳み込み層は、第3個目及び第5個目の畳み込み層であっても良く、該第二所定畳み込み層は、第4個目及び第5個目の畳み込み層であっても良く、該第一領域組の候補検出領域の情報に基づいて第3個目及び第5個目の畳み込み層に対応する第一ローカル画像特徴を抽出し、該第二領域組の候補検出領域の情報に基づいて、第4個目及び第5個目の畳み込み層に対応する第一ローカル画像特徴を抽出し、そのうち、該第3個目の畳み込み層の位置は、該第4個目の畳み込み層の位置よりも前にある。この該実施方式では、該第一所定畳み込み層のうちの他の畳み込み層の位置関係及び該第二所定畳み込み層のうち他の畳み込み層の位置関係については、限定せず、同じであっても良く、異なっても良い。

本実施例では、上述の実施方式に基づいて、サイズが比較的小さい領域組中の候補検出領域の第二ローカル画像特徴を確定するときに利用する該少なくとも2つの畳み込み層のうちの1つの畳み込み層の位置は、サイズが比較的大きい領域組中の候補検出領域の第二ローカル画像特徴を確定するときに利用する該少なくとも2つの畳み込み層のうちの1つの畳み込み層の位置よりも前にあり、前に位置する畳み込み層抽出の特徴の空間分解能が大きいので、小さいターゲット（物体）の検出精度をさらに向上させることができる。

本実施例では、抽出された、該所定数の畳み込み層のうちの1つの畳み込み層に対応する第一ローカル画像特徴を用いて、候補検出領域の第二ローカル画像特徴を確定するときに、処理ユニット103は、抽出された、該1つの畳み込み層に対応する第一ローカル画像特徴を直接、他の部分の候補検出領域の第二ローカル画像特徴とする。

本実施例では、抽出された、該所定数の畳み込み層のうちの少なくとも2つの畳み込み層に対応する第一ローカル画像特徴を用いて、候補検出領域（該一部及び/又は該他の部分）の第二ローカル画像特徴を確定するときに、処理ユニット103は、該少なくとも2つの畳み込み層のうちの各畳み込み層に対応する第一ローカル画像特徴に対して統合処理を行うことで、該候補検出領域の第二ローカル画像特徴を取得する。以下、該統合処理について具体的に説明する。

1つの実施方式では、該処理ユニット103は、以下のものを含んでも良い。

第一処理モジュール（図示せず）：抽出された、後ろに位置する少なくとも1つの畳み込み層に対応する第一ローカル画像特徴に対してアップサンプリング処理を行い、その空間分解能が、抽出された、一番前に位置する畳み込み層の第一ローカル画像特徴の空間分解能と同じであるようにさせ、そして、処理後の、抽出された、後ろに位置する少なくとも1つの畳み込み層に対応する第一ローカル画像特徴と、抽出された、一番前に位置する畳み込み層に対応する第一ローカル画像特徴との和を求めることで、該候補検出領域に対応する第二ローカル画像特徴を取得する。

該実施方式では、Q個の畳み込み層のうち、抽出された、後ろに位置するQ-1個の畳み込み層に対応する第一ローカル画像特徴に対してそれぞれアップサンプリング処理を行った後に、それらの間分解能が、抽出された、一番前に位置する1つの畳み込み層の第一ローカル画像特徴の空間分解能と同じであるようにさせ、そして、アップサンプリング処理後のQ-1個の畳み込み層に対応する第一ローカル画像特徴と、一番前に位置する1つの畳み込み層に対応する第一ローカル画像特徴との重重畳加算算を行い、例えば、Q=3のときに、一番前に位置する畳み込み層に対応する第一ローカル画像特徴の空間分解能が（H/8、W/8）であり、後ろに位置する2つの畳み込み層に対応する第一ローカル画像特徴の空間分解がそれぞれ（H/16、W/16）及び（H/32、W/32）である場合、空間分解能がそれぞれ（H/16、W/16）及び（H/32、W/32）である第一ローカル画像特徴に対してアップサンプリング処理を行った後に、それらの空間分解能が（H/8、W/8）に増大し、このようにして、3つの畳み込み層の処理後の空間分解能が同じであり、即ち、加算処理を行うことができる。

第二処理モジュール（図示せず）：抽出された、後ろに位置する少なくとも1つの畳み込み層に対応する第一ローカル画像特徴に対して拡張処理を行い、その空間分解能が、抽出された、一番前に位置する畳み込み層に対応する第一ローカル画像特徴の空間分解能と同じであるようにさせ、そして、処理後の、抽出された、後ろに位置する畳み込み層に対応する第一ローカル画像特徴と、抽出された、一番前に位置する畳み込み層に対応する第一ローカル画像特徴とに対して重重畳加算算畳み込み処理を行うことで、該候補検出領域に対応する第二ローカル画像特徴を取得する。

該実施方式では、Q個の畳み込み層のうち、抽出された、後ろに位置するQ-1個の畳み込み層に対応する第一ローカル画像特徴に対してそれぞれ拡張（enlarge）処理を行った後に、それらの空間分解能が、抽出された、一番前に位置する1つの畳み込み層に対応する第一ローカル画像特徴の空間分解能と同じであるようにさせ、そして、拡張処理後の、Q-1個の畳み込み層に対応する第一ローカル画像特徴と、一番前に位置する1つの畳み込み層に対応する第一ローカル画像特徴とに対して重重畳加算算畳み込み処理を行い、例えば、Q=3のときに、一番前に位置する畳み込み層に対応する第一ローカル画像特徴の空間分解能が（H/8、W/8）であり、後ろに位置する2つの畳み込み層に対応する第一ローカル画像特徴の空間分解がそれぞれ（H/16、W/16）及び（H/32、W/32）である場合、空間分解能がそれぞれ（H/16、W/16）及び（H/32、W/32）である候補検出領域内の第一ローカル画像特徴に対して拡張処理を行い、それらの空間分解能が（H/8、W/8）に増大し、このようにして、3つの畳み込み層の処理後の空間分解能が同じであり、即ち、重重畳加算算畳み込み処理を行うことができ、そのうち、該拡張処理とは、元の候補検出領域の中心点を基準として元の候補検出領域を拡張し、より多くの第一ローカル画像特徴を抽出することを指し、該畳み込み処理は、該複数の畳み込み層とは異なる1つの新しい畳み込み層であっても良く、重重畳加算算後の特徴に対して次元削除処理を行うことができる。

本実施例では、該処理ユニット703は、第一処理モジュール又は第二処理モジュールを含んでも良く、又は、同時に第一処理モジュール及び第二処理モジュールを含んでも良い。例えば、領域サイズが比較的小さい1つの領域組中の候補検出領域について、第二処理モジュールの処理を行い、領域サイズが比較的大きい1つの領域組中の候補検出領域について、第一処理モジュールの処理を行っても良いが、本実施例は、これに限定されない。なお、領域サイズが比較的小さい領域組及び領域サイズが比較的大きい領域組とは、2つの領域組中の候補検出領域の大小の相対的な比較結果によるものである。

本実施例では、該第一数量の領域組が大領域組、中領域組、及び小領域組を含むときに、特徴抽出ユニット101は、大領域組中の候補検出領域の情報に基づいて、一番後ろに位置する畳み込み層に対応する第一ローカル画像特徴を抽出し、中領域組中の候補検出領域の情報に基づいて、一番後ろに位置する畳み込み層及び一番後ろから前へ2番目の畳み込み層に対応する第一ローカル画像特徴を抽出し、小領域組中の候補検出領域の情報に基づいて、一番後ろに位置する畳み込み層及び一番後ろから前へ3番目の畳み込み層に対応する第一ローカル画像特徴を抽出することができる。処理ユニット103は、抽出された、該複数の畳み込み層のうちの一番後ろに位置する畳み込み層に対応する第一ローカル画像特徴を用いて、大領域組中の候補検出領域の第二ローカル画像特徴を確定し、抽出された、複数の畳み込み層の一番後ろに位置する畳み込み層が抽出した第一ローカル画像特徴に対してアップサンプリング処理を行った後に、抽出された、一番後ろから前へ2番目の畳み込み層に対応する第一ローカル画像特徴との和を求め、中領域組中の候補検出領域の第二ローカル画像特徴を確定し、抽出された、該複数の畳み込み層のうちの一番後ろに位置する畳み込み層に対応する第一ローカル画像特徴に対して拡張処理を行った後に、抽出された、一番後ろから前へ3個目の畳み込み層に対応する第一ローカル画像特徴と重重畳加算算畳み込みを行い、小領域組中の候補検出領域の第二ローカル画像特徴を確定することができる。

例えば、N=5のときの、大領域組中の候補検出領域の情報を第5個目の畳み込み層（1つの畳み込み層）にフィードバックし、第5個目の畳み込み層に対応する第一ローカル画像特徴に抽出し、大領域組中の候補検出領域（他の部分の候補検出領域）の第二ローカル画像特徴を確定し、中領域組中の候補検出領域の情報を第4個目及び第5個目の畳み込み層にフィードバックし、第4個目及び第5個目の畳み込み層に対応する第一ローカル画像特徴を抽出し、第5個目の畳み込み層に対応する第一ローカル画像特徴に対してアップサンプリング処理を行い、その空間分解能が第4個目の畳み込み層に対応する第一ローカル画像特徴の空間分解能と同じであるようにさせ、そして、アップサンプリング処理後の、第5個目の畳み込み層に対応する第一ローカル画像特徴と、第4個目の畳み込み層に対応する第一ローカル画像特徴との和を求め（2つの畳み込み層である。ここでは、例として2つがあるが、少なくとも2つがあっても良い。）、中領域組中の候補検出領域（一部の候補検出領域）の第二ローカル画像特徴を確定し、小領域組中の候補検出領域の情報を第3個目及び第5個目の畳み込み層にフィードバックし、第3個目及び第5個目の畳み込み層の第一ローカル画像特徴を抽出し、第5個目の畳み込み層に対応する第一ローカル画像特徴に対して拡張処理を行い、その空間分解能が、第3個目の畳み込み層に対応する第一ローカル画像特徴の空間分解能と同じであるようにさせ、そして、拡張処理後の第5個目の畳み込み層に対応する第一ローカル画像特徴と、第3個目の畳み込み層に対応する第一ローカル画像特徴との重重畳加算算を行った後に（2つの畳み込み層である。なお、ここでは、例として2つがあるが、少なくとも2つがあっても良い）、1つの新しい畳み込み層を通過させ、小領域組中の候補検出領域（一部の候補検出領域）の第二ローカル画像特徴を確定する。

本実施例では、検出ユニット104は、RCNN構造に基づいて物体検出を行うことができ、複数の候補検出領域が領域のサイズに基づいて第一数量の領域組に分けられるときに、第一数量の領域組に対応する候補検出領域の第二ローカル画像特徴に基づいて、それぞれ、第一数量の検出結果を取得し、そして、第一数量の検出結果の和を求めることで、該物体検出結果を出力することができる。例えば、第一数量と同じ数量のRCNNを設定し、各RCNNがそれぞれ1つの領域組中の候補検出領域から抽出された第二ローカル画像特徴に対して物体検出を行い、そして、各RCNNの認識結果の和を求めることで、該物体検出結果を出力しても良く、該物体検出結果には、ターゲット（物体）の類別及び具体的な位置が含まれ、例えば、M=3のときに、3つのRCNN、即ち、RCNN1、RCNN2、RCNN3を設け、それぞれ、大領域組中の候補検出領域の第二ローカル画像特徴、中領域組中の候補検出領域の第二ローカル画像特徴、及び小領域組中の候補検出領域の第二ローカル画像特徴に対して物体検出を行い、RCNN1の検出結果は物体1、RCNN2の検出結果は物体2、RCNN3の検出結果は物体3であり、また、検出結果は、物体1、2、3に対しての位置の確定を含んでも良く、最終的な物体検出結果は、入力画像に物体1、2、3があるということである。

本実施例では、RCNNの具体的な実施方式については、従来技術を参照することができ、例えば、抽出された第二ローカル画像特徴について、ROI（関心領域） Poolingを用いて特徴ベクトルを抽出して分類器に入力することで、該候補検出領域の物体の類別を取得し、物体の検出及びその位置の確定を完成しても良いが、ここでは、その詳しい説明を省略する。

本実施例における上述の装置により、特徴抽出時に、複数の候補領域のうちの一部の候補検出領域のローカル画像特徴が、少なくとも2つの畳み込み層により抽出されたローカル画像特徴を用いて確定されるので、ローカル画像特徴抽出時に空間分解能と語義情報とのバランスを実現し、物体検出精度を向上させることができる。

本実施例2は、物体検出方法を提供し、該方法が問題を解決する原理が実施例1中の装置と同様であるので、その具体的な実施については、実施例1中の装置の実施を参照することができ、内容が同じでる重複説明は、省略される。

図4は、本実施例2における物体検出方法のフローチャートであり、図4に示すように、該方法は、以下のステップを含む。

ステップ401：複数の畳み込み層を用いて入力画像からグローバル画像特徴を抽出し；
ステップ402：該グローバル画像特徴を用いて複数の候補検出領域を確定し；
ステップ403：該複数の候補検出領域の情報に基づいて、該複数の畳み込み層のうちの所定数の畳み込み層を用いて、該所定数の畳み込み層に対応する第一ローカル画像特徴を抽出し；
ステップ404：該第一ローカル画像特徴に基づいて、該複数の候補検出領域のうちの各候補検出領域の第二ローカル画像特徴を確定し、そのうち、該複数の候補検出領域のうちの一部の候補検出領域の第二ローカル画像特徴が、抽出された、該所定数の畳み込み層のうちの少なくとも2つの畳み込み層に対応する第一ローカル画像特徴を用いて確定され；及び
ステップ405：各候補検出領域の第二ローカル画像特徴に基づいて物体検出を行い、物体検出結果を出力する。

本実施例では、ステップ401-405の具体的な実施方式については、実施例1中の物体検出装置100を参照することができ、重複説明は、省略する。

本実施例では、該複数の畳み込み層のうち、前に位置する畳み込み層は、後ろに位置する畳み込み層に比べ、空間分解能が高く、前に位置する畳み込み層は、後ろに位置する畳み込み層に比べ、語義情報が少ない。

本実施例では、該複数の候補検出領域のうち、他の部分の候補検出領域の第二ローカル画像特徴が、抽出された、該所定数の畳み込み層のうちの少なくとも1つの畳み込み層に対応する第一ローカル画像特徴を用いて確定される。

本実施例では、該複数の候補検出領域のうち、各候補検出領域は、領域サイズが異なる第一数量の領域組のうちの1つの領域組に属する。該複数の領域組のうちのの第一領域組及び第二領域組について、以下の実施方式がある。

1つの実施方式では、ステップ403において、該第一領域組の候補検出領域の情報に基づいて、第一所定畳み込み層に対応する第一ローカル画像特徴を抽出し、該第二領域組の候補検出領域の情報に基づいて、第二所定畳み込み層に対応する第一ローカル画像特徴を抽出し、そのうち、該第一所定畳み込み層のうちの1つの畳み込み層の位置は、該第二所定畳み込み層のうちの1つの畳み込み層の位置よりも前にあり、そのうち、該第一領域組中の候補検出領域は、該第二領域組中の候補検出領域よりも小さく、ステップ404において、該第一所定畳み込み層の第一ローカル画像特徴に基づいて、該第一領域組中の候補検出領域の第二ローカル画像特徴を確定し、該第二所定畳み込み層の第一ローカル画像特徴に基づいて、該第二領域組中の候補検出領域の第二ローカル画像特徴を確定する。

1つの実施方式では、ステップ404において、該第一領域組中の候補検出領域の第二ローカル画像特徴を確定するときに利用する該少なくとも2つの畳み込み層のうちの1つの畳み込み層の位置は、該第二領域組中の候補検出領域の第二ローカル画像特徴を確定するときに利用する該少なくとも2つの畳み込み層のうちの1つの畳み込み層の位置よりも前にあり、そのうち、該第一領域組中の候補検出領域は、該第二領域組中の候補検出領域よりも小さい。

1つの実施方式では、抽出された、該所定数の畳み込み層のうちの少なくとも2つの畳み込み層に対応する第一ローカル画像特徴を用いて候補検出領域の第二ローカル画像特徴を確定するときに、該第一ローカル画像特徴に基づいて該複数の候補検出領域のうちの各候補検出領域の第二ローカル画像特徴を確定することは、抽出された、後ろに位置する少なくとも1つの畳み込み層に対応する第一ローカル画像特徴に対してアップサンプリング処理を行い、その空間分解能が、抽出された、一番前に位置する畳み込み層に対応する第一ローカル画像特徴の空間分解能と同じであるようにさせ、そして、処理後の、抽出された、後ろに位置する少なくとも1つの畳み込み層に対応する第一ローカル画像特徴と、抽出された、一番前に位置する畳み込み層に対応する第一ローカル画像特徴との和を求め、該候補検出領域に対応する第二ローカル画像特徴を取得することを含む。

1つの実施方式では、抽出された、該所定数の畳み込み層のうちの少なくとも2つの畳み込み層に対応する第一ローカル画像特徴を用いて候補検出領域の第二ローカル画像特徴を確定するときに、該第一ローカル画像特徴に基づいて該複数の候補検出領域のうちの各候補検出領域の第二ローカル画像特徴を確定することは、抽出された、後ろに位置する少なくとも1つの畳み込み層の第一ローカル画像特徴に対して拡張処理を行い、その空間分解能が、抽出された、一番前に位置する畳み込み層の第一ローカル画像特徴の空間分解能と同じであるようにさせ、処理後の抽出された、後ろに位置する畳み込み層に対応する第一ローカル画像特徴と、抽出された、一番前に位置する畳み込み層に対応する第一ローカル画像特徴とに対して重畳加算畳み込み処理を行い、該候補検出領域に対応する第二ローカル画像特徴を取得することを含む。

本実施例では、該第一数量の領域組は、大領域組、中領域組、及び小領域組を含み、該第一ローカル画像特徴に基づいて該複数の候補検出領域のうちの各候補検出領域の第二ローカル画像特徴を確定することは、抽出された、該複数の畳み込み層のうちの一番後ろに位置する畳み込み層に対応する第一ローカル画像特徴を用いて大領域組中の候補検出領域の第二ローカル画像特徴を確定し、抽出された、該複数の畳み込み層のうちの一番後ろに位置する畳み込み層が抽出した第一ローカル画像特徴に対してアップサンプリング処理を行った後に、抽出された、一番後ろから前へ2番目の畳み込み層に対応する第一ローカル画像特徴との加を求め、中領域組中の候補検出領域の第二ローカル画像特徴を確定し、抽出された、該複数の畳み込み層のうちの一番後ろに位置する畳み込み層の第一ローカル画像特徴に対して拡張処理を行った後に、抽出された、一番後ろから前へ3番目の畳み込み層に対応する第一ローカル画像特徴との重畳加算畳み込みを行い、小領域組中の候補検出領域の第二ローカル画像特徴を確定することを含む。

本実施例では、ステップ405において、第一数量の領域組に対応する候補検出領域の第二ローカル画像特徴に基づいて、それぞれ、第一数量の検出結果を取得し、該第一数量の検出結果の和を求め、該物体検出結果を出力する。

以下、M=3、N=5を例とし、図5に基づいて本実施例における物体検出方法について説明する。

本実施例では、図5に示すように、入力画像が5つの畳み込み層conv1-conv5（そのうち、conv1-2が示されていない）を通過した後に、グローバル画像特徴を抽出することができ、RPNは、該グローバル画像特徴に基づいて3つの領域組を確定し、それぞれ、大領域組組（large boxes）、小領域組（small boxes）、及び中領域組（medium boxes）であり、large boxesの情報をconv5にフィードバックしてlarge boxesの第一ローカル画像特徴を抽出することで、large boxes中の候補検出領域の第二ローカル画像特徴を取得し、そして、RCNN1に直接出力し；medium boxesの情報をconv4及びconv5にフィードバックしてそれぞれ第一ローカル画像特徴を抽出し、conv5の第一ローカル画像特徴に対してアップサンプリング処理を行った後に、その空間分解能がconv4の第一ローカル画像特徴の空間分解能と同じであるようにさせ、そして、両者の和を求め、medium boxes中の候補検出領域の第二ローカル画像特徴を取得し、RCNN2に出力し；small boxesの情報をconv3及びconv5にフィードバックしてそれぞれ第一ローカル画像特徴を抽出し、conv5の第一ローカル画像特徴に対して拡張処理を行った後に、その空間分解能がconv3の第一ローカル画像特徴の空間分解能と同じであるようにさせ、そして、両者に対して重畳加算を行った後に、1つの新しい畳み込み層のconvx処理を経て、次元削除後のsmall boxes中の候補検出領域の第二ローカル画像特徴をRCNN3に出力する。RCNN1、RCNN2、及びRCNN3は、それぞれ、大領域組中の候補検出領域の第二ローカル画像特徴、中領域組中の候補検出領域の第二ローカル画像特徴、及び小領域組中の候補検出領域の第二ローカル画像特徴に対して分類認識による検出を行い、各自の検出結果を取得し、そして、加算した後に、最終的な物体検出結果を出力し、該最終的な物体検出結果は、物体1、物体2及び物体1、物体2の位置を含む。

図6は、本実施例における物体検出結果を示す図であり、図6に示すように、サイズが異なる候補検出領域の第二ローカル画像特徴をそれぞれ異なるRCNNに入力し、各自の認識結果は、すべて、ヒト（人物）であり、例えば、1つのRCNNが認識したのは、エレベーターの付近又は広場の遠いところのヒトであり（候補検出領域が比較的小さい）、もう1つのRCNNが認識したのは、広場の近いところの平らな地面の付近のヒトであり（候補検出領域が比較的大きい）、加算した後に、入力画像における全てのヒト及びヒトの位置を含む最終的な物体検出結果を出力する。

本実施例における上述の方法により、特徴抽出時に、複数の候補領域のうちの一部の候補検出領域のローカル画像特徴が、少なくとも2つの畳み込み層により抽出されたローカル画像特徴を用いて確定されるので、ローカル画像特徴抽出時に空間分解能と語義情報とのバランスを実現し、物体検出精度を向上させることができる。

本実施例3は、電子機器を提供し、図7は、本実施例3における電子機器を示す図である。図7に示すように、電子機器700は、実施例1に係る物体検出装置100を含み、該物体検出装置100の構造の説明については、省略する。

本実施例3は、さらに、電子機器を提供し、該電子機器が問題を解決する原理が実施例2中の方法と同様であるから、その具体的な実施について実施例2における方法の実施を参照することができ、内容が同じである重複説明は、省略する。

図8は、本発明の実施例3における電子機器のシステム構成を示すブロック図である。図8に示すように、電子機器800は、中央処理装置801及び記憶器802を含んでも良く、該記憶器802は、該中央処理装置801に接続される。該図は、例示に過ぎず、さらに、該構造に対して他の類型の構造を用いて補充又は代替を行うことで、電気通信機能又は他の機能を実現しても良い。

図8に示すように、該電子機器800は、さらに、入力ユニット803、表示器804、電源805などを含んでも良い。

1つの実施方式では、実施例1に記載の物体検出装置の機能が該中央処理装置801に統合されても良い。そのうち、該中央処理装置801は、次のように構成されても良く、即ち、複数の畳み込み層を用いて入力画像からグローバル画像特徴を抽出し；該グローバル画像特徴を用いて複数の候補検出領域を確定し；該複数の候補検出領域の情報に基づいて、該複数の畳み込み層のうちの所定数の畳み込み層を用いて、該所定数の畳み込み層に対応する第一ローカル画像特徴を抽出し；該第一ローカル画像特徴に基づいて該複数の候補検出領域のうちの各候補検出領域の第二ローカル画像特徴を確定し、そのうち、該複数の候補検出領域のうちの一部の候補検出領域の第二ローカル画像特徴が、抽出された該所定数の畳み込み層のうちの少なくとも2つの畳み込み層に対応する第一ローカル画像特徴を用いて確定され；及び、各候補検出領域の第二ローカル画像特徴に基づいて物体検出を行い、物体検出結果を出力する。

本実施例では、該複数の畳み込み層のうちの前に位置する畳み込み層は、後ろに位置する畳み込み層に比べ、空間分解能が高く、前に位置する畳み込み層は、後ろに位置する畳み込み層に比べ、語義情報が少ない。

本実施例では、該複数の候補検出領域のうちの他の部分の候補検出領域の第二ローカル画像特徴が、抽出された、該所定数の畳み込み層のうちの少なくとも1つの畳み込み層に対応する第一ローカル画像特徴を用いて確定される。

本実施例では、該複数の候補検出領域のうちの各候補検出領域は、領域サイズが異なる第一数量の領域組のうちの1つの領域組に属し、また、該第一数量の領域組のうちの第一領域組及び第二領域組について、以下の実施方式がある。

1つの実施方式では、該中央処理装置801は、次のように構成されても良く、即ち、該第一領域組の候補検出領域の情報に基づいて、第一所定畳み込み層に対応する第一ローカル画像特徴を抽出し、該第二領域組の候補検出領域の情報に基づいて、第二所定畳み込み層の第一ローカル画像特徴を抽出し、そのうち、該第一所定畳み込み層のうちの1つの畳み込み層の位置は、該第二所定畳み込み層のうちの1つの畳み込み層の位置よりも前にあり、そのうち、該第一領域組中の候補検出領域は、該第二領域組中の候補検出領域よりも小さい。

該中央処理装置801は、さらに、次のように構成されても良く、即ち、該第一所定畳み込み層の第一ローカル画像特徴に基づいて、該第一領域組中の候補検出領域の第二ローカル画像特徴を確定し、該第二所定畳み込み層の第一ローカル画像特徴に基づいて、該第二領域組中の候補検出領域の第二ローカル画像特徴を確定する。

1つの実施方式では、該中央処理装置801は、次のように構成されても良く、即ち、該第一領域組中の候補検出領域の第二ローカル画像特徴を確定するときに利用する該少なくとも2つの畳み込み層のうちの1つの畳み込み層の位置は、該第二領域組中の候補検出領域の第二ローカル画像特徴を確定するときに利用する該少なくとも2つの畳み込み層のうちの1つの畳み込み層の位置よりも前にあり、そのうち、該第一領域組中の候補検出領域は、該第二領域組中の候補検出領域よりも小さい。

抽出された、該所定数の畳み込み層のうちの少なくとも2つの畳み込み層に対応する第一ローカル画像特徴を用いて候補検出領域の第二ローカル画像特徴を確定するときに、1つの実施方式では、該中央処理装置801は、次のように構成されても良く、即ち、抽出された、後ろに位置する少なくとも1つの畳み込み層に対応する第一ローカル画像特徴に対してアップサンプリング処理を行い、その空間分解能が、抽出された、一番前に対応する畳み込み層に対応する第一ローカル画像特徴の空間分解能と同じであるようにさせ、そして、処理後の抽出された、後ろに位置する少なくとも1つの畳み込み層に対応する第一ローカル画像特徴と、抽出された、一番前に位置する畳み込み層に対応する第一ローカル画像特徴との和を求め、該候補検出領域に対応する第二ローカル画像特徴を取得する。

抽出された、該所定数の畳み込み層のうちの少なくとも2つの畳み込み層に対応する第一ローカル画像特徴を用いて候補検出領域の第二ローカル画像特徴を確定するときに、1つの実施方式では、該中央処理装置801は、次のように構成されても良く、即ち、抽出された、後ろに位置する少なくとも1つの畳み込み層に対応する第一ローカル画像特徴に対して拡張処理を行い、その空間分解能が、抽出された、一番前に位置する畳み込み層に対応する第一ローカル画像特徴の空間分解能と同じであるようにさせ、そして、処理後の抽出された、後ろに位置する畳み込み層に対応する第一ローカル画像特徴と、抽出された、一番前に位置する畳み込み層に対応する第一ローカル画像特徴との重畳加算畳み込み処理を行い、該候補検出領域に対応する第二ローカル画像特徴を取得する。

第一数量の領域組が大領域組、中領域組及び小領域組を含むときに、該中央処理装置801は、次のように構成されても良く、即ち、抽出された、該複数の畳み込み層のうちの一番後ろに位置する畳み込み層に対応する第一ローカル画像特徴を用いて大領域組中の候補検出領域の第二ローカル画像特徴を確定し；抽出された、該複数の畳み込み層のうちの一番後ろに位置する畳み込み層が抽出した第一ローカル画像特徴に対してアップサンプリング処理を行った後に、抽出された、一番後ろから前へ2番目の畳み込み層に対応する第一ローカル画像特徴との和を求めることで、中領域組中の候補検出領域の第二ローカル画像特徴を確定し；抽出された、該複数の畳み込み層のうちの一番後ろに位置する畳み込み層に対応する第一ローカル画像特徴に対して拡張処理を行った後に、抽出された、一番後ろから前へ3番目の畳み込み層に対応する第一ローカル画像特徴との重畳加算畳み込みを行うことで、小領域組中の候補検出領域の第二ローカル画像特徴を確定する。

本実施例では、該中央処理装置801は、次のように構成されても良く、即ち、第一数量の領域組に対応する候補検出領域の第二ローカル画像特徴に基づいて、それぞれ、第一数量の検出結果を取得し、該第一数量の検出結果に対して加算を行い、該物体検出結果を出力する。

もう1つの実施方式では、実施例1に記載の物体検出装置100が該中央処理装置80と別々で配置されても良く、例えば、該物体検出装置100を、該中央処理装置801と接続されるチップとして構成し、該中央処理装置801の制御により、該物体検出装置100の機能を実現しても良い。

本実施例では、該電子機器800は、図8中の全ての部品を含む必要がない。

図8に示すように、該中央処理装置801は、制御器又は操作コントローラと称される場合があり、マイクロプロセッサ又は他の処理器装置及び/又は論理装置を含んでも良く、該中央処理装置801は、入力を受信して該電子機器800の各部品の操作を制御することができる。

該記憶器802は、例えば、バッファ、フラッシュメモリ、ＨＤＤ、移動可能な媒体、揮発し記憶器、不揮発性記憶器又は他の適切な装置のうちの1つ又は複数であっても良い。該中央処理装置801は、該記憶器802に記憶されているプログラムを実行することで、情報の記憶又は処理などを実現することができる。他の部品の機能が従来と同様であるから、ここでは、詳しい説明を省略する。該電子機器800の各部品は、専用ハードウェア、ファームウェア、ソフトウェア又はその組み合わせにより実現されても良いが、これらは、すべて、本発明の範囲に属する。

本発明の実施例は、さらに、コンピュータ可読プログラムを提供し、そのうち、物体検出装置中で該プログラムを実行するときに、該プログラムは、コンピュータに、該物体検出装置中で上述の実施例2における物体検出方法を実行させる。

本発明の実施例は、さらに、コンピュータ可読プログラムを記憶した記憶媒体を提供し、そのうち、該コンピュータ可読プログラムは、コンピュータに、物体検出装置中で上述の実施例2における物体検出方法を実行させる。

また、上述の装置及び方法は、ソフトウェア又はハードウェアにより実現されても良く、ハードウェアとソフトウェアとの組み合わせにより実現されても良い。本発明は、さらに、下記のようなコンピュータ読み取り可能なプログラムに関し、即ち、該プログラムは、ロジック部品により実行されるときに、該ロジック部品に、上述の装置又は構成部品を実現させ、又は、該ロジック部品に、上述の各種の方法又はステップを実現させる。ロジック部品は、例えば、FPGA（Field Programmable Gate Array）、マイクロプロセッサ、コンピュータに用いる処理器などであっても良い。本発明は、さらに、上述のプログラムを記憶した記憶媒体、例えば、ハードディスク、磁気ディスク、光ハードディスク、DVD、フラッシュメモリなどにも関する。

さらに、図面に記載の機能ブロックのうちの1つ又は複数の組み合わせ及び／又は機能ブロックの1つ又は複数の組み合わせは、本明細書に記載の機能を実行するための汎用処理器、デジタル信号処理器（DSP）、特定用途向け集積回路（ASIC）、フィールドプログラマブルゲートアレイ（FPGA）又は他のプログラム可能な論理部品、ディスクリートゲート又はトランジスタ論理部品、ディスクリートハードウェアアセンブリ又は他の任意の適切な組む合わせとして実現されても良い。また、図面に記載の機能ブロックのうちの1つ又は複数の組み合わせ及び／又は機能ブロックの1つ又は複数の組み合わせは、さらに、計算装置の組み合わせ、例えば、DSP及びマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、DSPと通信により接続される1つ又は複数のマイクロプロセッサ又は他の任意の構成の組み合わせとして構成されても良い。

以上、本発明の好ましい実施形態を説明したが、本発明はこのような実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の技術的範囲に属する。

Claims

物体検出装置であって、
複数の畳み込み層を用いて入力画像からグローバル画像特徴を抽出する特徴抽出ユニット；
前記グローバル画像特徴を用いて複数の候補検出領域を確定し、前記複数の候補検出領域の情報を前記特徴抽出ユニットにフィードバックする領域推奨ユニットであって、前記特徴抽出ユニットがさらに、前記情報に基づいて、前記複数の畳み込み層のうちの所定数の畳み込み層を用いて、前記所定数の畳み込み層に対応する第一ローカル画像特徴を抽出する領域推奨ユニット；
前記第一ローカル画像特徴に基づいて、前記複数の候補検出領域のうちの各候補検出領域の第二ローカル画像特徴を確定する処理ユニットであって、前記複数の候補検出領域のうちの一部の候補検出領域の第二ローカル画像特徴が、抽出された、前記所定数の畳み込み層のうちの少なくとも2つの畳み込み層に対応する第一ローカル画像特徴を用いて確定される処理ユニット；及び
前記各候補検出領域の第二ローカル画像特徴に基づいて物体検出を行い、物体検出結果を出力する検出ユニットを含む、装置。
請求項1に記載の装置であって、
前記複数の畳み込み層のうち、前に位置する畳み込み層の空間分解能が、後ろに位置する畳み込み層の空間分解能よりも高く、前に位置する畳み込み層の語義情報が、後ろに位置する畳み込み層の語義情報よりも少ない、装置。
請求項1に記載の装置であって、
前記複数の候補検出領域のうちの他の部分の候補検出領域の第二ローカル画像特徴が、抽出された、前記所定数の畳み込み層のうちの少なくとも1つの畳み込み層に対応する第一ローカル画像特徴を用いて確定される、装置。
請求項1に記載の装置であって、
前記複数の候補検出領域のうちの各候補検出領域が、領域サイズの異なる第一数量の領域組のうちの1つの領域組に属し、
前記複数の領域組のうちの第一領域組及び第二領域組について、前記特徴抽出ユニットは、前記第一領域組の候補検出領域の情報に基づいて、第一所定畳み込み層に対応する第一ローカル画像特徴を抽出し、前記第二領域組の候補検出領域の情報に基づいて、第二所定畳み込み層に対応する第一ローカル画像特徴を抽出し、
前記第一所定畳み込み層のうちの1つの畳み込み層の位置は、前記第二所定畳み込み層のうちの1つの畳み込み層の位置よりも前にあり、前記第一領域組における候補検出領域は、前記第二領域組における候補検出領域よりも小さい、装置。
請求項4に記載の装置であって、
前記処理ユニットは、前記第一所定畳み込み層の第一ローカル画像特徴に基づいて、前記第一領域組における候補検出領域の第二ローカル画像特徴を確定し、前記第二所定畳み込み層の第一ローカル画像特徴に基づいて、前記第二領域組における候補検出領域の第二ローカル画像特徴を確定する、装置。
請求項1に記載の装置であって、
前記複数の候補検出領域のうちの各候補検出領域が、領域サイズの異なる第一数量の領域組のうちの1つの領域組に属し、
前記複数の領域組のうちの第一領域組及び第二領域組について、前記処理ユニットが前記第一領域組における候補検出領域の第二ローカル画像特徴を確定するときに利用する前記少なくとも2つの畳み込み層のうちの1つの畳み込み層の位置は、前記第二領域組における候補検出領域の第二ローカル画像特徴を確定するときに利用する前記少なくとも2つの畳み込み層のうちの1つの畳み込み層の位置よりも前にあり、前記第一領域組における候補検出領域は、前記第二領域組における候補検出領域よりも小さい、装置。
請求項1に記載の装置であって、
抽出された、前記所定数の畳み込み層のうちの少なくとも2つの畳み込み層に対応する第一ローカル画像特徴を用いて候補検出領域の第二ローカル画像特徴を確定するときに、前記処理ユニットは、第一処理モジュールを含み、
前記第一処理モジュールは、抽出された、後ろに位置する少なくとも1つの畳み込み層に対応する第一ローカル画像特徴に対してアップサンプリング処理を行い、その空間分解能が、抽出された、一番前に位置する畳み込み層に対応する第一ローカル画像特徴の空間分解能と同じであるようにさせ、そして、処理後の、抽出された、後ろに位置する少なくとも1つの畳み込み層に対応する第一ローカル画像特徴と、抽出された、一番前に位置する畳み込み層に対応する第一ローカル画像特徴との和を求め、前記候補検出領域に対応する第二ローカル画像特徴を取得する、装置。
請求項1に記載の装置であって、
抽出された、前記所定数の畳み込み層のうちの少なくとも2つの畳み込み層に対応する第一ローカル画像特徴を用いて候補検出領域の第二ローカル画像特徴を確定するときに、前記処理ユニットは、第二処理モジュールを含み、
前記第二処理モジュールは、抽出された、後ろに位置する少なくとも1つの畳み込み層に対応する第一ローカル画像特徴に対して拡張処理を行い、その空間分解能が、抽出された、一番前に位置する畳み込み層に対応する第一ローカル画像特徴の空間分解能と同じであるようにさせ、そして、処理後の、抽出された、後ろに位置する畳み込み層に対応する第一ローカル画像特徴と、抽出された、一番前に位置する畳み込み層に対応する第一ローカル画像特徴とに対して重畳加算畳み込み処理を行い、前記候補検出領域に対応する第二ローカル画像特徴を取得する、装置。
請求項1に記載の装置であって、
前記複数の候補検出領域のうちの各候補検出領域が、領域サイズの異なる第一数量の領域組のうちの1つの領域組に属し、
前記第一数量の領域組は、大領域組、中領域組、及び小領域組を含み、
前記処理ユニットは、
抽出された、前記複数の畳み込み層のうちの一番後ろに位置する畳み込み層に対応する第一ローカル画像特徴を用いて、大領域組における候補検出領域の第二ローカル画像特徴を確定し；
抽出された、前記複数の畳み込み層のうちの一番後ろに位置する畳み込み層に対応する第一ローカル画像特徴に対してアップサンプリング処理を行った後に、抽出された、一番後ろから前への二番目の畳み込み層に対応する第一ローカル画像特徴との和を求め、中領域組における候補検出領域の第二ローカル画像特徴を確定し；及び
抽出された、前記複数の畳み込み層のうちの一番後ろに位置する畳み込み層に対応する第一ローカル画像特徴に対して拡張処理を行った後に、抽出された、一番後ろから前への三番目の畳み込み層の第一ローカル画像特徴との重畳加算畳み込みを行い、小領域組における候補検出領域の第二ローカル画像特徴を確定する、装置。
請求項1に記載の装置であって、
前記複数の候補検出領域のうちの各候補検出領域が、領域サイズの異なる第一数量の領域組のうちの1つの領域組に属し、
前記検出ユニットは、前記第一数量の領域組に対応する候補検出領域の第二ローカル画像特徴に基づいてそれぞれ前記第一数量の検出結果を取得し、前記第一数量の検出結果の和を求め、前記物体検出結果を出力する、装置。
物体検出方法であって、
複数の畳み込み層を用いて入力画像からグローバル画像特徴を抽出し；
前記グローバル画像特徴を用いて複数の候補検出領域を確定し；
前記複数の候補検出領域の情報に基づいて、前記複数の畳み込み層のうちの所定数の畳み込み層を用いて、前記所定数の畳み込み層に対応する第一ローカル画像特徴を抽出し；
前記第一ローカル画像特徴に基づいて前記複数の候補検出領域のうちの各候補検出領域の第二ローカル画像特徴を確定し、前記複数の候補検出領域のうちの一部の候補検出領域の第二ローカル画像特徴が、抽出された、前記所定数の畳み込み層のうちの少なくとも2つの畳み込み層に対応する第一ローカル画像特徴を用いて確定され；及び
前記各候補検出領域の第二ローカル画像特徴に基づいて物体検出を行い、物体検出結果を出力することを含む、方法。
請求項11に記載の方法であって、
前記複数の畳み込み層のうち、前に位置する畳み込み層の空間分解能が、後ろに位置する畳み込み層の空間分解能よりも高く、前に位置する畳み込み層の語義情報が、後ろに位置する畳み込み層の語義情報よりも少ない、方法。
請求項11に記載の方法であって、
前記複数の候補検出領域のうちの他の部分の候補検出領域の第二ローカル画像特徴が、抽出された、前記所定数の畳み込み層のうちの少なくとも1つの畳み込み層に対応する第一ローカル画像特徴により確定される、方法。
請求項11に記載の方法であって、
前記複数の候補検出領域のうちの各候補検出領域が、領域サイズの異なる第一数量の領域組のうちの1つの領域組に属し、
前記複数の領域組のうちの第一領域組及び第二領域組について、前記所定数の畳み込み層に対応する第一ローカル画像特徴を抽出することは、
前記第一領域組の候補検出領域の情報に基づいて、第一所定畳み込み層に対応する第一ローカル画像特徴を抽出し、前記第二領域組の候補検出領域の情報に基づいて、第二所定畳み込み層に対応する第一ローカル画像特徴を抽出することを含み、
前記第一所定畳み込み層のうちの1つの畳み込み層の位置は、前記第二所定畳み込み層のうちの1つの畳み込み層の位置よりも前にあり、前記第一領域組における候補検出領域は、前記第二領域組における候補検出領域よりも小さい、方法。
請求項14に記載の方法であって、
前記第一ローカル画像特徴に基づいて、前記複数の候補検出領域のうちの各候補検出領域の第二ローカル画像特徴を確定することは、
前記第一所定畳み込み層の第一ローカル画像特徴に基づいて、前記第一領域組における候補検出領域の第二ローカル画像特徴を確定し、前記第二所定畳み込み層の第一ローカル画像特徴に基づいて、前記第二領域組における候補検出領域の第二ローカル画像特徴を確定することを含む、方法。
請求項11に記載の方法であって、
前記複数の候補検出領域のうちの各候補検出領域が、領域サイズの異なる第一数量の領域組のうちの1つの領域組に属し、
前記複数の領域組のうちの第一領域組及び第二領域組について、前記第一領域組における候補検出領域の第二ローカル画像特徴を確定するときに利用する前記少なくとも2つの畳み込み層のうちの1つの畳み込み層の位置は、前記第二領域組における候補検出領域の第二ローカル画像特徴を確定するときに利用する前記少なくとも2つの畳み込み層のうちの1つの畳み込み層の位置よりも前にあり、前記第一領域組における候補検出領域は、前記第二領域組における候補検出領域よりも小さい、方法。
請求項11に記載の方法であって、
抽出された、前記所定数の畳み込み層のうちの少なくとも2つの畳み込み層に対応する第一ローカル画像特徴を用いて候補検出領域の第二ローカル画像特徴を確定するときに、前記第一ローカル画像特徴に基づいて、前記複数の候補検出領域のうちの各候補検出領域の第二ローカル画像特徴を確定することは、
抽出された、後ろに位置する少なくとも1つの畳み込み層に対応する第一ローカル画像特徴に対してアップサンプリング処理を行い、その空間分解能が、抽出された、一番前に位置する畳み込み層に対応する第一ローカル画像特徴の空間分解能と同じであるようにさせ、そして、処理後の、抽出された、後ろに位置する少なくとも1つの畳み込み層に対応する第一ローカル画像特徴と、抽出された、一番前に位置する畳み込み層に対応する第一ローカル画像特徴との和を求め、前記候補検出領域に対応する第二ローカル画像特徴を取得することを含む、方法。
請求項11に記載の方法であって、
抽出された、前記所定数の畳み込み層のうちの少なくとも2つの畳み込み層に対応する第一ローカル画像特徴を用いて候補検出領域の第二ローカル画像特徴を確定するときに、前記第一ローカル画像特徴に基づいて、前記複数の候補検出領域のうちの各候補検出領域の第二ローカル画像特徴を確定することは、
抽出された、後ろに位置する少なくとも1つの畳み込み層に対応する第一ローカル画像特徴に対して拡張処理を行い、その空間分解能が、抽出された、一番前に位置する畳み込み層に対応する第一ローカル画像特徴の空間分解能と同じであるようにさせ、そして、処理後の、抽出された、後ろに位置する畳み込み層に対応する第一ローカル画像特徴と、抽出された、一番前に位置する畳み込み層に対応する第一ローカル画像特徴とに対して重畳加算畳み込み処理を行い、前記候補検出領域に対応する第二ローカル画像特徴を取得することを含む、方法。
請求項11に記載の方法であって、
前記複数の候補検出領域のうちの各候補検出領域が、領域サイズの異なる第一数量の領域組のうちの1つの領域組に属し、
前記第一数量の領域組は、大領域組、中領域組、及び小領域組を含み、
前記第一ローカル画像特徴に基づいて、前記複数の候補検出領域のうちの各候補検出領域の第二ローカル画像特徴を確定することは、
抽出された、前記複数の畳み込み層のうちの一番後ろに位置する畳み込み層に対応する第一ローカル画像特徴を用いて、大領域組における候補検出領域の第二ローカル画像特徴を確定し；
抽出された、前記複数の畳み込み層のうちの一番後ろに位置する畳み込み層に対応する第一ローカル画像特徴に対してアップサンプリング処理を行った後に、抽出された、一番後ろから前への二番目の畳み込み層に対応する第一ローカル画像特徴との和を求め、中領域組における候補検出領域の第二ローカル画像特徴を確定し；及び
抽出された、前記複数の畳み込み層のうちの一番後ろに位置する畳み込み層に対応する第一ローカル画像特徴に対して拡張処理を行った後に、抽出された、一番後ろから前への三番目の畳み込み層の第一ローカル画像特徴との重畳加算畳み込みを行い、小領域組における候補検出領域の第二ローカル画像特徴を確定することを含む、方法。
請求項11に記載の方法であって、
前記複数の候補検出領域のうちの各候補検出領域が、領域サイズの異なる第一数量の領域組のうちの1つの領域組に属し、
前記第一数量の領域組に対応する候補検出領域の第二ローカル画像特徴に基づいてそれぞれ前記第一数量の検出結果を取得し、前記第一数量の検出結果の和を求め、前記物体検出結果を出力する、方法。