JP2018527660A - ニューラルネットワークによるオブジェクト検出 - Google Patents

ニューラルネットワークによるオブジェクト検出 Download PDF

Info

Publication number
JP2018527660A
JP2018527660A JP2018504101A JP2018504101A JP2018527660A JP 2018527660 A JP2018527660 A JP 2018527660A JP 2018504101 A JP2018504101 A JP 2018504101A JP 2018504101 A JP2018504101 A JP 2018504101A JP 2018527660 A JP2018527660 A JP 2018527660A
Authority
JP
Japan
Prior art keywords
feature map
convolutional layer
classifier
input data
patch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018504101A
Other languages
English (en)
Inventor
シャオヘン ジャン
シャオヘン ジャン
Original Assignee
ノキア テクノロジーズ オーユー
ノキア テクノロジーズ オーユー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ノキア テクノロジーズ オーユー, ノキア テクノロジーズ オーユー filed Critical ノキア テクノロジーズ オーユー
Publication of JP2018527660A publication Critical patent/JP2018527660A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

好適な実施形態の一例は、畳み込み層群を含む人工ニューラルネットワークの第1の畳み込み層に、入力データ項目を提供することと、前記畳み込み層群における前記入力データ項目を処理することと、前記畳み込み層群の最後の畳み込み層から出力された特徴マップにおいて、第1の特徴マップパッチおよび第2の特徴マップパッチを定義することと、前記第1の特徴マップパッチを第1の分類器に提供し、前記第2の特徴マップパッチを第2の分類器に提供することと、を含む。
【選択図】図6

Description

本発明は、演算ネットワークを用いたオブジェクトの検出に関する。
発明の背景
機械学習では、データを基にした学習が可能なアルゴリズムの設計を検証する。機械学習アルゴリズムを入力に適用してモデルを構築してもよく、新たなデータに対する予測に使用できる。機械学習は、統計、人工知能、最適化に関連し、明確な規則に基づくアルゴリズムを構築できないようなタスクに利用される。そのようなタスクの例としては、画像認識、文字認識、電子メール用スパムフィルタリングが挙げられる。
人工ニューラルネットワークは、機械学習が可能な演算ツールである。人工ニューラルネットワーク(以下、ニューラルネットワークとも称される)では、「ニューロン」と呼ばれる相互接続された演算部が、トレーニングデータに適応でき、その後協働してモデルにおける予測を行う。これは、生物学的ニューラルネットワークにおける処理にある程度似通っている場合がある。
ニューラルネットワークは、いくつかの層を有してもよい。このうち、第1の層は入力を受け付けるように構成された入力層である。この入力層は、隠れ層とも称される第2の層のニューロンに接続されたニューロンを有する。隠れ層のニューロンは、別の隠れ層または出力層に接続されていてもよい。
ニューラルネットワークによっては、ある層の各ニューロンが後続の層の各ニューロンに接続されるものもある。そのようなニューラルネットワークは、全結合ネットワークと呼ばれる。トレーニングデータは、各接続について当該接続の強度を特徴付ける重みを推定可能とするために使用される。全結合層および全結合ではない層を有するニューラルネットワークも存在する。畳み込みニューラルネットワークにおける全結合層は、密結合層とも称される。
ニューラルネットワークによっては、信号が入力層から出力層へと一方向にのみ伝搬するものもある。この場合、入力層に戻るように伝搬するための接続は存在しない。このようなニューラルネットワークは、フィードフォワードニューラルネットワークと呼ばれる。入力層に戻るように伝搬するための接続が存在するようなニューラルネットワークは、リカレント(再帰型)ニューラルネットワークと呼ばれる。
畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)は、フィードフォワードニューラルネットワークであり、全結合層ではない層を有する。CNNでは、畳み込み層のニューロンは前段の層のサブセットまたは近傍のニューロンに接続される。これにより、少なくともいくつかのCNNでは、入力の空間特徴が保たれる。CNNは、畳み込み層および全結合層の両方を有してもよい。
本発明は、独立クレームの特徴によって定められている。いくつかの特定の実施形態は、従属クレームに定められている。
本発明の第1の態様では装置が提供され、前記装置は、少なくとも1つのプロセッサコアと、コンピュータプログラムコードを含む少なくとも1つのメモリとを備え、前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサコアに実行されると、前記装置に少なくとも、畳み込み層群を含む人工ニューラルネットワークの第1の畳み込み層に、入力データ項目を提供することと、前記畳み込み層群における前記入力データ項目を処理することと、前記畳み込み層群の最後の畳み込み層から出力された特徴マップにおいて、第1の特徴マップパッチおよび第2の特徴マップパッチを定義することと、前記第1の特徴マップパッチを第1の分類器に提供し、前記第2の特徴マップパッチを第2の分類器に提供することと、を遂行させるように構成される。
第1の態様の様々な実施形態は、以下に挙げる少なくとも1つの特徴を備えてもよい。
・ 前記入力データ項目は画像を含む。
・ 前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサコアに実行されると、前記装置に、オリジナル画像が拡縮された一連のものを組み合わせることによって前記画像を得ることを遂行させるように構成される。
・ 前記第1の分類器は、前記人工ニューラルネットワークの第1の全結合層を含む。
・ 前記第2の分類器は、前記人工ニューラルネットワークの第2の全結合層を含む。
・ 前記畳み込み層群は、4つの畳み込み層を含む。
・ 前記装置は、次の層の処理の前に前の畳み込み層からの出力を正規化することによって、前記畳み込み層群における前記入力データ項目を処理するように構成される。
・ 前記装置は、次の層の処理の前に前の畳み込み層からの出力をサブサンプリングすることによって、前記畳み込み層群における前記入力データ項目を処理するように構成される。
・ 前記装置は、第3の畳み込み層の後に局地コントラスト正規化を実行することによって、前記畳み込み層群における前記入力データ項目を処理するように構成される。
・ 前記人工ニューラルネットワークは、人の画像を検出するように構成される。
・ 前記畳み込みニューラルネットワークは、歩行者の画像を検出するように構成される。
・ 前記第1の特徴マップパッチと前記第2の特徴マップパッチとは、少なくとも部分的に重複している。
・ 前記第1の特徴マップパッチは、前記第2の特徴マップパッチに含まれている。
本発明の第2の態様では方法が提供され、前記方法は、畳み込み層群を含む人工ニューラルネットワークの第1の畳み込み層に、入力データ項目を提供することと、前記畳み込み層群における前記入力データ項目を処理することと、前記畳み込み層群の最後の畳み込み層から出力された特徴マップにおいて、第1の特徴マップパッチおよび第2の特徴マップパッチを定義することと、前記第1の特徴マップパッチを第1の分類器に提供し、前記第2の特徴マップパッチを第2の分類器に提供することと、を含む。
第2の態様の様々な実施形態は、以下に挙げる少なくとも1つの特徴を備えてもよい。
・ 前記入力データ項目は画像を含む。
・ 前記方法は、オリジナル画像が拡縮された一連のものを組み合わせることによって前記画像を得ることをさらに含む。
・ 前記第1の分類器は、前記人工ニューラルネットワークの第1の全結合層を含む。
・ 前記第2の分類器は、前記人工ニューラルネットワークの第2の全結合層を含む。
・ 前記畳み込み層群は、4つの畳み込み層を含む。
・ 前記畳み込み層群における前記入力データ項目を処理することは、次の層の処理の前に前の畳み込み層からの出力を正規化することを含む。
・ 前記畳み込み層群における前記入力データ項目を処理することは、次の層の処理の前に前の畳み込み層からの出力をサブサンプリングすることを含む。
・ 前記畳み込み層群における前記入力データ項目を処理することは、第3の畳み込み層の後に局地コントラスト正規化を実行することを含む。
・ 前記人工ニューラルネットワークは、人の画像を検出するように構成される。
・ 前記畳み込みニューラルネットワークは、歩行者の画像を検出するように構成される。
・ 前記第1の特徴マップパッチと前記第2の特徴マップパッチとは、少なくとも部分的に重複している。
・ 前記第1の特徴マップパッチは、前記第2の特徴マップパッチに含まれている。
本発明の第3の態様では装置が提供され、前記装置は、畳み込み層群を含む人工ニューラルネットワークの第1の畳み込み層に、入力データ項目を提供する手段と、前記畳み込み層群における前記入力データ項目を処理する手段と、前記畳み込み層群の最後の畳み込み層から出力された特徴マップにおいて、第1の特徴マップパッチおよび第2の特徴マップパッチを定義する手段と、前記第1の特徴マップパッチを第1の分類器に提供し、前記第2の特徴マップパッチを第2の分類器に提供する手段と、を含む。
本発明の第4の態様では非一時的コンピュータ可読媒体が提供され、前記媒体には一連のコンピュータ可読命令が記憶され、当該命令は少なくとも1つのプロセッサによって実行されると、装置に少なくとも、畳み込み層群を含む人工ニューラルネットワークの第1の畳み込み層に、入力データ項目を提供することと、前記畳み込み層群における前記入力データ項目を処理することと、前記畳み込み層群の最後の畳み込み層から出力された特徴マップにおいて、第1の特徴マップパッチおよび第2の特徴マップパッチを定義することと、前記第1の特徴マップパッチを第1の分類器に提供し、前記第2の特徴マップパッチを第2の分類器に提供することと、を実行させる。
本発明の第5の態様では、第2の態様による方法を実施させるように構成されたコンピュータプログラムが提供される。
本発明の少なくともいくつかの実施形態は、機械ベースのパターン認識を向上させる点において産業上の利用ができる。
図1は、本発明の少なくともいくつかの実施形態に対応できる例示のシステムを示す。
図2Aは、本発明の少なくともいくつかの実施形態による例示のCNNを示す。 図2Bは、本発明の少なくともいくつかの実施形態による例示のCNNを示す。
図3は、本発明の少なくともいくつかの実施形態に対応できる例示の装置を示す。
図4は、本発明の少なくともいくつかの実施形態による例示の人工ニューラルネットワークを示す。
図5は、本発明の少なくともいくつかの実施形態において、入力画像区域に基づいて特徴マップパッチが生成される様子を示す。
図6は、本発明の少なくともいくつかの実施形態による方法のフローチャートである。
実施例の詳細説明
様々な大きさの物体を認識する際の計算負荷を低減するため、少なくとも2つの縮尺に対して人工ニューラルネットワークにおける一群の畳み込み層が再利用される。これにより、当該少なくとも2つの縮尺に対する物体認識を実行するために、畳み込み処理が一度のみ実行される。得られる特徴マップから少なくとも2つの特徴マップパッチが前記少なくとも2つの縮尺に対応して特定できるように、1つの入力画像に対して畳み込み層の特徴を利用してもよい。この少なくとも2つの特徴マップパッチはそれぞれ対応する分類器に入力できる。この分類器は、それぞれ対応する縮尺で物体認識を実行するように構成される。
図1は、本発明の少なくともいくつかの実施形態に対応できる例示のシステムを示す。図1は、歩行者120が歩く道路101の画像110を示す。ここでは歩行者検出について説明するが、本発明はこれに限定されるものではなく、当業者であれば理解できるように、本発明は視覚的、聴覚的、またはその他の種類のデータについてのパターン認識に幅広く適用可能である。例えば、本発明は該当する実施形態に応じて、自転車乗用者認識、手書き文字認識、顔認識、交通標識認識、音声認識、言語認識、手話認識、および/またはスパムメール認識に対して有効に適用である。
図1において、道路101はカメラ130により撮影される。カメラ130は、道路の少なくとも一部を含む画像110を撮影するように構成される。カメラ130は、内蔵される電荷結合素子(Charge-Coupled Device:CCD)等の撮像装置から得られた画像データに対して前処理を実行するように構成されてもよい。前処理の例としては、撮像画像内のダイナミックレンジを広げるためのモノクロ変換、コントラスト調整、および輝度調整を含む。いくつかの実施形態では、画像データはさらに、画像認識アルゴリズム供給に適したビット深度となるよう縮小される。前処理は、例えば画像認識アルゴリズムへ供給される領域125のような関心領域を選択することを含んでもよい。ただし、CNNは、これに通常入力データが供給される前に過度に前処理される必要がないという利点を持つため、前処理は実質的に不要または限定的であってもよい。例えば、カメラ130は自動運転車両に設けられてもよい。あるいは、カメラ130は人間の運転手が運転する車に、歩行者や動物をはねそうになったら警告および/または自動ブレーキを作用させるために設けられてもよい。
カメラ130からフェーズ140、150、160、170、180を有する畳み込みニューラルネットワークにデータが供給される。フェーズ140は、カメラ130から受信した画像を処理するように構成された第1の畳み込み層を有する。第1の畳み込み層140は、カメラ130から受信した画像からのデータを処理するように配置された複数のカーネルを有してもよい。カーネルに供給される当該画像の一部を、カーネルの受信野と称してもよい。カーネルはフィルタとも称される。隣接するカーネルの受信野同士は、ある程度重してもよく、例えば、それにより畳み込みニューラルネットワークは画像内で移動するオブジェクトに対応可能となる。いくつかの実施形態では、第1の畳み込み層140の各カーネルは同じ重みを利用する。つまり、カーネルのニューロン間で重みが異なっていても、第1の畳み込み層140の各カーネルの重み表は同じとなる。これにより独自の重みの数を低減でき、畳み込みニューラルネットワークが画像の様々な部位を同様に処理可能となる。例えば歩行者検出では、歩行者は画像のあらゆる部位に存在しうるため、このことが有効となりうる。独立した重みの数を制御することはさらに、畳み込みニューラルネットワークのトレーニングが容易となるという利点をもたらしうる。
第1の畳み込み層140は、複数の特徴マップを生成してもよい。第2の畳み込み層150は、第1の畳み込み層140からこれらの特徴マップを受信または読み出し可能であってもよい。第2の畳み込み層150は、第1の畳み込み層140の特徴マップの全てまたはそのサブセットを使用してもよい。ここでのサブセットとは、第1の畳み込み層140が生成する特徴マップの少なくとも1つであって、全体を含まない一群を意味する。第2の畳み込み層150は、第2の畳み込み層150の1または複数のカーネルを使用して、第1の畳み込み層において生成された特徴マップを処理して、第2層特徴マップを生成するように構成されてもよい。第2層特徴マップは、第3の畳み込み層160に少なくとも部分的に設けられてもよい。少なくとも1つの第3層特徴マップが出力として生成されるように、第3の畳み込み層160は、その1または複数のカーネルを利用して第2層特徴マップを処理するように構成されてもよい。
図1のCNNのフェーズ170は、例えば全結合層を含む第1の分類器を含む。図1の例では、第1の分類器の出力は、画像110に歩行者が含まれるか否かの判定である。第1の分類器は、例えばソフトマックス(softmax)分類器を含んでもよい。フェーズ170は、少なくとも1つの第3層特徴マップの第1サブセクションまたはパッチを入力として受信するように構成される。この第1サブセクションは、フェーズ170が物体認識を実行する際の縮尺に対応する。
図1のフェーズ180は、第2の分類器を含む。第2の分類器は、例えば全結合層を含んでもよい。図1の例では、第2の分類器の出力は、画像110に歩行者が含まれるか否かの判定である。第2の分類器は、例えばソフトマックス分類器を含んでもよい。フェーズ180は、少なくとも1つの第3層特徴マップの第2サブセクションまたはパッチを入力として受信するように構成される。この第2サブセクションは、フェーズ180が物体認識を実行する際の縮尺に対応する。
通常、第3の畳み込み層160からの特徴マップデータを入力として受信するように構成された分類器は3つ以上存在しうる。より詳細には、各分類器は、物体認識を実行する際の縮尺に対応する特徴マップパッチを入力として受信するように構成されてもよい。特徴マップパッチは少なくとも部分的に重複してもよい。少なくとも1つの特徴マップパッチは、別の特徴マップパッチに含まれてもよい。第3の畳み込み層160が複数の特徴マップを出力する場合、特徴マップパッチは、この最後の畳み込み層から出力される各特徴マップのパッチを含んでもよい。すなわち、特徴マップ群が出力される場合、特徴マップパッチは特徴マップパッチ群を含んでもよい。
図1には3つの畳み込み層が示されているが、これはあくまで例示であり、畳み込み層の数は異なってもよい。例えば、3つではなく4つ、5つ、6つ、あるいはその他の数であってもよい。畳み込み層の数がいくつの場合でも、分類器に入力される特徴マップパッチは最後の畳み込み層から得られるものであってもよい。複数の縮尺に対して畳み込み処理を一度のみ実行することに利点がある。これにより、各縮尺に対して個別に畳み込み処理が実行される場合と比較して、コンピュータ処理時間および/またはプロセッササイクルが短縮できるためである。
例えば、図1のカメラ130およびCNNは、携帯電話、スマートフォン、その他の同様の機器のような携帯機器に設けられてもよい。この携帯機器を車に設置して、前方に歩行者がいる可能性がある場合に車の運転手に警告を発することを可能としてもよい。
いくつかの実施形態では、カメラ130およびCNNは同じ装置に設けられていない。例えば、カメラ130は、車や携帯機器に設けられ、撮影した映像を少なくとも部分的におよび/または処理しておよび/または圧縮して、バックエンドサーバ装置または車内のコンピュータで動作するCNNに供給するように構成されてもよい。例えば、サーバが車または携帯機器に対して戻される判定の指示を供給してもよい。
いくつかの実施形態では、例えば第1の畳み込み層140および第2の畳み込み層160のようなCNN層がそれぞれ異なる装置に設けられる。例えば、第1の装置がカメラ130および第1の畳み込み層140を有し、第2の装置が第2の畳み込み層150を動作するように構成されてもよい。原則として第3の装置が第3の畳み込み層160を動作しうる。第1の装置、第2の装置、および/または第3の装置は携帯機器であってもよく、あるいはそのうちの少なくとも1つが、例えばバックエンドサーバであってもよい。第1、第2、第3の装置の少なくとも2つが携帯機器である場合、例えばNFCまたはBluetooth(登録商標)のような近距離無線通信インターフェースにより互いに通信するように構成されてもよい。
図2Aは、本発明の少なくともいくつかの実施形態による例示のCNNを示す。このCNNは、図2Aで層1、層2、層3、層4、出力と示された5つの層を有する。層1〜4は畳み込み層であり、出力層は全結合層である。図2Aのネットワークの入力ウィンドウの寸法は128×64である。出力層における分類器は、14×6の寸法を有する特徴マップパッチを受信するように構成されている。
図2Bは、本発明の少なくとも一部の実施形態における例示のCNNを示す。このCNNは、図2Bで層1、層2、層3、層4、出力と示された5つの層を有する。層1〜4は畳み込み層であり、出力層は全結合層である。図2Bのネットワークの入力ウィンドウの寸法は152×76である。層1〜4は図2Aにおけるネットワークのものと同じである。出力層における分類器は、17×7の寸法を有する特徴マップパッチを受信するように構成されている。
上述のように図2Aと図2Bの各CNNは、入力ウィンドウの寸法と、分類器に設けられる特徴マップパッチの寸法と、分類器の構造とが互いに異なる。本発明の少なくとも一部の実施形態では、層1〜4に対して、それらよりも大きい入力ウィンドウのサイズに合う単一の画像が提供され、その後、最後の畳み込み層からの出力により特徴マップパッチが決定され、図2Aおよび2Bの分類器にそれぞれ提供される。このようにして、一度の畳み込み処理で、特徴マップパッチの入力が両方の分類器に提供できる。
図示の例では、最初の3つの畳み込み層の後に、局地コントラスト正規化動作が実行される。さらに当該局地正規化動作に続いて、サブサンプリング動作が実行される。通常、入力画像は、オリジナル画像が拡縮された一連のものを含みうる。これにより、様々な大きさの物体が検出しやすくなる。例えば、オリジナル画像が拡縮された一連のものが、入力画像において少なくとも部分的に重複していてもよい。
図2Aおよび図2Bの例では、層1である第1の畳み込み層は、1画素のストライドで、7×7×3サイズの32個のカーネルにより128×68×3の入力画像をフィルタリングする。第1の畳み込み層の出力は第2の畳み込み層に入力され、例えば正規化、サブサンプリングされてもよい。層2である第2の畳み込み層は、入力されたものを5×5×32サイズの64個のカーネルによりフィルタリングする。層3である第3の畳み込み層は、第2の畳み込み層の、例えば正規化およびサブサンプリングされていてもよい出力に接続される3×3×128サイズの128個のカーネルを有する。層4である第4の畳み込み層は、3×3×128サイズのカーネルを有する。
図3は、例えばCNNを動作させることで、本発明の少なくともいくつかの実施形態に対応できる例示の装置を示す。図示の装置300は、例えばコンピュータまたは演算装置であってもよい。装置300は、例えばシングルコアまたはマルチコアプロセッサであってもよいプロセッサ310を有する。シングルコアプロセッサは、単一のプロセッサコアを有し、マルチコアプロセッサは2つ以上のプロセッサコアを有するものである。プロセッサ310は、例えばクアルコム社製、スナップドラゴン800プロセッサであってもよい。プロセッサ310は、2つ以上のプロセッサであってもよい。プロセッサコアは、例えばARMホールディングス製のCortex−A8プロセッサコアまたは、アドバンスト・マイクロ・デバイセズ製Brisbaneプロセッサコアであってもよい。プロセッサ310は、クアルコム社製、スナップドラゴンおよび/またはインテル社製、Coreプロセッサの少なくとも1つであってもよい。プロセッサ310は、少なくとも1つの特定用途向け集積回路(Application-Specific Integrated Circuit:ASIC)を含んでもよい。プロセッサ310は、少なくとも1つのフィールドプログラマブルゲートアレイ(Field-Programmable Gate Array:FPGA)を含んでもよい。プロセッサ310は、装置300における方法ステップを実現する手段であってもよい。プロセッサ310は、少なくとも一部がコンピュータ命令により動作を実行するように構成されてもよい。
装置300は、メモリ320を有してもよい。メモリ320は、ランダムアクセスメモリおよび/または固定メモリを含んでもよい。メモリ320は、少なくとも1つのRAMチップを含んでもよい。例えばメモリ320は、磁気、光学、および/またはホログラフィックメモリを含んでもよい。メモリ320の少なくとも一部は、プロセッサ310にアクセス可能であってもよい。メモリ320は、情報を記憶する手段であってもよい。メモリ320は、プロセッサ310が実行するように構成されたコンピュータ命令を含んでもよい。プロセッサ310に所定の動作を実行させるように構成されたコンピュータ命令がメモリ320に記憶され、装置300全体がメモリ320からのコンピュータ命令を使用したプロセッサ310の指令に基づいて動作するように構成されている場合、プロセッサ310および/またはその少なくとも1つのプロセッサコアが当該所定の動作を実行するように構成されているとみなすことができる。メモリ320は、少なくとも部分的にプロセッサ310内に構成されてもよい。
装置300は、送信部330を有してもよい。装置300は、受信部340を有してもよい。送信部330および受信部340は、少なくとも1つのセルラーまたはノンセルラー通信規格に従って互いに情報を送受信するように構成されてもよい。送信部330は、2つ以上の送信部であってもよい。受信部340は、2つ以上の受信部であってもよい。例えば、送信部330および/または受信部340は、WLAN、イーサネット(登録商標)、WCDMA(登録商標)、および/またはWiMAX(登録商標)の規格に従って動作するように構成されてもよい。
装置300は、ユーザインターフェース(UI)360を有してもよい。UI360は、ディスプレイ、キーボード、タッチスクリーンの少なくとも1つであってもよい。例えば、ユーザは人工ニューラルネットワークを構成するように、またはドライブの目的地をプログラムするように、UI360を介して装置300を操作可能であってもよい。
プロセッサ310には、プロセッサ310から情報を、装置300内に設けられた別装置に、装置300内の電線を介して出力するように構成された送信部が設けられてもよい。例えば、当該送信部は、メモリ320への少なくとも1つの電線を介して、メモリ320への記録用に情報を出力するように構成された、シリアルバス送信部であってもよい。当該送信部は、シリアルバスではなく、並列バス送信部であってもよい。同様に、プロセッサ310は、装置300内の別装置から、装置300内の電線を介して、プロセッサ310内に情報を受信するように構成された受信部を有してもよい。例えば、当該受信部は、受信部340からの少なくとも1つの電線を介して、プロセッサ310内での処理用に情報を受信するように構成されたシリアルバス受信部であってもよい。当該受信部は、シリアルバスではなく、並列バス受信部であってもよい。
装置300は、図3に図示されていない装置をさらに有してもよい。装置300は、装置300のユーザを少なくとも部分的に認証するように構成された指紋センサを有してもよい。いくつかの実施形態では、装置300は上述の装置のうち、少なくとも1つを含まない。
プロセッサ310、メモリ320、送信部330、受信部340、および/またはUI360は、様々な形式で、装置300内の電線により相互接続されていてもよい。例えば、上述の装置はそれぞれ、独立して装置300内のマスターバスに接続されて、情報のやり取りが可能であってもよい。ただし、当業者に理解されるように、これは単に一例であって、実施形態によっては、本発明の範囲から逸脱することなく、上述の装置の少なくとも2つを様々な方法で内部接続してもよい。
図4は、本発明の少なくともいくつかの実施形態による例示の人工ニューラルネットワークを示す。図の左側には、入力ウィンドウを示す。この入力ウィンドウは、入力1に対して寸法128×64、入力2に対して寸法152×76、概して入力nに対して寸法h×wである。図の中心部分には、概略的にC1−C2−C3−C4と示した畳み込みニューラルネットワーク層群を示す。図の右側には、全結合層であり、分類器として機能する出力層を示す。出力1と記載された分類器は、14×6のサイズの特徴マップパッチを入力として受信するように構成されている。これは、具体的にはこの分類器が最後の畳み込み層から出力された128の特徴マップそれぞれから14×6のサイズのパッチを受信することを意味する。出力2と記載された分類器は、17×7のサイズの特徴マップパッチを入力として受信するように構成されている。これは、具体的にはこの分類器が最後の畳み込み層から出力された128の特徴マップそれぞれから17×7のサイズのパッチを受信することを意味する。出力nと記載された分類器は、h'×w'のサイズの特徴マップパッチを入力として受信するように構成されている。これは、具体的にはこの分類器が最後の畳み込み層から出力された128の特徴マップそれぞれからh'×w'のサイズのパッチを受信することを意味する。それぞれの分類器は、例えばソフトマックス分類器を含んでもよい。
図4の例では、分類器出力1は、対応する寸法128×64の入力ウィンドウから得られた、寸法14×6の特徴マップパッチに対して動作するように構成されている。これにより、出力1は対応する縮尺で物体認識を実行するように構成されている。同様に、出力2から出力nは、それぞれ対応する特定の縮尺で動作し、対応するサイズの入力ウィンドウから得られた特徴マップパッチを受信するように構成される。畳み込み処理は一度実行するのみでよく、省計算資源が実現できる。入力ウィンドウは、入力画像において少なくとも部分的に重複する入力画像区域であってもよい。特徴マップパッチは、最後の畳み込み層から出力される特徴マップにおいて少なくとも部分的に重複してもよい。
図5は、本発明の少なくとも一部の実施形態において、入力画像区域に基づいて特徴マップパッチが生成される様子を示す。左側に入力画像510を示し、右側に入力画像510から畳み込み層群Cを介して得られる特徴マップ520を示す。
具体的には、寸法128×64の入力ウィンドウ、または入力画像区域を畳み込み層群Cに通すことで、寸法14×6の特徴マップパッチが得られる。同様に、寸法152×76の入力画像区域を畳み込み層群Cに通すことで、寸法17×7の特徴マップパッチが得られる。寸法184×96の入力画像区域を畳み込み層群Cに通すことで、寸法21×9の特徴マップパッチが得られ、寸法220×110の入力画像区域を畳み込み層群Cに通すことで、寸法25×11の特徴マップパッチが得られる。全ての特徴マップパッチは、入力画像を一度畳み込み層群Cに通すことで得られる。各特徴マップパッチは、物体認識用の分類器が動作するように構成された縮尺で当該分類器に提供されてもよい。これにより、畳み込み層群Cに対する一度の通過で、マルチスケールでの物体認識が実現できる。
畳み込みニューラルネットワーク型歩行者検出器を4つ含む群を利用して、性能比較評価を実行して、以下の結果が得られた。性能評価は、トレーニング用にはINRIA歩行者データセットを使用して、試験用にはINRIA歩行者データセットと、米国カリフォルニア工科大学製歩行者データセットの両方を使用して行われた。畳み込みニューラルネットワーク共用(Convolutional Neural Network with Sharing Features)という特徴を有する本発明の方法をCNN−SFと称する。比較対象の方法として、一般的なパッチレベルの物体認識によるCNNであるCNNパッチと、従来の方法を利用した画像レベルのスキャンニングであるCNN画像とを利用した。パッチレベルのスキャニングにおいて、ウィンドウ単位の特徴が、入力画像から生成された各ウィンドウ候補から直接抽出される。これに対して、画像レベルのスキャニングは、ウィンドウ単位の特徴が、入力画像全体に対して事前に計算された特徴マップから抽出されるという点で異なる。表1において、MRは画像毎の擬陽性の誤り指数(Miss Rate)を%で示す。表1では、CNN−SF方法により、CNNパッチとCNN画像の両方に対して精度が遜色ないことが示されている。
Figure 2018527660
Figure 2018527660
表2は、CNNパッチおよびCNN画像技術の両方に対して、CNN−SFを利用した場合の物体認識処理の大幅な速度向上を示している。例えば、CNN画像に対しては、2倍の速度向上が実現されている。
図6は、本発明の少なくともいくつかの実施形態による方法のフローチャートを示す。図示の方法におけるフェーズは、例えば図3に示す装置300のような装置で実行できる。
フェーズ610は、畳み込み層群を含む人工ニューラルネットワークの第1の畳み込み層に、入力データ項目を提供することを含む。フェーズ620は、前記畳み込み層群における前記入力データ項目を処理することを含む。フェーズ630は、前記畳み込み層群の最後の畳み込み層から出力された特徴マップにおいて、第1の特徴マップパッチおよび第2の特徴マップパッチを定義することを含む。最後に、フェーズ640は、前記第1の特徴マップパッチを第1の分類器に提供し、前記第2の特徴マップパッチを第2の分類器に提供することを含む。
開示された本発明の実施形態は、本明細書に開示された特定の構造、プロセスステップ、または材料に限定されるものではなく、当該技術分野の当業者によって認識されうる均等物にまで拡張されることは理解されるであろう。また、本明細書に使用されている用語は、特定の実施形態を記載する目的のみに用いられているものであり、限定する意図はないことも理解されるであろう。
本明細書の全体を通じて、「1つの実施形態」または「ある実施形態」との言及は、当該実施形態に関連して記載されている特定の特徴、構造、または特徴が本発明の少なくとも1つの実施形態に含まれていることを示している。したがって、本明細書の各所に述べられた「1つの実施形態では」または「ある実施形態では」という表現が、全て同一の実施形態に言及しているとは限らない。
本明細書で使用されている複数の品目、構造的要素、組成要素、および/または材料は、便宜上、共通のリストとして提示されていてもよい。しかし、これらのリストは、それぞれの部材が別個で特異な部材であると個別に識別されるものであると解されるべきである。したがって、別途反対の記載がない限り、共通の群として示されているということのみを理由に、これらのリストの個別の部材が、同じリストの任意の他の部材の事実上の均等物であると解されるべきではない。さらに、本発明の各種実施形態および例は、本明細書においてその様々な構成要素に対する代替物と併せて言及されていてもよい。このような実施形態、例、および代替物は、互いの事実上の均等物であると解されるものではなく、本発明の別個の自律的な描写であると考えられることが理解されるであろう。
さらに、記載された特徴、構造、または特徴は、1または複数の実施形態において任意の方法で組み合わされてもよい。以下の説明では、長さ、幅、形状等の例といった数々の特定の詳細を挙げて本発明の実施形態の完全な理解を促している。しかし、当該技術分野の当業者は、本発明が1または複数の特定の詳細を除いても、または他の方法、構成要素、材料等によっても実施しうることを認識するであろう。その他の例として、公知の構造、材料、または動作は、本発明の態様が不明瞭となるのを避けるため、詳細に図示または記載されていない。
上述の例は、1または複数の適用例における本発明の原則を例示するものであり、発明の才能を発揮することなく、また、本発明の原則および概念から逸脱することなく、形式、使用、および実施の詳細において様々な変更をなしうることは当業者には明らかであろう。したがって、以下に定められている請求項を除いては、本発明の限定を意図するものではない。

Claims (29)

  1. 少なくとも1つのプロセッサコアと、コンピュータプログラムコードを含む少なくとも1つのメモリとを備える装置であって、前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサコアに実行されると、前記装置に少なくとも、
    ・ 畳み込み層群を含む人工ニューラルネットワークの第1の畳み込み層に、入力データ項目を提供することと、
    ・ 前記畳み込み層群における前記入力データ項目を処理することと、
    ・ 前記畳み込み層群の最後の畳み込み層から出力された特徴マップにおいて、第1の特徴マップパッチおよび第2の特徴マップパッチを定義することと、
    ・ 前記第1の特徴マップパッチを第1の分類器に提供し、前記第2の特徴マップパッチを第2の分類器に提供することと、
    を遂行させるように構成される、装置。
  2. 前記入力データ項目は画像を含む、請求項1に記載の装置。
  3. 前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサコアに実行されると、前記装置に、オリジナル画像が拡縮された一連のものを組み合わせることによって前記画像を得ることを遂行させるように構成される、請求項2に記載の装置。
  4. 前記第1の分類器は、前記人工ニューラルネットワークの第1の全結合層を含む、請求項1から3のいずれかに記載の装置。
  5. 前記第2の分類器は、前記人工ニューラルネットワークの第2の全結合層を含む、請求項1から4のいずれかに記載の装置。
  6. 前記畳み込み層群は、4つの畳み込み層を含む、請求項1から5のいずれかに記載の装置。
  7. 前記畳み込み層群における前記入力データ項目を処理することは、次の層の処理の前に前の畳み込み層からの出力を正規化することを含む、請求項1から6のいずれかに記載の装置。
  8. 前記畳み込み層群における前記入力データ項目を処理することは、次の層の処理の前に前の畳み込み層からの出力をサブサンプリングすることを含む、請求項1から6のいずれかに記載の装置。
  9. 前記畳み込み層群における前記入力データ項目を処理することは、第3の畳み込み層の後に局地コントラスト正規化を実行することを含む、請求項1から8のいずれかに記載の装置。
  10. 前記人工ニューラルネットワークは、人の画像を検出するように構成される、請求項1から9のいずれかに記載の装置。
  11. 前記畳み込みニューラルネットワークは、歩行者の画像を検出するように構成された、請求項9に記載の装置。
  12. 前記第1の特徴マップパッチと前記第2の特徴マップパッチとは、少なくとも部分的に重複している、請求項1から11のいずれかに記載の装置。
  13. 前記第1の特徴マップパッチは、前記第2の特徴マップパッチに含まれている、請求項12に記載の装置。
  14. ・ 畳み込み層群を含む人工ニューラルネットワークの第1の畳み込み層に、入力データ項目を提供することと、
    ・ 前記畳み込み層群における前記入力データ項目を処理することと、
    ・ 前記畳み込み層群の最後の畳み込み層から出力された特徴マップにおいて、第1の特徴マップパッチおよび第2の特徴マップパッチを定義することと、
    ・ 前記第1の特徴マップパッチを第1の分類器に提供し、前記第2の特徴マップパッチを第2の分類器に提供することと、
    を含む方法。
  15. 前記入力データ項目は画像を含む、請求項14に記載の方法。
  16. オリジナル画像が拡縮された一連のものを組み合わせることによって前記画像を得ることをさらに含む、請求項15に記載の方法。
  17. 前記第1の分類器は、前記人工ニューラルネットワークの第1の全結合層を含む、請求項14から16のいずれかに記載の方法。
  18. 前記第2の分類器は、前記人工ニューラルネットワークの第2の全結合層を含む、請求項14から17のいずれかに記載の方法。
  19. 前記畳み込み層群は、4つの畳み込み層を含む、請求項14から18のいずれかに記載の方法。
  20. 前記畳み込み層群における前記入力データ項目を処理することは、次の層の処理の前に前の畳み込み層からの出力を正規化することを含む、請求項14から19のいずれかに記載の方法。
  21. 前記畳み込み層群における前記入力データ項目を処理することは、次の層の処理の前に前の畳み込み層からの出力をサブサンプリングすることを含む、請求項14から19のいずれかに記載の方法。
  22. 前記畳み込み層群における前記入力データ項目を処理することは、第3の畳み込み層の後に局地コントラスト正規化を実行することを含む、請求項14から21のいずれかに記載の方法。
  23. 前記人工ニューラルネットワークは、人の画像を検出するように構成される、請求項14から22のいずれかに記載の方法。
  24. 前記畳み込みニューラルネットワークは、歩行者の画像を検出するように構成される、請求項23に記載の方法。
  25. 前記第1の特徴マップパッチと前記第2の特徴マップパッチとは、少なくとも部分的に重複している、請求項14から24のいずれかに記載の方法。
  26. 前記第1の特徴マップパッチは、前記第2の特徴マップパッチに含まれている、請求項25に記載の方法。
  27. ・ 畳み込み層群を含む人工ニューラルネットワークの第1の畳み込み層に、入力データ項目を提供する手段と、
    ・ 前記畳み込み層群における前記入力データ項目を処理する手段と、
    ・ 前記畳み込み層群の最後の畳み込み層から出力された特徴マップにおいて、第1の特徴マップパッチおよび第2の特徴マップパッチを定義する手段と、
    ・ 前記第1の特徴マップパッチを第1の分類器に提供し、前記第2の特徴マップパッチを第2の分類器に提供する手段と、
    を含む装置。
  28. 一連のコンピュータ可読命令が記憶される非一時的コンピュータ可読媒体であって、当該命令は少なくとも1つのプロセッサによって実行されると、装置に少なくとも、
    ・ 畳み込み層群を含む人工ニューラルネットワークの第1の畳み込み層に、入力データ項目を提供することと、
    ・ 前記畳み込み層群における前記入力データ項目を処理することと、
    ・ 前記畳み込み層群の最後の畳み込み層から出力された特徴マップにおいて、第1の特徴マップパッチおよび第2の特徴マップパッチを定義することと、
    ・ 前記第1の特徴マップパッチを第1の分類器に提供し、前記第2の特徴マップパッチを第2の分類器に提供することと、
    を実行させる、非一時的コンピュータ可読媒体。
  29. 請求項14から26の少なくとも1つに記載の方法を実施させるように構成されたコンピュータプログラム。
JP2018504101A 2015-07-29 2015-07-29 ニューラルネットワークによるオブジェクト検出 Pending JP2018527660A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2015/085386 WO2017015887A1 (en) 2015-07-29 2015-07-29 Object detection with neural network

Publications (1)

Publication Number Publication Date
JP2018527660A true JP2018527660A (ja) 2018-09-20

Family

ID=57886862

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018504101A Pending JP2018527660A (ja) 2015-07-29 2015-07-29 ニューラルネットワークによるオブジェクト検出

Country Status (5)

Country Link
US (1) US10614339B2 (ja)
EP (1) EP3329424B1 (ja)
JP (1) JP2018527660A (ja)
CN (1) CN107851195B (ja)
WO (1) WO2017015887A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019091421A (ja) * 2017-11-15 2019-06-13 富士通株式会社 イベント検出に用いられる深層学習ネットワーク、該ネットワークの訓練装置及び訓練方法
JP2020047191A (ja) * 2018-09-21 2020-03-26 ソニーセミコンダクタソリューションズ株式会社 固体撮像システム、固体撮像装置、情報処理装置、画像処理方法及びプログラム
US11600078B2 (en) 2020-03-19 2023-03-07 Honda Motor Co., Ltd. Information processing apparatus, information processing method, vehicle, information processing server, and storage medium
US11860627B2 (en) 2020-01-16 2024-01-02 Honda Motor Co., Ltd. Image processing apparatus, vehicle, control method for information processing apparatus, storage medium, information processing server, and information processing method for recognizing a target within a captured image

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107851195B (zh) 2015-07-29 2022-02-11 诺基亚技术有限公司 利用神经网络进行目标检测
US11204597B2 (en) * 2016-05-20 2021-12-21 Moog Inc. Outer space digital logistics system
US11308391B2 (en) 2017-03-06 2022-04-19 Baidu Usa Llc Offline combination of convolutional/deconvolutional and batch-norm layers of convolutional neural network models for autonomous driving vehicles
WO2018218651A1 (en) * 2017-06-02 2018-12-06 Nokia Technologies Oy Artificial neural network
WO2018232754A1 (en) * 2017-06-23 2018-12-27 Microsoft Technology Licensing, Llc. JOINT OBJECT DETECTION BASED ON COLLABORATIVE INFORMATION
US10395144B2 (en) * 2017-07-24 2019-08-27 GM Global Technology Operations LLC Deeply integrated fusion architecture for automated driving systems
KR101977174B1 (ko) 2017-09-13 2019-05-10 이재준 영상 분석 방법, 장치 및 컴퓨터 프로그램
JP6945423B2 (ja) * 2017-11-27 2021-10-06 ホーチキ株式会社 放水型消火設備
JP7107544B2 (ja) * 2018-01-16 2022-07-27 Necソリューションイノベータ株式会社 情報処理装置、制御方法、及びプログラム
CN108596013B (zh) * 2018-01-29 2020-08-28 清华大学 基于多粒度深度特征学习的行人检测方法及装置
RU2769354C2 (ru) * 2018-02-09 2022-03-30 Сосьете Де Продюи Нестле С.А. Устройство для приготовления напитка с распознаванием капсулы
CN108268863B (zh) * 2018-02-13 2020-12-01 北京市商汤科技开发有限公司 一种图像处理方法、装置和计算机存储介质
CN108470179B (zh) * 2018-03-29 2022-04-15 百度在线网络技术(北京)有限公司 用于检测对象的方法和装置
CN108875904A (zh) * 2018-04-04 2018-11-23 北京迈格威科技有限公司 图像处理方法、图像处理装置和计算机可读存储介质
US11669724B2 (en) 2018-05-17 2023-06-06 Raytheon Company Machine learning using informed pseudolabels
JP2020013206A (ja) * 2018-07-13 2020-01-23 日本ユニシス株式会社 動画・カメラからの二輪車検知装置、プログラム及びシステム
DE102018217092A1 (de) * 2018-10-05 2020-04-09 Robert Bosch Gmbh Verfahren, künstliches neuronales Netz, Vorrichtung, Computerprogramm und maschinenlesbares Speichermedium zur semantischen Segmentierung von Bilddaten
CN109522966B (zh) * 2018-11-28 2022-09-27 中山大学 一种基于密集连接卷积神经网络的目标检测方法
CN109784327B (zh) * 2018-12-04 2021-04-16 北京达佳互联信息技术有限公司 边界框确定方法、装置、电子设备及存储介质
CN109784291B (zh) * 2019-01-23 2020-10-23 电子科技大学 基于多尺度的卷积特征的行人检测方法
CN111666960B (zh) * 2019-03-06 2024-01-19 南京地平线机器人技术有限公司 图像识别方法、装置、电子设备及可读存储介质
CN110490174A (zh) * 2019-08-27 2019-11-22 电子科技大学 基于特征融合的多尺度行人检测方法
US11068747B2 (en) 2019-09-27 2021-07-20 Raytheon Company Computer architecture for object detection using point-wise labels
US11676391B2 (en) 2020-04-16 2023-06-13 Raytheon Company Robust correlation of vehicle extents and locations when given noisy detections and limited field-of-view image frames
EP4272168A1 (en) * 2021-01-04 2023-11-08 Zhejiang University Methods and systems for processing video streams with layer information
US11562184B2 (en) 2021-02-22 2023-01-24 Raytheon Company Image-based vehicle classification

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005267406A (ja) * 2004-03-19 2005-09-29 Canon Inc パターン検出方法及び装置
JP2007087346A (ja) * 2005-09-26 2007-04-05 Canon Inc 情報処理装置及びその制御方法、コンピュータプログラム、記憶媒体
JP2015032308A (ja) * 2013-07-31 2015-02-16 富士通株式会社 畳み込みニューラルネットワークの分類器、及びその分類方法、訓練方法
JP2015095215A (ja) * 2013-11-14 2015-05-18 株式会社デンソーアイティーラボラトリ 学習装置、学習プログラム、及び学習方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7469209B2 (en) * 2003-08-14 2008-12-23 Dilithium Networks Pty Ltd. Method and apparatus for frame classification and rate determination in voice transcoders for telecommunications
FR2884008A1 (fr) * 2005-03-31 2006-10-06 France Telecom Systeme et procede de localisation de points d'interet dans une image d'objet mettant en oeuvre un reseau de neurones
US8542928B2 (en) 2005-09-26 2013-09-24 Canon Kabushiki Kaisha Information processing apparatus and control method therefor
US7724957B2 (en) * 2006-07-31 2010-05-25 Microsoft Corporation Two tiered text recognition
US9072428B2 (en) * 2009-03-25 2015-07-07 Trustees Of Boston University Classification techniques for medical diagnostics using optical spectroscopy
US9811775B2 (en) * 2012-12-24 2017-11-07 Google Inc. Parallelizing neural networks during training
US9710695B2 (en) * 2013-03-15 2017-07-18 Sony Corporation Characterizing pathology images with statistical analysis of local neural network responses
JP6192010B2 (ja) * 2013-09-05 2017-09-06 国立大学法人 東京大学 重み設定装置および方法
US9202144B2 (en) * 2013-10-30 2015-12-01 Nec Laboratories America, Inc. Regionlets with shift invariant neural patterns for object detection
CN104680508B (zh) * 2013-11-29 2018-07-03 华为技术有限公司 卷积神经网络和基于卷积神经网络的目标物体检测方法
CN104102919B (zh) 2014-07-14 2017-05-24 同济大学 一种有效防止卷积神经网络过拟合的图像分类方法
KR102055355B1 (ko) * 2015-01-28 2019-12-12 구글 엘엘씨 배치 정규화 레이어들
CN104573731B (zh) * 2015-02-06 2018-03-23 厦门大学 基于卷积神经网络的快速目标检测方法
US9436895B1 (en) * 2015-04-03 2016-09-06 Mitsubishi Electric Research Laboratories, Inc. Method for determining similarity of objects represented in images
CN107851195B (zh) 2015-07-29 2022-02-11 诺基亚技术有限公司 利用神经网络进行目标检测

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005267406A (ja) * 2004-03-19 2005-09-29 Canon Inc パターン検出方法及び装置
JP2007087346A (ja) * 2005-09-26 2007-04-05 Canon Inc 情報処理装置及びその制御方法、コンピュータプログラム、記憶媒体
JP2015032308A (ja) * 2013-07-31 2015-02-16 富士通株式会社 畳み込みニューラルネットワークの分類器、及びその分類方法、訓練方法
JP2015095215A (ja) * 2013-11-14 2015-05-18 株式会社デンソーアイティーラボラトリ 学習装置、学習プログラム、及び学習方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
岡谷 貴之: "「Deep Learning(深層学習)」〔第4回〕", 人工知能学会誌 第28巻 第6号, vol. 第28巻, JPN6019011976, 1 November 2013 (2013-11-01), JP, pages 962 - 974, ISSN: 0004130132 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019091421A (ja) * 2017-11-15 2019-06-13 富士通株式会社 イベント検出に用いられる深層学習ネットワーク、該ネットワークの訓練装置及び訓練方法
JP2020047191A (ja) * 2018-09-21 2020-03-26 ソニーセミコンダクタソリューションズ株式会社 固体撮像システム、固体撮像装置、情報処理装置、画像処理方法及びプログラム
WO2020059464A1 (ja) * 2018-09-21 2020-03-26 ソニーセミコンダクタソリューションズ株式会社 固体撮像システム、固体撮像装置、情報処理装置、画像処理方法、情報処理方法及びプログラム
CN112703726A (zh) * 2018-09-21 2021-04-23 索尼半导体解决方案公司 固态成像系统、固态成像装置、信息处理装置、图像处理方法、信息处理方法和程序
US11860627B2 (en) 2020-01-16 2024-01-02 Honda Motor Co., Ltd. Image processing apparatus, vehicle, control method for information processing apparatus, storage medium, information processing server, and information processing method for recognizing a target within a captured image
US11600078B2 (en) 2020-03-19 2023-03-07 Honda Motor Co., Ltd. Information processing apparatus, information processing method, vehicle, information processing server, and storage medium

Also Published As

Publication number Publication date
EP3329424A1 (en) 2018-06-06
CN107851195A (zh) 2018-03-27
EP3329424A4 (en) 2019-06-05
US20180211130A1 (en) 2018-07-26
EP3329424B1 (en) 2023-07-12
CN107851195B (zh) 2022-02-11
US10614339B2 (en) 2020-04-07
WO2017015887A1 (en) 2017-02-02

Similar Documents

Publication Publication Date Title
JP2018527660A (ja) ニューラルネットワークによるオブジェクト検出
JP6488380B2 (ja) ニューラルネットワークによるオブジェクト検出
JP2017538999A5 (ja)
Dong et al. A lightweight vehicles detection network model based on YOLOv5
EP3289529B1 (en) Reducing image resolution in deep convolutional networks
US10902615B2 (en) Hybrid and self-aware long-term object tracking
WO2018120013A1 (en) Artificial neural network
US20180129934A1 (en) Enhanced siamese trackers
US20160283864A1 (en) Sequential image sampling and storage of fine-tuned features
TW201706918A (zh) 作爲供神經網路的訓練準則的濾波器特異性
CN111797983A (zh) 一种神经网络构建方法以及装置
CN112418360B (zh) 卷积神经网络的训练方法、行人属性识别方法及相关设备
CN113516227A (zh) 一种基于联邦学习的神经网络训练方法及设备
US10956788B2 (en) Artificial neural network
Shustanov et al. A Method for Traffic Sign Recognition with CNN using GPU.
US20230259782A1 (en) Artificial neural network
US20190340416A1 (en) Artificial neural network
WO2022127819A1 (en) Sequence processing for a dataset with frame dropping
JP5901054B2 (ja) 物体の検出方法及びその方法を用いた物体の検出装置
Ngoc Check for updates Robust Traffic Sign Detection and Classification Through the Integration of YOLO and Deep Learning Networks
CN117636122A (zh) 一种用于车型车轴识别的训练方法及检测方法
CN114529914A (zh) 一种图像处理方法及其设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180216

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190320

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190531

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20191009

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20200115

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20200526

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20200909

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20210308

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20210506

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20210913

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20211014

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20211014