JP6902611B2 - 物体検出方法、ニューラルネットワークの訓練方法、装置および電子機器 - Google Patents

物体検出方法、ニューラルネットワークの訓練方法、装置および電子機器 Download PDF

Info

Publication number
JP6902611B2
JP6902611B2 JP2019545345A JP2019545345A JP6902611B2 JP 6902611 B2 JP6902611 B2 JP 6902611B2 JP 2019545345 A JP2019545345 A JP 2019545345A JP 2019545345 A JP2019545345 A JP 2019545345A JP 6902611 B2 JP6902611 B2 JP 6902611B2
Authority
JP
Japan
Prior art keywords
feature map
fusion feature
target area
subnet
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019545345A
Other languages
English (en)
Other versions
JP2020509488A (ja
Inventor
ホンヤン リー
ホンヤン リー
イー リュー
イー リュー
ワンリー ウーヤン
ワンリー ウーヤン
シャオガン ワン
シャオガン ワン
Original Assignee
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド, ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド filed Critical ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Publication of JP2020509488A publication Critical patent/JP2020509488A/ja
Application granted granted Critical
Publication of JP6902611B2 publication Critical patent/JP6902611B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Description

本願は画像処理技術、特に物体検出方法および装置、ニューラルネットワークの訓練方法および装置、ならびに電子機器に関する。
目標領域ボックス検出の目的は画像から物体が存在可能な複数の矩形ボックスを検出することである。畳み込みニューラルネットワークを使用して検出する現在の通常の技術では、畳み込みニューラルネットワークにおけるプーリング層によって特徴マップのサイズを徐々に縮小し、それにより物体が存在可能な矩形ボックスを最終的に特定し、このようなネットワーク構造は「ズームアウトネットワーク」(zoom−out structure)と呼ばれている。
本願は2017年2月23日に中国特許局に提出された、出願番号がCN201710100676.1であり、名称が「物体検出方法、ニューラルネットワークの訓練方法、装置および電子機器」である中国特許出願の優先権を主張しており、その全ての内容が引用により本願に組み込まれる。
本願は画像をもとに目標領域ボックスを検出する技術を提供する。
本願の実施例の第一態様によれば、目標領域ボックス検出用のディープ畳み込みニューラルネットワークにより、処理対象の画像から複数の融合特徴マップを予測して取得することと、前記複数の融合特徴マップに基づいて目標領域ボックスデータを取得すること、とを含み、前記ディープ畳み込みニューラルネットワークは、少なくとも一つのダウンサンプリング層を有する第一サブネット、および、少なくとも一つのアップサンプリング層を有する第二サブネットを含み、前記融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られる物体検出方法が提供される。
本願の一実施形態では、前記第二サブネットは前記第一サブネットの末端に設置され、前記第一サブネットは、複数の第一畳み込み層と、前記複数の第一畳み込み層の間に設置された前記少なくとも一つのダウンサンプリング層とを有し、前記第二サブネットは、複数の第二畳み込み層と、前記複数の第二畳み込み層の間に設置された前記少なくとも一つのアップサンプリング層とを有し、前記第一畳み込み層と前記第二畳み込み層は対称に設置され、前記少なくとも一つのダウンサンプリング層と前記少なくとも一つのアップサンプリング層はそれぞれ対称に設置される。
本願の一実施形態では、少なくとも一つの前記第一畳み込み層には前記第一特徴マップを出力するための第一出力分岐が設けられ、少なくとも一つの前記第二畳み込み層には前記第二特徴マップを出力するための第二出力分岐が設けられる。
本願の一実施形態では、前記第二サブネットは複数の第三畳み込み層をさらに有し、前記第三畳み込み層の入力が前記第一出力分岐および前記第二出力分岐を含み、複数の融合特徴マップを予測して取得する前記ステップは、前記複数の第三畳み込み層の出力端から前記融合特徴マップをそれぞれ取得することを含む。
本願の一実施形態では、前記融合特徴マップにおける少なくとも一つのポイントは複数の物体検知ボックスに対応するボックス融合検出データおよび予測正確情報を有し、前記複数の融合特徴マップに基づいて目標領域ボックスデータを取得する前記ステップは、少なくとも一つの前記融合特徴マップにおけるボックス融合検出データおよび予測正確情報に基づいて前記融合特徴マップの各々に対応する目標領域ボックスデータをそれぞれ取得することを含む。
本願の一実施形態では、前記複数の融合特徴マップに基づいて目標領域ボックスデータを取得する前記ステップは、前記融合特徴マップの各々に対応する予選目標領域ボックスデータをそれぞれ取得することと、前記融合特徴マップを調整することで、調整された融合特徴マップから新たな予選目標領域ボックスデータを取得するという物体領域ボックス回帰操作を、反復終止条件を満たすまで反復実行することと、前記反復実行により得られた前記予選目標領域ボックスデータを前記処理対象の画像における目標領域ボックスデータとすることと、を含む。
本願の一実施形態では、前記ディープ畳み込みニューラルネットワークはさらに、前記第三畳み込み層にそれぞれ対応する数群の第四畳み込み層および前記数群の第四畳み込み層にそれぞれ対応する複数のプーリング層を有する第三サブネットを含み、各前記プーリング層の入力は前記調整された融合特徴マップおよび前記予選目標領域ボックスのデータを含む。
本願の一実施形態では、前記物体領域ボックス回帰操作は、前記第四畳み込み層によって現在の前記融合特徴マップをそれぞれ畳み込み、調整融合特徴マップを取得することと、現在の予選目標領域ボックスデータに基づき、前記プーリング層によって前記調整融合特徴マップの領域プーリングを行い、新たな融合特徴マップを取得することと、前記新たな融合特徴マップから前記新たな予選目標領域ボックスデータを取得することと、を含む。
本願の一実施形態では、前記第三サブネットはさらに前記プーリング層出力端に設置された第五畳み込み層を有し、前記新たな融合特徴マップから前記新たな予選目標領域ボックスデータを取得する前記ステップは、前記第五畳み込み層によって前記新たな融合特徴マップに対して正規化畳み込みを行い、正規化畳み込みを行った融合特徴マップから前記新たな予選目標領域ボックスデータを取得することを含む。
本願の一実施形態では、前記第一サブネットと前記第二サブネットとも認知-バッチ正規化(Inception−BN)ネットワーク構造であり、前記第三サブネットは残差ネットワーク(ResNet)構造である。
本願の第二態様によれば、目標領域ボックス標記情報を含むサンプル画像を目標領域ボックス検出用のディープ畳み込みニューラルネットワークに入力し、複数の融合特徴マップを検出して取得することと、前記複数の融合特徴マップに基づいて前記サンプル画像の目標領域ボックスデータを取得することと、取得した前記サンプル画像の目標領域ボックスデータおよび前記目標領域ボックス標記情報に基づいて物体ボックス検出の第一差異データを特定することと、前記第一差異データに基づいて前記ディープ畳み込みニューラルネットワークのネットワークパラメータを調整することと、を含み、前記ディープ畳み込みニューラルネットワークは、少なくとも一つのダウンサンプリング層を有する第一サブネット、および、少なくとも一つのアップサンプリング層を有する第二サブネットを含み、前記融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られるニューラルネットワークの訓練方法が提供される。
本願の一実施形態では、前記第二サブネットは前記第一サブネットの末端に設置され、前記第一サブネットは、複数の第一畳み込み層と、前記複数の第一畳み込み層の間に設置された前記少なくとも一つのダウンサンプリング層とを有し、前記第二サブネットは、複数の第二畳み込み層と、前記複数の第二畳み込み層の間に設置された前記少なくとも一つのアップサンプリング層とを有し、前記第一畳み込み層と前記第二畳み込み層は対称に設置され、前記少なくとも一つのダウンサンプリング層と前記少なくとも一つのアップサンプリング層はそれぞれ対称に設置される。
本願の一実施形態では、少なくとも一つの前記第一畳み込み層には前記第一特徴マップを出力するための第一出力分岐が設けられ、少なくとも一つの前記第二畳み込み層には前記第二特徴マップを出力するための第二出力分岐が設けられる。
本願の一実施形態では、前記第二サブネットは複数の第三畳み込み層をさらに有し、前記第三畳み込み層の入力が前記第一出力分岐および前記第二出力分岐を含み、複数の融合特徴マップを検出して取得する前記ステップは、前記複数の第三畳み込み層の出力端から前記融合特徴マップをそれぞれ取得することを含む。
本願の一実施形態では、前記融合特徴マップにおける少なくとも一つのポイントは複数の物体検知ボックスに対応するボックス融合検出データおよび予測正確情報を有する。
本願の一実施形態では、前記ディープ畳み込みニューラルネットワークはさらに、前記第三畳み込み層にそれぞれ対応する数群の第四畳み込み層および前記数群の第四畳み込み層にそれぞれ対応する複数のプーリング層を有する第三サブネットを含み、各前記プーリング層の入力は前記調整された融合特徴マップおよび前記予選目標領域ボックスのデータを含む。
本願の一実施形態では、前記方法はさらに、前記第四畳み込み層によって現在の前記融合特徴マップをそれぞれ畳み込み、調整融合特徴マップを取得し、現在の予選目標領域ボックスデータに基づき、前記プーリング層によって前記調整融合特徴マップの領域プーリングを行い、新たな融合特徴マップを取得し、前記新たな融合特徴マップから前記新たな予選目標領域ボックスデータを取得し、調整されていない予選目標領域ボックスデータと新たな予選目標領域ボックスデータとの間のボックス回帰データ、新たな予選目標領域ボックスデータおよび対応する目標領域ボックス標記情報に基づいて物体ボックス検出の第二差異データを特定し、前記第二差異データに基づいて前記第三サブネットのネットワークパラメータを調整する、という目標領域ボックス回帰訓練操作を、反復終止条件を満たすまで反復実行することを含む。
本願の一実施形態では、前記第三サブネットはさらに前記プーリング層出力端に設置された第五畳み込み層を有し、前記新たな融合特徴マップから前記新たな予選目標領域ボックスデータを取得する前記ステップは、前記第五畳み込み層によって前記新たな融合特徴マップに対して正規化畳み込みを行い、正規化畳み込みを行った融合特徴マップから前記新たな予選目標領域ボックスデータを取得することを含む。
本願の一実施形態では、目標領域ボックス標記情報を含むサンプル画像を目標領域ボックス検出用のディープ畳み込みニューラルネットワークに入力し、複数の融合特徴マップを検出して取得するステップの前に、前記方法はさらに、前記サンプル画像をズームし、それによって少なくとも一つの物体領域ボックスの真値が物体検知ボックスによりカバーされるようにすることを含む。
本願の一実施形態では、前記サンプル画像の目標領域ボックス標記情報は、物体領域ボックスとの真値の重複率が第一重複比率値以上である正サンプル領域ボックスの標記情報、および、物体領域ボックスとの真値の重複率が第二重複比率値以下である負サンプル領域ボックスの標記情報を含み、前記第一重複比率値は前記第二重複比率値よりも大きい。
本願の一実施形態では、前記サンプル画像の目標領域ボックス標記情報はさらに、物体領域ボックスとの真値の重複率が前記第一重複比率値と前記第二重複比率値の間にある中性サンプル領域ボックスの標記情報を含む。
本願の一実施形態では、全ての前記サンプル画像において、標記される正サンプル領域ボックスの総和が前記正サンプル領域ボックス、負サンプル領域ボックスおよび中性サンプル領域ボックスのボックス総数に占める比率は、50%よりも大きい所定の第一比率以上であり、標記される負サンプル領域ボックスの総和がボックス総数に占める比率は所定の第二比率以下であり、標記される中性サンプル領域ボックスの総和がボックス総数に占める比率は、第一比率と第二比率の和の半分以下である所定の第三比率以下である。
本願の一実施形態では、前記第一サブネットと前記第二サブネットとも認知-バッチ正規化ネットワーク構造であり、前記第三サブネットは残差ネットワーク構造である。
本願の第三態様によれば、目標領域ボックス検出用のディープ畳み込みニューラルネットワークにより、処理対象の画像から複数の融合特徴マップを予測して取得するための融合特徴マップ予測モジュールと、前記融合特徴マップ予測モジュールが取得した複数の融合特徴マップに基づいて目標領域ボックスデータを取得するための目標領域ボックス予測モジュールと、を含み、前記ディープ畳み込みニューラルネットワークは、少なくとも一つのダウンサンプリング層を有する第一サブネット、および、少なくとも一つのアップサンプリング層を有する第二サブネットを含み、前記融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られる物体検出装置が提供される。
本願の一実施形態では、前記第二サブネットは前記第一サブネットの末端に設置され、前記第一サブネットは、複数の第一畳み込み層と、前記複数の第一畳み込み層の間に設置された前記少なくとも一つのダウンサンプリング層とを有し、前記第二サブネットは、複数の第二畳み込み層と、前記複数の第二畳み込み層の間に設置された前記少なくとも一つのアップサンプリング層とを有し、前記第一畳み込み層と前記第二畳み込み層は対称に設置され、前記少なくとも一つのダウンサンプリング層と前記少なくとも一つのアップサンプリング層はそれぞれ対称に設置される。
本願の一実施形態では、少なくとも一つの前記第一畳み込み層には前記第一特徴マップを出力するための第一出力分岐が設けられ、少なくとも一つの前記第二畳み込み層には前記第二特徴マップを出力するための第二出力分岐が設けられる。
本願の一実施形態では、前記第二サブネットは複数の第三畳み込み層をさらに有し、前記第三畳み込み層の入力が前記第一出力分岐および前記第二出力分岐を含み、前記融合特徴マップ予測モジュールは前記複数の第三畳み込み層の出力端から前記融合特徴マップをそれぞれ取得するために用いられる。
本願の一実施形態では、前記融合特徴マップにおける少なくとも一つのポイントは複数の物体検知ボックスに対応するボックス融合検出データおよび予測正確情報を有し、前記目標領域ボックス予測モジュールは少なくとも一つの前記融合特徴マップにおけるボックス融合検出データおよび予測正確情報に基づいて前記融合特徴マップの各々に対応する目標領域ボックスデータをそれぞれ取得するために用いられる。
本願の一実施形態では、前記目標領域ボックス予測モジュールは、前記融合特徴マップの各々に対応する予選目標領域ボックスデータをそれぞれ取得し、前記融合特徴マップを調整することで、調整された融合特徴マップから新たな予選目標領域ボックスデータを取得するという領域ボックス回帰動作を、反復終止条件を満たすまで反復実行し、前記反復実行により得られた前記予選目標領域ボックスデータを前記処理対象の画像における目標領域ボックスデータとするために用いられる。
本願の一実施形態では、前記ディープ畳み込みニューラルネットワークはさらに、前記第三畳み込み層にそれぞれ対応する数群の第四畳み込み層および前記数群の第四畳み込み層にそれぞれ対応する複数のプーリング層を有する第三サブネットを含み、各前記プーリング層の入力は前記調整された融合特徴マップおよび前記予選目標領域ボックスのデータを含む。
本願の一実施形態では、前記目標領域ボックス予測モジュールは、前記第四畳み込み層によって現在の前記融合特徴マップをそれぞれ畳み込み、調整融合特徴マップを取得するためのボックス調整ユニットと、現在の予選目標領域ボックスデータに基づき、前記プーリング層によって前記調整融合特徴マップの領域プーリングを行い、新たな融合特徴マップを取得するための領域プーリングユニットと、前記新たな融合特徴マップから前記新たな予選目標領域ボックスデータを取得するための予選ボックス取得ユニットと、を含む。
本願の一実施形態では、前記第三サブネットはさらに前記プーリング層出力端に設置された第五畳み込み層を有し、前記予選ボックス取得ユニットは前記第五畳み込み層によって前記新たな融合特徴マップに対して正規化畳み込みを行い、正規化畳み込みを行った融合特徴マップから前記新たな予選目標領域ボックスデータを取得するために用いられる。
本願の一実施形態では、前記第一サブネットと前記第二サブネットとも認知-バッチ正規化(Inception−BN)ネットワーク構造であり、前記第三サブネットは残差ネットワーク(ResNet)構造である。
本願の第四態様によれば、目標領域ボックス標記情報を含むサンプル画像を目標領域ボックス検出用のディープ畳み込みニューラルネットワークに入力し、複数の融合特徴マップを検出して取得するための融合特徴マップ検出モジュールと、前記複数の融合特徴マップに基づいて前記サンプル画像の目標領域ボックスデータを取得するための目標領域ボックス検出モジュールと、取得した前記サンプル画像の目標領域ボックスデータおよび前記目標領域ボックス標記情報に基づいて物体ボックス検出の第一差異データを特定するための第一差異取得モジュールと、前記第一差異データに基づいて前記ディープ畳み込みニューラルネットワークのネットワークパラメータを調整するための第一ネットワーク訓練モジュールと、を含み、前記ディープ畳み込みニューラルネットワークは、少なくとも一つのダウンサンプリング層を有する第一サブネット、および、少なくとも一つのアップサンプリング層を有する第二サブネットを含み、前記融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られるニューラルネットワークの訓練装置が提供される。
本願の一実施形態では、前記第二サブネットは前記第一サブネットの末端に設置され、前記第一サブネットは、複数の第一畳み込み層と、前記複数の第一畳み込み層の間に設置された前記少なくとも一つのダウンサンプリング層とを有し、前記第二サブネットは、複数の第二畳み込み層と、前記複数の第二畳み込み層の間に設置された前記少なくとも一つのアップサンプリング層とを有し、前記第一畳み込み層と前記第二畳み込み層は対称に設置され、前記少なくとも一つのダウンサンプリング層と前記少なくとも一つのアップサンプリング層はそれぞれ対称に設置される。
本願の一実施形態では、少なくとも一つの前記第一畳み込み層には前記第一特徴マップを出力するための第一出力分岐が設けられ、少なくとも一つの前記第二畳み込み層には前記第二特徴マップを出力するための第二出力分岐が設けられる。
本願の一実施形態では、前記第二サブネットは複数の第三畳み込み層をさらに有し、前記第三畳み込み層の入力が前記第一出力分岐および前記第二出力分岐を含み、前記融合特徴マップ検出モジュールは前記複数の第三畳み込み層の出力端から前記融合特徴マップをそれぞれ取得するために用いられる。
本願の一実施形態では、前記融合特徴マップにおける少なくとも一つのポイントは複数の物体検知ボックスに対応するボックス融合検出データおよび予測正確情報を有する。
本願の一実施形態では、前記ディープ畳み込みニューラルネットワークはさらに、前記第三畳み込み層にそれぞれ対応する数群の第四畳み込み層および前記数群の第四畳み込み層にそれぞれ対応する複数のプーリング層を有する第三サブネットを含み、各前記プーリング層の入力は前記調整された融合特徴マップおよび前記予選目標領域ボックスのデータを含む。
本願の一実施形態では、前記装置はさらに、前記第四畳み込み層によって現在の前記融合特徴マップをそれぞれ畳み込み、調整融合特徴マップを取得し、現在の予選目標領域ボックスデータに基づき、前記プーリング層によって前記調整融合特徴マップの領域プーリングを行い、新たな融合特徴マップを取得し、前記新たな融合特徴マップから前記新たな予選目標領域ボックスデータを取得し、調整されていない予選目標領域ボックスデータと新たな予選目標領域ボックスデータとの間のボックス回帰データ、新たな予選目標領域ボックスデータおよび対応する目標領域ボックス標記情報に基づいて物体ボックス検出の第二差異データを特定し、前記第二差異データに基づいて前記第三サブネットのネットワークパラメータを調整する、という目標領域ボックス回帰訓練操作を、反復終止条件を満たすまで反復実行するためのボックス回帰反復訓練モジュールを含む。
本願の一実施形態では、前記第三サブネットはさらに前記プーリング層出力端に設置された第五畳み込み層を有し、前記ボックス回帰反復訓練モジュールは前記第五畳み込み層によって前記新たな融合特徴マップに対して正規化畳み込みを行い、正規化畳み込みを行った融合特徴マップから前記新たな予選目標領域ボックスデータを取得するために用いられる。
本願の一実施形態では、前記装置はさらに、目標領域ボックス標記情報を含むサンプル画像を目標領域ボックス検出用のディープ畳み込みニューラルネットワークに入力し、複数の融合特徴マップを検出して取得するステップの前に、前記サンプル画像をズームし、それによって少なくとも一つの物体領域ボックスの真値が物体検知ボックスによりカバーされるようにするための前処理モジュールを含む。
本願の一実施形態では、前記サンプル画像の目標領域ボックス標記情報は、物体領域ボックスとの真値の重複率が第一重複比率値以上である正サンプル領域ボックスの標記情報、および、物体領域ボックスとの真値の重複率が第二重複比率値以下である負サンプル領域ボックスの標記情報を含み、前記第一重複比率値は前記第二重複比率値よりも大きい。
本願の一実施形態では、前記サンプル画像の目標領域ボックス標記情報はさらに、物体領域ボックスとの真値の重複率が前記第一重複比率値と前記第二重複比率値の間にある中性サンプル領域ボックスの標記情報を含む。
本願の一実施形態では、全ての前記サンプル画像において、標記される正サンプル領域ボックスの総和が前記正サンプル領域ボックス、負サンプル領域ボックスおよび中性サンプル領域ボックスのボックス総数に占める比率は、所定の第一比率以上であり、前記第一比率が50%よりも大きく、標記される負サンプル領域ボックスの総和がボックス総数に占める比率は所定の第二比率以下であり、標記される中性サンプル領域ボックスの総和がボックス総数に占める比率は、第一比率と第二比率の和の半分以下である所定の第三比率以下である。
本願の一実施形態では、前記第一サブネットと前記第二サブネットとも認知-バッチ正規化ネットワーク構造であり、前記第三サブネットは残差ネットワーク構造である。
本願の第五態様によれば、
プロセッサ、および
前記プロセッサに本願のいずれか一つの実施例に記載の物体検出方法に対応する動作を実行させる少なくとも一つの実行可能指令を記憶するための、または、前記プロセッサに本願のいずれか一つの実施例に記載のニューラルネットワークの訓練方法に対応する動作を実行させる少なくとも一つの実行可能指令を記憶するためのメモリを含む電子機器が提供される。
本願の第六態様によれば、
本願のいずれか一つの実施例に記載の物体検出装置、および、前記物体検出装置を運用する時、本願のいずれか一つの実施例に記載の物体検出装置におけるユニットが運用されるプロセッサ、または
本願のいずれか一つの実施例に記載のニューラルネットワークの訓練装置、および、前記ニューラルネットワークの訓練装置を運用する時、本願のいずれか一つの実施例に記載のニューラルネットワークの訓練装置におけるユニットが運用されるプロセッサを含む別の電子機器が提供される。
本願の第七態様によれば、機器において運用される時、前記機器内のプロセッサが本願のいずれか一つの実施例に記載の物体検出方法における各ステップを実現するための指令を実行するか、または
機器において運用される時、前記機器内のプロセッサが本願のいずれか一つの実施例に記載のニューラルネットワークの訓練方法における各ステップを実現するための指令を実行するコンピュータ読み取り可能コードを含むコンピュータプログラムが提供される。
本願の第八態様によれば、コンピュータ読み取り可能指令を記憶するためのコンピュータ読み取り可能記憶媒体であって、前記指令が実行される時に本願のいずれか一つの実施例に記載の物体検出方法における各ステップの動作、または本願のいずれか一つの実施例に記載のニューラルネットワークの訓練方法における各ステップの動作を実現するコンピュータ読み取り可能記憶媒体が提供される。
本願が提供する物体検出の解決手段、ニューラルネットワーク訓練の技術的解決手段によれば、目標領域ボックス検出用のディープ畳み込みニューラルネットワークにより、処理対象の画像から複数の融合特徴マップを予測して取得し、ここで、少なくとも一つのダウンサンプリング層を有する第一サブネットから複数の第一特徴マップを取得し、少なくとも一つのアップサンプリング層を有する第二サブネットから複数の第二特徴マップを取得し、それぞれ複数の第一特徴マップおよび複数の第二特徴マップで融合して融合特徴マップを得る。その後、さらに前記複数の融合特徴マップに基づいて目標領域ボックスデータを取得する。これらの融合特徴マップは画像における上位層の意味特徴(例えば、レイアウト、前背景情報)および下位層の特徴点(例えば、小物体情報)を効果的に特徴付けるため、これらの融合特徴マップに基づいて画像に含まれる大小物体の目標領域ボックスデータを効果的に抽出し、それにより物体検出の正確性およびロバスト性を向上させることができる。
以下に図面および実施例により、本願の技術的解決手段をさらに詳細に説明する。
明細書の一部となる図面は本願の実施例を説明するものであり、かつその説明と共に本願の原理を解釈するために用いられる。
図面と関連付けて、以下の詳細な説明によれば、本願をより明確に理解できる。そのうち、
本願の一実施例に係る物体検出方法を示すフローチャートである。 本願の別の実施例に係る物体検出方法を示すフローチャートである。 本願の実施例に係るディープ畳み込みニューラルネットワークの一例示的構造を示す。 本願のさらに別の実施例に係る物体検出方法を示すフローチャートである。 本願の一実施例に係るニューラルネットワークの訓練方法を示すフローチャートである。 本願の別の実施例に係るニューラルネットワークの訓練方法を示すフローチャートである。 本願のさらに別の実施例に係るニューラルネットワークの訓練方法を示すフローチャートである。 本願の一実施例に係る物体検出装置を示す構成ブロック図である。 本願の別の実施例に係る物体検出装置を示す構成ブロック図である。 本願の一実施例に係るニューラルネットワークの訓練装置を示す構成ブロック図である。 本願の別の実施例に係るニューラルネットワークの訓練装置を示す構成ブロック図である。 本願の一実施例に係る第一電子機器を示す構成模式図である。 本願の別の実施例に係る第二電子機器を示す構成模式図である。
ここで、図面を参照しながら本願の様々な例示的実施例を詳細に説明する。なお、特に断らない限り、これらの実施例において記述した部材およびステップの相対的配置、数式および数値は本願の範囲を限定するものではないことに注意すべきである。
同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。
以下の少なくとも一つの例示的実施例に対する説明は実際に説明的なものに過ぎず、本願およびその適用または使用へのなんらの制限にもならない。
関連分野の当業者に既知の技術、方法および機器については、詳細に説明しないが、場合によって、前記技術、方法および機器は明細書の一部と見なすべきである。
なお、類似する符号および英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。
本願はコンピュータシステム/サーバに適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。コンピュータシステム/サーバとの併用に適する公知の計算システム、環境および/または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステムおよび上記あらゆるシステムを含む分散型クラウドコンピューティング技術環境を含むが、これらに限定されない。
コンピュータシステム/サーバはコンピュータシステムにより実行されるコンピュータシステム実行可能指令(例えばプログラムモジュール)の一般的なコンテキストにおいて説明できる。通常、プログラムモジュールは、特定のタスクを実行するかまたは特定の抽象データ型を実現するルーチン、プログラム、目標プログラム、コンポーネント、ロジック、データ構造などを含むことができるが、これらに限定されない。コンピュータシステム/サーバは、通信ネットワークにわたってリンクされた遠隔処理機器によりタスクが実行される分散型クラウドコンピューティング環境において実施できる。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してもよい。
従来技術が提供するネットワーク構造による目標領域ボックス検出は、畳み込みニューラルネットワークにおける上位層から得られた特徴マップ内の情報を効果的に利用してネットワーク最下層の情報処理を補助することができず、それによってネットワークから取得した特徴データは十分な代表性およびロバスト性を有さず、小物体の検出に不利である。
以下に図1〜図13と関連付けて本開示が提供する物体検出の技術的解決手段を説明する。本開示が提供する任意のクラスタリングの技術的解決手段はソフトウェアまたはハードウェアまたは両者の組み合わせという方式で例示可能である。例えば、本開示が提供するクラスタリングの技術的解決手段はある電子機器によって実施可能またはあるプロセッサによって実施可能であり、本開示はそれを限定せず、前記電子機器は端末またはサーバを含むことができるが、それらに限定されず、前記プロセッサはCPUまたはGPUを含むことができるが、それらに限定されない。以下では説明を省略する。
図1は本願の一実施例に係る物体検出方法を示すフローチャートである。
図1を参照すると、本実施例の物体検出方法は以下のステップを含む。
ステップS110において、目標領域ボックス検出用のディープ畳み込みニューラルネットワークにより、処理対象の画像から複数の融合特徴マップを予測して取得する。
任意選択的な一例では、ステップS110はメモリに記憶された指令をプロセッサによって呼び出して実行してもよくまたはプロセッサにより運用される融合特徴マップ予測モジュール810によって実行してもよい。
そのうち、ディープ畳み込みニューラルネットワークは、少なくとも一つのダウンサンプリング層を有する第一サブネット、および、少なくとも一つのアップサンプリング層を有する第二サブネットを含む。融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られる。
本開示の上記実施例における処理対象の画像は一つ以上の対象物体を撮影した写真またはビデオフレーム画像である。該画像は撮影した対象物体を少なくとも目視で判別できるように、所定の解像度上の要件を満たさなければならない。
目標領域ボックス検出用のディープ畳み込みニューラルネットワークにおける第一サブネットは処理対象の画像を畳み込み、プーリングすることで、第一サブネットの異なる深さの複数の畳み込み層で該画像の第一特徴マップを取得でき、これらの第一特徴マップは異なる大きさの領域ボックスを特徴付ける。少なくとも一つのダウンサンプリング層が設置された第一サブネットにおいて、通常ディープ畳み込みニューラルネットワーク前方に位置する畳み込み層を指す浅い畳み込み層で取得した第一特徴マップは画像の細目を効果的に特徴付けることができるが、前景と背景が区別されにくく、通常ディープ畳み込みニューラルネットワーク後方に位置する畳み込み層を指す深い畳み込み層で取得した第一特徴マップは画像内の全体的な意味特徴を効果的に抽出することができるが、画像の細目情報、例えば小物体の情報が失われる。
少なくとも一つのアップサンプリング層を有する第二サブネットはさらに、第一サブネット末端から取得した第一特徴マップに対して相反する処理、即ち逆畳み込み、アップサンプリングおよびプーリング動作を実行し、第一サブネット末端から取得した第一特徴マップを段階的に拡大し、第二サブネットの異なる深さの複数の畳み込み層で前記第一特徴マップに対応する第二特徴マップを取得する。第二特徴マップはいずれも畳み込まれ、ダウンサンプリングされた第一特徴マップによって逆畳み込みおよびアップサンプリングされるため、このプロセスで、上位層の意味特徴は段階的に逆畳み込みされて下位層の特徴点と結合し、小物体(小物体の領域ボックス)の認識を補助できるようになる。
これにより、第一サブネットおよび第二サブネットによって実行する画像処理経路は砂時計状の構造を形成し、第一サブネットの第一畳み込み層から生成された第一特徴マップはダウンサンプリングによって徐々に小さくなり、第一サブネット末端で生成された第一特徴マップは第二サブネットの第二畳み込み層およびアップサンプリング層によって徐々に拡大される。
これをもとに、少なくとも一つの第一特徴マップを対応する第二特徴マップと融合し、複数の融合特徴マップを得て、これらの融合特徴マップは、異なる大きさの物体領域ボックスの認識に用いるように、画像における上位層の意味特徴および下位層の特徴点を効果的に特徴付けることができる。
ステップS120において、複数の融合特徴マップに基づいて目標領域ボックスデータを取得する。
任意選択的な一例では、ステップS120はメモリに記憶された指令をプロセッサによって呼び出して実行してもよくまたはプロセッサにより運用される目標領域ボックス予測モジュール820によって実行してもよい。
具体的には、少なくとも一つの融合特徴マップから目標領域ボックスデータを抽出し、さらに少なくとも一つの融合特徴マップから抽出した目標領域ボックスデータを、処理対象の画像から検出した目標領域ボックスデータとして統合する。
本願の実施例に係る物体検出方法によれば、目標領域ボックス検出用のディープ畳み込みニューラルネットワークにより、処理対象の画像から複数の融合特徴マップを予測して取得し、ここで、少なくとも一つのダウンサンプリング層を有する第一サブネットから複数の第一特徴マップを取得し、少なくとも一つのアップサンプリング層を有する第二サブネットから複数の第二特徴マップを取得し、それぞれ複数の第一特徴マップおよび複数の第二特徴マップで融合して融合特徴マップを得る。その後、さらに前記複数の融合特徴マップに基づいて目標領域ボックスデータを取得する。これらの融合特徴マップは画像における上位層の意味特徴(例えば、レイアウト、前背景情報)および下位層の特徴点(例えば、小物体情報)を効果的に特徴付けるため、これらの融合特徴マップに基づいて画像に含まれる大小物体の目標領域ボックスデータを効果的に抽出し、それにより物体検出の正確性およびロバスト性を向上させることができる。
図2は本願の別の実施例に係る物体検出方法を示すフローチャートである。
図2を参照すると、ステップS210で、目標領域ボックス検出用のディープ畳み込みニューラルネットワークにより、処理対象の画像から複数の融合特徴マップを予測して取得する。
任意選択的な一例では、ステップS210はメモリに記憶された指令をプロセッサによって呼び出して実行してもよくまたはプロセッサにより運用される融合特徴マップ予測モジュール810によって実行してもよい。
具体的には、該ディープ畳み込みニューラルネットワークにおいて、第一サブネットは、複数の第一畳み込み層と、複数の第一畳み込み層の間に設置された少なくとも一つのダウンサンプリング層とを有し、第二サブネットは、複数の第二畳み込み層と、複数の第二畳み込み層の間に設置された少なくとも一つのアップサンプリング層とを有する。第二サブネットは第一サブネットの末端に設置され、第一畳み込み層と第二畳み込み層は対称に設置され、少なくとも一つのダウンサンプリング層と少なくとも一つのアップサンプリング層はそれぞれ対称に設置される。
第一サブネットにおける異なる深さの複数の第一畳み込み層で該画像の複数の第一特徴マップを取得し、第二サブネットにおける前記複数の第一畳み込み層と対称に設置された第二畳み込み層で該画像の複数の第二特徴マップを取得することができる。
任意選択的に、少なくとも一つの第一畳み込み層には第一特徴マップを出力するための第一出力分岐が設けられ、第二畳み込み層には第二特徴マップを出力するための第二出力分岐が設けられる。
本願の任意選択的な一実施形態によれば、第二サブネットは複数の第三畳み込み層をさらに有し、第三畳み込み層の入力が前記第一出力分岐および前記第二出力分岐を含む。それに対して、前記複数の第三畳み込み層の出力端から前記融合特徴マップをそれぞれ取得する。
上記構造を有するあらゆるディープ畳み込みニューラルネットワークを使用できる。任意選択的に、第一サブネットも第二サブネットも物体検出において性能が高い認知-バッチ正規化(Inception−BN)ネットワーク構造として構築される。Inception−BNネットワーク構造は画像からの異なる構造/パターン(pattern)の抽出に優れており、第一サブネットおよび第二サブネットのタスク機能の実行に適する。
図3は本開示の実施例に係るディープ畳み込みニューラルネットワークの一例示的構造を示す。
図3を参照すると、本実施例に係るディープ畳み込みニューラルネットワークは第一サブネットSN1および第二サブネットSN2を含む。そのうち、第一サブネットSN1は複数の第一畳み込み層C1および複数の第一畳み込み層C1の間に設置された少なくとも一つのダウンサンプリング層P1を有し、第二サブネットSN2は複数の第二畳み込み層C2および複数の第二畳み込み層C2の間に設置された少なくとも一つのアップサンプリング層P2を有し、ダウンサンプリング層P1とアップサンプリング層P2は対称に設置され、複数の第一畳み込み層C1と複数の第二畳み込み層C2も対称に設置される。また、少なくとも一つの第一畳み込み層C1に第一出力分岐F1が設けられ、少なくとも一つの第二畳み込み層C2に第二出力分岐F2が設けられる。第二サブネットSN2にはさらに、融合特徴マップが出力される複数の第三畳み込み層C3が設けられる。
本願の任意選択的な一実施形態によれば、融合特徴マップにおける少なくとも一つのポイントは複数の物体検知ボックスに対応するボックス融合検出データおよび予測正確情報を有する。つまり、第一畳み込み層および第二畳み込み層には物体領域ボックス検知用の物体検知ボックスの情報、例えば、畳み込みパラメータまたは特徴パラメータがそれぞれ設定されている。異なる深さの第一畳み込み層および第二畳み込み層に設定された物体検知ボックスの情報は二つ以上の物体検知ボックスセットにそれぞれ対応し、該二つ以上の物体検知ボックスセットは、該ディープ畳み込みニューラルネットワークの異なる深さで異なる大きさの物体領域ボックスの特徴データを取得するように、異なる検知ボックスの大きさ範囲の物体検知ボックスをそれぞれ含む。
融合特徴マップにおける少なくとも一つのポイントのボックス融合検出データは、例えば物体検知ボックスセット内の物体検知ボックスに対応する座標データ、位置および大きさデータを含むことができるが、これらに限定されず、該予測正確情報は該ボックス融合検出データの信頼度データ、例えば、予測正確確率であってもよい。例えば、融合特徴マップにおける各ポイントは物体検知ボックスに対応する1つ、3つ、6つまたは9つの座標データおよび該座標データの信頼度データを有してもよい。
それに対して、本願の任意選択的な一実施形態によれば、ステップ210の後にステップS220を実行する。
ステップ220において、少なくとも一つの融合特徴マップにおけるボックス融合検出データおよび予測正確情報に基づいて融合特徴マップの各々に対応する目標領域ボックスデータをそれぞれ取得する。
任意選択的な一例では、ステップS220はメモリに記憶された指令をプロセッサによって呼び出して実行してもよくまたはメモリに記憶された指令によってプロセッサで実行してもよい。
具体的には、融合特徴マップにおける少なくとも一つのポイントのボックス融合検出データの予測正確情報に基づいて目標領域ボックスデータを取得できる。例えば、あるポイントのあるボックス座標データの信頼度が所定の閾値(例えば、60%、70%)よりも大きい場合、該ボックス座標データに対応する領域ボックスを目標領域ボックスデータの一つとして決定できる。
本願の別の任意選択的な実施形態によれば、ステップS210実行後、ステップS230〜S240を実行する。
ステップS230において、融合特徴マップの各々に対応する予選目標領域ボックスデータをそれぞれ取得する。
任意選択的な一例では、ステップS230はメモリに記憶された指令をプロセッサによって呼び出して実行してもよくまたはメモリに記憶された指令によってプロセッサで実行してもよい。
例えば、前記ステップS220またはS120に類似する処理を実行し、予選目標領域ボックスデータを取得することができ、即ち、前記ステップS220またはS120で取得した目標領域ボックスデータをステップS230での予選目標領域ボックスデータとし、それによってさらなる調整、補正処理を行い、物体領域ボックス検出の正確性を向上させることができる。
ステップS240で、融合特徴マップを調整することで、調整された融合特徴マップから新たな予選目標領域ボックスデータを取得するという物体領域ボックス回帰操作を、反復終止条件を満たすまで反復実行する。
任意選択的な一例では、ステップS240はメモリに記憶された指令をプロセッサによって呼び出して実行してもよくまたはメモリに記憶された指令によってプロセッサで実行してもよい。
つまり、各融合特徴マップを調整することでその内部の予選目標領域ボックスデータをそれぞれ調整し、さらに調整された融合特徴マップから新たな予選目標領域ボックスデータを取得し、それにより予選目標領域ボックスの回帰(物体領域ボックス回帰操作)を行い、より正確な新予選目標領域ボックスデータを取得する。
該ステップで、このような物体領域ボックス回帰操作を、反復終止条件を満たすまで反復実行し、それによってより正確な予選目標領域ボックスデータを最終的に取得する。該反復終止条件を必要に応じて、例えば、所定の反復回数に、または新たな予選目標領域ボックスデータと調整されていない予選目標領域ボックスデータの間の調整値(即ちボックス回帰)が所定のボックス回帰値よりも小さいように設定してもよい。
ステップS240の反復を完了した後、反復実行により得られた予選目標領域ボックスデータを処理対象の画像における目標領域ボックスデータとする。
本願の別の実施例に係る物体検出方法によれば、対称構造を有する目標領域ボックス検出用のディープ畳み込みニューラルネットワークによって、第一サブネットの複数の第一畳み込み層から、段階的に畳み込まれ、ダウンサンプリングされた処理対象の画像の複数の第一特徴マップを取得し、さらに第二サブネットの対称な複数の第二畳み込み層から、第一サブネットの末端で取得した第一特徴マップの段階的に逆畳み込みされ、アップサンプリングされた対応する複数の第二特徴マップを取得し、複数の第一特徴マップおよび対応する第二特徴マップをさらに畳み込み、画像における上位層の意味特徴(例えば、レイアウト、前背景情報)および下位層の特徴点(例えば、小物体情報)を効果的に特徴付ける融合特徴マップを取得し、それによりこれらの融合特徴マップに基づいて画像に含まれる大小物体の目標領域ボックスデータを効果的に抽出できる。
これをもとに、複数の融合特徴マップを調整することで、調整された融合特徴マップから新たな予選目標領域ボックスデータを取得し、それにより予選目標領域ボックスデータの回帰を反復実行する。目標領域ボックスデータの回帰調整を数回行うことで、含まれるより正確な目標領域ボックスデータをより正確に検出し、物体検出の正確性およびロバスト性をさらに向上させることができる。
図4は本願のさらに別の実施例に係る物体検出方法を示すフローチャートである。該実施例は前記ステップS240での例示的物体領域ボックス回帰操作を説明する。
該実施例に係るディープ畳み込みニューラルネットワークはさらに、第三畳み込み層にそれぞれ対応する数群の第四畳み込み層および数群の第四畳み込み層にそれぞれ対応する複数のプーリング層を有する第三サブネットを含み、各プーリング層の入力は調整された融合特徴マップおよび予選目標領域ボックスのデータを含む。
つまり、各第四畳み込み層群は一つ以上の畳み込み層を含むことができ、各第四畳み込み層群は前記第三畳み込み層の出力端に接続し、融合特徴マップを入力として受信することができる。各プーリング層は対応する第四畳み込み層の末端に設置され、調整された融合特徴マップおよび予選目標領域ボックスデータを入力として受信する。
そのうち、各第四畳み込み層群は第三畳み込み層から取得した融合特徴マップを畳み込み、調整融合特徴マップを取得するために用いられる。このプロセスで、該融合特徴マップから取得した予選目標領域ボックスデータを調整する。第三サブネットにおけるプーリング層は第四畳み込み層により畳み込まれて得られた調整融合特徴マップの領域プーリングを行い、新たな融合特徴マップを取得するために用いられる。それにより、新たな融合特徴マップから新たな予選目標領域ボックスデータを取得できる。
具体的には、物体領域ボックス回帰操作の毎回の反復処理は、現在の反復開始時の複数の融合特徴マップおよび予選目標領域ボックスデータに関与し、また現在の反復終了時に取得した新たな複数の融合特徴マップおよび新たな予選目標領域ボックスデータにも関与する。
ステップS410で、第四畳み込み層によって現在の融合特徴マップをそれぞれ畳み込み、調整融合特徴マップを取得し、それにより現在の予選目標領域ボックスを調整し、該調整は予選目標領域ボックスの位置および/または大きさの調整を含む。
任意選択的な一例では、該ステップS410はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用されるボックス調整ユニット821によって実行してもよい。
ステップS420で、現在の予選目標領域ボックスデータに基づき、プーリング層によって調整融合特徴マップの領域プーリングを行い、新たな融合特徴マップを取得する。
任意選択的な一例では、該ステップS420はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用される領域プーリングユニット822によって実行してもよい。
つまり、現在の予選目標領域ボックスを関心領域とし、調整融合特徴マップの領域プーリングを行い、新たな融合特徴マップを取得する。
現在の予選目標領域ボックスデータに基づいて調整融合特徴マップの領域プーリングを行う前記ステップによって、調整された目標領域ボックスに対する応答程度を反映する新たな融合特徴マップを取得し、それによって後続で新たな融合特徴マップから新たな予選目標領域ボックスデータを取得する。
ステップS430で、新たな融合特徴マップから新たな予選目標領域ボックスデータを取得し、それにより目標領域ボックスの回帰を完了し、調整された目標領域ボックスを物体領域ボックスの真値(ground truth)に近くすることができる。ステップS120またはS220に類似する処理によってステップS430の処理を実行してもよい。
任意選択的な一例では、該ステップS430はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用される予選ボックス取得ユニット823によって実行してもよい。
本願の任意選択的な一実施形態によれば、第三サブネットはさらに、プーリング層出力端に設置された第五畳み込み層を有する。それに対して、ステップS430は具体的に、第五畳み込み層によって新たな融合特徴マップに対して正規化畳み込みを行い、正規化畳み込みを行った融合特徴マップから前記新たな予選目標領域ボックスデータを取得することを含む。
上記構造を有するあらゆる畳み込みニューラルネットワークによって第三サブネットを構築できる。任意選択的に、第三サブネットを新たに開発された物体検出技術において性能が高い残差ネットワーク(ResNet)構造として構築し、領域プーリングおよび正規化畳み込みを実行するようにしてもよい。
本願の上記実施例に係る物体検出方法によれば、前記各実施例をもとに、少なくとも一つの融合特徴マップをさらに畳み込み、それによって該融合特徴マップに含まれる予選目標領域ボックスデータを調整し、さらに領域プーリングによって新たな融合特徴マップを取得し、新たな融合特徴マップから新たな予選目標領域ボックスデータを取得し、それにより予測して得られた予選目標領域ボックスデータを調整し、回帰し、物体検出の正確性およびロバスト性の向上に役立つ。
図5は本願の一実施例に係るニューラルネットワークの訓練方法を示すフローチャートである。
図5を参照すると、ステップS510で、目標領域ボックス標記情報を含むサンプル画像を目標領域ボックス検出用のディープ畳み込みニューラルネットワークに入力し、複数の融合特徴マップを検出して取得する。
任意選択的な一例では、該ステップS510はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用される融合特徴マップ検出モジュール1010によって実行してもよい。
上述したように、ディープ畳み込みニューラルネットワークは、少なくとも一つのダウンサンプリング層を有する第一サブネット、および、少なくとも一つのアップサンプリング層を有する第二サブネットを含み、融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られる。
目標領域ボックス検出用のディープ畳み込みニューラルネットワークを使用することで、目標領域ボックス標記情報を含むサンプル画像から複数の融合特徴マップを検出して取得することができる。
通常、複数のサンプル画像に対してステップS510の処理を実行し、少なくとも一つのサンプル画像のために複数の融合特徴マップを検出して取得する。
ステップS520において、複数の融合特徴マップに基づいてサンプル画像の目標領域ボックスデータを取得する。
任意選択的な一例では、該ステップS520はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用される目標領域ボックス検出モジュール1020によって実行してもよい。
ステップS520の処理はステップS120の処理に類似し、ここでは説明を省略する。
ステップS530において、取得したサンプル画像の目標領域ボックスデータおよび目標領域ボックス標記情報に基づいて物体ボックス検出の第一差異データを特定する。
任意選択的な一例では、該ステップS530はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用される第一差異取得モジュール1030によって実行してもよい。
例えば、取得した前記サンプル画像の目標領域ボックスデータおよび目標領域ボックス標記情報に基づいて欠損値または偏差値を該第一差異データとして、および後続でディープ畳み込みニューラルネットワークを訓練する根拠として計算する。
ステップS540で、第一差異データに基づいてディープ畳み込みニューラルネットワークのネットワークパラメータを調整する。
任意選択的な一例では、該ステップS540はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用される第一ネットワーク訓練モジュール1040によって実行してもよい。
例えば、特定した第一差異データを該ディープ畳み込みニューラルネットワークに逆伝播し、それによって該ディープ畳み込みニューラルネットワークのネットワークパラメータを調整する。
本願が提供するニューラルネットワークの訓練方法によれば、目標領域ボックス標記情報を含むサンプル画像を目標領域ボックス検出用のディープ畳み込みニューラルネットワークに入力し、複数の融合特徴マップを検出して取得し、ここで、少なくとも一つのダウンサンプリング層を有する第一サブネットから複数の第一特徴マップを検出して取得し、少なくとも一つのアップサンプリング層を有する第二サブネットから複数の第二特徴マップを検出して取得し、それぞれ複数の第一特徴マップおよび複数の第二特徴マップで融合して融合特徴マップを得て、さらに複数の融合特徴マップに基づいて目標領域ボックスデータを取得する。その後、取得した目標領域ボックスデータおよび目標領域ボックス標記情報に基づいて第一差異データを特定し、さらに第一差異データに基づいてディープ畳み込みニューラルネットワークのネットワークパラメータを調整する。訓練により得られたディープ畳み込みニューラルネットワークのこれらの融合特徴マップは画像における上位層の意味特徴(例えば、レイアウト、前背景情報)および下位層の特徴点(例えば、小物体情報)を効果的に特徴付けるため、これらの融合特徴マップに基づいて画像に含まれる大小物体の目標領域ボックスデータを効果的に抽出できる。訓練により得られたディープ畳み込みニューラルネットワークは物体検出の正確性およびロバスト性を向上させることができる。
図6は本願の別の実施例に係るニューラルネットワークの訓練方法を示すフローチャートである。
本実施例によれば、訓練されるディープ畳み込みニューラルネットワークにおいて、第二サブネットは第一サブネットの末端に設置され、第一サブネットは、複数の第一畳み込み層と、複数の第一畳み込み層の間に設置された少なくとも一つのダウンサンプリング層とを有し、第二サブネットは、複数の第二畳み込み層と、複数の第二畳み込み層の間に設置された少なくとも一つのアップサンプリング層とを有する。第一畳み込み層と第二畳み込み層は対称に設置され、少なくとも一つのダウンサンプリング層と少なくとも一つのアップサンプリング層はそれぞれ対称に設置される。
これをもとに、任意選択的に、少なくとも一つの第一畳み込み層に第一特徴マップを出力するための第一出力分岐が設けられ、第二畳み込み層に第二特徴マップを出力するための第二出力分岐が設けられる。
そこで、任意選択的に、第二サブネットはさらに、その入力が第一出力分岐および第二出力分岐を含む複数の第三畳み込み層を有する。それに対して、第三畳み込み層は第一出力分岐および第二出力分岐からの第一特徴マップおよび対応する第二特徴マップを畳み込み、対応する融合特徴マップを取得するために用いられる。
図6を参照すると、ステップS610で、サンプル画像をズームし、それによってサンプル画像における少なくとも一つの物体領域ボックスの真値が物体検知ボックスによりカバーされるようにする。このように、あらゆるバッチのサンプル画像に正サンプルがあることを確保する。
また、任意選択的に、十分な数の正サンプルを選択し、一定数の負サンプルを選択し、それによって訓練により得られた第一サブネットおよび第二サブネットを効果的に収束させる。
ここで、正サンプルは正サンプル領域ボックスであり、負サンプルは実際に負サンプル領域ボックスである。正サンプル領域ボックスと物体領域ボックスとの真値の重複率が第一重複比率値以上であり、負サンプル領域ボックスと物体領域ボックスとの真値の重複率が第二重複比率値以下であり、第一重複比率値が第二重複比率値よりも大きいという基準に従って、正サンプル領域ボックスおよび負サンプル領域ボックスを定義してもよい。
それに対して、本願の任意選択的な一実施形態によれば、サンプル画像の目標領域ボックス標記情報は正サンプル領域ボックスの標記情報および負サンプル領域ボックスの標記情報を含む。
ここで、設計上のニーズに応じて第一重複比率値を設定してもよく、例えば、第一重複比率値を70%〜95%の間の任意の比率値とし、第二重複比率値を0%〜30%または0〜25%の範囲内の任意の比率値とする。
また、中性サンプル、即ち中性サンプル領域ボックスを設定してもよい。具体的には、中性サンプル領域ボックスと物体領域ボックスとの真値の重複率が第一重複比率値と第二重複比率値の間、例えば、30%〜70%の間、25%〜80%の間にあるという基準に従って、中性サンプル領域ボックスを定義してもよい。
さらに、例えば、全てのサンプル画像において、標記される正サンプル領域ボックスの総和が正サンプル領域ボックス、負サンプル領域ボックスおよび中性サンプル領域ボックスのボックス総数に占める比率は所定の第一比率以上であり、前記第一比率が50%よりも大きく、標記される負サンプル領域ボックスの総和がボックス総数に占める比率は所定の第二比率以下であり、標記される中性サンプル領域ボックスの総和がボックス総数に占める比率は第一比率と第二比率の和の半分以下である所定の第三比率以下であるように、正サンプル、負サンプルおよび中性サンプルの数を制御してもよい。中性サンプル画像を適当に使用することで、正サンプルと負サンプルをより効果的に区別し、訓練される第三サブネットのロバスト性を向上させることができる。
ステップS620で、目標領域ボックス標記情報を含むサンプル画像を目標領域ボックス検出用のディープ畳み込みニューラルネットワークに入力し、複数の融合特徴マップを検出して取得する。ここで、複数の第三畳み込み層の出力端から前記融合特徴マップをそれぞれ取得する。
任意選択的な一例では、該ステップS620はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよい。
任意選択的に、融合特徴マップにおける少なくとも一つのポイントのボックス融合検出データは、例えば物体検知ボックスセット内の物体検知ボックスに対応する座標データ、位置および大きさデータを含むことができるが、これらに限定されず、該予測正確情報は該ボックス融合検出データの信頼度データ、例えば、予測正確確率であってもよい。
上記構造を有するあらゆるディープ畳み込みニューラルネットワークを使用できる。任意選択的に、第一サブネットも第二サブネットも物体検出において性能が高いInception−BNネットワーク構造として構築される。
任意選択的に、融合特徴マップにおける少なくとも一つのポイントのボックス融合検出データは、例えば物体検知ボックスセット内の物体検知ボックスに対応する座標データ、位置および大きさデータを含むことができるが、これらに限定されず、該予測正確情報は該ボックス融合検出データの信頼度データ、例えば、予測正確確率であってもよい。
それに対して、ステップS630で、少なくとも一つの前記融合特徴マップにおけるボックス融合検出データおよび予測正確情報に基づいて前記融合特徴マップの各々に対応する目標領域ボックスデータをそれぞれ取得する。
任意選択的な一例では、該ステップS630はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよい。
ステップS640において、取得した前記サンプル画像の目標領域ボックスデータおよび前記目標領域ボックス標記情報に基づいて物体ボックス検出の第一差異データを特定する。
任意選択的な一例では、該ステップS640はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよい。
例えば、取得したサンプル画像の目標領域ボックスデータおよび目標領域ボックス標記情報に基づいて欠損値または偏差値を該第一差異データ、および後続でディープ畳み込みニューラルネットワークを訓練する根拠として計算してもよい。
ステップS650で、第一差異データに基づいてディープ畳み込みニューラルネットワークのネットワークパラメータを調整する。
任意選択的な一例では、該ステップS650はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよい。
ステップS640〜S650の処理は前記ステップS530〜S540の処理に類似し、ここでは説明を省略する。
本願のニューラルネットワークの訓練方法によれば、目標領域ボックス標記情報を含むサンプル画像を、対称構造を有する目標領域ボックス検出用のディープ畳み込みニューラルネットワークに入力し、複数の融合特徴マップを検出して取得し、ここで、少なくとも一つのダウンサンプリング層を有する第一サブネットから複数の第一特徴マップを検出して取得し、少なくとも一つのアップサンプリング層を有する第二サブネットから複数の第二特徴マップを検出して取得し、それぞれ複数の第一特徴マップおよび複数の第二特徴マップで融合して融合特徴マップを得て、さらに複数の融合特徴マップに基づいて目標領域ボックスデータを取得する。その後、取得した目標領域ボックスデータおよび目標領域ボックス標記情報に基づいて第一差異データを特定し、さらに第一差異データに基づいてディープ畳み込みニューラルネットワークのネットワークパラメータを調整する。訓練により得られたディープ畳み込みニューラルネットワークのこれらの融合特徴マップは画像における上位層の意味特徴(例えば、レイアウト、前背景情報)および下位層の特徴点(例えば、小物体情報)を効果的に特徴付けるため、これらの融合特徴マップに基づいて画像に含まれる大小物体の目標領域ボックスデータを効果的に抽出できる。訓練により得られたディープ畳み込みニューラルネットワークは物体検出の正確性およびロバスト性を向上させることができる。
図7は本願のさらに別の実施例に係るニューラルネットワークの訓練方法を示すフローチャートである。
上述したように、上記実施例により訓練される該ディープ畳み込みニューラルネットワークはさらに、第三畳み込み層にそれぞれ対応する数群の第四畳み込み層および数群の第四畳み込み層にそれぞれ対応する複数のプーリング層を有する第三サブネットを含み、各プーリング層の入力は調整された融合特徴マップおよび予選目標領域ボックスのデータを含む。
つまり、各第四畳み込み層群は一つ以上の畳み込み層を含むことができ、各第四畳み込み層群は前記第三畳み込み層の出力端に接続し、融合特徴マップを入力として受信することができる。各プーリング層は対応する第四畳み込み層の末端に設置され、調整された融合特徴マップおよび前記予選目標領域ボックスデータを入力として受信する。
該実施例では、主に該ディープ畳み込みニューラルネットワークにおける第三サブネットの訓練を説明する。まず上記いずれか一つの実施例の方法によって第一サブネットおよび第二サブネットを訓練しておき、続いて第一サブネットおよび第二サブネットの訓練プロセスから得られた融合特徴マップを使用し、該実施例の方法に従って第三サブネットを訓練するようにしてもよい。
図7を参照すると、ステップS710で、目標領域ボックス標記情報を含むサンプル画像から取得した複数の融合特徴マップを取得する。
前のステップS510またはS610に記載のように、サンプル画像から該複数の融合特徴マップを取得する。
任意選択的な一例では、該ステップS710はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用される融合特徴マップ検出モジュール1010によって実行してもよい。ステップS720で、目標領域ボックス回帰訓練操作を、反復終止条件を満たすまで反復実行する。
任意選択的な一例では、該ステップS720はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用されるボックス回帰反復訓練モジュール1050によって実行してもよい。
具体的には、ステップS720はステップS721〜S726を含む。
ステップS721で、第四畳み込み層によって現在の融合特徴マップをそれぞれ畳み込み、調整融合特徴マップを取得し、それにより現在の予選目標領域ボックスを調整するという目的を達成する。
ステップS722で、現在の予選目標領域ボックスデータに基づき、プーリング層によって調整融合特徴マップの領域プーリングを行い、新たな融合特徴マップを取得する。新たな融合特徴マップは予選目標領域ボックスに対する調整および調整に対する目標領域ボックスの応答程度の反映を含む。
ステップS723で、新たな融合特徴マップから新たな予選目標領域ボックスデータを取得する。
ステップS721〜S723の処理は前記ステップS410〜S430の処理に類似し、ここでは説明を省略する。
本願の任意選択的な一実施形態によれば、第三サブネットはさらに前記プーリング層出力端に設置された第五畳み込み層を有する。それに対して、ステップS723は具体的に、第五畳み込み層によって新たな融合特徴マップに対して正規化畳み込みを行い、正規化畳み込みを行った融合特徴マップから新たな予選目標領域ボックスデータを選択することを含む。
ステップS724で、調整されていない予選目標領域ボックスデータと新たな予選目標領域ボックスデータとの間のボックス回帰データ、新たな予選目標領域ボックスデータおよび対応する目標領域ボックス標記情報に基づいて物体ボックス検出の第二差異データを特定する。
任意選択的な一例では、該ステップS724はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよい。
例えば、新たな予選目標領域ボックスデータおよび対応する目標領域ボックス標記情報によって検出オフセットを特定し、検出オフセットおよびボックス回帰データ(即ちボックス移動/調整データ)に基づいて欠損値を第二差異データとして計算するようにしてもよい。二つのオフセットパラメータ(検出オフセットおよびボックス回帰データ)を物体ボックス検出の第二差異データとして結合することで、訓練される第三サブネットの正確性を向上させることができる。
ステップS725で、第二差異データに基づいて第三サブネットのネットワークパラメータを調整する。
任意選択的な一例では、該ステップS725はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよい。
例えば、特定した第二差異データを第三サブネットに逆伝播し、それによって第三サブネットのネットワークパラメータを調整する。
ステップS726で、反復終止条件を満たすか否かを判定する。
任意選択的な一例では、該ステップS726はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよい。
ステップS726で、前記反復が終止条件(例えば、所定の反復回数に達する)を満たすと判定した場合、第三サブネットの訓練を終止し、ステップS726で、前記反復が終止条件(例えば、所定の反復回数に達する)を満たさないと判定した場合、ステップS721に戻って該ステップを実行し、前記第三サブネットの訓練を、反復終止条件を満たすまで継続する。
従来の物体領域ボックス回帰用のニューラルネットワークの訓練は一回の目標領域ボックス回帰のみを対象として訓練を反復(例えば反復回数N)しているが、本願が提供する訓練方法によれば、目標領域ボックスに数回の回帰(例えば回帰回数M)を実行し、一回当たりの回帰は数回の反復(例えば反復回数N)訓練、即ちM×N回の反復訓練に関与している。このように訓練により得られた第三サブネットはより正確に物体領域ボックスを位置特定および検出できる。
上記構造を有するあらゆる畳み込みニューラルネットワークを使用して第三サブネットを構築できる。任意選択的に、第三サブネットは、領域プーリングおよび正規化畳み込みを実行するように、新たに開発された物体検出技術において性能が高いResNet構造として構築される。
本願が提供するニューラルネットワークの訓練方法によれば、前記各実施例をもとに、訓練により得られたディープ畳み込みニューラルネットワークはサンプル画像の各融合特徴マップをさらに畳み込むことで、該融合特徴マップに含まれる予選目標領域ボックスデータを調整し、さらに領域プーリングによって新たな融合特徴マップを得て、新たな融合特徴マップから新たな予選目標領域ボックスデータを取得し、それにより得られた予選目標領域ボックスデータを調整し、回帰し、物体検出の正確性およびロバスト性をさらに向上可能である。
図8は本願の一実施例に係る物体検出装置を示す構成ブロック図である。
図8を参照すると、本実施例の物体検出装置は融合特徴マップ予測モジュール810および目標領域ボックス予測モジュール820を含む。
融合特徴マップ予測モジュール810は目標領域ボックス検出用のディープ畳み込みニューラルネットワークによって、処理対象の画像から複数の融合特徴マップを予測して取得するために用いられ、ここで、ディープ畳み込みニューラルネットワークは、少なくとも一つのダウンサンプリング層を有する第一サブネット、および、少なくとも一つのアップサンプリング層を有する第二サブネットを含み、融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られる。
目標領域ボックス予測モジュール820は融合特徴マップ予測モジュール810が取得した複数の融合特徴マップに基づいて目標領域ボックスデータを取得するために用いられる。
本実施例の物体検出装置は前記方法の実施例における対応する物体検出方法を実現するために用いられ、かつ対応する方法の実施例の有益な効果を有し、ここでは説明を省略する。
図9は本願の別の実施例に係る物体検出装置を示す構成ブロック図である。
本実施例によれば、目標領域ボックス検出用のディープ畳み込みニューラルネットワークにおいて、第二サブネットは第一サブネットの末端に設置され、第一サブネットは、複数の第一畳み込み層および複数の第一畳み込み層の間に設置された少なくとも一つのダウンサンプリング層を有し、第二サブネットは、複数の第二畳み込み層および複数の第二畳み込み層の間に設置された前記少なくとも一つのアップサンプリング層を有し、第一畳み込み層と第二畳み込み層は対称に設置され、少なくとも一つのダウンサンプリング層と少なくとも一つのアップサンプリング層はそれぞれ対称に設置される。
任意選択的な一実施形態によれば、少なくとも一つの第一畳み込み層には第一特徴マップを出力するための第一出力分岐が設けられ、第二畳み込み層には第二特徴マップを出力するための第二出力分岐が設けられる。
任意選択的な一実施形態によれば、第二サブネットはさらに、その入力が第一出力分岐および前記第二出力分岐を含む複数の第三畳み込み層を有する。それに対して、融合特徴マップ予測モジュール810は複数の第三畳み込み層の出力端から融合特徴マップをそれぞれ取得するために用いられる。
任意選択的に、融合特徴マップにおける少なくとも一つのポイントは複数の物体検知ボックスに対応するボックス融合検出データおよび予測正確情報を有する。それに対して、目標領域ボックス予測モジュール820は少なくとも一つの融合特徴マップにおけるボックス融合検出データおよび予測正確情報に基づいて融合特徴マップの各々に対応する目標領域ボックスデータをそれぞれ取得するために用いられる。
任意選択的に、目標領域ボックス予測モジュール820は、融合特徴マップの各々に対応する予選目標領域ボックスデータをそれぞれ取得し、融合特徴マップを調整することで、調整された融合特徴マップから新たな予選目標領域ボックスデータを取得するという物体領域ボックス回帰操作を、反復終止条件を満たすまで反復実行し、反復実行により得られた予選目標領域ボックスデータを処理対象の画像における目標領域ボックスデータとするために用いられる。
任意選択的に、ディープ畳み込みニューラルネットワークはさらに、第三畳み込み層にそれぞれ対応する数群の第四畳み込み層および数群の第四畳み込み層にそれぞれ対応する複数のプーリング層を有する第三サブネットを含み、各プーリング層の入力は調整された融合特徴マップおよび予選目標領域ボックスのデータを含む。
任意選択的に、目標領域ボックス予測モジュール820は、
第四畳み込み層によって現在の前記融合特徴マップをそれぞれ畳み込み、調整融合特徴マップを取得するためのボックス調整ユニット821と、
現在の予選目標領域ボックスデータに基づき、プーリング層によって調整融合特徴マップの領域プーリングを行い、新たな融合特徴マップを取得するための領域プーリングユニット822と、
新たな融合特徴マップから新たな予選目標領域ボックスデータを取得するための予選ボックス取得ユニット823と、を含む。
任意選択的に、第三サブネットはさらに、プーリング層出力端に設置された第五畳み込み層を有し、それに対して、予選ボックス取得ユニット823は第五畳み込み層によって新たな融合特徴マップに対して正規化畳み込みを行い、正規化畳み込みを行った融合特徴マップから新たな予選目標領域ボックスデータを取得するために用いられる。
任意選択的に、第一サブネットと第二サブネットとも認知-バッチ正規化(Inception−BN)ネットワーク構造であり、第三サブネットは残差ネットワーク(ResNet)構造である。
本実施例の物体検出装置は前記方法の実施例における対応する物体検出方法を実現するために用いられ、かつ対応する方法の実施例の有益な効果を有し、ここでは説明を省略する。
図10は本願の一実施例に係るニューラルネットワークの訓練装置を示す構成ブロック図である。
図10を参照すると、本実施例のニューラルネットワークの訓練装置はさらに、融合特徴マップ検出モジュール1010、目標領域ボックス検出モジュール1020、第一差異取得モジュール1030および第一ネットワーク訓練モジュール1040を含む。
融合特徴マップ検出モジュール1010は目標領域ボックス標記情報を含むサンプル画像を目標領域ボックス検出用のディープ畳み込みニューラルネットワークに入力し、複数の融合特徴マップを検出して取得するために用いられ、ここで、ディープ畳み込みニューラルネットワークは、少なくとも一つのダウンサンプリング層を有する第一サブネット、および、少なくとも一つのアップサンプリング層を有する第二サブネットを含み、融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られる。
目標領域ボックス検出モジュール1020は複数の融合特徴マップに基づいてサンプル画像の目標領域ボックスデータを取得するために用いられる。
第一差異取得モジュール1030は取得したサンプル画像の目標領域ボックスデータおよび目標領域ボックス標記情報に基づいて物体ボックス検出の第一差異データを特定するために用いられる。
第一ネットワーク訓練モジュール1040は第一差異データに基づいてディープ畳み込みニューラルネットワークのネットワークパラメータを調整するために用いられる。
本実施例のニューラルネットワークの訓練装置は前記方法の実施例における対応するニューラルネットワークの訓練方法を実現するために用いられ、かつ対応する方法の実施例の有益な効果を有し、ここでは説明を省略する。
図11は本願の別の実施例に係るニューラルネットワークの訓練装置を示す構成ブロック図である。
本実施例によれば、目標領域ボックス検出用のディープ畳み込みニューラルネットワークにおいて、第二サブネットは第一サブネットの末端に設置され、第一サブネットは、複数の第一畳み込み層および複数の第一畳み込み層の間に設置された少なくとも一つのダウンサンプリング層を有し、第二サブネットは、複数の第二畳み込み層および複数の第二畳み込み層の間に設置された少なくとも一つのアップサンプリング層を有し、第一畳み込み層と第二畳み込み層は対称に設置され、少なくとも一つのダウンサンプリング層と少なくとも一つのアップサンプリング層はそれぞれ対称に設置される。
任意選択的な一実施形態によれば、少なくとも一つの第一畳み込み層には第一特徴マップを出力するための第一出力分岐が設けられ、第二畳み込み層には第二特徴マップを出力するための第二出力分岐が設けられる。
任意選択的な一実施形態によれば、第二サブネットはさらに、その入力が第一出力分岐および第二出力分岐を含む複数の第三畳み込み層を有する。それに対して、融合特徴マップ検出モジュール1010は複数の第三畳み込み層の出力端から融合特徴マップをそれぞれ取得するために用いられる。
任意選択的に、融合特徴マップにおける少なくとも一つのポイントは複数の物体検知ボックスに対応するボックス融合検出データおよび予測正確情報を有する。
任意選択的に、ディープ畳み込みニューラルネットワークはさらに、第三畳み込み層にそれぞれ対応する数群の第四畳み込み層および数群の第四畳み込み層にそれぞれ対応する複数のプーリング層を有する第三サブネットを含み、各プーリング層の入力は調整された融合特徴マップおよび予選目標領域ボックスのデータを含む。
任意選択的に、上記装置はさらに、第四畳み込み層によって現在の融合特徴マップをそれぞれ畳み込み、調整融合特徴マップを取得し、現在の予選目標領域ボックスデータに基づき、プーリング層によって調整融合特徴マップの領域プーリングを行い、新たな融合特徴マップを取得し、新たな融合特徴マップから新たな予選目標領域ボックスデータを取得し、調整されていない予選目標領域ボックスデータと新たな予選目標領域ボックスデータとの間のボックス回帰データ、新たな予選目標領域ボックスデータおよび対応する目標領域ボックス標記情報に基づいて物体ボックス検出の第二差異データを特定し、第二差異データに基づいて第三サブネットのネットワークパラメータを調整する、という目標領域ボックス回帰訓練操作を、反復終止条件を満たすまで反復実行するためのボックス回帰反復訓練モジュール1050を含む。
任意選択的に、第三サブネットはさらに、プーリング層出力端に設置された第五畳み込み層を有し、それに対して、ボックス回帰反復訓練モジュール1050は第五畳み込み層によって新たな融合特徴マップに対して正規化畳み込みを行い、正規化畳み込みを行った融合特徴マップから前記新たな予選目標領域ボックスデータを取得するために用いられる。
任意選択的に、上記装置はさらに、目標領域ボックス回帰訓練操作を反復実行する前に、サンプル画像をズームし、それによって少なくとも一つの物体領域ボックスの真値が物体検知ボックスによりカバーされるようにするための前処理モジュール1060を含む。
任意選択的に、サンプル画像の目標領域ボックス標記情報は、物体領域ボックスとの真値の重複率が第一重複比率値以上である正サンプル領域ボックスの標記情報、および、物体領域ボックスとの真値の重複率が第二重複比率値以下である負サンプル領域ボックスの標記情報を含み、第一重複比率値は第二重複比率値よりも大きい。
任意選択的に、サンプル画像の目標領域ボックス標記情報はさらに、物体領域ボックスとの真値の重複率が第一重複比率値と第二重複比率値の間にある中性サンプル領域ボックスの標記情報を含む。
任意選択的に、全てのサンプル画像において、標記される正サンプル領域ボックスの総和が正サンプル領域ボックス、負サンプル領域ボックスおよび中性サンプル領域ボックスのボックス総数に占める比率は所定の第一比率以上であり、前記第一比率が50%よりも大きく、標記される負サンプル領域ボックスの総和がボックス総数に占める比率は所定の第二比率以下であり、標記される中性サンプル領域ボックスの総和がボックス総数に占める比率は第一比率と第二比率の和の半分以下である所定の第三比率以下である。
任意選択的に、第一サブネットと第二サブネットとも認知-バッチ正規化ネットワーク構造であり、第三サブネットは残差ネットワーク構造である。
本実施例のニューラルネットワークの訓練装置は前記方法の実施例における対応するニューラルネットワークの訓練方法を実現するために用いられ、かつ対応する方法の実施例の有益な効果を有し、ここでは説明を省略する。
また、本願の実施例はさらに、プロセッサ、および
前記プロセッサに本願の上記いずれか一つの実施例に記載の物体検出方法に対応する動作を実行させる少なくとも一つの実行可能指令を記憶するための、または、
前記プロセッサに本願の上記いずれか一つの実施例に記載のニューラルネットワークの訓練方法に対応する動作を実行させる少なくとも一つの実行可能指令を記憶するためのメモリを含む電子機器を提供する。
また、本願の実施例はさらに、
本願の上記いずれか一つの実施例に記載の物体検出装置、および、前記物体検出装置を運用する時、本願の上記いずれか一つの実施例に記載の物体検出装置におけるユニットが運用されるプロセッサ、または
本願の上記いずれか一つの実施例に記載のニューラルネットワークの訓練装置、および、前記ニューラルネットワークの訓練装置を運用する時、本願の上記いずれか一つの実施例に記載のニューラルネットワークの訓練装置におけるユニットが運用されるプロセッサを含む別の電子機器を提供する。
図12は本願の一実施例に係る第一電子機器を示す構成模式図である。
本願はさらに、電子機器を提供し、例えば、移動端末、パーソナルコンピュータ(PC)、タブレット、サーバであってもよい。以下に図12を参照すると、本願の実施例の端末機器またはサーバの実現に適する第一電子機器1200の構成模式図が示される。
図12に示すように、第一電子機器1200は一つ以上の第一プロセッサ、第一通信素子を含むが、これらに限定されず、前記一つ以上の第一プロセッサは例えば、一つ以上の第一中央処理装置(CPU)1201、および/または一つ以上の第一画像処理装置(GPU)1213であり、第一プロセッサは第一読み取り専用メモリ(ROM)1202に記憶されている実行可能指令または第一記憶部分1208から第一ランダムアクセスメモリ(RAM)1203にロードされた実行可能指令に従って様々な適当の動作および処理を実行できる。第一通信素子は第一通信コンポーネント1212および第一通信インタフェース1209を含む。そのうち、第一通信コンポーネント1212はネットワークカードを含むことができるが、これに限定されず、前記ネットワークカードはIB(Infiniband)ネットワークカードを含むことができるが、これに限定されず、第一通信インタフェース1209はLANカード、モデムのネットワークインタフェースカードなどの通信インタフェースを含み、第一通信インタフェース1209はインターネットのようなネットワークによって通信処理を実行する。
第一プロセッサは第一読み取り専用メモリ1202および/または第一ランダムアクセスメモリ1230と通信して実行可能指令を実行し、第一バス1204を介して第一通信コンポーネント1212と接続し、第一通信コンポーネント1212によって他の目標機器と通信し、それにより本願の実施例が提供するいずれか一項の方法に対応する動作、例えば、目標領域ボックス検出用のディープ畳み込みニューラルネットワークにより、処理対象の画像から複数の融合特徴マップを予測して取得することと、前記複数の融合特徴マップに基づいて目標領域ボックスデータを取得することと、を完了することができ、ここで、前記ディープ畳み込みニューラルネットワークは、少なくとも一つのダウンサンプリング層を有する第一サブネット、および、少なくとも一つのアップサンプリング層を有する第二サブネットを含み、前記融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られる。
また、第一RAM1203には、装置の動作に必要な種々のプログラムおよびデータを記憶することができる。第一CPU1201、第一ROM1202および第一RAM1203は第一バス1204を介して互いに接続される。第一RAM1203が存在する場合、第一ROM1202は任意選択的なモジュールとなる。第一RAM1203は実行可能指令を記憶するか、または動作時に第一ROM1202へ実行可能指令を書き込み、実行可能指令によって第一プロセッサ1201は上記通信方法に対応する動作を実行する。第一入力/出力(I/O)インタフェース1205も第一バス1204に接続される。第一通信コンポーネント1212は統合設置してもよく、また複数のサブモジュール(例えば複数のIBネットワークカード)を有するように設置してもよく、かつバスリンクに存在する。
キーボード、マウスを含む第一入力部分1206、陰極線管(CRT)、液晶ディスプレイ(LCD)およびスピーカーなどに限られない第一出力部分1207、ハードディスクに限られない第一記憶部分1208、およびLANカード、モデムのネットワークインタフェースカードなどに限られない第一通信インタフェース1209といった部品は、第一I/Oインタフェース1205に接続される。第一ドライバ1210も必要に応じて第一I/Oインタフェース1205に接続される。第一取り外し可能な媒体1211、例えば磁気ディスク、光ディスク、磁気光ディスク、半導体メモリなどは、必要に応じて第一ドライバ1210に取り付けられ、それによってそこから読み出されたコンピュータプログラムが必要に応じて第一記憶部分1208にインストールされる。
説明すべきは、図12に示すアーキテクチャは任意選択的な一実施形態に過ぎず、具体的な実践では、実際の必要に応じて上記図12の部品数およびタイプを選択、減少、増加または交換することができ、異なる機能部品の設置上でも、分離設置または統合設置の実施形態を採用でき、例えばGPUとCPUは分離設置するかまたはGPUをCPUに統合するようにしてもよく、第一通信コンポーネント1212は分離設置してもよく、またCPUまたはGPUに統合してもよいことである。これらの置換可能な実施形態はいずれも本願の保護範囲に属する。
特に、本願の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本願の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例により提供される方法を実行するステップに対応する指令、例えば、目標領域ボックス検出用のディープ畳み込みニューラルネットワークにより、処理対象の画像から複数の融合特徴マップを予測して取得するための実行可能コード、前記複数の融合特徴マップに基づいて目標領域ボックスデータを取得するための実行可能コードを含むことができ、ここで、前記ディープ畳み込みニューラルネットワークは、少なくとも一つのダウンサンプリング層を有する第一サブネット、および、少なくとも一つのアップサンプリング層を有する第二サブネットを含み、前記融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られる。このような実施例では、該コンピュータプログラムは通信素子によってネットワークからダウンロードおよびインストールでき、および/または第一取り外し可能な媒体1211からインストールできる。該コンピュータプログラムは第一中央処理装置(CPU)1201に実行される時、本願の方法に特定された上記機能を実行する。
本願の該実施例が提供する電子機器は、目標領域ボックス検出用のディープ畳み込みニューラルネットワークにより、処理対象の画像から複数の融合特徴マップを予測して取得し、ここで、少なくとも一つのダウンサンプリング層を有する第一サブネットから複数の第一特徴マップを取得し、少なくとも一つのアップサンプリング層を有する第二サブネットから複数の第二特徴マップを取得し、それぞれ複数の第一特徴マップおよび複数の第二特徴マップで融合して融合特徴マップを得る。その後、さらに前記複数の融合特徴マップに基づいて目標領域ボックスデータを取得する。これらの融合特徴マップは画像における上位層の意味特徴(例えば、レイアウト、前背景情報)および下位層の特徴点(例えば、小物体情報)を効果的に特徴付けるため、これらの融合特徴マップに基づいて画像に含まれる大小物体の目標領域ボックスデータを効果的に抽出し、それにより物体検出の正確性およびロバスト性を向上させることができる。
図13は本願の別の実施例に係る第二電子機器を示す構成模式図である。
本願はさらに、電子機器を提供し、例えば移動端末、パーソナルコンピュータ(PC)、タブレット、サーバであってもよい。以下に図13を参照すると、本願の実施例の端末機器またはサーバの実現に適する第二電子機器1300の構成模式図が示される。
図13に示すように、第二電子機器1300は一つ以上の第二プロセッサ、第二通信素子を含み、前記一つ以上の第二プロセッサは例えば、一つ以上の第二中央処理装置(CPU)1301、および/または一つ以上の第二画像処理装置(GPU)1313であり、第二プロセッサは第二読み取り専用メモリ(ROM)1302に記憶された実行可能指令または第二記憶部分1308から第二ランダムアクセスメモリ(RAM)1303にロードされた実行可能指令に従って様々な適当の動作および処理を実行できる。第二通信素子は第二通信コンポーネント1312および第二通信インタフェース1309を含む。そのうち、第二通信コンポーネント1312はネットワークカードを含むことができるが、これに限定されず、前記ネットワークカードはIB(Infiniband)ネットワークカードを含むことができるが、これに限定されず、第二通信インタフェース1309はLANカード、モデムのネットワークインタフェースカードなどの通信インタフェースを含み、第二通信インタフェース1309はインターネットのようなネットワークによって通信処理を実行する。
第二プロセッサは第二読み取り専用メモリ1302および/または第二ランダムアクセスメモリ1330と通信して実行可能指令を実行し、第二バス1304を介して第二通信コンポーネント1312と接続し、第二通信コンポーネント1312によって他の目標機器と通信し、それにより本願の実施例が提供するいずれか一項の方法に対応する動作、例えば、目標領域ボックス標記情報を含むサンプル画像を目標領域ボックス検出用のディープ畳み込みニューラルネットワークに入力し、複数の融合特徴マップを検出して取得することと、前記複数の融合特徴マップに基づいて前記サンプル画像の目標領域ボックスデータを取得することと、取得した前記サンプル画像の目標領域ボックスデータおよび前記目標領域ボックス標記情報に基づいて物体ボックス検出の第一差異データを特定することと、前記第一差異データに基づいて前記ディープ畳み込みニューラルネットワークのネットワークパラメータを調整することと、を完了することができ、ここで、前記ディープ畳み込みニューラルネットワークは、少なくとも一つのダウンサンプリング層を有する第一サブネット、および、少なくとも一つのアップサンプリング層を有する第二サブネットを含み、前記融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られる。
また、第二RAM1303には、装置の動作に必要な種々のプログラムおよびデータを記憶することができる。第二CPU1301、第二ROM1302および第二RAM1303は第二バス1304を介して互いに接続される。第二RAM1303が存在する場合、第二ROM1302は任意選択的なモジュールとなる。第二RAM1303は実行可能指令を記憶するか、または動作時に第二ROM1302へ実行可能指令を書き込み、実行可能指令によって第二プロセッサ1301は上記通信方法に対応する動作を実行する。第二入力/出力(I/O)インタフェース1305も第二バス1304に接続される。第二通信コンポーネント1312は統合設置してもよく、また複数のサブモジュール(例えば複数のIBネットワークカード)を有するように設置してもよく、かつバスリンクに存在する。
キーボード、マウスに限られない第二入力部分1306、陰極線管(CRT)、液晶ディスプレイ(LCD)およびスピーカーなどに限られない第二出力部分1307、ハードディスクに限られない第二記憶部分1308、およびLANカード、モデムのネットワークインタフェースカードなどを含む第二通信インタフェース1309といった部品は、第二I/Oインタフェース1305に接続される。第二ドライバ1310も必要に応じて第二I/Oインタフェース1305に接続される。第二取り外し可能な媒体1311、例えば磁気ディスク、光ディスク、磁気光ディスク、半導体メモリなどは、必要に応じて第二ドライバ1310に取り付けられ、それによってそこから読み出されたコンピュータプログラムが必要に応じて第二記憶部分1308にインストールされる。
説明すべきは、図13に示すアーキテクチャは任意選択的な一実施形態に過ぎず、具体的な実践では、実際の必要に応じて上記図13の部品数およびタイプを選択、減少、増加または交換することができ、異なる機能部品の設置上でも、分離設置または統合設置の実施形態を採用でき、例えばGPUとCPUは分離設置するかまたはGPUをCPUに統合するようにしてもよく、第二通信コンポーネント1312は分離設置してもよく、またCPUまたはGPUに統合してもよいことである。これらの置換可能な実施形態はいずれも本願の保護範囲に属する。
特に、本願の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本願の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例により提供される方法を実行するステップに対応する指令、例えば、目標領域ボックス標記情報を含むサンプル画像を目標領域ボックス検出用のディープ畳み込みニューラルネットワークに入力し、複数の融合特徴マップを検出して取得するための実行可能コード、前記複数の融合特徴マップに基づいて前記サンプル画像の目標領域ボックスデータを取得するための実行可能コード、取得した前記サンプル画像の目標領域ボックスデータおよび前記目標領域ボックス標記情報に基づいて物体ボックス検出の第一差異データを特定するための実行可能コード、および前記第一差異データに基づいて前記ディープ畳み込みニューラルネットワークのネットワークパラメータを調整するための実行可能コードを含むことができ、ここで、前記ディープ畳み込みニューラルネットワークは、少なくとも一つのダウンサンプリング層を有する第一サブネット、および、少なくとも一つのアップサンプリング層を有する第二サブネットを含み、前記融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られる。このような実施例では、該コンピュータプログラムは通信素子によってネットワークからダウンロードおよびインストールでき、および/または第二取り外し可能な媒体1311からインストールできる。該コンピュータプログラムは第二中央処理装置(CPU)1301に実行される時、本願の方法に特定された上記機能を実行する。
本願の該実施例が提供する電子機器は、目標領域ボックス標記情報を含むサンプル画像を目標領域ボックス検出用のディープ畳み込みニューラルネットワークに入力し、複数の融合特徴マップを検出して取得し、ここで、少なくとも一つのダウンサンプリング層を有する第一サブネットから複数の第一特徴マップを検出して取得し、少なくとも一つのアップサンプリング層を有する第二サブネットから複数の第二特徴マップを検出して取得し、それぞれ複数の第一特徴マップおよび複数の第二特徴マップで融合して融合特徴マップを得て、さらに前記複数の融合特徴マップに基づいて目標領域ボックスデータを取得する。その後、取得した目標領域ボックスデータおよび前記目標領域ボックス標記情報に基づいて第一差異データを特定し、さらに前記第一差異データに基づいて前記ディープ畳み込みニューラルネットワークのネットワークパラメータを調整する。訓練により得られたディープ畳み込みニューラルネットワークのこれらの融合特徴マップは画像における上位層の意味特徴(例えば、レイアウト、前背景情報)および下位層の特徴点(例えば、小物体情報)を効果的に特徴付けるため、これらの融合特徴マップに基づいて画像に含まれる大小物体の目標領域ボックスデータを効果的に抽出できる。訓練により得られたディープ畳み込みニューラルネットワークは物体検出の正確性およびロバスト性を向上させることができる。
また、本願の実施例はさらに、機器において運用される時、前記機器内のプロセッサが本願のいずれか一つの実施例に記載の物体検出方法における各ステップを実現するための指令を実行するか、または
機器において運用される時、前記機器内のプロセッサが本願のいずれか一つの実施例に記載のニューラルネットワークの訓練方法における各ステップを実現するための指令を実行するコンピュータ読み取り可能コードを含むコンピュータプログラムを提供する。
また、本願の実施例はさらに、コンピュータ読み取り可能指令を記憶するためのコンピュータ読み取り可能記憶媒体であって、前記指令が実行される時に本願のいずれか一つの実施例に記載の物体検出方法における各ステップの動作、または本願のいずれか一つの実施例に記載のニューラルネットワークの訓練方法における各ステップの動作を実現するコンピュータ読み取り可能記憶媒体を提供する。本明細書における各実施例は漸進の方式を採用して記述し、各実施例では他の実施例との相違点を重点に説明し、各実施例間の同じまたは類似部分は互いに参照すればよい。システムの実施例は、方法の実施例に基本的に対応するため、記述したものが比較的簡単で、その関連部分は方法の実施例の一部の説明を参照すればよい。
本願の方法および装置は様々な方式で実現し得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組み合わせで本願の方法および装置を実現できる。前記方法のステップに付けられる上記順序は説明するためのものに過ぎず、本願の方法のステップは、特に断らない限り、以上に具体的に記述した順序に限定されない。また、いくつかの実施例では、本願を記録媒体に記録されたプログラムとして実施してもよく、これらのプログラムは本願に係る方法を実現するための機械可読指令を含む。従って、本願は本願に係る方法を実行するためのプログラムを記憶する記録媒体をも包含する。
本願の記述は例示および説明のためのもので、漏れがないものまたは開示した形式に本願を限定するものではない。様々な修正および変形は、当業者にとって自明である。選択および記述した実施例は、本願の原理および実際の適用をより効果的に説明し、かつ当業者に本願を理解させて特定の用途に適する様々な修正付きの様々な実施例を設計するためのものである。

Claims (14)

  1. 目標領域ボックス検出用のディープ畳み込みニューラルネットワークにより、処理対象の画像から複数の融合特徴マップを予測して取得することであって、前記ディープ畳み込みニューラルネットワークは、複数の第一畳み込み層と少なくとも一つのダウンサンプリング層とを有する第一サブネット、および、複数の第二畳み込み層と少なくとも一つのアップサンプリング層とを有する第二サブネットを含み、前記融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られ、少なくとも一つの前記第一畳み込み層には前記第一特徴マップを出力するための第一出力分岐が設けられ、前記第二畳み込み層には前記第二特徴マップを出力するための第二出力分岐が設けられる、ことと、
    前記複数の融合特徴マップに基づいて目標領域ボックスデータを取得することと、を含み、
    前記第二サブネットは複数の第三畳み込み層をさらに有し、前記第三畳み込み層の入力が前記第一出力分岐および前記第二出力分岐を含み、
    複数の融合特徴マップを予測して取得するステップは、前記複数の第三畳み込み層の出力端から前記融合特徴マップをそれぞれ取得することを含む、
    体検出方法。
  2. 前記第二サブネットは前記第一サブネットの末端に設置され、前記ダウンサンプリング層は前記複数の第一畳み込み層の間に設置され、前記アップサンプリング層は前記複数の第二畳み込み層の間に設置され、前記第一畳み込み層と前記第二畳み込み層は対称に設置され、前記少なくとも一つのダウンサンプリング層と前記少なくとも一つのアップサンプリング層はそれぞれ対称に設置される、請求項1に記載の方法。
  3. 前記融合特徴マップにおける少なくとも一つのポイントは複数の物体検知ボックスに対応するボックス融合検出データおよび予測正確情報を有し、
    前記複数の融合特徴マップに基づいて目標領域ボックスデータを取得するステップは、
    少なくとも一つの前記融合特徴マップにおけるボックス融合検出データおよび予測正確情報に基づいて前記融合特徴マップの各々に対応する目標領域ボックスデータをそれぞれ取得することを含む、請求項に記載の方法。
  4. 前記複数の融合特徴マップに基づいて目標領域ボックスデータを取得するステップは、
    前記融合特徴マップの各々に対応する予選目標領域ボックスデータをそれぞれ取得することと、
    前記融合特徴マップを調整することで、調整された融合特徴マップから新たな予選目標領域ボックスデータを取得するという物体領域ボックス回帰操作を、反復終止条件を満たすまで反復実行することと、
    前記反復実行によって得られた前記予選目標領域ボックスデータを前記処理対象の画像における目標領域ボックスデータとすることと、を含む、請求項に記載の方法。
  5. 前記ディープ畳み込みニューラルネットワークはさらに、前記第三畳み込み層にそれぞれ対応する数群の第四畳み込み層および前記数群の第四畳み込み層にそれぞれ対応する複数のプーリング層を有する第三サブネットを含み、各前記プーリング層の入力は前記調整された融合特徴マップおよび前記予選目標領域ボックスデータを含む、請求項に記載の方法。
  6. 前記物体領域ボックス回帰操作は、
    前記第四畳み込み層によって現在の前記融合特徴マップをそれぞれ畳み込み、調整融合特徴マップを取得することと、
    現在の予選目標領域ボックスデータに基づき、前記プーリング層によって前記調整融合特徴マップの領域プーリングを行い、新たな融合特徴マップを取得することと、
    前記新たな融合特徴マップから前記新たな予選目標領域ボックスデータを取得することと、を含む、請求項に記載の方法。
  7. 前記第三サブネットはさらに前記プーリング層出力端に設置された第五畳み込み層を有し、
    前記新たな融合特徴マップから前記新たな予選目標領域ボックスデータを取得するステップは、
    前記第五畳み込み層によって前記新たな融合特徴マップに対して正規化畳み込みを行い、
    正規化畳み込みを行った融合特徴マップから前記新たな予選目標領域ボックスデータを取得することを含む、請求項に記載の方法。
  8. 目標領域ボックス標記情報を含むサンプル画像を目標領域ボックス検出用のディープ畳み込みニューラルネットワークに入力し、複数の融合特徴マップを検出して取得することであって、前記ディープ畳み込みニューラルネットワークは、複数の第一畳み込み層と少なくとも一つのダウンサンプリング層とを有する第一サブネット、および、複数の第二畳み込み層と少なくとも一つのアップサンプリング層とを有する第二サブネットを含み、前記融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られ、少なくとも一つの前記第一畳み込み層には前記第一特徴マップを出力するための第一出力分岐が設けられ、前記第二畳み込み層には前記第二特徴マップを出力するための第二出力分岐が設けられる、ことと、
    前記複数の融合特徴マップに基づいて前記サンプル画像の目標領域ボックスデータを取得することと、
    取得した前記サンプル画像の目標領域ボックスデータおよび前記目標領域ボックス標記情報に基づいて物体ボックス検出の第一差異データを特定することと、
    前記第一差異データに基づいて前記ディープ畳み込みニューラルネットワークのネットワークパラメータを調整することと、を含み、
    前記第二サブネットは複数の第三畳み込み層をさらに有し、前記第三畳み込み層の入力が前記第一出力分岐および前記第二出力分岐を含み、
    複数の融合特徴マップを予測して取得するステップは、前記複数の第三畳み込み層の出力端から前記融合特徴マップをそれぞれ取得することを含む、
    ューラルネットワークの訓練方法。
  9. 目標領域ボックス検出用のディープ畳み込みニューラルネットワークにより、処理対象の画像から複数の融合特徴マップを予測して取得するための融合特徴マップ予測モジュールであって、前記ディープ畳み込みニューラルネットワークは、複数の第一畳み込み層と少なくとも一つのダウンサンプリング層とを有する第一サブネット、および、複数の第二畳み込み層と少なくとも一つのアップサンプリング層とを有する第二サブネットを含み、前記融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られ、少なくとも一つの前記第一畳み込み層には前記第一特徴マップを出力するための第一出力分岐が設けられ、前記第二畳み込み層には前記第二特徴マップを出力するための第二出力分岐が設けられる、融合特徴マップ予測モジュールと、
    前記融合特徴マップ予測モジュールが取得した複数の融合特徴マップに基づいて目標領域ボックスデータを取得するための目標領域ボックス予測モジュールと、を含み、
    前記第二サブネットは複数の第三畳み込み層をさらに有し、前記第三畳み込み層の入力が前記第一出力分岐および前記第二出力分岐を含み、
    前記融合特徴マップ予測モジュールは、さらに、前記複数の第三畳み込み層の出力端から前記融合特徴マップをそれぞれ取得するために用いられる、
    体検出装置。
  10. 目標領域ボックス標記情報を含むサンプル画像を目標領域ボックス検出用のディープ畳み込みニューラルネットワークに入力し、複数の融合特徴マップを検出して取得するための融合特徴マップ検出モジュールであって、前記ディープ畳み込みニューラルネットワークは、複数の第一畳み込み層と少なくとも一つのダウンサンプリング層とを有する第一サブネット、および、複数の第二畳み込み層と少なくとも一つのアップサンプリング層とを有する第二サブネットを含み、前記融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られ、少なくとも一つの前記第一畳み込み層には前記第一特徴マップを出力するための第一出力分岐が設けられ、前記第二畳み込み層には前記第二特徴マップを出力するための第二出力分岐が設けられる、融合特徴マップ検出モジュールと、
    前記複数の融合特徴マップに基づいて前記サンプル画像の目標領域ボックスデータを取得するための目標領域ボックス検出モジュールと、
    取得した前記サンプル画像の目標領域ボックスデータおよび前記目標領域ボックス標記情報に基づいて物体ボックス検出の第一差異データを特定するための第一差異取得モジュールと、
    前記第一差異データに基づいて前記ディープ畳み込みニューラルネットワークのネットワークパラメータを調整するための第一ネットワーク訓練モジュールと、を含み、
    前記第二サブネットは複数の第三畳み込み層をさらに有し、前記第三畳み込み層の入力が前記第一出力分岐および前記第二出力分岐を含み、
    前記融合特徴マップ検出モジュールは、さらに、前記複数の第三畳み込み層の出力端から前記融合特徴マップをそれぞれ取得するために用いられる、
    ューラルネットワークの訓練装置。
  11. プロセッサ、および
    前記プロセッサに請求項1からのいずれか一項に記載の物体検出方法に対応する動作を実行させる少なくとも一つの実行可能指令を記憶するための、または、前記プロセッサに請求項に記載のニューラルネットワークの訓練方法に対応する動作を実行させる少なくとも一つの実行可能指令を記憶するためのメモリを含む、電子機器。
  12. 請求項に記載の物体検出装置、および、前記物体検出装置を運用する時、請求項に記載の物体検出装置におけるユニットが運用されるプロセッサ、または
    請求項10に記載のニューラルネットワークの訓練装置、および前記ニューラルネットワークの訓練装置を運用する時、請求項10に記載のニューラルネットワークの訓練装置におけるユニットが運用されるプロセッサを含む、電子機器。
  13. 機器において運用される時、前記機器内のプロセッサが請求項1からのいずれか一項に記載の物体検出方法における各ステップを実現するための指令を実行するか、または
    機器において運用される時、前記機器内のプロセッサが請求項に記載のニューラルネットワークの訓練方法における各ステップを実現するための指令を実行するコンピュータ読み取り可能コードを含む、コンピュータプログラム。
  14. コンピュータ読み取り可能指令を記憶するためのコンピュータ読み取り可能記憶媒体であって、前記指令が実行される時に請求項1からのいずれか一項に記載の物体検出方法における各ステップの動作、または請求項に記載のニューラルネットワークの訓練方法における各ステップの動作を実現することを特徴とする、コンピュータ読み取り可能記憶媒体。
JP2019545345A 2017-02-23 2018-02-13 物体検出方法、ニューラルネットワークの訓練方法、装置および電子機器 Active JP6902611B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710100676.1 2017-02-23
CN201710100676.1A CN108229455B (zh) 2017-02-23 2017-02-23 物体检测方法、神经网络的训练方法、装置和电子设备
PCT/CN2018/076653 WO2018153319A1 (zh) 2017-02-23 2018-02-13 物体检测方法、神经网络的训练方法、装置和电子设备

Publications (2)

Publication Number Publication Date
JP2020509488A JP2020509488A (ja) 2020-03-26
JP6902611B2 true JP6902611B2 (ja) 2021-07-14

Family

ID=62657296

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019545345A Active JP6902611B2 (ja) 2017-02-23 2018-02-13 物体検出方法、ニューラルネットワークの訓練方法、装置および電子機器

Country Status (5)

Country Link
US (1) US11321593B2 (ja)
JP (1) JP6902611B2 (ja)
CN (1) CN108229455B (ja)
SG (1) SG11201907355XA (ja)
WO (1) WO2018153319A1 (ja)

Families Citing this family (101)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108701210B (zh) * 2016-02-02 2021-08-17 北京市商汤科技开发有限公司 用于cnn网络适配和对象在线追踪的方法和系统
US10496895B2 (en) * 2017-03-28 2019-12-03 Facebook, Inc. Generating refined object proposals using deep-learning models
CN108230294B (zh) * 2017-06-14 2020-09-29 北京市商汤科技开发有限公司 图像检测方法、装置、电子设备和存储介质
US10692243B2 (en) * 2017-12-03 2020-06-23 Facebook, Inc. Optimizations for dynamic object instance detection, segmentation, and structure mapping
CN108985206B (zh) * 2018-07-04 2020-07-28 百度在线网络技术(北京)有限公司 模型训练方法、人体识别方法、装置、设备及存储介质
CN108986891A (zh) * 2018-07-24 2018-12-11 北京市商汤科技开发有限公司 医疗影像处理方法及装置、电子设备及存储介质
CN110163197B (zh) * 2018-08-24 2023-03-10 腾讯科技(深圳)有限公司 目标检测方法、装置、计算机可读存储介质及计算机设备
CN109360633B (zh) * 2018-09-04 2022-08-30 北京市商汤科技开发有限公司 医疗影像处理方法及装置、处理设备及存储介质
CN109376767B (zh) * 2018-09-20 2021-07-13 中国科学技术大学 基于深度学习的视网膜oct图像分类方法
CN109461177B (zh) * 2018-09-29 2021-12-10 浙江科技学院 一种基于神经网络的单目图像深度预测方法
CN112088393B (zh) * 2018-09-29 2022-09-23 华为技术有限公司 图像处理方法、装置及设备
US10300851B1 (en) * 2018-10-04 2019-05-28 StradVision, Inc. Method for warning vehicle of risk of lane change and alarm device using the same
CN109410240A (zh) * 2018-10-09 2019-03-01 电子科技大学中山学院 一种量体特征点定位方法、装置及其存储介质
CN111126421B (zh) * 2018-10-31 2023-07-21 浙江宇视科技有限公司 目标检测方法、装置及可读存储介质
CN109522966B (zh) * 2018-11-28 2022-09-27 中山大学 一种基于密集连接卷积神经网络的目标检测方法
CN111260548B (zh) * 2018-11-30 2023-07-21 浙江宇视科技有限公司 基于深度学习的贴图方法及装置
CN111353597B (zh) * 2018-12-24 2023-12-05 杭州海康威视数字技术股份有限公司 一种目标检测神经网络训练方法和装置
CN109543662B (zh) * 2018-12-28 2023-04-21 广州海昇计算机科技有限公司 基于区域提议的目标检测方法、系统、装置和存储介质
CN109800793B (zh) * 2018-12-28 2023-12-22 广州海昇教育科技有限责任公司 一种基于深度学习的目标检测方法和系统
CN111382647B (zh) * 2018-12-29 2021-07-30 广州市百果园信息技术有限公司 一种图片处理方法、装置、设备及存储介质
CN111401396B (zh) * 2019-01-03 2023-04-18 阿里巴巴集团控股有限公司 图像识别方法及装置
CN111445020B (zh) * 2019-01-16 2023-05-23 阿里巴巴集团控股有限公司 一种基于图的卷积网络训练方法、装置及系统
US10402977B1 (en) * 2019-01-25 2019-09-03 StradVision, Inc. Learning method and learning device for improving segmentation performance in road obstacle detection required to satisfy level 4 and level 5 of autonomous vehicles using laplacian pyramid network and testing method and testing device using the same
US10410352B1 (en) * 2019-01-25 2019-09-10 StradVision, Inc. Learning method and learning device for improving segmentation performance to be used for detecting events including pedestrian event, vehicle event, falling event and fallen event using edge loss and test method and test device using the same
US10824947B2 (en) * 2019-01-31 2020-11-03 StradVision, Inc. Learning method for supporting safer autonomous driving without danger of accident by estimating motions of surrounding objects through fusion of information from multiple sources, learning device, testing method and testing device using the same
CN109902634A (zh) * 2019-03-04 2019-06-18 上海七牛信息技术有限公司 一种基于神经网络的视频分类方法以及系统
CN111666960B (zh) * 2019-03-06 2024-01-19 南京地平线机器人技术有限公司 图像识别方法、装置、电子设备及可读存储介质
CN110111299A (zh) * 2019-03-18 2019-08-09 国网浙江省电力有限公司信息通信分公司 锈斑识别方法及装置
CN109978863B (zh) * 2019-03-27 2021-10-08 北京青燕祥云科技有限公司 基于x射线图像的目标检测方法及计算机设备
CN110110617B (zh) * 2019-04-22 2021-04-20 腾讯科技(深圳)有限公司 医学影像分割方法、装置、电子设备和存储介质
CN110097108B (zh) * 2019-04-24 2021-03-02 佳都新太科技股份有限公司 非机动车的识别方法、装置、设备及存储介质
CN110210474B (zh) 2019-04-30 2021-06-01 北京市商汤科技开发有限公司 目标检测方法及装置、设备及存储介质
CN110084309B (zh) * 2019-04-30 2022-06-21 北京市商汤科技开发有限公司 特征图放大方法、装置和设备及计算机可读存储介质
CN110148157B (zh) * 2019-05-10 2021-02-02 腾讯科技(深圳)有限公司 画面目标跟踪方法、装置、存储介质及电子设备
JP7350515B2 (ja) * 2019-05-22 2023-09-26 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム
CN112001211B (zh) * 2019-05-27 2024-04-19 商汤集团有限公司 对象检测方法、装置、设备及计算机可读存储介质
CN110163864B (zh) * 2019-05-28 2020-12-04 北京迈格威科技有限公司 图像分割方法、装置、计算机设备和存储介质
CN110288082B (zh) * 2019-06-05 2022-04-05 北京字节跳动网络技术有限公司 卷积神经网络模型训练方法、装置和计算机可读存储介质
CN110263797B (zh) * 2019-06-21 2022-07-12 北京字节跳动网络技术有限公司 骨架的关键点估计方法、装置、设备及可读存储介质
CN110378398B (zh) * 2019-06-27 2023-08-25 东南大学 一种基于多尺度特征图跳跃融合的深度学习网络改进方法
CN112241665A (zh) * 2019-07-18 2021-01-19 顺丰科技有限公司 一种暴力分拣识别方法、装置、设备及存储介质
CN110503063B (zh) * 2019-08-28 2021-12-17 东北大学秦皇岛分校 基于沙漏卷积自动编码神经网络的跌倒检测方法
CN110826403B (zh) * 2019-09-27 2020-11-24 深圳云天励飞技术有限公司 跟踪目标确定方法及相关设备
CN110705479A (zh) * 2019-09-30 2020-01-17 北京猎户星空科技有限公司 模型训练方法和目标识别方法、装置、设备及介质
KR102287947B1 (ko) * 2019-10-28 2021-08-09 삼성전자주식회사 영상의 ai 부호화 및 ai 복호화 방법, 및 장치
CN111767935B (zh) * 2019-10-31 2023-09-05 杭州海康威视数字技术股份有限公司 一种目标检测方法、装置及电子设备
CN110852325B (zh) * 2019-10-31 2023-03-31 上海商汤智能科技有限公司 图像的分割方法及装置、电子设备和存储介质
CN111767934B (zh) * 2019-10-31 2023-11-03 杭州海康威视数字技术股份有限公司 一种图像识别方法、装置及电子设备
CN110826457B (zh) * 2019-10-31 2022-08-19 上海融军科技有限公司 一种复杂场景下的车辆检测方法及装置
CN110796115B (zh) * 2019-11-08 2022-12-23 厦门美图宜肤科技有限公司 图像检测方法、装置、电子设备及可读存储介质
CN111222534B (zh) * 2019-11-15 2022-10-11 重庆邮电大学 一种基于双向特征融合和更平衡l1损失的单发多框检测器优化方法
CN112825248A (zh) * 2019-11-19 2021-05-21 阿里巴巴集团控股有限公司 语音处理方法、模型训练方法、界面显示方法及设备
CN111046917B (zh) * 2019-11-20 2022-08-09 南京理工大学 基于深度神经网络的对象性增强目标检测方法
CN110956119B (zh) * 2019-11-26 2023-05-26 大连理工大学 一种图像中目标检测的方法
CN110956122B (zh) * 2019-11-27 2022-08-02 深圳市商汤科技有限公司 图像处理方法及装置、处理器、电子设备、存储介质
CN111079620B (zh) * 2019-12-10 2023-10-17 北京小蝇科技有限责任公司 基于迁移学习的白细胞图像检测识别模型构建方法及应用
CN111091089B (zh) * 2019-12-12 2022-07-29 新华三大数据技术有限公司 一种人脸图像处理方法、装置、电子设备及存储介质
CN111104906A (zh) * 2019-12-19 2020-05-05 南京工程学院 一种基于yolo的输电塔鸟巢故障检测方法
CN111080528B (zh) * 2019-12-20 2023-11-07 北京金山云网络技术有限公司 图像超分辨率和模型训练方法、装置、电子设备及介质
CN110751134B (zh) * 2019-12-23 2020-05-12 长沙智能驾驶研究院有限公司 目标检测方法、装置、存储介质及计算机设备
CN111210417B (zh) * 2020-01-07 2023-04-07 创新奇智(北京)科技有限公司 基于卷积神经网络的布匹缺陷检测方法
CN111310633B (zh) * 2020-02-10 2023-05-05 江南大学 基于视频的并行时空注意力行人重识别方法
CN111260019B (zh) * 2020-02-18 2023-04-11 深圳鲲云信息科技有限公司 神经网络模型的数据处理方法、装置、设备及存储介质
CN111339884B (zh) * 2020-02-19 2023-06-06 浙江大华技术股份有限公司 图像识别方法以及相关设备、装置
CN111340048B (zh) * 2020-02-28 2022-02-22 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN113496150B (zh) * 2020-03-20 2023-03-21 长沙智能驾驶研究院有限公司 密集目标检测方法、装置、存储介质及计算机设备
CN111767919B (zh) * 2020-04-10 2024-02-06 福建电子口岸股份有限公司 一种多层双向特征提取与融合的目标检测方法
CN111914774A (zh) * 2020-05-07 2020-11-10 清华大学 基于稀疏卷积神经网络的3d物体检测方法及装置
CN111881744A (zh) * 2020-06-23 2020-11-03 安徽清新互联信息科技有限公司 一种基于空间位置信息的人脸特征点定位方法及系统
CN111881912A (zh) * 2020-08-19 2020-11-03 Oppo广东移动通信有限公司 数据处理方法、装置以及电子设备
CN112101345A (zh) * 2020-08-26 2020-12-18 贵州优特云科技有限公司 一种水表读数识别的方法以及相关装置
KR20220036061A (ko) * 2020-09-15 2022-03-22 삼성전자주식회사 전자 장치, 그 제어 방법 및 전자 시스템
EP4113382A4 (en) 2020-09-15 2023-08-30 Samsung Electronics Co., Ltd. ELECTRONIC DEVICE, ITS CONTROL METHOD AND SYSTEM
CN112288031A (zh) * 2020-11-18 2021-01-29 北京航空航天大学杭州创新研究院 交通信号灯检测方法、装置、电子设备和存储介质
CN112465226B (zh) * 2020-11-27 2023-01-20 上海交通大学 一种基于特征交互和图神经网络的用户行为预测方法
CN112446378B (zh) * 2020-11-30 2022-09-16 展讯通信(上海)有限公司 目标检测方法及装置、存储介质、终端
CN112419292B (zh) * 2020-11-30 2024-03-26 深圳云天励飞技术股份有限公司 病理图像的处理方法、装置、电子设备及存储介质
CN112418165B (zh) * 2020-12-07 2023-04-07 武汉工程大学 基于改进型级联神经网络的小尺寸目标检测方法与装置
CN112633352B (zh) * 2020-12-18 2023-08-29 浙江大华技术股份有限公司 一种目标检测方法、装置、电子设备及存储介质
CN112801266B (zh) * 2020-12-24 2023-10-31 武汉旷视金智科技有限公司 神经网络构建方法、装置、设备及介质
CN112989919B (zh) * 2020-12-25 2024-04-19 首都师范大学 一种从影像中提取目标对象的方法及系统
CN112686329A (zh) * 2021-01-06 2021-04-20 西安邮电大学 基于双核卷积特征提取的电子喉镜图像分类方法
CN112766137B (zh) * 2021-01-14 2023-02-10 华南理工大学 一种基于深度学习的动态场景异物入侵检测方法
CN112784742A (zh) * 2021-01-21 2021-05-11 宠爱王国(北京)网络科技有限公司 鼻纹特征的提取方法、装置及非易失性存储介质
CN112906485B (zh) * 2021-01-25 2023-01-31 杭州易享优智能科技有限公司 基于改进的yolo模型的视障人士辅助障碍物感知方法
CN113052165A (zh) * 2021-01-28 2021-06-29 北京迈格威科技有限公司 目标检测方法、装置、电子设备及存储介质
CN112906621A (zh) * 2021-03-10 2021-06-04 北京华捷艾米科技有限公司 一种手部检测方法、装置、存储介质和设备
CN112990317B (zh) * 2021-03-18 2022-08-30 中国科学院长春光学精密机械与物理研究所 一种弱小目标检测方法
WO2022205329A1 (zh) * 2021-04-01 2022-10-06 京东方科技集团股份有限公司 对象检测方法、对象检测装置及对象检测系统
CN113191235B (zh) * 2021-04-22 2024-05-17 上海东普信息科技有限公司 杂物检测方法、装置、设备及存储介质
CN113139543B (zh) * 2021-04-28 2023-09-01 北京百度网讯科技有限公司 目标对象检测模型的训练方法、目标对象检测方法和设备
CN113298130B (zh) * 2021-05-14 2023-05-09 嘉洋智慧安全科技(北京)股份有限公司 目标图像的检测、目标对象检测模型的生成方法
US11823490B2 (en) * 2021-06-08 2023-11-21 Adobe, Inc. Non-linear latent to latent model for multi-attribute face editing
CN113538351B (zh) * 2021-06-30 2024-01-19 国网山东省电力公司电力科学研究院 一种融合多参数电信号的外绝缘设备缺陷程度评估方法
CN113673578A (zh) * 2021-07-27 2021-11-19 浙江大华技术股份有限公司 图像检测方法、图像检测设备及计算机可读存储介质
CN114005178B (zh) * 2021-10-29 2023-09-01 北京百度网讯科技有限公司 人物交互检测方法、神经网络及其训练方法、设备和介质
CN114549883B (zh) * 2022-02-24 2023-09-05 北京百度网讯科技有限公司 图像处理方法、深度学习模型的训练方法、装置和设备
CN114871115A (zh) * 2022-04-28 2022-08-09 五邑大学 一种物体分拣方法、装置、设备及存储介质
CN115578624A (zh) * 2022-10-28 2023-01-06 北京市农林科学院 农业病虫害模型构建方法、检测方法及装置
CN116994231A (zh) * 2023-08-01 2023-11-03 无锡车联天下信息技术有限公司 一种车内遗留物体的确定方法、装置及电子设备
CN117237746B (zh) * 2023-11-13 2024-03-15 光宇锦业(武汉)智能科技有限公司 基于多交叉边缘融合小目标检测方法、系统及存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103413120B (zh) * 2013-07-25 2016-07-20 华南农业大学 基于物体整体性和局部性识别的跟踪方法
WO2016004330A1 (en) * 2014-07-03 2016-01-07 Oim Squared Inc. Interactive content generation
CN105120130B (zh) 2015-09-17 2018-06-29 京东方科技集团股份有限公司 一种图像升频系统、其训练方法及图像升频方法
US9424494B1 (en) * 2016-01-28 2016-08-23 International Business Machines Corporation Pure convolutional neural network localization
CN106126579B (zh) * 2016-06-17 2020-04-28 北京市商汤科技开发有限公司 物体识别方法和装置、数据处理装置和终端设备
CN106296728B (zh) 2016-07-27 2019-05-14 昆明理工大学 一种基于全卷积网络的非限制场景中运动目标快速分割方法
CN106295678B (zh) * 2016-07-27 2020-03-06 北京旷视科技有限公司 神经网络训练与构建方法和装置以及目标检测方法和装置
CN106355573B (zh) * 2016-08-24 2019-10-25 北京小米移动软件有限公司 图片中目标物的定位方法及装置
CN106447658B (zh) * 2016-09-26 2019-06-21 西北工业大学 基于全局和局部卷积网络的显著性目标检测方法
CN106709532B (zh) 2017-01-25 2020-03-10 京东方科技集团股份有限公司 图像处理方法和装置
CN110647834B (zh) * 2019-09-18 2021-06-25 北京市商汤科技开发有限公司 人脸和人手关联检测方法及装置、电子设备和存储介质
US11367271B2 (en) * 2020-06-19 2022-06-21 Adobe Inc. Similarity propagation for one-shot and few-shot image segmentation

Also Published As

Publication number Publication date
CN108229455B (zh) 2020-10-16
US11321593B2 (en) 2022-05-03
SG11201907355XA (en) 2019-09-27
WO2018153319A1 (zh) 2018-08-30
JP2020509488A (ja) 2020-03-26
US20190156144A1 (en) 2019-05-23
CN108229455A (zh) 2018-06-29

Similar Documents

Publication Publication Date Title
JP6902611B2 (ja) 物体検出方法、ニューラルネットワークの訓練方法、装置および電子機器
CN109344789B (zh) 人脸跟踪方法及装置
WO2019020075A1 (zh) 图像处理方法、装置、存储介质、计算机程序和电子设备
JP7425147B2 (ja) 画像処理方法、テキスト認識方法及び装置
CN110443258B (zh) 文字检测方法、装置、电子设备及存储介质
CN110544214A (zh) 一种图像修复方法、装置及电子设备
CN112749726B (zh) 目标检测模型的训练方法、装置、计算机设备和存储介质
CN113313083B (zh) 文本检测方法及装置
CN113177472A (zh) 动态手势识别方法、装置、设备以及存储介质
WO2020062494A1 (zh) 图像处理方法和装置
CN112784750B (zh) 基于像素和区域特征匹配的快速视频物体分割方法和装置
CN112597918A (zh) 文本检测方法及装置、电子设备、存储介质
CN111914756A (zh) 一种视频数据处理方法和装置
CN113887615A (zh) 图像处理方法、装置、设备和介质
CN108229281B (zh) 神经网络的生成方法和人脸检测方法、装置及电子设备
CN115063656A (zh) 图像检测方法、装置、计算机可读存储介质及电子设备
CN113516697B (zh) 图像配准的方法、装置、电子设备及计算机可读存储介质
CN110119736B (zh) 车牌位置识别方法、装置及电子设备
CN112784743B (zh) 关键点的识别方法、装置及存储介质
CN111767934B (zh) 一种图像识别方法、装置及电子设备
CN115330851A (zh) 单目深度估计方法、装置、电子设备、存储介质及车辆
CN114898190A (zh) 一种图像处理方法和装置
CN113642510A (zh) 目标检测方法、装置、设备和计算机可读介质
CN113610856A (zh) 训练图像分割模型和图像分割的方法和装置
CN115049895B (zh) 一种图像属性识别方法、属性识别模型训练方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190820

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190820

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200916

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210521

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210601

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210621

R150 Certificate of patent or registration of utility model

Ref document number: 6902611

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250