JP6902611B2

JP6902611B2 - 物体検出方法、ニューラルネットワークの訓練方法、装置および電子機器

Info

Publication number: JP6902611B2
Application number: JP2019545345A
Authority: JP
Inventors: ホンヤンリー; イーリュー; ワンリーウーヤン; シャオガンワン
Original assignee: ベイジンセンスタイムテクノロジーデベロップメントカンパニー，リミテッド
Priority date: 2017-02-23
Filing date: 2018-02-13
Publication date: 2021-07-14
Anticipated expiration: 2038-02-13
Also published as: CN108229455B; US11321593B2; SG11201907355XA; WO2018153319A1; JP2020509488A; US20190156144A1; CN108229455A

Description

本願は画像処理技術、特に物体検出方法および装置、ニューラルネットワークの訓練方法および装置、ならびに電子機器に関する。

目標領域ボックス検出の目的は画像から物体が存在可能な複数の矩形ボックスを検出することである。畳み込みニューラルネットワークを使用して検出する現在の通常の技術では、畳み込みニューラルネットワークにおけるプーリング層によって特徴マップのサイズを徐々に縮小し、それにより物体が存在可能な矩形ボックスを最終的に特定し、このようなネットワーク構造は「ズームアウトネットワーク」（ｚｏｏｍ−ｏｕｔｓｔｒｕｃｔｕｒｅ）と呼ばれている。

本願は２０１７年２月２３日に中国特許局に提出された、出願番号がＣＮ２０１７１０１００６７６．１であり、名称が「物体検出方法、ニューラルネットワークの訓練方法、装置および電子機器」である中国特許出願の優先権を主張しており、その全ての内容が引用により本願に組み込まれる。

本願は画像をもとに目標領域ボックスを検出する技術を提供する。

本願の実施例の第一態様によれば、目標領域ボックス検出用のディープ畳み込みニューラルネットワークにより、処理対象の画像から複数の融合特徴マップを予測して取得することと、前記複数の融合特徴マップに基づいて目標領域ボックスデータを取得すること、とを含み、前記ディープ畳み込みニューラルネットワークは、少なくとも一つのダウンサンプリング層を有する第一サブネット、および、少なくとも一つのアップサンプリング層を有する第二サブネットを含み、前記融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られる物体検出方法が提供される。

本願の一実施形態では、前記第二サブネットは前記第一サブネットの末端に設置され、前記第一サブネットは、複数の第一畳み込み層と、前記複数の第一畳み込み層の間に設置された前記少なくとも一つのダウンサンプリング層とを有し、前記第二サブネットは、複数の第二畳み込み層と、前記複数の第二畳み込み層の間に設置された前記少なくとも一つのアップサンプリング層とを有し、前記第一畳み込み層と前記第二畳み込み層は対称に設置され、前記少なくとも一つのダウンサンプリング層と前記少なくとも一つのアップサンプリング層はそれぞれ対称に設置される。

本願の一実施形態では、少なくとも一つの前記第一畳み込み層には前記第一特徴マップを出力するための第一出力分岐が設けられ、少なくとも一つの前記第二畳み込み層には前記第二特徴マップを出力するための第二出力分岐が設けられる。

本願の一実施形態では、前記第二サブネットは複数の第三畳み込み層をさらに有し、前記第三畳み込み層の入力が前記第一出力分岐および前記第二出力分岐を含み、複数の融合特徴マップを予測して取得する前記ステップは、前記複数の第三畳み込み層の出力端から前記融合特徴マップをそれぞれ取得することを含む。

本願の一実施形態では、前記融合特徴マップにおける少なくとも一つのポイントは複数の物体検知ボックスに対応するボックス融合検出データおよび予測正確情報を有し、前記複数の融合特徴マップに基づいて目標領域ボックスデータを取得する前記ステップは、少なくとも一つの前記融合特徴マップにおけるボックス融合検出データおよび予測正確情報に基づいて前記融合特徴マップの各々に対応する目標領域ボックスデータをそれぞれ取得することを含む。

本願の一実施形態では、前記複数の融合特徴マップに基づいて目標領域ボックスデータを取得する前記ステップは、前記融合特徴マップの各々に対応する予選目標領域ボックスデータをそれぞれ取得することと、前記融合特徴マップを調整することで、調整された融合特徴マップから新たな予選目標領域ボックスデータを取得するという物体領域ボックス回帰操作を、反復終止条件を満たすまで反復実行することと、前記反復実行により得られた前記予選目標領域ボックスデータを前記処理対象の画像における目標領域ボックスデータとすることと、を含む。

本願の一実施形態では、前記ディープ畳み込みニューラルネットワークはさらに、前記第三畳み込み層にそれぞれ対応する数群の第四畳み込み層および前記数群の第四畳み込み層にそれぞれ対応する複数のプーリング層を有する第三サブネットを含み、各前記プーリング層の入力は前記調整された融合特徴マップおよび前記予選目標領域ボックスのデータを含む。

本願の一実施形態では、前記物体領域ボックス回帰操作は、前記第四畳み込み層によって現在の前記融合特徴マップをそれぞれ畳み込み、調整融合特徴マップを取得することと、現在の予選目標領域ボックスデータに基づき、前記プーリング層によって前記調整融合特徴マップの領域プーリングを行い、新たな融合特徴マップを取得することと、前記新たな融合特徴マップから前記新たな予選目標領域ボックスデータを取得することと、を含む。

本願の一実施形態では、前記第三サブネットはさらに前記プーリング層出力端に設置された第五畳み込み層を有し、前記新たな融合特徴マップから前記新たな予選目標領域ボックスデータを取得する前記ステップは、前記第五畳み込み層によって前記新たな融合特徴マップに対して正規化畳み込みを行い、正規化畳み込みを行った融合特徴マップから前記新たな予選目標領域ボックスデータを取得することを含む。

本願の一実施形態では、前記第一サブネットと前記第二サブネットとも認知-バッチ正規化（Ｉｎｃｅｐｔｉｏｎ−ＢＮ）ネットワーク構造であり、前記第三サブネットは残差ネットワーク（ＲｅｓＮｅｔ）構造である。

本願の第二態様によれば、目標領域ボックス標記情報を含むサンプル画像を目標領域ボックス検出用のディープ畳み込みニューラルネットワークに入力し、複数の融合特徴マップを検出して取得することと、前記複数の融合特徴マップに基づいて前記サンプル画像の目標領域ボックスデータを取得することと、取得した前記サンプル画像の目標領域ボックスデータおよび前記目標領域ボックス標記情報に基づいて物体ボックス検出の第一差異データを特定することと、前記第一差異データに基づいて前記ディープ畳み込みニューラルネットワークのネットワークパラメータを調整することと、を含み、前記ディープ畳み込みニューラルネットワークは、少なくとも一つのダウンサンプリング層を有する第一サブネット、および、少なくとも一つのアップサンプリング層を有する第二サブネットを含み、前記融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られるニューラルネットワークの訓練方法が提供される。

本願の一実施形態では、前記第二サブネットは複数の第三畳み込み層をさらに有し、前記第三畳み込み層の入力が前記第一出力分岐および前記第二出力分岐を含み、複数の融合特徴マップを検出して取得する前記ステップは、前記複数の第三畳み込み層の出力端から前記融合特徴マップをそれぞれ取得することを含む。

本願の一実施形態では、前記融合特徴マップにおける少なくとも一つのポイントは複数の物体検知ボックスに対応するボックス融合検出データおよび予測正確情報を有する。

本願の一実施形態では、前記方法はさらに、前記第四畳み込み層によって現在の前記融合特徴マップをそれぞれ畳み込み、調整融合特徴マップを取得し、現在の予選目標領域ボックスデータに基づき、前記プーリング層によって前記調整融合特徴マップの領域プーリングを行い、新たな融合特徴マップを取得し、前記新たな融合特徴マップから前記新たな予選目標領域ボックスデータを取得し、調整されていない予選目標領域ボックスデータと新たな予選目標領域ボックスデータとの間のボックス回帰データ、新たな予選目標領域ボックスデータおよび対応する目標領域ボックス標記情報に基づいて物体ボックス検出の第二差異データを特定し、前記第二差異データに基づいて前記第三サブネットのネットワークパラメータを調整する、という目標領域ボックス回帰訓練操作を、反復終止条件を満たすまで反復実行することを含む。

本願の一実施形態では、目標領域ボックス標記情報を含むサンプル画像を目標領域ボックス検出用のディープ畳み込みニューラルネットワークに入力し、複数の融合特徴マップを検出して取得するステップの前に、前記方法はさらに、前記サンプル画像をズームし、それによって少なくとも一つの物体領域ボックスの真値が物体検知ボックスによりカバーされるようにすることを含む。

本願の一実施形態では、前記サンプル画像の目標領域ボックス標記情報は、物体領域ボックスとの真値の重複率が第一重複比率値以上である正サンプル領域ボックスの標記情報、および、物体領域ボックスとの真値の重複率が第二重複比率値以下である負サンプル領域ボックスの標記情報を含み、前記第一重複比率値は前記第二重複比率値よりも大きい。

本願の一実施形態では、前記サンプル画像の目標領域ボックス標記情報はさらに、物体領域ボックスとの真値の重複率が前記第一重複比率値と前記第二重複比率値の間にある中性サンプル領域ボックスの標記情報を含む。

本願の一実施形態では、全ての前記サンプル画像において、標記される正サンプル領域ボックスの総和が前記正サンプル領域ボックス、負サンプル領域ボックスおよび中性サンプル領域ボックスのボックス総数に占める比率は、５０％よりも大きい所定の第一比率以上であり、標記される負サンプル領域ボックスの総和がボックス総数に占める比率は所定の第二比率以下であり、標記される中性サンプル領域ボックスの総和がボックス総数に占める比率は、第一比率と第二比率の和の半分以下である所定の第三比率以下である。

本願の一実施形態では、前記第一サブネットと前記第二サブネットとも認知-バッチ正規化ネットワーク構造であり、前記第三サブネットは残差ネットワーク構造である。

本願の第三態様によれば、目標領域ボックス検出用のディープ畳み込みニューラルネットワークにより、処理対象の画像から複数の融合特徴マップを予測して取得するための融合特徴マップ予測モジュールと、前記融合特徴マップ予測モジュールが取得した複数の融合特徴マップに基づいて目標領域ボックスデータを取得するための目標領域ボックス予測モジュールと、を含み、前記ディープ畳み込みニューラルネットワークは、少なくとも一つのダウンサンプリング層を有する第一サブネット、および、少なくとも一つのアップサンプリング層を有する第二サブネットを含み、前記融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られる物体検出装置が提供される。

本願の一実施形態では、前記第二サブネットは複数の第三畳み込み層をさらに有し、前記第三畳み込み層の入力が前記第一出力分岐および前記第二出力分岐を含み、前記融合特徴マップ予測モジュールは前記複数の第三畳み込み層の出力端から前記融合特徴マップをそれぞれ取得するために用いられる。

本願の一実施形態では、前記融合特徴マップにおける少なくとも一つのポイントは複数の物体検知ボックスに対応するボックス融合検出データおよび予測正確情報を有し、前記目標領域ボックス予測モジュールは少なくとも一つの前記融合特徴マップにおけるボックス融合検出データおよび予測正確情報に基づいて前記融合特徴マップの各々に対応する目標領域ボックスデータをそれぞれ取得するために用いられる。

本願の一実施形態では、前記目標領域ボックス予測モジュールは、前記融合特徴マップの各々に対応する予選目標領域ボックスデータをそれぞれ取得し、前記融合特徴マップを調整することで、調整された融合特徴マップから新たな予選目標領域ボックスデータを取得するという領域ボックス回帰動作を、反復終止条件を満たすまで反復実行し、前記反復実行により得られた前記予選目標領域ボックスデータを前記処理対象の画像における目標領域ボックスデータとするために用いられる。

本願の一実施形態では、前記目標領域ボックス予測モジュールは、前記第四畳み込み層によって現在の前記融合特徴マップをそれぞれ畳み込み、調整融合特徴マップを取得するためのボックス調整ユニットと、現在の予選目標領域ボックスデータに基づき、前記プーリング層によって前記調整融合特徴マップの領域プーリングを行い、新たな融合特徴マップを取得するための領域プーリングユニットと、前記新たな融合特徴マップから前記新たな予選目標領域ボックスデータを取得するための予選ボックス取得ユニットと、を含む。

本願の一実施形態では、前記第三サブネットはさらに前記プーリング層出力端に設置された第五畳み込み層を有し、前記予選ボックス取得ユニットは前記第五畳み込み層によって前記新たな融合特徴マップに対して正規化畳み込みを行い、正規化畳み込みを行った融合特徴マップから前記新たな予選目標領域ボックスデータを取得するために用いられる。

本願の第四態様によれば、目標領域ボックス標記情報を含むサンプル画像を目標領域ボックス検出用のディープ畳み込みニューラルネットワークに入力し、複数の融合特徴マップを検出して取得するための融合特徴マップ検出モジュールと、前記複数の融合特徴マップに基づいて前記サンプル画像の目標領域ボックスデータを取得するための目標領域ボックス検出モジュールと、取得した前記サンプル画像の目標領域ボックスデータおよび前記目標領域ボックス標記情報に基づいて物体ボックス検出の第一差異データを特定するための第一差異取得モジュールと、前記第一差異データに基づいて前記ディープ畳み込みニューラルネットワークのネットワークパラメータを調整するための第一ネットワーク訓練モジュールと、を含み、前記ディープ畳み込みニューラルネットワークは、少なくとも一つのダウンサンプリング層を有する第一サブネット、および、少なくとも一つのアップサンプリング層を有する第二サブネットを含み、前記融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られるニューラルネットワークの訓練装置が提供される。

本願の一実施形態では、前記第二サブネットは複数の第三畳み込み層をさらに有し、前記第三畳み込み層の入力が前記第一出力分岐および前記第二出力分岐を含み、前記融合特徴マップ検出モジュールは前記複数の第三畳み込み層の出力端から前記融合特徴マップをそれぞれ取得するために用いられる。

本願の一実施形態では、前記装置はさらに、前記第四畳み込み層によって現在の前記融合特徴マップをそれぞれ畳み込み、調整融合特徴マップを取得し、現在の予選目標領域ボックスデータに基づき、前記プーリング層によって前記調整融合特徴マップの領域プーリングを行い、新たな融合特徴マップを取得し、前記新たな融合特徴マップから前記新たな予選目標領域ボックスデータを取得し、調整されていない予選目標領域ボックスデータと新たな予選目標領域ボックスデータとの間のボックス回帰データ、新たな予選目標領域ボックスデータおよび対応する目標領域ボックス標記情報に基づいて物体ボックス検出の第二差異データを特定し、前記第二差異データに基づいて前記第三サブネットのネットワークパラメータを調整する、という目標領域ボックス回帰訓練操作を、反復終止条件を満たすまで反復実行するためのボックス回帰反復訓練モジュールを含む。

本願の一実施形態では、前記第三サブネットはさらに前記プーリング層出力端に設置された第五畳み込み層を有し、前記ボックス回帰反復訓練モジュールは前記第五畳み込み層によって前記新たな融合特徴マップに対して正規化畳み込みを行い、正規化畳み込みを行った融合特徴マップから前記新たな予選目標領域ボックスデータを取得するために用いられる。

本願の一実施形態では、前記装置はさらに、目標領域ボックス標記情報を含むサンプル画像を目標領域ボックス検出用のディープ畳み込みニューラルネットワークに入力し、複数の融合特徴マップを検出して取得するステップの前に、前記サンプル画像をズームし、それによって少なくとも一つの物体領域ボックスの真値が物体検知ボックスによりカバーされるようにするための前処理モジュールを含む。

本願の一実施形態では、全ての前記サンプル画像において、標記される正サンプル領域ボックスの総和が前記正サンプル領域ボックス、負サンプル領域ボックスおよび中性サンプル領域ボックスのボックス総数に占める比率は、所定の第一比率以上であり、前記第一比率が５０％よりも大きく、標記される負サンプル領域ボックスの総和がボックス総数に占める比率は所定の第二比率以下であり、標記される中性サンプル領域ボックスの総和がボックス総数に占める比率は、第一比率と第二比率の和の半分以下である所定の第三比率以下である。

本願の第五態様によれば、
プロセッサ、および
前記プロセッサに本願のいずれか一つの実施例に記載の物体検出方法に対応する動作を実行させる少なくとも一つの実行可能指令を記憶するための、または、前記プロセッサに本願のいずれか一つの実施例に記載のニューラルネットワークの訓練方法に対応する動作を実行させる少なくとも一つの実行可能指令を記憶するためのメモリを含む電子機器が提供される。

本願の第六態様によれば、
本願のいずれか一つの実施例に記載の物体検出装置、および、前記物体検出装置を運用する時、本願のいずれか一つの実施例に記載の物体検出装置におけるユニットが運用されるプロセッサ、または
本願のいずれか一つの実施例に記載のニューラルネットワークの訓練装置、および、前記ニューラルネットワークの訓練装置を運用する時、本願のいずれか一つの実施例に記載のニューラルネットワークの訓練装置におけるユニットが運用されるプロセッサを含む別の電子機器が提供される。

本願の第七態様によれば、機器において運用される時、前記機器内のプロセッサが本願のいずれか一つの実施例に記載の物体検出方法における各ステップを実現するための指令を実行するか、または
機器において運用される時、前記機器内のプロセッサが本願のいずれか一つの実施例に記載のニューラルネットワークの訓練方法における各ステップを実現するための指令を実行するコンピュータ読み取り可能コードを含むコンピュータプログラムが提供される。

本願の第八態様によれば、コンピュータ読み取り可能指令を記憶するためのコンピュータ読み取り可能記憶媒体であって、前記指令が実行される時に本願のいずれか一つの実施例に記載の物体検出方法における各ステップの動作、または本願のいずれか一つの実施例に記載のニューラルネットワークの訓練方法における各ステップの動作を実現するコンピュータ読み取り可能記憶媒体が提供される。

本願が提供する物体検出の解決手段、ニューラルネットワーク訓練の技術的解決手段によれば、目標領域ボックス検出用のディープ畳み込みニューラルネットワークにより、処理対象の画像から複数の融合特徴マップを予測して取得し、ここで、少なくとも一つのダウンサンプリング層を有する第一サブネットから複数の第一特徴マップを取得し、少なくとも一つのアップサンプリング層を有する第二サブネットから複数の第二特徴マップを取得し、それぞれ複数の第一特徴マップおよび複数の第二特徴マップで融合して融合特徴マップを得る。その後、さらに前記複数の融合特徴マップに基づいて目標領域ボックスデータを取得する。これらの融合特徴マップは画像における上位層の意味特徴（例えば、レイアウト、前背景情報）および下位層の特徴点（例えば、小物体情報）を効果的に特徴付けるため、これらの融合特徴マップに基づいて画像に含まれる大小物体の目標領域ボックスデータを効果的に抽出し、それにより物体検出の正確性およびロバスト性を向上させることができる。

以下に図面および実施例により、本願の技術的解決手段をさらに詳細に説明する。

明細書の一部となる図面は本願の実施例を説明するものであり、かつその説明と共に本願の原理を解釈するために用いられる。

図面と関連付けて、以下の詳細な説明によれば、本願をより明確に理解できる。そのうち、
本願の一実施例に係る物体検出方法を示すフローチャートである。本願の別の実施例に係る物体検出方法を示すフローチャートである。本願の実施例に係るディープ畳み込みニューラルネットワークの一例示的構造を示す。本願のさらに別の実施例に係る物体検出方法を示すフローチャートである。本願の一実施例に係るニューラルネットワークの訓練方法を示すフローチャートである。本願の別の実施例に係るニューラルネットワークの訓練方法を示すフローチャートである。本願のさらに別の実施例に係るニューラルネットワークの訓練方法を示すフローチャートである。本願の一実施例に係る物体検出装置を示す構成ブロック図である。本願の別の実施例に係る物体検出装置を示す構成ブロック図である。本願の一実施例に係るニューラルネットワークの訓練装置を示す構成ブロック図である。本願の別の実施例に係るニューラルネットワークの訓練装置を示す構成ブロック図である。本願の一実施例に係る第一電子機器を示す構成模式図である。本願の別の実施例に係る第二電子機器を示す構成模式図である。

ここで、図面を参照しながら本願の様々な例示的実施例を詳細に説明する。なお、特に断らない限り、これらの実施例において記述した部材およびステップの相対的配置、数式および数値は本願の範囲を限定するものではないことに注意すべきである。

同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。

以下の少なくとも一つの例示的実施例に対する説明は実際に説明的なものに過ぎず、本願およびその適用または使用へのなんらの制限にもならない。

関連分野の当業者に既知の技術、方法および機器については、詳細に説明しないが、場合によって、前記技術、方法および機器は明細書の一部と見なすべきである。

なお、類似する符号および英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。

本願はコンピュータシステム／サーバに適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。コンピュータシステム／サーバとの併用に適する公知の計算システム、環境および／または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステムおよび上記あらゆるシステムを含む分散型クラウドコンピューティング技術環境を含むが、これらに限定されない。

コンピュータシステム／サーバはコンピュータシステムにより実行されるコンピュータシステム実行可能指令（例えばプログラムモジュール）の一般的なコンテキストにおいて説明できる。通常、プログラムモジュールは、特定のタスクを実行するかまたは特定の抽象データ型を実現するルーチン、プログラム、目標プログラム、コンポーネント、ロジック、データ構造などを含むことができるが、これらに限定されない。コンピュータシステム／サーバは、通信ネットワークにわたってリンクされた遠隔処理機器によりタスクが実行される分散型クラウドコンピューティング環境において実施できる。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してもよい。

従来技術が提供するネットワーク構造による目標領域ボックス検出は、畳み込みニューラルネットワークにおける上位層から得られた特徴マップ内の情報を効果的に利用してネットワーク最下層の情報処理を補助することができず、それによってネットワークから取得した特徴データは十分な代表性およびロバスト性を有さず、小物体の検出に不利である。

以下に図１〜図１３と関連付けて本開示が提供する物体検出の技術的解決手段を説明する。本開示が提供する任意のクラスタリングの技術的解決手段はソフトウェアまたはハードウェアまたは両者の組み合わせという方式で例示可能である。例えば、本開示が提供するクラスタリングの技術的解決手段はある電子機器によって実施可能またはあるプロセッサによって実施可能であり、本開示はそれを限定せず、前記電子機器は端末またはサーバを含むことができるが、それらに限定されず、前記プロセッサはＣＰＵまたはＧＰＵを含むことができるが、それらに限定されない。以下では説明を省略する。

図１は本願の一実施例に係る物体検出方法を示すフローチャートである。

図１を参照すると、本実施例の物体検出方法は以下のステップを含む。

ステップＳ１１０において、目標領域ボックス検出用のディープ畳み込みニューラルネットワークにより、処理対象の画像から複数の融合特徴マップを予測して取得する。

任意選択的な一例では、ステップＳ１１０はメモリに記憶された指令をプロセッサによって呼び出して実行してもよくまたはプロセッサにより運用される融合特徴マップ予測モジュール８１０によって実行してもよい。

そのうち、ディープ畳み込みニューラルネットワークは、少なくとも一つのダウンサンプリング層を有する第一サブネット、および、少なくとも一つのアップサンプリング層を有する第二サブネットを含む。融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られる。

本開示の上記実施例における処理対象の画像は一つ以上の対象物体を撮影した写真またはビデオフレーム画像である。該画像は撮影した対象物体を少なくとも目視で判別できるように、所定の解像度上の要件を満たさなければならない。

目標領域ボックス検出用のディープ畳み込みニューラルネットワークにおける第一サブネットは処理対象の画像を畳み込み、プーリングすることで、第一サブネットの異なる深さの複数の畳み込み層で該画像の第一特徴マップを取得でき、これらの第一特徴マップは異なる大きさの領域ボックスを特徴付ける。少なくとも一つのダウンサンプリング層が設置された第一サブネットにおいて、通常ディープ畳み込みニューラルネットワーク前方に位置する畳み込み層を指す浅い畳み込み層で取得した第一特徴マップは画像の細目を効果的に特徴付けることができるが、前景と背景が区別されにくく、通常ディープ畳み込みニューラルネットワーク後方に位置する畳み込み層を指す深い畳み込み層で取得した第一特徴マップは画像内の全体的な意味特徴を効果的に抽出することができるが、画像の細目情報、例えば小物体の情報が失われる。

少なくとも一つのアップサンプリング層を有する第二サブネットはさらに、第一サブネット末端から取得した第一特徴マップに対して相反する処理、即ち逆畳み込み、アップサンプリングおよびプーリング動作を実行し、第一サブネット末端から取得した第一特徴マップを段階的に拡大し、第二サブネットの異なる深さの複数の畳み込み層で前記第一特徴マップに対応する第二特徴マップを取得する。第二特徴マップはいずれも畳み込まれ、ダウンサンプリングされた第一特徴マップによって逆畳み込みおよびアップサンプリングされるため、このプロセスで、上位層の意味特徴は段階的に逆畳み込みされて下位層の特徴点と結合し、小物体（小物体の領域ボックス）の認識を補助できるようになる。

これにより、第一サブネットおよび第二サブネットによって実行する画像処理経路は砂時計状の構造を形成し、第一サブネットの第一畳み込み層から生成された第一特徴マップはダウンサンプリングによって徐々に小さくなり、第一サブネット末端で生成された第一特徴マップは第二サブネットの第二畳み込み層およびアップサンプリング層によって徐々に拡大される。

これをもとに、少なくとも一つの第一特徴マップを対応する第二特徴マップと融合し、複数の融合特徴マップを得て、これらの融合特徴マップは、異なる大きさの物体領域ボックスの認識に用いるように、画像における上位層の意味特徴および下位層の特徴点を効果的に特徴付けることができる。

ステップＳ１２０において、複数の融合特徴マップに基づいて目標領域ボックスデータを取得する。

任意選択的な一例では、ステップＳ１２０はメモリに記憶された指令をプロセッサによって呼び出して実行してもよくまたはプロセッサにより運用される目標領域ボックス予測モジュール８２０によって実行してもよい。

具体的には、少なくとも一つの融合特徴マップから目標領域ボックスデータを抽出し、さらに少なくとも一つの融合特徴マップから抽出した目標領域ボックスデータを、処理対象の画像から検出した目標領域ボックスデータとして統合する。

本願の実施例に係る物体検出方法によれば、目標領域ボックス検出用のディープ畳み込みニューラルネットワークにより、処理対象の画像から複数の融合特徴マップを予測して取得し、ここで、少なくとも一つのダウンサンプリング層を有する第一サブネットから複数の第一特徴マップを取得し、少なくとも一つのアップサンプリング層を有する第二サブネットから複数の第二特徴マップを取得し、それぞれ複数の第一特徴マップおよび複数の第二特徴マップで融合して融合特徴マップを得る。その後、さらに前記複数の融合特徴マップに基づいて目標領域ボックスデータを取得する。これらの融合特徴マップは画像における上位層の意味特徴（例えば、レイアウト、前背景情報）および下位層の特徴点（例えば、小物体情報）を効果的に特徴付けるため、これらの融合特徴マップに基づいて画像に含まれる大小物体の目標領域ボックスデータを効果的に抽出し、それにより物体検出の正確性およびロバスト性を向上させることができる。

図２は本願の別の実施例に係る物体検出方法を示すフローチャートである。

図２を参照すると、ステップＳ２１０で、目標領域ボックス検出用のディープ畳み込みニューラルネットワークにより、処理対象の画像から複数の融合特徴マップを予測して取得する。

任意選択的な一例では、ステップＳ２１０はメモリに記憶された指令をプロセッサによって呼び出して実行してもよくまたはプロセッサにより運用される融合特徴マップ予測モジュール８１０によって実行してもよい。

具体的には、該ディープ畳み込みニューラルネットワークにおいて、第一サブネットは、複数の第一畳み込み層と、複数の第一畳み込み層の間に設置された少なくとも一つのダウンサンプリング層とを有し、第二サブネットは、複数の第二畳み込み層と、複数の第二畳み込み層の間に設置された少なくとも一つのアップサンプリング層とを有する。第二サブネットは第一サブネットの末端に設置され、第一畳み込み層と第二畳み込み層は対称に設置され、少なくとも一つのダウンサンプリング層と少なくとも一つのアップサンプリング層はそれぞれ対称に設置される。

第一サブネットにおける異なる深さの複数の第一畳み込み層で該画像の複数の第一特徴マップを取得し、第二サブネットにおける前記複数の第一畳み込み層と対称に設置された第二畳み込み層で該画像の複数の第二特徴マップを取得することができる。

任意選択的に、少なくとも一つの第一畳み込み層には第一特徴マップを出力するための第一出力分岐が設けられ、第二畳み込み層には第二特徴マップを出力するための第二出力分岐が設けられる。

本願の任意選択的な一実施形態によれば、第二サブネットは複数の第三畳み込み層をさらに有し、第三畳み込み層の入力が前記第一出力分岐および前記第二出力分岐を含む。それに対して、前記複数の第三畳み込み層の出力端から前記融合特徴マップをそれぞれ取得する。

上記構造を有するあらゆるディープ畳み込みニューラルネットワークを使用できる。任意選択的に、第一サブネットも第二サブネットも物体検出において性能が高い認知-バッチ正規化（Ｉｎｃｅｐｔｉｏｎ−ＢＮ）ネットワーク構造として構築される。Ｉｎｃｅｐｔｉｏｎ−ＢＮネットワーク構造は画像からの異なる構造／パターン（ｐａｔｔｅｒｎ）の抽出に優れており、第一サブネットおよび第二サブネットのタスク機能の実行に適する。

図３は本開示の実施例に係るディープ畳み込みニューラルネットワークの一例示的構造を示す。

図３を参照すると、本実施例に係るディープ畳み込みニューラルネットワークは第一サブネットＳＮ１および第二サブネットＳＮ２を含む。そのうち、第一サブネットＳＮ１は複数の第一畳み込み層Ｃ１および複数の第一畳み込み層Ｃ１の間に設置された少なくとも一つのダウンサンプリング層Ｐ１を有し、第二サブネットＳＮ２は複数の第二畳み込み層Ｃ２および複数の第二畳み込み層Ｃ２の間に設置された少なくとも一つのアップサンプリング層Ｐ２を有し、ダウンサンプリング層Ｐ１とアップサンプリング層Ｐ２は対称に設置され、複数の第一畳み込み層Ｃ１と複数の第二畳み込み層Ｃ２も対称に設置される。また、少なくとも一つの第一畳み込み層Ｃ１に第一出力分岐Ｆ１が設けられ、少なくとも一つの第二畳み込み層Ｃ２に第二出力分岐Ｆ２が設けられる。第二サブネットＳＮ２にはさらに、融合特徴マップが出力される複数の第三畳み込み層Ｃ３が設けられる。

本願の任意選択的な一実施形態によれば、融合特徴マップにおける少なくとも一つのポイントは複数の物体検知ボックスに対応するボックス融合検出データおよび予測正確情報を有する。つまり、第一畳み込み層および第二畳み込み層には物体領域ボックス検知用の物体検知ボックスの情報、例えば、畳み込みパラメータまたは特徴パラメータがそれぞれ設定されている。異なる深さの第一畳み込み層および第二畳み込み層に設定された物体検知ボックスの情報は二つ以上の物体検知ボックスセットにそれぞれ対応し、該二つ以上の物体検知ボックスセットは、該ディープ畳み込みニューラルネットワークの異なる深さで異なる大きさの物体領域ボックスの特徴データを取得するように、異なる検知ボックスの大きさ範囲の物体検知ボックスをそれぞれ含む。

融合特徴マップにおける少なくとも一つのポイントのボックス融合検出データは、例えば物体検知ボックスセット内の物体検知ボックスに対応する座標データ、位置および大きさデータを含むことができるが、これらに限定されず、該予測正確情報は該ボックス融合検出データの信頼度データ、例えば、予測正確確率であってもよい。例えば、融合特徴マップにおける各ポイントは物体検知ボックスに対応する１つ、３つ、６つまたは９つの座標データおよび該座標データの信頼度データを有してもよい。

それに対して、本願の任意選択的な一実施形態によれば、ステップ２１０の後にステップＳ２２０を実行する。

ステップ２２０において、少なくとも一つの融合特徴マップにおけるボックス融合検出データおよび予測正確情報に基づいて融合特徴マップの各々に対応する目標領域ボックスデータをそれぞれ取得する。

任意選択的な一例では、ステップＳ２２０はメモリに記憶された指令をプロセッサによって呼び出して実行してもよくまたはメモリに記憶された指令によってプロセッサで実行してもよい。

具体的には、融合特徴マップにおける少なくとも一つのポイントのボックス融合検出データの予測正確情報に基づいて目標領域ボックスデータを取得できる。例えば、あるポイントのあるボックス座標データの信頼度が所定の閾値（例えば、６０％、７０％）よりも大きい場合、該ボックス座標データに対応する領域ボックスを目標領域ボックスデータの一つとして決定できる。

本願の別の任意選択的な実施形態によれば、ステップＳ２１０実行後、ステップＳ２３０〜Ｓ２４０を実行する。

ステップＳ２３０において、融合特徴マップの各々に対応する予選目標領域ボックスデータをそれぞれ取得する。

任意選択的な一例では、ステップＳ２３０はメモリに記憶された指令をプロセッサによって呼び出して実行してもよくまたはメモリに記憶された指令によってプロセッサで実行してもよい。

例えば、前記ステップＳ２２０またはＳ１２０に類似する処理を実行し、予選目標領域ボックスデータを取得することができ、即ち、前記ステップＳ２２０またはＳ１２０で取得した目標領域ボックスデータをステップＳ２３０での予選目標領域ボックスデータとし、それによってさらなる調整、補正処理を行い、物体領域ボックス検出の正確性を向上させることができる。

ステップＳ２４０で、融合特徴マップを調整することで、調整された融合特徴マップから新たな予選目標領域ボックスデータを取得するという物体領域ボックス回帰操作を、反復終止条件を満たすまで反復実行する。

任意選択的な一例では、ステップＳ２４０はメモリに記憶された指令をプロセッサによって呼び出して実行してもよくまたはメモリに記憶された指令によってプロセッサで実行してもよい。

つまり、各融合特徴マップを調整することでその内部の予選目標領域ボックスデータをそれぞれ調整し、さらに調整された融合特徴マップから新たな予選目標領域ボックスデータを取得し、それにより予選目標領域ボックスの回帰（物体領域ボックス回帰操作）を行い、より正確な新予選目標領域ボックスデータを取得する。

該ステップで、このような物体領域ボックス回帰操作を、反復終止条件を満たすまで反復実行し、それによってより正確な予選目標領域ボックスデータを最終的に取得する。該反復終止条件を必要に応じて、例えば、所定の反復回数に、または新たな予選目標領域ボックスデータと調整されていない予選目標領域ボックスデータの間の調整値（即ちボックス回帰）が所定のボックス回帰値よりも小さいように設定してもよい。

ステップＳ２４０の反復を完了した後、反復実行により得られた予選目標領域ボックスデータを処理対象の画像における目標領域ボックスデータとする。

本願の別の実施例に係る物体検出方法によれば、対称構造を有する目標領域ボックス検出用のディープ畳み込みニューラルネットワークによって、第一サブネットの複数の第一畳み込み層から、段階的に畳み込まれ、ダウンサンプリングされた処理対象の画像の複数の第一特徴マップを取得し、さらに第二サブネットの対称な複数の第二畳み込み層から、第一サブネットの末端で取得した第一特徴マップの段階的に逆畳み込みされ、アップサンプリングされた対応する複数の第二特徴マップを取得し、複数の第一特徴マップおよび対応する第二特徴マップをさらに畳み込み、画像における上位層の意味特徴（例えば、レイアウト、前背景情報）および下位層の特徴点（例えば、小物体情報）を効果的に特徴付ける融合特徴マップを取得し、それによりこれらの融合特徴マップに基づいて画像に含まれる大小物体の目標領域ボックスデータを効果的に抽出できる。

これをもとに、複数の融合特徴マップを調整することで、調整された融合特徴マップから新たな予選目標領域ボックスデータを取得し、それにより予選目標領域ボックスデータの回帰を反復実行する。目標領域ボックスデータの回帰調整を数回行うことで、含まれるより正確な目標領域ボックスデータをより正確に検出し、物体検出の正確性およびロバスト性をさらに向上させることができる。

図４は本願のさらに別の実施例に係る物体検出方法を示すフローチャートである。該実施例は前記ステップＳ２４０での例示的物体領域ボックス回帰操作を説明する。

該実施例に係るディープ畳み込みニューラルネットワークはさらに、第三畳み込み層にそれぞれ対応する数群の第四畳み込み層および数群の第四畳み込み層にそれぞれ対応する複数のプーリング層を有する第三サブネットを含み、各プーリング層の入力は調整された融合特徴マップおよび予選目標領域ボックスのデータを含む。

つまり、各第四畳み込み層群は一つ以上の畳み込み層を含むことができ、各第四畳み込み層群は前記第三畳み込み層の出力端に接続し、融合特徴マップを入力として受信することができる。各プーリング層は対応する第四畳み込み層の末端に設置され、調整された融合特徴マップおよび予選目標領域ボックスデータを入力として受信する。

そのうち、各第四畳み込み層群は第三畳み込み層から取得した融合特徴マップを畳み込み、調整融合特徴マップを取得するために用いられる。このプロセスで、該融合特徴マップから取得した予選目標領域ボックスデータを調整する。第三サブネットにおけるプーリング層は第四畳み込み層により畳み込まれて得られた調整融合特徴マップの領域プーリングを行い、新たな融合特徴マップを取得するために用いられる。それにより、新たな融合特徴マップから新たな予選目標領域ボックスデータを取得できる。

具体的には、物体領域ボックス回帰操作の毎回の反復処理は、現在の反復開始時の複数の融合特徴マップおよび予選目標領域ボックスデータに関与し、また現在の反復終了時に取得した新たな複数の融合特徴マップおよび新たな予選目標領域ボックスデータにも関与する。

ステップＳ４１０で、第四畳み込み層によって現在の融合特徴マップをそれぞれ畳み込み、調整融合特徴マップを取得し、それにより現在の予選目標領域ボックスを調整し、該調整は予選目標領域ボックスの位置および／または大きさの調整を含む。

任意選択的な一例では、該ステップＳ４１０はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用されるボックス調整ユニット８２１によって実行してもよい。

ステップＳ４２０で、現在の予選目標領域ボックスデータに基づき、プーリング層によって調整融合特徴マップの領域プーリングを行い、新たな融合特徴マップを取得する。

任意選択的な一例では、該ステップＳ４２０はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用される領域プーリングユニット８２２によって実行してもよい。

つまり、現在の予選目標領域ボックスを関心領域とし、調整融合特徴マップの領域プーリングを行い、新たな融合特徴マップを取得する。

現在の予選目標領域ボックスデータに基づいて調整融合特徴マップの領域プーリングを行う前記ステップによって、調整された目標領域ボックスに対する応答程度を反映する新たな融合特徴マップを取得し、それによって後続で新たな融合特徴マップから新たな予選目標領域ボックスデータを取得する。

ステップＳ４３０で、新たな融合特徴マップから新たな予選目標領域ボックスデータを取得し、それにより目標領域ボックスの回帰を完了し、調整された目標領域ボックスを物体領域ボックスの真値（ｇｒｏｕｎｄｔｒｕｔｈ）に近くすることができる。ステップＳ１２０またはＳ２２０に類似する処理によってステップＳ４３０の処理を実行してもよい。

任意選択的な一例では、該ステップＳ４３０はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用される予選ボックス取得ユニット８２３によって実行してもよい。

本願の任意選択的な一実施形態によれば、第三サブネットはさらに、プーリング層出力端に設置された第五畳み込み層を有する。それに対して、ステップＳ４３０は具体的に、第五畳み込み層によって新たな融合特徴マップに対して正規化畳み込みを行い、正規化畳み込みを行った融合特徴マップから前記新たな予選目標領域ボックスデータを取得することを含む。

上記構造を有するあらゆる畳み込みニューラルネットワークによって第三サブネットを構築できる。任意選択的に、第三サブネットを新たに開発された物体検出技術において性能が高い残差ネットワーク（ＲｅｓＮｅｔ）構造として構築し、領域プーリングおよび正規化畳み込みを実行するようにしてもよい。

本願の上記実施例に係る物体検出方法によれば、前記各実施例をもとに、少なくとも一つの融合特徴マップをさらに畳み込み、それによって該融合特徴マップに含まれる予選目標領域ボックスデータを調整し、さらに領域プーリングによって新たな融合特徴マップを取得し、新たな融合特徴マップから新たな予選目標領域ボックスデータを取得し、それにより予測して得られた予選目標領域ボックスデータを調整し、回帰し、物体検出の正確性およびロバスト性の向上に役立つ。

図５は本願の一実施例に係るニューラルネットワークの訓練方法を示すフローチャートである。

図５を参照すると、ステップＳ５１０で、目標領域ボックス標記情報を含むサンプル画像を目標領域ボックス検出用のディープ畳み込みニューラルネットワークに入力し、複数の融合特徴マップを検出して取得する。

任意選択的な一例では、該ステップＳ５１０はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用される融合特徴マップ検出モジュール１０１０によって実行してもよい。

上述したように、ディープ畳み込みニューラルネットワークは、少なくとも一つのダウンサンプリング層を有する第一サブネット、および、少なくとも一つのアップサンプリング層を有する第二サブネットを含み、融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られる。

目標領域ボックス検出用のディープ畳み込みニューラルネットワークを使用することで、目標領域ボックス標記情報を含むサンプル画像から複数の融合特徴マップを検出して取得することができる。

通常、複数のサンプル画像に対してステップＳ５１０の処理を実行し、少なくとも一つのサンプル画像のために複数の融合特徴マップを検出して取得する。

ステップＳ５２０において、複数の融合特徴マップに基づいてサンプル画像の目標領域ボックスデータを取得する。

任意選択的な一例では、該ステップＳ５２０はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用される目標領域ボックス検出モジュール１０２０によって実行してもよい。

ステップＳ５２０の処理はステップＳ１２０の処理に類似し、ここでは説明を省略する。

ステップＳ５３０において、取得したサンプル画像の目標領域ボックスデータおよび目標領域ボックス標記情報に基づいて物体ボックス検出の第一差異データを特定する。

任意選択的な一例では、該ステップＳ５３０はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用される第一差異取得モジュール１０３０によって実行してもよい。

例えば、取得した前記サンプル画像の目標領域ボックスデータおよび目標領域ボックス標記情報に基づいて欠損値または偏差値を該第一差異データとして、および後続でディープ畳み込みニューラルネットワークを訓練する根拠として計算する。

ステップＳ５４０で、第一差異データに基づいてディープ畳み込みニューラルネットワークのネットワークパラメータを調整する。

任意選択的な一例では、該ステップＳ５４０はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用される第一ネットワーク訓練モジュール１０４０によって実行してもよい。

例えば、特定した第一差異データを該ディープ畳み込みニューラルネットワークに逆伝播し、それによって該ディープ畳み込みニューラルネットワークのネットワークパラメータを調整する。

本願が提供するニューラルネットワークの訓練方法によれば、目標領域ボックス標記情報を含むサンプル画像を目標領域ボックス検出用のディープ畳み込みニューラルネットワークに入力し、複数の融合特徴マップを検出して取得し、ここで、少なくとも一つのダウンサンプリング層を有する第一サブネットから複数の第一特徴マップを検出して取得し、少なくとも一つのアップサンプリング層を有する第二サブネットから複数の第二特徴マップを検出して取得し、それぞれ複数の第一特徴マップおよび複数の第二特徴マップで融合して融合特徴マップを得て、さらに複数の融合特徴マップに基づいて目標領域ボックスデータを取得する。その後、取得した目標領域ボックスデータおよび目標領域ボックス標記情報に基づいて第一差異データを特定し、さらに第一差異データに基づいてディープ畳み込みニューラルネットワークのネットワークパラメータを調整する。訓練により得られたディープ畳み込みニューラルネットワークのこれらの融合特徴マップは画像における上位層の意味特徴（例えば、レイアウト、前背景情報）および下位層の特徴点（例えば、小物体情報）を効果的に特徴付けるため、これらの融合特徴マップに基づいて画像に含まれる大小物体の目標領域ボックスデータを効果的に抽出できる。訓練により得られたディープ畳み込みニューラルネットワークは物体検出の正確性およびロバスト性を向上させることができる。

図６は本願の別の実施例に係るニューラルネットワークの訓練方法を示すフローチャートである。

本実施例によれば、訓練されるディープ畳み込みニューラルネットワークにおいて、第二サブネットは第一サブネットの末端に設置され、第一サブネットは、複数の第一畳み込み層と、複数の第一畳み込み層の間に設置された少なくとも一つのダウンサンプリング層とを有し、第二サブネットは、複数の第二畳み込み層と、複数の第二畳み込み層の間に設置された少なくとも一つのアップサンプリング層とを有する。第一畳み込み層と第二畳み込み層は対称に設置され、少なくとも一つのダウンサンプリング層と少なくとも一つのアップサンプリング層はそれぞれ対称に設置される。

これをもとに、任意選択的に、少なくとも一つの第一畳み込み層に第一特徴マップを出力するための第一出力分岐が設けられ、第二畳み込み層に第二特徴マップを出力するための第二出力分岐が設けられる。

そこで、任意選択的に、第二サブネットはさらに、その入力が第一出力分岐および第二出力分岐を含む複数の第三畳み込み層を有する。それに対して、第三畳み込み層は第一出力分岐および第二出力分岐からの第一特徴マップおよび対応する第二特徴マップを畳み込み、対応する融合特徴マップを取得するために用いられる。

図６を参照すると、ステップＳ６１０で、サンプル画像をズームし、それによってサンプル画像における少なくとも一つの物体領域ボックスの真値が物体検知ボックスによりカバーされるようにする。このように、あらゆるバッチのサンプル画像に正サンプルがあることを確保する。

また、任意選択的に、十分な数の正サンプルを選択し、一定数の負サンプルを選択し、それによって訓練により得られた第一サブネットおよび第二サブネットを効果的に収束させる。

ここで、正サンプルは正サンプル領域ボックスであり、負サンプルは実際に負サンプル領域ボックスである。正サンプル領域ボックスと物体領域ボックスとの真値の重複率が第一重複比率値以上であり、負サンプル領域ボックスと物体領域ボックスとの真値の重複率が第二重複比率値以下であり、第一重複比率値が第二重複比率値よりも大きいという基準に従って、正サンプル領域ボックスおよび負サンプル領域ボックスを定義してもよい。

それに対して、本願の任意選択的な一実施形態によれば、サンプル画像の目標領域ボックス標記情報は正サンプル領域ボックスの標記情報および負サンプル領域ボックスの標記情報を含む。

ここで、設計上のニーズに応じて第一重複比率値を設定してもよく、例えば、第一重複比率値を７０％〜９５％の間の任意の比率値とし、第二重複比率値を０％〜３０％または０〜２５％の範囲内の任意の比率値とする。

また、中性サンプル、即ち中性サンプル領域ボックスを設定してもよい。具体的には、中性サンプル領域ボックスと物体領域ボックスとの真値の重複率が第一重複比率値と第二重複比率値の間、例えば、３０％〜７０％の間、２５％〜８０％の間にあるという基準に従って、中性サンプル領域ボックスを定義してもよい。

さらに、例えば、全てのサンプル画像において、標記される正サンプル領域ボックスの総和が正サンプル領域ボックス、負サンプル領域ボックスおよび中性サンプル領域ボックスのボックス総数に占める比率は所定の第一比率以上であり、前記第一比率が５０％よりも大きく、標記される負サンプル領域ボックスの総和がボックス総数に占める比率は所定の第二比率以下であり、標記される中性サンプル領域ボックスの総和がボックス総数に占める比率は第一比率と第二比率の和の半分以下である所定の第三比率以下であるように、正サンプル、負サンプルおよび中性サンプルの数を制御してもよい。中性サンプル画像を適当に使用することで、正サンプルと負サンプルをより効果的に区別し、訓練される第三サブネットのロバスト性を向上させることができる。

ステップＳ６２０で、目標領域ボックス標記情報を含むサンプル画像を目標領域ボックス検出用のディープ畳み込みニューラルネットワークに入力し、複数の融合特徴マップを検出して取得する。ここで、複数の第三畳み込み層の出力端から前記融合特徴マップをそれぞれ取得する。

任意選択的な一例では、該ステップＳ６２０はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよい。

任意選択的に、融合特徴マップにおける少なくとも一つのポイントのボックス融合検出データは、例えば物体検知ボックスセット内の物体検知ボックスに対応する座標データ、位置および大きさデータを含むことができるが、これらに限定されず、該予測正確情報は該ボックス融合検出データの信頼度データ、例えば、予測正確確率であってもよい。

上記構造を有するあらゆるディープ畳み込みニューラルネットワークを使用できる。任意選択的に、第一サブネットも第二サブネットも物体検出において性能が高いＩｎｃｅｐｔｉｏｎ−ＢＮネットワーク構造として構築される。

それに対して、ステップＳ６３０で、少なくとも一つの前記融合特徴マップにおけるボックス融合検出データおよび予測正確情報に基づいて前記融合特徴マップの各々に対応する目標領域ボックスデータをそれぞれ取得する。

任意選択的な一例では、該ステップＳ６３０はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよい。

ステップＳ６４０において、取得した前記サンプル画像の目標領域ボックスデータおよび前記目標領域ボックス標記情報に基づいて物体ボックス検出の第一差異データを特定する。

任意選択的な一例では、該ステップＳ６４０はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよい。

例えば、取得したサンプル画像の目標領域ボックスデータおよび目標領域ボックス標記情報に基づいて欠損値または偏差値を該第一差異データ、および後続でディープ畳み込みニューラルネットワークを訓練する根拠として計算してもよい。

ステップＳ６５０で、第一差異データに基づいてディープ畳み込みニューラルネットワークのネットワークパラメータを調整する。

任意選択的な一例では、該ステップＳ６５０はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよい。

ステップＳ６４０〜Ｓ６５０の処理は前記ステップＳ５３０〜Ｓ５４０の処理に類似し、ここでは説明を省略する。

本願のニューラルネットワークの訓練方法によれば、目標領域ボックス標記情報を含むサンプル画像を、対称構造を有する目標領域ボックス検出用のディープ畳み込みニューラルネットワークに入力し、複数の融合特徴マップを検出して取得し、ここで、少なくとも一つのダウンサンプリング層を有する第一サブネットから複数の第一特徴マップを検出して取得し、少なくとも一つのアップサンプリング層を有する第二サブネットから複数の第二特徴マップを検出して取得し、それぞれ複数の第一特徴マップおよび複数の第二特徴マップで融合して融合特徴マップを得て、さらに複数の融合特徴マップに基づいて目標領域ボックスデータを取得する。その後、取得した目標領域ボックスデータおよび目標領域ボックス標記情報に基づいて第一差異データを特定し、さらに第一差異データに基づいてディープ畳み込みニューラルネットワークのネットワークパラメータを調整する。訓練により得られたディープ畳み込みニューラルネットワークのこれらの融合特徴マップは画像における上位層の意味特徴（例えば、レイアウト、前背景情報）および下位層の特徴点（例えば、小物体情報）を効果的に特徴付けるため、これらの融合特徴マップに基づいて画像に含まれる大小物体の目標領域ボックスデータを効果的に抽出できる。訓練により得られたディープ畳み込みニューラルネットワークは物体検出の正確性およびロバスト性を向上させることができる。

図７は本願のさらに別の実施例に係るニューラルネットワークの訓練方法を示すフローチャートである。

上述したように、上記実施例により訓練される該ディープ畳み込みニューラルネットワークはさらに、第三畳み込み層にそれぞれ対応する数群の第四畳み込み層および数群の第四畳み込み層にそれぞれ対応する複数のプーリング層を有する第三サブネットを含み、各プーリング層の入力は調整された融合特徴マップおよび予選目標領域ボックスのデータを含む。

つまり、各第四畳み込み層群は一つ以上の畳み込み層を含むことができ、各第四畳み込み層群は前記第三畳み込み層の出力端に接続し、融合特徴マップを入力として受信することができる。各プーリング層は対応する第四畳み込み層の末端に設置され、調整された融合特徴マップおよび前記予選目標領域ボックスデータを入力として受信する。

該実施例では、主に該ディープ畳み込みニューラルネットワークにおける第三サブネットの訓練を説明する。まず上記いずれか一つの実施例の方法によって第一サブネットおよび第二サブネットを訓練しておき、続いて第一サブネットおよび第二サブネットの訓練プロセスから得られた融合特徴マップを使用し、該実施例の方法に従って第三サブネットを訓練するようにしてもよい。

図７を参照すると、ステップＳ７１０で、目標領域ボックス標記情報を含むサンプル画像から取得した複数の融合特徴マップを取得する。

前のステップＳ５１０またはＳ６１０に記載のように、サンプル画像から該複数の融合特徴マップを取得する。

任意選択的な一例では、該ステップＳ７１０はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用される融合特徴マップ検出モジュール１０１０によって実行してもよい。ステップＳ７２０で、目標領域ボックス回帰訓練操作を、反復終止条件を満たすまで反復実行する。

任意選択的な一例では、該ステップＳ７２０はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用されるボックス回帰反復訓練モジュール１０５０によって実行してもよい。

具体的には、ステップＳ７２０はステップＳ７２１〜Ｓ７２６を含む。

ステップＳ７２１で、第四畳み込み層によって現在の融合特徴マップをそれぞれ畳み込み、調整融合特徴マップを取得し、それにより現在の予選目標領域ボックスを調整するという目的を達成する。

ステップＳ７２２で、現在の予選目標領域ボックスデータに基づき、プーリング層によって調整融合特徴マップの領域プーリングを行い、新たな融合特徴マップを取得する。新たな融合特徴マップは予選目標領域ボックスに対する調整および調整に対する目標領域ボックスの応答程度の反映を含む。

ステップＳ７２３で、新たな融合特徴マップから新たな予選目標領域ボックスデータを取得する。

ステップＳ７２１〜Ｓ７２３の処理は前記ステップＳ４１０〜Ｓ４３０の処理に類似し、ここでは説明を省略する。

本願の任意選択的な一実施形態によれば、第三サブネットはさらに前記プーリング層出力端に設置された第五畳み込み層を有する。それに対して、ステップＳ７２３は具体的に、第五畳み込み層によって新たな融合特徴マップに対して正規化畳み込みを行い、正規化畳み込みを行った融合特徴マップから新たな予選目標領域ボックスデータを選択することを含む。

ステップＳ７２４で、調整されていない予選目標領域ボックスデータと新たな予選目標領域ボックスデータとの間のボックス回帰データ、新たな予選目標領域ボックスデータおよび対応する目標領域ボックス標記情報に基づいて物体ボックス検出の第二差異データを特定する。

任意選択的な一例では、該ステップＳ７２４はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよい。

例えば、新たな予選目標領域ボックスデータおよび対応する目標領域ボックス標記情報によって検出オフセットを特定し、検出オフセットおよびボックス回帰データ（即ちボックス移動／調整データ）に基づいて欠損値を第二差異データとして計算するようにしてもよい。二つのオフセットパラメータ（検出オフセットおよびボックス回帰データ）を物体ボックス検出の第二差異データとして結合することで、訓練される第三サブネットの正確性を向上させることができる。

ステップＳ７２５で、第二差異データに基づいて第三サブネットのネットワークパラメータを調整する。

任意選択的な一例では、該ステップＳ７２５はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよい。

例えば、特定した第二差異データを第三サブネットに逆伝播し、それによって第三サブネットのネットワークパラメータを調整する。

ステップＳ７２６で、反復終止条件を満たすか否かを判定する。

任意選択的な一例では、該ステップＳ７２６はメモリに記憶された対応する指令をプロセッサによって呼び出して実行してもよい。

ステップＳ７２６で、前記反復が終止条件（例えば、所定の反復回数に達する）を満たすと判定した場合、第三サブネットの訓練を終止し、ステップＳ７２６で、前記反復が終止条件（例えば、所定の反復回数に達する）を満たさないと判定した場合、ステップＳ７２１に戻って該ステップを実行し、前記第三サブネットの訓練を、反復終止条件を満たすまで継続する。

従来の物体領域ボックス回帰用のニューラルネットワークの訓練は一回の目標領域ボックス回帰のみを対象として訓練を反復（例えば反復回数Ｎ）しているが、本願が提供する訓練方法によれば、目標領域ボックスに数回の回帰（例えば回帰回数Ｍ）を実行し、一回当たりの回帰は数回の反復（例えば反復回数Ｎ）訓練、即ちＭ×Ｎ回の反復訓練に関与している。このように訓練により得られた第三サブネットはより正確に物体領域ボックスを位置特定および検出できる。

上記構造を有するあらゆる畳み込みニューラルネットワークを使用して第三サブネットを構築できる。任意選択的に、第三サブネットは、領域プーリングおよび正規化畳み込みを実行するように、新たに開発された物体検出技術において性能が高いＲｅｓＮｅｔ構造として構築される。

本願が提供するニューラルネットワークの訓練方法によれば、前記各実施例をもとに、訓練により得られたディープ畳み込みニューラルネットワークはサンプル画像の各融合特徴マップをさらに畳み込むことで、該融合特徴マップに含まれる予選目標領域ボックスデータを調整し、さらに領域プーリングによって新たな融合特徴マップを得て、新たな融合特徴マップから新たな予選目標領域ボックスデータを取得し、それにより得られた予選目標領域ボックスデータを調整し、回帰し、物体検出の正確性およびロバスト性をさらに向上可能である。

図８は本願の一実施例に係る物体検出装置を示す構成ブロック図である。

図８を参照すると、本実施例の物体検出装置は融合特徴マップ予測モジュール８１０および目標領域ボックス予測モジュール８２０を含む。

融合特徴マップ予測モジュール８１０は目標領域ボックス検出用のディープ畳み込みニューラルネットワークによって、処理対象の画像から複数の融合特徴マップを予測して取得するために用いられ、ここで、ディープ畳み込みニューラルネットワークは、少なくとも一つのダウンサンプリング層を有する第一サブネット、および、少なくとも一つのアップサンプリング層を有する第二サブネットを含み、融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られる。

目標領域ボックス予測モジュール８２０は融合特徴マップ予測モジュール８１０が取得した複数の融合特徴マップに基づいて目標領域ボックスデータを取得するために用いられる。

本実施例の物体検出装置は前記方法の実施例における対応する物体検出方法を実現するために用いられ、かつ対応する方法の実施例の有益な効果を有し、ここでは説明を省略する。

図９は本願の別の実施例に係る物体検出装置を示す構成ブロック図である。

本実施例によれば、目標領域ボックス検出用のディープ畳み込みニューラルネットワークにおいて、第二サブネットは第一サブネットの末端に設置され、第一サブネットは、複数の第一畳み込み層および複数の第一畳み込み層の間に設置された少なくとも一つのダウンサンプリング層を有し、第二サブネットは、複数の第二畳み込み層および複数の第二畳み込み層の間に設置された前記少なくとも一つのアップサンプリング層を有し、第一畳み込み層と第二畳み込み層は対称に設置され、少なくとも一つのダウンサンプリング層と少なくとも一つのアップサンプリング層はそれぞれ対称に設置される。

任意選択的な一実施形態によれば、少なくとも一つの第一畳み込み層には第一特徴マップを出力するための第一出力分岐が設けられ、第二畳み込み層には第二特徴マップを出力するための第二出力分岐が設けられる。

任意選択的な一実施形態によれば、第二サブネットはさらに、その入力が第一出力分岐および前記第二出力分岐を含む複数の第三畳み込み層を有する。それに対して、融合特徴マップ予測モジュール８１０は複数の第三畳み込み層の出力端から融合特徴マップをそれぞれ取得するために用いられる。

任意選択的に、融合特徴マップにおける少なくとも一つのポイントは複数の物体検知ボックスに対応するボックス融合検出データおよび予測正確情報を有する。それに対して、目標領域ボックス予測モジュール８２０は少なくとも一つの融合特徴マップにおけるボックス融合検出データおよび予測正確情報に基づいて融合特徴マップの各々に対応する目標領域ボックスデータをそれぞれ取得するために用いられる。

任意選択的に、目標領域ボックス予測モジュール８２０は、融合特徴マップの各々に対応する予選目標領域ボックスデータをそれぞれ取得し、融合特徴マップを調整することで、調整された融合特徴マップから新たな予選目標領域ボックスデータを取得するという物体領域ボックス回帰操作を、反復終止条件を満たすまで反復実行し、反復実行により得られた予選目標領域ボックスデータを処理対象の画像における目標領域ボックスデータとするために用いられる。

任意選択的に、ディープ畳み込みニューラルネットワークはさらに、第三畳み込み層にそれぞれ対応する数群の第四畳み込み層および数群の第四畳み込み層にそれぞれ対応する複数のプーリング層を有する第三サブネットを含み、各プーリング層の入力は調整された融合特徴マップおよび予選目標領域ボックスのデータを含む。

任意選択的に、目標領域ボックス予測モジュール８２０は、
第四畳み込み層によって現在の前記融合特徴マップをそれぞれ畳み込み、調整融合特徴マップを取得するためのボックス調整ユニット８２１と、
現在の予選目標領域ボックスデータに基づき、プーリング層によって調整融合特徴マップの領域プーリングを行い、新たな融合特徴マップを取得するための領域プーリングユニット８２２と、
新たな融合特徴マップから新たな予選目標領域ボックスデータを取得するための予選ボックス取得ユニット８２３と、を含む。

任意選択的に、第三サブネットはさらに、プーリング層出力端に設置された第五畳み込み層を有し、それに対して、予選ボックス取得ユニット８２３は第五畳み込み層によって新たな融合特徴マップに対して正規化畳み込みを行い、正規化畳み込みを行った融合特徴マップから新たな予選目標領域ボックスデータを取得するために用いられる。

任意選択的に、第一サブネットと第二サブネットとも認知-バッチ正規化（Ｉｎｃｅｐｔｉｏｎ−ＢＮ）ネットワーク構造であり、第三サブネットは残差ネットワーク（ＲｅｓＮｅｔ）構造である。

図１０は本願の一実施例に係るニューラルネットワークの訓練装置を示す構成ブロック図である。

図１０を参照すると、本実施例のニューラルネットワークの訓練装置はさらに、融合特徴マップ検出モジュール１０１０、目標領域ボックス検出モジュール１０２０、第一差異取得モジュール１０３０および第一ネットワーク訓練モジュール１０４０を含む。

融合特徴マップ検出モジュール１０１０は目標領域ボックス標記情報を含むサンプル画像を目標領域ボックス検出用のディープ畳み込みニューラルネットワークに入力し、複数の融合特徴マップを検出して取得するために用いられ、ここで、ディープ畳み込みニューラルネットワークは、少なくとも一つのダウンサンプリング層を有する第一サブネット、および、少なくとも一つのアップサンプリング層を有する第二サブネットを含み、融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られる。

目標領域ボックス検出モジュール１０２０は複数の融合特徴マップに基づいてサンプル画像の目標領域ボックスデータを取得するために用いられる。

第一差異取得モジュール１０３０は取得したサンプル画像の目標領域ボックスデータおよび目標領域ボックス標記情報に基づいて物体ボックス検出の第一差異データを特定するために用いられる。

第一ネットワーク訓練モジュール１０４０は第一差異データに基づいてディープ畳み込みニューラルネットワークのネットワークパラメータを調整するために用いられる。

本実施例のニューラルネットワークの訓練装置は前記方法の実施例における対応するニューラルネットワークの訓練方法を実現するために用いられ、かつ対応する方法の実施例の有益な効果を有し、ここでは説明を省略する。

図１１は本願の別の実施例に係るニューラルネットワークの訓練装置を示す構成ブロック図である。

本実施例によれば、目標領域ボックス検出用のディープ畳み込みニューラルネットワークにおいて、第二サブネットは第一サブネットの末端に設置され、第一サブネットは、複数の第一畳み込み層および複数の第一畳み込み層の間に設置された少なくとも一つのダウンサンプリング層を有し、第二サブネットは、複数の第二畳み込み層および複数の第二畳み込み層の間に設置された少なくとも一つのアップサンプリング層を有し、第一畳み込み層と第二畳み込み層は対称に設置され、少なくとも一つのダウンサンプリング層と少なくとも一つのアップサンプリング層はそれぞれ対称に設置される。

任意選択的な一実施形態によれば、第二サブネットはさらに、その入力が第一出力分岐および第二出力分岐を含む複数の第三畳み込み層を有する。それに対して、融合特徴マップ検出モジュール１０１０は複数の第三畳み込み層の出力端から融合特徴マップをそれぞれ取得するために用いられる。

任意選択的に、融合特徴マップにおける少なくとも一つのポイントは複数の物体検知ボックスに対応するボックス融合検出データおよび予測正確情報を有する。

任意選択的に、上記装置はさらに、第四畳み込み層によって現在の融合特徴マップをそれぞれ畳み込み、調整融合特徴マップを取得し、現在の予選目標領域ボックスデータに基づき、プーリング層によって調整融合特徴マップの領域プーリングを行い、新たな融合特徴マップを取得し、新たな融合特徴マップから新たな予選目標領域ボックスデータを取得し、調整されていない予選目標領域ボックスデータと新たな予選目標領域ボックスデータとの間のボックス回帰データ、新たな予選目標領域ボックスデータおよび対応する目標領域ボックス標記情報に基づいて物体ボックス検出の第二差異データを特定し、第二差異データに基づいて第三サブネットのネットワークパラメータを調整する、という目標領域ボックス回帰訓練操作を、反復終止条件を満たすまで反復実行するためのボックス回帰反復訓練モジュール１０５０を含む。

任意選択的に、第三サブネットはさらに、プーリング層出力端に設置された第五畳み込み層を有し、それに対して、ボックス回帰反復訓練モジュール１０５０は第五畳み込み層によって新たな融合特徴マップに対して正規化畳み込みを行い、正規化畳み込みを行った融合特徴マップから前記新たな予選目標領域ボックスデータを取得するために用いられる。

任意選択的に、上記装置はさらに、目標領域ボックス回帰訓練操作を反復実行する前に、サンプル画像をズームし、それによって少なくとも一つの物体領域ボックスの真値が物体検知ボックスによりカバーされるようにするための前処理モジュール１０６０を含む。

任意選択的に、サンプル画像の目標領域ボックス標記情報は、物体領域ボックスとの真値の重複率が第一重複比率値以上である正サンプル領域ボックスの標記情報、および、物体領域ボックスとの真値の重複率が第二重複比率値以下である負サンプル領域ボックスの標記情報を含み、第一重複比率値は第二重複比率値よりも大きい。

任意選択的に、サンプル画像の目標領域ボックス標記情報はさらに、物体領域ボックスとの真値の重複率が第一重複比率値と第二重複比率値の間にある中性サンプル領域ボックスの標記情報を含む。

任意選択的に、全てのサンプル画像において、標記される正サンプル領域ボックスの総和が正サンプル領域ボックス、負サンプル領域ボックスおよび中性サンプル領域ボックスのボックス総数に占める比率は所定の第一比率以上であり、前記第一比率が５０％よりも大きく、標記される負サンプル領域ボックスの総和がボックス総数に占める比率は所定の第二比率以下であり、標記される中性サンプル領域ボックスの総和がボックス総数に占める比率は第一比率と第二比率の和の半分以下である所定の第三比率以下である。

任意選択的に、第一サブネットと第二サブネットとも認知-バッチ正規化ネットワーク構造であり、第三サブネットは残差ネットワーク構造である。

また、本願の実施例はさらに、プロセッサ、および
前記プロセッサに本願の上記いずれか一つの実施例に記載の物体検出方法に対応する動作を実行させる少なくとも一つの実行可能指令を記憶するための、または、
前記プロセッサに本願の上記いずれか一つの実施例に記載のニューラルネットワークの訓練方法に対応する動作を実行させる少なくとも一つの実行可能指令を記憶するためのメモリを含む電子機器を提供する。

また、本願の実施例はさらに、
本願の上記いずれか一つの実施例に記載の物体検出装置、および、前記物体検出装置を運用する時、本願の上記いずれか一つの実施例に記載の物体検出装置におけるユニットが運用されるプロセッサ、または
本願の上記いずれか一つの実施例に記載のニューラルネットワークの訓練装置、および、前記ニューラルネットワークの訓練装置を運用する時、本願の上記いずれか一つの実施例に記載のニューラルネットワークの訓練装置におけるユニットが運用されるプロセッサを含む別の電子機器を提供する。

図１２は本願の一実施例に係る第一電子機器を示す構成模式図である。

本願はさらに、電子機器を提供し、例えば、移動端末、パーソナルコンピュータ（ＰＣ）、タブレット、サーバであってもよい。以下に図１２を参照すると、本願の実施例の端末機器またはサーバの実現に適する第一電子機器１２００の構成模式図が示される。

図１２に示すように、第一電子機器１２００は一つ以上の第一プロセッサ、第一通信素子を含むが、これらに限定されず、前記一つ以上の第一プロセッサは例えば、一つ以上の第一中央処理装置（ＣＰＵ）１２０１、および／または一つ以上の第一画像処理装置（ＧＰＵ）１２１３であり、第一プロセッサは第一読み取り専用メモリ（ＲＯＭ）１２０２に記憶されている実行可能指令または第一記憶部分１２０８から第一ランダムアクセスメモリ（ＲＡＭ）１２０３にロードされた実行可能指令に従って様々な適当の動作および処理を実行できる。第一通信素子は第一通信コンポーネント１２１２および第一通信インタフェース１２０９を含む。そのうち、第一通信コンポーネント１２１２はネットワークカードを含むことができるが、これに限定されず、前記ネットワークカードはＩＢ（Ｉｎｆｉｎｉｂａｎｄ）ネットワークカードを含むことができるが、これに限定されず、第一通信インタフェース１２０９はＬＡＮカード、モデムのネットワークインタフェースカードなどの通信インタフェースを含み、第一通信インタフェース１２０９はインターネットのようなネットワークによって通信処理を実行する。

第一プロセッサは第一読み取り専用メモリ１２０２および／または第一ランダムアクセスメモリ１２３０と通信して実行可能指令を実行し、第一バス１２０４を介して第一通信コンポーネント１２１２と接続し、第一通信コンポーネント１２１２によって他の目標機器と通信し、それにより本願の実施例が提供するいずれか一項の方法に対応する動作、例えば、目標領域ボックス検出用のディープ畳み込みニューラルネットワークにより、処理対象の画像から複数の融合特徴マップを予測して取得することと、前記複数の融合特徴マップに基づいて目標領域ボックスデータを取得することと、を完了することができ、ここで、前記ディープ畳み込みニューラルネットワークは、少なくとも一つのダウンサンプリング層を有する第一サブネット、および、少なくとも一つのアップサンプリング層を有する第二サブネットを含み、前記融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られる。

また、第一ＲＡＭ１２０３には、装置の動作に必要な種々のプログラムおよびデータを記憶することができる。第一ＣＰＵ１２０１、第一ＲＯＭ１２０２および第一ＲＡＭ１２０３は第一バス１２０４を介して互いに接続される。第一ＲＡＭ１２０３が存在する場合、第一ＲＯＭ１２０２は任意選択的なモジュールとなる。第一ＲＡＭ１２０３は実行可能指令を記憶するか、または動作時に第一ＲＯＭ１２０２へ実行可能指令を書き込み、実行可能指令によって第一プロセッサ１２０１は上記通信方法に対応する動作を実行する。第一入力／出力（Ｉ／Ｏ）インタフェース１２０５も第一バス１２０４に接続される。第一通信コンポーネント１２１２は統合設置してもよく、また複数のサブモジュール（例えば複数のＩＢネットワークカード）を有するように設置してもよく、かつバスリンクに存在する。

キーボード、マウスを含む第一入力部分１２０６、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）およびスピーカーなどに限られない第一出力部分１２０７、ハードディスクに限られない第一記憶部分１２０８、およびＬＡＮカード、モデムのネットワークインタフェースカードなどに限られない第一通信インタフェース１２０９といった部品は、第一Ｉ／Ｏインタフェース１２０５に接続される。第一ドライバ１２１０も必要に応じて第一Ｉ／Ｏインタフェース１２０５に接続される。第一取り外し可能な媒体１２１１、例えば磁気ディスク、光ディスク、磁気光ディスク、半導体メモリなどは、必要に応じて第一ドライバ１２１０に取り付けられ、それによってそこから読み出されたコンピュータプログラムが必要に応じて第一記憶部分１２０８にインストールされる。

説明すべきは、図１２に示すアーキテクチャは任意選択的な一実施形態に過ぎず、具体的な実践では、実際の必要に応じて上記図１２の部品数およびタイプを選択、減少、増加または交換することができ、異なる機能部品の設置上でも、分離設置または統合設置の実施形態を採用でき、例えばＧＰＵとＣＰＵは分離設置するかまたはＧＰＵをＣＰＵに統合するようにしてもよく、第一通信コンポーネント１２１２は分離設置してもよく、またＣＰＵまたはＧＰＵに統合してもよいことである。これらの置換可能な実施形態はいずれも本願の保護範囲に属する。

特に、本願の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本願の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例により提供される方法を実行するステップに対応する指令、例えば、目標領域ボックス検出用のディープ畳み込みニューラルネットワークにより、処理対象の画像から複数の融合特徴マップを予測して取得するための実行可能コード、前記複数の融合特徴マップに基づいて目標領域ボックスデータを取得するための実行可能コードを含むことができ、ここで、前記ディープ畳み込みニューラルネットワークは、少なくとも一つのダウンサンプリング層を有する第一サブネット、および、少なくとも一つのアップサンプリング層を有する第二サブネットを含み、前記融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られる。このような実施例では、該コンピュータプログラムは通信素子によってネットワークからダウンロードおよびインストールでき、および／または第一取り外し可能な媒体１２１１からインストールできる。該コンピュータプログラムは第一中央処理装置（ＣＰＵ）１２０１に実行される時、本願の方法に特定された上記機能を実行する。

本願の該実施例が提供する電子機器は、目標領域ボックス検出用のディープ畳み込みニューラルネットワークにより、処理対象の画像から複数の融合特徴マップを予測して取得し、ここで、少なくとも一つのダウンサンプリング層を有する第一サブネットから複数の第一特徴マップを取得し、少なくとも一つのアップサンプリング層を有する第二サブネットから複数の第二特徴マップを取得し、それぞれ複数の第一特徴マップおよび複数の第二特徴マップで融合して融合特徴マップを得る。その後、さらに前記複数の融合特徴マップに基づいて目標領域ボックスデータを取得する。これらの融合特徴マップは画像における上位層の意味特徴（例えば、レイアウト、前背景情報）および下位層の特徴点（例えば、小物体情報）を効果的に特徴付けるため、これらの融合特徴マップに基づいて画像に含まれる大小物体の目標領域ボックスデータを効果的に抽出し、それにより物体検出の正確性およびロバスト性を向上させることができる。

図１３は本願の別の実施例に係る第二電子機器を示す構成模式図である。

本願はさらに、電子機器を提供し、例えば移動端末、パーソナルコンピュータ（ＰＣ）、タブレット、サーバであってもよい。以下に図１３を参照すると、本願の実施例の端末機器またはサーバの実現に適する第二電子機器１３００の構成模式図が示される。

図１３に示すように、第二電子機器１３００は一つ以上の第二プロセッサ、第二通信素子を含み、前記一つ以上の第二プロセッサは例えば、一つ以上の第二中央処理装置（ＣＰＵ）１３０１、および／または一つ以上の第二画像処理装置（ＧＰＵ）１３１３であり、第二プロセッサは第二読み取り専用メモリ（ＲＯＭ）１３０２に記憶された実行可能指令または第二記憶部分１３０８から第二ランダムアクセスメモリ（ＲＡＭ）１３０３にロードされた実行可能指令に従って様々な適当の動作および処理を実行できる。第二通信素子は第二通信コンポーネント１３１２および第二通信インタフェース１３０９を含む。そのうち、第二通信コンポーネント１３１２はネットワークカードを含むことができるが、これに限定されず、前記ネットワークカードはＩＢ（Ｉｎｆｉｎｉｂａｎｄ）ネットワークカードを含むことができるが、これに限定されず、第二通信インタフェース１３０９はＬＡＮカード、モデムのネットワークインタフェースカードなどの通信インタフェースを含み、第二通信インタフェース１３０９はインターネットのようなネットワークによって通信処理を実行する。

第二プロセッサは第二読み取り専用メモリ１３０２および／または第二ランダムアクセスメモリ１３３０と通信して実行可能指令を実行し、第二バス１３０４を介して第二通信コンポーネント１３１２と接続し、第二通信コンポーネント１３１２によって他の目標機器と通信し、それにより本願の実施例が提供するいずれか一項の方法に対応する動作、例えば、目標領域ボックス標記情報を含むサンプル画像を目標領域ボックス検出用のディープ畳み込みニューラルネットワークに入力し、複数の融合特徴マップを検出して取得することと、前記複数の融合特徴マップに基づいて前記サンプル画像の目標領域ボックスデータを取得することと、取得した前記サンプル画像の目標領域ボックスデータおよび前記目標領域ボックス標記情報に基づいて物体ボックス検出の第一差異データを特定することと、前記第一差異データに基づいて前記ディープ畳み込みニューラルネットワークのネットワークパラメータを調整することと、を完了することができ、ここで、前記ディープ畳み込みニューラルネットワークは、少なくとも一つのダウンサンプリング層を有する第一サブネット、および、少なくとも一つのアップサンプリング層を有する第二サブネットを含み、前記融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られる。

また、第二ＲＡＭ１３０３には、装置の動作に必要な種々のプログラムおよびデータを記憶することができる。第二ＣＰＵ１３０１、第二ＲＯＭ１３０２および第二ＲＡＭ１３０３は第二バス１３０４を介して互いに接続される。第二ＲＡＭ１３０３が存在する場合、第二ＲＯＭ１３０２は任意選択的なモジュールとなる。第二ＲＡＭ１３０３は実行可能指令を記憶するか、または動作時に第二ＲＯＭ１３０２へ実行可能指令を書き込み、実行可能指令によって第二プロセッサ１３０１は上記通信方法に対応する動作を実行する。第二入力／出力（Ｉ／Ｏ）インタフェース１３０５も第二バス１３０４に接続される。第二通信コンポーネント１３１２は統合設置してもよく、また複数のサブモジュール（例えば複数のＩＢネットワークカード）を有するように設置してもよく、かつバスリンクに存在する。

キーボード、マウスに限られない第二入力部分１３０６、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）およびスピーカーなどに限られない第二出力部分１３０７、ハードディスクに限られない第二記憶部分１３０８、およびＬＡＮカード、モデムのネットワークインタフェースカードなどを含む第二通信インタフェース１３０９といった部品は、第二Ｉ／Ｏインタフェース１３０５に接続される。第二ドライバ１３１０も必要に応じて第二Ｉ／Ｏインタフェース１３０５に接続される。第二取り外し可能な媒体１３１１、例えば磁気ディスク、光ディスク、磁気光ディスク、半導体メモリなどは、必要に応じて第二ドライバ１３１０に取り付けられ、それによってそこから読み出されたコンピュータプログラムが必要に応じて第二記憶部分１３０８にインストールされる。

説明すべきは、図１３に示すアーキテクチャは任意選択的な一実施形態に過ぎず、具体的な実践では、実際の必要に応じて上記図１３の部品数およびタイプを選択、減少、増加または交換することができ、異なる機能部品の設置上でも、分離設置または統合設置の実施形態を採用でき、例えばＧＰＵとＣＰＵは分離設置するかまたはＧＰＵをＣＰＵに統合するようにしてもよく、第二通信コンポーネント１３１２は分離設置してもよく、またＣＰＵまたはＧＰＵに統合してもよいことである。これらの置換可能な実施形態はいずれも本願の保護範囲に属する。

特に、本願の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本願の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例により提供される方法を実行するステップに対応する指令、例えば、目標領域ボックス標記情報を含むサンプル画像を目標領域ボックス検出用のディープ畳み込みニューラルネットワークに入力し、複数の融合特徴マップを検出して取得するための実行可能コード、前記複数の融合特徴マップに基づいて前記サンプル画像の目標領域ボックスデータを取得するための実行可能コード、取得した前記サンプル画像の目標領域ボックスデータおよび前記目標領域ボックス標記情報に基づいて物体ボックス検出の第一差異データを特定するための実行可能コード、および前記第一差異データに基づいて前記ディープ畳み込みニューラルネットワークのネットワークパラメータを調整するための実行可能コードを含むことができ、ここで、前記ディープ畳み込みニューラルネットワークは、少なくとも一つのダウンサンプリング層を有する第一サブネット、および、少なくとも一つのアップサンプリング層を有する第二サブネットを含み、前記融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られる。このような実施例では、該コンピュータプログラムは通信素子によってネットワークからダウンロードおよびインストールでき、および／または第二取り外し可能な媒体１３１１からインストールできる。該コンピュータプログラムは第二中央処理装置（ＣＰＵ）１３０１に実行される時、本願の方法に特定された上記機能を実行する。

本願の該実施例が提供する電子機器は、目標領域ボックス標記情報を含むサンプル画像を目標領域ボックス検出用のディープ畳み込みニューラルネットワークに入力し、複数の融合特徴マップを検出して取得し、ここで、少なくとも一つのダウンサンプリング層を有する第一サブネットから複数の第一特徴マップを検出して取得し、少なくとも一つのアップサンプリング層を有する第二サブネットから複数の第二特徴マップを検出して取得し、それぞれ複数の第一特徴マップおよび複数の第二特徴マップで融合して融合特徴マップを得て、さらに前記複数の融合特徴マップに基づいて目標領域ボックスデータを取得する。その後、取得した目標領域ボックスデータおよび前記目標領域ボックス標記情報に基づいて第一差異データを特定し、さらに前記第一差異データに基づいて前記ディープ畳み込みニューラルネットワークのネットワークパラメータを調整する。訓練により得られたディープ畳み込みニューラルネットワークのこれらの融合特徴マップは画像における上位層の意味特徴（例えば、レイアウト、前背景情報）および下位層の特徴点（例えば、小物体情報）を効果的に特徴付けるため、これらの融合特徴マップに基づいて画像に含まれる大小物体の目標領域ボックスデータを効果的に抽出できる。訓練により得られたディープ畳み込みニューラルネットワークは物体検出の正確性およびロバスト性を向上させることができる。

また、本願の実施例はさらに、機器において運用される時、前記機器内のプロセッサが本願のいずれか一つの実施例に記載の物体検出方法における各ステップを実現するための指令を実行するか、または
機器において運用される時、前記機器内のプロセッサが本願のいずれか一つの実施例に記載のニューラルネットワークの訓練方法における各ステップを実現するための指令を実行するコンピュータ読み取り可能コードを含むコンピュータプログラムを提供する。

また、本願の実施例はさらに、コンピュータ読み取り可能指令を記憶するためのコンピュータ読み取り可能記憶媒体であって、前記指令が実行される時に本願のいずれか一つの実施例に記載の物体検出方法における各ステップの動作、または本願のいずれか一つの実施例に記載のニューラルネットワークの訓練方法における各ステップの動作を実現するコンピュータ読み取り可能記憶媒体を提供する。本明細書における各実施例は漸進の方式を採用して記述し、各実施例では他の実施例との相違点を重点に説明し、各実施例間の同じまたは類似部分は互いに参照すればよい。システムの実施例は、方法の実施例に基本的に対応するため、記述したものが比較的簡単で、その関連部分は方法の実施例の一部の説明を参照すればよい。

本願の方法および装置は様々な方式で実現し得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組み合わせで本願の方法および装置を実現できる。前記方法のステップに付けられる上記順序は説明するためのものに過ぎず、本願の方法のステップは、特に断らない限り、以上に具体的に記述した順序に限定されない。また、いくつかの実施例では、本願を記録媒体に記録されたプログラムとして実施してもよく、これらのプログラムは本願に係る方法を実現するための機械可読指令を含む。従って、本願は本願に係る方法を実行するためのプログラムを記憶する記録媒体をも包含する。

本願の記述は例示および説明のためのもので、漏れがないものまたは開示した形式に本願を限定するものではない。様々な修正および変形は、当業者にとって自明である。選択および記述した実施例は、本願の原理および実際の適用をより効果的に説明し、かつ当業者に本願を理解させて特定の用途に適する様々な修正付きの様々な実施例を設計するためのものである。

Claims

目標領域ボックス検出用のディープ畳み込みニューラルネットワークにより、処理対象の画像から複数の融合特徴マップを予測して取得することであって、前記ディープ畳み込みニューラルネットワークは、複数の第一畳み込み層と少なくとも一つのダウンサンプリング層とを有する第一サブネット、および、複数の第二畳み込み層と少なくとも一つのアップサンプリング層とを有する第二サブネットを含み、前記融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られ、少なくとも一つの前記第一畳み込み層には前記第一特徴マップを出力するための第一出力分岐が設けられ、前記第二畳み込み層には前記第二特徴マップを出力するための第二出力分岐が設けられる、ことと、
前記複数の融合特徴マップに基づいて目標領域ボックスデータを取得することと、を含み、
前記第二サブネットは複数の第三畳み込み層をさらに有し、前記第三畳み込み層の入力が前記第一出力分岐および前記第二出力分岐を含み、
複数の融合特徴マップを予測して取得するステップは、前記複数の第三畳み込み層の出力端から前記融合特徴マップをそれぞれ取得することを含む、
物体検出方法。
前記第二サブネットは前記第一サブネットの末端に設置され、前記ダウンサンプリング層は前記複数の第一畳み込み層の間に設置され、前記アップサンプリング層は前記複数の第二畳み込み層の間に設置され、前記第一畳み込み層と前記第二畳み込み層は対称に設置され、前記少なくとも一つのダウンサンプリング層と前記少なくとも一つのアップサンプリング層はそれぞれ対称に設置される、請求項１に記載の方法。
前記融合特徴マップにおける少なくとも一つのポイントは複数の物体検知ボックスに対応するボックス融合検出データおよび予測正確情報を有し、
前記複数の融合特徴マップに基づいて目標領域ボックスデータを取得するステップは、
少なくとも一つの前記融合特徴マップにおけるボックス融合検出データおよび予測正確情報に基づいて前記融合特徴マップの各々に対応する目標領域ボックスデータをそれぞれ取得することを含む、請求項１に記載の方法。
前記複数の融合特徴マップに基づいて目標領域ボックスデータを取得するステップは、
前記融合特徴マップの各々に対応する予選目標領域ボックスデータをそれぞれ取得することと、
前記融合特徴マップを調整することで、調整された融合特徴マップから新たな予選目標領域ボックスデータを取得するという物体領域ボックス回帰操作を、反復終止条件を満たすまで反復実行することと、
前記反復実行によって得られた前記予選目標領域ボックスデータを前記処理対象の画像における目標領域ボックスデータとすることと、を含む、請求項３に記載の方法。
前記ディープ畳み込みニューラルネットワークはさらに、前記第三畳み込み層にそれぞれ対応する数群の第四畳み込み層および前記数群の第四畳み込み層にそれぞれ対応する複数のプーリング層を有する第三サブネットを含み、各前記プーリング層の入力は前記調整された融合特徴マップおよび前記予選目標領域ボックスデータを含む、請求項４に記載の方法。
前記物体領域ボックス回帰操作は、
前記第四畳み込み層によって現在の前記融合特徴マップをそれぞれ畳み込み、調整融合特徴マップを取得することと、
現在の予選目標領域ボックスデータに基づき、前記プーリング層によって前記調整融合特徴マップの領域プーリングを行い、新たな融合特徴マップを取得することと、
前記新たな融合特徴マップから前記新たな予選目標領域ボックスデータを取得することと、を含む、請求項５に記載の方法。
前記第三サブネットはさらに前記プーリング層出力端に設置された第五畳み込み層を有し、
前記新たな融合特徴マップから前記新たな予選目標領域ボックスデータを取得するステップは、
前記第五畳み込み層によって前記新たな融合特徴マップに対して正規化畳み込みを行い、
正規化畳み込みを行った融合特徴マップから前記新たな予選目標領域ボックスデータを取得することを含む、請求項６に記載の方法。
目標領域ボックス標記情報を含むサンプル画像を目標領域ボックス検出用のディープ畳み込みニューラルネットワークに入力し、複数の融合特徴マップを検出して取得することであって、前記ディープ畳み込みニューラルネットワークは、複数の第一畳み込み層と少なくとも一つのダウンサンプリング層とを有する第一サブネット、および、複数の第二畳み込み層と少なくとも一つのアップサンプリング層とを有する第二サブネットを含み、前記融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られ、少なくとも一つの前記第一畳み込み層には前記第一特徴マップを出力するための第一出力分岐が設けられ、前記第二畳み込み層には前記第二特徴マップを出力するための第二出力分岐が設けられる、ことと、
前記複数の融合特徴マップに基づいて前記サンプル画像の目標領域ボックスデータを取得することと、
取得した前記サンプル画像の目標領域ボックスデータおよび前記目標領域ボックス標記情報に基づいて物体ボックス検出の第一差異データを特定することと、
前記第一差異データに基づいて前記ディープ畳み込みニューラルネットワークのネットワークパラメータを調整することと、を含み、
前記第二サブネットは複数の第三畳み込み層をさらに有し、前記第三畳み込み層の入力が前記第一出力分岐および前記第二出力分岐を含み、
複数の融合特徴マップを予測して取得するステップは、前記複数の第三畳み込み層の出力端から前記融合特徴マップをそれぞれ取得することを含む、
ニューラルネットワークの訓練方法。
目標領域ボックス検出用のディープ畳み込みニューラルネットワークにより、処理対象の画像から複数の融合特徴マップを予測して取得するための融合特徴マップ予測モジュールであって、前記ディープ畳み込みニューラルネットワークは、複数の第一畳み込み層と少なくとも一つのダウンサンプリング層とを有する第一サブネット、および、複数の第二畳み込み層と少なくとも一つのアップサンプリング層とを有する第二サブネットを含み、前記融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られ、少なくとも一つの前記第一畳み込み層には前記第一特徴マップを出力するための第一出力分岐が設けられ、前記第二畳み込み層には前記第二特徴マップを出力するための第二出力分岐が設けられる、融合特徴マップ予測モジュールと、
前記融合特徴マップ予測モジュールが取得した複数の融合特徴マップに基づいて目標領域ボックスデータを取得するための目標領域ボックス予測モジュールと、を含み、
前記第二サブネットは複数の第三畳み込み層をさらに有し、前記第三畳み込み層の入力が前記第一出力分岐および前記第二出力分岐を含み、
前記融合特徴マップ予測モジュールは、さらに、前記複数の第三畳み込み層の出力端から前記融合特徴マップをそれぞれ取得するために用いられる、
物体検出装置。
目標領域ボックス標記情報を含むサンプル画像を目標領域ボックス検出用のディープ畳み込みニューラルネットワークに入力し、複数の融合特徴マップを検出して取得するための融合特徴マップ検出モジュールであって、前記ディープ畳み込みニューラルネットワークは、複数の第一畳み込み層と少なくとも一つのダウンサンプリング層とを有する第一サブネット、および、複数の第二畳み込み層と少なくとも一つのアップサンプリング層とを有する第二サブネットを含み、前記融合特徴マップは、第一サブネットから取得した第一特徴マップおよび第二サブネットから取得した第二特徴マップによって得られ、少なくとも一つの前記第一畳み込み層には前記第一特徴マップを出力するための第一出力分岐が設けられ、前記第二畳み込み層には前記第二特徴マップを出力するための第二出力分岐が設けられる、融合特徴マップ検出モジュールと、
前記複数の融合特徴マップに基づいて前記サンプル画像の目標領域ボックスデータを取得するための目標領域ボックス検出モジュールと、
取得した前記サンプル画像の目標領域ボックスデータおよび前記目標領域ボックス標記情報に基づいて物体ボックス検出の第一差異データを特定するための第一差異取得モジュールと、
前記第一差異データに基づいて前記ディープ畳み込みニューラルネットワークのネットワークパラメータを調整するための第一ネットワーク訓練モジュールと、を含み、
前記第二サブネットは複数の第三畳み込み層をさらに有し、前記第三畳み込み層の入力が前記第一出力分岐および前記第二出力分岐を含み、
前記融合特徴マップ検出モジュールは、さらに、前記複数の第三畳み込み層の出力端から前記融合特徴マップをそれぞれ取得するために用いられる、
ニューラルネットワークの訓練装置。
プロセッサ、および
前記プロセッサに請求項１から７のいずれか一項に記載の物体検出方法に対応する動作を実行させる少なくとも一つの実行可能指令を記憶するための、または、前記プロセッサに請求項８に記載のニューラルネットワークの訓練方法に対応する動作を実行させる少なくとも一つの実行可能指令を記憶するためのメモリを含む、電子機器。
請求項９に記載の物体検出装置、および、前記物体検出装置を運用する時、請求項９に記載の物体検出装置におけるユニットが運用されるプロセッサ、または
請求項１０に記載のニューラルネットワークの訓練装置、および前記ニューラルネットワークの訓練装置を運用する時、請求項１０に記載のニューラルネットワークの訓練装置におけるユニットが運用されるプロセッサを含む、電子機器。
機器において運用される時、前記機器内のプロセッサが請求項１から７のいずれか一項に記載の物体検出方法における各ステップを実現するための指令を実行するか、または
機器において運用される時、前記機器内のプロセッサが請求項８に記載のニューラルネットワークの訓練方法における各ステップを実現するための指令を実行するコンピュータ読み取り可能コードを含む、コンピュータプログラム。
コンピュータ読み取り可能指令を記憶するためのコンピュータ読み取り可能記憶媒体であって、前記指令が実行される時に請求項１から７のいずれか一項に記載の物体検出方法における各ステップの動作、または請求項８に記載のニューラルネットワークの訓練方法における各ステップの動作を実現することを特徴とする、コンピュータ読み取り可能記憶媒体。