JP2022500791A

JP2022500791A - 画像処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム

Info

Publication number: JP2022500791A
Application number: JP2021516440A
Authority: JP
Inventors: 江森 ▲ボウ▼; ▲カイ▼ 陳; 建萍石; 達華林; 万里欧陽; 華君馮
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-02-01
Filing date: 2019-11-28
Publication date: 2022-01-04
Also published as: TWI728621B; US20210209392A1; TW202030694A; SG11202102977SA; CN109829501A; WO2020155828A1; CN109829501B

Abstract

本開示は、画像処理方法及び装置、電子機器並びに記憶媒体に関する。前記方法は、検出ネットワークの均衡化サブネットワークによりサンプル画像に対して特徴均衡化処理を行い、サンプル画像の均衡化特徴画像を取得することと、検出サブネットワークにより均衡化特徴画像に対して目標検出処理を行い、均衡化特徴画像内の目標オブジェクトの予測領域を取得することと、各予測領域のＩｏＵをそれぞれ決定することと、各予測領域のＩｏＵに基づいて、複数の予測領域をサンプリングして、目標領域を取得することと、目標領域及びラベル付き領域に基づいて、検出ネットワークをトレーニングすることと、を含む。本開示の実施例による画像処理方法は、目標サンプル画像に対して特徴均衡化処理を行うことによって、情報の損失を回避でき、トレーニング効果を向上させる。そして、予測領域のＩｏＵに基づいて、目標領域を抽出することができ、決定プロセスが難しい予測領域が抽出される確率を高め、トレーニング効率を向上させ、トレーニング効果も向上させることができる。【選択図】図１

Description

本開示は、コンピュータ技術分野に関し、特に、画像処理方法及び装置、電子機器、並びに記憶媒体に関する。

関連技術では、ニューラルネットワークのトレーニングプロセスにおいて、ニューラルネットワークのトレーニングに対するハードサンプルとシンプルサンプルの重要性は異なる。ハードサンプルは、トレーニングプロセスでより多くの情報を取得できることによって、トレーニングプロセスの効率がより高く、トレーニング効果がよりよくなるようにするが、膨大なサンプルのうち、シンプルサンプルの数がより多くなる。そして、トレーニングプロセスで、ニューラルネットワークの各階層で抽出する特徴に対する偏りがそれぞれ異なっている。

本開示は、画像処理方法及び装置、電子機器、並びに記憶媒体を提供する。
本開示の一方面によれば、均衡化サブネットワークと検出サブネットワークとを含む検出ネットワークの前記均衡化サブネットワークによりサンプル画像に対して特徴均衡化処理を行い、前記サンプル画像の均衡化特徴画像を取得することと、前記検出サブネットワークにより前記均衡化特徴画像に対して目標検出処理を行い、前記均衡化特徴画像内の目標オブジェクトの複数の予測領域を取得することと、前記複数の予測領域のそれぞれの、前記サンプル画像において目標オブジェクトの予測領域と対応のラベル付き領域との共通領域と和集合領域との面積比であるＩｏＵを決定することと、各前記予測領域のＩｏＵに基づいて、前記複数の予測領域をサンプリングして、目標領域を取得することと、前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークをトレーニングすることと、を含む画像処理方法を提供する。

本開示の実施例による画像処理方法は、目標サンプル画像に対して特徴均衡化処理を行うことによって、情報の損失を回避でき、トレーニング効果を向上させる。そして、予測領域のＩｏＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）に基づいて、目標領域を抽出することができ、決定プロセスが難しい予測領域が抽出される確率を高め、トレーニング効率を向上させ、トレーニング効果も向上させることができる。
可能な一実現形態では、各前記予測領域のＩｏＵに基づいて、複数の予測領域をサンプリングして、目標領域を取得することは、各前記予測領域のＩｏＵに基づいて、前記複数の予測領域に対して分類処理を行い、複数の種別の予測領域を取得することと、前記種別ごとに予測領域のサンプリング処理をそれぞれ行い、前記目標領域を取得することと、を含む。

このような形態によれば、ＩｏＵで予測領域を分類し、各種別ごとに予測領域をサンプリングすることによって、ＩｏＵの高い予測領域が抽出される確率を高め、目標領域における決定プロセスが難しい予測領域の割合を高め、トレーニング効率を向上させることができる。
可能な一実現形態では、検出ネットワークの均衡化サブネットワークによりサンプル画像に対して特徴均衡化処理を行い、均衡化特徴画像を取得することは、サンプル画像に対して特徴抽出処理を行い、複数の第１特徴マップを取得し、前記複数の第１特徴マップのうち少なくとも１つの第１特徴マップの解像度は他の第１特徴マップの解像度と異なることと、前記複数の第１特徴マップに対して均衡化処理を行い、第２特徴マップを取得することと、前記第２特徴マップ及び前記複数の第１特徴マップに基づいて、複数の均衡化特徴画像を取得することと、を含む。
可能な一実現形態では、前記複数の第１特徴マップに対して均衡化処理を行い、第２特徴マップを取得することは、前記複数の第１特徴マップのそれぞれに対して拡大縮小処理を行い、予め設定された解像度の複数の第３特徴マップを取得することと、前記複数の第３特徴マップに対して平均化処理を行い、第４特徴マップを取得することと、前記第４特徴マップに対して特徴抽出処理を行い、前記第２特徴マップを取得することと、を含む。
可能な一実現形態では、前記第２特徴マップ及び前記複数の第１特徴マップに基づいて、複数の均衡化特徴画像を取得することは、前記第２特徴マップに対して拡大縮小処理を行い、各前記第１特徴マップに対応する特徴マップであって、対応の前記第１特徴マップと解像度が同じである第５特徴マップをそれぞれ取得することと、各前記第１特徴マップと対応の前記第５特徴マップとをそれぞれスキップ接続して、前記均衡化特徴画像を取得することと、を含む。

このような形態によれば、均衡化処理により特徴が均衡となる第２特徴マップを取得し、スキップ接続により均衡化特徴マップを取得することができ、情報の損失を低減させ、トレーニング効果を向上させることができる。
可能な一実現形態では、前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークをトレーニングすることは、前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークの認識損失と位置損失とを決定することと、前記認識損失及び前記位置損失に基づいて前記検出ネットワークのネットワークパラメータを調整することと、トレーニング条件が満たされる場合、トレーニング後の検出ネットワークを取得することと、を含む。
可能な一実現形態では、前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークの認識損失と位置損失とを決定することは、前記目標領域と前記ラベル付き領域との間の位置誤差を決定することと、前記位置誤差が予め設定された閾値未満である場合、前記位置誤差に基づいて前記位置損失を決定することと、を含む。
可能な一実現形態では、前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークの認識損失と位置損失とを決定することは、前記目標領域と前記ラベル付き領域との間の位置誤差を決定することと、前記位置誤差が予め設定された閾値以上である場合、予め設定された値に基づいて前記位置損失を決定することと、を含む。

このような形態によれば、目標オブジェクトに対する予測が正しい場合、位置損失の勾配を高め、トレーニング効率を向上させ、検出ネットワークの適合度を向上させることができる。目標オブジェクトに対する予測が間違った場合、位置損失の勾配を小さくし、トレーニングプロセスに対する位置損失の影響を低減して、位置損失の収束を速め、トレーニング効率を向上させることができる。
本開示の別の方面によれば、前記画像処理方法によってトレーニングした検出ネットワークに検出対象画像を入力して処理し、目標オブジェクトの位置情報を取得することを含む画像処理方法を提供する。
本開示の別の方面によれば、均衡化サブネットワークと検出サブネットワークとを含む検出ネットワークの前記均衡化サブネットワークによりサンプル画像に対して特徴均衡化処理を行い、前記サンプル画像の均衡化特徴画像を取得するために用いられる均衡化モジュールと、検出サブネットワークにより前記均衡化特徴画像に対して目標検出処理を行い、前記均衡化特徴画像内の目標オブジェクトの複数の予測領域を取得するための検出モジュールと、前記複数の予測領域のそれぞれの、前記サンプル画像において目標オブジェクトの予測領域と対応のラベル付き領域との共通領域と和集合領域との面積比であるＩｏＵをそれぞれ決定するために用いられる決定モジュールと、各前記予測領域のＩｏＵに基づいて、複数の予測領域をサンプリングして、目標領域を取得するために用いられるサンプリングモジュールと、前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークをトレーニングするために用いられるトレーニングモジュールと、を含む画像処理装置を提供する。
可能な一実現形態では、前記サンプリングモジュールは、さらに、各前記予測領域のＩｏＵに基づいて、前記複数の予測領域に対して分類処理を行い、複数の種別の予測領域を取得し、各種別ごとに前記予測領域のサンプリング処理をそれぞれ行い、前記目標領域を取得するように構成される。
可能な一実現形態では、前記均衡化モジュールは、さらに、サンプル画像に対して特徴抽出処理を行い、複数の第１特徴マップを取得し、前記複数の第１特徴マップのうち少なくとも１つの第１特徴マップの解像度は他の第１特徴マップの解像度と異なり、前記複数の第１特徴マップに対して均衡化処理を行い、第２特徴マップを取得し、前記第２特徴マップ及び前記複数の第１特徴マップに基づいて、複数の均衡化特徴画像を取得するように構成される。
可能な一実現形態では、前記均衡化モジュールは、さらに、前記複数の第１特徴マップのそれぞれに対して拡大縮小処理を行い、予め設定された解像度の複数の第３特徴マップを取得し、前記複数の第３特徴マップに対して平均化処理を行い、第４特徴マップを取得し、前記第４特徴マップに対して特徴抽出処理を行い、前記第２特徴マップを取得するように構成される。
可能な一実現形態では、前記均衡化モジュールは、さらに、前記第２特徴マップに対して拡大縮小処理を行い、各前記第１特徴マップに対応する特徴マップであって、対応の前記第１特徴マップと解像度が同じである第５特徴マップをそれぞれ取得し、各前記第１特徴マップと対応の前記第５特徴マップとをそれぞれスキップ接続して、前記均衡化特徴画像を取得するように構成される。
可能な一実現形態では、前記トレーニングモジュールは、さらに、前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークの認識損失と位置損失とを決定し、前記認識損失及び前記位置損失に基づいて前記検出ネットワークのネットワークパラメータを調整し、トレーニング条件が満たされる場合、トレーニング後の検出ネットワークを取得するように構成される。
可能な一実現形態では、前記トレーニングモジュールは、さらに、前記目標領域と前記ラベル付き領域との間の位置誤差を決定し、前記位置誤差が予め設定された閾値未満である場合、前記位置誤差に基づいて前記位置損失を決定するように構成される。
可能な一実現形態では、前記トレーニングモジュールは、さらに、前記目標領域と前記ラベル付き領域との間の位置誤差を決定し、前記位置誤差が予め設定された閾値以上である場合、予め設定された値に基づいて前記位置損失を決定するように構成される。

本開示の別の方面によれば、前記画像処理装置によってトレーニングした検出ネットワークに検出対象画像を入力して処理し、目標オブジェクトの位置情報を取得するために用いられる取得モジュールを含む画像処理装置を提供する。

本開示の一方面によれば、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、上記の画像処理方法を実行するように構成される電子機器を提供する。

本開示の一方面によれば、コンピュータプログラム命令が記憶されているコンピュータ読み取り可能記憶媒体であって、前記コンピュータプログラム命令は、プロセッサにより実行されると、上記の画像処理方法を実現させるコンピュータ読み取り可能記憶媒体を提供する。

本開示の一方面によれば、コンピュータ読み取り可能コードを含み、前記コンピュータ読み取り可能コードは、電子機器において実行されると、前記電子機器のプロセッサに上記の画像処理方法を実行するための命令を実行させるコンピュータプログラムを提供する。

本開示の実施例による画像処理方法は、均衡化処理により特徴が均衡となる第２特徴マップを取得し、スキップ接続により均衡化特徴マップを取得することができ、情報の損失を低減させ、トレーニング効果を向上させ、検出ネットワークの検出精度を向上させることができる。ＩｏＵで予測領域を分類し、各種別ごとに予測領域をサンプリングすることができ、ＩｏＵの高い予測領域が抽出される確率を高め、予測領域における決定プロセスが難しい予測領域の割合を高め、トレーニング効率を向上させ、かつメモリ消費とリソース占有を低減することができる。さらに、目標オブジェクトに対する予測が正しい場合、位置損失の勾配を高め、トレーニング効率を向上させ、検出ネットワークの適合度を向上させることができ、目標オブジェクトに対する予測が間違った場合、位置損失の勾配を小さくし、トレーニングプロセスに対する位置損失の影響を低減して、位置損失の収束を速め、トレーニング効率を向上させることができる。

以上の一般的説明及び以下の詳細説明は、例示的及び解釈的なものに過ぎず、本開示を限定するものではないと理解すべきである。

以下、図面を参照しながら例示的な実施例を詳細に説明することによって、本開示の他の特徴及び方面は明瞭になる。

ここで、本明細書の一部として組み込まれる図面は、本開示の実施例に適し、明細書と共に本開示の技術的手段の説明に用いられる。

図１は本開示の実施例による画像処理方法のフローチャートを示す。図２は本開示の実施例による予測領域のＩｏＵの模式図を示す。図３は本開示の実施例による画像処理方法の適用の模式図を示す。図４は本開示の実施例による画像処理装置のブロック図を示す。図５は本開示の実施例による電子装置のブロック図を示す。図６は本開示の実施例による電子装置のブロック図を示す。

以下に、図面を参照しながら本開示の様々な例示的な実施例、特徴および方面を詳細に説明する。図面における同じ符号は同じまたは類似する機能の要素を示す。図面において実施例の様々な方面を示したが、特に断らない限り、比例に従って図面を描く必要がない。

ここでの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明されるいかなる実施例は他の実施例より好ましいまたは優れるものであると理解すべきではない。

本明細書における用語「及び／又は」は、単に関連対象との関連関係を記述するものであり、３つの関係が存在可能であることを示し、例えば、Ａ及び／又はＢは、Ａのみが存在し、ＡとＢの両方が存在し、Ｂのみが存在するという３つの場合を示してもよい。また、本明細書における用語「少なくとも１つ」は複数のうちのいずれか１つ、又は複数のうちの少なくとも２つの任意の組み合わせを示し、例えば、Ａ、Ｂ、Ｃのうちの少なくとも１つを含むことは、Ａ、Ｂ及びＣからなる集合から選択されたいずれか１つ又は複数の要素を含むことを示してもよい。

また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的な詳細を示す。当業者であれば、本開示は何らかの具体的な詳細がなくても同様に実施できると理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者が熟知している方法、手段、要素および回路について詳細な説明を行わない。

図１は、本開示の実施例による画像処理方法のフローチャートを示す。図１に示すように、前記方法は、均衡化サブネットワークと検出サブネットワークとを含む検出ネットワークの前記均衡化サブネットワークによりサンプル画像に対して特徴均衡化処理を行い、前記サンプル画像の均衡化特徴画像を取得するステップＳ１１と、前記検出サブネットワークにより前記均衡化特徴画像に対して目標検出処理を行い、前記均衡化特徴画像内の目標オブジェクトの複数の予測領域を取得するステップＳ１２と、前記複数の予測領域のそれぞれの、前記サンプル画像において目標オブジェクトの予測領域と対応のラベル付き領域との共通領域と和集合領域との面積比であるＩｏＵを決定するステップＳ１３と、各前記予測領域のＩｏＵに基づいて、前記複数の予測領域をサンプリングして、目標領域を取得するステップＳ１４と、前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークをトレーニングするステップＳ１５と、を含む。

本開示の実施例による画像処理方法は、目標サンプル画像に対して特徴均衡化処理を行うことによって、情報の損失を回避でき、トレーニング効果を向上させる。そして、予測領域のＩｏＵに基づいて、目標領域を抽出することができ、決定プロセスが難しい予測領域が抽出される確率を高め、トレーニング効率を向上させ、トレーニング効果も向上させることができる。

可能な一実現形態では、前記画像処理方法は、ユーザ機器（ＵｓｅｒＥｑｕｉｐｍｅｎｔ、ＵＥ）、携帯機器、ユーザ端末、端末、セルラーホン、コードレス電話、パーソナル・デジタル・アシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡ）、手持ち機器、計算装置、車載装置、ウエアラブル装置などの端末装置により実行されてもよく、プロセッサによりメモリに記憶されているコンピュータ読み取り可能命令を呼び出すことで実現されてもよい。又は、前記画像処理方法は、サーバによって実行されてもよい。

可能な一実現形態では、前記検出ネットワークは、畳み込みニューラルネットワークなどのニューラルネットワークであってもよいが、本開示ではその種類が限定されない。前記検出ネットワークは、均衡化サブネットワークと検出サブネットワークとを含み得る。検出ネットワークの均衡化サブネットワークの各階層によってサンプル画像の特徴マップを抽出することができ、特徴均衡化処理によって各階層で抽出された特徴マップの特徴のバランスを取ることができ、情報の損失を低減させ、トレーニング効果を向上させる。

可能な一実現形態では、ステップＳ１１は、サンプル画像に対して特徴抽出処理を行い、複数の第１特徴マップを取得し、前記複数の第１特徴マップのうち少なくとも１つの第１特徴マップの解像度は他の第１特徴マップの解像度と異なることと、前記複数の第１特徴マップに対して均衡化処理を行い、第２特徴マップを取得することと、前記第２特徴マップ及び前記複数の第１特徴マップに基づいて、複数の均衡化特徴画像を取得することと、を含んでもよい。

可能な一実現形態では、均衡化サブネットワークを用いて特徴均衡化処理を行うことができる。例示的には、均衡化サブネットワークの複数の畳み込み層を用いて、目標サンプル画像に対して特徴抽出処理をそれぞれ行い、複数の第１特徴マップを取得することができ、第１特徴マップにおいて、少なくとも１つの第１特徴マップの解像度が他の第１特徴マップの解像度と異なり、例えば、複数の第１特徴マップの解像度が互いに異なる。例示的には、１番目の畳み込み層により目標サンプル画像に対して特徴抽出処理を行い、１番目の第１特徴マップを取得し、さらに２番目の畳み込み層により前記１番目の第１特徴マップに対して特徴抽出処理を行い、２番目の第１特徴マップを取得し・・・というような方式で複数の第１特徴マップを取得でき、複数の第１特徴マップは、それぞれ異なる階層の畳み込み層により取得され、各階層の畳み込み層による第１特徴マップの特徴に対する偏りがそれぞれ異なっている。

可能な一実現形態では、前記複数の第１特徴マップに対して均衡化処理を行い、第２特徴マップを取得することは、前記複数の第１特徴マップのそれぞれに対して拡大縮小処理を行い、予め設定された解像度の複数の第３特徴マップを取得することと、前記複数の第３特徴マップに対して平均化処理を行い、第４特徴マップを取得することと、前記第４特徴マップに対して特徴抽出処理を行い、前記第２特徴マップを取得することと、を含む。

可能な一実現形態では、前記複数の第１特徴マップの解像度は、例えば６４０×４８０、８００×６００、１０２４×７６８、１６００×１２００などであるように互いに異なってもよい。各第１特徴マップのそれぞれに対して拡大縮小処理を行い、予め設定された解像度の第３画像を取得することができる。前記予め設定された解像度は、複数の第１特徴マップの解像度の平均値、または他の設定値であってもよいが、本開示では限定されない。第１特徴マップに対して拡大縮小処理を行い、予め設定された解像度の第３特徴マップを取得することができ、例示的には、解像度が予め設定された解像度より低い第１特徴マップに対して、解像度を上げるように補間などのアップサンプリング処理を行い、予め設定された解像度の第３特徴マップを取得することができ、予め設定された解像度より高い第１特徴マップに対してプーリング処理などのダウンサンプリング処理を行い、予め設定された解像度の第３特徴マップを取得することができるが、本開示では拡大縮小の方法が限定されない。

可能な一実現形態では、複数の第３特徴マップに対して平均化処理を行うことができる。例示的には、複数の第３特徴マップの解像度は、同じで、かついずれも予め設定された解像度であり、複数の第３特徴マップにおいて同一座標の画素点の画素値（例えば、ＲＧＢ値或いは深度値などのパラメータ）を平均化することができ、第４特徴マップにおける当該座標の画素点の画素値を取得できる。このような方式により、第４特徴マップにおける全ての画素点の画素値を決定でき、つまり、第４特徴マップを取得することができ、第４特徴マップは、特徴が均衡となる特徴マップである。

可能な一実現形態では、第４特徴マップに対して特徴抽出を行い、第２特徴マップを取得することができ、例示的には、前記均衡化サブネットワークの畳み込み層を用いて第４特徴マップに対して特徴抽出を行うことができ、例えば、非局所注意メカニズム（Ｎｏｎ−Ｌｏｃａｌ）を用いて第４特徴マップに対して特徴抽出を行い、前記第２特徴マップを取得し、第２特徴マップは、特徴が均衡となる特徴マップである。

可能な一実現形態では、前記第２特徴マップ及び前記複数の第１特徴マップに基づいて、複数の均衡化特徴画像を取得することは、前記第２特徴マップに対して拡大縮小処理を行い、各前記第１特徴マップに対応する特徴マップであって、対応の前記第１特徴マップと解像度が同じである第５特徴マップをそれぞれ取得することと、各前記第１特徴マップと対応の前記第５特徴マップとをそれぞれスキップ接続して、前記均衡化特徴画像を取得することと、を含む。

可能な一実現形態では、前記第２特徴マップと各第１特徴マップとの解像度は異なってもよく、それぞれ各第１特徴マップの解像度と同じ第５特徴マップを取得するために、第２特徴マップに対しいて拡大縮小処理を行うことができ、例示的には、第２特徴マップの解像度が８００×６００であると、第２特徴マップに対してプーリングなどのダウンサンプリング処理を行い、解像度が６４０×４８０の第５特徴マップ、すなわち解像度が６４０×４８０の第１特徴マップに対応する第５特徴マップを取得することができ、第２特徴マップに対して補間などのアップサンプリング処理を行い、解像度が１０２４×７６８の第５特徴マップ、すなわち解像度が１０２４×７６８の第１特徴マップに対応する第５特徴マップを取得することができることなどであり、本開示では第２特徴マップ及び第１特徴マップの解像度が限定されない。

可能な一実現形態では、第１特徴マップと対応の第５特徴マップとの解像度が同じであると、第１特徴マップと対応の第５特徴マップとに対してスキップ接続処理を行い、前記均衡化特徴画像を取得することができ、例えば、第１特徴マップにおけるある座標の画素点の画素値に、対応の第５特徴マップにおける同じ座標の画素点の画素値を加算し、均衡化特徴画像における当該画素点の画素値を取得することができ、このような方式に従って均衡化特徴画像における全ての画素点の画素値を取得し、つまり、均衡化特徴画像を取得することができる。

このような方式により、均衡化処理により特徴が均衡となる第２特徴マップを取得し、スキップ接続により均衡化特徴マップを取得することができ、情報の損失を低減させ、トレーニング効果を向上させることができる。

可能な一実現形態では、ステップＳ１２において、検出サブネットワークにより均衡化特徴画像に対して目標検出を行い、均衡化特徴画像における目標オブジェクトの予測領域を取得することができ、例示的には、選択枠で目標オブジェクトが存在する予測領域を枠で囲んで選択することができる。前記目標検出処理は、さらに、目標オブジェクトの複数の予測領域を取得するために、他の目標検出のためのニューラルネットワーク或いは他の方法により実現されてもよい。本開示では、目標検出処理の実現形態が限定されない。

可能な一実現形態では、ステップＳ１３において、前記サンプル画像はラベル付きのサンプル画像であり、例えば、目標オブジェクトが存在する領域にラベルを付けることができ、つまり、選択枠を用いて目標オブジェクトが存在する領域を枠で囲んで選択する。前記均衡化特徴画像は、サンプル画像に基づいて取得したものであり、サンプル画像において目標オブジェクトが存在する領域を枠で囲んで選択する選択枠に基づいて、前記均衡化特徴画像において目標オブジェクトが存在する領域の位置を決定することができ、当該位置を枠で囲んで選択することができ、枠で囲んで選択された領域が前記ラベル付き領域である。例示的には、前記ラベル付き領域は前記目標オブジェクトに対応し、前記サンプル画像又はサンプル画像の均衡化特徴画像に、１つ以上の目標オブジェクトが含まれ、各目標オブジェクトにラベルを付けることができ、つまり、各目標オブジェクトはいずれも対応するラベル付き領域を有する。

可能な一実現形態では、前記ＩｏＵは目標オブジェクトの予測領域と対応のラベル付き領域との共通領域と和集合領域との面積比であり、前記予測領域とラベル付き領域との共通領域は２つの領域の共通部分であり、前記予測領域とラベル付き領域との和集合領域は２つの領域の和集合である。例示的には、前記検出ネットワークで各オブジェクトの予測領域をそれぞれ決定でき、例えば、目標オブジェクトＡに対して、検出ネットワークは目標オブジェクトＡの複数の予測領域を決定でき、目標オブジェクトＢに対して、検出ネットワークは目標オブジェクトＢの複数の予測領域を決定できる。予測領域のＩｏＵを決定するとき、予測領域と対応のラベル付き領域との共通領域と和集合領域との面積比を決定でき、例えば、目標オブジェクトＡの、ある予測領域のＩｏＵを決定するとき、当該予測領域と目標オブジェクトＡのラベル付き領域との共通領域と和集合領域との面積比を決定できる。

図２は、本開示の実施例による予測領域のＩｏＵの模式図を示す。図２に示すように、ある均衡化特徴画像において、目標オブジェクトが存在する領域にラベルを付けており、当該ラベルは目標オブジェクトが存在する領域を枠で囲んで選択する選択枠であってもよく、例えば、図２において破線で示されているラベル付き領域である。目標検出方法を用いて均衡化特徴画像の目標オブジェクトを検出することができ、例えば、検出ネットワークなどの方法を用いて検出し、検出された目標オブジェクトの予測領域を枠で囲んで選択することができ、例えば、図２において実線で示されている予測領域である。図２に示すように、ラベル付き領域はＡ＋Ｂであり、予測領域はＢ＋Ｃであり、予測領域とラベル付き領域との共通領域はＢであり、予測領域とラベル付き領域との和集合領域はＡ＋Ｂ＋Ｃである。サンプル画像のＩｏＵはＢ領域の面積とＡ＋Ｂ＋Ｃ領域の面積との比である。

可能な一実現形態では、ＩｏＵと予測領域の決定の難しさに正の相関関係があり、つまり、ＩｏＵが高い予測領域において、決定プロセスの難しい予測領域が占める割合が大きい。しかし、全ての予測領域において、ＩｏＵの低い予測領域が占める割合が大きく、全ての予測領域内でランダムサンプリング或いは均一サンプリングを直接行う場合、ＩｏＵの低い予測領域が取得される確率が大きく、つまり、決定プロセスの易しい予測領域が取得される確率が大きく、決定プロセスが易しい予測領域を大量用いてトレーニングする場合、トレーニング効率が低いこととなる。しかし、決定プロセスが難しい予測領域を用いてトレーニングする場合、トレーニングする度に多くの情報を取得することができ、トレーニング効率を向上させる。したがって、各予測領域のＩｏＵに基づいて予測領域を選別し、選別された予測領域のうち、決定プロセスの難しい予測領域が占める割合が高くなるようにすることができ、トレーニング効率を向上させる。

可能な一実現形態では、ステップＳ１４は、各前記予測領域のＩｏＵに基づいて、前記複数の予測領域に対して分類処理を行い、複数の種別の予測領域を取得することと、各種別ごとに前記予測領域のサンプリング処理をそれぞれ行い、前記目標領域を取得することと、を含んでもよい。

可能な一実現形態では、例えば、ＩｏＵが０より大きく０．０５以下の予測領域を１つの種別に分類し、ＩｏＵが０．０５より大きく０．１以下の予測領域を１つの種別に分類し、ＩｏＵが０．１より大きく０．１５以下の予測領域を１つの種別に分類する・・・、つまり、ＩｏＵの各種別の区間の長さが０．０５とするように、前記ＩｏＵに従って予測領域に対して分類処理を行うことができる。本開示では、種別の数量と各種別の区間の長さが限定されない。

可能な一実現形態では、各種別ごとに、均一サンプリング或いはランダムサンプリングを行い、前記目標領域を取得することができる。つまり、ＩｏＵが高い種別及びＩｏＵが低い種別両方から予測領域を抽出し、ＩｏＵの高い予測領域が抽出される確率を高め、つまり、目標領域において決定プロセスが難しい予測領域の割合を高める。各種別では、予測領域が抽出される確率を以下の公式（１）で表わされる。

ただし、Ｋ（Ｋは１より大きい整数）は種別の数量であり、ｐ_kはｋ（ｋはＫ以下の正の整数）番目の種別において、予測領域が抽出される確率であり、Ｎは予測領域の画像の総数であり、Ｍ_kはｋ番目の種別における予測領域の数量である。

例示的には、前記目標領域として、さらに、ＩｏＵが予め設定された閾値（例えば、０．０５、０．１など）より高い予測領域を選別するか、或いはＩｏＵが予め設定された区間（例えば、０．０５より大きく０．５以下など）に属する予測領域を選別することができるが、本開示では、選別方法が限定されない。

このような方式により、ＩｏＵによって予測領域を分類し、各種別ごとに予測領域をサンプリングすることができ、ＩｏＵの高い予測領域が抽出される確率を高め、目標領域において決定プロセスが難しい予測領域の割合を高め、トレーニング効率を向上させることができる。

可能な一実現形態では、ステップＳ１５において、検出ネットワークは画像における目標オブジェクトを検出するためのニューラルネットワークであってもよく、例えば、検出ネットワークは畳み込みニューラルネットワークであってもよいが、本開示では検出ネットワークの種別が限定されない。均衡化特徴画像における目標領域及びラベル付き領域を用いて検出ネットワークをトレーニングすることができる。

可能な一実現形態では、前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークの認識損失と位置損失とを決定することは、前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークの認識損失と位置損失とを決定することと、前記認識損失及び前記位置損失に基づいて検出ネットワークのネットワークパラメータを調整することと、トレーニング条件が満たされる場合、トレーニング後の検出ネットワークを取得することと、を含む。

可能な一実現形態では、いずれか１つの目標領域及びラベル付き領域によって、ニューラルネットワークによる目標オブジェクトの認識が正しいか否かを示るための認識損失、及び位置損失を決定することができ、例えば、均衡化特徴画像に１つ或いは一部のみが目標オブジェクトである複数のオブジェクトが含まれ、前記オブジェクトを２つの種別、つまり、前記オブジェクトが目標オブジェクトである種別と、前記オブジェクトが目標オブジェクトではない種別に分けるようにすることができる。例示的には、前記認識結果を、確率、例えばあるオブジェクトが目標オブジェクトである確率で示すことができ、つまり、あるオブジェクトが目標オブジェクトである確率が５０％以上である場合、前記オブジェクトは目標オブジェクトであり、そうでない場合、前記オブジェクトは目標オブジェクトではない。

可能な一実現形態では、目標領域及びラベル付き領域に基づいて、前記検出ネットワークの認識損失を決定できる。例示的には、前記検出ネットワークにより予測した、目標オブジェクトが存在する領域を枠で囲んで選択した選択枠内の領域は前記目標領域であり、例えば、画像に複数のオブジェクトが含まれ、目標オブジェクトが存在する領域を枠で囲んで選択し、他のオブジェクトを枠で囲んで選択しないことが可能であり、目標領域内の枠で囲んで選択されたオブジェクトと目標オブジェクトとの類似度に基づいて検出ネットワークの認識損失を決定することができ、例えば、目標領域内のオブジェクトが目標オブジェクトである確率が７０％である（すなわち、前記検出ネットワークにより決定した目標領域内のオブジェクトと目標オブジェクトとの類似度が７０％である）と、当該オブジェクトは目標オブジェクトであり、１００％とラベル付けされ、３０％の誤差に基づいて認識損失を決定することができる。

可能な一実現形態では、目標領域及びラベル付き領域に基づいて、前記検出ネットワークの位置損失を決定する。例示的には、ラベル付き領域は目標オブジェクトが存在する領域を枠で囲んで選択した選択枠である。つまり、目標領域が検出ネットワークにより予測された目標オブジェクトが存在する領域であり、選択枠で当該領域を枠で囲んで選択し、上記の２つの選択枠の位置及びサイズなどを比較して、前記位置損失を決定することができる。

可能な一実現形態では、前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークの認識損失と位置損失とを決定することは、前記目標領域と前記ラベル付き領域との間の位置誤差を決定することと、前記位置誤差が予め設定された閾値未満である場合、前記位置誤差に基づいて前記位置損失を決定することと、を含む。前記予測領域及び前記ラベル付き領域は、いずれも選択枠であり、予測領域とラベル付き領域とを比較することができる。前記位置誤差は、選択枠の位置及びサイズの誤差、例えば、選択枠の中心点或いは左上隅の頂点座標の誤差、及び選択枠の長さと幅の誤差などを含み得る。目標オブジェクトに対する予測が正しい場合、前記位置誤差が小さく、トレーニングプロセスにおいて、当該位置誤差を用いて決定した位置損失は位置損失の収束に有利となり、トレーニング効率を向上させることができ、検出ネットワークの適合度の向上に有利となり、目標オブジェクトに対する予測が間違った場合、例えば、ある非目標オブジェクトを目標オブジェクトと間違えると、前記位置誤差が大きくなり、トレーニングプロセスにおいて、位置損失が収束しにくく、トレーニングプロセスの効率が低く、検出ネットワークの適合度の向上にも不利になり、したがって、予め設定された閾値を用いて前記位置損失を決定することができる。位置誤差が予め設定された閾値より小さい場合、目標オブジェクトに対する予測が正しいとすることができ、位置誤差に基づいて前記位置損失を決定することができる。

可能な一実現形態では、前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークの認識損失と位置損失とを決定することは、前記目標領域と前記ラベル付き領域との間の位置誤差を決定することと、前記位置誤差が予め設定された閾値以上である場合、予め設定された値に基づいて前記位置損失を決定することと、を含む。例示的には、位置誤差が予め設定された閾値以上である場合、目標オブジェクトに対する予測が間違ったとすることができ、トレーニングプロセスにおいて位置損失の勾配を小さくするために、予め設定された値（例えば、ある定数値）に基づいて位置損失を決定することができることによって、位置損失の収束を速め、トレーニング効率を向上させる。

可能な一実現形態では、前記位置損失を以下の公式（２）により決定することができる。

ここで、Ｌ_proは前記位置損失であり、α及びｂは設定したパラメータであり、ｘは位置誤差であり、γは前記予め設定された値であり、εは予め設定された閾値であり、例示的には、ε＝１、γ＝ａｌｎ（ｂ＋１）である。本開示では、α、ｂ及びγの値が限定されない。

（２）を積分して、位置損失Ｌ_proを取得することができ、Ｌ_proが以下の公式（３）により決定される。

ここで、Ｃは積分定数である。公式（３）において、位置誤差が予め設定された閾値より小さい場合、つまり、目標オブジェクトに対する予測が正しい場合、対数で位置損失の勾配を上げ、トレーニングプロセスでの位置損失の調整パラメータの勾配が大きくなるようにして、トレーニング効率を向上させ、検出ネットワークの適合度を向上させる。目標オブジェクトに対する予測が間違った場合、位置損失は定数γであり、位置損失の勾配を小さくし、トレーニングプロセスに対する位置損失の影響を低減させて、位置損失の収束を速め、検出ネットワークの適合度を向上させる。

可能な一実現形態では、認識損失と位置損失に基づいて検出ネットワークのネットワークパラメータを調整でき、例示的には、認識損失と位置損失に基づいて検出ネットワークの総合ネットワーク損失を決定でき、例えば、以下の公式（４）により検出ネットワークの総合ネットワーク損失を決定できる。

ここで、Ｌは前記総合ネットワーク損失であり、Ｌ_clsは前記認識損失である。

可能な一実現形態では、検出ネットワークのネットワークパラメータを、総合ネットワーク損失を最小化する方向に応じて調整することができ、例示的には、勾配降下法を用いて総合ネットワーク損失の逆伝播を行うことで、検出ネットワークのネットワークパラメータを調整することができる。

可能な一実現形態では、トレーニング条件は、調整の回数、及び総合ネットワーク損失の大きさ或いは収束・発散性などの条件を含み得る。検出ネットワークに対して予め設定された回数を調整でき、調整回数が予め設定された回数に達すると、トレーニング条件が満たされる。トレーニングの回数を限定しなくてもよく、総合ネットワーク損失が一定の程度まで低下したか、或いはある区間内に収束すると、トレーニング条件が満たされる。トレーニングが完了した後、検出ネットワークを画像における目標オブジェクトを検出するプロセスに用いることができる。

このような方式により、目標オブジェクトに対する予測が正しい場合、位置損失の勾配を高め、トレーニング効率を向上させ、検出ネットワークの適合度を向上させることができる。目標オブジェクトに対する予測が間違った場合、位置損失の勾配を小さくし、トレーニングプロセスに対する位置損失の影響を低減させて、位置損失の収束を速め、トレーニング効率を向上させることができる。

可能な一実現形態では、本開示の実施例によれば、トレーニングした検出ネットワークに検出対象画像を入力して処理し、目標オブジェクトの位置情報を取得することを含む画像処理方法をさらに提供する。

可能な一実現形態では、検出対象画像は、目標オブジェクトを含む画像であり、前記検出ネットワークの均衡化サブネットワークにより検出対象画像に対して特徴均衡化処理を行い、ワンセットの均衡化特徴マップを取得することができる。

可能な一実現形態では、均衡化特徴マップを検出ネットワークの検出サブネットワークに入力することができ、検出サブネットワークは目標オブジェクトを認識し、目標オブジェクトの位置を決定し、目標オブジェクトの位置情報、例えば、目標オブジェクトを枠で囲んで選択する選択枠を取得することができる。

本開示の実施例による画像処理方法は、均衡化処理によって特徴が均衡となる第２特徴マップを取得し、スキップ接続によって均衡化特徴マップを取得することができ、情報の損失を低減させ、トレーニング効果を向上させ、検出ネットワークの検出精度を向上させることができる。ＩｏＵで予測領域を分類し、各種別ごとに予測領域をサンプリングすることができ、ＩｏＵの高い予測領域が抽出される確率を高め、予測領域において決定プロセスが難しい予測領域の割合を高め、トレーニング効率を向上させ、かつメモリ消費とリソース占有を低減することができる。さらに、目標オブジェクトに対する予測が正しい場合、位置損失の勾配を高め、トレーニング効率を向上させ、検出ネットワークの適合度を向上させることができ、目標オブジェクトに対する予測が間違った場合、位置損失の勾配を小さくし、トレーニングプロセスに対する位置損失の影響を低減して、位置損失の収束を速め、トレーニング効率を向上させる。

図３は、本開示の実施例による画像処理方法の適用の模式図を示す。図３に示すように、検出ネットワークの均衡化サブネットワークの複数の階層の畳み込み層を用いて、サンプル画像Ｃ１に対する特徴抽出を行い、解像度が互いに異なる複数の第１特徴マップ、例えば解像度が６４０×４８０、８００×６００、１０２４×７６８、１６００×１２００などの第１特徴マップを取得することができる。

可能な一実現形態では、各第１特徴マップに対して拡大縮小処理を行い、予め設定された解像度の複数の第３特徴マップを取得することができ、例えば、解像度が６４０×４８０、８００×６００、１０２４×７６８、１６００×１２００の第１特徴マップのそれぞれに対して拡大縮小処理を行い、解像度がいずれも８００×６００の第３特徴マップを取得することができる。

可能な一実現形態では、複数の第３特徴マップに対して平均化処理を行い、特徴が均衡となる第４特徴マップを取得することができる。非局所注意メカニズム（Ｎｏｎ−Ｌｏｃａｌ）を用いて第４特徴マップに対する特徴抽出を行い、前記第２特徴マップを取得する。

可能な一実現形態では、第２特徴マップに対して拡大縮小処理を行い、各第１特徴マップの解像度と同じ第５特徴マップ（例えばＣ２、Ｃ３、Ｃ４、Ｃ５）をそれぞれ取得することができ、例えば、第２特徴マップを解像度が６４０×４８０、８００×６００、１０２４×７６８、１６００×１２００などの第５特徴マップ（例えばＰ２、Ｐ３、Ｐ４、Ｐ５）にそれぞれ拡大縮小することができる。

可能な一実現形態では、第１特徴マップと対応の第５特徴マップとに対してスキップ接続処理を行うことができ、つまり、第１特徴マップ及び対応の第５特徴マップにおける同じ座標の画素点のＲＧＢ値或いは階調値などのパラメータを加算して、複数の均衡化特徴マップを取得する。

可能な一実現形態では、検出ネットワークの検出サブネットワークを用いて前記均衡化特徴画像に対して目標検出処理を行い、前記均衡化特徴画像において目標オブジェクトの複数の予測領域を取得することができる。複数の予測領域のＩｏＵをそれぞれ決定でき、ＩｏＵに基づいて予測領域を分類し、各種別ごとに予測領域をサンプリングして、決定プロセスの難しい予測領域が占める割合が大きい目標領域を取得することができる。

可能な一実現形態では、目標領域及びラベル付き領域を用いて前記検出ネットワークをトレーニングすることができ、つまり、目標領域内の枠で囲んで選択したオブジェクトと目標オブジェクトとの類似度に基づいて認識損失を決定し、目標領域及びラベル付き領域並びに公式（３）によって位置損失を決定する。さらに、公式（４）で総合ネットワーク損失を決定でき、総合ネットワーク損失に基づいて検出ネットワークのネットワークパラメータを調整し、総合ネットワーク損失がトレーニング条件を満たす場合、トレーニングを完成させ、トレーニング後の検出ネットワークを用いて検出対象画像内の目標オブジェクトを検出する。

可能な一実現形態では、均衡化サブネットワークを用いて検出対象画像に対して特徴均衡化処理を行い、取得した均衡化特徴マップを検出ネットワークの検出サブネットワークに入力して、目標オブジェクトの位置情報を取得することができる。

例示的には、前記検出ネットワークは、自動運転に使用されて目標検出を行い、例えば、障害物、信号灯、交通標識などを検出することができ、車両運転の制御に根拠を提供できる。例示的には、前記検出ネットワークは、セキュリティ監視に使用され、監視ビデオ内の目標人物を検出することができる。例示的には、前記検出ネットワークは、リモートセンシング画像或いはナビゲーションビデオ内の目標オブジェクトなどの検出に使用されてもよいが、本開示では、検出ネットワークの適用分野が限定されない。

図５は、本開示の実施例による画像処理装置のブロック図を示す。図５に示すように、前記装置は、
均衡化サブネットワークと検出サブネットワークとを含む検出ネットワークの前記均衡化サブネットワークによりサンプル画像に対して特徴均衡化処理を行い、前記サンプル画像の均衡化特徴画像を取得するために用いられる均衡化モジュール１１と、検出サブネットワークにより前記均衡化特徴画像に対して目標検出処理を行い、前記均衡化特徴画像内の目標オブジェクトの複数の予測領域を取得するための検出モジュール１２と、前記複数の予測領域のそれぞれの、前記サンプル画像において目標オブジェクトの予測領域と対応のラベル付き領域との共通領域と和集合領域との面積比であるＩｏＵをそれぞれ決定するために用いられる決定モジュール１３と、各前記予測領域のＩｏＵに基づいて、複数の予測領域をサンプリングして、目標領域を取得するために用いられるサンプリングモジュール１４と、前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークをトレーニングするために用いられるトレーニングモジュール１５と、を含む。

可能な一実現形態では、前記サンプリングモジュールは、さらに、各前記予測領域のＩｏＵに基づいて、前記複数の予測領域に対して分類処理を行い、複数の種別の予測領域を取得し、前記種別ごとに予測領域のサンプリング処理をそれぞれ行い、前記目標領域を取得するように構成される。

可能な一実現形態では、前記均衡化モジュールは、さらに、サンプル画像に対して特徴抽出処理を行い、複数の第１特徴マップを取得し、前記複数の第１特徴マップのうち少なくとも１つの第１特徴マップの解像度は他の第１特徴マップの解像度と異なり、前記複数の第１特徴マップに対して均衡化処理を行い、第２特徴マップを取得し、前記第２特徴マップ及び前記複数の第１特徴マップに基づいて、複数の均衡化特徴画像を取得するように構成される。

可能な一実現形態では、前記均衡化モジュールは、さらに、前記複数の第１特徴マップのそれぞれに対して拡大縮小処理を行い、予め設定された解像度の複数の第３特徴マップを取得し、前記複数の第３特徴マップに対して平均化処理を行い、第４特徴マップを取得し、前記第４特徴マップに対して特徴抽出処理を行い、前記第２特徴マップを取得するように構成される。

可能な一実現形態では、前記均衡化モジュールは、さらに、前記第２特徴マップに対して拡大縮小処理を行い、各前記第１特徴マップに対応する特徴マップであって、対応の前記第１特徴マップと解像度が同じである第５特徴マップをそれぞれ取得し、各前記第１特徴マップと対応の第５特徴マップとをそれぞれスキップ接続して、前記均衡化特徴画像を取得するように構成される。

可能な一実現形態では、前記トレーニングモジュールは、さらに、前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークの認識損失と位置損失とを決定し、前記認識損失及び前記位置損失に基づいて前記検出ネットワークのネットワークパラメータを調整し、トレーニング条件が満たされる場合、トレーニング後の検出ネットワークを取得するように構成される。

可能な一実現形態では、前記トレーニングモジュールは、さらに、前記目標領域と前記ラベル付き領域との間の位置誤差を決定し、前記位置誤差が予め設定された閾値未満である場合、前記位置誤差に基づいて前記位置損失を決定するように構成される。

可能な一実現形態では、前記トレーニングモジュールは、さらに、前記目標領域と前記ラベル付き領域との間の位置誤差を決定し、前記位置誤差が予め設定された閾値以上である場合、予め設定された値に基づいて前記位置損失を決定するように構成される。

可能な一実現形態では、本開示の実施例によれば、前記画像処理装置によってトレーニングした検出ネットワークに検出対象画像を入力して処理し、目標オブジェクトの位置情報を取得するために用いられる取得モジュールを含む画像処理装置をさらに提供する。

本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて実施例を形成することができることが理解すべきである。紙数に限りがあるので、本開示では詳細な説明を省略する。

なお、本開示では、画像処理装置、電子機器、コンピュータ読み取り可能記憶媒体、プログラムがさらに提供される。これらはいずれも本開示に係る画像処理方法のいずれか１つを実現するために利用でき。対応する技術的解決手段と説明は、方法の対応する記載を参照すればよく、詳細な説明を省略する。

当業者であれば、具体的な実施形態に係る上記の方法では、各ステップの記載順序は、実行順序を厳密に限定して実施の過程を限定するものではなく、各ステップの実行順序がその機能と内部の論理によって具体的に決定されることが理解すべきである。

いくつかの実施例では、本開示の実施例に係る装置が備える機能又はモジュールは、上述した方法の実施例に説明される方法を実行するために利用でき、その具体的な実現について、上述した方法の実施例の説明を参照すればよく、簡素化のために、ここで詳細な説明を省略する。

本開示の実施例では、コンピュータプログラム命令が記憶されているコンピュータ読み取り可能記憶媒体であって、前記コンピュータプログラム命令は、プロセッサにより実行されると、上記方法を実現させるコンピュータ読み取り可能記憶媒体がさらに提供される。コンピュータ読み取り可能記憶媒体は不揮発性のコンピュータ読み取り可能記憶媒体であってもよい。

本開示の実施例では、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、上記方法を実行するように構成される電子機器がさらに提供される。

電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。

図５は、一例示的な実施例に示す電子機器８００のブロック図である。例えば、電子機器８００は、携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレット型機器、医療機器、フィットネス機器、パーソナル・デジタル・アシスタントなどの端末であってもよい。

図５を参照すると、電子機器８００は、処理コンポーネント８０２、メモリ８０４、電源コンポーネント８０６、マルチメディアコンポーネント８０８、オーディオコンポーネント８１０、入力／出力（Ｉ／Ｏ）のインタフェース８１２、センサコンポーネント８１４、および通信コンポーネント８１６のうちの一つ以上を含んでもよい。

処理コンポーネント８０２は通常、電子機器８００の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント８０２は、上記方法の全てまたは一部のステップを実行するために、命令を実行する一つ以上のプロセッサ８２０を含んでもよい。また、処理コンポーネント８０２は、他のコンポーネントとのインタラクションのための一つ以上のモジュールを含んでもよい。例えば、処理コンポーネント８０２は、マルチメディアコンポーネント８０８とのインタラクションのために、マルチメディアモジュールを含んでもよい。

メモリ８０４は電子機器８００での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器８００において操作するあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ８０４は、例えば静的ランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能プログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ）、読み取り専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または不揮発性記憶装置またはそれらの組み合わせによって実現できる。

電源コンポーネント８０６は電子機器８００の各コンポーネントに電力を供給する。電源コンポーネント８０６は電源管理システム、一つ以上の電源、および電子機器８００のための電力生成、管理および配分に関連する他のコンポーネントを含んでもよい。

マルチメディアコンポーネント８０８は前記電子機器８００とユーザとの間で出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ（ＬＣＤ）およびタッチパネル（ＴＰ）を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するタッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャーを検知するように、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出するようにしてもよい。いくつかの実施例では、マルチメディアコンポーネント８０８は前面カメラおよび／または背面カメラを含む。電子機器８００が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび／または背面カメラは外部のマルチメディアデータを受信するようにしてもよい。各前面カメラおよび背面カメラは、固定された光学レンズ系、または焦点距離および光学ズーム能力を有するものであってもよい。

オーディオコンポーネント８１０はオーディオ信号を出力および／または入力するように構成される。例えば、オーディオコンポーネント８１０は、一つのマイク（ＭＩＣ）を含み、マイク（ＭＩＣ）は、電子機器８００が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ８０４に記憶されるか、または通信コンポーネント８１６を介して送信されてもよい。いくつかの実施例では、オーディオコンポーネント８１０はさらに、オーディオ信号を出力するためのスピーカーを含む。

Ｉ／Ｏインタフェース８１２は処理コンポーネント８０２と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含んでもよいが、これらに限定されない。

センサコンポーネント８１４は電子機器８００の各方面の状態評価のために一つ以上のセンサを含む。例えば、センサコンポーネント８１４は電子機器８００のオン／オフ状態、例えば電子機器８００の表示装置およびキーパッドのようなコンポーネントの相対的位置決めを検出でき、センサコンポーネント８１４はさらに、電子機器８００または電子機器８００のあるコンポーネントの位置の変化、ユーザと電子機器８００との接触の有無、電子機器８００の方位または加減速および電子機器８００の温度変化を検出できる。センサコンポーネント８１４は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成される近接センサを含んでもよい。センサコンポーネント８１４はさらに、ＣＭＯＳまたはＣＣＤイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサコンポーネント８１４はさらに、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。

通信コンポーネント８１６は電子機器８００と他の機器との有線または無線通信を実現するように構成される。電子機器８００は通信規格に基づく無線ネットワーク、例えばＷｉＦｉ、２Ｇまたは３Ｇ、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント８１６は放送チャネルを介して外部の放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント８１６はさらに、近距離通信を促進させるために、近距離無線通信（ＮＦＣ）モジュールを含む。例えば、ＮＦＣモジュールは、無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（登録商標／ＢＴ）技術および他の技術によって実現できる。

例示的な実施例では、電子機器８００は一つ以上の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタルシグナルプロセッサ（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現され、上記方法を実行するために用いられることができる。

例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ８０４が提供され、上記コンピュータプログラム命令は、電子機器８００のプロセッサ８２０によって実行されと、上記方法を実行させることができる。

本開示の実施例では、コンピュータ読み取り可能コードを含むコンピュータプログラム製品であって、コンピュータ読み取り可能コードは、機器において実行されると、機器のプロセッサに上記の実施例のいずれか１つで提供された方法を実現するための命令を実行させるコンピュータプログラム製品がさらに提供される。

当該コンピュータプログラム製品は、ハードウェア、ソフトウェア又はその組み合わせによって具体的に実現される。選択可能な一実施例において、前記コンピュータプログラム製品はコンピュータ記憶媒体として具現化され、他の選択可能な一実施例において、コンピュータプログラム製品は、例えばソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ、ＳＤＫ）などのようなソフトウェア製品として具現化される。

図６は、例示的な一実施例の電子機器１９００のブロック図を示す。例えば、電子機器１９００はサーバとして提供されてもよい。図６を参照すると、電子機器１９００は、一つ以上のプロセッサを含む処理コンポーネント１９２２、および、処理コンポーネント１９２２によって実行可能な命令例えばアプリケーションプログラムを記憶するための、メモリ１９３２を代表とするメモリ資源を含む。メモリ１９３２に記憶されているアプリケーションプログラムは、それぞれが１つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント１９２２は命令を実行することによって上記方法を実行するように構成される。

電子機器１９００はさらに、電子機器１９００の電源管理を実行するように構成される電源コンポーネント１９２６、電子機器１９００をネットワークに接続するように構成される有線または無線ネットワークインタフェース１９５０、および入出力（Ｉ／Ｏ）インタフェース１９５８を含んでもよい。電子機器１９００はメモリ１９３２に記憶されているオペレーティングシステム、例えばＷｉｎｄｏｗｓ（登録商標）ＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、ＬｉｎｕｘＴＭ、ＦｒｅｅＢＳＤＴＭまたは類似するものに基づいて動作できる。

例示的な実施例では、さらに、不揮発性コンピュータ可読記憶媒体、例えばコンピュータプログラム命令を含むメモリ１９３２が提供され、上記コンピュータプログラム命令は、電子機器１９００の処理コンポーネント１９２２によって実行されと、上記方法を実行させることができる。

本開示はシステム、方法および／またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各方面を実現させるためのコンピュータ可読プログラム命令が有しているコンピュータ可読記憶媒体を含んでもよい。

コンピュータ可読記憶媒体は、命令実行機器に使用される命令を保存および記憶可能な有形装置であってもよい。コンピュータ可読記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置、または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のさらに具体的な例（非網羅的リスト）としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、携帯型コンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内突起構造のような機械的符号化装置、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ可読記憶媒体は、瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波（例えば、光ファイバーケーブルを通過するパルス光）、または電線を経由して伝送される電気信号と解釈されるものではない。

ここで記述したコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各計算／処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび／または無線ネットワークを介して外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび／またはエッジサーバを含んでもよい。各計算／処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各計算／処理機器内のコンピュータ可読記憶媒体に記憶させる。

本開示の動作を実行するためのコンピュータプログラム命令はアセンブリ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含める一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、（例えばインターネットサービスプロバイダを利用してインターネットを経由して）外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）またはプログラマブル論理アレイ（ＰＬＡ）などの電子回路をパーソナライズし、該電子回路によりコンピュータ可読プログラム命令を実行することにより、本開示の各方面を実現するようにしてもよい。

ここで本開示の実施例に係る方法、装置（システム）およびコンピュータプログラム製品のフローチャートおよび／またはブロック図を参照しながら本開示の各態様を説明したが、フローチャートおよび／またはブロック図の各ブロックおよびフローチャートおよび／またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供され、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作を実現ように、装置を製造してもよい。これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブルデータ処理装置および／または他の機器を特定の方式で動作させるようにしてもよい。これにより、命令が記憶されているコンピュータ可読記憶媒体は、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作の各方面を実現する命令を有する製品を含む。

コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードされ、コンピュータ、他のプログラマブルデータ処理装置または他の機器に一連の動作ステップを実行させることにより、コンピュータにより実施なプロセスを生成するようにしてもよい。このようにして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令により、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作を実現する。

図面のうちフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は、図面に付した順序と異なって実現してもよい。例えば、連続的な二つのブロックは実質的に並列に実行してもよく、また、係る機能によって、逆な順序で実行してもよい。なお、ブロック図および／またはフローチャートにおける各ブロック、およびブロック図および／またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。

以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または既存技術に対する改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。

本開示は、２０１９年２月１日に中国国家知識産権局に提出された、出願番号が２０１９１０１０３６１１．１で、発明の名称が「画像処理方法及び装置、電子機器、並びに記憶媒体」である中国特許出願の優先権を主張し、その内容の全ては援用することによって本開示に組み込まれる。

Claims

均衡化サブネットワークと検出サブネットワークとを含む検出ネットワークの前記均衡化サブネットワークによりサンプル画像に対して特徴均衡化処理を行い、前記サンプル画像の均衡化特徴画像を取得することと、
前記検出サブネットワークにより前記均衡化特徴画像に対して目標検出処理を行い、前記均衡化特徴画像内の目標オブジェクトの複数の予測領域を取得することと、
前記複数の予測領域のそれぞれの、前記サンプル画像において目標オブジェクトの予測領域と対応のラベル付き領域との共通領域と和集合領域との面積比であるＩｏＵを決定することと、
各前記予測領域のＩｏＵに基づいて、前記複数の予測領域をサンプリングして、目標領域を取得することと、
前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークをトレーニングすることと、を含むことを特徴とする画像処理方法。
各前記予測領域のＩｏＵに基づいて、複数の予測領域をサンプリングして、目標領域を取得することは、
各前記予測領域のＩｏＵに基づいて、前記複数の予測領域に対して分類処理を行い、複数の種別の予測領域を取得することと、
各種別ごとに前記予測領域のサンプリング処理をそれぞれ行い、前記目標領域を取得することと、を含むことを特徴とする請求項１に記載の方法。
検出ネットワークの均衡化サブネットワークによりサンプル画像に対して特徴均衡化処理を行い、均衡化特徴画像を取得することは、
サンプル画像に対して特徴抽出処理を行い、複数の第１特徴マップを取得し、前記複数の第１特徴マップのうち少なくとも１つの第１特徴マップの解像度は他の第１特徴マップの解像度と異なることと、
前記複数の第１特徴マップに対して均衡化処理を行い、第２特徴マップを取得することと、
前記第２特徴マップ及び前記複数の第１特徴マップに基づいて、複数の均衡化特徴画像を取得することと、を含むことを特徴とする請求項１に記載の方法。
前記複数の第１特徴マップに対して均衡化処理を行い、第２特徴マップを取得することは、
前記複数の第１特徴マップのそれぞれに対して拡大縮小処理を行い、予め設定された解像度の複数の第３特徴マップを取得することと、
前記複数の第３特徴マップに対して平均化処理を行い、第４特徴マップを取得することと、
前記第４特徴マップに対して特徴抽出処理を行い、前記第２特徴マップを取得することと、を含むことを特徴とする請求項３に記載の方法。
前記第２特徴マップ及び前記複数の第１特徴マップに基づいて、複数の均衡化特徴画像を取得することは、
前記第２特徴マップに対して拡大縮小処理を行い、各前記第１特徴マップに対応する特徴マップであって、対応の前記第１特徴マップと解像度が同じである第５特徴マップをそれぞれ取得することと、
各前記第１特徴マップと対応の前記第５特徴マップとをそれぞれスキップ接続して、前記均衡化特徴画像を取得することと、を含むことを特徴とする請求項３又は請求項４に記載の方法。
前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークをトレーニングすることは、
前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークの認識損失と位置損失とを決定することと、
前記認識損失及び前記位置損失に基づいて前記検出ネットワークのネットワークパラメータを調整することと、
トレーニング条件が満たされる場合、トレーニング後の検出ネットワークを取得することと、を含むことを特徴とする請求項１に記載の方法。
前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークの認識損失と位置損失とを決定することは、
前記目標領域と前記ラベル付き領域との間の位置誤差を決定することと、
前記位置誤差が予め設定された閾値未満である場合、前記位置誤差に基づいて前記位置損失を決定することと、を含むことを特徴とする請求項６に記載の方法。
前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークの認識損失と位置損失とを決定することは、
前記目標領域と前記ラベル付き領域との間の位置誤差を決定することと、
前記位置誤差が予め設定された閾値以上である場合、予め設定された値に基づいて前記位置損失を決定することと、を含むことを特徴とする請求項６又は請求項７に記載の方法。
請求項１〜８のいずれか１項に記載の方法によってトレーニングした検出ネットワークに検出対象画像を入力して処理し、目標オブジェクトの位置情報を取得することを含むことを特徴とする画像処理方法。
均衡化サブネットワークと検出サブネットワークとを含む検出ネットワークの前記均衡化サブネットワークによりサンプル画像に対して特徴均衡化処理を行い、前記サンプル画像の均衡化特徴画像を取得するために用いられる均衡化モジュールと、
検出サブネットワークにより前記均衡化特徴画像に対して目標検出処理を行い、前記均衡化特徴画像内の目標オブジェクトの複数の予測領域を取得するために用いられる検出モジュールと、
前記複数の予測領域のそれぞれの、前記サンプル画像において目標オブジェクトの予測領域と対応のラベル付き領域との共通領域と和集合領域との面積比であるＩｏＵをそれぞれ決定するために用いられる決定モジュールと、
各前記予測領域のＩｏＵに基づいて、複数の予測領域をサンプリングして、目標領域を取得するために用いられるサンプリングモジュールと、
前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークをトレーニングするために用いられるトレーニングモジュールと、を含むことを特徴とする画像処理装置。
前記サンプリングモジュールは、さらに、
各前記予測領域のＩｏＵに基づいて、前記複数の予測領域に対して分類処理を行い、複数の種別の予測領域を取得し、
各種別ごとに前記予測領域のサンプリング処理をそれぞれ行い、前記目標領域を取得するように構成されることを特徴とする請求項１０に記載の方法。
前記均衡化モジュールは、さらに、
サンプル画像に対して特徴抽出処理を行い、複数の第１特徴マップを取得し、前記複数の第１特徴マップのうち少なくとも１つの第１特徴マップの解像度は他の第１特徴マップの解像度と異なり、
前記複数の第１特徴マップに対して均衡化処理を行い、第２特徴マップを取得し、
前記第２特徴マップ及び前記複数の第１特徴マップに基づいて、複数の均衡化特徴画像を取得するように構成されることを特徴とする請求項１０に記載の方法。
前記均衡化モジュールは、さらに、
前記複数の第１特徴マップのそれぞれに対して拡大縮小処理を行い、予め設定された解像度の複数の第３特徴マップを取得し、
前記複数の第３特徴マップに対して平均化処理を行い、第４特徴マップを取得し、
前記第４特徴マップに対して特徴抽出処理を行い、前記第２特徴マップを取得するように構成されることを特徴とする請求項１２に記載の方法。
前記均衡化モジュールは、さらに、
前記第２特徴マップに対して拡大縮小処理を行い、各前記第１特徴マップに対応する特徴マップであって、対応の前記第１特徴マップと解像度が同じである第５特徴マップをそれぞれ取得し、
各前記第１特徴マップと対応の前記第５特徴マップとをそれぞれスキップ接続して、前記均衡化特徴画像を取得するように構成されることを特徴とする請求項１２又は請求項１３に記載の方法。
前記トレーニングモジュールは、さらに、
前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークの認識損失と位置損失とを決定し、
前記認識損失及び前記位置損失に基づいて前記検出ネットワークのネットワークパラメータを調整し、
トレーニング条件が満たされる場合、トレーニング後の検出ネットワークを取得するように構成されることを特徴とする請求項１０に記載の方法。
前記トレーニングモジュールは、さらに、
前記目標領域と前記ラベル付き領域との間の位置誤差を決定し、
前記位置誤差が予め設定された閾値未満である場合、前記位置誤差に基づいて前記位置損失を決定するように構成されることを特徴とする請求項１５に記載の方法。
前記トレーニングモジュールは、さらに、
前記目標領域と前記ラベル付き領域との間の位置誤差を決定し、
前記位置誤差が予め設定された閾値以上である場合、予め設定された値に基づいて前記位置損失を決定するように構成されることを特徴とする請求項１５又は請求項１６に記載の方法。
請求項１０〜１７のいずれか１項に記載の装置によってトレーニングした検出ネットワークに検出対象画像を入力して処理し、目標オブジェクトの位置情報を取得するために用いられる取得モジュールを含むことを特徴とする画像処理装置。
プロセッサと、
プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、
前記プロセッサは、請求項１から請求項９のいずれか１項に記載の方法を実行するように構成されることを特徴とする電子機器。
コンピュータプログラム命令が記憶されているコンピュータ読み取り可能記憶媒体であって、前記コンピュータプログラム命令は、プロセッサにより実行されると、請求項１から請求項９のいずれか１項に記載の方法を実現させることを特徴とするコンピュータ読み取り可能記憶媒体。
コンピュータ読み取り可能コードを含み、前記コンピュータ読み取り可能コードは、電子機器において実行されると、前記電子機器のプロセッサに請求項１から請求項９のいずれか１項に記載の方法を実現するための命令を実行させるコンピュータプログラム。