JP2022500791A - 画像処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム - Google Patents

画像処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP2022500791A
JP2022500791A JP2021516440A JP2021516440A JP2022500791A JP 2022500791 A JP2022500791 A JP 2022500791A JP 2021516440 A JP2021516440 A JP 2021516440A JP 2021516440 A JP2021516440 A JP 2021516440A JP 2022500791 A JP2022500791 A JP 2022500791A
Authority
JP
Japan
Prior art keywords
feature
area
prediction
image
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021516440A
Other languages
English (en)
Inventor
江森 ▲ボウ▼
▲カイ▼ 陳
建萍 石
達華 林
万里 欧陽
華君 馮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Publication of JP2022500791A publication Critical patent/JP2022500791A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本開示は、画像処理方法及び装置、電子機器並びに記憶媒体に関する。前記方法は、検出ネットワークの均衡化サブネットワークによりサンプル画像に対して特徴均衡化処理を行い、サンプル画像の均衡化特徴画像を取得することと、検出サブネットワークにより均衡化特徴画像に対して目標検出処理を行い、均衡化特徴画像内の目標オブジェクトの予測領域を取得することと、各予測領域のIoUをそれぞれ決定することと、各予測領域のIoUに基づいて、複数の予測領域をサンプリングして、目標領域を取得することと、目標領域及びラベル付き領域に基づいて、検出ネットワークをトレーニングすることと、を含む。本開示の実施例による画像処理方法は、目標サンプル画像に対して特徴均衡化処理を行うことによって、情報の損失を回避でき、トレーニング効果を向上させる。そして、予測領域のIoUに基づいて、目標領域を抽出することができ、決定プロセスが難しい予測領域が抽出される確率を高め、トレーニング効率を向上させ、トレーニング効果も向上させることができる。【選択図】図1

Description

本開示は、コンピュータ技術分野に関し、特に、画像処理方法及び装置、電子機器、並びに記憶媒体に関する。
関連技術では、ニューラルネットワークのトレーニングプロセスにおいて、ニューラルネットワークのトレーニングに対するハードサンプルとシンプルサンプルの重要性は異なる。ハードサンプルは、トレーニングプロセスでより多くの情報を取得できることによって、トレーニングプロセスの効率がより高く、トレーニング効果がよりよくなるようにするが、膨大なサンプルのうち、シンプルサンプルの数がより多くなる。そして、トレーニングプロセスで、ニューラルネットワークの各階層で抽出する特徴に対する偏りがそれぞれ異なっている。
本開示は、画像処理方法及び装置、電子機器、並びに記憶媒体を提供する。
本開示の一方面によれば、均衡化サブネットワークと検出サブネットワークとを含む検出ネットワークの前記均衡化サブネットワークによりサンプル画像に対して特徴均衡化処理を行い、前記サンプル画像の均衡化特徴画像を取得することと、前記検出サブネットワークにより前記均衡化特徴画像に対して目標検出処理を行い、前記均衡化特徴画像内の目標オブジェクトの複数の予測領域を取得することと、前記複数の予測領域のそれぞれの、前記サンプル画像において目標オブジェクトの予測領域と対応のラベル付き領域との共通領域と和集合領域との面積比であるIoUを決定することと、各前記予測領域のIoUに基づいて、前記複数の予測領域をサンプリングして、目標領域を取得することと、前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークをトレーニングすることと、を含む画像処理方法を提供する。
本開示の実施例による画像処理方法は、目標サンプル画像に対して特徴均衡化処理を行うことによって、情報の損失を回避でき、トレーニング効果を向上させる。そして、予測領域のIoU(Intersection Over Union)に基づいて、目標領域を抽出することができ、決定プロセスが難しい予測領域が抽出される確率を高め、トレーニング効率を向上させ、トレーニング効果も向上させることができる。
可能な一実現形態では、各前記予測領域のIoUに基づいて、複数の予測領域をサンプリングして、目標領域を取得することは、各前記予測領域のIoUに基づいて、前記複数の予測領域に対して分類処理を行い、複数の種別の予測領域を取得することと、前記種別ごとに予測領域のサンプリング処理をそれぞれ行い、前記目標領域を取得することと、を含む。
このような形態によれば、IoUで予測領域を分類し、各種別ごとに予測領域をサンプリングすることによって、IoUの高い予測領域が抽出される確率を高め、目標領域における決定プロセスが難しい予測領域の割合を高め、トレーニング効率を向上させることができる。
可能な一実現形態では、検出ネットワークの均衡化サブネットワークによりサンプル画像に対して特徴均衡化処理を行い、均衡化特徴画像を取得することは、サンプル画像に対して特徴抽出処理を行い、複数の第1特徴マップを取得し、前記複数の第1特徴マップのうち少なくとも1つの第1特徴マップの解像度は他の第1特徴マップの解像度と異なることと、前記複数の第1特徴マップに対して均衡化処理を行い、第2特徴マップを取得することと、前記第2特徴マップ及び前記複数の第1特徴マップに基づいて、複数の均衡化特徴画像を取得することと、を含む。
可能な一実現形態では、前記複数の第1特徴マップに対して均衡化処理を行い、第2特徴マップを取得することは、前記複数の第1特徴マップのそれぞれに対して拡大縮小処理を行い、予め設定された解像度の複数の第3特徴マップを取得することと、前記複数の第3特徴マップに対して平均化処理を行い、第4特徴マップを取得することと、前記第4特徴マップに対して特徴抽出処理を行い、前記第2特徴マップを取得することと、を含む。
可能な一実現形態では、前記第2特徴マップ及び前記複数の第1特徴マップに基づいて、複数の均衡化特徴画像を取得することは、前記第2特徴マップに対して拡大縮小処理を行い、各前記第1特徴マップに対応する特徴マップであって、対応の前記第1特徴マップと解像度が同じである第5特徴マップをそれぞれ取得することと、各前記第1特徴マップと対応の前記第5特徴マップとをそれぞれスキップ接続して、前記均衡化特徴画像を取得することと、を含む。
このような形態によれば、均衡化処理により特徴が均衡となる第2特徴マップを取得し、スキップ接続により均衡化特徴マップを取得することができ、情報の損失を低減させ、トレーニング効果を向上させることができる。
可能な一実現形態では、前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークをトレーニングすることは、前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークの認識損失と位置損失とを決定することと、前記認識損失及び前記位置損失に基づいて前記検出ネットワークのネットワークパラメータを調整することと、トレーニング条件が満たされる場合、トレーニング後の検出ネットワークを取得することと、を含む。
可能な一実現形態では、前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークの認識損失と位置損失とを決定することは、前記目標領域と前記ラベル付き領域との間の位置誤差を決定することと、前記位置誤差が予め設定された閾値未満である場合、前記位置誤差に基づいて前記位置損失を決定することと、を含む。
可能な一実現形態では、前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークの認識損失と位置損失とを決定することは、前記目標領域と前記ラベル付き領域との間の位置誤差を決定することと、前記位置誤差が予め設定された閾値以上である場合、予め設定された値に基づいて前記位置損失を決定することと、を含む。
このような形態によれば、目標オブジェクトに対する予測が正しい場合、位置損失の勾配を高め、トレーニング効率を向上させ、検出ネットワークの適合度を向上させることができる。目標オブジェクトに対する予測が間違った場合、位置損失の勾配を小さくし、トレーニングプロセスに対する位置損失の影響を低減して、位置損失の収束を速め、トレーニング効率を向上させることができる。
本開示の別の方面によれば、前記画像処理方法によってトレーニングした検出ネットワークに検出対象画像を入力して処理し、目標オブジェクトの位置情報を取得することを含む画像処理方法を提供する。
本開示の別の方面によれば、均衡化サブネットワークと検出サブネットワークとを含む検出ネットワークの前記均衡化サブネットワークによりサンプル画像に対して特徴均衡化処理を行い、前記サンプル画像の均衡化特徴画像を取得するために用いられる均衡化モジュールと、検出サブネットワークにより前記均衡化特徴画像に対して目標検出処理を行い、前記均衡化特徴画像内の目標オブジェクトの複数の予測領域を取得するための検出モジュールと、前記複数の予測領域のそれぞれの、前記サンプル画像において目標オブジェクトの予測領域と対応のラベル付き領域との共通領域と和集合領域との面積比であるIoUをそれぞれ決定するために用いられる決定モジュールと、各前記予測領域のIoUに基づいて、複数の予測領域をサンプリングして、目標領域を取得するために用いられるサンプリングモジュールと、前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークをトレーニングするために用いられるトレーニングモジュールと、を含む画像処理装置を提供する。
可能な一実現形態では、前記サンプリングモジュールは、さらに、各前記予測領域のIoUに基づいて、前記複数の予測領域に対して分類処理を行い、複数の種別の予測領域を取得し、各種別ごとに前記予測領域のサンプリング処理をそれぞれ行い、前記目標領域を取得するように構成される。
可能な一実現形態では、前記均衡化モジュールは、さらに、サンプル画像に対して特徴抽出処理を行い、複数の第1特徴マップを取得し、前記複数の第1特徴マップのうち少なくとも1つの第1特徴マップの解像度は他の第1特徴マップの解像度と異なり、前記複数の第1特徴マップに対して均衡化処理を行い、第2特徴マップを取得し、前記第2特徴マップ及び前記複数の第1特徴マップに基づいて、複数の均衡化特徴画像を取得するように構成される。
可能な一実現形態では、前記均衡化モジュールは、さらに、前記複数の第1特徴マップのそれぞれに対して拡大縮小処理を行い、予め設定された解像度の複数の第3特徴マップを取得し、前記複数の第3特徴マップに対して平均化処理を行い、第4特徴マップを取得し、前記第4特徴マップに対して特徴抽出処理を行い、前記第2特徴マップを取得するように構成される。
可能な一実現形態では、前記均衡化モジュールは、さらに、前記第2特徴マップに対して拡大縮小処理を行い、各前記第1特徴マップに対応する特徴マップであって、対応の前記第1特徴マップと解像度が同じである第5特徴マップをそれぞれ取得し、各前記第1特徴マップと対応の前記第5特徴マップとをそれぞれスキップ接続して、前記均衡化特徴画像を取得するように構成される。
可能な一実現形態では、前記トレーニングモジュールは、さらに、前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークの認識損失と位置損失とを決定し、前記認識損失及び前記位置損失に基づいて前記検出ネットワークのネットワークパラメータを調整し、トレーニング条件が満たされる場合、トレーニング後の検出ネットワークを取得するように構成される。
可能な一実現形態では、前記トレーニングモジュールは、さらに、前記目標領域と前記ラベル付き領域との間の位置誤差を決定し、前記位置誤差が予め設定された閾値未満である場合、前記位置誤差に基づいて前記位置損失を決定するように構成される。
可能な一実現形態では、前記トレーニングモジュールは、さらに、前記目標領域と前記ラベル付き領域との間の位置誤差を決定し、前記位置誤差が予め設定された閾値以上である場合、予め設定された値に基づいて前記位置損失を決定するように構成される。
本開示の別の方面によれば、前記画像処理装置によってトレーニングした検出ネットワークに検出対象画像を入力して処理し、目標オブジェクトの位置情報を取得するために用いられる取得モジュールを含む画像処理装置を提供する。
本開示の一方面によれば、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、上記の画像処理方法を実行するように構成される電子機器を提供する。
本開示の一方面によれば、コンピュータプログラム命令が記憶されているコンピュータ読み取り可能記憶媒体であって、前記コンピュータプログラム命令は、プロセッサにより実行されると、上記の画像処理方法を実現させるコンピュータ読み取り可能記憶媒体を提供する。
本開示の一方面によれば、コンピュータ読み取り可能コードを含み、前記コンピュータ読み取り可能コードは、電子機器において実行されると、前記電子機器のプロセッサに上記の画像処理方法を実行するための命令を実行させるコンピュータプログラムを提供する。
本開示の実施例による画像処理方法は、均衡化処理により特徴が均衡となる第2特徴マップを取得し、スキップ接続により均衡化特徴マップを取得することができ、情報の損失を低減させ、トレーニング効果を向上させ、検出ネットワークの検出精度を向上させることができる。IoUで予測領域を分類し、各種別ごとに予測領域をサンプリングすることができ、IoUの高い予測領域が抽出される確率を高め、予測領域における決定プロセスが難しい予測領域の割合を高め、トレーニング効率を向上させ、かつメモリ消費とリソース占有を低減することができる。さらに、目標オブジェクトに対する予測が正しい場合、位置損失の勾配を高め、トレーニング効率を向上させ、検出ネットワークの適合度を向上させることができ、目標オブジェクトに対する予測が間違った場合、位置損失の勾配を小さくし、トレーニングプロセスに対する位置損失の影響を低減して、位置損失の収束を速め、トレーニング効率を向上させることができる。
以上の一般的説明及び以下の詳細説明は、例示的及び解釈的なものに過ぎず、本開示を限定するものではないと理解すべきである。
以下、図面を参照しながら例示的な実施例を詳細に説明することによって、本開示の他の特徴及び方面は明瞭になる。
ここで、本明細書の一部として組み込まれる図面は、本開示の実施例に適し、明細書と共に本開示の技術的手段の説明に用いられる。
図1は本開示の実施例による画像処理方法のフローチャートを示す。 図2は本開示の実施例による予測領域のIoUの模式図を示す。 図3は本開示の実施例による画像処理方法の適用の模式図を示す。 図4は本開示の実施例による画像処理装置のブロック図を示す。 図5は本開示の実施例による電子装置のブロック図を示す。 図6は本開示の実施例による電子装置のブロック図を示す。
以下に、図面を参照しながら本開示の様々な例示的な実施例、特徴および方面を詳細に説明する。図面における同じ符号は同じまたは類似する機能の要素を示す。図面において実施例の様々な方面を示したが、特に断らない限り、比例に従って図面を描く必要がない。
ここでの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明されるいかなる実施例は他の実施例より好ましいまたは優れるものであると理解すべきではない。
本明細書における用語「及び/又は」は、単に関連対象との関連関係を記述するものであり、3つの関係が存在可能であることを示し、例えば、A及び/又はBは、Aのみが存在し、AとBの両方が存在し、Bのみが存在するという3つの場合を示してもよい。また、本明細書における用語「少なくとも1つ」は複数のうちのいずれか1つ、又は複数のうちの少なくとも2つの任意の組み合わせを示し、例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCからなる集合から選択されたいずれか1つ又は複数の要素を含むことを示してもよい。
また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的な詳細を示す。当業者であれば、本開示は何らかの具体的な詳細がなくても同様に実施できると理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者が熟知している方法、手段、要素および回路について詳細な説明を行わない。
図1は、本開示の実施例による画像処理方法のフローチャートを示す。図1に示すように、前記方法は、均衡化サブネットワークと検出サブネットワークとを含む検出ネットワークの前記均衡化サブネットワークによりサンプル画像に対して特徴均衡化処理を行い、前記サンプル画像の均衡化特徴画像を取得するステップS11と、前記検出サブネットワークにより前記均衡化特徴画像に対して目標検出処理を行い、前記均衡化特徴画像内の目標オブジェクトの複数の予測領域を取得するステップS12と、前記複数の予測領域のそれぞれの、前記サンプル画像において目標オブジェクトの予測領域と対応のラベル付き領域との共通領域と和集合領域との面積比であるIoUを決定するステップS13と、各前記予測領域のIoUに基づいて、前記複数の予測領域をサンプリングして、目標領域を取得するステップS14と、前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークをトレーニングするステップS15と、を含む。
本開示の実施例による画像処理方法は、目標サンプル画像に対して特徴均衡化処理を行うことによって、情報の損失を回避でき、トレーニング効果を向上させる。そして、予測領域のIoUに基づいて、目標領域を抽出することができ、決定プロセスが難しい予測領域が抽出される確率を高め、トレーニング効率を向上させ、トレーニング効果も向上させることができる。
可能な一実現形態では、前記画像処理方法は、ユーザ機器(User Equipment、UE)、携帯機器、ユーザ端末、端末、セルラーホン、コードレス電話、パーソナル・デジタル・アシスタント(Personal Digital Assistant、PDA)、手持ち機器、計算装置、車載装置、ウエアラブル装置などの端末装置により実行されてもよく、プロセッサによりメモリに記憶されているコンピュータ読み取り可能命令を呼び出すことで実現されてもよい。又は、前記画像処理方法は、サーバによって実行されてもよい。
可能な一実現形態では、前記検出ネットワークは、畳み込みニューラルネットワークなどのニューラルネットワークであってもよいが、本開示ではその種類が限定されない。前記検出ネットワークは、均衡化サブネットワークと検出サブネットワークとを含み得る。検出ネットワークの均衡化サブネットワークの各階層によってサンプル画像の特徴マップを抽出することができ、特徴均衡化処理によって各階層で抽出された特徴マップの特徴のバランスを取ることができ、情報の損失を低減させ、トレーニング効果を向上させる。
可能な一実現形態では、ステップS11は、サンプル画像に対して特徴抽出処理を行い、複数の第1特徴マップを取得し、前記複数の第1特徴マップのうち少なくとも1つの第1特徴マップの解像度は他の第1特徴マップの解像度と異なることと、前記複数の第1特徴マップに対して均衡化処理を行い、第2特徴マップを取得することと、前記第2特徴マップ及び前記複数の第1特徴マップに基づいて、複数の均衡化特徴画像を取得することと、を含んでもよい。
可能な一実現形態では、均衡化サブネットワークを用いて特徴均衡化処理を行うことができる。例示的には、均衡化サブネットワークの複数の畳み込み層を用いて、目標サンプル画像に対して特徴抽出処理をそれぞれ行い、複数の第1特徴マップを取得することができ、第1特徴マップにおいて、少なくとも1つの第1特徴マップの解像度が他の第1特徴マップの解像度と異なり、例えば、複数の第1特徴マップの解像度が互いに異なる。例示的には、1番目の畳み込み層により目標サンプル画像に対して特徴抽出処理を行い、1番目の第1特徴マップを取得し、さらに2番目の畳み込み層により前記1番目の第1特徴マップに対して特徴抽出処理を行い、2番目の第1特徴マップを取得し・・・というような方式で複数の第1特徴マップを取得でき、複数の第1特徴マップは、それぞれ異なる階層の畳み込み層により取得され、各階層の畳み込み層による第1特徴マップの特徴に対する偏りがそれぞれ異なっている。
可能な一実現形態では、前記複数の第1特徴マップに対して均衡化処理を行い、第2特徴マップを取得することは、前記複数の第1特徴マップのそれぞれに対して拡大縮小処理を行い、予め設定された解像度の複数の第3特徴マップを取得することと、前記複数の第3特徴マップに対して平均化処理を行い、第4特徴マップを取得することと、前記第4特徴マップに対して特徴抽出処理を行い、前記第2特徴マップを取得することと、を含む。
可能な一実現形態では、前記複数の第1特徴マップの解像度は、例えば640×480、800×600、1024×768、1600×1200などであるように互いに異なってもよい。各第1特徴マップのそれぞれに対して拡大縮小処理を行い、予め設定された解像度の第3画像を取得することができる。前記予め設定された解像度は、複数の第1特徴マップの解像度の平均値、または他の設定値であってもよいが、本開示では限定されない。第1特徴マップに対して拡大縮小処理を行い、予め設定された解像度の第3特徴マップを取得することができ、例示的には、解像度が予め設定された解像度より低い第1特徴マップに対して、解像度を上げるように補間などのアップサンプリング処理を行い、予め設定された解像度の第3特徴マップを取得することができ、予め設定された解像度より高い第1特徴マップに対してプーリング処理などのダウンサンプリング処理を行い、予め設定された解像度の第3特徴マップを取得することができるが、本開示では拡大縮小の方法が限定されない。
可能な一実現形態では、複数の第3特徴マップに対して平均化処理を行うことができる。例示的には、複数の第3特徴マップの解像度は、同じで、かついずれも予め設定された解像度であり、複数の第3特徴マップにおいて同一座標の画素点の画素値(例えば、RGB値或いは深度値などのパラメータ)を平均化することができ、第4特徴マップにおける当該座標の画素点の画素値を取得できる。このような方式により、第4特徴マップにおける全ての画素点の画素値を決定でき、つまり、第4特徴マップを取得することができ、第4特徴マップは、特徴が均衡となる特徴マップである。
可能な一実現形態では、第4特徴マップに対して特徴抽出を行い、第2特徴マップを取得することができ、例示的には、前記均衡化サブネットワークの畳み込み層を用いて第4特徴マップに対して特徴抽出を行うことができ、例えば、非局所注意メカニズム(Non−Local)を用いて第4特徴マップに対して特徴抽出を行い、前記第2特徴マップを取得し、第2特徴マップは、特徴が均衡となる特徴マップである。
可能な一実現形態では、前記第2特徴マップ及び前記複数の第1特徴マップに基づいて、複数の均衡化特徴画像を取得することは、前記第2特徴マップに対して拡大縮小処理を行い、各前記第1特徴マップに対応する特徴マップであって、対応の前記第1特徴マップと解像度が同じである第5特徴マップをそれぞれ取得することと、各前記第1特徴マップと対応の前記第5特徴マップとをそれぞれスキップ接続して、前記均衡化特徴画像を取得することと、を含む。
可能な一実現形態では、前記第2特徴マップと各第1特徴マップとの解像度は異なってもよく、それぞれ各第1特徴マップの解像度と同じ第5特徴マップを取得するために、第2特徴マップに対しいて拡大縮小処理を行うことができ、例示的には、第2特徴マップの解像度が800×600であると、第2特徴マップに対してプーリングなどのダウンサンプリング処理を行い、解像度が640×480の第5特徴マップ、すなわち解像度が640×480の第1特徴マップに対応する第5特徴マップを取得することができ、第2特徴マップに対して補間などのアップサンプリング処理を行い、解像度が1024×768の第5特徴マップ、すなわち解像度が1024×768の第1特徴マップに対応する第5特徴マップを取得することができることなどであり、本開示では第2特徴マップ及び第1特徴マップの解像度が限定されない。
可能な一実現形態では、第1特徴マップと対応の第5特徴マップとの解像度が同じであると、第1特徴マップと対応の第5特徴マップとに対してスキップ接続処理を行い、前記均衡化特徴画像を取得することができ、例えば、第1特徴マップにおけるある座標の画素点の画素値に、対応の第5特徴マップにおける同じ座標の画素点の画素値を加算し、均衡化特徴画像における当該画素点の画素値を取得することができ、このような方式に従って均衡化特徴画像における全ての画素点の画素値を取得し、つまり、均衡化特徴画像を取得することができる。
このような方式により、均衡化処理により特徴が均衡となる第2特徴マップを取得し、スキップ接続により均衡化特徴マップを取得することができ、情報の損失を低減させ、トレーニング効果を向上させることができる。
可能な一実現形態では、ステップS12において、検出サブネットワークにより均衡化特徴画像に対して目標検出を行い、均衡化特徴画像における目標オブジェクトの予測領域を取得することができ、例示的には、選択枠で目標オブジェクトが存在する予測領域を枠で囲んで選択することができる。前記目標検出処理は、さらに、目標オブジェクトの複数の予測領域を取得するために、他の目標検出のためのニューラルネットワーク或いは他の方法により実現されてもよい。本開示では、目標検出処理の実現形態が限定されない。
可能な一実現形態では、ステップS13において、前記サンプル画像はラベル付きのサンプル画像であり、例えば、目標オブジェクトが存在する領域にラベルを付けることができ、つまり、選択枠を用いて目標オブジェクトが存在する領域を枠で囲んで選択する。前記均衡化特徴画像は、サンプル画像に基づいて取得したものであり、サンプル画像において目標オブジェクトが存在する領域を枠で囲んで選択する選択枠に基づいて、前記均衡化特徴画像において目標オブジェクトが存在する領域の位置を決定することができ、当該位置を枠で囲んで選択することができ、枠で囲んで選択された領域が前記ラベル付き領域である。例示的には、前記ラベル付き領域は前記目標オブジェクトに対応し、前記サンプル画像又はサンプル画像の均衡化特徴画像に、1つ以上の目標オブジェクトが含まれ、各目標オブジェクトにラベルを付けることができ、つまり、各目標オブジェクトはいずれも対応するラベル付き領域を有する。
可能な一実現形態では、前記IoUは目標オブジェクトの予測領域と対応のラベル付き領域との共通領域と和集合領域との面積比であり、前記予測領域とラベル付き領域との共通領域は2つの領域の共通部分であり、前記予測領域とラベル付き領域との和集合領域は2つの領域の和集合である。例示的には、前記検出ネットワークで各オブジェクトの予測領域をそれぞれ決定でき、例えば、目標オブジェクトAに対して、検出ネットワークは目標オブジェクトAの複数の予測領域を決定でき、目標オブジェクトBに対して、検出ネットワークは目標オブジェクトBの複数の予測領域を決定できる。予測領域のIoUを決定するとき、予測領域と対応のラベル付き領域との共通領域と和集合領域との面積比を決定でき、例えば、目標オブジェクトAの、ある予測領域のIoUを決定するとき、当該予測領域と目標オブジェクトAのラベル付き領域との共通領域と和集合領域との面積比を決定できる。
図2は、本開示の実施例による予測領域のIoUの模式図を示す。図2に示すように、ある均衡化特徴画像において、目標オブジェクトが存在する領域にラベルを付けており、当該ラベルは目標オブジェクトが存在する領域を枠で囲んで選択する選択枠であってもよく、例えば、図2において破線で示されているラベル付き領域である。目標検出方法を用いて均衡化特徴画像の目標オブジェクトを検出することができ、例えば、検出ネットワークなどの方法を用いて検出し、検出された目標オブジェクトの予測領域を枠で囲んで選択することができ、例えば、図2において実線で示されている予測領域である。図2に示すように、ラベル付き領域はA+Bであり、予測領域はB+Cであり、予測領域とラベル付き領域との共通領域はBであり、予測領域とラベル付き領域との和集合領域はA+B+Cである。サンプル画像のIoUはB領域の面積とA+B+C領域の面積との比である。
可能な一実現形態では、IoUと予測領域の決定の難しさに正の相関関係があり、つまり、IoUが高い予測領域において、決定プロセスの難しい予測領域が占める割合が大きい。しかし、全ての予測領域において、IoUの低い予測領域が占める割合が大きく、全ての予測領域内でランダムサンプリング或いは均一サンプリングを直接行う場合、IoUの低い予測領域が取得される確率が大きく、つまり、決定プロセスの易しい予測領域が取得される確率が大きく、決定プロセスが易しい予測領域を大量用いてトレーニングする場合、トレーニング効率が低いこととなる。しかし、決定プロセスが難しい予測領域を用いてトレーニングする場合、トレーニングする度に多くの情報を取得することができ、トレーニング効率を向上させる。したがって、各予測領域のIoUに基づいて予測領域を選別し、選別された予測領域のうち、決定プロセスの難しい予測領域が占める割合が高くなるようにすることができ、トレーニング効率を向上させる。
可能な一実現形態では、ステップS14は、各前記予測領域のIoUに基づいて、前記複数の予測領域に対して分類処理を行い、複数の種別の予測領域を取得することと、各種別ごとに前記予測領域のサンプリング処理をそれぞれ行い、前記目標領域を取得することと、を含んでもよい。
可能な一実現形態では、例えば、IoUが0より大きく0.05以下の予測領域を1つの種別に分類し、IoUが0.05より大きく0.1以下の予測領域を1つの種別に分類し、IoUが0.1より大きく0.15以下の予測領域を1つの種別に分類する・・・、つまり、IoUの各種別の区間の長さが0.05とするように、前記IoUに従って予測領域に対して分類処理を行うことができる。本開示では、種別の数量と各種別の区間の長さが限定されない。
可能な一実現形態では、各種別ごとに、均一サンプリング或いはランダムサンプリングを行い、前記目標領域を取得することができる。つまり、IoUが高い種別及びIoUが低い種別両方から予測領域を抽出し、IoUの高い予測領域が抽出される確率を高め、つまり、目標領域において決定プロセスが難しい予測領域の割合を高める。各種別では、予測領域が抽出される確率を以下の公式(1)で表わされる。
Figure 2022500791
ただし、K(Kは1より大きい整数)は種別の数量であり、pkはk(kはK以下の正の整数)番目の種別において、予測領域が抽出される確率であり、Nは予測領域の画像の総数であり、Mkはk番目の種別における予測領域の数量である。
例示的には、前記目標領域として、さらに、IoUが予め設定された閾値(例えば、0.05、0.1など)より高い予測領域を選別するか、或いはIoUが予め設定された区間(例えば、0.05より大きく0.5以下など)に属する予測領域を選別することができるが、本開示では、選別方法が限定されない。
このような方式により、IoUによって予測領域を分類し、各種別ごとに予測領域をサンプリングすることができ、IoUの高い予測領域が抽出される確率を高め、目標領域において決定プロセスが難しい予測領域の割合を高め、トレーニング効率を向上させることができる。
可能な一実現形態では、ステップS15において、検出ネットワークは画像における目標オブジェクトを検出するためのニューラルネットワークであってもよく、例えば、検出ネットワークは畳み込みニューラルネットワークであってもよいが、本開示では検出ネットワークの種別が限定されない。均衡化特徴画像における目標領域及びラベル付き領域を用いて検出ネットワークをトレーニングすることができる。
可能な一実現形態では、前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークの認識損失と位置損失とを決定することは、前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークの認識損失と位置損失とを決定することと、前記認識損失及び前記位置損失に基づいて検出ネットワークのネットワークパラメータを調整することと、トレーニング条件が満たされる場合、トレーニング後の検出ネットワークを取得することと、を含む。
可能な一実現形態では、いずれか1つの目標領域及びラベル付き領域によって、ニューラルネットワークによる目標オブジェクトの認識が正しいか否かを示るための認識損失、及び位置損失を決定することができ、例えば、均衡化特徴画像に1つ或いは一部のみが目標オブジェクトである複数のオブジェクトが含まれ、前記オブジェクトを2つの種別、つまり、前記オブジェクトが目標オブジェクトである種別と、前記オブジェクトが目標オブジェクトではない種別に分けるようにすることができる。例示的には、前記認識結果を、確率、例えばあるオブジェクトが目標オブジェクトである確率で示すことができ、つまり、あるオブジェクトが目標オブジェクトである確率が50%以上である場合、前記オブジェクトは目標オブジェクトであり、そうでない場合、前記オブジェクトは目標オブジェクトではない。
可能な一実現形態では、目標領域及びラベル付き領域に基づいて、前記検出ネットワークの認識損失を決定できる。例示的には、前記検出ネットワークにより予測した、目標オブジェクトが存在する領域を枠で囲んで選択した選択枠内の領域は前記目標領域であり、例えば、画像に複数のオブジェクトが含まれ、目標オブジェクトが存在する領域を枠で囲んで選択し、他のオブジェクトを枠で囲んで選択しないことが可能であり、目標領域内の枠で囲んで選択されたオブジェクトと目標オブジェクトとの類似度に基づいて検出ネットワークの認識損失を決定することができ、例えば、目標領域内のオブジェクトが目標オブジェクトである確率が70%である(すなわち、前記検出ネットワークにより決定した目標領域内のオブジェクトと目標オブジェクトとの類似度が70%である)と、当該オブジェクトは目標オブジェクトであり、100%とラベル付けされ、30%の誤差に基づいて認識損失を決定することができる。
可能な一実現形態では、目標領域及びラベル付き領域に基づいて、前記検出ネットワークの位置損失を決定する。例示的には、ラベル付き領域は目標オブジェクトが存在する領域を枠で囲んで選択した選択枠である。つまり、目標領域が検出ネットワークにより予測された目標オブジェクトが存在する領域であり、選択枠で当該領域を枠で囲んで選択し、上記の2つの選択枠の位置及びサイズなどを比較して、前記位置損失を決定することができる。
可能な一実現形態では、前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークの認識損失と位置損失とを決定することは、前記目標領域と前記ラベル付き領域との間の位置誤差を決定することと、前記位置誤差が予め設定された閾値未満である場合、前記位置誤差に基づいて前記位置損失を決定することと、を含む。前記予測領域及び前記ラベル付き領域は、いずれも選択枠であり、予測領域とラベル付き領域とを比較することができる。前記位置誤差は、選択枠の位置及びサイズの誤差、例えば、選択枠の中心点或いは左上隅の頂点座標の誤差、及び選択枠の長さと幅の誤差などを含み得る。目標オブジェクトに対する予測が正しい場合、前記位置誤差が小さく、トレーニングプロセスにおいて、当該位置誤差を用いて決定した位置損失は位置損失の収束に有利となり、トレーニング効率を向上させることができ、検出ネットワークの適合度の向上に有利となり、目標オブジェクトに対する予測が間違った場合、例えば、ある非目標オブジェクトを目標オブジェクトと間違えると、前記位置誤差が大きくなり、トレーニングプロセスにおいて、位置損失が収束しにくく、トレーニングプロセスの効率が低く、検出ネットワークの適合度の向上にも不利になり、したがって、予め設定された閾値を用いて前記位置損失を決定することができる。位置誤差が予め設定された閾値より小さい場合、目標オブジェクトに対する予測が正しいとすることができ、位置誤差に基づいて前記位置損失を決定することができる。
可能な一実現形態では、前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークの認識損失と位置損失とを決定することは、前記目標領域と前記ラベル付き領域との間の位置誤差を決定することと、前記位置誤差が予め設定された閾値以上である場合、予め設定された値に基づいて前記位置損失を決定することと、を含む。例示的には、位置誤差が予め設定された閾値以上である場合、目標オブジェクトに対する予測が間違ったとすることができ、トレーニングプロセスにおいて位置損失の勾配を小さくするために、予め設定された値(例えば、ある定数値)に基づいて位置損失を決定することができることによって、位置損失の収束を速め、トレーニング効率を向上させる。
可能な一実現形態では、前記位置損失を以下の公式(2)により決定することができる。
Figure 2022500791
ここで、Lproは前記位置損失であり、α及びbは設定したパラメータであり、xは位置誤差であり、γは前記予め設定された値であり、εは予め設定された閾値であり、例示的には、ε=1、γ=aln(b+1)である。本開示では、α、b及びγの値が限定されない。
(2)を積分して、位置損失Lproを取得することができ、Lproが以下の公式(3)により決定される。
Figure 2022500791
ここで、Cは積分定数である。公式(3)において、位置誤差が予め設定された閾値より小さい場合、つまり、目標オブジェクトに対する予測が正しい場合、対数で位置損失の勾配を上げ、トレーニングプロセスでの位置損失の調整パラメータの勾配が大きくなるようにして、トレーニング効率を向上させ、検出ネットワークの適合度を向上させる。目標オブジェクトに対する予測が間違った場合、位置損失は定数γであり、位置損失の勾配を小さくし、トレーニングプロセスに対する位置損失の影響を低減させて、位置損失の収束を速め、検出ネットワークの適合度を向上させる。
可能な一実現形態では、認識損失と位置損失に基づいて検出ネットワークのネットワークパラメータを調整でき、例示的には、認識損失と位置損失に基づいて検出ネットワークの総合ネットワーク損失を決定でき、例えば、以下の公式(4)により検出ネットワークの総合ネットワーク損失を決定できる。
Figure 2022500791
ここで、Lは前記総合ネットワーク損失であり、Lclsは前記認識損失である。
可能な一実現形態では、検出ネットワークのネットワークパラメータを、総合ネットワーク損失を最小化する方向に応じて調整することができ、例示的には、勾配降下法を用いて総合ネットワーク損失の逆伝播を行うことで、検出ネットワークのネットワークパラメータを調整することができる。
可能な一実現形態では、トレーニング条件は、調整の回数、及び総合ネットワーク損失の大きさ或いは収束・発散性などの条件を含み得る。検出ネットワークに対して予め設定された回数を調整でき、調整回数が予め設定された回数に達すると、トレーニング条件が満たされる。トレーニングの回数を限定しなくてもよく、総合ネットワーク損失が一定の程度まで低下したか、或いはある区間内に収束すると、トレーニング条件が満たされる。トレーニングが完了した後、検出ネットワークを画像における目標オブジェクトを検出するプロセスに用いることができる。
このような方式により、目標オブジェクトに対する予測が正しい場合、位置損失の勾配を高め、トレーニング効率を向上させ、検出ネットワークの適合度を向上させることができる。目標オブジェクトに対する予測が間違った場合、位置損失の勾配を小さくし、トレーニングプロセスに対する位置損失の影響を低減させて、位置損失の収束を速め、トレーニング効率を向上させることができる。
可能な一実現形態では、本開示の実施例によれば、トレーニングした検出ネットワークに検出対象画像を入力して処理し、目標オブジェクトの位置情報を取得することを含む画像処理方法をさらに提供する。
可能な一実現形態では、検出対象画像は、目標オブジェクトを含む画像であり、前記検出ネットワークの均衡化サブネットワークにより検出対象画像に対して特徴均衡化処理を行い、ワンセットの均衡化特徴マップを取得することができる。
可能な一実現形態では、均衡化特徴マップを検出ネットワークの検出サブネットワークに入力することができ、検出サブネットワークは目標オブジェクトを認識し、目標オブジェクトの位置を決定し、目標オブジェクトの位置情報、例えば、目標オブジェクトを枠で囲んで選択する選択枠を取得することができる。
本開示の実施例による画像処理方法は、均衡化処理によって特徴が均衡となる第2特徴マップを取得し、スキップ接続によって均衡化特徴マップを取得することができ、情報の損失を低減させ、トレーニング効果を向上させ、検出ネットワークの検出精度を向上させることができる。IoUで予測領域を分類し、各種別ごとに予測領域をサンプリングすることができ、IoUの高い予測領域が抽出される確率を高め、予測領域において決定プロセスが難しい予測領域の割合を高め、トレーニング効率を向上させ、かつメモリ消費とリソース占有を低減することができる。さらに、目標オブジェクトに対する予測が正しい場合、位置損失の勾配を高め、トレーニング効率を向上させ、検出ネットワークの適合度を向上させることができ、目標オブジェクトに対する予測が間違った場合、位置損失の勾配を小さくし、トレーニングプロセスに対する位置損失の影響を低減して、位置損失の収束を速め、トレーニング効率を向上させる。
図3は、本開示の実施例による画像処理方法の適用の模式図を示す。図3に示すように、検出ネットワークの均衡化サブネットワークの複数の階層の畳み込み層を用いて、サンプル画像C1に対する特徴抽出を行い、解像度が互いに異なる複数の第1特徴マップ、例えば解像度が640×480、800×600、1024×768、1600×1200などの第1特徴マップを取得することができる。
可能な一実現形態では、各第1特徴マップに対して拡大縮小処理を行い、予め設定された解像度の複数の第3特徴マップを取得することができ、例えば、解像度が640×480、800×600、1024×768、1600×1200の第1特徴マップのそれぞれに対して拡大縮小処理を行い、解像度がいずれも800×600の第3特徴マップを取得することができる。
可能な一実現形態では、複数の第3特徴マップに対して平均化処理を行い、特徴が均衡となる第4特徴マップを取得することができる。非局所注意メカニズム(Non−Local)を用いて第4特徴マップに対する特徴抽出を行い、前記第2特徴マップを取得する。
可能な一実現形態では、第2特徴マップに対して拡大縮小処理を行い、各第1特徴マップの解像度と同じ第5特徴マップ(例えばC2、C3、C4、C5)をそれぞれ取得することができ、例えば、第2特徴マップを解像度が640×480、800×600、1024×768、1600×1200などの第5特徴マップ(例えばP2、P3、P4、P5)にそれぞれ拡大縮小することができる。
可能な一実現形態では、第1特徴マップと対応の第5特徴マップとに対してスキップ接続処理を行うことができ、つまり、第1特徴マップ及び対応の第5特徴マップにおける同じ座標の画素点のRGB値或いは階調値などのパラメータを加算して、複数の均衡化特徴マップを取得する。
可能な一実現形態では、検出ネットワークの検出サブネットワークを用いて前記均衡化特徴画像に対して目標検出処理を行い、前記均衡化特徴画像において目標オブジェクトの複数の予測領域を取得することができる。複数の予測領域のIoUをそれぞれ決定でき、IoUに基づいて予測領域を分類し、各種別ごとに予測領域をサンプリングして、決定プロセスの難しい予測領域が占める割合が大きい目標領域を取得することができる。
可能な一実現形態では、目標領域及びラベル付き領域を用いて前記検出ネットワークをトレーニングすることができ、つまり、目標領域内の枠で囲んで選択したオブジェクトと目標オブジェクトとの類似度に基づいて認識損失を決定し、目標領域及びラベル付き領域並びに公式(3)によって位置損失を決定する。さらに、公式(4)で総合ネットワーク損失を決定でき、総合ネットワーク損失に基づいて検出ネットワークのネットワークパラメータを調整し、総合ネットワーク損失がトレーニング条件を満たす場合、トレーニングを完成させ、トレーニング後の検出ネットワークを用いて検出対象画像内の目標オブジェクトを検出する。
可能な一実現形態では、均衡化サブネットワークを用いて検出対象画像に対して特徴均衡化処理を行い、取得した均衡化特徴マップを検出ネットワークの検出サブネットワークに入力して、目標オブジェクトの位置情報を取得することができる。
例示的には、前記検出ネットワークは、自動運転に使用されて目標検出を行い、例えば、障害物、信号灯、交通標識などを検出することができ、車両運転の制御に根拠を提供できる。例示的には、前記検出ネットワークは、セキュリティ監視に使用され、監視ビデオ内の目標人物を検出することができる。例示的には、前記検出ネットワークは、リモートセンシング画像或いはナビゲーションビデオ内の目標オブジェクトなどの検出に使用されてもよいが、本開示では、検出ネットワークの適用分野が限定されない。
図5は、本開示の実施例による画像処理装置のブロック図を示す。図5に示すように、前記装置は、
均衡化サブネットワークと検出サブネットワークとを含む検出ネットワークの前記均衡化サブネットワークによりサンプル画像に対して特徴均衡化処理を行い、前記サンプル画像の均衡化特徴画像を取得するために用いられる均衡化モジュール11と、検出サブネットワークにより前記均衡化特徴画像に対して目標検出処理を行い、前記均衡化特徴画像内の目標オブジェクトの複数の予測領域を取得するための検出モジュール12と、前記複数の予測領域のそれぞれの、前記サンプル画像において目標オブジェクトの予測領域と対応のラベル付き領域との共通領域と和集合領域との面積比であるIoUをそれぞれ決定するために用いられる決定モジュール13と、各前記予測領域のIoUに基づいて、複数の予測領域をサンプリングして、目標領域を取得するために用いられるサンプリングモジュール14と、前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークをトレーニングするために用いられるトレーニングモジュール15と、を含む。
可能な一実現形態では、前記サンプリングモジュールは、さらに、各前記予測領域のIoUに基づいて、前記複数の予測領域に対して分類処理を行い、複数の種別の予測領域を取得し、前記種別ごとに予測領域のサンプリング処理をそれぞれ行い、前記目標領域を取得するように構成される。
可能な一実現形態では、前記均衡化モジュールは、さらに、サンプル画像に対して特徴抽出処理を行い、複数の第1特徴マップを取得し、前記複数の第1特徴マップのうち少なくとも1つの第1特徴マップの解像度は他の第1特徴マップの解像度と異なり、前記複数の第1特徴マップに対して均衡化処理を行い、第2特徴マップを取得し、前記第2特徴マップ及び前記複数の第1特徴マップに基づいて、複数の均衡化特徴画像を取得するように構成される。
可能な一実現形態では、前記均衡化モジュールは、さらに、前記複数の第1特徴マップのそれぞれに対して拡大縮小処理を行い、予め設定された解像度の複数の第3特徴マップを取得し、前記複数の第3特徴マップに対して平均化処理を行い、第4特徴マップを取得し、前記第4特徴マップに対して特徴抽出処理を行い、前記第2特徴マップを取得するように構成される。
可能な一実現形態では、前記均衡化モジュールは、さらに、前記第2特徴マップに対して拡大縮小処理を行い、各前記第1特徴マップに対応する特徴マップであって、対応の前記第1特徴マップと解像度が同じである第5特徴マップをそれぞれ取得し、各前記第1特徴マップと対応の第5特徴マップとをそれぞれスキップ接続して、前記均衡化特徴画像を取得するように構成される。
可能な一実現形態では、前記トレーニングモジュールは、さらに、前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークの認識損失と位置損失とを決定し、前記認識損失及び前記位置損失に基づいて前記検出ネットワークのネットワークパラメータを調整し、トレーニング条件が満たされる場合、トレーニング後の検出ネットワークを取得するように構成される。
可能な一実現形態では、前記トレーニングモジュールは、さらに、前記目標領域と前記ラベル付き領域との間の位置誤差を決定し、前記位置誤差が予め設定された閾値未満である場合、前記位置誤差に基づいて前記位置損失を決定するように構成される。
可能な一実現形態では、前記トレーニングモジュールは、さらに、前記目標領域と前記ラベル付き領域との間の位置誤差を決定し、前記位置誤差が予め設定された閾値以上である場合、予め設定された値に基づいて前記位置損失を決定するように構成される。
可能な一実現形態では、本開示の実施例によれば、前記画像処理装置によってトレーニングした検出ネットワークに検出対象画像を入力して処理し、目標オブジェクトの位置情報を取得するために用いられる取得モジュールを含む画像処理装置をさらに提供する。
本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて実施例を形成することができることが理解すべきである。紙数に限りがあるので、本開示では詳細な説明を省略する。
なお、本開示では、画像処理装置、電子機器、コンピュータ読み取り可能記憶媒体、プログラムがさらに提供される。これらはいずれも本開示に係る画像処理方法のいずれか1つを実現するために利用でき。対応する技術的解決手段と説明は、方法の対応する記載を参照すればよく、詳細な説明を省略する。
当業者であれば、具体的な実施形態に係る上記の方法では、各ステップの記載順序は、実行順序を厳密に限定して実施の過程を限定するものではなく、各ステップの実行順序がその機能と内部の論理によって具体的に決定されることが理解すべきである。
いくつかの実施例では、本開示の実施例に係る装置が備える機能又はモジュールは、上述した方法の実施例に説明される方法を実行するために利用でき、その具体的な実現について、上述した方法の実施例の説明を参照すればよく、簡素化のために、ここで詳細な説明を省略する。
本開示の実施例では、コンピュータプログラム命令が記憶されているコンピュータ読み取り可能記憶媒体であって、前記コンピュータプログラム命令は、プロセッサにより実行されると、上記方法を実現させるコンピュータ読み取り可能記憶媒体がさらに提供される。コンピュータ読み取り可能記憶媒体は不揮発性のコンピュータ読み取り可能記憶媒体であってもよい。
本開示の実施例では、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、上記方法を実行するように構成される電子機器がさらに提供される。
電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。
図5は、一例示的な実施例に示す電子機器800のブロック図である。例えば、電子機器800は、携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレット型機器、医療機器、フィットネス機器、パーソナル・デジタル・アシスタントなどの端末であってもよい。
図5を参照すると、電子機器800は、処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)のインタフェース812、センサコンポーネント814、および通信コンポーネント816のうちの一つ以上を含んでもよい。
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント802は、上記方法の全てまたは一部のステップを実行するために、命令を実行する一つ以上のプロセッサ820を含んでもよい。また、処理コンポーネント802は、他のコンポーネントとのインタラクションのための一つ以上のモジュールを含んでもよい。例えば、処理コンポーネント802は、マルチメディアコンポーネント808とのインタラクションのために、マルチメディアモジュールを含んでもよい。
メモリ804は電子機器800での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器800において操作するあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、例えば静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または不揮発性記憶装置またはそれらの組み合わせによって実現できる。
電源コンポーネント806は電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は電源管理システム、一つ以上の電源、および電子機器800のための電力生成、管理および配分に関連する他のコンポーネントを含んでもよい。
マルチメディアコンポーネント808は前記電子機器800とユーザとの間で出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ(LCD)およびタッチパネル(TP)を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するタッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャーを検知するように、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出するようにしてもよい。いくつかの実施例では、マルチメディアコンポーネント808は前面カメラおよび/または背面カメラを含む。電子機器800が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび/または背面カメラは外部のマルチメディアデータを受信するようにしてもよい。各前面カメラおよび背面カメラは、固定された光学レンズ系、または焦点距離および光学ズーム能力を有するものであってもよい。
オーディオコンポーネント810はオーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、一つのマイク(MIC)を含み、マイク(MIC)は、電子機器800が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ804に記憶されるか、または通信コンポーネント816を介して送信されてもよい。いくつかの実施例では、オーディオコンポーネント810はさらに、オーディオ信号を出力するためのスピーカーを含む。
I/Oインタフェース812は処理コンポーネント802と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含んでもよいが、これらに限定されない。
センサコンポーネント814は電子機器800の各方面の状態評価のために一つ以上のセンサを含む。例えば、センサコンポーネント814は電子機器800のオン/オフ状態、例えば電子機器800の表示装置およびキーパッドのようなコンポーネントの相対的位置決めを検出でき、センサコンポーネント814はさらに、電子機器800または電子機器800のあるコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速および電子機器800の温度変化を検出できる。センサコンポーネント814は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成される近接センサを含んでもよい。センサコンポーネント814はさらに、CMOSまたはCCDイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサコンポーネント814はさらに、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。
通信コンポーネント816は電子機器800と他の機器との有線または無線通信を実現するように構成される。電子機器800は通信規格に基づく無線ネットワーク、例えばWiFi、2Gまたは3G、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント816は放送チャネルを介して外部の放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント816はさらに、近距離通信を促進させるために、近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標/BT)技術および他の技術によって実現できる。
例示的な実施例では、電子機器800は一つ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタルシグナルプロセッサ(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現され、上記方法を実行するために用いられることができる。
例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ804が提供され、上記コンピュータプログラム命令は、電子機器800のプロセッサ820によって実行されと、上記方法を実行させることができる。
本開示の実施例では、コンピュータ読み取り可能コードを含むコンピュータプログラム製品であって、コンピュータ読み取り可能コードは、機器において実行されると、機器のプロセッサに上記の実施例のいずれか1つで提供された方法を実現するための命令を実行させるコンピュータプログラム製品がさらに提供される。
当該コンピュータプログラム製品は、ハードウェア、ソフトウェア又はその組み合わせによって具体的に実現される。選択可能な一実施例において、前記コンピュータプログラム製品はコンピュータ記憶媒体として具現化され、他の選択可能な一実施例において、コンピュータプログラム製品は、例えばソフトウェア開発キット(Software Development Kit、SDK)などのようなソフトウェア製品として具現化される。
図6は、例示的な一実施例の電子機器1900のブロック図を示す。例えば、電子機器1900はサーバとして提供されてもよい。図6を参照すると、電子機器1900は、一つ以上のプロセッサを含む処理コンポーネント1922、および、処理コンポーネント1922によって実行可能な命令例えばアプリケーションプログラムを記憶するための、メモリ1932を代表とするメモリ資源を含む。メモリ1932に記憶されているアプリケーションプログラムは、それぞれが1つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント1922は命令を実行することによって上記方法を実行するように構成される。
電子機器1900はさらに、電子機器1900の電源管理を実行するように構成される電源コンポーネント1926、電子機器1900をネットワークに接続するように構成される有線または無線ネットワークインタフェース1950、および入出力(I/O)インタフェース1958を含んでもよい。電子機器1900はメモリ1932に記憶されているオペレーティングシステム、例えばWindows(登録商標) ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似するものに基づいて動作できる。
例示的な実施例では、さらに、不揮発性コンピュータ可読記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932が提供され、上記コンピュータプログラム命令は、電子機器1900の処理コンポーネント1922によって実行されと、上記方法を実行させることができる。
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各方面を実現させるためのコンピュータ可読プログラム命令が有しているコンピュータ可読記憶媒体を含んでもよい。
コンピュータ可読記憶媒体は、命令実行機器に使用される命令を保存および記憶可能な有形装置であってもよい。コンピュータ可読記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置、または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のさらに具体的な例(非網羅的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内突起構造のような機械的符号化装置、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ可読記憶媒体は、瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
ここで記述したコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークを介して外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含んでもよい。各計算/処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各計算/処理機器内のコンピュータ可読記憶媒体に記憶させる。
本開示の動作を実行するためのコンピュータプログラム命令はアセンブリ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含める一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズし、該電子回路によりコンピュータ可読プログラム命令を実行することにより、本開示の各方面を実現するようにしてもよい。
ここで本開示の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本開示の各態様を説明したが、フローチャートおよび/またはブロック図の各ブロックおよびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供され、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現ように、装置を製造してもよい。これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブルデータ処理装置および/または他の機器を特定の方式で動作させるようにしてもよい。これにより、命令が記憶されているコンピュータ可読記憶媒体は、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作の各方面を実現する命令を有する製品を含む。
コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードされ、コンピュータ、他のプログラマブルデータ処理装置または他の機器に一連の動作ステップを実行させることにより、コンピュータにより実施なプロセスを生成するようにしてもよい。このようにして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令により、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する。
図面のうちフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は、図面に付した順序と異なって実現してもよい。例えば、連続的な二つのブロックは実質的に並列に実行してもよく、また、係る機能によって、逆な順序で実行してもよい。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または既存技術に対する改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。
本開示は、2019年2月1日に中国国家知識産権局に提出された、出願番号が201910103611.1で、発明の名称が「画像処理方法及び装置、電子機器、並びに記憶媒体」である中国特許出願の優先権を主張し、その内容の全ては援用することによって本開示に組み込まれる。

Claims (21)

  1. 均衡化サブネットワークと検出サブネットワークとを含む検出ネットワークの前記均衡化サブネットワークによりサンプル画像に対して特徴均衡化処理を行い、前記サンプル画像の均衡化特徴画像を取得することと、
    前記検出サブネットワークにより前記均衡化特徴画像に対して目標検出処理を行い、前記均衡化特徴画像内の目標オブジェクトの複数の予測領域を取得することと、
    前記複数の予測領域のそれぞれの、前記サンプル画像において目標オブジェクトの予測領域と対応のラベル付き領域との共通領域と和集合領域との面積比であるIoUを決定することと、
    各前記予測領域のIoUに基づいて、前記複数の予測領域をサンプリングして、目標領域を取得することと、
    前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークをトレーニングすることと、を含むことを特徴とする画像処理方法。
  2. 各前記予測領域のIoUに基づいて、複数の予測領域をサンプリングして、目標領域を取得することは、
    各前記予測領域のIoUに基づいて、前記複数の予測領域に対して分類処理を行い、複数の種別の予測領域を取得することと、
    各種別ごとに前記予測領域のサンプリング処理をそれぞれ行い、前記目標領域を取得することと、を含むことを特徴とする請求項1に記載の方法。
  3. 検出ネットワークの均衡化サブネットワークによりサンプル画像に対して特徴均衡化処理を行い、均衡化特徴画像を取得することは、
    サンプル画像に対して特徴抽出処理を行い、複数の第1特徴マップを取得し、前記複数の第1特徴マップのうち少なくとも1つの第1特徴マップの解像度は他の第1特徴マップの解像度と異なることと、
    前記複数の第1特徴マップに対して均衡化処理を行い、第2特徴マップを取得することと、
    前記第2特徴マップ及び前記複数の第1特徴マップに基づいて、複数の均衡化特徴画像を取得することと、を含むことを特徴とする請求項1に記載の方法。
  4. 前記複数の第1特徴マップに対して均衡化処理を行い、第2特徴マップを取得することは、
    前記複数の第1特徴マップのそれぞれに対して拡大縮小処理を行い、予め設定された解像度の複数の第3特徴マップを取得することと、
    前記複数の第3特徴マップに対して平均化処理を行い、第4特徴マップを取得することと、
    前記第4特徴マップに対して特徴抽出処理を行い、前記第2特徴マップを取得することと、を含むことを特徴とする請求項3に記載の方法。
  5. 前記第2特徴マップ及び前記複数の第1特徴マップに基づいて、複数の均衡化特徴画像を取得することは、
    前記第2特徴マップに対して拡大縮小処理を行い、各前記第1特徴マップに対応する特徴マップであって、対応の前記第1特徴マップと解像度が同じである第5特徴マップをそれぞれ取得することと、
    各前記第1特徴マップと対応の前記第5特徴マップとをそれぞれスキップ接続して、前記均衡化特徴画像を取得することと、を含むことを特徴とする請求項3又は請求項4に記載の方法。
  6. 前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークをトレーニングすることは、
    前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークの認識損失と位置損失とを決定することと、
    前記認識損失及び前記位置損失に基づいて前記検出ネットワークのネットワークパラメータを調整することと、
    トレーニング条件が満たされる場合、トレーニング後の検出ネットワークを取得することと、を含むことを特徴とする請求項1に記載の方法。
  7. 前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークの認識損失と位置損失とを決定することは、
    前記目標領域と前記ラベル付き領域との間の位置誤差を決定することと、
    前記位置誤差が予め設定された閾値未満である場合、前記位置誤差に基づいて前記位置損失を決定することと、を含むことを特徴とする請求項6に記載の方法。
  8. 前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークの認識損失と位置損失とを決定することは、
    前記目標領域と前記ラベル付き領域との間の位置誤差を決定することと、
    前記位置誤差が予め設定された閾値以上である場合、予め設定された値に基づいて前記位置損失を決定することと、を含むことを特徴とする請求項6又は請求項7に記載の方法。
  9. 請求項1〜8のいずれか1項に記載の方法によってトレーニングした検出ネットワークに検出対象画像を入力して処理し、目標オブジェクトの位置情報を取得することを含むことを特徴とする画像処理方法。
  10. 均衡化サブネットワークと検出サブネットワークとを含む検出ネットワークの前記均衡化サブネットワークによりサンプル画像に対して特徴均衡化処理を行い、前記サンプル画像の均衡化特徴画像を取得するために用いられる均衡化モジュールと、
    検出サブネットワークにより前記均衡化特徴画像に対して目標検出処理を行い、前記均衡化特徴画像内の目標オブジェクトの複数の予測領域を取得するために用いられる検出モジュールと、
    前記複数の予測領域のそれぞれの、前記サンプル画像において目標オブジェクトの予測領域と対応のラベル付き領域との共通領域と和集合領域との面積比であるIoUをそれぞれ決定するために用いられる決定モジュールと、
    各前記予測領域のIoUに基づいて、複数の予測領域をサンプリングして、目標領域を取得するために用いられるサンプリングモジュールと、
    前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークをトレーニングするために用いられるトレーニングモジュールと、を含むことを特徴とする画像処理装置。
  11. 前記サンプリングモジュールは、さらに、
    各前記予測領域のIoUに基づいて、前記複数の予測領域に対して分類処理を行い、複数の種別の予測領域を取得し、
    各種別ごとに前記予測領域のサンプリング処理をそれぞれ行い、前記目標領域を取得するように構成されることを特徴とする請求項10に記載の方法。
  12. 前記均衡化モジュールは、さらに、
    サンプル画像に対して特徴抽出処理を行い、複数の第1特徴マップを取得し、前記複数の第1特徴マップのうち少なくとも1つの第1特徴マップの解像度は他の第1特徴マップの解像度と異なり、
    前記複数の第1特徴マップに対して均衡化処理を行い、第2特徴マップを取得し、
    前記第2特徴マップ及び前記複数の第1特徴マップに基づいて、複数の均衡化特徴画像を取得するように構成されることを特徴とする請求項10に記載の方法。
  13. 前記均衡化モジュールは、さらに、
    前記複数の第1特徴マップのそれぞれに対して拡大縮小処理を行い、予め設定された解像度の複数の第3特徴マップを取得し、
    前記複数の第3特徴マップに対して平均化処理を行い、第4特徴マップを取得し、
    前記第4特徴マップに対して特徴抽出処理を行い、前記第2特徴マップを取得するように構成されることを特徴とする請求項12に記載の方法。
  14. 前記均衡化モジュールは、さらに、
    前記第2特徴マップに対して拡大縮小処理を行い、各前記第1特徴マップに対応する特徴マップであって、対応の前記第1特徴マップと解像度が同じである第5特徴マップをそれぞれ取得し、
    各前記第1特徴マップと対応の前記第5特徴マップとをそれぞれスキップ接続して、前記均衡化特徴画像を取得するように構成されることを特徴とする請求項12又は請求項13に記載の方法。
  15. 前記トレーニングモジュールは、さらに、
    前記目標領域及び前記ラベル付き領域に基づいて、前記検出ネットワークの認識損失と位置損失とを決定し、
    前記認識損失及び前記位置損失に基づいて前記検出ネットワークのネットワークパラメータを調整し、
    トレーニング条件が満たされる場合、トレーニング後の検出ネットワークを取得するように構成されることを特徴とする請求項10に記載の方法。
  16. 前記トレーニングモジュールは、さらに、
    前記目標領域と前記ラベル付き領域との間の位置誤差を決定し、
    前記位置誤差が予め設定された閾値未満である場合、前記位置誤差に基づいて前記位置損失を決定するように構成されることを特徴とする請求項15に記載の方法。
  17. 前記トレーニングモジュールは、さらに、
    前記目標領域と前記ラベル付き領域との間の位置誤差を決定し、
    前記位置誤差が予め設定された閾値以上である場合、予め設定された値に基づいて前記位置損失を決定するように構成されることを特徴とする請求項15又は請求項16に記載の方法。
  18. 請求項10〜17のいずれか1項に記載の装置によってトレーニングした検出ネットワークに検出対象画像を入力して処理し、目標オブジェクトの位置情報を取得するために用いられる取得モジュールを含むことを特徴とする画像処理装置。
  19. プロセッサと、
    プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、
    前記プロセッサは、請求項1から請求項9のいずれか1項に記載の方法を実行するように構成されることを特徴とする電子機器。
  20. コンピュータプログラム命令が記憶されているコンピュータ読み取り可能記憶媒体であって、前記コンピュータプログラム命令は、プロセッサにより実行されると、請求項1から請求項9のいずれか1項に記載の方法を実現させることを特徴とするコンピュータ読み取り可能記憶媒体。
  21. コンピュータ読み取り可能コードを含み、前記コンピュータ読み取り可能コードは、電子機器において実行されると、前記電子機器のプロセッサに請求項1から請求項9のいずれか1項に記載の方法を実現するための命令を実行させるコンピュータプログラム。
JP2021516440A 2019-02-01 2019-11-28 画像処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム Pending JP2022500791A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910103611.1A CN109829501B (zh) 2019-02-01 2019-02-01 图像处理方法及装置、电子设备和存储介质
CN201910103611.1 2019-02-01
PCT/CN2019/121696 WO2020155828A1 (zh) 2019-02-01 2019-11-28 图像处理方法及装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
JP2022500791A true JP2022500791A (ja) 2022-01-04

Family

ID=66863324

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021516440A Pending JP2022500791A (ja) 2019-02-01 2019-11-28 画像処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム

Country Status (6)

Country Link
US (1) US20210209392A1 (ja)
JP (1) JP2022500791A (ja)
CN (1) CN109829501B (ja)
SG (1) SG11202102977SA (ja)
TW (1) TWI728621B (ja)
WO (1) WO2020155828A1 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829501B (zh) * 2019-02-01 2021-02-19 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN110298413B (zh) * 2019-07-08 2021-07-16 北京字节跳动网络技术有限公司 图像特征提取方法、装置、存储介质及电子设备
CN110659600B (zh) * 2019-09-19 2022-04-29 北京百度网讯科技有限公司 物体检测方法、装置及设备
CN111178346B (zh) * 2019-11-22 2023-12-08 京东科技控股股份有限公司 文字区域的定位方法、装置、设备及存储介质
US11842509B2 (en) * 2019-12-24 2023-12-12 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and storage medium
CN111104920B (zh) * 2019-12-27 2023-12-01 深圳市商汤科技有限公司 视频处理方法及装置、电子设备和存储介质
SG10201913754XA (en) * 2019-12-30 2020-12-30 Sensetime Int Pte Ltd Image processing method and apparatus, electronic device, and storage medium
CN111310764B (zh) * 2020-01-20 2024-03-26 上海商汤智能科技有限公司 网络训练、图像处理方法及装置、电子设备和存储介质
CN113781665A (zh) * 2020-07-28 2021-12-10 北京沃东天骏信息技术有限公司 一种标注信息的审核方法和装置
CN112016443B (zh) * 2020-08-26 2022-04-26 深圳市商汤科技有限公司 同行识别方法及装置、电子设备和存储介质
CN111950570B (zh) * 2020-08-26 2023-11-21 Oppo广东移动通信有限公司 目标图像提取方法、神经网络训练方法及装置
CN111768408B (zh) * 2020-09-01 2020-11-27 安翰科技(武汉)股份有限公司 胃肠标记物自动识别方法及识别系统
CN112184635A (zh) * 2020-09-10 2021-01-05 上海商汤智能科技有限公司 目标检测方法、装置、存储介质及设备
TWI761948B (zh) * 2020-09-14 2022-04-21 倍利科技股份有限公司 由檢測影像取得輪廓的定位方法
CN112183627A (zh) * 2020-09-28 2021-01-05 中星技术股份有限公司 生成预测密度图网络的方法和车辆年检标数量检测方法
CN112308046A (zh) * 2020-12-02 2021-02-02 龙马智芯(珠海横琴)科技有限公司 图像的文本区域定位方法、装置、服务器及可读存储介质
CN112801116B (zh) * 2021-01-27 2024-05-21 商汤集团有限公司 图像的特征提取方法及装置、电子设备和存储介质
CN112906502B (zh) * 2021-01-29 2023-08-01 北京百度网讯科技有限公司 目标检测模型的训练方法、装置、设备以及存储介质
CN113011435A (zh) * 2021-02-04 2021-06-22 精英数智科技股份有限公司 目标对象的图像处理方法、装置及电子设备
CN112818932A (zh) * 2021-02-26 2021-05-18 北京车和家信息技术有限公司 图像处理方法、障碍物检测方法、装置、介质及车辆
CN113486957A (zh) * 2021-07-07 2021-10-08 西安商汤智能科技有限公司 神经网络训练和图像处理方法及装置
CN113506325B (zh) * 2021-07-15 2024-04-12 清华大学 图像处理方法及装置、电子设备和存储介质
CN113674218A (zh) * 2021-07-28 2021-11-19 中国科学院自动化研究所 焊缝特征点提取方法、装置、电子设备与存储介质
CN113469302A (zh) * 2021-09-06 2021-10-01 南昌工学院 一种视频图像的多圆形目标识别方法和系统
CN113762393B (zh) * 2021-09-08 2024-04-30 杭州网易智企科技有限公司 模型训练方法、注视点检测方法、介质、装置和计算设备
CN113902898A (zh) * 2021-09-29 2022-01-07 北京百度网讯科技有限公司 目标检测模型的训练、目标检测方法、装置、设备和介质
CN114463860B (zh) * 2021-12-14 2023-05-23 浙江大华技术股份有限公司 检测模型的训练方法、活体检测方法及相关装置
CN115359308B (zh) * 2022-04-06 2024-02-13 北京百度网讯科技有限公司 模型训练、难例识别方法、装置、设备、存储介质及程序
CN115359058B (zh) * 2022-10-20 2023-04-07 江苏时代新能源科技有限公司 电池隔膜的翻折检测方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017520864A (ja) * 2014-04-09 2017-07-27 エントルピー インコーポレーテッドEntrupy Inc. 微視的差異からの機械学習を使用する物体の真贋鑑定
US20180096457A1 (en) * 2016-09-08 2018-04-05 Carnegie Mellon University Methods and Software For Detecting Objects in Images Using a Multiscale Fast Region-Based Convolutional Neural Network
JP2018534694A (ja) * 2015-11-04 2018-11-22 エヌイーシー ラボラトリーズ アメリカ インクNEC Laboratories America, Inc. 物体検出のためのサブカテゴリ認識機能付き畳み込みニューラルネットワーク
JP2019500110A (ja) * 2015-12-18 2019-01-10 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア 頭部コンピュータ断層撮影における緊急性の特徴の解釈及び定量化

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106164982B (zh) * 2014-04-25 2019-05-03 谷歌技术控股有限责任公司 基于影像的电子设备定位
US9836839B2 (en) * 2015-05-28 2017-12-05 Tokitae Llc Image analysis systems and related methods
CN105654067A (zh) * 2016-02-02 2016-06-08 北京格灵深瞳信息技术有限公司 一种车辆检测方法及装置
US10325351B2 (en) * 2016-03-11 2019-06-18 Qualcomm Technologies, Inc. Systems and methods for normalizing an image
US9787894B1 (en) * 2016-03-30 2017-10-10 Motorola Mobility Llc Automatic white balance using histograms from subsampled image
CN106529565B (zh) * 2016-09-23 2019-09-13 北京市商汤科技开发有限公司 目标识别模型训练和目标识别方法及装置、计算设备
CN106874894B (zh) * 2017-03-28 2020-04-14 电子科技大学 一种基于区域全卷积神经网络的人体目标检测方法
CN107169421B (zh) * 2017-04-20 2020-04-28 华南理工大学 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法
CN107609525B (zh) * 2017-09-19 2020-05-22 吉林大学 基于剪枝策略构建卷积神经网络的遥感图像目标检测方法
CN108062754B (zh) * 2018-01-19 2020-08-25 深圳大学 基于密集网络图像的分割、识别方法和装置
US20190251627A1 (en) * 2018-02-11 2019-08-15 Loopring Project Ltd Methods and systems for digital asset transaction
CN108764164B (zh) * 2018-05-30 2020-12-08 华中科技大学 一种基于可变形卷积网络的人脸检测方法及系统
CN108764202B (zh) * 2018-06-06 2023-04-18 平安科技(深圳)有限公司 机场异物识别方法、装置、计算机设备及存储介质
CN109829501B (zh) * 2019-02-01 2021-02-19 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017520864A (ja) * 2014-04-09 2017-07-27 エントルピー インコーポレーテッドEntrupy Inc. 微視的差異からの機械学習を使用する物体の真贋鑑定
JP2018534694A (ja) * 2015-11-04 2018-11-22 エヌイーシー ラボラトリーズ アメリカ インクNEC Laboratories America, Inc. 物体検出のためのサブカテゴリ認識機能付き畳み込みニューラルネットワーク
JP2019500110A (ja) * 2015-12-18 2019-01-10 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア 頭部コンピュータ断層撮影における緊急性の特徴の解釈及び定量化
US20180096457A1 (en) * 2016-09-08 2018-04-05 Carnegie Mellon University Methods and Software For Detecting Objects in Images Using a Multiscale Fast Region-Based Convolutional Neural Network

Also Published As

Publication number Publication date
TWI728621B (zh) 2021-05-21
US20210209392A1 (en) 2021-07-08
TW202030694A (zh) 2020-08-16
SG11202102977SA (en) 2021-04-29
CN109829501A (zh) 2019-05-31
WO2020155828A1 (zh) 2020-08-06
CN109829501B (zh) 2021-02-19

Similar Documents

Publication Publication Date Title
JP2022500791A (ja) 画像処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム
KR102593020B1 (ko) 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체
KR102421820B1 (ko) 키포인트 검출 방법, 장치, 전자 기기 및 기억 매체
US11301726B2 (en) Anchor determination method and apparatus, electronic device, and storage medium
CN110378976B (zh) 图像处理方法及装置、电子设备和存储介质
WO2021051650A1 (zh) 人脸和人手关联检测方法及装置、电子设备和存储介质
JP2022522596A (ja) 画像識別方法及び装置、電子機器並びに記憶媒体
CN110009090B (zh) 神经网络训练与图像处理方法及装置
KR20210102180A (ko) 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체
JP2021517649A (ja) 位置姿勢推定方法、装置、電子機器及び記憶媒体
CN108010060B (zh) 目标检测方法及装置
JP2022522551A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
JP2022506637A (ja) 画像処理方法および装置、ネットワークトレーニング方法および装置
KR20220062107A (ko) 광 강도 조절 방법, 장치, 전자 기기 및 기억 매체
JP2022515274A (ja) 検出器の配置方法、検出器の配置装置及び非一時的コンピュータ可読記憶媒体
CN113841179A (zh) 图像生成方法及装置、电子设备及存储介质
CN111523599B (zh) 目标检测方法及装置、电子设备和存储介质
JP2022524254A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
WO2022141969A1 (zh) 图像分割方法及装置、电子设备、存储介质和程序
CN113283343A (zh) 人群定位方法及装置、电子设备和存储介质
KR20210113617A (ko) 네트워크 트레이닝 방법 및 장치, 이미지 처리 방법 및 장치
CN111008606B (zh) 图像预测方法及装置、电子设备和存储介质
CN113435390A (zh) 人群定位方法及装置、电子设备和存储介质
CN112200201A (zh) 一种目标检测方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210322

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220819

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221011