JP2022515274A - 検出器の配置方法、検出器の配置装置及び非一時的コンピュータ可読記憶媒体 - Google Patents

検出器の配置方法、検出器の配置装置及び非一時的コンピュータ可読記憶媒体 Download PDF

Info

Publication number
JP2022515274A
JP2022515274A JP2021537166A JP2021537166A JP2022515274A JP 2022515274 A JP2022515274 A JP 2022515274A JP 2021537166 A JP2021537166 A JP 2021537166A JP 2021537166 A JP2021537166 A JP 2021537166A JP 2022515274 A JP2022515274 A JP 2022515274A
Authority
JP
Japan
Prior art keywords
convolution operation
expansion rate
convolution
detector
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021537166A
Other languages
English (en)
Inventor
君然 彭
明 孫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Publication of JP2022515274A publication Critical patent/JP2022515274A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Image Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本開示は、検出器の配置方法及び装置、電子機器並びに記憶媒体に関する。前記方法は、検出器において拡張畳み込みを行う畳み込み操作の固定拡張率を決定することと、前記検出器において拡張畳み込みを行う畳み込み操作のいずれかについて、前記畳み込み操作の固定拡張率が分解条件を満たす場合に、前記畳み込み操作を、第1のサブ畳み込み操作と第2のサブ畳み込み操作とに分解し、前記畳み込み操作の固定拡張率に対応する上限拡張率と下限拡張率を決定し、前記上限拡張率を前記第1のサブ畳み込み操作の拡張率とし、前記下限拡張率を前記第2のサブ畳み込み操作の拡張率とすることと、前記第1のサブ畳み込み操作に対応する出力チャネル数及び前記第2のサブ畳み込み操作に対応する出力チャネル数を決定することとを含む。本開示の実施例において配置してなる検出器は、対象物検出に必要な時間を減少できるので、リアルタイムシーンに適用可能である。【選択図】図1

Description

本開示はコンピュータ視覚分野に関し、特に検出器の配置方法及び装置、対象物検出方法及び装置、電子機器並びに記憶媒体に関する。
対象物検出は、コンピュータ視覚において非常に重要で、基礎となる技術であり、画像から対象の位置及び類別を検出することを目的とする。対象物検出技術は、例えば自動運転中における歩行者と車両検出、スマートホームにおける生体検出、セキュリティ監視における歩行者検出など多くの分野において重要な役割を果たしている。顔認識、身元認識、対象追跡などのタスクでは、対象をロックしたり初期フレームを提供したりするために、対象物検出も必須不可欠なものである。実際の使用シーンでは、対象のスケールはさまざまで、サイズもさまざまである。
本開示は、対象物検出技術を提供する。
本開示の一側面では、検出器において拡張畳み込みを行う畳み込み操作の固定拡張率を決定することと、前記検出器において拡張畳み込みを行う畳み込み操作のいずれかについて、前記畳み込み操作の固定拡張率が分解条件を満たす場合に、前記畳み込み操作を、第1のサブ畳み込み操作と第2のサブ畳み込み操作とに分解し、前記畳み込み操作の固定拡張率に対応する上限拡張率と下限拡張率を決定し、前記上限拡張率を前記第1のサブ畳み込み操作の拡張率とし、前記下限拡張率を前記第2のサブ畳み込み操作の拡張率とすることと、前記畳み込み操作の出力チャネル数及び前記畳み込み操作の固定拡張率に基づいて、前記第1のサブ畳み込み操作に対応する出力チャネル数及び前記第2のサブ畳み込み操作に対応する出力チャネル数を決定することと、を含む検出器の配置方法を提供する。
本開示の実施例において、前記畳み込み操作の固定拡張率が分解条件を満たす場合に、前記畳み込み操作を、第1のサブ畳み込み操作と第2のサブ畳み込み操作とに分解し、例えば前記畳み込み操作の固定拡張率が小数である場合に、前記畳み込み操作を、拡張率が整数の第1のサブ畳み込み操作と第2のサブ畳み込み操作とに分解することによって、畳み込み演算の過程においてバイリニア補間操作を減少させることができ、演算速度を高めることができる。
1つの可能な実施形態では、前記検出器は、本体ネットワークを含み、前記検出器において拡張畳み込みを行う畳み込み操作は、前記検出器の前記本体ネットワークにおける、元の畳み込み カーネル寸法が指定寸法である1つ以上の畳み込み操作を含む。
1つの可能な実施形態では、前記検出器は、拡張率学習器をさらに備え、検出器において拡張畳み込みを行う畳み込み操作の固定拡張率を決定することは、前記拡張率学習器により複数のトレーニング画像に対する前記畳み込み操作の第1の拡張率を取得することと、前記第1の拡張率に基づいて前記畳み込み操作の固定拡張率を決定することと、を含む。
この実施形態では、前記畳み込み操作に基づいて、複数のトレーニング画像の第1の拡張率について前記畳み込み操作の固定拡張率を決定するので、このように決定した固定拡張率の精度が高く、検出器による対象物検出の精度を確保することができる。
1つの可能な実施形態では、前記拡張率学習器は、グローバル平均プーリング層と全結合層とを備える。
1つの可能な実施形態では、前記拡張率学習器により複数のトレーニング画像に対する前記畳み込み操作の第1の拡張率を取得することは、前記複数のトレーニング画像のうちいずれかについて、前記拡張率学習器により前記トレーニング画像に対する前記畳み込み操作の第2の拡張率を取得することと、前記第2の拡張率に基づいて前記トレーニング画像に対応する対象物検出結果を取得することと、前記トレーニング画像に対応する対象物検出結果に基づいて前記拡張率学習器のパラメータを更新することと、パラメータが更新された前記拡張率学習器により前記トレーニング画像に対する前記畳み込み操作の第1の拡張率を取得することと、を含む。
この実施形態では、拡張率学習器により複数回の学習を行うことによって、固定拡張率を決定するための第1の拡張率の精度を高めることができ、決定された固定拡張率の精度を高めることができ、これにより検出器による対象物検出の精度を確保することができる。
1つの可能な実施形態では、前記第1の拡張率に基づいて前記畳み込み操作の固定拡張率を決定することは、前記第1の拡張率の平均値を前記畳み込み操作の固定拡張率として決定することを含む。
1つの可能な実施形態では、前記畳み込み操作の固定拡張率が分解条件を満たすことは、前記畳み込み操作の固定拡張率が小数であることと、前記畳み込み操作の固定拡張率と、前記畳み込み操作の固定拡張率に最も近い整数との距離を表す、前記畳み込み操作の固定拡張率と整数との最小距離が第1の閾値よりも大きいこととのいずれかを含む。
この実施形態によれば、前記畳み込み操作の縦方向固定拡張率と横方向固定拡張率のうち一方と整数との最小距離が第1の閾値以下である場合、上記一方を分解する必要がないので、検出器配置の演算量を低減させることができる。
1つの可能な実施形態では、前記畳み込み操作の固定拡張率に対応する上限拡張率と下限拡張率を決定することは、前記畳み込み操作の固定拡張率よりも大きくかつ前記畳み込み操作の固定拡張率に最も近い整数を、前記畳み込み操作の固定拡張率に対応する上限拡張率として決定することと、前記畳み込み操作の固定拡張率よりも小さくかつ前記畳み込み操作の固定拡張率に最も近い整数を、前記畳み込み操作の固定拡張率に対応する下限拡張率として決定することと、を含む。
1つの可能な実施形態では、前記畳み込み操作の出力チャネル数及び前記畳み込み操作の固定拡張率に基づいて、前記第1のサブ畳み込み操作に対応する出力チャネル数及び前記第2のサブ畳み込み操作に対応する出力チャネル数を決定することは、前記畳み込み操作の固定拡張率と前記下限拡張率との差分に基づいて、前記畳み込み操作に対応する全体差分係数を決定することと、前記畳み込み操作の出力チャネル数と、前記畳み込み操作に対応する全体差分係数とに基づいて、前記第1のサブ畳み込み操作に対応する出力チャネル数及び前記第2のサブ畳み込み操作に対応する出力チャネル数を決定することと、を含む。
1つの可能な実施形態では、前記第1のサブ畳み込み操作に対応する出力チャネル数及び前記第2のサブ畳み込み操作に対応する出力チャネル数を決定した後、前記検出器のパラメータを最適化するために、トレーニング用対象物画像セットを用いて前記検出器をトレーニングすることをさらに含む。
本開示の一側面では、被検出画像を取得することと、前記検出器の配置方法でトレーニングされた前記検出器を用いて前記被検出画像に対して対象物検出を行い、前記被検出画像に対応する対象物検出結果を取得することと、を含む対象物検出方法を提供する。
本開示の一側面では、検出器において拡張畳み込みを行う畳み込み操作の固定拡張率を決定する第1の決定モジュールと、前記検出器において拡張畳み込みを行う畳み込み操作のいずれかについて、前記畳み込み操作の固定拡張率が分解条件を満たす場合に、前記畳み込み操作を、第1のサブ畳み込み操作と第2のサブ畳み込み操作とに分解し、前記畳み込み操作の固定拡張率に対応する上限拡張率と下限拡張率を決定し、前記上限拡張率を前記第1のサブ畳み込み操作の拡張率とし、前記下限拡張率を前記第2のサブ畳み込み操作の拡張率とする第2の決定モジュールと、前記畳み込み操作の出力チャネル数及び前記畳み込み操作の固定拡張率に基づいて、前記第1のサブ畳み込み操作に対応する出力チャネル数及び前記第2のサブ畳み込み操作に対応する出力チャネル数を決定する第3の決定モジュールと、を備える検出器の配置装置を提供する。
1つの可能な実施形態では、前記検出器は、本体ネットワークを含み、前記検出器において拡張畳み込みを行う畳み込み操作は、前記検出器の前記本体ネットワークにおける元の畳み込み カーネル寸法が指定寸法である1つ以上の畳み込み操作を含む。
1つの可能な実施形態では、前記検出器は、拡張率学習器をさらに備え、前記第1の決定モジュールは、前記拡張率学習器により複数のトレーニング画像に対する前記畳み込み操作の第1の拡張率を取得する第1の決定サブモジュールと、前記第1の拡張率に基づいて前記畳み込み操作の固定拡張率を決定する第2の決定サブモジュールと、を備える。
1つの可能な実施形態では、前記拡張率学習器は、グローバル平均プーリング層と全結合層とを備える。
1つの可能な実施形態では、前記第1の決定サブモジュールは、前記複数のトレーニング画像のうちいずれかについて、前記拡張率学習器により前記トレーニング画像に対する前記畳み込み操作の第2の拡張率を取得し、前記第2の拡張率に基づいて前記トレーニング画像に対応する対象物検出結果を取得し、前記トレーニング画像に対応する対象物検出結果に基づいて前記拡張率学習器のパラメータを更新し、パラメータが更新された前記拡張率学習器により前記トレーニング画像に対する前記畳み込み操作の第1の拡張率を取得する。
1つの可能な実施形態では、前記第2の決定サブモジュールは、前記第1の拡張率の平均値を前記畳み込み操作の固定拡張率として決定する。
1つの可能な実施形態では、前記畳み込み操作の固定拡張率が分解条件を満たすことは、前記畳み込み操作の固定拡張率が小数であることと、前記畳み込み操作の固定拡張率と、前記畳み込み操作の固定拡張率に最も近い整数との距離を表す、前記畳み込み操作の固定拡張率と整数との最小距離が第1の閾値よりも大きいこととのいずれかを含む。
1つの可能な実施形態では、前記第2の決定モジュールは、前記畳み込み操作の固定拡張率よりも大きくかつ前記畳み込み操作の固定拡張率に最も近い整数を、前記畳み込み操作の固定拡張率に対応する上限拡張率として決定する第3の決定サブモジュールと、前記畳み込み操作の固定拡張率よりも小さくかつ前記畳み込み操作の固定拡張率に最も近い整数を、前記畳み込み操作の固定拡張率に対応する下限拡張率として決定する第4の決定サブモジュールと、を備える。
1つの可能な実施形態では、前記第3の決定モジュールは、前記畳み込み操作の固定拡張率と前記下限拡張率との差分に基づいて、前記畳み込み操作に対応する全体差分係数を決定する第5の決定サブモジュールと、前記畳み込み操作の出力チャネル数と、前記畳み込み操作に対応する全体差分係数とに基づいて、前記第1のサブ畳み込み操作に対応する出力チャネル数及び前記第2のサブ畳み込み操作に対応する出力チャネル数を決定する第6の決定サブモジュールと、を備える。
1つの可能な実施形態では、前記検出器のパラメータを最適化するために、トレーニング用対象物画像セットを用いて前記検出器をトレーニングするトレーニングモジュールをさらに備える。
本開示の一側面では、被検出画像を取得する取得モジュールと、前記検出器の配置装置でトレーニングされた前記検出器を用いて前記被検出画像に対して対象物検出を行い、前記被検出画像に対応する対象物検出結果を取得する対象物検出モジュールと、を備える対象物検出装置を提供する。
本開示の一側面では、1つ以上のプロセッサと、前記1つ以上のプロセッサにより読み出され実行されると、前記検出器の配置方法を実行する実行可能な命令を記憶する、前記1つ以上のプロセッサに関連するメモリと、を備える電子機器を提供する。
本開示の一側面では、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令はプロセッサによって実行されると、前記検出器の配置方法を実現させるコンピュータ可読記憶媒体を提供する。
本開示の一側面では、コンピュータ読み取り可能なコードを含むコンピュータプログラムであって、前記コンピュータ読み取り可能なコードは電子機器において実行されると、前記電子機器のプロセッサに前記方法を実現するための命令を実行させるコンピュータプログラムを提供する。
本開示の実施例において、検出器において拡張畳み込みを行う畳み込み操作の固定拡張率を決定し、前記検出器において拡張畳み込みを行う畳み込み操作のいずれかについて、前記畳み込み操作の固定拡張率が分解条件を満たす場合に、前記畳み込み操作を、第1のサブ畳み込み操作と第2のサブ畳み込み操作とに分解し、前記畳み込み操作の固定拡張率に対応する上限拡張率と下限拡張率を決定し、前記上限拡張率を前記第1のサブ畳み込み操作の拡張率とし、前記下限拡張率を前記第2のサブ畳み込み操作の拡張率とし、前記畳み込み操作の出力チャネル数及び前記畳み込み操作の固定拡張率に基づいて、前記第1のサブ畳み込み操作に対応する出力チャネル数及び前記第2のサブ畳み込み操作に対応する出力チャネル数を決定することによって、検出器において拡張畳み込みを行う畳み込み操作を分解し、これにより畳み込み演算の過程において時間がかかるバイリニア補間操作を減少させることができ、そのため演算速度を高めることができ、対象物検出に必要な時間を減少できるので、リアルタイムシーンに適用可能である。
なお、以上の一般的な説明及び後述の詳細な説明は例示的・解釈的なものにすぎず、本開示を制限するものではない。
本開示のその他の特徴及び側面がより明確になるように、以下に図面を参照しながら例示的な実施例を詳しく説明する。
本明細書の図面は、本開示に適合する実施例を示すものとして明細書に組み込まれ、明細書の一部分として本文と共に本開示の発明を説明するものである。
本開示の実施例に係る検出器の配置方法のフローチャートである。 本開示の実施例に係る検出器の配置方法における拡張率学習器の模式図である。 本開示の実施例に係る検出器の配置方法における第1のサブ畳み込み操作Convuに対応する出力チャネル数及び第2のサブ畳み込み操作Convlに対応する出力チャネル数の模式図である。 本開示の実施例に係る検出器の配置方法における検出器において拡張畳み込みを行う畳み込み操作を2つのサブ畳み込み操作Convu、Convlに分解する模式図である。 本開示の実施例に係る検出器の配置方法の模式図である。 本開示の実施例に係る検出器の配置装置のブロック図である。 本開示の実施例に係る電子機器800のブロック図である。 本開示の実施例に係る電子機器1900のブロック図である。
以下に図面を参照しながら本開示の様々な例示的実施例、特徴及び側面を詳細に説明する。図面において、同じ符号は同じまたは類似の機能の要素を表す。図面において実施例の様々な側面を示すが、特に断りがない限り、図面は比例して描かれたものではない。
本明細書において使用される「例示的」という用語は、「例、実施例、または説明例としての役割を果たす」ことを意味する。本明細書において「例示的」として説明される任意の実施例は、必ずしも、他の実施例より好ましいまたは有利であると解釈されるわけではない。
本明細書において、「及び/又は」という用語は、かかる事項の関連性関係を説明するためのものとして、3つの関係があり得ることを意味し、例えば、A及び/又はBとは、Aのみ、AとBの両方、Bのみという3つの場合を表すことができる。また、本明細書において、「少なくとも1つ」という用語は、複数のうちのいずれか1つ又は複数のうちの少なくとも2つの任意な組み合わせを意味し、例えば、A、B及びCのうちの少なくとも1つを含むとは、A、B及びCからなる群より選択されたいずれか1つ又は複数のものを含むことを表すことができる。
また、本開示をより良く説明するために、以下の実施形態において様々な詳細情報を示す。若干の詳細情報がなくても、本開示が同様に実施できることは、当業者には理解される。いくつかの実例では、本開示の趣旨を強調するために、当業者に知られている方法、手段、要素及び回路については、詳細な説明を省略する。
上述したような課題を解決するために、本開示の実施例は、検出器の配置方法及び装置、対象物検出方法及び装置、電子機器並びに記憶媒体を提供する。これにより、対象物検出に必要な時間を減少でき、リアルタイムシーンに適用可能である。
図1は、本開示の実施例に係る検出器の配置方法のフローチャートである。前記検出器の配置方法の実行本体は検出器の配置装置であってよい。例えば、前記検出器の配置方法は、端末装置又はサーバー又はその他の処理装置により実行されてもよい。ここで、端末装置としては、ユーザ機器(User Equipment、UE)、モバイルデバイス、ユーザー端末、端末、携帯電話、コードレス電話、パーソナル・デジタル・アシスタント(Personal Digital Assistant、PDA)、ハンドヘルドデバイス、コンピューティングデバイス、車載デバイス、ウェアラブルデバイス等が挙げられる。いくつかの可能な実施形態では、前記検出器の配置方法は、プロセッサが、メモリに記憶されたコンピュータ読み取り可能な命令を呼び出すことにより実施できる。前記検出器の配置方法は、図1に示すように、ステップS11~ステップS13を含む。
ステップS11に進む前に、検出器のタイプ及び検出器の本体ネットワークを決定してもよい。例えば、検出器のタイプとして、Faster-RCNN、RFCN、RetinaNet又はSSDが挙げられ、検出器の本体ネットワークとして、VGG、ResNet、ResNeXt等が挙げられる。
ステップS11では、検出器において拡張畳み込みを行う畳み込み操作の固定拡張率を決定する。
本開示の実施例において、前記検出器において拡張畳み込みを行う畳み込み操作の数は1つ以上である。例えば、前記検出器において拡張畳み込みを行う畳み込み操作は、前記検出器における一部又は全ての畳み込み操作であってよい。すなわち、前記検出器は、拡張畳み込みを行う畳み込み操作を含んでよく、拡張畳み込みを行わない畳み込み操作を含んでもよい。
本開示の実施例において、検出器の同一の畳み込み操作は、異なるトレーニング画像に対する拡張率が異なっていてもよく、同じでもよい。検出器の異なる畳み込み操作は、同一のトレーニング画像に対する拡張率が異なっていてもよく、同じでもよい。
1つの可能な実施形態では、前記畳み込み操作の畳み込みカーネルが2つの次元を含む場合は、前記畳み込み操作の拡張率は縦方向拡張率と横方向拡張率とを含み得る。前記畳み込み操作の縦方向拡張率と横方向拡張率は、異なっていてもよく、同じでもよい。例えば、固定拡張率は縦方向固定拡張率と横方向固定拡張率とを含み得る。後述する第1の拡張率は第1の縦方向拡張率と第1の横方向拡張率とを含み得、第2の拡張率は第2の縦方向拡張率と第2の横方向拡張率とを含み得る。畳み込み操作の異なる次元に対応する拡張率を配置することによって、検出器における畳み込み操作の畳み込みカーネル寸法をより柔軟にすることができ、このように得られた検出器は対象物検出の精度をさらに向上させることができる。
別の可能な実施形態では、前記畳み込み操作の拡張率は、縦方向拡張率と横方向拡張率とに区分されなくてもよい。この実施形態では、前記畳み込み操作の縦方向拡張率と横方向拡張率とが同じであると想定でき、即ち前記畳み込み操作の異なる次元の拡張率が同じであると想定できる。
1つの可能な実施形態では、膨張の畳み込みカーネル寸法=拡張率×(元の畳み込み カーネル寸法-1)+1となる。例えば、前記トレーニング画像に対する前記畳み込み操作の拡張率が縦方向拡張率と横方向拡張率とを含む場合、膨張の畳み込みカーネル縦方向寸法=縦方向拡張率×(元の畳み込み カーネル縦方向寸法-1)+1、膨張の畳み込みカーネル横方向寸法=横方向拡張率×(元の畳み込み カーネル横方向寸法-1)+1となる。
1つの可能な実施形態では、前記検出器は、本体ネットワークを含み、前記検出器において拡張畳み込みを行う畳み込み操作は、前記検出器の前記本体ネットワークにおける、元の畳み込み カーネル寸法が指定寸法である1つ以上の畳み込み操作を含む。例えば、指定寸法は、3×3であってよく、5×5、7×7などであってもよい。
この実施形態の1つの例として、前記検出器において拡張畳み込みを行う畳み込み操作は、前記検出器の本体ネットワークにおける、元の畳み込み カーネル寸法が指定寸法である全ての畳み込み操作を含む。例えば、本体ネットワークはResNetであり、前記検出器において拡張畳み込みを行う畳み込み操作は、ResNetのconv2、conv3、conv4、conv5における全ての3×3畳み込み操作を含み得る。
この実施形態の別の例として、前記検出器において拡張畳み込みを行う畳み込み操作は、前記検出器の本体ネットワークにおける、元の畳み込み カーネル寸法が指定寸法である一部の畳み込み操作を含む。例えば、前記検出器において拡張畳み込みを行う畳み込み操作は、前記検出器の前記本体ネットワークの指定した畳み込み層における元の畳み込み カーネル寸法が指定寸法である1つ以上の畳み込み操作を含み得る。例えば、本体ネットワークはResNetであり、指定した畳み込み層はconv3、conv4、conv5であってよく、前記検出器において拡張畳み込みを行う畳み込み操作は、ResNetのconv3、conv4、conv5における全ての3×3畳み込み操作を含み得る。この例において、前記検出器において拡張畳み込みを行う畳み込み操作は、conv2における3×3畳み込み操作を含んでいなくてもよい。
別の可能な実施形態では、前記検出器において拡張畳み込みを行う畳み込み操作は、前記検出器の本体ネットワークの指定した畳み込み層における畳み込み操作を含み得る。例えば、本体ネットワークはResNetであり、前記検出器において拡張畳み込みを行う畳み込み操作は、conv2、conv3、conv4、conv5における畳み込み操作を含み得る。
別の可能な実施形態では、前記検出器において拡張畳み込みを行う畳み込み操作は、前記検出器の本体ネットワーク以外における畳み込み操作をさらに含み得る。例えば、前記検出器において拡張畳み込みを行う畳み込み操作は、前記検出器の本体ネットワーク以外における、元の畳み込み カーネル寸法が指定寸法である畳み込み操作をさらに含み得る。
1つの可能な実施形態では、前記検出器は、拡張率学習器をさらに備え、検出器において拡張畳み込みを行う畳み込み操作の固定拡張率を決定することは、前記拡張率学習器により複数のトレーニング画像に対する前記畳み込み操作の第1の拡張率を取得することと、前記第1の拡張率に基づいて前記畳み込み操作の固定拡張率を決定することと、を含む。この実施形態では、前記畳み込み操作に基づいて、複数のトレーニング画像に対する第1の拡張率について前記畳み込み操作の固定拡張率を決定するので、このように決定した固定拡張率の精度が高く、検出器による対象物検出の精度を確保することができる。
この実施形態では、拡張率学習器は、トレーニング画像に対する前記畳み込み操作の拡張率を学習するものとして利用できる。拡張率学習器は、前記検出器において拡張畳み込みを行う畳み込み操作に一対一に対応していてもよい。すなわち、1つの拡張率学習器は、拡張畳み込みを行う1つの畳み込み操作の拡張率を学習するものとして利用できる。この実施形態では、拡張率学習器は、拡張畳み込みを行う畳み込み操作と当該拡張畳み込みを行う畳み込み操作より前の操作との間に配置することができる。
この実施形態の1つの例として、前記拡張率学習器は、グローバル平均プーリング層と全結合層とを備える。例えば、拡張率学習器は、1つのグローバル平均プーリング層と1つの全結合層とを備えるものであってよい。この例において、グローバル平均プーリング操作と全結合操作により、複数のトレーニング画像に対する前記畳み込み操作の第1の拡張率を取得することができる。例えば、検出器において拡張畳み込みを行う畳み込み操作のいずれかについて、前記畳み込み操作より先の特徴(即ち検出器の初期構成における前記畳み込み操作の入力特徴マップ)をグローバル平均プーリング操作と全結合操作により前記トレーニング画像に対する前記畳み込み操作の拡張率を予測することができる。図2は、本開示の実施例に係る検出器の配置方法における拡張率学習器の模式図である。図2に示すように、拡張率学習器は、グローバル平均プーリング(GAP,Global Average Pooling)層と全結合層とを備えるものであってよい。全結合層は、線形(Linear)層であってよい。図2に示すように、検出器において拡張畳み込みを行う畳み込み操作のいずれかについて、前記畳み込み操作の前にグローバル平均プーリング層と全結合層のそれぞれに接続し、前記畳み込み操作を変形可能な畳み込みに置き換え、予測した拡張率を用いて畳み込み操作を行うことができる。
この実施形態の1つの例として、前記拡張率学習器により複数のトレーニング画像に対する前記畳み込み操作の第1の拡張率を取得することは、前記複数のトレーニング画像のうちいずれかについて、前記拡張率学習器により前記トレーニング画像に対する前記畳み込み操作の第2の拡張率を取得することと、前記第2の拡張率に基づいて前記トレーニング画像に対応する対象物検出結果を取得することと、前記トレーニング画像に対応する対象物検出結果に基づいて前記拡張率学習器のパラメータを更新することと、パラメータが更新された前記拡張率学習器により前記トレーニング画像に対する前記畳み込み操作の第1の拡張率を取得することと、を含む。
この例において、前記複数のトレーニング画像のうちいずれかについて、前記トレーニング画像に対する前記検出器において拡張畳み込みを行う各々の畳み込み操作の第2の拡張率に基づいて、拡張畳み込みを行う各々の畳み込み操作に対応する膨張の畳み込みカーネル寸法を決定し、膨張後の検出器に基づいて、前記トレーニング画像に対応する対象物検出結果を取得することができる。前記トレーニング画像に対応する対象物検出結果は、前記トレーニング画像のうちの対象物検出枠の位置情報と、前記トレーニング画像が各分類に属する確率とを含み得る。前記トレーニング画像に対応する対象物検出結果及び前記トレーニング画像の実際値に基づいて、検出器の損失関数の値を得られるので、検出器の損失関数の値に基づいて、前記拡張率学習器のパラメータを更新することができる。いずれかのトレーニング画像に対して拡張率をトレーニングする回数は、所定値であってよい。例えば、所定値は13であってよい。または、いずれかのトレーニング画像に対して、拡張率が収束するまでトレーニングしてもよい。この例において、拡張率学習器により複数回の学習を行うことによって、固定拡張率を決定するための第1の拡張率の精度を高めることができ、決定された固定拡張率の精度を高めることができ、これにより検出器による対象物検出の精度を確保することができる。
この例において、前記トレーニング画像に対する前記畳み込み操作の第1の拡張率は、前記トレーニング画像のトレーニング終了後の、前記トレーニング画像に対する前記畳み込み操作の拡張率であってよい。つまり、前記トレーニング画像に対する前記畳み込み操作の第1の拡張率は、前記トレーニング画像に対して拡張率をトレーニングする回数が所定値に達した後の、前記トレーニング画像に対する前記畳み込み操作の拡張率であってよく、前記トレーニング画像に対する前記畳み込み操作の収束した拡張率であってもよい。
この例において、検出器は異なるトレーニング画像のそれぞれに対して拡張率をトレーニングすることによって、検出器の拡張畳み込みを行う畳み込み層のいずれについても、複数のトレーニング画像に対応する複数の第1の拡張率を取得することができる。
この実施形態の1つの例として、前記第1の拡張率に基づいて前記畳み込み操作の固定拡張率を決定することは、前記第1の拡張率の平均値を前記畳み込み操作の固定拡張率として決定することを含む。例えば、前記畳み込み操作の固定拡張率が縦方向固定拡張率と横方向固定拡張率とを含む場合、複数のトレーニング画像に対する前記畳み込み操作の第1の縦方向拡張率の平均値を前記畳み込み操作の縦方向固定拡張率として決定し、複数のトレーニング画像に対する前記畳み込み操作の第1の横方向拡張率の平均値を前記畳み込み操作の横方向固定拡張率として決定することができる。例えば、縦方向固定拡張率が1.7、横方向固定拡張率が2.9である。
この例において、検出器において拡張畳み込みを行う畳み込み操作のいずれかについて、一部のトレーニング画像(例えば1000枚のトレーニング画像)に対する前記畳み込み操作の第1の拡張率に基づいて、前記畳み込み操作の固定拡張率を決定することができる。例えば、検出器のconv3の1つ目の3×3畳み込み操作について、1000枚のトレーニング画像に対する前記畳み込み操作の第1の拡張率に基づいて、前記畳み込み操作の固定拡張率を決定することができる。または、検出器において拡張畳み込みを行う畳み込み操作のいずれかについて、全てのトレーニング画像に対する前記畳み込み操作の第1の拡張率に基づいて、前記畳み込み操作の固定拡張率を決定することもできる。
ステップS12では、前記検出器において拡張畳み込みを行う畳み込み操作のいずれかについて、前記畳み込み操作の固定拡張率が分解条件を満たす場合に、前記畳み込み操作を、第1のサブ畳み込み操作と第2のサブ畳み込み操作とに分解し、前記畳み込み操作の固定拡張率に対応する上限拡張率と下限拡張率を決定し、前記上限拡張率を前記第1のサブ畳み込み操作の拡張率とし、前記下限拡張率を前記第2のサブ畳み込み操作の拡張率とする。
例えば、前記畳み込み操作の固定拡張率がD、前記畳み込み操作の固定拡張率に対応する上限拡張率がDu、前記畳み込み操作の固定拡張率に対応する下限拡張率がDlである。
1つの可能な実施形態では、前記畳み込み操作の固定拡張率が分解条件を満たすことは、前記畳み込み操作の固定拡張率が小数であることと、前記畳み込み操作の固定拡張率と、前記畳み込み操作の固定拡張率に最も近い整数との距離を表す、前記畳み込み操作の固定拡張率と整数との最小距離が第1の閾値よりも大きいこととのいずれかを含む。
この実施形態の1つの例として、前記畳み込み操作の固定拡張率が縦方向固定拡張率と横方向固定拡張率とを含む場合、前記畳み込み操作の固定拡張率が小数であることは、前記畳み込み操作の縦方向固定拡張率と横方向固定拡張率とのうち少なくとも一方が小数であることであってよい。
この実施形態の1つの例として、前記畳み込み操作の固定拡張率が縦方向固定拡張率と横方向固定拡張率とを含む場合、前記畳み込み操作の固定拡張率と整数との最小距離が第1の閾値よりも大きいことは、前記畳み込み操作の縦方向固定拡張率と横方向固定拡張率のうち少なくとも一方と整数との最小距離が第1の閾値よりも大きい。例えば、第1の閾値が0.05、ある畳み込み操作の縦方向固定拡張率が2.02、横方向固定拡張率が1.7である場合、前記畳み込み操作の縦方向固定拡張率と整数との最小距離は0.02で第1の閾値よりも小さく、前記畳み込み操作の横方向固定拡張率と整数との最小距離は0.3で第1の閾値よりも大きいので、前記畳み込み操作は分解条件を満たすと判定できる。
1つの例において、前記畳み込み操作の縦方向固定拡張率と横方向固定拡張率のうち一方と整数との最小距離が第1の閾値以下であり、他方と整数との最小距離が第1の閾値よりも大きい場合、他方に基づいて分解することができる。例えば、前記畳み込み操作の縦方向固定拡張率が2.02、横方向固定拡張率が1.7である場合、第1のサブ畳み込み操作は縦方向拡張率が2、横方向拡張率が2、第2のサブ畳み込み操作は縦方向拡張率が2、横方向拡張率が1である。この例において、前記畳み込み操作の縦方向固定拡張率と横方向固定拡張率のうち一方と整数との最小距離が第1の閾値以下である場合、上記一方を分解する必要がないので、検出器配置の演算量を低減させることができる。
1つの可能な実施形態では、前記畳み込み操作の固定拡張率に対応する上限拡張率と下限拡張率を決定することは、前記畳み込み操作の固定拡張率よりも大きくかつ前記畳み込み操作の固定拡張率に最も近い整数を、前記畳み込み操作の固定拡張率に対応する上限拡張率として決定することと、前記畳み込み操作の固定拡張率よりも小さくかつ前記畳み込み操作の固定拡張率に最も近い整数を、前記畳み込み操作の固定拡張率に対応する下限拡張率として決定することと、を含む。例えば、縦方向固定拡張率が1.7、横方向固定拡張率が2.9である場合、縦方向上限拡張率を2、縦方向下限拡張率を1、横方向上限拡張率を3、横方向下限拡張率を2として決定することができる。この例において、縦方向上限拡張率2、横方向上限拡張率3を第1のサブ畳み込み操作の拡張率として決定し、縦方向下限拡張率1、横方向下限拡張率2を第2のサブ畳み込み操作の拡張率として決定することができる。
本開示の実施例において、前記畳み込み操作の固定拡張率が分解条件を満たす場合に、前記畳み込み操作を、第1のサブ畳み込み操作と第2のサブ畳み込み操作とに分解し、例えば前記畳み込み操作の固定拡張率が小数である場合に、前記畳み込み操作を、拡張率が整数の第1のサブ畳み込み操作と第2のサブ畳み込み操作とに分解することによって、畳み込み演算の過程においてバイリニア補間操作を減少させることができ、演算速度を高めることができる。
ステップS13では、前記畳み込み操作の出力チャネル数及び前記畳み込み操作の固定拡張率に基づいて、前記第1のサブ畳み込み操作に対応する出力チャネル数及び前記第2のサブ畳み込み操作に対応する出力チャネル数を決定する。
例えば、前記畳み込み操作の出力チャネル数がC、前記第1のサブ畳み込み操作に対応する出力チャネル数がCu、前記第2のサブ畳み込み操作に対応する出力チャネル数がClである。
1つの可能な実施形態では、前記畳み込み操作の出力チャネル数及び前記畳み込み操作の固定拡張率に基づいて、前記第1のサブ畳み込み操作に対応する出力チャネル数及び前記第2のサブ畳み込み操作に対応する出力チャネル数を決定することは、前記畳み込み操作の固定拡張率と前記下限拡張率との差分に基づいて、前記畳み込み操作に対応する全体差分係数を決定することと、前記畳み込み操作の出力チャネル数と、前記畳み込み操作に対応する全体差分係数とに基づいて、前記第1のサブ畳み込み操作に対応する出力チャネル数及び前記第2のサブ畳み込み操作に対応する出力チャネル数を決定することと、を含む。
この実施形態では、前記畳み込み操作の固定拡張率Dと前記下限拡張率Dlとの差分D-Dlに基づいて、前記畳み込み操作に対応する全体差分係数を決定することができる。
この実施形態の1つの例として、前記畳み込み操作の固定拡張率が縦方向固定拡張率と横方向固定拡張率とを含む場合、前記畳み込み操作の縦方向固定拡張率と縦方向下限拡張率との第1の差分を決定し、前記畳み込み操作の横方向固定拡張率と横方向下限拡張率との第2の差分を決定し、第1の差分と第2の差分との平均値を前記畳み込み操作に対応する全体差分係数とすることができる。例えば、前記畳み込み操作の固定拡張率が縦方向固定拡張率1.7と横方向固定拡張率2.9とを含み、前記畳み込み操作の縦方向固定拡張率1.7と縦方向下限拡張率1との第1の差分a縦=0.7、前記畳み込み操作の横方向固定拡張率2.9と横方向下限拡張率2との第2の差分a横=0.9である場合、前記畳み込み操作に対応する全体差分係数a=0.8である。
例えば、第1のサブ畳み込み操作に対応する出力チャネル数Cu=aC、第2のサブ畳み込み操作に対応する出力チャネル数Cl=(1-a)Cである。
図3は、本開示の実施例に係る検出器の配置方法における第1のサブ畳み込み操作Convuに対応する出力チャネル数及び第2のサブ畳み込み操作Convlに対応する出力チャネル数の模式図である。図3において、第1のサブ畳み込み操作Convuは縦方向拡張率が2、横方向拡張率が3であり、第2のサブ畳み込み操作Convlは縦方向拡張率が1、横方向拡張率が2である。H×W×Cinは、前記畳み込み操作の入力特徴マップの高さ、幅及びチャネル数を表すので、第1のサブ畳み込み操作Convuと第2のサブ畳み込み操作Convlの入力特徴マップの高さ、幅及びチャネル数もH×W×Cinである。Coutが前記畳み込み操作の出力チャネル数、前記畳み込み操作の縦方向固定拡張率が1.7、横方向固定拡張率が2.9である。第1のサブ畳み込み操作Convuに対応する出力チャネル数が0.8、第2のサブ畳み込み操作Convlに対応する出力チャネル数が0.2である。
当然のことながら、別の可能な実施形態では、前記畳み込み操作の固定拡張率と前記上限拡張率との差分に基づいて、前記畳み込み操作に対応する全体差分係数を決定してもよい。
本開示の実施例において、検出器において拡張畳み込みを行う畳み込み操作を分解することによって、畳み込み演算の過程において時間がかかるバイリニア補間操作を減少させることができ、そのため演算速度を高めることができ、対象物検出に必要な時間を減少できるので、リアルタイムシーンに適用可能である。
1つの可能な実施形態では、前記第1のサブ畳み込み操作に対応する出力チャネル数及び前記第2のサブ畳み込み操作に対応する出力チャネル数を決定した後、前記検出器のパラメータを最適化するために、トレーニング用対象物画像セットを用いて前記検出器をトレーニングすることをさらに含む。
この実施形態では、前記第1のサブ畳み込み操作に対応する出力チャネル数及び前記第2のサブ畳み込み操作に対応する出力チャネル数を決定した後、検出器は、拡張率学習器を備えなくてもよく、検出器において拡張畳み込みを行う畳み込み操作を2つのサブ畳み込み操作に分解してもよい。図4は、本開示の実施例に係る検出器の配置方法における検出器において拡張畳み込みを行う畳み込み操作を2つのサブ畳み込み操作Convu、Convlに分解する場合の模式図である。
図5は、本開示の実施例に係る検出器の配置方法の模式図である。図5に示すように、検出器の本体ネットワークはResNetであり、Res2、Res3、Res4、Res5における3×3畳み込み操作を分解し、Res2、Res3、Res4、Res5における3×3畳み込み操作の各々をそれぞれ2つのサブ畳み込み操作に分解する。
1つの可能な実施形態では、検出器をトレーニングするとき、運動量が0.9、重みの減衰率が0.0001、初期学習率が0.00125/1枚のトレーニング画像であるSGDを最適化学習器として用いることができる。トレーニング時間は13サイクルに設定し、8サイクル目と11サイクル目以降は学習率を10倍の低下比率で下げることができる。
本開示の実施例に係る検出器の配置方法は、ハードコーディングが必要となるシーンに適用可能であり、マルチスケール対象が処理可能であることを確保した上で、適応モジュールを省略したので、かかる時間を減少し、検出速度を向上させるという効果を奏する。また、本開示の実施例に係るハードコーディング方法は、適応法に比べて、ハードウェアとの互換性を速めることができるため、実際の使用に役立つ。
本開示の実施例は、被検出画像を取得することと、前記検出器の配置方法でトレーニングされた前記検出器を用いて前記被検出画像に対して対象物検出を行い、前記被検出画像に対応する対象物検出結果を取得することと、を含む対象物検出方法をさらに提供する。
本開示の実施例は、拡張率構造付きのディープラーニングネットワークを用いて対象物検出を行うことによって、複数種のスケールの対象を同時に精度よく検出することができ、かつ対象物検出の精度を確保した上で、マルチスケールの対象物検出に必要な時間を減少させることができ、これによりマルチスケールの対象物検出のリアルタイムシーンに適用可能である。例えば、本開示の実施例は、自動運転中における大きさや近さの異なる車両及び歩行者の検出、リアルタイムスマートビデオ分析におけるキーフレーム検出、セキュリティ監視における歩行者検出、スマートホームにおける生体検出などに適用可能である。
本開示に記載の上記各方法の実施例は、基本ロジックから乖離しない限り、互いに組み合わせることにより組み合わせた実施例とすることができ、紙面の都合で、詳細な説明は省略する。
当業者であれば、具体的な実施形態に係る上記の方法では、各ステップの記載順序は、実行順序を厳密に限定して実施の過程を限定するものではなく、各ステップの実行順序がその機能と内部の論理によって具体的に決定されることが理解すべきである。
また、本開示はさらに、検出器の配置装置、対象物検出装置、電子機器、コンピュータ可読記憶媒体、プログラムを提供する。かかる発明及び説明は、方法に関する説明を参照すればよく、詳細な説明は省略する。
図6は、本開示の実施例に係る検出器の配置装置のブロック図である。前記検出器の配置装置は、図6に示すように、検出器において拡張畳み込みを行う畳み込み操作の固定拡張率を決定する第1の決定モジュール21と、前記検出器において拡張畳み込みを行う畳み込み操作のいずれかについて、前記畳み込み操作の固定拡張率が分解条件を満たす場合に、前記畳み込み操作を第1のサブ畳み込み操作と第2のサブ畳み込み操作とに分解し、前記畳み込み操作の固定拡張率に対応する上限拡張率と下限拡張率を決定し、前記上限拡張率を前記第1のサブ畳み込み操作の拡張率とし、前記下限拡張率を前記第2のサブ畳み込み操作の拡張率とする第2の決定モジュール22と、前記畳み込み操作の出力チャネル数及び前記畳み込み操作の固定拡張率に基づいて、前記第1のサブ畳み込み操作に対応する出力チャネル数及び前記第2のサブ畳み込み操作に対応する出力チャネル数を決定する第3の決定モジュール23と、を備える。
1つの可能な実施形態では、前記検出器は、本体ネットワークを含み、前記検出器において拡張畳み込みを行う畳み込み操作は、前記検出器の前記本体ネットワークにおける元の畳み込み カーネル寸法が指定寸法である1つ以上の畳み込み操作を含む。
1つの可能な実施形態では、前記検出器は、拡張率学習器をさらに備え、前記第1の決定モジュール21は、前記拡張率学習器により複数のトレーニング画像に対する前記畳み込み操作の第1の拡張率を取得する第1の決定サブモジュールと、前記第1の拡張率に基づいて前記畳み込み操作の固定拡張率を決定する第2の決定サブモジュールと、を備える。
1つの可能な実施形態では、前記拡張率学習器は、グローバル平均プーリング層と全結合層とを備える。
1つの可能な実施形態では、前記第1の決定サブモジュールは、前記複数のトレーニング画像のうちいずれかについて、前記拡張率学習器により前記トレーニング画像に対する前記畳み込み操作の第2の拡張率を取得し、前記第2の拡張率に基づいて前記トレーニング画像に対応する対象物検出結果を取得し、前記トレーニング画像に対応する対象物検出結果に基づいて前記拡張率学習器のパラメータを更新し、パラメータが更新された前記拡張率学習器により前記トレーニング画像に対する前記畳み込み操作の第1の拡張率を取得する。
1つの可能な実施形態では、前記第2の決定サブモジュールは、前記第1の拡張率の平均値を前記畳み込み操作の固定拡張率として決定する。
1つの可能な実施形態では、前記畳み込み操作の固定拡張率が分解条件を満たすことは、前記畳み込み操作の固定拡張率が小数であることと、前記畳み込み操作の固定拡張率と、前記畳み込み操作の固定拡張率に最も近い整数との距離を表す、前記畳み込み操作の固定拡張率と整数との最小距離が第1の閾値よりも大きいこととのいずれかを含む。
1つの可能な実施形態では、前記第2の決定モジュール22は、前記畳み込み操作の固定拡張率よりも大きくかつ前記畳み込み操作の固定拡張率に最も近い整数を、前記畳み込み操作の固定拡張率に対応する上限拡張率として決定する第3の決定サブモジュールと、前記畳み込み操作の固定拡張率よりも小さくかつ前記畳み込み操作の固定拡張率に最も近い整数を、前記畳み込み操作の固定拡張率に対応する下限拡張率として決定する第4の決定サブモジュールと、を備える。
1つの可能な実施形態では、前記第3の決定モジュール23は、前記畳み込み操作の固定拡張率と前記下限拡張率との差分に基づいて、前記畳み込み操作に対応する全体差分係数を決定する第5の決定サブモジュールと、前記畳み込み操作の出力チャネル数と、前記畳み込み操作に対応する全体差分係数とに基づいて、前記第1のサブ畳み込み操作に対応する出力チャネル数及び前記第2のサブ畳み込み操作に対応する出力チャネル数を決定する第6の決定サブモジュールと、を備える。
1つの可能な実施形態では、前記検出器のパラメータを最適化するために、トレーニング用対象物画像セットを用いて前記検出器をトレーニングするトレーニングモジュールをさらに備える。
本開示の実施例は、被検出画像を取得する取得モジュールと、前記検出器の配置装置でトレーニングされた前記検出器を用いて前記被検出画像に対して対象物検出を行い、前記被検出画像に対応する対象物検出結果を取得する対象物検出モジュールと、を備える対象物検出装置をさらに提供する。
いくつかの実施例では、本開示の実施例に係る装置が備える機能又はモジュールは、上述した方法の実施例に説明される方法を実行するために利用でき、その具体的な実現について、上述した方法の実施例の説明を参照すればよく、簡素化のために、ここで詳細な説明を省略する。
本開示の実施例はさらに、コンピュータプログラム命令を記憶したコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令はプロセッサにより実行されると、上記方法を実現させるコンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体は、コンピュータ可読不揮発性記憶媒体であってよく、コンピュータ可読揮発性記憶媒体であってもよい。
本開示の実施例はさらに、コンピュータ読み取り可能なコードを含むコンピュータプログラムであって、前記コンピュータ読み取り可能なコードは電子機器において実行されると、前記電子機器のプロセッサに前記方法を実現するための命令を実行させるコンピュータプログラムを提供する。
本開示の実施例はさらに、1つ以上のプロセッサと、前記1つ以上のプロセッサに関連し、実行可能な命令を記憶するメモリであって、前記実行可能な命令は、前記1つ以上のプロセッサにより読み出されて実行されると、前記方法を実行させるメモリと、を備える電子機器を提供する。
電子機器は、端末、サーバー又はその他の形態のデバイスとして提供できる。
図7は本開示の実施例に係る電子機器800のブロック図である。例えば、電子機器800は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレット型機器、医療機器、フィットネス機器、パーソナル・デジタル・アシスタント等の端末であってもよい。
図7を参照すると、電子機器800は、処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)のインタフェース812、センサコンポーネント814、および通信コンポーネント816のうちの一つ以上を含んでもよい。
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント802は、上記方法の全てまたは一部のステップを実行するために、命令を実行する一つ以上のプロセッサ820を含んでもよい。また、処理コンポーネント802は、他のコンポーネントとのインタラクションのための一つ以上のモジュールを含んでもよい。例えば、処理コンポーネント802は、マルチメディアコンポーネント808とのインタラクションのために、マルチメディアモジュールを含んでもよい。
メモリ804は電子機器800での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器800において操作するあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、例えば静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または不揮発性記憶装置またはそれらの組み合わせによって実現できる。
電源コンポーネント806は電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は電源管理システム、一つ以上の電源、および電子機器800のための電力生成、管理および配分に関連する他のコンポーネントを含んでもよい。
マルチメディアコンポーネント808は前記電子機器800とユーザとの間で出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ(LCD)およびタッチパネル(TP)を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するタッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャーを検知するように、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出するようにしてもよい。いくつかの実施例では、マルチメディアコンポーネント808は前面カメラおよび/または背面カメラを含む。電子機器800が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび/または背面カメラは外部のマルチメディアデータを受信するようにしてもよい。各前面カメラおよび背面カメラは、固定された光学レンズ系、または焦点距離および光学ズーム能力を有するものであってもよい。
オーディオコンポーネント810はオーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、一つのマイク(MIC)を含み、マイク(MIC)は、電子機器800が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ804に記憶されるか、または通信コンポーネント816を介して送信されてもよい。いくつかの実施例では、オーディオコンポーネント810はさらに、オーディオ信号を出力するためのスピーカーを含む。
I/Oインタフェース812は処理コンポーネント802と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含んでもよいが、これらに限定されない。
センサコンポーネント814は電子機器800の各方面の状態評価のために一つ以上のセンサを含む。例えば、センサコンポーネント814は電子機器800のオン/オフ状態、例えば電子機器800の表示装置およびキーパッドのようなコンポーネントの相対的位置決めを検出でき、センサコンポーネント814はさらに、電子機器800または電子機器800のあるコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速および電子機器800の温度変化を検出できる。センサコンポーネント814は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成される近接センサを含んでもよい。センサコンポーネント814はさらに、CMOSまたはCCDイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサコンポーネント814はさらに、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。
通信コンポーネント816は電子機器800と他の機器との有線または無線通信を実現するように構成される。電子機器800は、WiFi、2G、3G、4G/LTE、5G又はこれらの組み合わせなどの通信規格に基づく無線ネットワークにアクセスすることができる。一例示的実施例では、通信コンポーネント816は放送チャネルを介して外部の放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント816はさらに、近距離通信を促進させるために、近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標/BT)技術および他の技術によって実現できる。
例示的な実施例では、電子機器800は一つ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタルシグナルプロセッサ(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現され、上記方法を実行するために用いられることができる。
例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ804が提供され、上記コンピュータプログラム命令は、電子機器800のプロセッサ820によって実行されると、上記方法を実行させることができる。
図8は本開示の実施例に係る電子機器1900のブロック図である。例えば、電子機器1900はサーバーとして提供されてもよい。図8を参照すると、電子機器1900は、一つ以上のプロセッサを含む処理コンポーネント1922、および、処理コンポーネント1922によって実行可能な命令例えばアプリケーションプログラムを記憶するための、メモリ1932を代表とするメモリ資源を含む。メモリ1932に記憶されているアプリケーションプログラムは、それぞれが1つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント1922は命令を実行することによって上記方法を実行するように構成される。
電子機器1900はさらに、電子機器1900の電源管理を実行するように構成される電源コンポーネント1926、電子機器1900をネットワークに接続するように構成される有線または無線ネットワークインタフェース1950、および入出力(I/O)インタフェース1958を含んでもよい。電子機器1900はメモリ1932に記憶されているオペレーティングシステム、例えばWindows(登録商標) ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似するものに基づいて動作できる。
例示的な実施例では、さらに、不揮発性コンピュータ可読記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932が提供され、上記コンピュータプログラム命令は、電子機器1900の処理コンポーネント1922によって実行されと、上記方法を実行させることができる。
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各方面を実現させるためのコンピュータ可読プログラム命令が有しているコンピュータ可読記憶媒体を含んでもよい。
コンピュータ可読記憶媒体は、命令実行機器に使用される命令を保存および記憶可能な有形装置であってもよい。コンピュータ可読記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置、または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のさらに具体的な例(非網羅的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内突起構造のような機械的符号化装置、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ可読記憶媒体は、瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
ここで記述したコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークを介して外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含んでもよい。各計算/処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各計算/処理機器内のコンピュータ可読記憶媒体に記憶させる。
本開示の動作を実行するためのコンピュータプログラム命令はアセンブリ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含める一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズし、該電子回路によりコンピュータ可読プログラム命令を実行することにより、本開示の各方面を実現するようにしてもよい。
ここで本開示の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本開示の各態様を説明したが、フローチャートおよび/またはブロック図の各ブロックおよびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供され、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現ように、装置を製造してもよい。これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブルデータ処理装置および/または他の機器を特定の方式で動作させるようにしてもよい。これにより、命令が記憶されているコンピュータ可読記憶媒体は、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作の各方面を実現する命令を有する製品を含む。
コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードされ、コンピュータ、他のプログラマブルデータ処理装置または他の機器に一連の動作ステップを実行させることにより、コンピュータにより実施なプロセスを生成するようにしてもよい。このようにして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令により、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する。
図面のうちフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は、図面に付した順序と異なって実現してもよい。例えば、連続的な二つのブロックは実質的に並列に実行してもよく、また、係る機能によって、逆な順序で実行してもよい。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または既存技術に対する改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。
本開示は、2019年8月30日に中国特許庁に出願された第201910816321.1号「検出器の配置方法及び装置、電子機器並びに記憶媒体」を発明の名称とした中国特許出願の優先権を主張し、その内容全体が引用により本開示に組み込まれる。

Claims (25)

  1. 検出器において拡張畳み込みを行う畳み込み操作の固定拡張率を決定することと、
    前記検出器において拡張畳み込みを行う畳み込み操作のいずれかについて、前記畳み込み操作の固定拡張率が分解条件を満たす場合に、前記畳み込み操作を、第1のサブ畳み込み操作と第2のサブ畳み込み操作とに分解し、前記畳み込み操作の固定拡張率に対応する上限拡張率と下限拡張率を決定し、前記上限拡張率を前記第1のサブ畳み込み操作の拡張率とし、前記下限拡張率を前記第2のサブ畳み込み操作の拡張率とすることと、
    前記畳み込み操作の出力チャネル数及び前記畳み込み操作の固定拡張率に基づいて、前記第1のサブ畳み込み操作に対応する出力チャネル数及び前記第2のサブ畳み込み操作に対応する出力チャネル数を決定することと、
    を含むことを特徴とする検出器の配置方法。
  2. 前記検出器は、本体ネットワークを含み、
    前記検出器において拡張畳み込みを行う畳み込み操作は、前記検出器の前記本体ネットワークにおける、元の畳み込み カーネル寸法が指定寸法である1つ以上の畳み込み操作を含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記検出器は、拡張率学習器をさらに備え、
    検出器において拡張畳み込みを行う畳み込み操作の固定拡張率を決定することは、
    前記拡張率学習器により複数のトレーニング画像に対する前記畳み込み操作の第1の拡張率を取得することと、
    前記第1の拡張率に基づいて前記畳み込み操作の固定拡張率を決定することと、
    を含むことを特徴とする請求項1又は2に記載の方法。
  4. 前記拡張率学習器は、グローバル平均プーリング層と全結合層とを備えることを特徴とする請求項3に記載の方法。
  5. 前記拡張率学習器により複数のトレーニング画像に対する前記畳み込み操作の第1の拡張率を取得することは、
    前記複数のトレーニング画像のうちいずれかについて、前記拡張率学習器により前記トレーニング画像に対する前記畳み込み操作の第2の拡張率を取得することと、
    前記第2の拡張率に基づいて前記トレーニング画像に対応する対象物検出結果を取得することと、
    前記トレーニング画像に対応する対象物検出結果に基づいて前記拡張率学習器のパラメータを更新することと、
    パラメータが更新された前記拡張率学習器により前記トレーニング画像に対する前記畳み込み操作の第1の拡張率を取得することと、
    を含むことを特徴とする請求項3又は4に記載の方法。
  6. 前記第1の拡張率に基づいて前記畳み込み操作の固定拡張率を決定することは、
    前記第1の拡張率の平均値を前記畳み込み操作の固定拡張率として決定することを含む、
    ことを特徴とする請求項3~5のいずれか一項に記載の方法。
  7. 前記畳み込み操作の固定拡張率が分解条件を満たすことは、
    前記畳み込み操作の固定拡張率が小数であることと、
    前記畳み込み操作の固定拡張率と前記畳み込み操作の固定拡張率に最も近い整数との距離を表す、前記畳み込み操作の固定拡張率と整数との最小距離が第1の閾値よりも大きいこととのいずれかを含むことを特徴とする請求項1~6のいずれか一項に記載の方法。
  8. 前記畳み込み操作の固定拡張率に対応する上限拡張率と下限拡張率を決定することは、
    前記畳み込み操作の固定拡張率よりも大きくかつ前記畳み込み操作の固定拡張率に最も近い整数を、前記畳み込み操作の固定拡張率に対応する上限拡張率として決定することと、
    前記畳み込み操作の固定拡張率よりも小さくかつ前記畳み込み操作の固定拡張率に最も近い整数を、前記畳み込み操作の固定拡張率に対応する下限拡張率として決定することと、
    を含むことを特徴とする請求項1~7のいずれか一項に記載の方法。
  9. 前記畳み込み操作の出力チャネル数及び前記畳み込み操作の固定拡張率に基づいて、前記第1のサブ畳み込み操作に対応する出力チャネル数及び前記第2のサブ畳み込み操作に対応する出力チャネル数を決定することは、
    前記畳み込み操作の固定拡張率と前記下限拡張率との差分に基づいて、前記畳み込み操作に対応する全体差分係数を決定することと、
    前記畳み込み操作の出力チャネル数と、前記畳み込み操作に対応する全体差分係数とに基づいて、前記第1のサブ畳み込み操作に対応する出力チャネル数及び前記第2のサブ畳み込み操作に対応する出力チャネル数を決定することと、
    を含むことを特徴とする請求項1~8のいずれか一項に記載の方法。
  10. 前記第1のサブ畳み込み操作に対応する出力チャネル数及び前記第2のサブ畳み込み操作に対応する出力チャネル数を決定した後、
    前記検出器のパラメータを最適化するために、トレーニング用対象物画像セットを用いて前記検出器をトレーニングすることをさらに含む、
    ことを特徴とする請求項1~9のいずれか一項に記載の方法。
  11. 被検出画像を取得することと、
    請求項10に記載の方法でトレーニングされた前記検出器を用いて前記被検出画像に対して対象物検出を行い、前記被検出画像に対応する対象物検出結果を取得することと、
    を含むことを特徴とする対象物検出方法。
  12. 検出器において拡張畳み込みを行う畳み込み操作の固定拡張率を決定する第1の決定モジュールと、
    前記検出器において拡張畳み込みを行う畳み込み操作のいずれかについて、前記畳み込み操作の固定拡張率が分解条件を満たす場合に、前記畳み込み操作を、第1のサブ畳み込み操作と第2のサブ畳み込み操作とに分解し、前記畳み込み操作の固定拡張率に対応する上限拡張率と下限拡張率を決定し、前記上限拡張率を前記第1のサブ畳み込み操作の拡張率とし、前記下限拡張率を前記第2のサブ畳み込み操作の拡張率とする第2の決定モジュールと、
    前記畳み込み操作の出力チャネル数及び前記畳み込み操作の固定拡張率に基づいて、前記第1のサブ畳み込み操作に対応する出力チャネル数及び前記第2のサブ畳み込み操作に対応する出力チャネル数を決定する第3の決定モジュールと、
    を備えることを特徴とする検出器の配置装置。
  13. 前記検出器は、本体ネットワークを含み、
    前記検出器において拡張畳み込みを行う畳み込み操作は、前記検出器の前記本体ネットワークにおける、元の畳み込み カーネル寸法が指定寸法である1つ以上の畳み込み操作を含む、
    ことを特徴とする請求項12に記載の装置。
  14. 前記検出器は、拡張率学習器をさらに備え、
    前記第1の決定モジュールは、
    前記拡張率学習器により複数のトレーニング画像に対する前記畳み込み操作の第1の拡張率を取得する第1の決定サブモジュールと、
    前記第1の拡張率に基づいて前記畳み込み操作の固定拡張率を決定する第2の決定サブモジュールと、
    を備えることを特徴とする請求項12又は13に記載の装置。
  15. 前記拡張率学習器は、グローバル平均プーリング層と全結合層とを備える、ことを特徴とする請求項14に記載の装置。
  16. 前記第1の決定サブモジュールは、
    前記複数のトレーニング画像のうちいずれかについて、前記拡張率学習器により前記トレーニング画像に対する前記畳み込み操作の第2の拡張率を取得し、
    前記第2の拡張率に基づいて前記トレーニング画像に対応する対象物検出結果を取得し、
    前記トレーニング画像に対応する対象物検出結果に基づいて前記拡張率学習器のパラメータを更新し、
    パラメータが更新された前記拡張率学習器により前記トレーニング画像に対する前記畳み込み操作の第1の拡張率を取得する、ことを特徴とする請求項14又は15に記載の装置。
  17. 前記第2の決定サブモジュールは、
    前記第1の拡張率の平均値を前記畳み込み操作の固定拡張率として決定することを特徴とする請求項14~16のいずれか一項に記載の装置。
  18. 前記畳み込み操作の固定拡張率が分解条件を満たすことは、
    前記畳み込み操作の固定拡張率が小数であることと、
    前記畳み込み操作の固定拡張率と前記畳み込み操作の固定拡張率に最も近い整数との距離を表す、前記畳み込み操作の固定拡張率と整数との最小距離が第1の閾値よりも大きいこととのいずれかを含むことを特徴とする請求項12~17のいずれか一項に記載の装置。
  19. 前記第2の決定モジュールは、
    前記畳み込み操作の固定拡張率よりも大きくかつ前記畳み込み操作の固定拡張率に最も近い整数を、前記畳み込み操作の固定拡張率に対応する上限拡張率として決定する第3の決定サブモジュールと、
    前記畳み込み操作の固定拡張率よりも小さくかつ前記畳み込み操作の固定拡張率に最も近い整数を、前記畳み込み操作の固定拡張率に対応する下限拡張率として決定する第4の決定サブモジュールと、
    を備えることを特徴とする請求項12~18のいずれか一項に記載の装置。
  20. 前記第3の決定モジュールは、
    前記畳み込み操作の固定拡張率と前記下限拡張率との差分に基づいて、前記畳み込み操作に対応する全体差分係数を決定する第5の決定サブモジュールと、
    前記畳み込み操作の出力チャネル数と、前記畳み込み操作に対応する全体差分係数とに基づいて、前記第1のサブ畳み込み操作に対応する出力チャネル数及び前記第2のサブ畳み込み操作に対応する出力チャネル数を決定する第6の決定サブモジュールと、
    を備えることを特徴とする請求項12~19のいずれか一項に記載の装置。
  21. 前記検出器のパラメータを最適化するために、トレーニング用対象物画像セットを用いて前記検出器をトレーニングするトレーニングモジュールをさらに備えることを特徴とする請求項12~20のいずれか一項に記載の装置。
  22. 被検出画像を取得する取得モジュールと、
    請求項21に記載の装置でトレーニングされた前記検出器を用いて前記被検出画像に対して対象物検出を行い、前記被検出画像に対応する対象物検出結果を取得する対象物検出モジュールと、
    を備えることを特徴とする対象物検出装置。
  23. 1つ以上のプロセッサと、
    前記1つ以上のプロセッサに関連し、実行可能な命令を記憶するメモリであって、前記実行可能な命令は、前記1つ以上のプロセッサにより読み出されて実行されると、請求項1~11のいずれか一項に記載の方法を実行させるメモリと、
    を備えることを特徴とする電子機器。
  24. コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、
    前記コンピュータプログラム命令がプロセッサにより実行されると、請求項1~11のいずれか一項に記載の方法を実現させることを特徴とするコンピュータ可読記憶媒体。
  25. コンピュータ読み取り可能なコードを含むコンピュータプログラムであって、
    前記コンピュータ読み取り可能なコードは、電子機器において実行されると、前記電子機器のプロセッサに請求項1~11のいずれか一項に記載の方法を実現するための命令を実行させることを特徴とするコンピュータプログラム。
JP2021537166A 2019-08-30 2019-11-18 検出器の配置方法、検出器の配置装置及び非一時的コンピュータ可読記憶媒体 Pending JP2022515274A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910816321.1 2019-08-30
CN201910816321.1A CN110543849B (zh) 2019-08-30 2019-08-30 检测器的配置方法及装置、电子设备和存储介质
PCT/CN2019/119161 WO2021036013A1 (zh) 2019-08-30 2019-11-18 检测器的配置方法及装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
JP2022515274A true JP2022515274A (ja) 2022-02-17

Family

ID=68711000

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021537166A Pending JP2022515274A (ja) 2019-08-30 2019-11-18 検出器の配置方法、検出器の配置装置及び非一時的コンピュータ可読記憶媒体

Country Status (7)

Country Link
US (1) US20210326649A1 (ja)
JP (1) JP2022515274A (ja)
KR (1) KR20210113242A (ja)
CN (1) CN110543849B (ja)
SG (1) SG11202106971YA (ja)
TW (1) TWI733276B (ja)
WO (1) WO2021036013A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113989169A (zh) * 2020-07-08 2022-01-28 嘉楠明芯(北京)科技有限公司 一种膨胀卷积加速计算方法及装置
CN112101374B (zh) * 2020-08-01 2022-05-24 西南交通大学 基于surf特征检测和isodata聚类算法的无人机障碍物检测方法
CN112037157B (zh) * 2020-09-14 2024-07-02 Oppo广东移动通信有限公司 数据处理方法及装置、计算机可读介质及电子设备
CN111951269B (zh) * 2020-10-16 2021-01-05 深圳云天励飞技术股份有限公司 图像处理方法及相关设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960069A (zh) * 2018-06-05 2018-12-07 天津大学 一种用于单阶段物体检测器的增强上下文的方法
WO2019079182A1 (en) * 2017-10-16 2019-04-25 Illumina, Inc. SEMI-SUPERVISED APPRENTICESHIP FOR THE LEARNING OF A SET OF NEURONAL NETWORKS WITH DEEP CONVOLUTION
CN109829863A (zh) * 2019-01-22 2019-05-31 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN110009648A (zh) * 2019-03-04 2019-07-12 东南大学 基于深浅特征融合卷积神经网络的路侧图像车辆分割方法
JP2019139747A (ja) * 2018-02-13 2019-08-22 北京曠視科技有限公司Beijing Kuangshi Technology Co., Ltd. 演算装置、演算実行設備及び演算実行方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6151682A (en) * 1997-09-08 2000-11-21 Sarnoff Corporation Digital signal processing circuitry having integrated timing information
CN107742150B (zh) * 2016-10-31 2020-05-12 腾讯科技(深圳)有限公司 一种卷积神经网络的数据处理方法和装置
CN108229478B (zh) * 2017-06-30 2020-12-29 深圳市商汤科技有限公司 图像语义分割及训练方法和装置、电子设备、存储介质和程序
US11734545B2 (en) * 2017-11-14 2023-08-22 Google Llc Highly efficient convolutional neural networks
CN108197606A (zh) * 2018-01-31 2018-06-22 浙江大学 一种基于多尺度膨胀卷积的病理切片中异常细胞的识别方法
CN108647776A (zh) * 2018-05-08 2018-10-12 济南浪潮高新科技投资发展有限公司 一种卷积神经网络卷积膨胀处理电路及方法
CN109598269A (zh) * 2018-11-14 2019-04-09 天津大学 一种基于多分辨率输入与金字塔膨胀卷积的语义分割方法
CN109886090B (zh) * 2019-01-07 2020-12-04 北京大学 一种基于多时间尺度卷积神经网络的视频行人再识别方法
CN110009095B (zh) * 2019-03-04 2022-07-29 东南大学 基于深度特征压缩卷积网络的道路行驶区域高效分割方法
CN110047069B (zh) * 2019-04-22 2021-06-04 北京青燕祥云科技有限公司 一种图像检测装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019079182A1 (en) * 2017-10-16 2019-04-25 Illumina, Inc. SEMI-SUPERVISED APPRENTICESHIP FOR THE LEARNING OF A SET OF NEURONAL NETWORKS WITH DEEP CONVOLUTION
JP2019139747A (ja) * 2018-02-13 2019-08-22 北京曠視科技有限公司Beijing Kuangshi Technology Co., Ltd. 演算装置、演算実行設備及び演算実行方法
CN108960069A (zh) * 2018-06-05 2018-12-07 天津大学 一种用于单阶段物体检测器的增强上下文的方法
CN109829863A (zh) * 2019-01-22 2019-05-31 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN110009648A (zh) * 2019-03-04 2019-07-12 东南大学 基于深浅特征融合卷积神经网络的路侧图像车辆分割方法

Also Published As

Publication number Publication date
US20210326649A1 (en) 2021-10-21
KR20210113242A (ko) 2021-09-15
SG11202106971YA (en) 2021-07-29
CN110543849B (zh) 2022-10-04
TW202109365A (zh) 2021-03-01
TWI733276B (zh) 2021-07-11
WO2021036013A1 (zh) 2021-03-04
CN110543849A (zh) 2019-12-06

Similar Documents

Publication Publication Date Title
JP7041284B2 (ja) 画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム
JP7106679B2 (ja) 画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム
JP2022500791A (ja) 画像処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム
JP2022517914A (ja) 顔と手を関連付けて検出する方法及び装置、電子機器、記憶媒体及びコンピュータプログラム
TWI773945B (zh) 錨點確定方法、電子設備和儲存介質
JP2022515274A (ja) 検出器の配置方法、検出器の配置装置及び非一時的コンピュータ可読記憶媒体
CN110798630B (zh) 图像处理方法及装置、电子设备和存储介质
WO2020155609A1 (zh) 一种目标对象处理方法、装置、电子设备及存储介质
CN109919300B (zh) 神经网络训练方法及装置以及图像处理方法及装置
JP2021516838A (ja) キーポイント検出方法、装置、電子機器及び記憶媒体
CN110458218B (zh) 图像分类方法及装置、分类网络训练方法及装置
KR20210090238A (ko) 비디오 처리 방법 및 장치, 전자 기기, 및 기억 매체
JP2022506637A (ja) 画像処理方法および装置、ネットワークトレーニング方法および装置
CN112001364A (zh) 图像识别方法及装置、电子设备和存储介质
KR20220047802A (ko) 이미지 재구성 방법 및 장치, 전자 기기 및 저장 매체
CN109447258B (zh) 神经网络模型的优化方法及装置、电子设备和存储介质
CN111988622B (zh) 视频预测方法及装置、电子设备和存储介质
US11410268B2 (en) Image processing methods and apparatuses, electronic devices, and storage media
CN112749709A (zh) 图像处理方法及装置、电子设备和存储介质
CN112651880B (zh) 视频数据处理方法及装置、电子设备和存储介质
CN115457024A (zh) 冷冻电镜图像处理方法、装置、电子设备及存储介质
CN110896492B (zh) 图像处理方法、装置及存储介质
CN111369438B (zh) 图像处理方法及装置、电子设备和存储介质
CN110119652B (zh) 视频的镜头分割方法及装置
CN111694769A (zh) 数据读取方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210624

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210624

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220906

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230404