JP7012880B2 - ターゲット検出方法及び装置、機器並びに記憶媒体 - Google Patents
ターゲット検出方法及び装置、機器並びに記憶媒体 Download PDFInfo
- Publication number
- JP7012880B2 JP7012880B2 JP2020561811A JP2020561811A JP7012880B2 JP 7012880 B2 JP7012880 B2 JP 7012880B2 JP 2020561811 A JP2020561811 A JP 2020561811A JP 2020561811 A JP2020561811 A JP 2020561811A JP 7012880 B2 JP7012880 B2 JP 7012880B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- type
- target
- optimized
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 355
- 238000003860 storage Methods 0.000 title claims description 14
- 238000000034 method Methods 0.000 claims description 79
- 238000005457 optimization Methods 0.000 claims description 71
- 230000033001 locomotion Effects 0.000 claims description 38
- 230000008569 process Effects 0.000 claims description 32
- 230000004913 activation Effects 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 7
- 238000009499 grossing Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 description 19
- 238000001994 activation Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 17
- 230000003287 optical effect Effects 0.000 description 17
- 230000004927 fusion Effects 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 11
- 230000006399 behavior Effects 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 230000010354 integration Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012886 linear function Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 230000003014 reinforcing effect Effects 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 230000002411 adverse Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000032258 transport Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Computational Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Analysis (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Biophysics (AREA)
- Algebra (AREA)
- Image Analysis (AREA)
Description
本願は、2019年04月30日に提出された出願番号201910364565.0の中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
n個の異なるターゲット検出器により決定された、位置決めターゲットに関連するn種類の検出枠を取得することであって、前記n個の異なるターゲット検出器は、同一の画像から、n種類の異なる画像特徴を抽出することができ、nは2以上の正整数である、ことと、
前記n種類の検出枠に基づいて、統合された検出枠を得ることと、
前記n個の異なるターゲット検出器のうちの各ターゲット検出器が、前記統合された検出枠に基づいて、入力画像から画像特徴を抽出し、n種類の画像特徴を得ることと、
n種類の画像特徴に基づいて、画像特徴最適化を行い、最適化された画像特徴を得ることと、
前記最適化された画像特徴に基づいて、最適化された検出枠を得て、ターゲットを検出することと、を含む。
n個の異なるターゲット検出器により決定された、位置決めターゲットに関連するn種類の検出枠を取得するように構成される取得モジュールであって、前記n個の異なるターゲット検出器は、同一の画像から、n種類の異なる画像特徴を抽出することができ、nは2以上の正整数である、取得モジュールと、
前記n種類の検出枠に基づいて、統合された検出枠を得るように構成される統合モジュールと、
前記n個の異なるターゲット検出器のうちの各ターゲット検出器が、前記統合された検出枠に基づいて、入力画像から画像特徴を抽出し、n種類の画像特徴を得るように構成される抽出モジュールと、
n種類の画像特徴に基づいて、画像特徴最適化を行い、最適化された画像特徴を得るように構成される第1最適化モジュールと、
前記最適化された画像特徴に基づいて、最適化された検出枠を得て、ターゲットを検出するように構成される第2最適化モジュールと、を備える。
コンピュータによる実行可能な命令を記憶するように構成されるメモリと、
前記メモリに接続され、前記コンピュータによる実行可能な命令を実行することで、前記いずれか1つの技術的解決手段により提供されるターゲット検出方法を実現させるように構成されるプロセッサと、を備える。
図1に示すように、本発明の実施例は、ターゲット検出方法を提供する。前記方法は、以下を含む。
ステップS110において、n個の異なるターゲット検出器により決定された、位置決めターゲットに関連するn種類の検出枠を取得し、前記n個の異なるターゲット検出器は、同一の画像から、n種類の異なる画像特徴を抽出することができ、nは2以上の正整数である。
ステップS120において、前記n種類の検出枠に基づいて、統合された検出枠を得る。
ステップS130において、前記n個の異なるターゲット検出器のうちの各ターゲット検出器が、前記統合された検出枠に基づいて、入力画像から画像特徴を抽出し、n種類の画像特徴を得る。
ステップS140において、n種類の画像特徴に基づいて、画像特徴最適化を行い、最適化された画像特徴を得る。
ステップS150において、前記最適化された画像特徴に基づいて、最適化された検出枠を得て、ターゲットを検出する。
n個の前記ターゲット検出器におけるnは、2以上の正整数であってもよく、nの具体的な数値は、2、3又は4などであってもよい。
前記n種類の異なるターゲット検出器は、下記いずれか1つの点で相違する。
n種類の異なるターゲット検出器に対応するニューラルネットワークのネットワーク構造が異なる。
n種類の異なるターゲット検出器に対応するニューラルネットワークのネットワークパラメータが異なる。
n種類の異なるターゲット検出器が準拠するモデルアルゴリズムが異なる。
n種類の異なるターゲット検出器による検出枠抽出の方式が異なる。
n種類の異なるターゲット検出器による画像特徴抽出の方式が異なる。
前記n個のターゲット検出器により検出された検出枠はいずれも矩形枠であってもよく、それぞれ、n個のターゲット検出器により直接的又は間接的に決定された、入力画像におけるターゲットを含むと認められた領域である。
前記n個のターゲット検出器から出力された検出枠の和集合を求め、前記統合された検出枠を得ることと、
対応する第1確率値が降順に応じてソートされる場合に上位M1%位になる1つのターゲット検出器の検出枠と他のターゲット検出器の検出枠の和集合を求め、前記統合された検出枠を得ることと、を含んでもよいが、これらに限定されない。
前記M1は、100未満の正整数であり、例えば、M1の値は、いずれも50又は60等の値であってもよい。
S3は、S1とS2の和以下であり、且つ、S3は、S1以上であるか、又は、S3は、S2以上である。
本実施例において、前記第1種類の画像特徴と第2種類の画像特徴は、タイプの異なる特徴である。それらは、
異なるモデルにより抽出された特徴の点で相違する。
要するに、前記第1種類の画像特徴と前記第2種類の画像特徴は、タイプの異なる画像特徴である。
前記融合は、線形融合及び非線形融合を含む。
区分関数及び/又は畳み込み演算が含まれる畳み込み関数を含んでもよい。
前記第1種類の画像特徴と前記第2種類の画像特徴に対して線形融合を行い、線形最適化された画像特徴を得る。
前記第1種類の画像特徴と前記第2種類の画像特徴に対して非線形融合を行い、非線形最適化された画像特徴を得る。
第1種類の画像特徴を更に処理した後、第2種類の画像特徴とスプライシングされる可能な画像特徴に変換して、第2種類のスプライシング特徴を得る。
第1種類の画像特徴におけるm番目の位置での特徴値の第1信頼度と、第2種類の画像特徴におけるm番目の位置での特徴値の第2信頼度と、を比較することと、
前記第1信頼度が第2信頼度より大きいと、第1種類の画像特徴におけるm番目の位置での特徴値を、最適化された画像特徴のm番目の位置での特徴値とすることと、
及び/又は、
第2信頼度が第1信頼度以上であると、第2種類の画像特徴におけるm番目の位置での特徴値を、最適化された画像特徴のm番目の位置での特徴値とすることと、を更に含んでもよい。
幾つかの実施例において、前記ステップS130は、関数
又は、
前記ステップS130は、関数
前記方法をm回目に実行するときに、前記n種類の画像特徴のうちのn-1種類の画像特徴を利用して、前記n種類の画像特徴のうちの第p種類の画像特徴を最適化し、前記最適化された画像特徴を得ることを含んでもよく、
ここで、第p種類の画像特徴は、前記n種類の画像特徴のうちの、前記n-1種類の画像特徴以外の1種類の画像特徴であり、mは、0より大きい整数であり、pは、0より大きくてn以下の整数である。
前記n-1種類の画像特徴のうちの各種類の画像特徴に対して畳み込み処理を行い、前記n-1種類の画像特徴のうちの各種類の画像特徴の畳み込み特徴を得ることと、
前記畳み込み特徴を利用して、前記n種類の画像特徴のうちの第p種類の画像特徴を最適化し、前記最適化された画像特徴を得ることと、を更に含んでもよい。
具体的な畳み込み処理は、異なるターゲット検出器の畳み込みチャネルを接続することで実現することができる。
前記n-1種類の画像特徴のうちの各種類の画像特徴に対して第1畳み込み処理を行い、n-1種類の第1畳み込み特徴を得ることと、
前記n-1種類の第1畳み込み特徴のうちの各種類の第1畳み込み特徴に対して活性化処理を行い、n-1種類の活性化特徴を得ることと、
前記n-1種類の活性化特徴のうちの各種類の活性化特徴に対して第2畳み込み処理を行い、前記n-1種類の画像特徴のうちの各種類の画像特徴の畳み込み特徴を得ることと、を含んでもよい。
畳み込み伝送チャネルを利用して、前記第1種類の画像特徴に対して畳み込み処理を行い、第1種類の畳み込み特徴を得て、前記第1種類の畳み込み特徴を利用して、前記第2種類の画像特徴を最適化し、最適化された第2種類の画像特徴を得ること、
又は、
畳み込み伝送チャネルを利用して、前記第2種類の画像特徴に対して畳み込み処理を行い、第2種類の畳み込み特徴を得て、前記第2種類の畳み込み特徴を利用して、前記第1種類の画像特徴を最適化し、最適化された第1種類の画像特徴を得ること、を含んでもよい。
同様に、前記畳み込み伝送チャネルは、第2種類の画像特徴に対して1回又は複数回の畳み込み処理を行い、第2種類の畳み込み特徴を得ることもできる。
入力された画像特徴に対して一次畳み込み処理を行い、一次畳み込み特徴を得るように構成される第1畳み込み層であって、前記入力された画像特徴は、前記第1種類の画像特徴又は前記第2種類の画像特徴である、第1畳み込み層と、
前記第1畳み込み層に接続され、前記一次畳み込み特徴に対して活性化処理を行い、活性化特徴を得るように構成される活性化層と、
前記活性化層に接続され、前記活性化特徴に対して二次畳み込み処理を行い、前記第1種類の畳み込み特徴又は前記第2種類の畳み込み特徴を得るように構成される第2畳み込み層と、を備えてもよい。
正規化線形関数により前記一次畳み込み特徴に対して特徴マッピングを行い、第2畳み込み層に入力された活性化特徴を得る。
例えば、第2畳み込み特徴の次元は、最適化を必要とする画像特徴の次元と一致することが可能である。
該畳み込みチャネルは、nが3又は3以上である場合、n-1種類の画像特徴に対して畳み込み処理を行うために用いられてもよい。
最適化された画像特徴に基づいて回帰処理を行い、前記最適化された検出枠を得ることを含んでもよい。
本実施例において、最適化された画像特徴と検出枠との相互依存関係を逆算する等の回帰方式により、前記最適化された検出枠を得ることができる。
本実施例において、最適化された検出枠の取得方式は多種であり、ここで、実現しやすい方式を提供する。具体的な実現過程は、本実施例に限定されない。
従って、本実施例において、最適化された検出枠は、最適化された第1種類の検出枠及び最適化された第2種類の検出枠という2種に分けられてもよい。
ここで、第1種類の検出枠は、第1ターゲット検出器により決定され、第2種類の検出枠は、第2ターゲット検出器により決定される。
従って、該確率値は、該種類の検出枠でターゲットを正確に囲む確率であり、信頼度の値である。
第2種類の検出枠と第1確率値が第1確率閾値より大きい第1種類の検出枠を併合し、前記統合された検出枠を得ることであって、前記第1確率値は、前記第1種類の検出枠に前記ターゲットが含まれる確率値である、こと、
又は、
前記第1種類の検出枠と第2確率値が第2確率閾値より大きい第2種類の検出枠を併合し、前記統合された検出枠を得ることであって、前記第2確率値は、前記第2種類の検出枠に前記ターゲットが含まれる確率値である、こと、を含んでもよい。
本発明の実施例で提供される方法を初回実行する場合、前記第1ターゲット検出器を利用して、前記入力画像においてターゲットを検出し、前記第1種類の検出枠を得て、前記第2ターゲット検出器を利用して、前記入力画像においてターゲットを検出し、前記第2種類の検出枠を得ることを含んでもよい。
従って、初回実行過程における第1種類の検出枠及び第2種類の検出枠はいずれも、最適化されていない検出枠である。
n個の異なるターゲット検出器をそれぞれ利用して前記入力画像においてターゲットを検出し、位置決めターゲットに関連するn種類の検出枠を得ることを含んでもよい。
この場合、最適化される検出枠はいずれも、ターゲット検出器により検出されたものである。
n個の異なるターゲット検出器のうちの各ターゲット検出器に対して、前記方法をk-1回目に実行するときに該ターゲット検出器により決定された検出枠又は該ターゲット検出器に対応する最適化された検出枠を取得することを含む。
現在の実行がn回目の実行である場合、前記第1ターゲット検出器がn-1回目の検出又は最適化を実行した後に得た第1種類の検出枠を取得し、第2ターゲット検出器がn-1回目の検出又は最適化を実行した後に得た第2種類の検出枠を取得することであって、前記nは、2以上の正整数である、ことを含んでもよい。
従って、本願の実施例で提供されるターゲット検出方法を複数回実行することで、検出枠を段階的に最適化することを実現させることができる。
様々なモデルの画像特徴の反復クロスオーバー最適化により、様々なモデルの検出枠の反復クロスオーバー最適化を実現させることができる。
ビデオにおける複数個フレームの画像の前記最適化された検出枠を接続し、同一のターゲットの動作パイプラインを形成することと、
前記動作パイプラインに基づいて前記ターゲット追跡を行うことと、を更に含む。
本実施例において、前記動作パイプラインは、時系列に基づいてソートされて形成されたパイプラインであってもよい。
画像座標系での、最適化された検出枠の4つの頂点の座標で表される。
画像座標系での、最適化された検出枠の中心点の座標、最適化された検出枠の長さ及び最適化された検出枠の幅で表される。
最適化された検出枠の面積は、画像でのターゲットの占有面積に正比例する。
従って、画像面積により、カメラとターゲットとの距離の変動を推算することで、ターゲットの移動速度等を決定し、更に、ターゲット追跡を実現させることができる。
ステップS210において、q番目の画像フレームの前記最適化された検出枠に基づいて、再検出された画像特徴を得て、qは正整数である。
ステップS220において、前記再検出された画像特徴に基づいて、動作タイプの認識を行い、対応するタイプの動作と決定されることを示す確率値を得る。
ステップS230において、前記確率値に基づいて、前記最適化された検出枠に対して平滑化フィルタリングを行い、平滑化フィルタリングされた最適化された検出枠を得る。
ステップS240において、時間領域内において、平滑化フィルタリングされた最適化された検出枠を関連付け、前記動作パイプラインを得る。
n個の異なるターゲット検出器により決定された、位置決めターゲットに関連するn種類の検出枠を取得するように構成される取得モジュールであって、前記n個の異なるターゲット検出器は、同一の画像から、n種類の異なる画像特徴を抽出することができ、nは2以上の正整数である、取得モジュール110と、
前記n種類の検出枠に基づいて、統合された検出枠を得るように構成される統合モジュール120と、
前記n個の異なるターゲット検出器のうちの各ターゲット検出器が、前記統合された検出枠に基づいて、入力画像から画像特徴を抽出し、n種類の画像特徴を得るように構成される抽出モジュール130と、
n種類の画像特徴に基づいて、画像特徴最適化を行い、最適化された画像特徴を得るように構成される第1最適化モジュール140と、
前記最適化された画像特徴に基づいて、最適化された検出枠を得て、ターゲットを検出するように構成される第2最適化モジュール150と、を備える。
ビデオにおける複数個フレームの画像の前記最適化された検出枠を接続し、同一のターゲットの動作パイプラインを形成するように構成される接続モジュールと、
前記動作パイプラインに基づいて前記ターゲット追跡を行うように構成される追跡モジュールと、を更に備える。
例1:
該例で提供されるターゲット検出方法において、情報伝達方法によれば、有用な情報を1つのモデル(1つのニューラルネットワークであってもよい)からもう1つのモデル(もう1つのニューラルネットワークであってもよい)に伝達することで、様々なモデルにより抽出された特徴同士の相補性を利用してモデルの特徴抽出能力を向上させることができる。1つのモデルで発生した位置決め用の候補者(前記検出枠)により、もう1つのモデルが画像におけるターゲットの位置決めをより正確に実現させるのを補助する。
該例で提供されるターゲット検出方法は、深層学習フレームワークの動作位置決めモデルに基づいて、複数の動作ターゲットに対して位置決めを行うことができる。
まず、Faster-RCNNアルゴリズムを利用して、ビデオの現在フレームのRGB画像及びオプティカルフロー画像に対して、動作位置決め用の候補者を生成し、対応する特徴を抽出する。ここで、RGB画像に対して、第1種類の画像特徴を抽出する。オプティカルフロー画像に対して、第2種類の画像特徴を抽出する。
続いて、情報伝達方法を利用して、相補情報を1つのモデルの特徴からもう1つのモデルに伝達すると共に、様々なモデルで生成された動作位置決め用の候補者を融合し、相補した候補者を得る。ここで、相補情報は、畳み込み伝送チャネルを利用して1つの画像特徴に対して畳み込み処理を行った後に得られた、もう1つの画像特徴を補強するための画像特徴であってもよい。
続いて、もう1つの画像特徴を補強するための画像特徴である新規生成した特徴及び動作位置決め用候補者を利用して現在フレームに対して動作分類及び位置決めを行う。
最後に、接続ポリシーを利用して各フレームの動作位置決めを直列接続することで、動作開始時点及び終了時点並びに各フレームでの動作の空間的位置などの情報のような動作位置決め結果を得る。
該例は、動作検出及び時系列的接続を含む。
Faster-RCNNアルゴリズムを利用して、RGB画像及びオプティカルフロー画像に対して、対応する検出枠及び動作類別をそれぞれ決定する。
2つの異なるモデルで発生した検出枠を集め、各検出枠を利用して、対応する位置のRGB及びオプティカルフロー特徴をそれぞれ抽出する。1つのモデルで抽出された特徴(例えば、オプティカルフロー)に対して、二層の1x1の畳み込み(情報伝達)を行うことで、もう1つのモデルで抽出された特徴(例えば、RGB)に付加し、より強い特徴を得る。
前記ステップで得られた検出枠集合及び改良した特徴に基づいて、分類器と回帰器を利用して、更なる分類及び回帰を行い、より正確な検出枠を得る。
複数回の反復(例えば、4回又は4回以上の反復)を行うことで、最終的に発生した検出枠の正確性を向上させる。
前記時系列的接続ステップの入力は、全てのフレームで生成された検出枠及び対応する動作類別である。前記時系列的接続ステップの出力は、検出枠を接続した動作パイプラインである。
最後に、動作パイプラインに基づいて、ターゲット追跡又はターゲットの行為の分析を行う。
接続ポリシーを利用して、ビデオを、動作検出モデルで発生した検出枠により時間領域で接続することで、動作パイプラインを生成することを含んでもよい。
コンピュータによる実行可能な命令を記憶するように構成されるメモリと、
ディスプレイ及び前記メモリにそれぞれ接続され、前記メモリに記憶されているコンピュータによる実行可能な命令を実行することで、前記1つ又は複数の技術的解決手段で提供されるターゲット検出方法を実現させ、例えば図1及び図4に示したターゲット検出方法のうちの少なくとも1つを実現させるように構成されるプロセッサと、を備える。
幾つかの実施例において、前記端末装置は通信インタフェースを更に備えてもよい。該通信インタフェースは、ローカルエリアネットワーク、送受信アンテナなどのようなネットワークインタフェースであってもよい。前記通信インタフェースも、前記プロセッサに接続され、情報送受信に用いられる。
120 統合モジュール
130 抽出モジュール
140 第1最適化モジュール
150 第2最適化モジュール
Claims (13)
- ターゲット検出方法であって、
n個の異なるターゲット検出器により決定された、位置決めターゲットに関連するn種類の検出枠を取得することであって、前記n個の異なるターゲット検出器は、同一の画像から、n種類の異なる画像特徴を抽出することができ、nは2以上の正整数である、ことと、
前記n種類の検出枠に基づいて、統合された検出枠を得ることと、
前記n個の異なるターゲット検出器のうちの各ターゲット検出器が、前記統合された検出枠に基づいて、入力画像から画像特徴を抽出し、n種類の画像特徴を得ることと、
n種類の画像特徴に基づいて、画像特徴最適化を行い、最適化された画像特徴を得ることと、
前記最適化された画像特徴に基づいて、最適化された検出枠を得て、ターゲットを検出することと、を含む、方法。 - 前記n種類の画像特徴に基づいて、画像特徴最適化を行い、最適化された画像特徴を得ることは、
前記方法をm回目に実行するときに、前記n種類の画像特徴のうちのn-1種類の画像特徴を利用して、前記n種類の画像特徴のうちの第p種類の画像特徴を最適化し、前記最適化された画像特徴を得ることを含み、
ここで、第p種類の画像特徴は、前記n種類の画像特徴のうちの、前記n-1種類の画像特徴以外の1種類の画像特徴であり、mは、0より大きい整数であり、pは、0より大きくてn以下の整数であることを特徴とする
請求項1に記載の方法。 - 前記n種類の画像特徴のうちのn-1種類の画像特徴を利用して、前記n種類の画像特徴のうちの第p種類の画像特徴を最適化し、前記最適化された画像特徴を得ることは、
前記n-1種類の画像特徴のうちの各種類の画像特徴に対して畳み込み処理を行い、前記n-1種類の画像特徴のうちの各種類の画像特徴の畳み込み特徴を得ることと、
前記畳み込み特徴を利用して、前記n種類の画像特徴のうちの第p種類の画像特徴を最適化し、前記最適化された画像特徴を得ることと、を含むことを特徴とする
請求項2に記載の方法。 - 前記n-1種類の画像特徴のうちの各種類の画像特徴に対して畳み込み処理を行い、前記n-1種類の画像特徴のうちの各種類の画像特徴の畳み込み特徴を得ることは、
前記n-1種類の画像特徴のうちの各種類の画像特徴に対して第1畳み込み処理を行い、n-1種類の第1畳み込み特徴を得ることと、
前記n-1種類の第1畳み込み特徴のうちの各種類の第1畳み込み特徴に対して活性化処理を行い、n-1種類の活性化特徴を得ることと、
前記n-1種類の活性化特徴のうちの各種類の活性化特徴に対して第2畳み込み処理を行い、前記n-1種類の画像特徴のうちの各種類の画像特徴の畳み込み特徴を得ることと、を含むことを特徴とする
請求項3に記載の方法。 - 前記最適化された画像特徴に基づいて、最適化された検出枠を得ることは、
最適化された画像特徴に基づいて回帰処理を行い、前記最適化された検出枠を得ることを含むことを特徴とする
請求項1から4のうちいずれか一項に記載の方法。 - 前記n種類の検出枠に基づいて、統合された検出枠を得ることは、
前記n種類の検出枠のうちの各種類の検出枠のうちの確率値が確率閾値以上である検出枠を併合し、統合された検出枠を得ることを更に含むことを特徴とする
請求項1から5のうちいずれか一項に記載の方法。 - 前記方法が初回実行され、前記n個の異なるターゲット検出器により決定された、位置決めターゲットに関連するn種類の検出枠を取得することは、
n個の異なるターゲット検出器をそれぞれ利用して前記入力画像においてターゲットを検出し、位置決めターゲットに関連するn種類の検出枠を得ることを含み、
前記方法がk回目に実行され、kは1より大きい整数であり、前記n個の異なるターゲット検出器により決定された、位置決めターゲットに関連するn種類の検出枠を取得することは、
n個の異なるターゲット検出器のうちの各ターゲット検出器に対して、前記方法をk-1回目に実行するときに該ターゲット検出器により決定された検出枠又は該ターゲット検出器に対応する最適化された検出枠を取得することを含むことを特徴とする
請求項1から6のうちいずれか一項に記載の方法。 - 前記方法は、
ビデオにおける複数個フレームの画像の前記最適化された検出枠を接続し、同一のターゲットの動作パイプラインを形成することと、
前記動作パイプラインに基づいてターゲット追跡を行うことと、を更に含むことを特徴とする
請求項1から6のうちいずれか一項に記載の方法。 - 前記ビデオにおける複数個フレームの画像の前記最適化された検出枠を接続し、同一のターゲットの動作パイプラインを形成することは、
q番目の画像フレームの前記最適化された検出枠に基づいて、再検出された画像特徴を得ることであって、qは正整数である、ことと、
前記再検出された画像特徴に基づいて、動作タイプの認識を行い、対応するタイプの動作と決定されることを示す確率値を得ることと、
前記確率値に基づいて、前記最適化された検出枠に対して平滑化フィルタリングを行い、平滑化フィルタリングされた最適化された検出枠を得ることと、
時間領域内において、平滑化フィルタリングされた最適化された検出枠を関連付け、前記動作パイプラインを得ることと、を含むことを特徴とする
請求項8に記載の方法。 - ターゲット検出装置であって、
n個の異なるターゲット検出器により決定された、位置決めターゲットに関連するn種類の検出枠を取得するように構成される取得モジュールであって、前記n個の異なるターゲット検出器は、同一の画像から、n種類の異なる画像特徴を抽出することができ、nは2以上の正整数である、取得モジュールと、
前記n種類の検出枠に基づいて、統合された検出枠を得るように構成される統合モジュールと、
前記n個の異なるターゲット検出器のうちの各ターゲット検出器が、前記統合された検出枠に基づいて、入力画像から画像特徴を抽出し、n種類の画像特徴を得るように構成される抽出モジュールと、
n種類の画像特徴に基づいて、画像特徴最適化を行い、最適化された画像特徴を得るように構成される第1最適化モジュールと、
前記最適化された画像特徴に基づいて、最適化された検出枠を得て、ターゲットを検出するように構成される第2最適化モジュールと、を備える、装置。 - ターゲット検出機器であって、
コンピュータによる実行可能な命令を記憶するように構成されるメモリと、
前記メモリに接続され、前記コンピュータによる実行可能な命令を実行することで、請求項1から9のうちいずれか一項で提供される方法を実現させるように構成されるプロセッサと、を備える、前記ターゲット検出機器。 - コンピュータ記憶媒体であって、前記コンピュータ記憶媒体には、コンピュータによる実行可能な命令が記憶されており、前記コンピュータによる実行可能な命令がプロセッサにより実行された後、請求項1から9のうちいずれか一項で提供される方法を実現させる、前記コンピュータ記憶媒体。
- コンピュータに、請求項1から9のうちいずれか一項に記載の方法を実行させる、コンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910364565.0 | 2019-04-30 | ||
CN201910364565.0A CN110210474B (zh) | 2019-04-30 | 2019-04-30 | 目标检测方法及装置、设备及存储介质 |
PCT/CN2019/121773 WO2020220663A1 (zh) | 2019-04-30 | 2019-11-28 | 目标检测方法及装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021525409A JP2021525409A (ja) | 2021-09-24 |
JP7012880B2 true JP7012880B2 (ja) | 2022-01-28 |
Family
ID=67785384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020561811A Active JP7012880B2 (ja) | 2019-04-30 | 2019-11-28 | ターゲット検出方法及び装置、機器並びに記憶媒体 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11151358B2 (ja) |
JP (1) | JP7012880B2 (ja) |
KR (1) | KR20200139212A (ja) |
CN (1) | CN110210474B (ja) |
SG (1) | SG11202012861PA (ja) |
WO (1) | WO2020220663A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210474B (zh) * | 2019-04-30 | 2021-06-01 | 北京市商汤科技开发有限公司 | 目标检测方法及装置、设备及存储介质 |
CN111339813B (zh) * | 2019-09-30 | 2022-09-27 | 深圳市商汤科技有限公司 | 人脸属性识别方法、装置、电子设备和存储介质 |
CN111523599B (zh) * | 2020-04-24 | 2024-03-26 | 上海商汤智能科技有限公司 | 目标检测方法及装置、电子设备和存储介质 |
CN112861711A (zh) * | 2021-02-05 | 2021-05-28 | 深圳市安软科技股份有限公司 | 区域入侵检测方法、装置、电子设备及存储介质 |
CN112989992B (zh) * | 2021-03-09 | 2023-12-15 | 阿波罗智联(北京)科技有限公司 | 目标检测方法、装置、路侧设备和云控平台 |
CN113177133B (zh) * | 2021-04-23 | 2024-03-29 | 深圳依时货拉拉科技有限公司 | 一种图像检索方法、装置、设备及存储介质 |
CN114092045A (zh) * | 2021-11-10 | 2022-02-25 | 深圳市文君创艺广告文化传媒有限公司 | 基于物联网的社区建档方法、装置及存储介质 |
CN114871115A (zh) * | 2022-04-28 | 2022-08-09 | 五邑大学 | 一种物体分拣方法、装置、设备及存储介质 |
CN116229452B (zh) * | 2023-03-13 | 2023-11-17 | 无锡物联网创新中心有限公司 | 一种基于改进的多尺度特征融合的点云三维目标检测方法 |
CN116385952B (zh) * | 2023-06-01 | 2023-09-01 | 华雁智能科技(集团)股份有限公司 | 配网线路小目标缺陷检测方法、装置、设备及存储介质 |
CN116587327A (zh) * | 2023-06-20 | 2023-08-15 | 广东电网有限责任公司广州供电局 | 运动控制系统、带电作业机器人检测方法及相关设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007188419A (ja) | 2006-01-16 | 2007-07-26 | Fujifilm Corp | 顔検出方法および装置並びにプログラム |
JP2014137629A (ja) | 2013-01-15 | 2014-07-28 | Mega Chips Corp | 画像検出装置及び制御プログラム並びに画像検出方法 |
JP2018180945A (ja) | 2017-04-13 | 2018-11-15 | 株式会社豊田中央研究所 | 物体検出装置及びプログラム |
JP2019032773A (ja) | 2017-08-09 | 2019-02-28 | キヤノン株式会社 | 画像処理装置、画像処理方法 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411716A (zh) * | 2010-09-21 | 2012-04-11 | 索尼公司 | 目标检测和分类方法和装置 |
JP2012108785A (ja) * | 2010-11-18 | 2012-06-07 | Panasonic Corp | 人数カウント装置、人数カウント方法及び人数カウントプログラム |
CN104268514A (zh) * | 2014-09-17 | 2015-01-07 | 西安交通大学 | 一种基于多特征融合的手势检测方法 |
US9589210B1 (en) * | 2015-08-26 | 2017-03-07 | Digitalglobe, Inc. | Broad area geospatial object detection using autogenerated deep learning models |
CN105913003B (zh) * | 2016-04-07 | 2019-06-07 | 国家电网公司 | 一种多特征多模型的行人检测方法 |
US20170330059A1 (en) * | 2016-05-11 | 2017-11-16 | Xerox Corporation | Joint object and object part detection using web supervision |
CN106529527A (zh) * | 2016-09-23 | 2017-03-22 | 北京市商汤科技开发有限公司 | 物体检测方法和装置、数据处理装置和电子设备 |
CN108171103A (zh) * | 2016-12-07 | 2018-06-15 | 北京三星通信技术研究有限公司 | 目标检测方法及装置 |
CN108229455B (zh) * | 2017-02-23 | 2020-10-16 | 北京市商汤科技开发有限公司 | 物体检测方法、神经网络的训练方法、装置和电子设备 |
CN107124609A (zh) * | 2017-04-27 | 2017-09-01 | 京东方科技集团股份有限公司 | 一种视频图像的处理系统、其处理方法及显示装置 |
CN107301377B (zh) * | 2017-05-26 | 2020-08-18 | 浙江大学 | 一种基于深度相机的人脸与行人感知系统 |
CN107292293A (zh) * | 2017-07-26 | 2017-10-24 | 北京小米移动软件有限公司 | 人脸检测的方法及装置 |
CN107527053A (zh) * | 2017-08-31 | 2017-12-29 | 北京小米移动软件有限公司 | 目标检测方法及装置 |
US11004209B2 (en) * | 2017-10-26 | 2021-05-11 | Qualcomm Incorporated | Methods and systems for applying complex object detection in a video analytics system |
CN108009544B (zh) * | 2017-12-13 | 2021-08-31 | 北京小米移动软件有限公司 | 目标检测方法及装置 |
CN108154105B (zh) * | 2017-12-21 | 2020-08-07 | 深圳先进技术研究院 | 水下生物检测与识别方法、装置、服务器及终端设备 |
US11164003B2 (en) * | 2018-02-06 | 2021-11-02 | Mitsubishi Electric Research Laboratories, Inc. | System and method for detecting objects in video sequences |
CN108288273B (zh) * | 2018-02-09 | 2021-07-27 | 南京智莲森信息技术有限公司 | 基于多尺度耦合卷积网的铁路接触网异常目标自动检测法 |
CN108985147A (zh) * | 2018-05-31 | 2018-12-11 | 成都通甲优博科技有限责任公司 | 目标检测方法及装置 |
CN110660037B (zh) * | 2018-06-29 | 2023-02-10 | 京东方科技集团股份有限公司 | 图像间脸部交换的方法、装置、系统和计算机程序产品 |
CN109145898A (zh) * | 2018-07-26 | 2019-01-04 | 清华大学深圳研究生院 | 一种基于卷积神经网络和迭代机制的物体检测方法 |
US11238612B2 (en) * | 2018-08-28 | 2022-02-01 | Beijing Jingdong Shangke Information Technology Co., Ltd. | Device and method of tracking poses of multiple objects based on single-object pose estimator |
CN110569696A (zh) * | 2018-08-31 | 2019-12-13 | 阿里巴巴集团控股有限公司 | 用于车辆部件识别的神经网络系统、方法和装置 |
CN109376637B (zh) * | 2018-10-15 | 2021-03-02 | 齐鲁工业大学 | 基于视频监控图像处理的人数统计系统 |
CN109376681B (zh) * | 2018-11-06 | 2021-09-03 | 广东工业大学 | 一种多人姿态估计方法及系统 |
US11537811B2 (en) * | 2018-12-04 | 2022-12-27 | Tesla, Inc. | Enhanced object detection for autonomous vehicles based on field view |
CN110210474B (zh) * | 2019-04-30 | 2021-06-01 | 北京市商汤科技开发有限公司 | 目标检测方法及装置、设备及存储介质 |
-
2019
- 2019-04-30 CN CN201910364565.0A patent/CN110210474B/zh active Active
- 2019-11-28 WO PCT/CN2019/121773 patent/WO2020220663A1/zh active Application Filing
- 2019-11-28 KR KR1020207031430A patent/KR20200139212A/ko not_active Application Discontinuation
- 2019-11-28 SG SG11202012861PA patent/SG11202012861PA/en unknown
- 2019-11-28 JP JP2020561811A patent/JP7012880B2/ja active Active
-
2020
- 2020-12-18 US US17/126,968 patent/US11151358B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007188419A (ja) | 2006-01-16 | 2007-07-26 | Fujifilm Corp | 顔検出方法および装置並びにプログラム |
JP2014137629A (ja) | 2013-01-15 | 2014-07-28 | Mega Chips Corp | 画像検出装置及び制御プログラム並びに画像検出方法 |
JP2018180945A (ja) | 2017-04-13 | 2018-11-15 | 株式会社豊田中央研究所 | 物体検出装置及びプログラム |
JP2019032773A (ja) | 2017-08-09 | 2019-02-28 | キヤノン株式会社 | 画像処理装置、画像処理方法 |
Also Published As
Publication number | Publication date |
---|---|
KR20200139212A (ko) | 2020-12-11 |
CN110210474B (zh) | 2021-06-01 |
WO2020220663A1 (zh) | 2020-11-05 |
SG11202012861PA (en) | 2021-11-29 |
US20210110138A1 (en) | 2021-04-15 |
US11151358B2 (en) | 2021-10-19 |
CN110210474A (zh) | 2019-09-06 |
JP2021525409A (ja) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7012880B2 (ja) | ターゲット検出方法及び装置、機器並びに記憶媒体 | |
CN107545262B (zh) | 一种在自然场景图像中检测文本的方法及装置 | |
US10672131B2 (en) | Control method, non-transitory computer-readable storage medium, and control apparatus | |
CN108256506B (zh) | 一种视频中物体检测方法及装置、计算机存储介质 | |
US9905015B2 (en) | Systems and methods for non-obstacle area detection | |
Gilroy et al. | Overcoming occlusion in the automotive environment—A review | |
JP6650657B2 (ja) | フィンガープリントを使用してビデオ内で移動オブジェクトを追跡するため方法及びシステム | |
US9652851B2 (en) | Side window detection in near-infrared images utilizing machine learning | |
CN110491132B (zh) | 基于视频帧图片分析的车辆违停检测方法及装置 | |
US9836851B2 (en) | Apparatus and method for detecting multiple objects using adaptive block partitioning | |
WO2021017283A1 (zh) | 基于离线型的在线跟踪方法、装置、计算机设备及存储介质 | |
JP2014071902A5 (ja) | ||
KR102138680B1 (ko) | 영상 인식 장치 및 방법 | |
US11804026B2 (en) | Device and a method for processing data sequences using a convolutional neural network | |
KR102387357B1 (ko) | 바운딩 박스를 시공간상으로 매칭하여 영상 내 객체를 검출하는 방법 및 장치 | |
CN111652181B (zh) | 目标跟踪方法、装置及电子设备 | |
Getahun et al. | A deep learning approach for lane detection | |
CN110866428A (zh) | 目标跟踪方法、装置、电子设备及存储介质 | |
CN114155278A (zh) | 目标跟踪及相关模型的训练方法和相关装置、设备、介质 | |
Al Mamun et al. | Efficient lane marking detection using deep learning technique with differential and cross-entropy loss. | |
Das | Soildnet: Soiling degradation detection in autonomous driving | |
CN115880662A (zh) | 利用异类传感器的协同作用进行自主驾驶的3d目标检测方法 | |
CN109961083B (zh) | 用于将卷积神经网络应用于图像的方法和图像处理实体 | |
CN113989753A (zh) | 一种多目标检测处理方法及装置 | |
JP4818430B2 (ja) | 移動物体認識方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201030 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201030 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220118 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7012880 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |