JP7012880B2 - ターゲット検出方法及び装置、機器並びに記憶媒体 - Google Patents

ターゲット検出方法及び装置、機器並びに記憶媒体 Download PDF

Info

Publication number
JP7012880B2
JP7012880B2 JP2020561811A JP2020561811A JP7012880B2 JP 7012880 B2 JP7012880 B2 JP 7012880B2 JP 2020561811 A JP2020561811 A JP 2020561811A JP 2020561811 A JP2020561811 A JP 2020561811A JP 7012880 B2 JP7012880 B2 JP 7012880B2
Authority
JP
Japan
Prior art keywords
image
type
target
optimized
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020561811A
Other languages
English (en)
Other versions
JP2021525409A (ja
Inventor
▲鋭▼ ▲蘇▼
万里 欧▲陽▼
▲瀘▼▲ピン▼ 周
▲東▼ 徐
Original Assignee
ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド filed Critical ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Publication of JP2021525409A publication Critical patent/JP2021525409A/ja
Application granted granted Critical
Publication of JP7012880B2 publication Critical patent/JP7012880B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computational Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biophysics (AREA)
  • Algebra (AREA)
  • Image Analysis (AREA)

Description

(関連出願の相互参照)
本願は、2019年04月30日に提出された出願番号201910364565.0の中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
本発明は、コンピュータビジョン技術分野に関するが、これに限定されず、特に、ターゲット検出方法及び装置、機器並びにコンピュータ記憶媒体に関する。
コンピュータビジョン技術は一般的には、画像収集に関わる。続いて、収集された画像に対する分析により、ターゲットの追跡又はターゲットの行為の分析を実現させる。幾つかのシーンにおいて、コンピュータビジョン技術は更に、行為分析及び/又は不正行為の追跡及び早期警告等の操作に関わる。
コンピュータビジョン技術において、一般的には、深層学習モデルを利用してターゲット検出を行うが、ターゲットを見失うか又はターゲットを誤追跡するという問題が存在することがある。
これに鑑み、本発明の実施例は、ターゲット検出方法及び装置、機器並びにコンピュータ記憶媒体を提供することが望ましい。
本発明の実施例で提供されるターゲット検出方法は、
n個の異なるターゲット検出器により決定された、位置決めターゲットに関連するn種類の検出枠を取得することであって、前記n個の異なるターゲット検出器は、同一の画像から、n種類の異なる画像特徴を抽出することができ、nは2以上の正整数である、ことと、
前記n種類の検出枠に基づいて、統合された検出枠を得ることと、
前記n個の異なるターゲット検出器のうちの各ターゲット検出器が、前記統合された検出枠に基づいて、入力画像から画像特徴を抽出し、n種類の画像特徴を得ることと、
n種類の画像特徴に基づいて、画像特徴最適化を行い、最適化された画像特徴を得ることと、
前記最適化された画像特徴に基づいて、最適化された検出枠を得て、ターゲットを検出することと、を含む。
本発明の実施例は、ターゲット検出装置を更に提供する。前記装置は、
n個の異なるターゲット検出器により決定された、位置決めターゲットに関連するn種類の検出枠を取得するように構成される取得モジュールであって、前記n個の異なるターゲット検出器は、同一の画像から、n種類の異なる画像特徴を抽出することができ、nは2以上の正整数である、取得モジュールと、
前記n種類の検出枠に基づいて、統合された検出枠を得るように構成される統合モジュールと、
前記n個の異なるターゲット検出器のうちの各ターゲット検出器が、前記統合された検出枠に基づいて、入力画像から画像特徴を抽出し、n種類の画像特徴を得るように構成される抽出モジュールと、
n種類の画像特徴に基づいて、画像特徴最適化を行い、最適化された画像特徴を得るように構成される第1最適化モジュールと、
前記最適化された画像特徴に基づいて、最適化された検出枠を得て、ターゲットを検出するように構成される第2最適化モジュールと、を備える。
本発明の実施例は、ターゲット検出機器を更に提供する。前記ターゲット検出機器は、
コンピュータによる実行可能な命令を記憶するように構成されるメモリと、
前記メモリに接続され、前記コンピュータによる実行可能な命令を実行することで、前記いずれか1つの技術的解決手段により提供されるターゲット検出方法を実現させるように構成されるプロセッサと、を備える。
コンピュータ記憶媒体であって、前記コンピュータ記憶媒体には、コンピュータによる実行可能な命令が記憶されており、前記コンピュータによる実行可能な命令がプロセッサにより実行された後、前記いずれか1つの技術的解決手段により提供されるターゲット検出方法を実現させることができる。
コンピュータプログラム製品であって、前記コンピュータプログラム製品は、コンピュータ命令を含み、前記コンピュータ命令を呼び出すことで、コンピュータ装置に、前記いずれか1つの技術的解決手段により提供されるターゲット検出方法を実行させる。
本発明の実施例により提供されるターゲット検出方法によれば、様々なターゲット検出器を利用して別々に検出枠を得る。まず、検出枠の統合により、様々なターゲット検出器の検出枠を統合された検出枠を得る。単一のターゲット検出器の検出枠により特徴対象物の追跡を直接的に行うことに比べて、漏れ及び誤りを低減させる。続いて、少なくとも2種のターゲット検出器を利用して、統合された検出枠に基づいて、別々に少なくとも2種類の画像特徴を抽出し、少なくとも2種類の画像特徴に基づいて画像特徴の最適化を行うことで、画像特徴の漏れ及び誤りを低減させる。最後に、最適化された画像特徴により、最適化された検出枠を逆算する。該最適化された検出枠に基づいて、ターゲット追跡又はターゲット追跡に基づいたターゲット分析を行う。任意の単一のターゲット検出器に比べて、漏れ及び誤りを低減させることができる。
本発明の実施例によるターゲット検出方法を示すフローチャートである。 本発明の実施例による第2種類の画像特徴を利用して第1種類の画像特徴を最適化することを示す概略図である。 本発明の実施例による第1種類の画像特徴を利用して第2種類の画像特徴を最適化することを示す概略図である。 本発明の実施例による反復最適化を示す概略図である。 本発明の実施例による接続により形成された動作パイプラインを示す概略図である。 本発明の実施例によるターゲット検出装置の構造を示す概略図である。 本発明の実施例によるターゲット検出機器の構造を示す概略図である。
以下、明細書の図面及び具体的な実施例を参照しながら、本発明の技術的解決手段を更に詳しく説明する。
図1に示すように、本発明の実施例は、ターゲット検出方法を提供する。前記方法は、以下を含む。
ステップS110において、n個の異なるターゲット検出器により決定された、位置決めターゲットに関連するn種類の検出枠を取得し、前記n個の異なるターゲット検出器は、同一の画像から、n種類の異なる画像特徴を抽出することができ、nは2以上の正整数である。
ステップS120において、前記n種類の検出枠に基づいて、統合された検出枠を得る。
ステップS130において、前記n個の異なるターゲット検出器のうちの各ターゲット検出器が、前記統合された検出枠に基づいて、入力画像から画像特徴を抽出し、n種類の画像特徴を得る。
ステップS140において、n種類の画像特徴に基づいて、画像特徴最適化を行い、最適化された画像特徴を得る。
ステップS150において、前記最適化された画像特徴に基づいて、最適化された検出枠を得て、ターゲットを検出する。
本発明の実施例で提供されるターゲット検出方法は、同一の画像から異なる画像特徴を抽出できる2つの異なるターゲット検出器を実行している機器に適用可能である。
該ターゲット検出方法は、ターゲット追跡に用いられる。例えば、移動可能なロボットは、該ターゲット検出方法を実行することで、追跡される人間を決定し、続いて、例えば、案内サービスなどのような種々のサービスを人間に提供する。また例えば、貨物運搬ロボットは、貨物及び人間を予定地に運搬する。幾つかの実施例において、道路上の歩行者の運動を追跡し、追跡により得られた運動軌跡に基づいて防犯を行うために用いられてもよい。
各ターゲット検出器は、1つの入力画像から1種類の画像特徴を抽出することができる。抽出された画像特徴を利用してターゲットを検出する場合、位置決めターゲットに関連する1種類の検出枠を得ることができる。
前記ターゲット検出器は、同一の画像から、様々な画像特徴を抽出できる深層学習モデル又は機械学習モデルである。
n個の前記ターゲット検出器におけるnは、2以上の正整数であってもよく、nの具体的な数値は、2、3又は4などであってもよい。
前記n種類の異なるターゲット検出器は、下記いずれか1つの点で相違する。
n種類の異なるターゲット検出器に対応するニューラルネットワークのネットワーク構造が異なる。
n種類の異なるターゲット検出器に対応するニューラルネットワークのネットワークパラメータが異なる。
n種類の異なるターゲット検出器が準拠するモデルアルゴリズムが異なる。
n種類の異なるターゲット検出器による検出枠抽出の方式が異なる。
n種類の異なるターゲット検出器による画像特徴抽出の方式が異なる。
要するに、本実施例において、n種類のターゲット検出器は、同一の入力画像について、同一のタイプの結果を得る必要があっても、ターゲット検出器自体の属性及び/又はパラメータが異なることにより、異なるターゲット検出器は、画像の様々な特徴に基づいて処理する必要があることを引き起こす可能性がある。従って、1つのターゲット検出器の利点は、他のターゲット検出器の欠点を補い、最終的なターゲット検出結果を最適化することができる。
単一のターゲット検出器は、入力画像から、ターゲット位置決め及び/又はターゲット分析を行う場合に発生した精度が不十分ではないという問題を解決するために、本実施例において、n個のターゲット検出器を同時に利用して別々に対応する検出枠を取得する。
前記n個のターゲット検出器により検出された検出枠はいずれも矩形枠であってもよく、それぞれ、n個のターゲット検出器により直接的又は間接的に決定された、入力画像におけるターゲットを含むと認められた領域である。
本実施例において、1つの前記ターゲット検出器は、入力画像から1種類の画像特徴を抽出することができる。
本実施例において、n種類のターゲット検出器は、異なる検出機能を有してもよい。例えば、タイプの異なる画像特徴を抽出することができる。
前記ターゲットは、タイプに応じて分類すると、種々の移動対象を含んでもよい。該移動対象は、生体又は非生体を含むが、これらに限定されない。典型的な生体は、人間及び/又は動物を含むが、これらに限定されない。非生体は、様々な乗り物及び/又は自走可能なロボットなどを含んでもよい。
ステップS120において、n個のターゲット検出器の検出枠に基づいて、統合を行う。ここで、統合は、異なるターゲット検出器の検出枠の併合などを含むが、これらに限定されない。従って、統合された検出枠は、単一のターゲット検出器に検出漏れが発生してターゲットを見失うという現象を低減させることができる。一方で、単一のターゲット検出器による位置決めにエラーが発生して入力画像におけるターゲットを含む領域が検出枠で囲まれず、ターゲットを見失うという現象を低減させることができる。
具体的に、前記ステップS120は、
前記n個のターゲット検出器から出力された検出枠の和集合を求め、前記統合された検出枠を得ることと、
対応する第1確率値が降順に応じてソートされる場合に上位M1%位になる1つのターゲット検出器の検出枠と他のターゲット検出器の検出枠の和集合を求め、前記統合された検出枠を得ることと、を含んでもよいが、これらに限定されない。
前記M1は、100未満の正整数であり、例えば、M1の値は、いずれも50又は60等の値であってもよい。
ステップS130において特徴検出を行う場合、各ターゲット検出器は、自体により得られた検出枠に基づいて直接的に画像特徴を抽出することなく、統合された検出枠に基づいて、検出画像から、それぞれ対応する画像特徴を抽出する。
例えば、nが2であると仮定する場合、n個のターゲット検出器は、第1ターゲット検出器及び第2ターゲット検出器を含む。第1ターゲット検出器は、第1種類の検出枠を出力する。第2ターゲット検出器は、第2種類の検出枠を出力する。更に、第1種類の検出枠の数は、S1個であり、第2種類の検出枠の数は、S2個であり、第1種類の検出枠と第2種類の検出枠に対して併合等の処理を行った後、S3個の統合された検出枠を得ると仮定する。
S3は、S1とS2の和以下であり、且つ、S3は、S1以上であるか、又は、S3は、S2以上である。
ステップS130において、第1ターゲット検出器は、入力画像での、S3個の統合された検出枠の位置に基づいて、統合された検出枠で囲まれた画像領域内の第1種類の画像特徴をそれぞれ抽出し、第2ターゲット検出器は、S3個の統合された検出枠基づいて、統合された検出枠で囲まれた画像領域内の第2種類の画像特徴をそれぞれ抽出する。
本実施例において、前記第1種類の画像特徴と第2種類の画像特徴は、タイプの異なる特徴である。それらは、
異なるモデルにより抽出された特徴の点で相違する。
画像特徴の特徴値は、画像の様々な属性に対応する。例えば、ある画像特徴は、色分布状況を記述し、ある画像特徴は、輝度分布状況を記述する。また例えば、ある画像特徴は、1つの画像対象の外観情報を記述し、ある画像特徴は、1つの画像対象の構造情報を記述する。
要するに、前記第1種類の画像特徴と前記第2種類の画像特徴は、タイプの異なる画像特徴である。
本実施例において、第1種類の画像特徴及び第2種類の画像特徴を得た後、該2種類の画像特徴を更に結合し、最適化された画像特徴を得る。ここで、最適化された画像特徴は、2種類の画像特徴の特徴値を導入することができ、及び/又は、単一の画像特徴によるターゲットに対する記述は不十分であるか又は誤ったという現象を少なくとも減少させることができる。
本実施例において、前記ステップS140は、n個のターゲット検出器により、統合された検出枠に基づいて得られたそれぞれの画像特徴を融合することを含んでもよい。
前記融合は、線形融合及び非線形融合を含む。
線形融合は、線形関数に変換可能な融合アルゴリズムを利用して、前記n種類の画像特徴を融合して、前記線形最適化された画像特徴を得ることである。典型的な線形関数は、等割合関数等を含むが、これらに限定されない。
非線形融合は、線形関数に変換不可能な融合アルゴリズムを利用して、前記n種類の画像特徴を融合して前記線形最適化された画像特徴を得ることである。典型的な非線形関数は、
区分関数及び/又は畳み込み演算が含まれる畳み込み関数を含んでもよい。
例えば、前記実施例に続き、nが2であることを例として説明する。第1ターゲット検出器から出力された第1種類の画像特徴と第2ターゲット検出器から出力された第2種類の画像特徴の融合は、以下の通りであってもよい。
前記第1種類の画像特徴と前記第2種類の画像特徴に対して線形融合を行い、線形最適化された画像特徴を得る。
前記第1種類の画像特徴と前記第2種類の画像特徴に対して非線形融合を行い、非線形最適化された画像特徴を得る。
前記第1種類の画像特徴と第2種類の画像特徴をスプライシングし、第1種類のスプライシング特徴を得る。スプライシング過程において、例えば、第1種類の画像特徴は、W1*H1*C1の画像特徴であり、第2種類の画像特徴は、W2*H1*C1である。該第1種類のスプライシング特徴は、(W1+W2)*H1*C1の画像特徴であってもよい。
第1種類の画像特徴を更に処理した後、第2種類の画像特徴とスプライシングされる可能な画像特徴に変換して、第2種類のスプライシング特徴を得る。
また幾つかの実施例において、前記ステップS140は、
第1種類の画像特徴におけるm番目の位置での特徴値の第1信頼度と、第2種類の画像特徴におけるm番目の位置での特徴値の第2信頼度と、を比較することと、
前記第1信頼度が第2信頼度より大きいと、第1種類の画像特徴におけるm番目の位置での特徴値を、最適化された画像特徴のm番目の位置での特徴値とすることと、
及び/又は、
第2信頼度が第1信頼度以上であると、第2種類の画像特徴におけるm番目の位置での特徴値を、最適化された画像特徴のm番目の位置での特徴値とすることと、を更に含んでもよい。
幾つかの実施例において、前記ステップS130は、関数
Figure 0007012880000001
により、前記最適化された画像特徴を得ることができる。ただし、
Figure 0007012880000002
は、m回目の最適化が実行された第1種類の画像特徴である。
Figure 0007012880000003
は、m回の最適化が実行される前の、第1ターゲット検出器により抽出された第1種類の画像特徴である。
Figure 0007012880000004
は、m回の最適化が実行された、第2ターゲット検出器により抽出された第2種類の画像特徴である。
Figure 0007012880000005
は、第1最適化関数である。
又は、
前記ステップS130は、関数
Figure 0007012880000006
により、前記最適化された画像特徴を得ることができる。ただし、
Figure 0007012880000007
は、m回目の最適化が実行された第2種類の画像特徴である。
Figure 0007012880000008
は、m回の最適化が実行される前の、第2ターゲット検出器により抽出された第2種類の画像特徴である。
Figure 0007012880000009
は、m回の最適化が実行された、第1ターゲット検出器により抽出された第1種類の画像特徴である。
Figure 0007012880000010
は、第2最適化関数である。
上記は、単に、第1種類の画像特徴及び第2種類の画像特徴に基づいて、最適化された画像特徴を得る例に過ぎず、具体的な実現形態は、多種であり、ここで、一々列挙しない。
要するに、最適化された画像特徴は、2種の異なる画像特徴に基づいて得られたものであるため、単一のターゲット検出器で特徴を抽出することにより引き起こされるターゲットの特徴が失うか又は誤るという現象を低減させ、ターゲットの見失い又はターゲット追跡の誤りの現象を減少させ、ターゲット追跡及び/又はターゲット分析の精度を向上させる。
幾つかの実施例において、前記最適化された画像特徴を得た後、最適化された画像特徴に基づいて検出枠を逆算し、つまり、前記最適化された検出枠を得る。
例えば、前記最適化された画像特徴を回帰器の入力として、回帰器から出力された検出枠の情報を得る。この時に得られた検出枠は、前記最適化された検出枠である。該最適化された検出枠は、第1ターゲット検出器を利用して直接的に抽出された第1種類の検出枠及び/又は第2ターゲット検出器を利用して直接的に抽出された第2種類の検出枠に比べて、追跡されるべきターゲットを含む確率が大幅に向上した。本実施例で提供されるターゲット検出方法を用いる場合、追跡されるターゲットが部分的に遮蔽されたか及び/又は高速運動している場合でも、正確に追跡を行うことができる。従って、追跡の成功率が高いという特徴を有し、ターゲット検出の精度及びロバスト性を向上させる。
幾つかの実施例において、前記ステップS140は、
前記方法をm回目に実行するときに、前記n種類の画像特徴のうちのn-1種類の画像特徴を利用して、前記n種類の画像特徴のうちの第p種類の画像特徴を最適化し、前記最適化された画像特徴を得ることを含んでもよく、
ここで、第p種類の画像特徴は、前記n種類の画像特徴のうちの、前記n-1種類の画像特徴以外の1種類の画像特徴であり、mは、0より大きい整数であり、pは、0より大きくてn以下の整数である。
本発明の実施例において、前記ステップS110からステップS150を一回実行することで、ターゲット追跡の成功率の向上を実現させることができる。しかしながら、本実施例において、追跡効果を更に向上させるために、本実施例に記載の方法は、複数回実行され、複数回の最適化を実現させる。
従って、本実施例において、前記mは、正整数であってもよい。画像特徴最適化を行うたびに、n個のターゲット検出器から1つのターゲット検出器をランダムに選択して、該ターゲット検出器により抽出された画像特徴又は該ターゲット検出器に対応する最適化さあれた画像特徴に対して最適化を行うことができる。
最適化効果を実現させるために、例えば、p=mod(m/n)+1という順番のような所定の順番に応じて、各種類の画像特徴を1つずつ最適化し、対応する種類の最適化された画像特徴を得ることができる。
例えば、nが2である場合、1回目の最適化において、第2種類の画像特徴を利用して、第1ターゲット検出器により抽出された第1種類の画像特徴に対して最適化を行い、最適化された画像特徴を得る。2回目の最適化において、最適化された画像特徴を利用して、第2ターゲット検出器により抽出された第2種類の画像特徴に対して最適化を行う。
nが3である場合、2回又は3回以上の最適化を行うことができる。1回目の最適化において、第2種類の画像特徴(第2ターゲット検出器により抽出された)及び第3種類の画像特徴(第3ターゲット検出器により抽出された)を利用して、第1ターゲット検出器により抽出された第1種類の画像特徴に対して最適化を行い、最適化された画像特徴を得る。2回目の最適化において、1回目の最適化が実行された画像特徴及び第3種類の画像特徴を利用して、第2ターゲット検出器により抽出された第2種類の画像特徴に対して最適化を行い、2回目の最適化が実行された画像特徴を得る。幾つかの実施例において、三回目の最適化を行う必要がある場合、1回目の最適化が実行された画像特徴及び2回目の最適化が実行された画像特徴を利用して、第3種類の画像特徴に対して最適化を行う。
幾つかの実施例において、前記ステップS140は
前記n-1種類の画像特徴のうちの各種類の画像特徴に対して畳み込み処理を行い、前記n-1種類の画像特徴のうちの各種類の画像特徴の畳み込み特徴を得ることと、
前記畳み込み特徴を利用して、前記n種類の画像特徴のうちの第p種類の画像特徴を最適化し、前記最適化された画像特徴を得ることと、を更に含んでもよい。
本実施例において、畳み込みのような非線形計算により、n種類の画像特徴を抽出して相補を行い、画像特徴の最適化を実行する。線形計算による特徴融合に比べて、効果がより高いという特徴を有する。
具体的な畳み込み処理は、異なるターゲット検出器の畳み込みチャネルを接続することで実現することができる。
幾つかの実施例において、前記n-1種類の画像特徴のうちの各種類の画像特徴に対して畳み込み処理を行い、前記n-1種類の画像特徴のうちの各種類の画像特徴の畳み込み特徴を得ることは、具体的には、
前記n-1種類の画像特徴のうちの各種類の画像特徴に対して第1畳み込み処理を行い、n-1種類の第1畳み込み特徴を得ることと、
前記n-1種類の第1畳み込み特徴のうちの各種類の第1畳み込み特徴に対して活性化処理を行い、n-1種類の活性化特徴を得ることと、
前記n-1種類の活性化特徴のうちの各種類の活性化特徴に対して第2畳み込み処理を行い、前記n-1種類の画像特徴のうちの各種類の画像特徴の畳み込み特徴を得ることと、を含んでもよい。
つまり、n-1種類の画像特徴のうちの各種類の画像特徴に対してまず一回の畳み込み処理を行い、続いて、畳み込み処理の結果を活性化処理し、更に、活性化処理の結果に対して一回の畳み込み処理を行う。
本実施例において、前記第1畳み込み処理及び第2畳み込み処理は、同一の畳み込み処理又は異なる畳み込み処理であってもよい。
例えば、nが2であることを例として説明すると、前記n-1種類の画像特徴のうちの各種類の画像特徴に対して畳み込み処理を行い、前記n-1種類の画像特徴のうちの各種類の画像特徴の畳み込み特徴を得て、前記畳み込み特徴を利用して、前記n種類の画像特徴のうちの第p種類の画像特徴を最適化し、前記最適化された画像特徴を得ることは、
畳み込み伝送チャネルを利用して、前記第1種類の画像特徴に対して畳み込み処理を行い、第1種類の畳み込み特徴を得て、前記第1種類の畳み込み特徴を利用して、前記第2種類の画像特徴を最適化し、最適化された第2種類の画像特徴を得ること、
又は、
畳み込み伝送チャネルを利用して、前記第2種類の画像特徴に対して畳み込み処理を行い、第2種類の畳み込み特徴を得て、前記第2種類の畳み込み特徴を利用して、前記第1種類の画像特徴を最適化し、最適化された第1種類の画像特徴を得ること、を含んでもよい。
本実施例において、第1種類の画像特徴と第2種類の画像特徴を融合処理して前記最適化された画像特徴を得る場合、畳み込み伝送チャネルを用いて畳み込み処理を行うことが好ましい。これにより、第1種類の画像と第2種類の画像の非線形融合を実現させる。
本実施例において、前記畳み込み伝送チャネルは、畳み込み操作を含む伝送チャネルである。画像特徴が畳み込み伝送チャネルにより伝送されると、該畳み込み伝送チャネルに入った画像特徴を、少なくとも1回の畳み込み操作を実行した後に出力する。
本実施例において、畳み込み伝送チャネルを利用して第1種類の画像特徴に対して畳み込み処理を行った後に、第1種類の畳み込み特徴を得る。第1種類の畳み込み特徴を利用して第2種類の画像特徴を最適化し、前記最適化された画像特徴を得る。今回最適化された画像特徴は、最適化された第2種類の画像特徴である。
本実施例において、前記畳み込み伝送チャネルは、前記第1種類の画像特徴に対して1回又は複数回の畳み込み処理を行い、第1種類の畳み込み特徴を得ることができる。
同様に、前記畳み込み伝送チャネルは、第2種類の画像特徴に対して1回又は複数回の畳み込み処理を行い、第2種類の畳み込み特徴を得ることもできる。
幾つかの実施例において、第1種類の画像特徴と第2種類の画像特徴に対して、同一の畳み込み伝送チャネルを利用して畳み込み処理を行うことができる。従って、第1種類の画像特徴と第2種類の画像特徴は、同一の畳み込み伝送チャネルを共有することができる。これにより、深層学習モデル又は機械学習モデルのモデル構造を簡略化することができる。
本実施例において、畳み込みのような非線形計算により、2種類の画像特徴を抽出して情報相補を行い、画像特徴の最適化を実行する。線形計算による特徴融合に比べて、効果がより高いという特徴を有する。
上記実施例における畳み込みチャネルは、
入力された画像特徴に対して一次畳み込み処理を行い、一次畳み込み特徴を得るように構成される第1畳み込み層であって、前記入力された画像特徴は、前記第1種類の画像特徴又は前記第2種類の画像特徴である、第1畳み込み層と、
前記第1畳み込み層に接続され、前記一次畳み込み特徴に対して活性化処理を行い、活性化特徴を得るように構成される活性化層と、
前記活性化層に接続され、前記活性化特徴に対して二次畳み込み処理を行い、前記第1種類の畳み込み特徴又は前記第2種類の畳み込み特徴を得るように構成される第2畳み込み層と、を備えてもよい。
本実施例において、前記第1畳み込み層は、入力された画像特徴に対して畳み込み処理を行う。ここで、第1畳み込み層の畳み込みカーネルは、1*1の畳み込みカーネルであってもよい。これにより、入力された画像特徴を第1畳み込み層により処理した後に出力した一次畳み込み特徴の次元は、入力された画像特徴の次元と同じである。
前記活性化層は、各タイプの活性化関数に応じて設定されたネットワーク層であってもよい。本実施例において、前記活性化層は、正規化線形関数(Rectified Linear Unit:ReLU)により提供されるネットワーク層であってもよい。
正規化線形関数により前記一次畳み込み特徴に対して特徴マッピングを行い、第2畳み込み層に入力された活性化特徴を得る。
第2畳み込み層は、畳み込みカーネルが第1畳み込み層の畳み込みカーネルと同じであるか又は異なる畳み込み層であってもよい。本実施例において、前記第2畳み込み層の畳み込みカーネルは同様に、1*1の畳み込みカーネルであってもよい。従って、第2畳み込み層により二次畳み込み処理を行うことで得られた第2種類の畳み込み特徴の次元も、第2畳み込み層に入力された入力特徴の次元と一致する。
例えば、第2畳み込み特徴の次元は、最適化を必要とする画像特徴の次元と一致することが可能である。
図2Aは、第1種類の画像特徴及び第2種類の画像特徴に基づいて、最適化された画像特徴を得ることを示す概略図である。図2Aにおいて、第2種類の画像特徴は、畳み込み伝送チャネルにより畳み込み処理された後、第1種類の画像特徴とスプライシングされ、最適化された画像特徴が得られ、つまり、最適化された第1種類の画像特徴が得られる。
図2Bは、第1種類の画像特徴及び第2種類の画像特徴に基づいて、最適化された画像特徴を得ることを示すもう1つの概略図である。図2Bにおいて、前記第1種類の画像特徴は、畳み込み伝送チャネルにより畳み込み処理された後、第2種類の画像特徴とスプライシングされ、最適化された画像特徴が得られ、つまり、最適化された第2種類の画像特徴が得られる。
ここで、第1ターゲット検出器は、第1検出枠を決定する。第2ターゲット検出器は、第2検出枠を決定する。第1検出枠と第2検出枠を統合された後に第3検出枠を得る。第1ターゲット検出器は、第3検出枠に基づいて、入力画像から第1種類の画像特徴を抽出する。第2ターゲット検出器は、第3検出枠に基づいて、入力画像から第2種類の画像特徴を抽出する。
該畳み込みチャネルは、nが3又は3以上である場合、n-1種類の画像特徴に対して畳み込み処理を行うために用いられてもよい。
幾つかの実施例において、前記ステップS150は、
最適化された画像特徴に基づいて回帰処理を行い、前記最適化された検出枠を得ることを含んでもよい。
本実施例において、最適化された画像特徴と検出枠との相互依存関係を逆算する等の回帰方式により、前記最適化された検出枠を得ることができる。
本実施例において、最適化された検出枠の取得方式は多種であり、ここで、実現しやすい方式を提供する。具体的な実現過程は、本実施例に限定されない。
nが2であることを例とする場合、前記ステップS150は、最適化された第1種類の画像特徴に基づいて、最適化された第1種類の検出枠を得ること、又は、最適化された第2種類の画像特徴に基づいて、最適化された第2種類の検出枠を得ること、を含んでもよい。
本実施例において、ステップS140において、第2種類の画像特徴を利用して第1種類の画像特徴を最適化(補強)し、最適化された第1種類の画像特徴を得ると、ステップS150において、最適化された第1種類の検出枠を得る。ステップS150において、第1種類の画像特徴を利用して第2種類の画像特徴を最適化(補強)し、最適化された第2種類の画像特徴を得ると、ステップS150において、最適化された第2種類の検出枠を得る。
従って、本実施例において、最適化された検出枠は、最適化された第1種類の検出枠及び最適化された第2種類の検出枠という2種に分けられてもよい。
ここで、第1種類の検出枠は、第1ターゲット検出器により決定され、第2種類の検出枠は、第2ターゲット検出器により決定される。
幾つかの実施例において、前記ステップS120は、前記n種類の検出枠のうちの各種類の検出枠のうちの確率値が確率閾値以上である検出枠を併合し、統合された検出枠を得ることを更に含んでもよい。
従って、該確率値は、該種類の検出枠でターゲットを正確に囲む確率であり、信頼度の値である。
本実施例において、確率閾値と比較し、確率値が確率閾値より低い検出枠をフィルタリングした後に併合を行うことで、確率値の低い枠が、統合された検出枠に追加されることを減少させ、ステップS140における統合された検出枠に基づいた不必要な画像特徴検出を減少させ、不必要な計算量を減少させることができる。
幾つかの実施例において、異なるターゲット検出器から出力された検出枠の確率閾値は、同じであっても異なってもよい。例えば、nが2であることを例とする場合、該2つのターゲット検出器からそれぞれ出力された検出枠に対応する同じ確率閾値は、0.5又は0.6等であってもよい。1つの閾値は、0.5であって、もう1つの閾値は、0.6であってもよい。続いて、n=2であることを例として説明すると、前記ステップS120は具体的には、
第2種類の検出枠と第1確率値が第1確率閾値より大きい第1種類の検出枠を併合し、前記統合された検出枠を得ることであって、前記第1確率値は、前記第1種類の検出枠に前記ターゲットが含まれる確率値である、こと、
又は、
前記第1種類の検出枠と第2確率値が第2確率閾値より大きい第2種類の検出枠を併合し、前記統合された検出枠を得ることであって、前記第2確率値は、前記第2種類の検出枠に前記ターゲットが含まれる確率値である、こと、を含んでもよい。
本実施例において、前記第1確率値は、前記第1ターゲット検出器が前記第1種類の検出枠を出力した時に同期して出力されたものである。前記第2確率値は、前記第2ターゲット検出器が前記第2種類の検出枠を出力した時に同期して出力されたものである。
本実施例において、不必要な併合を減少させるために、第2種類の検出枠のうちの確率値が高いものを第1種類の検出枠と併合する。ここで、併合は、和集合を求めて、前記統合された検出枠を得ることを含むが、これに限定されない。従って、第1確率値と第1確率閾値を比較することで、第1種類の検出枠のうちの、ターゲットを含む確率が低いものを除去する。該除去は、第2種類の検出枠の補強に悪影響又は大きな悪影響を与えることがない。一方で、統合された検出枠の数を減少させる。従って、後続のステップS140における画像特徴抽出過程において、不必要な計算量を減少させ、計算効率を向上させ、計算リソースを節約することができる。同様に、統合された検出枠は、第1確率値が第1確率閾値より大きい第1種類の検出枠により得られたものである場合、同様に上記特徴を有する。
幾つかの実施例において、ステップS120において、第1種類の検出枠及び第2種類の検出枠に基づいて前記統合された検出枠を得る場合、非最大値抑制(Non-Maximum Suppression:NMS)アルゴリズムを利用して、スライドウィンドウにより、入力画像の様々な画像領域における確率値が極大値である検出枠を抽出し、もう1つのターゲット検出器により抽出された検出枠と併合し、前記統合された検出枠を得ることができる。例えば、NMSアルゴリズムを利用して、一部の第1種類の検出枠を選択して、全ての第2種類の検出枠と併合し、前記統合された検出枠を得る。又は、NMSアルゴリズムを利用して、一部の第2種類の検出枠を選択して、全ての第1種類の検出枠と併合し、前記統合された検出枠を得る。
要するに、ステップS120において、第1種類の検出枠及び第2種類の検出枠に基づいて前記統合された検出枠を得る方式は、一種以上であり、具体的な実現は、上記例に限定されない。
幾つかの実施例において、2つのターゲット検出器における相互補強した操作により、一回実行する場合でも、単一のターゲット検出器に比べて、ターゲット追跡又はターゲット分析の精度を向上させることを実現させることもできる。
別の幾つかの実施例において、ターゲット追跡又はターゲット分析の精度及びロバスト性を更に向上させるために、第1ターゲット検出器及び第1ターゲット検出器における相互補強した複数回の反復を行う。つまり、本発明の実施例で提供される方法を複数回実行する。ここで、反復は複数回に分けて実行されてもよく、各回の実行は、第1種類の検出枠と第2種類の検出枠を併合し、統合された検出枠を得ることと、統合された検出枠に基づいて2種類の画像特徴を抽出し、最適化した画像を得て、最適化された検出枠を決定することと、を含んでもよい。
従って、nが2であることを例として、本発明の実施例で提供される方法を複数回実行する場合、前記ステップS110は、
本発明の実施例で提供される方法を初回実行する場合、前記第1ターゲット検出器を利用して、前記入力画像においてターゲットを検出し、前記第1種類の検出枠を得て、前記第2ターゲット検出器を利用して、前記入力画像においてターゲットを検出し、前記第2種類の検出枠を得ることを含んでもよい。
本発明の実施例で提供される方法を初回実行する場合、第1種類の検出枠は、第1ターゲット検出器により入力画像から検出されたものであり、第2種類の検出枠は、第2ターゲット検出器により入力画像から検出されたものである。
従って、初回実行過程における第1種類の検出枠及び第2種類の検出枠はいずれも、最適化されていない検出枠である。
なお、ステップS120において、第1ターゲット検出器及び第2ターゲット検出器から別々に出力されたタイプの異なる検出枠を直接的に併合するか、又は確率値と確率閾値を比較し、比較結果に基づいて、2種の検出枠を併合し、前記統合された検出枠を得る。
幾つかの実施例において、例えば、前記第1ターゲット検出器と第2ターゲット検出器は、高速R-CNNネットワークにおける異なる処理分岐であってもよい。前記R-CNNは、領域畳み込みニューラルネットワークであってもよい。第1ターゲット検出器に対応する第1分岐により検出された提案領域(Proposal Region)は、前記第1種類の検出枠である。第2ターゲット検出器に対応する第2分岐により検出された提案領域は、前記第2種類の検出枠である。
nが1より大きい整数である場合、前記方法が初回実行され、ステップS110は、
n個の異なるターゲット検出器をそれぞれ利用して前記入力画像においてターゲットを検出し、位置決めターゲットに関連するn種類の検出枠を得ることを含んでもよい。
この場合、最適化される検出枠はいずれも、ターゲット検出器により検出されたものである。
幾つかの実施例において、前記方法がk回目に実行され、kは1より大きい整数であり、前記n個の異なるターゲット検出器により決定された、位置決めターゲットに関連するn種類の検出枠を取得することは、
n個の異なるターゲット検出器のうちの各ターゲット検出器に対して、前記方法をk-1回目に実行するときに該ターゲット検出器により決定された検出枠又は該ターゲット検出器に対応する最適化された検出枠を取得することを含む。
k回目の実行は、初回実行ではない場合、少なくとも1つのターゲット検出器の検出枠は、前回の実行で得られた最適化された検出枠である。
引き続き、n=2を例として、本実施例において、反復最適化を利用して複数回反復最適化された検出枠を得るため、幾つかの実施例において、前記ステップS110は、
現在の実行がn回目の実行である場合、前記第1ターゲット検出器がn-1回目の検出又は最適化を実行した後に得た第1種類の検出枠を取得し、第2ターゲット検出器がn-1回目の検出又は最適化を実行した後に得た第2種類の検出枠を取得することであって、前記nは、2以上の正整数である、ことを含んでもよい。
例えば、現在の実行が2回目の実行である場合、ステップS110において取得された第1種類の検出枠は、本願の実施例で提供される方法を初回実行するときに検出された検出枠又は最適化された検出枠であり、取得された第2種類の検出枠は、初回実行するときに最適化された検出枠又は検出された検出枠である。具体的には、初回実行するときに得られた最適化された検出枠は、最適化された第1種類の検出枠であると、2回目に実行するときにステップS110において取得された第1種類の検出枠は、初回実行するときに得られた最適化された第1種類の検出枠であるが、2回目に実行するときにステップS110において取得された第2種類の検出枠は依然として、初回実行するときに第2ターゲット検出器により直接的に入力画像から検出された第2種類の検出枠である。初回実行するときに得られた最適化された検出枠は、最適化された第2種類の検出枠であると、2回目に実行するときにステップS110において取得された第2種類の検出枠は、初回実行するときに得られた最適化された第2種類の検出枠であるが、2回目に実行するときにステップS110において取得された第1種類の検出枠は依然として、初回実行するときに第1ターゲット検出器により直接的に入力画像から検出された第1種類の検出枠である。
また例えば、現在、本願の実施例で提供される方法をk(kが2より大きい)回目に実行する場合、ステップS110において取得された第1種類の検出枠は、k-1回目に実行するときに検出された検出枠又は最適化された検出枠であり、取得された第2種類の検出枠は、k-1回目に実行するときに検出された検出枠又は最適化された検出枠である。具体的には、3回目に実行するときにステップS110において取得された第1種類の検出枠は、初回実行するときに得られた最適化された第1種類の検出枠であり、取得された第2種類の検出枠は、2回目に実行するときに得られた最適化された第2種類の検出枠である。又は、3回目に実行するときにステップS110において取得された第1種類の検出枠は、2回目に実行するときに得られた最適化された第1種類の検出枠であり、取得された第2種類の検出枠は、初回実行するときに得られた最適化された第2種類の検出枠である。
従って、本願の実施例で提供されるターゲット検出方法を複数回実行することで、検出枠を段階的に最適化することを実現させることができる。
幾つかの実施例において、実行回数は、少なくとも2回であってもよく、具体的には、偶数回であってもよい。従って、複数回の実行において、第1種類の検出枠と第2種類の検出枠の反復クロスオーバー最適化を実現させ、検出枠の最適化効果を再び向上させる。
幾つかの実施例において、現在の第1種類の検出枠と第2種類の検出枠はいずれも前回の実行で最適化された検出枠であると、ステップS120において、第1種類の検出枠と第2種類の検出枠の和集合を直接的に求め、最適化された統合された検出枠を得る。
幾つかの実施例において、前記ステップS130は、前回の実行において前記第1種類の画像特徴を利用して前記第2種類の画像特徴を最適化すると、今回の実行において前記第2種類の画像特徴を利用して前記第1種類の画像特徴を最適化することを含んでもよい。
本実施例において、様々なモデルの反復クロスオーバー補強を実現させるために、前回の実行において第1種類の画像特徴を利用して第2種類の画像特徴を最適化すると、今回の実行において第2種類の画像特徴を利用して第1種類の画像特徴を最適化する。複数回の実行において1つのターゲット検出器によりもう1つのターゲット検出器を補強するため、複数回の処理を行った後に、幾つかの画像特徴の失いを引き起こしやすいという現象を減少させ、画像特徴及び検出枠の反復最適化効果を更に向上させる。
例えば、2*p-1回目の実行において第1種類の画像特徴を利用して第2種類の画像特徴を補強(最適化)すると、2*p回目の実行において第2種類の画像特徴を利用して第1種類の画像特徴を補強(最適化)する。ここで、pは正整数である。これにより、様々なモデルの画像特徴の反復クロスオーバー最適化を実現させる。
様々なモデルの画像特徴の反復クロスオーバー最適化により、様々なモデルの検出枠の反復クロスオーバー最適化を実現させることができる。
幾つかの実施例において、前記第1種類の画像特徴は、色画像特徴であり、前記第2種類の画像特徴は、オプティカルフロー画像特徴である。又は、前記第1種類の画像特徴は、オプティカルフロー画像特徴であり、前記第2種類の画像特徴は、色画像特徴である。
別の幾つかの実施例において、色画像特徴、オプティカルフロー画像特徴、深度画像特徴、画像分割特徴のうちの少なくとも2つを利用して反復クロスオーバー最適化を行うこともできる。
具体的には、前記色画像特徴は、RGB特徴又はYUV特徴であってもよく、ここの色画像特徴は、RGB又はYUVの色ヒストグラム等であってもよい。ターゲットの外観情報が保留された。例えば、結像された人体の顔立ち情報が保留された。
前記オプティカルフロー画像特徴は、オプティカルフロー(Optical flow)アルゴリズムにより画像から抽出されたオプティカルフロー画像特徴である。ここのオプティカルフロー画像特徴は、短期間内で不変のまま保持したか及び/又は隣接領域内において速度ベクトル場が不変のまま保持した運動対象の特性に基づいて抽出されたターゲット表面及び/又は縁の運動状況の運動特徴である。
本実施例において、色画像特徴とオプティカルフロー画像特徴を互いに補強することで、ターゲット追跡又はターゲット追跡のターゲット分析において単一の色画像特徴又は或オプティカルフロー画像特徴により引き起こされる誤差を減少させ、ターゲット追跡及び/又はターゲット分析の精度を向上させる。
図3に示すように、前記反復は、4回の実行を含んでもよく、各回の実行はいずれも、検出枠を併合し、併合した検出枠に基づいて画像特徴最適化を行い、最適化された画像特徴に基づいて最適化された検出枠を得ることを含む。
検出枠の併合を初回実行する場合、関数
Figure 0007012880000011
を用いる。ここで、等式の右側の
Figure 0007012880000012
は、第1ターゲット検出器により入力画像から抽出された第1種類の検出枠であり、
Figure 0007012880000013
は、第2ターゲット検出器により入力画像から抽出された第2種類の検出枠である。等式の左側の
Figure 0007012880000014
は、初回の実行で得られた統合された検出枠である。統合された検出枠に基づいて2種類の画像特徴をそれぞれ得た後に特徴最適化を行い、最適化された第1種類の画像特徴
Figure 0007012880000015
を得る。続いて、最適化された第1種類の画像特徴
Figure 0007012880000016
に基づいて回帰処理を行うことにより、幾つかの実施において、初回の実行で最適化された第1種類の検出枠
Figure 0007012880000017
を得る。
検出枠の併合を2回目に実行する場合、関数
Figure 0007012880000018
を用いる。ここで、
Figure 0007012880000019
は、初回の実行で得られた最適化した第1種類の検出枠である。
Figure 0007012880000020
は、第2ターゲット検出器により入力画像から抽出された第2種類の検出枠である。
Figure 0007012880000021
は、2回目の実行で得られた統合された検出枠である。統合された検出枠
Figure 0007012880000022
に基づいて2種類の画像特徴をそれぞれ得た後に特徴最適化を行い、最適化された第2種類の画像特徴
Figure 0007012880000023
を得る。続いて、最適化された第2種類の画像特徴
Figure 0007012880000024
に基づいて回帰処理を行うことにより、幾つかの実施において、2回目の実行で最適化された第2種類の検出枠
Figure 0007012880000025
を得る。
検出枠の併合を3回目に実行する場合、関数
Figure 0007012880000026
を用いる。ここで、
Figure 0007012880000027
は、2回目の実行で得られた最適化した第2種類の検出枠である。
Figure 0007012880000028
は、最初の実行で得られた最適化した第1種類の検出枠である。
Figure 0007012880000029
は、3回目の実行で得られた統合された検出枠である。統合された検出枠に基づいて2種類の画像特徴をそれぞれ得た後に特徴最適化を行い、最適化された第1種類の画像特徴
Figure 0007012880000030
を得る。続いて、最適化された第1種類の画像特徴
Figure 0007012880000031
に基づいて回帰処理を行うことにより、幾つかの実施において、3回目の実行で最適化された第1種類の検出枠
Figure 0007012880000032
を得る。
検出枠の併合を4回目に実行する場合、関数
Figure 0007012880000033
を用いる。ここで、
Figure 0007012880000034
は、3回目の実行で得られた最適化した第1種類の検出枠である。
Figure 0007012880000035
は、2回目の実行で得られた最適化した第2種類の検出枠である。
Figure 0007012880000036
は、4回目の実行で得られた統合された検出枠である。統合された検出枠に基づいて2種類の画像特徴をそれぞれ得た後に特徴最適化を行い、最適化された第2種類の画像特徴
Figure 0007012880000037
を得る。続いて、最適化された第2種類の画像特徴
Figure 0007012880000038
に基づいて回帰処理を行うことにより、幾つかの実施において、4回目の実行で最適化された第2種類の検出枠
Figure 0007012880000039
を得る。
幾つかの実施例において、前記方法は、
ビデオにおける複数個フレームの画像の前記最適化された検出枠を接続し、同一のターゲットの動作パイプラインを形成することと、
前記動作パイプラインに基づいて前記ターゲット追跡を行うことと、を更に含む。
本実施例において、前記動作パイプラインは、時系列に基づいてソートされて形成されたパイプラインであってもよい。
例えば、ビデオは、T個フレームを含む。第1フレームから第Tフレームまでの順番に応じて、同一のターゲットに対応する最適化された検出枠をソートし、動作パイプラインを得る。
これにより、動作パイプラインに基づいて、第1フレームから第Tフレームにおいて、必要な画像特徴を抽出してターゲット追跡を行う。又は、動作パイプラインにおいて入力画像での、同一のターゲットの画像特徴及び/又は占有した画像面積に基づいて直接的に計算し、前記ターゲット追跡を実現させる。
例えば、静止したカメラについて、カメラの被写界深度が不変のまま保持した場合、ターゲットが該カメラに近いほど、対応する画像フレームで占有した画像面積が大きくなる。ターゲットが該カメラに遠いほど、対応する画像フレームで占有した画像面積が小さくなる。前記最適化された検出枠の表現方式は、多種であり、以下、2つの任意選択的な方式を提供する。
画像座標系での、最適化された検出枠の4つの頂点の座標で表される。
画像座標系での、最適化された検出枠の中心点の座標、最適化された検出枠の長さ及び最適化された検出枠の幅で表される。
最適化された検出枠の面積は、画像でのターゲットの占有面積に正比例する。
従って、画像面積により、カメラとターゲットとの距離の変動を推算することで、ターゲットの移動速度等を決定し、更に、ターゲット追跡を実現させることができる。
別の幾つかの実施例において、動作パイプラインにおける最適化された検出枠は、対応する画像フレームでの、ターゲットの位置を位置決めしたため、ターゲットの行為を分析する時、最適化された検出枠に基づいて、対応する画像フレームから画像特徴を抽出してターゲットの行為の分析を行うことができる。
例えば、道路交通分野において、このような方式で、道路上の歩行者の行為の分析、道路上の車両の行為の分析を行うことで、歩行者又は車両が不正行為を行っているかどうかをモニタリングすることができる。
幾つかの実施例において、図4に示すように、ビデオにおける複数個フレームの画像の前記最適化された検出枠を接続し、同一のターゲットの動作パイプラインを形成することは、以下を含む。
ステップS210において、q番目の画像フレームの前記最適化された検出枠に基づいて、再検出された画像特徴を得て、qは正整数である。
ステップS220において、前記再検出された画像特徴に基づいて、動作タイプの認識を行い、対応するタイプの動作と決定されることを示す確率値を得る。
ステップS230において、前記確率値に基づいて、前記最適化された検出枠に対して平滑化フィルタリングを行い、平滑化フィルタリングされた最適化された検出枠を得る。
ステップS240において、時間領域内において、平滑化フィルタリングされた最適化された検出枠を関連付け、前記動作パイプラインを得る。
本実施例において、前記再検出された画像特徴は、前記n種類の画像特徴とことなってもよく、前記n種類の画像特徴のうちの1つ又は複数と同じであってもよい。例えば、前記再検出された画像特徴は、同様に、オプティカルフロー画像特徴又は色画像特徴であってもよい。
具体的には、ステップS220において、二次分類器を利用して、動作分類により、ターゲットが、対応する画像フレームにおいて所定の動作を実行しているかを判定する。交通道路分野において、車両が信号無視又は道路上の実線からのはみ出しのような不正動作を行っているかどうかを認識することができる。動作タイプの認識は、不正動作及び正当動作の判別を含んでもよい。
また、具体的には、ステップS220において、マルチ分類器を利用して多種の動作を認識することができる。マルチ分類器を利用して正当動作及び不正動作を認識し、不正動作のタイプを細分化する。例えば、不正動作の類別は、交通信号の違反行為、交通線の違反行為、交通事故惹起に関わる不正動作を含むが、これらに限定されない。
本実施例において分類器を利用して動作タイプを認識した後、認識の確率値を更に得る。
本実施例において、平滑化フィルタリングにより画像騒音をフィルタリングし、ターゲットを含む確率が低い最適化された検出枠を除去し、再最適化された検出枠を得ることができる。
具体的には、前記ステップS230は、前記複数個フレームの画像における確率値が前記平滑化確率より小さい最適化された検出枠をフィルタリングし、除去されていない最適化された検出枠を得ることを含んでもよいが、これに限定されない。ステップS240は、時間領域において、除去されていない最適化された検出枠を接続して前記動作パイプラインを得ることを含んでもよい。幾つかの実施例において、該平滑化フィルタリングは、上記確率値の平均値を含むが、これに限定されない。ここで、上記確率値に基づいて、最適化された検出枠に対して平滑化フィルタリングを行う例を挙げる。具体的な実現は、上記例に限定されない。
図5に示すように、本実施例は、ターゲット検出装置を提供する。前記装置は、
n個の異なるターゲット検出器により決定された、位置決めターゲットに関連するn種類の検出枠を取得するように構成される取得モジュールであって、前記n個の異なるターゲット検出器は、同一の画像から、n種類の異なる画像特徴を抽出することができ、nは2以上の正整数である、取得モジュール110と、
前記n種類の検出枠に基づいて、統合された検出枠を得るように構成される統合モジュール120と、
前記n個の異なるターゲット検出器のうちの各ターゲット検出器が、前記統合された検出枠に基づいて、入力画像から画像特徴を抽出し、n種類の画像特徴を得るように構成される抽出モジュール130と、
n種類の画像特徴に基づいて、画像特徴最適化を行い、最適化された画像特徴を得るように構成される第1最適化モジュール140と、
前記最適化された画像特徴に基づいて、最適化された検出枠を得て、ターゲットを検出するように構成される第2最適化モジュール150と、を備える。
幾つかの実施例において、前記取得モジュール110、統合モジュール120、抽出モジュール130、第1最適化モジュール140及び第2最適化モジュール150は、いずれもプログラムモジュールであってもよい。該プログラムモジュールがプロセッサにより実行された後、該モジュールに対応する前記機能を実現させることができる。
別の幾つかの実施例において、前記取得モジュール110、統合モジュール120、抽出モジュール130、第1最適化モジュール140及び第2最適化モジュール150はいずれもソフトウェアとハードウェアを組み合わせたモジュールであってもよい。該ソフトウェアとハードウェアを組み合わせたモジュールは、種々のプログラマブルアレイを含んでもよい。該プログラマブルアレイは、フィールドプログラマブルアレイ又は複合プログラマブルアレイを含んでもよいが、これらに限定されない。
また幾つかの実施例において、前記取得モジュール110、統合モジュール120、抽出モジュール130、第1最適化モジュール140及び第2最適化モジュール150はいずれも単純なハードウェアモジュールであってもよい。該単純なハードウェアモジュールは、特定用途向け集積回路を含んでもよいが、これに限定されない。
幾つかの実施例において、前記第1最適化モジュール140は、画像特徴最適化をm回目に実行するときに、前記n種類の画像特徴のうちのn-1種類の画像特徴を利用して、前記n種類の画像特徴のうちの第p種類の画像特徴を最適化し、前記最適化された画像特徴を得るように構成され、ここで、第p種類の画像特徴は、前記n種類の画像特徴のうちの、前記n-1種類の画像特徴以外の1種類の画像特徴であり、mは、0より大きい整数であり、pは、0より大きくてn以下の整数である。
幾つかの実施例において、p=mod(m/n)+1である。
幾つかの実施例において、前記第1最適化モジュール140は具体的には、画像特徴最適化をm回目に実行するときに、前記n-1種類の画像特徴のうちの各種類の画像特徴に対して畳み込み処理を行い、前記n-1種類の画像特徴のうちの各種類の画像特徴の畳み込み特徴を得て、前記畳み込み特徴を利用して、前記n種類の画像特徴のうちの第p種類の画像特徴を最適化し、前記最適化された画像特徴を得るように構成される。
幾つかの実施例において、前記第1最適化モジュール140は具体的には、画像特徴最適化をm回目に実行するときに、前記n-1種類の画像特徴のうちの各種類の画像特徴に対して第1畳み込み処理を行い、n-1種類の第1畳み込み特徴を得て、前記n-1種類の第1畳み込み特徴のうちの各種類の第1畳み込み特徴に対して活性化処理を行い、n-1種類の活性化特徴を得て、前記n-1種類の活性化特徴のうちの各種類の活性化特徴に対して第2畳み込み処理を行い、前記n-1種類の画像特徴のうちの各種類の画像特徴の畳み込み特徴を得て、得られた前記n-1種類の画像特徴のうちの各種類の画像特徴の畳み込み特徴を利用して前記n種類の画像特徴のうちの第p種類の画像特徴を最適化し、前記最適化された画像特徴を得るように構成される。
幾つかの実施例において、前記第2最適化モジュール150は、最適化された画像特徴に基づいて回帰処理を行い、前記最適化された検出枠を得るように構成される。
幾つかの実施例において、前記統合モジュール120は、前記n種類の検出枠のうちの各種類の検出枠のうちの確率値が確率閾値以上である検出枠を併合し、統合された検出枠を得るように構成される。
幾つかの実施例において、前記取得モジュール110は、n個の異なるターゲット検出器により決定された、位置決めターゲットに関連するn種類の検出枠の取得を初回実行する場合、n個の異なるターゲット検出器をそれぞれ利用して前記入力画像においてターゲットを検出し、位置決めターゲットに関連するn種類の検出枠を得るように構成される。
幾つかの実施例において、前記取得モジュール110は、n個の異なるターゲット検出器により決定された、位置決めターゲットに関連するn種類の検出枠の取得をk回目に実行する場合、具体的には、n個の異なるターゲット検出器のうちの各ターゲット検出器に対して、n個の異なるターゲット検出器により決定された、位置決めターゲットに関連するn種類の検出枠の取得をk-1回目に実行する場合、該ターゲット検出器により決定された検出枠又は該ターゲット検出器に対応する最適化された検出枠を取得するように構成され、kは1より大きい整数である。
幾つかの実施例において、前記装置は、
ビデオにおける複数個フレームの画像の前記最適化された検出枠を接続し、同一のターゲットの動作パイプラインを形成するように構成される接続モジュールと、
前記動作パイプラインに基づいて前記ターゲット追跡を行うように構成される追跡モジュールと、を更に備える。
幾つかの実施例において、前記接続モジュールは、q番目の画像フレームの前記最適化された検出枠に基づいて、再検出された画像特徴を得るように構成され、qは正整数であり、前記接続モジュールは、前記再検出された画像特徴に基づいて、動作タイプの認識を行い、対応するタイプの動作と決定されることを示す確率値を得て、前記確率値に基づいて、前記最適化された検出枠に対して平滑化フィルタリングを行い、平滑化フィルタリングされた最適化された検出枠を得て、時間領域内において、平滑化フィルタリングされた最適化された検出枠を関連付け、前記動作パイプラインを得るように構成される。
以下、上記実施例を参照しながら、具体的な例を提供する。
例1:
該例で提供されるターゲット検出方法において、情報伝達方法によれば、有用な情報を1つのモデル(1つのニューラルネットワークであってもよい)からもう1つのモデル(もう1つのニューラルネットワークであってもよい)に伝達することで、様々なモデルにより抽出された特徴同士の相補性を利用してモデルの特徴抽出能力を向上させることができる。1つのモデルで発生した位置決め用の候補者(前記検出枠)により、もう1つのモデルが画像におけるターゲットの位置決めをより正確に実現させるのを補助する。
上記2つの方法により、特徴及び位置決め用の候補者の発生のレベルで、様々なモデル同士の相補情報を十分に利用する。
該例で提供されるターゲット検出方法は、深層学習フレームワークの動作位置決めモデルに基づいて、複数の動作ターゲットに対して位置決めを行うことができる。
具体的には、本願の実施例で提供される方法でビデオにおける動作に対して位置決めを行うことは、下記ステップを含む。
まず、Faster-RCNNアルゴリズムを利用して、ビデオの現在フレームのRGB画像及びオプティカルフロー画像に対して、動作位置決め用の候補者を生成し、対応する特徴を抽出する。ここで、RGB画像に対して、第1種類の画像特徴を抽出する。オプティカルフロー画像に対して、第2種類の画像特徴を抽出する。
続いて、情報伝達方法を利用して、相補情報を1つのモデルの特徴からもう1つのモデルに伝達すると共に、様々なモデルで生成された動作位置決め用の候補者を融合し、相補した候補者を得る。ここで、相補情報は、畳み込み伝送チャネルを利用して1つの画像特徴に対して畳み込み処理を行った後に得られた、もう1つの画像特徴を補強するための画像特徴であってもよい。
続いて、もう1つの画像特徴を補強するための画像特徴である新規生成した特徴及び動作位置決め用候補者を利用して現在フレームに対して動作分類及び位置決めを行う。
最後に、接続ポリシーを利用して各フレームの動作位置決めを直列接続することで、動作開始時点及び終了時点並びに各フレームでの動作の空間的位置などの情報のような動作位置決め結果を得る。
上記ステップにおける様々なモデルの情報を、特徴と操作位置決め用候補者との相補過程において複数回反復し、最終的な生成結果の正確性を向上させることができる。
該例は、動作検出及び時系列的接続を含む。
動作検出のための動作検出モデルの入力は、ビデオの現在フレームのRGB画像及びオプティカルフロー画像であってもよい。該動作検出モデルの出力は、ビデオの現在フレームにおける動作が発生する可能性がある検出枠及び対応する動作類別である。
具体的な処理過程は、下記ステップを含む。
Faster-RCNNアルゴリズムを利用して、RGB画像及びオプティカルフロー画像に対して、対応する検出枠及び動作類別をそれぞれ決定する。
2つの異なるモデルで発生した検出枠を集め、各検出枠を利用して、対応する位置のRGB及びオプティカルフロー特徴をそれぞれ抽出する。1つのモデルで抽出された特徴(例えば、オプティカルフロー)に対して、二層の1x1の畳み込み(情報伝達)を行うことで、もう1つのモデルで抽出された特徴(例えば、RGB)に付加し、より強い特徴を得る。
前記ステップで得られた検出枠集合及び改良した特徴に基づいて、分類器と回帰器を利用して、更なる分類及び回帰を行い、より正確な検出枠を得る。
複数回の反復(例えば、4回又は4回以上の反復)を行うことで、最終的に発生した検出枠の正確性を向上させる。
前記時系列的接続ステップの入力は、全てのフレームで生成された検出枠及び対応する動作類別である。前記時系列的接続ステップの出力は、検出枠を接続した動作パイプラインである。
最後に、動作パイプラインに基づいて、ターゲット追跡又はターゲットの行為の分析を行う。
動作パイプラインの接続は、
接続ポリシーを利用して、ビデオを、動作検出モデルで発生した検出枠により時間領域で接続することで、動作パイプラインを生成することを含んでもよい。
動作パイプラインにおける各検出枠を利用して、対応する位置での特徴を抽出する。続いて、二次分類により、該検出枠の範囲内で動作を発生しているかどうかを判定し、動作発生確率を生成する。
メディアンフィルタを利用して、動作パイプラインにおける各検出枠の動作発生確率を平滑化フィルタリングする。動作発生確率が閾値より低い検出枠を除去し、最終的な動作パイプラインを得る。
図6に示すように、本出願の実施例は、ターゲット検出機器を提供する。前記ターゲット検出機器は、
コンピュータによる実行可能な命令を記憶するように構成されるメモリと、
ディスプレイ及び前記メモリにそれぞれ接続され、前記メモリに記憶されているコンピュータによる実行可能な命令を実行することで、前記1つ又は複数の技術的解決手段で提供されるターゲット検出方法を実現させ、例えば図1及び図4に示したターゲット検出方法のうちの少なくとも1つを実現させるように構成されるプロセッサと、を備える。
該メモリは、ランダムメモリ、読出し専用メモリ、フラッシュのような様々なメモリであってもよい。前記メモリは、情報記憶に用いられ、例えば、コンピュータによる実行可能な命令などの記憶に用いられる。前記コンピュータによる実行可能な命令は、ターゲットプログラム命令及び/又はソースプログラム命令などのような様々なプログラム命令であってもよい。
前記プロセッサは、中央演算処理装置、マイクロプロセッサ、デジタル信号プロセッサ、プログラマブルアレイ、デジタル信号プロセッサ、特定用途向け集積回路又は画像処理装置などのような様々なプロセッサであってもよい。
前記プロセッサは、バスを経由して前記メモリに接続される。前記バスは、集積回路バスなどであってもよい。
幾つかの実施例において、前記端末装置は通信インタフェースを更に備えてもよい。該通信インタフェースは、ローカルエリアネットワーク、送受信アンテナなどのようなネットワークインタフェースであってもよい。前記通信インタフェースも、前記プロセッサに接続され、情報送受信に用いられる。
幾つかの実施例において、前記端末装置は、ヒューマンインタラクティブインタフェースを更に備える。例えば、前記ヒューマンインタラクティブインタフェースは、キーボード、タッチパネルなどのような様々な入力出力装置を含んでもよい。
幾つかの実施例において、前記ターゲット検出機器は、ディスプレイを更に備える。該ディスプレイは、様々なリマインド情報、収集された顔画像及び様々なインタフェースを表示することができる。
本願の実施例は、コンピュータ記憶媒体を提供する。前記コンピュータ記憶媒体には、コンピュータによる実行可能な命令が記憶されており、前記コンピュータによる実行可能な命令が実行されてから、前記1つ又は複数の技術的解決手段で提供されるターゲット検出方法を実現させ、例えば図1及び図4に示したターゲット検出方法のうちの少なくとも1つを実現させる。
本願の実施例は、コンピュータプログラム製品を提供する。コンピュータプログラム製品は、コンピュータ命令を含み、前記コンピュータ命令を呼び出すことで、コンピュータ装置に、前記1つ又は複数の技術的解決手段で提供されるターゲット検出方法を実行させ、例えば図1及び図4に示したターゲット検出方法のうちの少なくとも1つを実行させる。
本願で提供される幾つかの実施例において、開示される装置及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した装置の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインタフェース、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。
分離部材として説明した該ユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。
また、本発明の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、2つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットはハードウェアとして実現してもよく、ハードウェアとソフトウェア機能ユニットとを組み合わせて実現してもよい。
上記各方法に係る実施例の全部又は一部のステップはプログラム命令に係るハードウェアにより実現され、前記プログラムはコンピュータ読み取り可能な記憶媒体に記憶され、該プログラムが実行される時、上記方法の実施例におけるステップを実行し、前記記憶媒体は、携帯型記憶装置、読出し専用メモリ(ROM:Read-only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含むことは、当業者であれば理解されるべきである。
以上は本発明の具体的な実施形態に過ぎず、本発明の保護の範囲はそれらに制限されるものではなく、当業者が本発明に開示された技術範囲内で容易に想到しうる変更や置換はいずれも、本発明の保護範囲内に含まれるべきである。従って、本発明の保護範囲は特許請求の範囲の保護範囲を基準とするべきである。
110 取得モジュール
120 統合モジュール
130 抽出モジュール
140 第1最適化モジュール
150 第2最適化モジュール

Claims (13)

  1. ターゲット検出方法であって、
    n個の異なるターゲット検出器により決定された、位置決めターゲットに関連するn種類の検出枠を取得することであって、前記n個の異なるターゲット検出器は、同一の画像から、n種類の異なる画像特徴を抽出することができ、nは2以上の正整数である、ことと、
    前記n種類の検出枠に基づいて、統合された検出枠を得ることと、
    前記n個の異なるターゲット検出器のうちの各ターゲット検出器が、前記統合された検出枠に基づいて、入力画像から画像特徴を抽出し、n種類の画像特徴を得ることと、
    n種類の画像特徴に基づいて、画像特徴最適化を行い、最適化された画像特徴を得ることと、
    前記最適化された画像特徴に基づいて、最適化された検出枠を得て、ターゲットを検出することと、を含む、方法。
  2. 前記n種類の画像特徴に基づいて、画像特徴最適化を行い、最適化された画像特徴を得ることは、
    前記方法をm回目に実行するときに、前記n種類の画像特徴のうちのn-1種類の画像特徴を利用して、前記n種類の画像特徴のうちの第p種類の画像特徴を最適化し、前記最適化された画像特徴を得ることを含み、
    ここで、第p種類の画像特徴は、前記n種類の画像特徴のうちの、前記n-1種類の画像特徴以外の1種類の画像特徴であり、mは、0より大きい整数であり、pは、0より大きくてn以下の整数であることを特徴とする
    請求項1に記載の方法。
  3. 前記n種類の画像特徴のうちのn-1種類の画像特徴を利用して、前記n種類の画像特徴のうちの第p種類の画像特徴を最適化し、前記最適化された画像特徴を得ることは、
    前記n-1種類の画像特徴のうちの各種類の画像特徴に対して畳み込み処理を行い、前記n-1種類の画像特徴のうちの各種類の画像特徴の畳み込み特徴を得ることと、
    前記畳み込み特徴を利用して、前記n種類の画像特徴のうちの第p種類の画像特徴を最適化し、前記最適化された画像特徴を得ることと、を含むことを特徴とする
    請求項2に記載の方法。
  4. 前記n-1種類の画像特徴のうちの各種類の画像特徴に対して畳み込み処理を行い、前記n-1種類の画像特徴のうちの各種類の画像特徴の畳み込み特徴を得ることは、
    前記n-1種類の画像特徴のうちの各種類の画像特徴に対して第1畳み込み処理を行い、n-1種類の第1畳み込み特徴を得ることと、
    前記n-1種類の第1畳み込み特徴のうちの各種類の第1畳み込み特徴に対して活性化処理を行い、n-1種類の活性化特徴を得ることと、
    前記n-1種類の活性化特徴のうちの各種類の活性化特徴に対して第2畳み込み処理を行い、前記n-1種類の画像特徴のうちの各種類の画像特徴の畳み込み特徴を得ることと、を含むことを特徴とする
    請求項に記載の方法。
  5. 前記最適化された画像特徴に基づいて、最適化された検出枠を得ることは、
    最適化された画像特徴に基づいて回帰処理を行い、前記最適化された検出枠を得ることを含むことを特徴とする
    請求項1からのうちいずれか一項に記載の方法。
  6. 前記n種類の検出枠に基づいて、統合された検出枠を得ることは、
    前記n種類の検出枠のうちの各種類の検出枠のうちの確率値が確率閾値以上である検出枠を併合し、統合された検出枠を得ることを更に含むことを特徴とする
    請求項1からのうちいずれか一項に記載の方法。
  7. 前記方法が初回実行され、前記n個の異なるターゲット検出器により決定された、位置決めターゲットに関連するn種類の検出枠を取得することは、
    n個の異なるターゲット検出器をそれぞれ利用して前記入力画像においてターゲットを検出し、位置決めターゲットに関連するn種類の検出枠を得ることを含み、
    前記方法がk回目に実行され、kは1より大きい整数であり、前記n個の異なるターゲット検出器により決定された、位置決めターゲットに関連するn種類の検出枠を取得することは、
    n個の異なるターゲット検出器のうちの各ターゲット検出器に対して、前記方法をk-1回目に実行するときに該ターゲット検出器により決定された検出枠又は該ターゲット検出器に対応する最適化された検出枠を取得することを含むことを特徴とする
    請求項1からのうちいずれか一項に記載の方法。
  8. 前記方法は、
    ビデオにおける複数個フレームの画像の前記最適化された検出枠を接続し、同一のターゲットの動作パイプラインを形成することと、
    前記動作パイプラインに基づいてターゲット追跡を行うことと、を更に含むことを特徴とする
    請求項1からのうちいずれか一項に記載の方法。
  9. 前記ビデオにおける複数個フレームの画像の前記最適化された検出枠を接続し、同一のターゲットの動作パイプラインを形成することは、
    q番目の画像フレームの前記最適化された検出枠に基づいて、再検出された画像特徴を得ることであって、qは正整数である、ことと、
    前記再検出された画像特徴に基づいて、動作タイプの認識を行い、対応するタイプの動作と決定されることを示す確率値を得ることと、
    前記確率値に基づいて、前記最適化された検出枠に対して平滑化フィルタリングを行い、平滑化フィルタリングされた最適化された検出枠を得ることと、
    時間領域内において、平滑化フィルタリングされた最適化された検出枠を関連付け、前記動作パイプラインを得ることと、を含むことを特徴とする
    請求項に記載の方法。
  10. ターゲット検出装置であって、
    n個の異なるターゲット検出器により決定された、位置決めターゲットに関連するn種類の検出枠を取得するように構成される取得モジュールであって、前記n個の異なるターゲット検出器は、同一の画像から、n種類の異なる画像特徴を抽出することができ、nは2以上の正整数である、取得モジュールと、
    前記n種類の検出枠に基づいて、統合された検出枠を得るように構成される統合モジュールと、
    前記n個の異なるターゲット検出器のうちの各ターゲット検出器が、前記統合された検出枠に基づいて、入力画像から画像特徴を抽出し、n種類の画像特徴を得るように構成される抽出モジュールと、
    n種類の画像特徴に基づいて、画像特徴最適化を行い、最適化された画像特徴を得るように構成される第1最適化モジュールと、
    前記最適化された画像特徴に基づいて、最適化された検出枠を得て、ターゲットを検出するように構成される第2最適化モジュールと、を備える、装置。
  11. ターゲット検出機器であって、
    コンピュータによる実行可能な命令を記憶するように構成されるメモリと、
    前記メモリに接続され、前記コンピュータによる実行可能な命令を実行することで、請求項1からのうちいずれか一項で提供される方法を実現させるように構成されるプロセッサと、を備える、前記ターゲット検出機器。
  12. コンピュータ記憶媒体であって、前記コンピュータ記憶媒体には、コンピュータによる実行可能な命令が記憶されており、前記コンピュータによる実行可能な命令がプロセッサにより実行された後、請求項1からのうちいずれか一項で提供される方法を実現させる、前記コンピュータ記憶媒体。
  13. コンピュータに、請求項1からのうちいずれか一項に記載の方法を実行させる、コンピュータプログラ
JP2020561811A 2019-04-30 2019-11-28 ターゲット検出方法及び装置、機器並びに記憶媒体 Active JP7012880B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910364565.0 2019-04-30
CN201910364565.0A CN110210474B (zh) 2019-04-30 2019-04-30 目标检测方法及装置、设备及存储介质
PCT/CN2019/121773 WO2020220663A1 (zh) 2019-04-30 2019-11-28 目标检测方法及装置、设备及存储介质

Publications (2)

Publication Number Publication Date
JP2021525409A JP2021525409A (ja) 2021-09-24
JP7012880B2 true JP7012880B2 (ja) 2022-01-28

Family

ID=67785384

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020561811A Active JP7012880B2 (ja) 2019-04-30 2019-11-28 ターゲット検出方法及び装置、機器並びに記憶媒体

Country Status (6)

Country Link
US (1) US11151358B2 (ja)
JP (1) JP7012880B2 (ja)
KR (1) KR20200139212A (ja)
CN (1) CN110210474B (ja)
SG (1) SG11202012861PA (ja)
WO (1) WO2020220663A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210474B (zh) * 2019-04-30 2021-06-01 北京市商汤科技开发有限公司 目标检测方法及装置、设备及存储介质
CN111339813B (zh) * 2019-09-30 2022-09-27 深圳市商汤科技有限公司 人脸属性识别方法、装置、电子设备和存储介质
CN111523599B (zh) * 2020-04-24 2024-03-26 上海商汤智能科技有限公司 目标检测方法及装置、电子设备和存储介质
CN112861711A (zh) * 2021-02-05 2021-05-28 深圳市安软科技股份有限公司 区域入侵检测方法、装置、电子设备及存储介质
CN112989992B (zh) * 2021-03-09 2023-12-15 阿波罗智联(北京)科技有限公司 目标检测方法、装置、路侧设备和云控平台
CN113177133B (zh) * 2021-04-23 2024-03-29 深圳依时货拉拉科技有限公司 一种图像检索方法、装置、设备及存储介质
CN114092045A (zh) * 2021-11-10 2022-02-25 深圳市文君创艺广告文化传媒有限公司 基于物联网的社区建档方法、装置及存储介质
CN114871115A (zh) * 2022-04-28 2022-08-09 五邑大学 一种物体分拣方法、装置、设备及存储介质
CN116229452B (zh) * 2023-03-13 2023-11-17 无锡物联网创新中心有限公司 一种基于改进的多尺度特征融合的点云三维目标检测方法
CN116385952B (zh) * 2023-06-01 2023-09-01 华雁智能科技(集团)股份有限公司 配网线路小目标缺陷检测方法、装置、设备及存储介质
CN116587327A (zh) * 2023-06-20 2023-08-15 广东电网有限责任公司广州供电局 运动控制系统、带电作业机器人检测方法及相关设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007188419A (ja) 2006-01-16 2007-07-26 Fujifilm Corp 顔検出方法および装置並びにプログラム
JP2014137629A (ja) 2013-01-15 2014-07-28 Mega Chips Corp 画像検出装置及び制御プログラム並びに画像検出方法
JP2018180945A (ja) 2017-04-13 2018-11-15 株式会社豊田中央研究所 物体検出装置及びプログラム
JP2019032773A (ja) 2017-08-09 2019-02-28 キヤノン株式会社 画像処理装置、画像処理方法

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411716A (zh) * 2010-09-21 2012-04-11 索尼公司 目标检测和分类方法和装置
JP2012108785A (ja) * 2010-11-18 2012-06-07 Panasonic Corp 人数カウント装置、人数カウント方法及び人数カウントプログラム
CN104268514A (zh) * 2014-09-17 2015-01-07 西安交通大学 一种基于多特征融合的手势检测方法
US9589210B1 (en) * 2015-08-26 2017-03-07 Digitalglobe, Inc. Broad area geospatial object detection using autogenerated deep learning models
CN105913003B (zh) * 2016-04-07 2019-06-07 国家电网公司 一种多特征多模型的行人检测方法
US20170330059A1 (en) * 2016-05-11 2017-11-16 Xerox Corporation Joint object and object part detection using web supervision
CN106529527A (zh) * 2016-09-23 2017-03-22 北京市商汤科技开发有限公司 物体检测方法和装置、数据处理装置和电子设备
CN108171103A (zh) * 2016-12-07 2018-06-15 北京三星通信技术研究有限公司 目标检测方法及装置
CN108229455B (zh) * 2017-02-23 2020-10-16 北京市商汤科技开发有限公司 物体检测方法、神经网络的训练方法、装置和电子设备
CN107124609A (zh) * 2017-04-27 2017-09-01 京东方科技集团股份有限公司 一种视频图像的处理系统、其处理方法及显示装置
CN107301377B (zh) * 2017-05-26 2020-08-18 浙江大学 一种基于深度相机的人脸与行人感知系统
CN107292293A (zh) * 2017-07-26 2017-10-24 北京小米移动软件有限公司 人脸检测的方法及装置
CN107527053A (zh) * 2017-08-31 2017-12-29 北京小米移动软件有限公司 目标检测方法及装置
US11004209B2 (en) * 2017-10-26 2021-05-11 Qualcomm Incorporated Methods and systems for applying complex object detection in a video analytics system
CN108009544B (zh) * 2017-12-13 2021-08-31 北京小米移动软件有限公司 目标检测方法及装置
CN108154105B (zh) * 2017-12-21 2020-08-07 深圳先进技术研究院 水下生物检测与识别方法、装置、服务器及终端设备
US11164003B2 (en) * 2018-02-06 2021-11-02 Mitsubishi Electric Research Laboratories, Inc. System and method for detecting objects in video sequences
CN108288273B (zh) * 2018-02-09 2021-07-27 南京智莲森信息技术有限公司 基于多尺度耦合卷积网的铁路接触网异常目标自动检测法
CN108985147A (zh) * 2018-05-31 2018-12-11 成都通甲优博科技有限责任公司 目标检测方法及装置
CN110660037B (zh) * 2018-06-29 2023-02-10 京东方科技集团股份有限公司 图像间脸部交换的方法、装置、系统和计算机程序产品
CN109145898A (zh) * 2018-07-26 2019-01-04 清华大学深圳研究生院 一种基于卷积神经网络和迭代机制的物体检测方法
US11238612B2 (en) * 2018-08-28 2022-02-01 Beijing Jingdong Shangke Information Technology Co., Ltd. Device and method of tracking poses of multiple objects based on single-object pose estimator
CN110569696A (zh) * 2018-08-31 2019-12-13 阿里巴巴集团控股有限公司 用于车辆部件识别的神经网络系统、方法和装置
CN109376637B (zh) * 2018-10-15 2021-03-02 齐鲁工业大学 基于视频监控图像处理的人数统计系统
CN109376681B (zh) * 2018-11-06 2021-09-03 广东工业大学 一种多人姿态估计方法及系统
US11537811B2 (en) * 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
CN110210474B (zh) * 2019-04-30 2021-06-01 北京市商汤科技开发有限公司 目标检测方法及装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007188419A (ja) 2006-01-16 2007-07-26 Fujifilm Corp 顔検出方法および装置並びにプログラム
JP2014137629A (ja) 2013-01-15 2014-07-28 Mega Chips Corp 画像検出装置及び制御プログラム並びに画像検出方法
JP2018180945A (ja) 2017-04-13 2018-11-15 株式会社豊田中央研究所 物体検出装置及びプログラム
JP2019032773A (ja) 2017-08-09 2019-02-28 キヤノン株式会社 画像処理装置、画像処理方法

Also Published As

Publication number Publication date
KR20200139212A (ko) 2020-12-11
CN110210474B (zh) 2021-06-01
WO2020220663A1 (zh) 2020-11-05
SG11202012861PA (en) 2021-11-29
US20210110138A1 (en) 2021-04-15
US11151358B2 (en) 2021-10-19
CN110210474A (zh) 2019-09-06
JP2021525409A (ja) 2021-09-24

Similar Documents

Publication Publication Date Title
JP7012880B2 (ja) ターゲット検出方法及び装置、機器並びに記憶媒体
CN107545262B (zh) 一种在自然场景图像中检测文本的方法及装置
US10672131B2 (en) Control method, non-transitory computer-readable storage medium, and control apparatus
CN108256506B (zh) 一种视频中物体检测方法及装置、计算机存储介质
US9905015B2 (en) Systems and methods for non-obstacle area detection
Gilroy et al. Overcoming occlusion in the automotive environment—A review
JP6650657B2 (ja) フィンガープリントを使用してビデオ内で移動オブジェクトを追跡するため方法及びシステム
US9652851B2 (en) Side window detection in near-infrared images utilizing machine learning
CN110491132B (zh) 基于视频帧图片分析的车辆违停检测方法及装置
US9836851B2 (en) Apparatus and method for detecting multiple objects using adaptive block partitioning
WO2021017283A1 (zh) 基于离线型的在线跟踪方法、装置、计算机设备及存储介质
JP2014071902A5 (ja)
KR102138680B1 (ko) 영상 인식 장치 및 방법
US11804026B2 (en) Device and a method for processing data sequences using a convolutional neural network
KR102387357B1 (ko) 바운딩 박스를 시공간상으로 매칭하여 영상 내 객체를 검출하는 방법 및 장치
CN111652181B (zh) 目标跟踪方法、装置及电子设备
Getahun et al. A deep learning approach for lane detection
CN110866428A (zh) 目标跟踪方法、装置、电子设备及存储介质
CN114155278A (zh) 目标跟踪及相关模型的训练方法和相关装置、设备、介质
Al Mamun et al. Efficient lane marking detection using deep learning technique with differential and cross-entropy loss.
Das Soildnet: Soiling degradation detection in autonomous driving
CN115880662A (zh) 利用异类传感器的协同作用进行自主驾驶的3d目标检测方法
CN109961083B (zh) 用于将卷积神经网络应用于图像的方法和图像处理实体
CN113989753A (zh) 一种多目标检测处理方法及装置
JP4818430B2 (ja) 移動物体認識方法及び装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201030

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220118

R150 Certificate of patent or registration of utility model

Ref document number: 7012880

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150