JP2022507145A - ターゲット追跡方法及び装置、インテリジェント移動機器並びに記憶媒体 - Google Patents

ターゲット追跡方法及び装置、インテリジェント移動機器並びに記憶媒体 Download PDF

Info

Publication number
JP2022507145A
JP2022507145A JP2021525569A JP2021525569A JP2022507145A JP 2022507145 A JP2022507145 A JP 2022507145A JP 2021525569 A JP2021525569 A JP 2021525569A JP 2021525569 A JP2021525569 A JP 2021525569A JP 2022507145 A JP2022507145 A JP 2022507145A
Authority
JP
Japan
Prior art keywords
target
image
offset
value
intelligent mobile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2021525569A
Other languages
English (en)
Inventor
ジュンウェイ ジャン
Original Assignee
シャンハイ センスタイム インテリジェント テクノロジー カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャンハイ センスタイム インテリジェント テクノロジー カンパニー リミテッド filed Critical シャンハイ センスタイム インテリジェント テクノロジー カンパニー リミテッド
Publication of JP2022507145A publication Critical patent/JP2022507145A/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)

Abstract

本願は、ターゲット追跡方法及び装置、インテリジェント移動機器並びに記憶媒体に関するものであり、前記ターゲット追跡方法は、収集された画像を取得すること(S10)と、前記画像におけるターゲット対象の位置を決定すること(S20)と、前記ターゲット対象の位置と前記画像の中心位置との距離に基づいて、インテリジェント移動機器の回転を制御するための制御命令を得ること(S30)であって、前記制御命令は、前記ターゲット対象を前記画像の中心位置に位置させるためのものであり、且つ前記制御命令は、前記距離を構成するためのオフセットシーケンスにおけるオフセット値に対応する回転命令を含み、前記オフセットシーケンスは、少なくとも1つのオフセット値を含む、こと(S30)と、を含む。

Description

(関連出願の相互参照)
本願は、2019年07月17日に中国特許局に提出された、出願番号が201910646696.8である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
本願の実施例は、コンピュータビジョン技術分野に関し、ターゲット追跡方法及び装置、インテリジェント移動機器並びに記憶媒体に関するが、これらに限定されない。
現在、例えば、リモートコントロールカー、移動ロボットなどのインテリジェント移動機器は、各分野において適用されている。例えば、教育業界で、リモートコントロールカーを教習具として、ターゲット追跡を実現させることができる。
本願の実施例は、ターゲット追跡方法及び装置、インテリジェント移動機器並びに記憶媒体を提供する。
本願の実施例は、ターゲット追跡方法を提供する。前記ターゲット追跡方法は、収集された画像を取得することと、前記画像におけるターゲット対象の位置を決定することと、前記ターゲット対象の位置と前記画像の中心位置との距離に基づいて、インテリジェント移動機器の回転を制御するための制御命令を決定することであって、前記制御命令は、前記ターゲット対象を前記画像の中心位置に位置させるためのものであり、且つ前記制御命令は、前記距離を構成するためのオフセットシーケンスにおけるオフセット値に対応する回転命令を含み、前記オフセットシーケンスは、少なくとも1つのオフセット値を含む、ことと、を含む。
本願の幾つかの実施例において、前記画像におけるターゲット対象の位置を決定する前に、前記ターゲット追跡方法は、前記画像に対して前処理操作を実行することを更に含み、前記前処理操作は、前記画像を所定の規格のグレースケール画像に調整することと、前記グレースケール画像に対して正規化処理を行うことと、を含み、前記画像におけるターゲット対象の位置を決定することは、前記前処理操作後に得られた画像に対してターゲット検出処理を行い、前記前処理操作後の画像における前記ターゲット対象の位置を得ることと、前記前処理操作後の画像における前記ターゲット対象の位置に基づいて、前記画像における前記ターゲット対象の位置を決定することと、を含む。
本願の幾つかの実施例において、前記グレースケール画像に対して正規化処理を行うことは、前記グレースケール画像における各画素点の画素値の平均値及び標準偏差を決定することと、前記各画素点の画素値と前記平均値との差を得ることと、前記各画素点に対応する前記差と前記標準偏差との比を前記各画素点の正規化された画素値として決定することと、を含む。
本願の幾つかの実施例において、前記画像におけるターゲット対象の位置を決定することは、前記画像の画像特徴を抽出することと、前記画像特徴に対して分類処理を行い、前記画像におけるターゲット対象の位置領域を得ることと、前記位置領域の中心位置を前記ターゲット対象の位置として決定することと、を含む。
本願の幾つかの実施例において、前記ターゲット対象は、顔を含み、対応的に、前記画像におけるターゲット対象の位置を決定することは、前記画像における顔の位置を決定することを含む。
本願の幾つかの実施例において、前記ターゲット対象の位置と前記画像の中心位置との距離に基づいて、インテリジェント移動機器の回転を制御するための命令を決定することは、前記画像におけるターゲット対象の位置と前記画像の中心位置との距離に基づいて、ターゲットオフセットを決定することと、前記ターゲットオフセットに基づいて、複数組のオフセットシーケンスを生成することであって、各組のオフセットシーケンスにおけるオフセット値の加算値は、前記ターゲットオフセットである、ことと、強化学習アルゴリズムを利用して、前記複数組のオフセットシーケンスから、要件を満たすオフセットシーケンスを選択し、要件を満たす前記オフセットシーケンスに対応する制御命令を決定することと、を含む。
本願の幾つかの実施例において、強化学習アルゴリズムを利用して、前記複数組のオフセットシーケンスから、要件を満たすオフセットシーケンスを選択することは、前記複数組のオフセットシーケンスにおける各オフセット値に対して、価値テーブルにおける、前記オフセット値に対応する最大価値を決定することであって、前記価値テーブルは、異なる回転命令での、オフセット値に対応する価値を含む、ことと、前記オフセット値に対応する報酬値を得、前記オフセット値に対応する前記報酬値及び前記最大価値に基づいて、前記オフセット値の最終価値を決定することであって、前記報酬値は、前記オフセット値の最大価値に対応する回転命令が実行されていない場合、ターゲット対象の位置と画像中心位置との距離である、ことと、前記複数組のオフセットシーケンスにおける各オフセット値の前記最終価値の和が最も大きいオフセットシーケンスを、要件を満たすオフセットシーケンスとして決定することと、を含む。
本願の幾つかの実施例において、要件を満たす前記オフセットシーケンスに対応する制御命令を決定することは、要件を満たす前記オフセットシーケンスにおける各オフセット値の最大価値に対応する回転命令に基づいて、前記制御命令を決定することを含む。
本願の幾つかの実施例において、前記ターゲット追跡方法は、前記制御命令に基づいて、前記インテリジェント移動機器を、回転を実行するように駆動することを更に含む。
本願の幾つかの実施例において、前記ターゲット追跡方法は、前記ターゲット対象の位置領域に基づいて、前記インテリジェント移動機器の回転を制御するための制御命令を決定することと、前記ターゲット対象の位置領域に対応する面積が第1閾値より大きいことに応答して、前記インテリジェント移動機器の後退を制御するための制御命令を生成することと、前記ターゲット対象の位置領域に対応する面積が第2閾値未満であることに応答して、前記インテリジェント移動機器の前進を制御するための制御命令を生成することであって、前記第1閾値は第2閾値より大きい、ことと、を更に含む。
本願の実施例は、ターゲット追跡装置を更に提供する。前記ターゲット追跡装置は、画像を収集するように構成される画像収集モジュールと、前記画像におけるターゲット対象の位置を決定するように構成されるターゲット検出モジュールと、前記ターゲット対象の位置と前記画像の中心位置との距離に基づいて、インテリジェント移動機器の回転を制御するための制御命令を決定するように構成される制御モジュールであって、前記制御命令は、前記ターゲット対象を前記画像の中心位置に位置させるためのものであり、且つ前記制御命令は、前記距離を構成するためのオフセットシーケンスにおけるオフセット値に対応する回転命令を含み、前記オフセットシーケンスは、少なくとも1つのオフセット値を含む、制御モジュールと、を備える。
本願の幾つかの実施例において、前記ターゲット追跡装置は、前記画像に対して前処理操作を実行するように構成される前処理モジュールを更に備え、前記前処理操作は、前記画像を所定の規格のグレースケール画像に調整することと、前記グレースケール画像に対して正規化処理を行うことと、を含み、前記ターゲット検出モジュールは更に、前記前処理操作後に得られた画像に対してターゲット検出処理を行い、前記前処理操作後の画像における前記ターゲット対象の位置を得、前記前処理操作後の画像における前記ターゲット対象の位置に基づいて、前記画像における前記ターゲット対象の位置を決定するように構成される。
本願の幾つかの実施例において、前記前処理モジュールにより実行される、前記グレースケール画像に対して正規化処理を行うステップは、前記グレースケール画像における各画素点の画素値の平均値及び標準偏差を決定することと、前記各画素点の画素値と前記平均値との差を得ることと、前記各画素点に対応する前記差と前記標準偏差との比を前記各画素点の正規化された画素値として決定することと、を含む。
本願の幾つかの実施例において、前記ターゲット検出モジュールは更に、前記画像の画像特徴を抽出し、前記画像特徴に対して分類処理を行い、前記画像におけるターゲット対象の位置領域を得、前記位置領域の中心位置を前記ターゲット対象の位置として決定するように構成される。
本願の幾つかの実施例において、前記ターゲット対象は、顔を含み、対応的に、前記ターゲット検出モジュールは更に、前記画像における顔の位置を決定するように構成される。
本願の幾つかの実施例において、前記制御モジュールは更に、前記画像におけるターゲット対象の位置と前記画像の中心位置との距離に基づいて、ターゲットオフセットを決定することと、前記ターゲットオフセットに基づいて、複数組のオフセットシーケンスを生成することであって、各組のオフセットシーケンスにおけるオフセット値の加算値は、前記ターゲットオフセットである、ことと、強化学習アルゴリズムを利用して、前記複数組のオフセットシーケンスから、要件を満たすオフセットシーケンスを選択し、要件を満たす前記オフセットシーケンスに対応する制御命令を得ることと、を実行するように構成される。
本願の幾つかの実施例において、前記制御モジュールは更に、前記複数組のオフセットシーケンスにおける各オフセット値に対して、価値テーブルにおける、前記オフセット値に対応する最大価値を決定することであって、前記価値テーブルは、異なる回転命令での、オフセット値に対応する価値を含む、ことと、前記オフセット値に対応する報酬値を得、前記オフセット値に対応する前記報酬値及び前記最大価値に基づいて、前記オフセット値の最終価値を決定することであって、前記報酬値は、前記オフセット値の最大価値に対応する回転命令が実行されていない場合、ターゲット対象の位置と画像中心位置との距離である、ことと、前記複数組のオフセットシーケンスにおける各オフセット値の前記最終価値の和が最も大きいオフセットシーケンスを、要件を満たすオフセットシーケンスとして決定することと、を実行するように構成される。
本願の幾つかの実施例において、前記制御モジュールは更に、要件を満たす前記オフセットシーケンスにおける各オフセット値の最大価値に対応する回転命令に基づいて、前記制御命令を決定するように構成される。
本願の幾つかの実施例において、前記ターゲット検出モジュールは更に、前記ターゲット対象の位置領域に基づいて、前記インテリジェント移動機器の回転を制御するための制御命令を決定し、前記ターゲット対象の位置領域に対応する面積が第1閾値より大きい場合、前記インテリジェント移動機器の後退を制御するための制御命令を生成し、前記ターゲット対象の位置領域に対応する面積が第2閾値未満である場合、前記インテリジェント移動機器の前進を制御するための制御命令を生成するように構成され、前記第1閾値は第2閾値より大きい。
本願の実施例は、インテリジェント移動機器を提供する。該インテリジェント移動機器は、前記ターゲット追跡装置を備え、前記ターゲット追跡装置内のターゲット検出モジュールは、インテリジェント移動機器の管理装置に集積され、前記管理装置は、前記画像収集モジュールにより収集された画像に対してターゲット検出処理を行い、前記ターゲット対象の位置を得、前記制御モジュールは、前記管理装置に接続され、前記管理装置に基づいてターゲット対象の位置を得て前記制御命令を生成し、前記制御命令に基づいて、前記インテリジェント移動機器の回転を制御するように構成される。
本願の幾つかの実施例において、前記管理装置に、前記画像に対して前処理操作を実行し、前記前処理操作後の画像に対してターゲット検出処理を行い、前記画像におけるターゲット対象の位置を得るように構成される、前記ターゲット追跡装置の前処理モジュールが更に集積される。
本願の幾つかの実施例において、前記インテリジェント移動機器は、教習ロボットを含む。
本願の実施例は、インテリジェント移動機器を提供する。前記インテリジェント移動機器は、プロセッサと、プロセッサによる実行可能な命令を記憶するように構成されるメモリと、を備え、前記プロセッサは、前記メモリに記憶されている命令を呼び出して、いずれか一項に記載のターゲット追跡方法を実行するように構成される。
本願の実施例は、コンピュータ可読記憶媒体を提供する。該コンピュータ可読記憶媒体にコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令は、プロセッサにより実行されるときに、プロセッサに第1態様におけるいずれか一項に記載のターゲット追跡方法を実現させる。
本願の実施例は、コンピュータプログラムを提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードがインテリジェント移動機器で実行されるときに、前記インテリジェント移動機器におけるプロセッサに、いずれか一項に記載のターゲット追跡方法を実行させる。
本願の実施例で提供されるターゲット追跡方法及び装置、インテリジェント移動機器並びに記憶媒体は、収集された画像におけるターゲット対象の位置を得、該ターゲット対象の位置と画像中心との距離に基づいて、ターゲットインテリジェント移動機器の制御命令を得る。該制御命令は、インテリジェント移動機器の回転を制御するためのものである。得られた制御命令は、少なくとも1つのオフセット値に対応する回転命令を含む。ここで、各オフセット値からなるオフセットシーケンスは、ターゲット対象と画像中心との距離によって決まる。得られた制御命令によれば、回転したターゲット対象を、収集した画像の中心に位置させ、ターゲット対象を、インテリジェント移動機器の追跡範囲内に位置させることができる。本願の実施例で提供されるターゲット追跡方法及び装置、インテリジェント移動機器並びに記憶媒体は、ターゲット対象の位置に基づいて、ターゲット追跡をリアルタイムで実行することができ、より便利で、正確であるという特徴を有する。
上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本願の実施例を限定するものではないことが理解されるべきである。
本願の実施例の他の特徴及び態様は、下記の図面に基づく例示的な実施例の詳細な説明を参照すれば明らかになる。
ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本願に適合する実施例を示し、かつ、明細書とともに本願の技術的解決手段を解釈することに用いられる。
本願の実施例によるターゲット追跡方法を示すフローチャートである。 本願の実施例による画像の前処理を示すフローチャートである。 本願の実施例によるターゲット追跡方法におけるステップS20を示すフローチャートである。 本願の実施例によるターゲット追跡方法におけるステップS30を示すフローチャートである。 本願の実施例によるターゲット追跡方法におけるステップS303を示すフローチャートである。 本願の実施例によるターゲット追跡方法を示すもう1つのフローチャートである。 本願の実施例によるターゲット追跡方法の適用例を示す図である。 本願の実施例による前処理プロセスを示すフローチャートである。 本願の実施例によるターゲット検出ネットワークの訓練プロセスを示す概略図である。 本願の実施例によるターゲット検出ネットワークの適用プロセスを示す概略図である。 本願の実施例による強化学習に基づいた経路計画アルゴリズムを示すフローチャートである。 本願の実施例によるターゲット追跡装置の構造を示す概略図である。 本願の実施例によるインテリジェント移動機器の構造を示す概略図である。
以下、図面を参照しながら本願の実施例の種々の例示的な実施例、特徴及び態様を詳しく説明する。図面における同一の符号は、同一または類似する機能を有する要素を示す。図面は、実施例の種々の態様を示しているが、特別な説明がない限り、必ずしも比率どおりの図面ではない。
ここで使用した「例示的」という用語は「例、実施例として用いられるか、または説明のためのものである」ことを意味する。ここで、「例示的なもの」として説明される如何なる実施例は、他の実施例より好適または有利であると必ずしも解釈されるべきではない。
本明細書において、用語「及び/又は」は、関連対象の関連関係を説明するためのものであり、3通りの関係が存在することを表す。例えば、A及び/又はBは、Aのみが存在すること、AとBが同時に存在すること、Bのみが存在するという3つの場合を表す。また、本明細書において、用語「少なくとも1つ」は、複数のうちのいずれか1つ又は複数のうちの少なくとも2つの任意の組み合わせを表す。例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCからなる集合から選ばれるいずれか1つ又は複数の要素を含むことを表す。
なお、本願をより良く説明するために、以下の具体的な実施形態において具体的な細部を多く記載した。当業者は、これら具体的な詳細に関わらず、本願の実施例は同様に実施可能であると理解すべきである。本願の実施例の主旨を明確にするために、一部の実例において、当業者に熟知されている方法、手段、素子及び回路については詳しく説明しないことにする。
本願の実施例は、ターゲット追跡方法を提供する。該方法は、画像処理機能を持つ任意のインテリジェント移動機器に適用可能である。例えば、ターゲット追跡方法は、移動ロボット、リモートコントロールカー、飛行機などの機器に適用可能である。上記は、例示的な説明だけであり、移動を実現できる機器であれば、いずれも、本願の実施例で提供されるターゲット追跡方法を用いることができる。幾つかの可能な実施例において、該ターゲット追跡方法は、プロセッサによりメモリに記憶されているコンピュータ可読命令を呼び出すことで実現することができる。
図1は、本願の実施例によるターゲット追跡方法を示すフローチャートである。図1に示すように、前記ターゲット追跡方法は、以下を含む。
ステップS10において、収集された画像を取得する。
本願の幾つかの実施例において、本願の実施例のターゲット追跡方法を適用するインテリジェント移動機器に、カメラ又は写真機などのような画像収集機器が備えられてもよい。本願の実施例は、画像収集機器により画像を直接的に収集することができ、又は、画像収集機器によりビデオデータを収集し、ビデオデータに対してフレーミング又はフレーム選択を行い、対応する画像を得ることができる。
ステップS20において、前記画像におけるターゲット対象の位置を決定する。
本願の幾つかの実施例において、収集された画像を得た場合、収集された画像のターゲット検出処理を実行することができる。つまり、収集された画像にターゲット対象が存在するかどうかを検出し、ターゲット対象が存在する場合、ターゲット対象の所在位置を決定する。
本願の幾つかの実施例において、ニューラルネットワークにより該ターゲット検出処理を実現させることができる。ここで、本願の実施例において検出されるターゲット対象は、任意のタイプの対象であってもよい。例えば、ターゲット対象は、顔であり、又は、ターゲット対象は、他の追跡されるべき対象である。本願の実施例は、これを具体的に限定しない。又は、幾つかの実施例において、ターゲット対象は、既知の身元の特定の対象であってもよい。つまり、本願の実施例は、対応するタイプの対象(例えば、全ての顔画像)に対する追跡を実行することができ、1つの特定の身元の対象(例えば、既知の特定の顔画像)に対する追跡を実行することもできる。必要に応じて設定することができ、本願の実施例は、これを具体的に限定しない。
本願の幾つかの実施例において、ターゲット検出処理を実現させるニューラルネットワークは、畳み込みニューラルネットワークであってもよい。該ニューラルネットワークは、訓練された後、画像におけるターゲット対象の位置を正確に検出することができる。ニューラルネットワークの形態に対して限定しない。
一例において、画像に対してターゲット検出処理を実行するプロセスにおいて、画像に対して特徴抽出を実行し、画像特徴を得、続いて、画像特徴に対して分類処理を行い、画像におけるターゲット対象の位置領域を得、該位置領域に基づいて、ターゲット対象の位置を決定することができる。ここで、分類処理により得られた分類結果は、画像に第1識別子又は第2識別子のようなターゲット対象の識別子が存在するかどうかを含んでもよい。ここで、第1識別子は、現在位置での、画像における対応する画素点がターゲット対象であることを表し、第2識別子は、現在位置での、画像における対応する画素点がターゲット対象ではないことを表す。第1識別子からなる領域により、画像における、ターゲット対象の位置を決定することができる。例えば、該領域の中心位置をターゲット対象の位置として決定することができる。上述によれば、画像にターゲット対象が含まれる場合、画像における、ターゲット対象の位置を直接的に得ることができる。例えば、座標系の形態でターゲット対象の位置を表すことができる。本願の実施例において、画像における、ターゲット対象の位置領域の中心位置をターゲット対象の位置とすることができる。なお、画像においてターゲット対象を検出できない場合、出力された位置は、ヌルである。
ステップS30において、前記ターゲット対象の位置と前記画像の中心位置との距離に基づいて、インテリジェント移動機器の回転を制御するための制御命令を決定し、前記制御命令は、前記ターゲット対象を前記画像の中心位置に位置させるためのものであり、且つ前記制御命令は、前記距離を構成するためのオフセットシーケンスにおけるオフセット値に対応する回転命令を含み、前記オフセットシーケンスは、少なくとも1つのオフセット値を含む。
本願の幾つかの実施例において、画像におけるターゲット対象の位置を得た場合、該位置に基づいて、インテリジェント移動機器の移動を制御し、ターゲット対象を収集された画像の中心位置に位置させ、更にターゲット対象に対する追跡を実現させることができる。ここで、本願の実施例は、画像におけるターゲット対象の位置と画像の中心位置との距離に基づいて、インテリジェント移動機器の回転を制御する制御命令を得、前記ターゲット対象を現在収集された画像の中心に位置させることができる。ここで、制御命令は、少なくとも1つのオフセット値にそれぞれ対応する回転命令を含んでもよい。少なくとも1つのオフセット値に対応するオフセットシーケンスに基づいて、上記ターゲット対象の位置と画像中心位置との距離を決定することができる。例えば、各オフセット値の加算値は上記距離値である。ここで、本願の実施例の距離は、有向距離(方向ベクトル)であってもよく、オフセット値は、方向ベクトルであってもよい。各オフセット値に対応する方向ベクトルの加算値により、距離に対応する方向ベクトルを得ることができる。つまり、各オフセット値に対応する回転命令により、各オフセット値のオフセットを実現させ、最終的に、ターゲット対象を現在収集された画像の中心に位置させることができる。ターゲット対象が動かないままである場合、現在の画像の次の画像を収集する時刻から、ターゲット対象を収集された画像の中心に常に位置させることができる。ターゲット対象が移動した場合、本願の実施例は前の画像におけるターゲット対象の位置に基づいてインテリジェント移動機器を、回転するように迅速に調整し、ターゲット対象を収集された画像の中心に位置させることができるため、ターゲット対象が移動しても、ターゲット対象に対して追跡撮影を行い、ターゲット対象を収集された画像の画面に位置させることもできる。
本願の幾つかの実施例において、本願の実施例は、強化学習アルゴリズムを用いて、インテリジェント移動機器の回転経路の計画を実行し、ターゲット対象を画像中心に位置させる制御命令を得ることができる。該制御命令は、強化学習アルゴリズムに基づいて決定された最適移動方策に対応する制御命令であってもよい。一例において、強化学習アルゴリズムは、価値学習アルゴリズム(Q-learningアルゴリズム)であってもよい。
強化学習アルゴリズムにより、インテリジェント移動機器の移動経路に対して最適化決定を行い、移動時間、移動経路の利便性及びインテリジェント移動機器のエネルギー消費の総合的評価が最適である移動経路に対応する制御命令を得る。
上記構成により、本願の実施例は、ターゲット対象に対するリアルタイムな追跡を容易且つ正確に実現させ、ターゲット対象の位置に基づいてインテリジェント移動機器の回転を制御し、ターゲット対象を収集された画像の中心に位置させることができる。ここで、画像におけるターゲット対象の位置と画像の中心位置との距離に基づいて、インテリジェント移動機器の制御命令を得ることができる。該制御命令は、インテリジェント移動機器の回転を制御するためのものである。得られた制御命令は、少なくとも1つのオフセット値に対応する回転命令を含む。ここで、各オフセット値からなるオフセットシーケンスは、ターゲット対象と画像中心との距離によって決まる。得られた制御命令により、回転したターゲット対象を収集された画像の中心に位置させ、ターゲット対象をインテリジェント移動機器の追跡範囲内に位置させることができる。本願の実施例は、ターゲット対象の位置に基づいてターゲット追跡をリアルタイムで実行することができ、より便利で、正確であり、インテリジェント移動機器の効率を向上させるという特徴を有する。
以下、図面を参照しながら、本願の実施例を詳しく説明する。
上記実施例に記載したように、本願の実施例は、画像を収集した場合、該画像に対してターゲット検出処理を実行することができる。本願の実施例において、収集された画像の規格、タイプなどのパラメータは異なることがあるため、画像に対してターゲット検出処理を実行する前に、画像に対して前処理操作を実行し、正規化処理された画像を得ることもできる。
前記画像におけるターゲット対象の位置を決定する前に、前記ターゲット追跡方法は、前記画像に対して前処理操作を実行することを更に含む。図2は、本願の実施例による画像の前処理を示すフローチャートである。図2に示すように、前記前処理操作は、以下を含む。
ステップS11において、前記画像を所定の規格のグレースケール画像に調整する。
本願の幾つかの実施例において、収集された画像は、カラー画像又は他の形態の画像であることがある。収集された画像を所定の規格の画像に変換し、続いて所定の規格の画像をグレースケール画像に変換することができる。又は、まず、収集された画像をグレースケール画像に変換し、次に、グレースケール画像を所定の規格の形態に変換することもできる。ここで、所定の規格は、640*480であってもよいが、本願の実施例を具体的に限定するものではない。カラー画像又は他の形態の画像をグレースケール画像に変換する場合、画像値に対する処理に基づいて変換を行うことができる。例えば、各画素点の画素値を最大画素値で割り、該結果に基づいて対応するグレースケール値を得る。上記は、例示的な説明に過ぎず、本願の実施例は、該プロセスを具体的に限定しない。
カラーピクチャ又は他の形態の画像を処理する場合、大量のリソースを消耗する可能性があるが、ピクチャの形態が検出結果に及ぼす影響が小さいため、本願の実施例は、画像をグレースケール画像に変換し、ピクチャをグレースケールピクチャに直接的に変換し、続いて、ネットワークモデルに送信して検出を行うことで、リソースの消耗を減少させ、処理速度を向上させることができる。
ステップS12において、前記グレースケール画像に対して正規化処理を行う。
グレースケール画像を得た場合、グレースケール画像に対して正規化処理を行うことができる。正規化処理により、画像の画素値を同一のスケール範囲内に正規化することができる。ここで、正規化処理は、前記グレースケール画像における各画素点の画素値の平均値及び標準偏差を決定することと、前記画素点の画素値と前記平均値との差を得ることと、各画素点に対応する前記差と前記標準偏差との比を前記各画素点の正規化された画素値として決定することと、を含んでもよい。
本願の実施例において収集された画像は複数であってもよく、1つであってもよい。画像が1つである場合、得られたグレースケール画像も1つである。従って、該グレースケール画像における各画素点に対応する画素値(グレースケール値)に対して、各画素点の画素値に対応する平均値及び標準偏差を得ることができる。続いて、各画素点と平均値との差、標準偏差と、の比を該画素点の画素値に更新することができる
なお、収集された画像が複数である場合、これに対応して複数のグレースケール画像を得ることができる。該複数のグレースケール画像における各画素点の画素値により、複数のグレースケール画像の画素値の平均値及び標準偏差を得ることができる。つまり、本願の実施例の平均値及び標準偏差は、1つの画像に対するものであってもよく、複数の画像に対するものであってもよい。複数の画像の各画素点の画素値の平均値及び標準偏差を得た場合、各画像の各画素点の画素値と平均値との差を得、続いて、差と平均値との比を得、該比を利用して画素点の画素値を更新することができる。
上記方式により、グレースケール画像における各画素点の画素値を同一のスケールに統一し、収集された画像の正規化処理を実現させることができる。
上記は、本願の実施例の前処理の実行方式を例示的に説明するためのものである。他の実施例において、他の方式で前処理を実行することもできる。例えば、画像を所定の規格に変換し、所定の規格の画像に対して正規化処理を行うという処理だけを実行してもよい。つまり、本願の実施例は、カラー画像の正規化処理を実行することもできる。ここで、カラー画像における各画素点の各チャネルの特徴値の平均値及び標準偏差を得ることができる。例えば、画像の各画素点の赤色(Red:R)チャネルの特徴値(R値)の平均値及び標準偏差、緑色(Green:G)チャネルの特徴値(G値)の平均値及び標準偏差、青色(Blue:B)チャネルの特徴値(B値)の平均値及び標準偏差を得ることができる。続いて、対応する色チャネルの特徴値と平均値との差と、標準偏差と、の比に基づいて、対応する色チャネルの新たな特徴値を得る。これにより、各画像の各画素点に対応する色チャネルの更新された特徴値を得、続いて、正規化した画像を得る。
画像に対して前処理を行うことで、本願の実施利を、実施時にタイプの異なる画像及びスケールの異なる画像に適用させ、本願の実施例の適用性を向上させることができる。
画像に対して前処理を行った後、前処理された画像に対してターゲット検出処理を行い、前処理された画像におけるターゲット対象の位置を得、更に、前処理された画像と前処理されていない画像における各画素点位置の対応関係に基づいて、画像におけるターゲット対象の位置を得ることもできる。つまり、前処理されたターゲット対象の位置に基づいて、元々収集された画像におけるターゲット対象の位置を得ることができる。以下、収集された画像に対してターゲット検出処理を行うことのみを例として説明する。前処理された画像に対してターゲット検出を行うプロセスは、これと同じであり、ここで、詳細な説明を省略する。
図3は、本願の実施例によるターゲット追跡方法におけるステップS20を示すフローチャートである。図3に示すように、前記画像におけるターゲット対象の位置を決定することは、以下を含む。
ステップS201において、前記画像の画像特徴を抽出する。
本願の幾つかの実施例において、まず、画像の画像特徴を抽出することができる。例えば、畳み込み処理により、画像特徴を得ることができる。上述したように、ニューラルネットワークにより、ターゲット検出処理を実現させることができる。ここで、ニューラルネットワークは、特徴抽出モジュール及び分類モジュールを含んでもよい。特徴抽出モジュールは、少なくとも1層の畳み込み層を含むと同時に、プーリング層を含んでもよい。特徴抽出モジュールにより、画像の特徴を抽出することができる。他の実施例において、残差ネットワークの構造により、該特徴抽出プロセスを実行し、画像特徴を得ることもできる。本願の実施例は、これを具体的に限定しない。
ステップS202において、前記画像特徴に対して分類処理を行い、前記画像におけるターゲット対象の位置領域を得る。
本願の幾つかの実施例において、画像特徴に対して分類処理を行うことができる。例えば、分類処理を行う分類モジュールは、全結合層を含んでもよい。全結合層により、画像におけるターゲット対象の検出結果であるターゲット対象の位置領域を得る。本願の実施例のターゲット対象の位置領域は、座標の形態で示されてもよい。例えば、検出されたターゲット対象の位置領域に対応する検出枠の2つの頂角の位置座標であってもよく、又は、1つの頂点の位置座標、及び検出枠の高さや幅であってもよい。上述により、ターゲット対象が所在する位置領域を得ることができる。つまり、本願の実施例の分類処理により得られた結果は、画像にターゲットタイプの対象であるターゲット対象及びターゲット対象の位置領域が存在するかどうかを含んでもよい。ここで、第1識別子及び第2識別子により、ターゲットタイプの対象が存在するかどうかを標識し、座標の形態でターゲット対象が所在する位置領域を示すことができる。例えば、第1識別子は1であり、ターゲット対象が存在することを表し、逆に、第2識別子は、0であり、ターゲット対象が存在しないことを表す。(x1,x2,y1,y2)はそれぞれ、検出枠の2つの頂点に対応する横縦座標値である。
ステップS203において、前記位置領域の中心位置を前記ターゲット対象の位置として決定する。
本願の幾つかの実施例において、検出されたターゲット対象の位置領域の中心位置をターゲット対象の位置として決定することができる。該ターゲット対象が所在する位置領域の4つの頂点の座標値の平均値を取り、中心位置の座標を得、更に、該中心位置の座標をターゲット対象の位置として決定することができる。
ここで、一例において、ターゲット対象は、顔であってもよく、ターゲット検出処理は、顔検出処理であってもよい。つまり、画像における顔が所在する位置領域を検出し、更に、検出された顔が所在する位置領域の中心に基づいて顔の位置を得る。続いて、顔に対するターゲット追跡を行う。
上記実施形態により、本願の実施例は、高精度のターゲット対象の位置を得、ターゲット追跡の正確度を向上させることができる。
なお、本願の幾つかの実施例において、本願の実施例は、インテリジェント移動機器の管理装置により、上記前処理及びターゲット検出処理プロセスを実行することができる。本願の実施例において、前記管理装置は、ラズベリーパイチップであってもよい。ラズベリーパイチップは、高い拡張性を有すると共に、高い処理速度を有する。
本願の幾つかの実施例において、得られた、ターゲット対象の位置などに関わる情報をインテリジェント移動機器の制御端に伝送し、更に制御命令を得ることができる。本願の実施例において、ターゲット対象の検出結果を伝送する場合、所定のデータフォーマットでパッケージングして伝送することができる。ここで、検出結果は、画像における、ターゲット対象の位置を表す。ここで、該伝送される検出結果に対応するデータは、80バイトであってもよい。また、ここにモードフラグ、検出結果情報、巡回冗長(Cyclic Redundancy Check:CRC)チェック、再送信閾値、制御フィールド及びオプションフィールドが含まれてもよい。モードフラグは、ラズベリーパイチップの現在の動作モードを表すことができ、検出結果情報は、ターゲット対象の位置であってもよい。CRCチェックは、セキュリティ検証に用いられ、再送信閾値は、再送信データの最大回数値を表し、制御フィールドは、所望のインテリジェント移動機器の動作モードを表し、オプションフィールドは、付加可能な情報である。
画像におけるターゲット対象の位置を得た場合、インテリジェント移動機器の経路計画処理を行い、インテリジェント移動機器を制御する制御命令を得ることができる。図4は、本願の実施例によるターゲット追跡方法におけるステップS30を示すフローチャートである。図4に示すように、ステップS30は、下記ステップにより実現することができる。
ステップS301において、前記画像におけるターゲット対象の位置と前記画像の中心位置との距離に基づいて、ターゲットオフセットを決定する。
本願の幾つかの実施例において、本願の実施例は、ターゲット対象の追跡を行う場合、ターゲットが画像の中心位置に位置することを保持することができる。該方式により、ターゲット対象の追跡を実現させる。従って、本願の実施例は、ターゲット対象の位置を得た場合、該ターゲット対象の位置と画像の中心位置との距離を検出し、該距離をターゲットオフセットとすることができる。ここで、ターゲット対象の位置の座標と画像の中心位置の座標とのユークリッド距離をターゲットオフセットとすることができる。ここで、該距離は、ベクトル形態で表されてもよい。例えば、画像中心位置とターゲット対象の位置との間の有向ベクトルで表されてもよい。つまり、得られたターゲットオフセットは、ターゲット対象の位置と画像中心位置との距離を含んでもよく、ターゲット対象の位置に対する画像の中心の方向を含んでもよい。
ステップS302において、前記ターゲットオフセットに基づいて、複数組のオフセットシーケンスを生成し、前記オフセットシーケンスに少なくとも1つのオフセット値が含まれ、各組のオフセットシーケンスにおけるオフセット値の加算値は、前記ターゲットオフセットである。
本願の幾つかの実施例において、本願の実施例は、得られたターゲットオフセットに基づいて複数組のオフセットシーケンスを生成することができる。該オフセットシーケンスに少なくとも1つのオフセット値が含まれ、また、該少なくとも1つのオフセット値の加算値は、ターゲットオフセットである。例えば、ターゲット対象の位置が(100,0)であり、画像中心位置が(50,0)であると、ターゲットオフセットは、x軸における50である。該ターゲットオフセットを実現させるために、複数のオフセットシーケンスを生成することができる。例えば、1番目のオフセットシーケンスにおけるオフセット値は、10、20及び20であり、2番目のオフセットシーケンスにおけるオフセット値は、10、25及び15であってもよい。ここで、各オフセット値の方向は、x軸の正方向であってもよい。同様に、ターゲットオフセットに対応する複数組のオフセットシーケンスを得ることができる。
可能な実現形態において、生成された複数組のオフセットシーケンスにおけるオフセット値の数は、設定されたものであってもよく、例えば、3であってもよいが、本願の実施例を具体的に限定するものではない。なお、複数組のオフセットシーケンスの生成方式は、ランダム生成方式であってもよい。実際に、ターゲットオフセットを実現できるオフセットシーケンスにおけるオフセット値の組み合わせ方式は、複数種であってもよい。本願の実施例は、複数種の組み合わせ方式から、所定の数の組み合わせ方式をランダムに選択することができる。つまり、所定の数のオフセットシーケンスをランダムに選択することができる。
ステップS303において、強化学習アルゴリズムを利用して、前記複数組のオフセットシーケンスから、要件を満たすオフセットシーケンスを選択し、要件を満たす前記オフセットシーケンスに対応する制御命令を得る。
本願の幾つかの実施例において、生成されたオフセットシーケンスを得た場合、強化学習アルゴリズムを利用して要件を満たすオフセットシーケンスを選択することができる。ここで、強化学習アルゴリズムを利用してオフセットシーケンスに対応する総価値を得、総価値が最も高いオフセットシーケンスを、要件を満たすオフセットシーケンスとして決定することができる。
図5は、本願の実施例によるターゲット追跡方法におけるステップS303を示すフローチャートである。図5に示すように、ステップS303「強化学習アルゴリズムを利用して、前記複数組のオフセットシーケンスから、要件を満たすオフセットシーケンスを選択し、要件を満たす前記オフセットシーケンスに対応する制御命令を得ること」は、以下を含んでもよい。
ステップS3031において、前記複数組のオフセットシーケンスにおける各オフセット値に対して、価値テーブルにおける、前記オフセット値に対応する最大価値を決定し、前記価値テーブルは、異なる回転命令での、オフセット値に対応する価値を含む。
本願の幾つかの実施例において、強化学習アルゴリズムは、価値学習アルゴリズム(Q-learningアルゴリズム)であってもよく、対応する価値テーブル(Q-table)は、異なる回転命令での、異なるオフセット値に対応する価値(quality)を表すことができる。回転命令は、インテリジェント移動機器の回転を制御する命令であり、ここで、モータ回転角度、モータ回転数及びモータ回転時間などのパラメータを含んでもよい。本願の実施例における価値テーブルは、予め強化学習を行うことで得られた価値テーブルであってもよい。ここで、価値テーブルのパラメータは、異なるオフセット値場合、異なる回転命令に対応する価値を正確に区分して体現することができる。例えば、表1は、回転命令の少なくとも一部のパラメータを示す。表2は、価値テーブルを示す。ここで、横方向のパラメータa1、a2及びa3は、異なる回転命令であり、縦方向のパラメータs1、s2及びs3は、異なるオフセット値を示す。テーブル内のパラメータは、該当するオフセット値及び該当する回転命令に対応する価値を表す。価値は、該当するオフセット値に対応する回転命令の価値を表す。一般的に、数値が大きいほど、価値が大きくなり、該命令によりターゲット追跡を実現させる価値が高くなることを意味する。
Figure 2022507145000002
Figure 2022507145000003
上記実施例に記載したように、各オフセットシーケンスに複数のオフセット値が含まれてもよい。本願の実施例は、価値テーブルに基づいて、各シーケンスにおける各オフセット値に対応する最大の価値を決定することができる。例えば、オフセット値s1に対して、最大価値は、3であり、オフセット値s2に対して、最大価値は、2であり、オフセット値s3に対して、最大価値は4である。上記は、例示的な説明だけであり、異なる価値テーブルに対して、得られた価値は異なる可能性がある。本願の実施例は、これを具体的に限定しない。
ステップS3032において、前記オフセット値に対応する報酬値を得、前記オフセット値に対応する前記報酬値及び前記最大価値に基づいて、前記オフセット値の最終価値を決定し、前記報酬値は、前記オフセット値に対応する回転命令が実行されていない場合、ターゲット対象の位置と画像中心位置との距離である。
本願の幾つかの実施例において、オフセットシーケンスにおける各オフセット値の報酬値を得ることができる。ここで、報酬値は、該当するオフセット値が実行されていない場合のターゲットの位置に関わる。例えば、各オフセットシーケンスにおける1番目のオフセット値に対して、該オフセット値に対応する回転命令が実行されていない場合、ターゲット対象の位置は、画像におけるターゲット対象の元々検出された位置である。オフセットシーケンスにおける他のオフセット値に対して、該オフセット値の前のオフセット値に対応する回転命令を実行したと仮定することに基づいて、ターゲット対象の位置を得ることができる。例えば、検出された画像におけるターゲット位置が(100,0)であるとすれば、得られた、要件を満たすオフセットシーケンスは、20、15、15であってもよい。1番目のオフセット値に対して、ターゲット対象の位置(100,0)により、該1番目のオフセット値の報酬値を決定することができる。2番目のオフセット値に対して、ターゲット対象の位置を(120,0)と決定することができる。この場合、該位置に基づいて、2番目のオフセット値の報酬値を決定することができる。また、3番目のオフセット値を実行する場合、ターゲット対象の位置を(135,0)と決定することができる。この場合、該位置に基づいて、3番目のオフセット値の報酬値を決定することができる。
一例において、得られた報酬値の表現式は、式(1-1)に示すとおりである。
Figure 2022507145000004
ここで、R(s,a)は、オフセット値sに対応する最大価値の回転命令aの報酬値であり、即ち、オフセット値sに対応する報酬値である。s(x)及びs(y)はそれぞれ、オフセット値に対応する最大価値の回転命令aが実行されていない場合のターゲット対象の位置の横座標及び縦座標である。b及びcはそれぞれ、画像の中心位置の横座標及び縦座標を表す。
オフセット値に対応する報酬値及び最大価値を得た場合、オフセット値に対応する報酬値及び該オフセット値に対応する最大価値に基づいて、該オフセット値の最終価値を決定することができる。例えば、報酬値と最大価値の加重和を利用して最終価値を決定することができる。ここで、本願の実施例において、オフセット値の最終価値を決定する表現式は、式(1-2)に示すとおりである。
Figure 2022507145000005
ここで、Q’(s,a)はオフセット値sに対応する最終価値であり、R(s,a)はオフセット値sに対応する最大価値の回転命令aの報酬値であり、max{Q(s,a)}は、オフセット値sに対応する最大価値である。
上記方式により、各オフセット値に対応する最終価値を得ることができる。
ステップS3033において、前記最終価値の和が最も大きいオフセットシーケンスを、要件を満たすオフセットシーケンスとして決定する。
本願の幾つかの実施例において、オフセットシーケンスにおける各オフセット値の最終価値を加算処理し、該オフセットシーケンスに対応する総価値を得、続いて、総価値が最も大きいオフセットシーケンスを要件を満たすオフセットシーケンスとすることができる。
上記方式により、総価値が最も大きいオフセットシーケンスを得ることができる。該総価値が最も大きいことは、オフセットシーケンスに対応する回転経路に対応する回転命令が最適なオプションであることを表す。
要件を満たすオフセットシーケンスを得た後、該オフセットシーケンスにおける各オフセット値の、価値テーブルにおける最大価値に対応する回転命令を組み合わせて制御命令を生成し、続いて、該制御命令をインテリジェント移動機器に伝送し、インテリジェント移動機器に、該制御命令に基づいて回転操作を実行させることができる。
本願の幾つかの実施例において、生成された制御命令に基づいて、インテリジェント移動機器を、移動するように制御することができる。ここで、制御命令にモータの回転角度、回転方向などのパラメータが含まれてもよく、又は、モータ回転数、モータ回転時間、停止するかどうかなどの制御命令が含まれてもよい。
本願の実施例は、差動ステアリングの方式で、移動機器を移動するように制御することができる。例えば、インテリジェント移動機器は、インテリジェント移動カーであってもよく、それは、左右の2つの駆動輪を含んでもよい。本願の実施例は、制御命令に基づいて左右の2つの駆動輪の回転数に基づいて転向及び移動を実現させることができる。駆動輪の回転数が異なる場合、転舵輪がないか又は転舵輪が動作しなくても、車体も回転する。本願の実施例において、左右ハーフシャフトに取り付けられる2つの単独したクラッチ又は制動装置により、2つの駆動輪の回転数を異ならせることができる。
インテリジェント移動機器は、左右駆動輪の異なる回転数及び回転角度に基づいて、異なる回転軌跡を実現させることができる。異なる回転軌跡で、カーにより収集されたピクチャが異なる。続いて、絶え間なく最適化を行うことで、インテリジェント移動機器の位置を調整し、ターゲット対象が画像中心に位置することを最終的に保証し、ターゲット対象の追跡を実現させる。
なお、本願の幾つかの実施例において、検出されたターゲット対象の大きさに基づいて、インテリジェント移動機器の前進又は後退などの移動を決定することもできる。図6は、本願の実施例によるターゲット追跡方法を示すもう1つのフローチャートである。図6に示すように、前記ターゲット追跡方法は、更に以下を含む。
ステップS41において、前記ターゲット対象の位置領域に基づいて、前記インテリジェント移動機器の移動を制御するための制御命令を決定し、ターゲット対象の位置領域の面積が第1閾値と第2閾値との間の範囲内にあるかどうかを判定することができる。本願の実施例のステップS20を実行するプロセスにおいて、収集された画像におけるターゲット対象の位置領域を得ることができる。本願の実施例は、該位置領域の面積に基づいて、インテリジェント移動機器の移動方向を制御することができる。
ここで、得られたターゲット対象の位置領域に基づいて、該位置領域の面積を決定し、該面積を第1閾値及び第2閾値と比較することができる。ここで、第1閾値及び第2閾値は、所定の参照閾値であってもよく、第1閾値は、第2閾値より大きく、本願の実施例は、具体的な数値を限定しない。
ステップS42において、前記ターゲット対象の位置領域に対応する面積が第1閾値より大きい場合、前記インテリジェント移動機器の後退を制御するための制御命令を生成する。
本願の実施例において、検出されたターゲット対象の位置領域の面積が第1閾値より大きい場合、該ターゲット対象とインテリジェント移動機器との距離が近いことを表す。この場合、インテリジェント移動機器を後へ移動することができる。ここで、前記インテリジェント移動機器の後退を制御する制御命令を生成し、検出されたターゲット対象の位置領域の面積が第1閾値未満であり第2閾値より大きくなるまで継続することができる。
ステップS43において、前記ターゲット対象の位置領域に対応する面積が第2閾値未満である場合、前記インテリジェント移動機器の前進を制御するための制御命令を生成し、前記第1閾値は第2閾値より大きい。
本願の実施例において、検出されたターゲット対象の位置領域の面積が第2閾値未満である場合、該ターゲット対象とインテリジェント移動機器との距離が遠いことを表す。この場合、インテリジェント移動機器を前へ移動することができる。ここで、前記インテリジェント移動機器の前進を制御する制御命令を生成し、検出されたターゲット対象の位置領域の面積が第1閾値未満であり第2閾値より大きくなるまで継続することができる。
対応的に、インテリジェント移動機器は、受信された前進又は後退制御命令に基づいて、前進又は後退操作を実行することができる。
上記方式により、ターゲット対象の大きさに基づいてインテリジェント移動機器の移動を制御し、検出されたターゲット対象(例えば、顔)の位置領域に対応する面積を第2閾値と第2閾値との間にあることを保持し、インテリジェント移動機器の移動方向の制御を実現させることができる。
本願の実施例におけるターゲット追跡方法の適用主体は、インテリジェント移動機器であってもよく、又は、インテリジェント移動機器に取り付けられてインテリジェント移動機器の移動を制御するための装置であってもよい。以下、本願の実施例のターゲット追跡方法を提供するインテリジェント移動機器が教習ロボットであり、教習ロボットの管理装置がラズベリーパイであり、ターゲット対象が顔であることを例として説明し、本願の実施例を明らかに説明する。図7は、本願の実施例によるターゲット追跡方法の適用例を示す図である。ここで、カメラ701は、ラズベリーパイ702に接続され、カメラ701が収集した画像又はビデオをラズベリーパイ702に伝送するように構成される。ここで、カメラ701及びラズベリーパイ702は、ユニバーサルシリアルバス(Universal Serial Bus:USB)ポートを介して接続されてデータ伝送を行うことができるが、該接続方式は、本願の実施例を限定するものではない。続いて、下記プロセスを実行することができる。
1、ラズベリーパイ画像収集及び画像前処理。
本願の実施例の適用分野は、教育背景におけるインテリジェントロボットであってもよい。インテリジェントロボットは、顔検知及び追跡機能を実現させることができる。ここで、ラズベリーパイ702は、画像処理プロセスを実行することができる。本願の実施例のラズベリーパイ702は、画像の前処理及びターゲット検出処理を実行することができる。ラズベリーパイにターゲット検出ネットワークが集積されてもよい。カメラ701により収集された画像タイプが異なるため、画像をターゲット検出ネットワークモデルに伝送する前に、ラズベリーパイ702は、画像データに対して、必要な前処理動作を行う必要がある。
前処理プロセスは、下記4つの部分を含んでもよい。図8は、本願の実施例による前処理プロセスを示すフローチャートである。図8に示すように、以下を含む。
ステップS51において、収集されたビデオデータを受信する。
ステップS52において、前記ビデオデータをピクチャデータにフレーミングする。
ステップS53において、ピクチャのサイズを一致させる。
ステップS54において、前記ピクチャをグレースケールピクチャに変換する。
ステップS55において、ピクチャを正規化する。
画像フレーミングは、収集されたビデオデータを1フレーム分ずつの画像に分解し、続いて画像のサイズを640*480のサイズ範囲に統一する。カラー画像を処理する場合、大量のリソースを消耗するが、検出効果に及ぼす影響が小さいため、本願の実施例は、色特徴を無視し、画像を直接的にグレースケール画像に変換し、続いて、ターゲット検出ネットワークに送信し、検出動作を行う。最後に、画像処理を容易にするために、画像に対して正規化処理を行う。つまり、画像データの各次元の元データから各次元データの平均値を減算し、元データの代わりに結果を用いる。続いて、各次元のデータを各次元データの標準偏差で割る。これにより、画像データを同一のスケールに正規化処理することができる。
2、深層ニューラルネットワークに基づいて、顔検知を実現させる。
入力:カメラ701により収集されたピクチャ。
出力:顔検知座標位置。
本願の実施例は、ラズベリーパイ702におけるターゲット検出ネットワークにより、画像における顔認識及び検知を実行することができる。つまり、本願の実施例は、深層学習技術を用いて顔検知技術を実現させることができる。ここで、深層学習技術により顔検知技術を実現させることは、モデル訓練及びモデル適用という2つの段階に分けられる。図9は、本願の実施例によるターゲット検出ネットワークの訓練プロセスを示す概略図である。図9に示すように、訓練プロセスは以下を含む。
ステップS61において、顔データセットピクチャを収集する。
顔データセットピクチャは、各年齢、各地域の顔ピクチャを含む。顔ピクチャに対して手動アノテーションを行い、顔座標位置を得る。顔データセットを構築し、該データセットを訓練セット、試験セット及び検証セットという3つの部分に分ける。
ステップS62において、ニューラルネットワークモデルを構築する。
実際に実現する時、ステップS62は、下記ステップにより実現することができる。
ステップS621において、畳み込み層とプーリング層を積層することで特徴抽出を実現させる。
ステップS622において、分類器を用いて、抽出された特徴に対して分類を行う。
実現する時、全結合層(分類器)により分類を実現させることができる。
ステップS63において、ニューラルネットワークモデルを訓練する。
一連の勾配最適化アルゴリズムにより、モデル訓練を実現させ、大量の反復訓練を行った後、訓練されたモデルを得ることができる。該モデルは、モデル試験に用いられる。
ステップS64において、訓練されたニューラルネットワークモデルを得る。
本願の実施例において、モデルの訓練プロセスは、ターゲット検出ネットワーク(ニューラルネットワークモデル)の訓練プロセスである。
図10は、本願の実施例によるターゲット検出ネットワークの適用プロセスを示す概略図である。図10に示すように、適用プロセスは以下を含む。
ステップS71において、顔ピクチャを収集する。
ステップS72において、前処理されたピクチャを訓練されたモデルに送信する。
ステップS73において、顔座標位置を得る。
本願の実施例において、前処理されたピクチャを訓練されたモデルに送信し、フォワード演算により、ピクチャにおける顔座標位置を出力することができる。
3、検出結果を教習ロボットEV3(上記実施例におけるインテリジェントロボットと同じである)に送信する。
上記実施例により、ラズベリーパイ702により顔座標位置検出を完了し、続いて、定義された通信プロトコル規格に基づいて、顔座標位置をデータパケットにパッケージングすることができる。データパッケージングを完了した後、シリアルポートを介してインテリジェント移動機器703におけるプロセッサ又はコントローラに送信する。ここで、インテリジェント移動機器703は、教習ロボットEV3であってもよい。続いて、インテリジェント移動機器703は、受信された顔位置に基づいて、後続の顔追跡を完了することができる。
4、EV3は、顔位置座標に基づいて、経路計画を行う。
教習ロボットEV3は、ラズベリーパイ702側から送信されたデータパケットを受信して解析し、顔座標位置を得、続いて、経路計画を完了することができる。ここで、強化学習アルゴリズムを用いて経路計画を実現させることができる。強化学習は、主に、状態、報酬及び動作要素などを含む。ここで、状態は、各回検出された顔座標位置である。報酬は、顔中心とピクチャ中心とのユークリッド距離と定義されてもよい。動作は、各回実行されたモータ動き命令である。教習ロボットEV3において、表1に示すように、モータの動作を制御することができる。ニューラルQ-learningアルゴリズムモデルにより、経路計画を行うことができる。Q関数を以下のように定義する。入力は、状態及び動作を含む。特定の状態で1つの動作を実行する報酬値を返信する。
図11は、本願の実施例による強化学習に基づく経路計画アルゴリズムを示すフローチャートである。図11に示すように、以下を含む。
ステップS81において、Q値テーブルを初期化する。
ステップS82において、動作集合から、特定のモータ実行命令を選択する。
ステップS83において、特定のモータ実行命令を実行する。
ステップS84において、該状態のQ値テーブルを算出する。
ステップS85において、Q値テーブルを更新する。
教習ロボットEV3の動作集合は、表1に示す。状態集合は、顔座標により追跡効果を決定する。つまり、顔位置とピクチャ中心との距離を報酬関数として、異なる動作の報酬関数を評価することで、Q値テーブルを更新し、最後に最適なQ値テーブルペアを得ることができる。Q値テーブルペアに最適な動作シーケンスであるモータ実行命令が含まれる。
5、インテリジェント移動機器703は、動き命令(上記各実施例における制御命令と同じである)に基づいて、顔追跡を実現させる。
例えば、教習ロボットなどのインテリジェント移動機器は差動ステアリングメカニズムを用いる。カーは、左右の2つの駆動輪704及び705の回転数を制御することで転向を実現させる。駆動輪の回転数が異なる場合、転舵輪がないか又は転舵輪が動作しなくても、車体も回転する。左右ハーフシャフトに取り付けられる2つの単独したクラッチ又は制動装置により、駆動輪の回転数を異ならせることができる。
インテリジェント移動機器703は、左右輪の異なる回転数及び回転角度に基づいて、異なる回転軌跡を実現させることができる。異なる回転軌跡で、カーにより収集されたピクチャが異なる。続いて、絶え間なく動作を最適化することで、カーの位置を調整し、ターゲット対象が画像中心に位置することを最終的に保証し、ターゲット対象の追跡を実現させる。
なお、本願の実施例におけるインテリジェント移動機器に、例えば距離センサ、タッチセンサなどのようなセンサ706が設けられてもよい。該センサは、インテリジェント移動機器703の周辺環境の関連情報をセンシングし、センシングした周辺環境の関連情報に基づいてインテリジェント移動機器703の動作モード、移動パラメータ等を制御するように構成される。
上記は、例示的な説明だけであり、本願の実施例を具体的に限定するものではない。
要するに、本願の実施例で提供されるターゲット追跡方法は、収集された画像におけるターゲット対象の位置を得、該ターゲット対象の位置と画像中心との距離に基づいて、ターゲットインテリジェント移動機器の制御命令を得る。該制御命令は、インテリジェント移動機器の回転を制御するためのものである。得られた制御命令は、少なくとも1つのオフセット値に対応する回転命令を含む。ここで、各オフセット値からなるオフセットシーケンスは、ターゲット対象と画像中心との距離によって決まる。得られた制御命令によれば、回転したターゲット対象を、収集した画像の中心に位置させ、ターゲット対象を、インテリジェント移動機器の追跡範囲内に位置させることができる。本願の実施例は、ターゲット対象の位置に基づいて、ターゲット追跡をリアルタイムで実行することができ、より便利で、正確であるという特徴を有する。
なお、本願の実施例は、深層学習技術を用いて顔検知を用いることができる(ニューラルネットワークを用いてターゲット検出を実現させる)。従来のターゲット検出に比べて、正確性及び速度は著しく向上した。本願の実施例は、強化学習アルゴリズムを用いて、Q-learning技術により経路計画を行うことで、最適な回転経路を選択することができる。本願の実施例は、異なるシーンの需要に適用可能であり、拡張性が高い。
具体的な実施形態の上記方法において、各ステップの記述順番は、具体的な実行順番は、厳しい実行順番を意味して実施プロセスを何ら限定するものではなく、各ステップの具体的な実行順番はその機能及び可能な内在的論理により決まることは、当業者であれば理解すべきである。
本願の実施例で提供される上記各方法の実施例は、原理や論理から逸脱しない限り、互いに組み合わせることで組み合わせた実施例を構成することができる。
なお、本願の実施例は、ターゲット追跡装置、インテリジェント移動機器、コンピュータ可読記憶媒体、プログラムを更に提供する。上記はいずれも、本願の実施例で提供されるいずれか1つのターゲット追跡方法を実現させるためのものである。対応する技術的解決手段及び説明は、方法に関連する記述を参照されたい。
図12は、本願の実施例によるターゲット追跡装置の構造を示す概略図である。図12に示すように、前記ターゲット追跡装置は、
画像を収集するように構成される画像収集モジュール10と、
前記画像におけるターゲット対象の位置を決定するように構成されるターゲット検出モジュール20と、
前記ターゲット対象の位置と前記画像の中心位置との距離に基づいて、インテリジェント移動機器の回転を制御するための制御命令を決定するように構成される制御モジュール30であって、前記制御命令は、前記ターゲット対象を前記画像の中心位置に位置させるためのものであり、且つ前記制御命令は、前記距離を構成するためのオフセットシーケンスにおけるオフセット値に対応する回転命令を含み、前記オフセットシーケンスは、少なくとも1つのオフセット値を含む、制御モジュール30と、を備える。
本願の幾つかの実施例において、前記ターゲット追跡装置は、前記画像に対して前処理操作を実行するように構成される前処理モジュールを更に備え、前記前処理操作は、前記画像を所定の規格のグレースケール画像に調整することと、前記グレースケール画像に対して正規化処理を行うことと、を含み、
前記ターゲット検出モジュールは更に、前記前処理操作後に得られた画像に対してターゲット検出処理を行い、前記前処理操作後の画像における前記ターゲット対象の位置を得、
前記前処理操作後の画像における前記ターゲット対象の位置に基づいて、前記画像における前記ターゲット対象の位置を決定するように構成される。
本願の幾つかの実施例において、前記前処理モジュールにより実行される、前記グレースケール画像に対して正規化処理を行うステップは、
前記グレースケール画像における各画素点の画素値の平均値及び標準偏差を決定することと、
前記各画素点の画素値と前記平均値との差を得ることと、
前記各画素点に対応する前記差と前記標準偏差との比を前記各画素点の正規化された画素値として決定することと、を含む。
本願の幾つかの実施例において、前記ターゲット検出モジュールは更に、前記画像の画像特徴を抽出し、
前記画像特徴に対して分類処理を行い、前記画像におけるターゲット対象の位置領域を得、
前記位置領域の中心位置を前記ターゲット対象の位置として決定するように構成される。
本願の幾つかの実施例において、前記ターゲット対象は、顔を含み、
対応的に、前記ターゲット検出モジュールは更に、前記画像における顔の位置を決定するように構成される。
本願の幾つかの実施例において、前記制御モジュールは更に、前記画像におけるターゲット対象の位置と前記画像の中心位置との距離に基づいて、ターゲットオフセットを決定することと、
前記ターゲットオフセットに基づいて、複数組のオフセットシーケンスを生成することであって、各組のオフセットシーケンスにおけるオフセット値の加算値は、前記ターゲットオフセットである、ことと、
強化学習アルゴリズムを利用して、前記複数組のオフセットシーケンスから、要件を満たすオフセットシーケンスを選択し、要件を満たす前記オフセットシーケンスに対応する制御命令を得ることと、を実行するように構成される。
本願の幾つかの実施例において、前記制御モジュールは更に、前記複数組のオフセットシーケンスにおける各オフセット値に対して、価値テーブルにおける、前記オフセット値に対応する最大価値を決定することであって、前記価値テーブルは、異なる回転命令での、オフセット値に対応する価値を含む、ことと、
前記オフセット値に対応する報酬値を得、前記オフセット値に対応する前記報酬値及び前記最大価値に基づいて、前記オフセット値の最終価値を決定することであって、前記報酬値は、前記オフセット値の最大価値に対応する回転命令が実行されていない場合、ターゲット対象の位置と画像中心位置との距離である、ことと、
前記複数組のオフセットシーケンスにおける各オフセット値の前記最終価値の和が最も大きいオフセットシーケンスを、要件を満たすオフセットシーケンスとして決定することと、を実行するように構成される。
本願の幾つかの実施例において、前記制御モジュールは更に、要件を満たす前記オフセットシーケンスにおける各オフセット値の最大価値に対応する回転命令に基づいて、前記制御命令を決定するように構成される。
本願の幾つかの実施例において、前記ターゲット検出モジュールは更に、前記ターゲット対象の位置領域に基づいて、前記インテリジェント移動機器の回転を制御するための制御命令を決定し、
前記ターゲット対象の位置領域に対応する面積が第1閾値より大きい場合、前記インテリジェント移動機器の後退を制御するための制御命令を生成し、
前記ターゲット対象の位置領域に対応する面積が第2閾値未満である場合、前記インテリジェント移動機器の前進を制御するための制御命令を生成するように構成され、前記第1閾値は第2閾値より大きい。
なお、本願の実施例は、インテリジェント移動機器を更に提供する。該インテリジェント移動機器は、上記実施例に記載のターゲット追跡装置を備え、前記ターゲット追跡装置内のターゲット検出ネットワークは、インテリジェント移動機器の管理装置に集積され、前記管理装置は、前記画像収集モジュールにより収集された画像に対してターゲット検出処理を行い、前記ターゲット対象の位置を得、
前記制御モジュールは、前記管理装置に接続され、前記管理装置に基づいてターゲット対象の位置を得て前記制御命令を生成し、前記制御命令に基づいて、前記インテリジェント移動機器の回転を制御するように構成される。
本願の幾つかの実施例において、前記管理装置は、ラズベリーパイである。
本願の幾つかの実施例において、前記インテリジェント移動機器は、教習ロボットを含む。
本願の幾つかの実施例において、前記管理装置に、前記画像に対して前処理操作を実行し、前記前処理操作後の画像に対してターゲット検出処理を行い、前記画像におけるターゲット対象の位置を得るように構成される、前記ターゲット追跡装置の前処理モジュールが更に集積される。
幾つかの実施例において、本願の実施例で提供される装置における機能及びモジュールは、上記方法の実施例に記載のターゲット追跡方法を実行するために用いられ、具体的な実現形態は上記方法の実施例の説明を参照されたい。
本願の実施例は、コンピュータ可読記憶媒体を更に提供する。該コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行されるときに、上記方法を実現させる。コンピュータ可読記憶媒体は揮発性コンピュータ可読記憶媒体又は不揮発性コンピュータ可読記憶媒体であってもよい。
本願の実施例は、インテリジェント移動機器を更に提供する。該インテリジェント移動機器は、プロセッサと、プロセッサによる実行可能な命令を記憶するように構成されるメモリと、を備え、前記プロセッサは、上記方法を実行するように構成される。
図13は、本願の実施例によるインテリジェント移動機器の構造を示す概略図である。例えば、インテリジェント移動機器800は、画像処理を実行できる任意の機器又はターゲット追跡を実行できる任意の移動機器であってもよい。
図13に示すように、機器800は、処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(Input Output:I/O)インタフェース812、センサコンポーネント814及び通信コンポーネント816のうちの1つ又は複数を備えてもよい。
処理コンポーネント802は一般的には、機器800の全体操作を制御する。例えば、表示、通話呼、データ通信、カメラ操作及び記録操作に関連する操作を制御する。処理コンポーネント802は、指令を実行するための1つ又は複数のプロセッサ820を備えてもよい。それにより上記方法の全て又は一部のステップを実行する。なお、処理コンポーネント802は、他のユニットとのインタラクションのために、1つ又は複数のモジュールを備えてもよい。例えば、処理コンポーネント802はマルチメディアモジュールを備えることで、マルチメディアコンポーネント808と処理コンポーネント802とのインタラクションに寄与する。
メモリ804は、各種のデータを記憶することで機器800における操作をサポートするように構成される。これらのデータの例として、機器800上で操作れる如何なるアプリケーション又は方法の命令、連絡先データ、電話帳データ、メッセージ、イメージ、ビデオ等を含む。メモリ804は任意のタイプの揮発性または不揮発性記憶装置、あるいはこれらの組み合わせにより実現される。例えば、スタティックランダムアクセスメモリ(Static Random-Access Memory:SRAM)、電気的消去可能なプログラマブル読み出し専用メモリ(Electrically Erasable Programmable Read Only Memory:EEPROM)、電気的に消去可能なプログラマブル読出し専用メモリ(Electrical Programmable Read Only Memory:EPROM)、プログラマブル読出し専用メモリ(Programmable Read-Only Memory:PROM)、読出し専用メモリ(Read-Only Memory:ROM)、磁気メモリ、フラッシュメモリ、磁気もしくは光ディスクを含む。
電源コンポーネント806は機器800の様々なユニットに電力を提供する。電源コンポーネント806は、電源管理システム、1つ又は複数の電源、及び機器800のための電力生成、管理、分配に関連する他のユニットを備えてもよい。
マルチメディアコンポーネント808は、上記機器800とユーザとの間に出力インタフェースを提供するためのスクリーンを備える。幾つかの実施例において、スクリーンは、液晶ディスプレイ(Liquid Crystal Display:LCD)及びタッチパネル(Touch Pad:TP)を含む。スクリーンは、タッチパネルを含むと、タッチパネルとして実現され、ユーザからの入力信号を受信する。タッチパネルは、タッチ、スライド及びパネル上のジェスチャを感知する1つ又は複数のタッチセンサを備える。上記タッチセンサは、タッチ又はスライド動作の境界を感知するだけでなく、上記タッチ又はスライド操作に関連する持続時間及び圧力を検出することもできる。幾つかの実施例において、マルチメディアコンポーネント808は、フロントカメラ及び/又はリアカメラを備える。機器800が、撮影モード又はビデオモードのような操作モードであれば、フロントカメラ及び/又はリアカメラは外部からのマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは固定した光学レンズシステム又は焦点及び光学ズーム能力を持つものであってもよい。
オーディオコンポーネント810は、オーディオ信号を出力及び/又は入力するように構成される。例えば、オーディオコンポーネント810は、マイクロホン(MIC)を備える。機器800が、通話モード、記録モード及び音声識別モードのような操作モードであれば、マイクロホンは、外部からのオーディオ信号を受信するように構成される。受信したオーディオ信号を更にメモリ804に記憶するか、又は通信コンポーネント816を経由して送信することができる。幾つかの実施例において、オーディオコンポーネント810は、オーディオ信号を出力するように構成されるスピーカーを更に備える。
I/Oインタフェース812は、処理コンポーネント802と周辺インタフェースモジュールとの間のインタフェースを提供する。上記周辺インタフェースモジュールは、キーボード、クリックホイール、ボタン等であってもよい。これらのボタンは、ホームボダン、ボリュームボタン、スタートボタン及びロックボタンを含むが、これらに限定されない。
センサコンポーネント814は、1つ又は複数のセンサを備え、機器800のために様々な状態の評価を行うように構成される。例えば、センサコンポーネント814は、機器800のオン/オフ状態、ユニットの相対的な位置決めを検出することができる。例えば、上記ユニットが機器800のディスプレイ及びキーパッドである。センサコンポーネント814は機器800又は機器800における1つのユニットの位置の変化、ユーザと機器800との接触の有無、機器800の方位又は加速/減速及び機器800の温度の変動を検出することもできる。センサコンポーネント814は近接センサを備えてもよく、いかなる物理的接触もない場合に周囲の物体の存在を検出するように構成される。センサコンポーネント814は、相補型金属酸化膜半導体(Complementary Metal Oxide Semiconductor:CMOS)又は電荷結合素子(Charge Coupled Device:CCD)画像センサのような光センサを備えてもよく、結像に適用されるように構成される。幾つかの実施例において、該センサコンポーネント814は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサを備えてもよい。
通信コンポーネント816は、機器800と他の機器との有線又は無線方式の通信に寄与するように構成される。機器800は、WiFi、2G又は3G、又はそれらの組み合わせのような通信規格に基づいた無線ネットワークにアクセスできる。一例示的な実施例において、通信コンポーネント816は放送チャネルを経由して外部放送チャネル管理システムからの放送信号又は放送関連する情報を受信する。一例示的な実施例において、前記通信コンポーネント816は、近接場通信(Near Field Communication:NFC)モジュールを更に備えることで近距離通信を促進する。例えば、NFCモジュールは、無線周波数識別(Radio Frequency Identification:RFID)技術、赤外線データ協会(Infrared Data Association:IrDA)技術、超広帯域(Ultra Wide Band:UWB)技術、ブルートゥース(Bluetooth:BT)技術及び他の技術に基づいて実現される。
例示的な実施例において、機器800は、1つ又は複数の特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、デジタル信号プロセッサ(Digital Signal Processor:DSP)、デジタル信号処理機器(Digital Signal Process:DSPD)、プログラマブルロジックデバイス(Programmable Logic Device:PLD)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子により実現され、上記方法を実行するように構成されてもよい。
例示的な実施例において、コンピュータプログラム命令を含むメモリ804のような不揮発性コンピュータ可読記憶媒体を更に提供する。上記コンピュータプログラム命令は、機器800のプロセッサ820により実行され上記方法を完了する。
本願は、システム、方法及び/又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、コンピュータ可読記憶媒体を備えてもよく、プロセッサに本願の実施例の各態様を実現させるためのコンピュータ可読プログラム命令がそれに記憶されている。
コンピュータ可読記憶媒体は、命令実行装置に用いられる命令を保持又は記憶することができる有形装置であってもよい。コンピュータ可読記憶媒体は、例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置又は上記の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例(非網羅的なリスト)は、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、デジタル多目的ディスク(Digital Video Disc:DVD)、メモリスティック、フレキシブルディスク、命令が記憶されているパンチカード又は凹溝内における突起構造のような機械的符号化装置、及び上記任意の適切な組み合わせを含む。ここで用いられるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を通って伝搬する電磁波(例えば、光ファイバケーブルを通過する光パルス)、または、電線を通して伝送される電気信号などの、一時的な信号それ自体であると解釈されるべきではない。
ここで説明されるコンピュータ可読プログラム命令を、コンピュータ可読記憶媒体から各コンピューティング/処理装置にダウンロードすることができるか、又は、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び/又は無線ネットワークのようなネットワークを経由して外部コンピュータ又は外部記憶装置にダウンロードすることができる。ネットワークは、伝送用銅線ケーブル、光ファイバー伝送、無線伝送、ルータ、ファイアウォール、交換機、ゲートウェイコンピュータ及び/又はエッジサーバを含んでもよい。各コンピューティング/処理装置におけるネットワークインターフェースカード又はネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各コンピューティング/処理装置におけるコンピュータ可読記憶媒体に記憶する。
本願の操作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は1つ又は複数のプログラミング言語で記述されたソースコード又はターゲットコードであってもよい。前記プログラミング言語は、Smalltalk、C++などのようなオブジェクト指向プログラミング言語と、「C」プログラミング言語又は類似したプログラミング言語などの従来の手続型プログラミング言語とを含む。コンピュータ可読プログラム命令は、ユーザコンピュータ上で完全に実行してもよいし、ユーザコンピュータ上で部分的に実行してもよいし、独立したソフトウェアパッケージとして実行してもよいし、ユーザコンピュータ上で部分的に実行してリモートコンピュータ上で部分的に実行してもよいし、又はリモートコンピュータ又はサーバ上で完全に実行してもよい。リモートコンピュータの場合に、リモートコンピュータは、任意の種類のネットワーク(ローカルエリアネットワーク(Local Area Network:LAN)やワイドエリアネットワーク(Wide Area Network:WAN)を含む)を通じてユーザのコンピュータに接続するか、または、外部のコンピュータに接続することができる(例えばインターネットサービスプロバイダを用いてインターネットを通じて接続する)。幾つかの実施例において、コンピュータ可読プログラム命令の状態情報を利用して、プログラマブル論理回路、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA)又はプログラマブル論理アレイ(Programmable Logic Array:PLA)のような電子回路をカスタマイズする。該電子回路は、コンピュータ可読プログラム命令を実行することで、本願の各態様を実現させることができる。
ここで、本願の実施例の方法、装置(システム)及びコンピュータプログラム製品のフローチャート及び/又はブロック図を参照しながら、本願の各態様を説明する。フローチャート及び/又はブロック図の各ブロック及びフローチャート及び/又はブロック図における各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令により実現できる。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたはその他プログラマブルデータ処理装置のプロセッサに提供でき、それによって機器を生み出し、これら命令はコンピュータまたはその他プログラマブルデータ処理装置のプロセッサにより実行されるときに、フローチャート及び/又はブロック図における1つ又は複数のブロック中で規定している機能/操作を実現する装置を生み出した。これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶してもよい。これらの命令によれば、コンピュータ、プログラマブルデータ処理装置及び/又は他の装置は特定の方式で動作する。従って、命令が記憶されているコンピュータ可読記憶媒体は、フローチャート及び/又はブロック図おける1つ又は複数のブロック中で規定している機能/操作を実現する各態様の命令を含む製品を備える。
コンピュータ可読プログラム命令をコンピュータ、他のプログラマブルデータ処理装置又は他の装置にロードしてもよい。これにより、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で一連の操作の工程を実行して、コンピュータで実施されるプロセスを生成する。従って、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で実行される命令により、フローチャート及び/又はブロック図における1つ又は複数のブロック中で規定している機能/操作を実現させる。
図面におけるフローチャート及びブロック図は、本願の複数の実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能および操作を例示するものである。この点で、フローチャート又はブロック図における各ブロックは、1つのモジュール、プログラムセグメント又は命令の一部を表すことができる。前記モジュール、プログラムセグメント又は命令の一部は、1つまたは複数の所定の論理機能を実現するための実行可能な命令を含む。いくつかの取り替えとしての実現中に、ブロックに表記される機能は図面中に表記される順序と異なる順序で発生することができる。例えば、二つの連続するブロックは実際には基本的に並行して実行でき、場合によっては反対の順序で実行することもでき、これは関係する機能から確定する。ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行するための専用ハードウェアベースシステムにより実現するか、又は専用ハードウェアとコンピュータ命令の組み合わせにより実現することができる。
以上は本願の各実施例を説明したが、前記説明は例示的なものであり、網羅するものではなく、且つ開示した各実施例に限定されない。説明した各実施例の範囲と趣旨から脱逸しない場合、当業者にとって、多くの修正及び変更は容易に想到しえるものである。本明細書に用いられる用語の選択は、各実施例の原理、実際の応用、或いは市場における技術の改善を最もよく解釈すること、或いは他の当業者が本明細書に開示された各実施例を理解できることを目的とする。
本願の実施例は、ターゲット追跡方法及び装置、インテリジェント移動機器並びに記憶媒体を提供する。前記ターゲット追跡方法は、収集された画像を取得することと、前記画像におけるターゲット対象の位置を決定することと、前記ターゲット対象の位置と前記画像の中心位置との距離に基づいて、インテリジェント移動機器の回転を制御するための制御命令を得ることであって、前記制御命令は、前記ターゲット対象を前記画像の中心位置に位置させるためのものであり、且つ前記制御命令は、前記距離を構成するためのオフセットシーケンスにおけるオフセット値に対応する回転命令を含み、前記オフセットシーケンスは、少なくとも1つのオフセット値を含む、ことと、を含む。

Claims (25)

  1. ターゲット追跡方法であって、
    収集された画像を取得することと、
    前記画像におけるターゲット対象の位置を決定することと、
    前記ターゲット対象の位置と前記画像の中心位置との距離に基づいて、インテリジェント移動機器の回転を制御するための制御命令を決定することであって、前記制御命令は、前記ターゲット対象を前記画像の中心位置に位置させるためのものであり、且つ前記制御命令は、前記距離を構成するためのオフセットシーケンスにおけるオフセット値に対応する回転命令を含み、前記オフセットシーケンスは、少なくとも1つのオフセット値を含む、ことと、を含む、ターゲット追跡方法。
  2. 前記画像におけるターゲット対象の位置を決定する前に、前記ターゲット追跡方法は、前記画像に対して前処理操作を実行することを更に含み、前記前処理操作は、前記画像を所定の規格のグレースケール画像に調整することと、前記グレースケール画像に対して正規化処理を行うことと、を含み、
    前記画像におけるターゲット対象の位置を決定することは、
    前記前処理操作後に得られた画像に対してターゲット検出処理を行い、前記前処理操作後の画像における前記ターゲット対象の位置を得ることと、
    前記前処理操作後の画像における前記ターゲット対象の位置に基づいて、前記画像における前記ターゲット対象の位置を決定することと、を含むことを特徴とする
    請求項1に記載のターゲット追跡方法。
  3. 前記グレースケール画像に対して正規化処理を行うことは、
    前記グレースケール画像における各画素点の画素値の平均値及び標準偏差を決定することと、
    前記各画素点の画素値と前記平均値との差を得ることと、
    前記各画素点に対応する前記差と前記標準偏差との比を前記各画素点の正規化された画素値として決定することと、を含むことを特徴とする
    請求項2に記載のターゲット追跡方法。
  4. 前記画像におけるターゲット対象の位置を決定することは、
    前記画像の画像特徴を抽出することと、
    前記画像特徴に対して分類処理を行い、前記画像におけるターゲット対象の位置領域を得ることと、
    前記位置領域の中心位置を前記ターゲット対象の位置として決定することと、を含むことを特徴とする
    請求項1から3のうちいずれか一項に記載のターゲット追跡方法。
  5. 前記ターゲット対象は、顔を含み、
    対応的に、前記画像におけるターゲット対象の位置を決定することは、前記画像における顔の位置を決定することを含むことを特徴とする
    請求項1から4のうちいずれか一項に記載のターゲット追跡方法。
  6. 前記ターゲット対象の位置と前記画像の中心位置との距離に基づいて、インテリジェント移動機器の回転を制御するための命令を決定することは、
    前記画像におけるターゲット対象の位置と前記画像の中心位置との距離に基づいて、ターゲットオフセットを決定することと、
    前記ターゲットオフセットに基づいて、複数組のオフセットシーケンスを生成することであって、各組のオフセットシーケンスにおけるオフセット値の加算値は、前記ターゲットオフセットである、ことと、
    強化学習アルゴリズムを利用して、前記複数組のオフセットシーケンスから、要件を満たすオフセットシーケンスを選択し、要件を満たす前記オフセットシーケンスに対応する制御命令を決定することと、を含むことを特徴とする
    請求項1から5のうちいずれか一項に記載のターゲット追跡方法。
  7. 前記強化学習アルゴリズムを利用して、前記複数組のオフセットシーケンスから、要件を満たすオフセットシーケンスを選択することは、
    前記複数組のオフセットシーケンスにおける各オフセット値に対して、価値テーブルにおける、前記オフセット値に対応する最大価値を決定することであって、前記価値テーブルは、異なる回転命令での、オフセット値に対応する価値を含む、ことと、
    前記オフセット値に対応する報酬値を得、前記オフセット値に対応する前記報酬値及び前記最大価値に基づいて、前記オフセット値の最終価値を決定することであって、前記報酬値は、前記オフセット値の最大価値に対応する回転命令が実行されていない場合、ターゲット対象の位置と画像中心位置との距離である、ことと、
    前記複数組のオフセットシーケンスにおける各オフセット値の前記最終価値の和が最も大きいオフセットシーケンスを、要件を満たすオフセットシーケンスとして決定することと、を含むことを特徴とする
    請求項6に記載のターゲット追跡方法。
  8. 前記要件を満たす前記オフセットシーケンスに対応する制御命令を決定することは、
    要件を満たす前記オフセットシーケンスにおける各オフセット値の最大価値に対応する回転命令に基づいて、前記制御命令を決定することを含むことを特徴とする
    請求項6又は7に記載のターゲット追跡方法。
  9. 前記ターゲット追跡方法は、
    前記制御命令に基づいて、前記インテリジェント移動機器を、回転を実行するように駆動することを更に含むことを特徴とする
    請求項1から8のうちいずれか一項に記載のターゲット追跡方法。
  10. 前記ターゲット追跡方法は、
    前記ターゲット対象の位置領域に基づいて、前記インテリジェント移動機器の回転を制御するための制御命令を決定することと、
    前記ターゲット対象の位置領域に対応する面積が第1閾値より大きいことに応答して、前記インテリジェント移動機器の後退を制御するための制御命令を生成することと、
    前記ターゲット対象の位置領域に対応する面積が第2閾値未満であることに応答して、前記インテリジェント移動機器の前進を制御するための制御命令を生成することであって、前記第1閾値は第2閾値より大きい、ことと、を更に含むことを特徴とする
    請求項4に記載のターゲット追跡方法。
  11. ターゲット追跡装置であって、
    画像を収集するように構成される画像収集モジュールと、
    前記画像におけるターゲット対象の位置を決定するように構成されるターゲット検出モジュールと、
    前記ターゲット対象の位置と前記画像の中心位置との距離に基づいて、インテリジェント移動機器の回転を制御するための制御命令を決定するように構成される制御モジュールであって、前記制御命令は、前記ターゲット対象を前記画像の中心位置に位置させるためのものであり、且つ前記制御命令は、前記距離を構成するためのオフセットシーケンスにおけるオフセット値に対応する回転命令を含み、前記オフセットシーケンスは、少なくとも1つのオフセット値を含む、制御モジュールと、を備える、ターゲット追跡装置。
  12. 前記ターゲット追跡装置は、前記画像に対して前処理操作を実行するように構成される前処理モジュールを更に備え、前記前処理操作は、前記画像を所定の規格のグレースケール画像に調整することと、前記グレースケール画像に対して正規化処理を行うことと、を含み、
    前記ターゲット検出モジュールは更に、前記前処理操作後に得られた画像に対してターゲット検出処理を行い、前記前処理操作後の画像における前記ターゲット対象の位置を得、
    前記前処理操作後の画像における前記ターゲット対象の位置に基づいて、前記画像における前記ターゲット対象の位置を決定するように構成されることを特徴とする
    請求項11に記載のターゲット追跡装置。
  13. 前記前処理モジュールにより実行される、前記グレースケール画像に対して正規化処理を行うことは、
    前記グレースケール画像における各画素点の画素値の平均値及び標準偏差を決定することと、
    前記各画素点の画素値と前記平均値との差を得ることと、
    前記各画素点に対応する前記差と前記標準偏差との比を前記各画素点の正規化された画素値として決定することと、を含むことを特徴とする
    請求項12に記載のターゲット追跡装置。
  14. 前記ターゲット検出モジュールは更に、前記画像の画像特徴を抽出し、
    前記画像特徴に対して分類処理を行い、前記画像におけるターゲット対象の位置領域を得、
    前記位置領域の中心位置を前記ターゲット対象の位置として決定するように構成されることを特徴とする
    請求項11から13のうちいずれか一項に記載のターゲット追跡装置。
  15. 前記ターゲット対象は、顔を含み、
    対応的に、前記ターゲット検出モジュールは更に、前記画像における顔の位置を決定するように構成されることを特徴とする
    請求項11から14のうちいずれか一項に記載のターゲット追跡装置。
  16. 前記制御モジュールは更に、前記画像におけるターゲット対象の位置と前記画像の中心位置との距離に基づいて、ターゲットオフセットを決定することと、
    前記ターゲットオフセットに基づいて、複数組のオフセットシーケンスを生成することであって、各組のオフセットシーケンスにおけるオフセット値の加算値は、前記ターゲットオフセットである、ことと、
    強化学習アルゴリズムを利用して、前記複数組のオフセットシーケンスから、要件を満たすオフセットシーケンスを選択し、要件を満たす前記オフセットシーケンスに対応する制御命令を得ることと、を実行するように構成されることを特徴とする
    請求項11から15のうちいずれか一項に記載のターゲット追跡装置。
  17. 前記制御モジュールは更に、前記複数組のオフセットシーケンスにおける各オフセット値に対して、価値テーブルにおける、前記オフセット値に対応する最大価値を決定することであって、前記価値テーブルは、異なる回転命令での、オフセット値に対応する価値を含む、ことと、
    前記オフセット値に対応する報酬値を得、前記オフセット値に対応する前記報酬値及び前記最大価値に基づいて、前記オフセット値の最終価値を決定することであって、前記報酬値は、前記オフセット値の最大価値に対応する回転命令が実行されていない場合、ターゲット対象の位置と画像中心位置との距離である、ことと、
    前記複数組のオフセットシーケンスにおける各オフセット値の前記最終価値の和が最も大きいオフセットシーケンスを、要件を満たすオフセットシーケンスとして決定することと、を実行するように構成されることを特徴とする
    請求項16に記載のターゲット追跡装置。
  18. 前記制御モジュールは更に、要件を満たす前記オフセットシーケンスにおける各オフセット値の最大価値に対応する回転命令に基づいて、前記制御命令を決定するように構成されることを特徴とする
    請求項16又は17に記載のターゲット追跡装置。
  19. 前記ターゲット検出モジュールは更に、前記ターゲット対象の位置領域に基づいて、前記インテリジェント移動機器の回転を制御するための制御命令を決定し、
    前記ターゲット対象の位置領域に対応する面積が第1閾値より大きい場合、前記インテリジェント移動機器の後退を制御するための制御命令を生成し、
    前記ターゲット対象の位置領域に対応する面積が第2閾値未満である場合、前記インテリジェント移動機器の前進を制御するための制御命令を生成するように構成され、前記第1閾値は第2閾値より大きいことを特徴とする
    請求項14に記載のターゲット追跡装置。
  20. インテリジェント移動機器であって、請求項11から19のうちいずれか一項に記載のターゲット追跡装置を備え、
    前記ターゲット追跡装置内のターゲット検出モジュールは、インテリジェント移動機器の管理装置に集積され、前記管理装置は、前記画像収集モジュールにより収集された画像に対してターゲット検出処理を行い、前記ターゲット対象の位置を得、
    前記制御モジュールは、前記管理装置に接続され、前記管理装置に基づいてターゲット対象の位置を得て前記制御命令を生成し、前記制御命令に基づいて、前記インテリジェント移動機器の回転を制御するように構成される、インテリジェント移動機器。
  21. 前記管理装置に、前記画像に対して前処理操作を実行し、前記前処理操作後の画像に対してターゲット検出処理を行い、前記画像におけるターゲット対象の位置を得るように構成される、前記ターゲット追跡装置の前処理モジュールが更に集積されることを特徴とする
    請求項20に記載のインテリジェント移動機器。
  22. 前記インテリジェント移動機器は、教習ロボットを含むことを特徴とする
    請求項20又は21に記載のインテリジェント移動機器。
  23. インテリジェント移動機器であって、
    プロセッサと、
    プロセッサによる実行可能な命令を記憶するように構成されるメモリと、を備え、
    前記プロセッサは、前記メモリに記憶されている命令を呼び出して、請求項1から10のうちいずれか一項に記載のターゲット追跡方法を実行するように構成される、インテリジェント移動機器。
  24. コンピュータ可読記憶媒体であって、該コンピュータ可読記憶媒体にコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令は、プロセッサにより実行されるときに、前記プロセッサに請求項1から10のうちいずれか一項に記載のターゲット追跡方法を実現させる、コンピュータ可読記憶媒体。
  25. コンピュータプログラムであって、前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードがインテリジェント移動機器で実行されるときに、前記インテリジェント移動機器におけるプロセッサに、請求項1から10のうちいずれか一項に記載のターゲット追跡方法を実行させる、コンピュータプログラム。
JP2021525569A 2019-07-17 2020-05-11 ターゲット追跡方法及び装置、インテリジェント移動機器並びに記憶媒体 Ceased JP2022507145A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910646696.8 2019-07-17
CN201910646696.8A CN110348418B (zh) 2019-07-17 2019-07-17 目标跟踪方法及装置、智能移动设备和存储介质
PCT/CN2020/089620 WO2021008207A1 (zh) 2019-07-17 2020-05-11 目标跟踪方法及装置、智能移动设备和存储介质

Publications (1)

Publication Number Publication Date
JP2022507145A true JP2022507145A (ja) 2022-01-18

Family

ID=68175655

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021525569A Ceased JP2022507145A (ja) 2019-07-17 2020-05-11 ターゲット追跡方法及び装置、インテリジェント移動機器並びに記憶媒体

Country Status (5)

Country Link
JP (1) JP2022507145A (ja)
KR (1) KR20210072808A (ja)
CN (1) CN110348418B (ja)
TW (2) TW202215364A (ja)
WO (1) WO2021008207A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348418B (zh) * 2019-07-17 2022-03-11 上海商汤智能科技有限公司 目标跟踪方法及装置、智能移动设备和存储介质
CN112207821B (zh) * 2020-09-21 2021-10-01 大连遨游智能科技有限公司 视觉机器人的目标搜寻方法及机器人
CN113139655B (zh) * 2021-03-31 2022-08-19 北京大学 一种基于强化学习的目标追踪的训练方法、追踪方法
CN115250329B (zh) * 2021-04-28 2024-04-19 深圳市三诺数字科技有限公司 摄像头的控制方法、装置、计算机设备及存储介质
CN113409220A (zh) * 2021-06-28 2021-09-17 展讯通信(天津)有限公司 人脸图像处理方法、装置、介质及设备
CN113625658B (zh) * 2021-08-17 2022-12-06 杭州飞钛航空智能装备有限公司 偏移信息处理方法、装置、电子设备和制孔机构
CN115037877A (zh) * 2022-06-08 2022-09-09 湖南大学重庆研究院 自动跟随方法、装置以及安全监测方法、装置
WO2024092526A1 (zh) * 2022-11-01 2024-05-10 深圳市昊一源科技有限公司 相机的控制装置以及相机
CN117238039B (zh) * 2023-11-16 2024-03-19 暗物智能科技(广州)有限公司 基于顶视视角的多任务人体行为分析方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006024128A (ja) * 2004-07-09 2006-01-26 Funai Electric Co Ltd 自走ロボット
JP2007535024A (ja) * 2004-02-13 2007-11-29 本田技研工業株式会社 顔認識システム
JP2010176504A (ja) * 2009-01-30 2010-08-12 Canon Inc 画像処理装置、画像処理方法及びプログラム
JP2012191265A (ja) * 2011-03-08 2012-10-04 Nikon Corp 画像処理装置およびプログラム
JP2017068298A (ja) * 2015-09-28 2017-04-06 株式会社日立システムズ 自律飛行移動体、ターゲット追跡方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1178467C (zh) * 1998-04-16 2004-12-01 三星电子株式会社 自动跟踪运动目标的方法和装置
CN101888479B (zh) * 2009-05-14 2012-05-02 汉王科技股份有限公司 检测和跟踪目标图像的方法及装置
CN102411368B (zh) * 2011-07-22 2013-10-09 北京大学 机器人的主动视觉人脸跟踪方法和跟踪系统
CN102307297A (zh) * 2011-09-14 2012-01-04 镇江江大科茂信息系统有限责任公司 一种多方位视频目标跟踪检测的智能监控系统
CN105408937B (zh) * 2013-05-02 2018-02-13 高通股份有限公司 用于便于计算机视觉应用程序初始化的方法
CN104751486B (zh) * 2015-03-20 2017-07-11 安徽大学 一种多ptz相机的运动目标接力跟踪算法
CN108431549B (zh) * 2016-01-05 2020-09-04 御眼视觉技术有限公司 具有施加的约束的经训练的系统
CN108351654B (zh) * 2016-02-26 2021-08-17 深圳市大疆创新科技有限公司 用于视觉目标跟踪的系统和方法
WO2017147792A1 (en) * 2016-03-01 2017-09-08 SZ DJI Technology Co., Ltd. Methods and systems for target tracking
CN105740644B (zh) * 2016-03-24 2018-04-13 苏州大学 一种基于模型学习的清洁机器人最优目标路径规划方法
CN107798723B (zh) * 2016-08-30 2021-11-19 北京神州泰岳软件股份有限公司 一种目标跟踪控制的方法和装置
US10140719B2 (en) * 2016-12-22 2018-11-27 TCL Research America Inc. System and method for enhancing target tracking via detector and tracker fusion for unmanned aerial vehicles
CN109040574A (zh) * 2017-06-08 2018-12-18 北京君正集成电路股份有限公司 一种转动摇头机跟踪目标的方法及装置
EP3656118A4 (en) * 2017-07-18 2021-03-03 Hangzhou Taro Positioning Technology Co., Ltd. INTELLIGENT OBJECT TRACKING
CN107992099A (zh) * 2017-12-13 2018-05-04 福州大学 一种基于改进帧差法的目标运动视频跟踪方法及系统
CN108549413A (zh) * 2018-04-27 2018-09-18 全球能源互联网研究院有限公司 一种云台旋转控制方法、装置及无人飞行器
CN108806146A (zh) * 2018-06-06 2018-11-13 合肥嘉仕诚能源科技有限公司 一种安防监控动态目标锁定追踪方法及系统
CN109992000B (zh) * 2019-04-04 2020-07-03 北京航空航天大学 一种基于分层强化学习的多无人机路径协同规划方法及装置
CN110348418B (zh) * 2019-07-17 2022-03-11 上海商汤智能科技有限公司 目标跟踪方法及装置、智能移动设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007535024A (ja) * 2004-02-13 2007-11-29 本田技研工業株式会社 顔認識システム
JP2006024128A (ja) * 2004-07-09 2006-01-26 Funai Electric Co Ltd 自走ロボット
JP2010176504A (ja) * 2009-01-30 2010-08-12 Canon Inc 画像処理装置、画像処理方法及びプログラム
JP2012191265A (ja) * 2011-03-08 2012-10-04 Nikon Corp 画像処理装置およびプログラム
JP2017068298A (ja) * 2015-09-28 2017-04-06 株式会社日立システムズ 自律飛行移動体、ターゲット追跡方法

Also Published As

Publication number Publication date
WO2021008207A1 (zh) 2021-01-21
TW202215364A (zh) 2022-04-16
TW202105326A (zh) 2021-02-01
TWI755762B (zh) 2022-02-21
KR20210072808A (ko) 2021-06-17
CN110348418A (zh) 2019-10-18
CN110348418B (zh) 2022-03-11

Similar Documents

Publication Publication Date Title
JP2022507145A (ja) ターゲット追跡方法及び装置、インテリジェント移動機器並びに記憶媒体
US11216694B2 (en) Method and apparatus for recognizing object
US11989350B2 (en) Hand key point recognition model training method, hand key point recognition method and device
TWI766286B (zh) 圖像處理方法及圖像處理裝置、電子設備和電腦可讀儲存媒介
US10325351B2 (en) Systems and methods for normalizing an image
WO2021051857A1 (zh) 目标对象匹配方法及装置、电子设备和存储介质
US11301726B2 (en) Anchor determination method and apparatus, electronic device, and storage medium
CN110443366B (zh) 神经网络的优化方法及装置、目标检测方法及装置
Maro et al. Event-based gesture recognition with dynamic background suppression using smartphone computational capabilities
KR20190102152A (ko) 디스플레이 패널의 색상을 조정하는 인공 지능 장치 및 그 방법
US20210279892A1 (en) Image processing method and device, and network training method and device
JP2021503659A (ja) 生体検出方法、装置及びシステム、電子機器並びに記憶媒体
JP2023518562A (ja) デバイスのハンドジェスチャベースの制御のための方法及びシステム
US11385526B2 (en) Method of processing image based on artificial intelligence and image processing device performing the same
CN112889068A (zh) 用于图像处理的神经网络对象识别的方法和系统
JP2022524262A (ja) 目標対象物の検出方法、目標対象物の検出装置、電子機器、記憶媒体及びコンピュータプログラム
US20240169687A1 (en) Model training method, scene recognition method, and related device
CN110543849A (zh) 检测器的配置方法及装置、电子设备和存储介质
KR102421488B1 (ko) 복수개의 출력 레이어를 이용한 인공 지능 장치 및 방법
CN113065591A (zh) 目标检测方法及装置、电子设备和存储介质
CN111435422B (zh) 动作识别方法、控制方法及装置、电子设备和存储介质
CN115516822A (zh) 智能家电装置以及方法
US20230245344A1 (en) Electronic device and controlling method of electronic device
WO2023137923A1 (zh) 基于姿态指导的行人重识别方法、装置、设备及存储介质
CN114359808A (zh) 目标检测方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210511

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210511

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220802

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221129

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20230328