JP2022534666A - 画像処理方法、装置、電子機器及び記憶媒体 - Google Patents

画像処理方法、装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP2022534666A
JP2022534666A JP2021565760A JP2021565760A JP2022534666A JP 2022534666 A JP2022534666 A JP 2022534666A JP 2021565760 A JP2021565760 A JP 2021565760A JP 2021565760 A JP2021565760 A JP 2021565760A JP 2022534666 A JP2022534666 A JP 2022534666A
Authority
JP
Japan
Prior art keywords
image
target object
limb
keypoint
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021565760A
Other languages
English (en)
Inventor
李通
金晟
▲劉▼文▲韜▼
▲錢▼晨
Original Assignee
ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド filed Critical ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Publication of JP2022534666A publication Critical patent/JP2022534666A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本開示の実施例は画像処理方法、装置、電子機器及び記憶媒体を開示する。前記方法は、複数のフレームの画像を取得するステップと、前記複数のフレームの画像のうちの第1画像中の目標対象に対して肢体キーポイント検出処理を行い、前記目標対象の一部の肢体に対応する第1キーポイント情報を取得するステップと、前記第1キーポイント情報に基づき、第2画像中の前記目標対象の前記一部の肢体に対応する第2キーポイント情報を決定するステップであって、前記第2画像は、前記複数のフレームの画像のうち、前記第1画像以後の1つのフレームの画像である、ステップと、を含む。

Description

(関連出願の相互参照)
本開示は、出願番号が202010357593.2であり、出願日が2020年04月29日である中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、該中国特許出願の全てが参照によって本開示に組み込まれる。
本開示はコンピュータビジョンの技術分野に関し、具体的には画像処理方法、装置、電子機器及び記憶媒体に関する。
目標追跡技術は、通常、肢体検出アルゴリズム及び肢体キーポイント検出アルゴリズムに基づき、肢体検出アルゴリズムで検出した人体、及び肢体キーポイント検出アルゴリズムで検出した人体キーポイントを用いて、目標追跡を実現する。しかし、現在の肢体検出アルゴリズム及び肢体キーポイント検出アルゴリズムは、上半身の肢体だけ存在するシーンには適応できないため、上半身の肢体だけ存在する目標への追跡が不可能である。
本開示の実施例は画像処理方法、装置、電子機器及び記憶媒体を提供する。
本開示の実施例は画像処理方法を提供する。前記画像処理方法は、複数のフレームの画像を取得するステップと、前記複数のフレームの画像のうちの第1画像中の目標対象に対して肢体キーポイント検出処理を行い、前記目標対象の一部の肢体に対応する第1キーポイント情報を取得するステップと、前記第1キーポイント情報に基づき、第2画像中の前記目標対象の前記一部の肢体に対応する第2キーポイント情報を決定するステップであって、前記第2画像は、前記複数のフレームの画像のうち、前記第1画像以後の1つのフレームの画像である、ステップと、を含む。
本開示のいくつかの選択可能な実施例では、前記複数のフレームの画像のうちの第1画像中の目標対象に対して肢体キーポイント検出処理を行い、前記目標対象の一部の肢体に対応する第1キーポイント情報を取得するステップは、前記第1画像中の前記目標対象に対して肢体検出処理を行い、前記目標対象の第1領域を決定するステップであって、前記第1領域は前記目標対象の一部の肢体が位置する領域を含む、ステップと、前記第1領域に対応する画素点に対して肢体キーポイント検出処理を行い、前記目標対象の前記一部の肢体に対応する第1キーポイント情報を取得するステップと、を含む。
本開示のいくつかの選択可能な実施例では、前記第1キーポイント情報に基づき、第2画像中の前記目標対象の前記一部の肢体に対応する第2キーポイント情報を決定するステップは、前記第1キーポイント情報に基づいて前記第1画像において第2領域を決定するステップであって、前記第2領域は前記目標対象の第1領域よりも大きく、前記第1領域は前記目標対象の一部の肢体が位置する領域を含む、ステップと、前記第2領域に基づき、前記第2画像における、前記第2領域の位置範囲に対応する第3領域を決定するステップと、前記第2画像における前記第3領域内の画素点に対して肢体キーポイント検出処理を行い、前記一部の肢体に対応する第2キーポイント情報を取得するステップと、を含む。
本開示のいくつかの選択可能な実施例では、前記第1キーポイント情報に基づき、第2画像中の前記目標対象の前記一部の肢体に対応する第2キーポイント情報を決定するステップは、前記第1キーポイント情報の前記第1画像における位置範囲に基づき、前記第2画像における、前記位置範囲に対応する第3領域を決定するステップと、前記第2画像における前記第3領域内の画素点に対して肢体キーポイント検出処理を行い、前記一部の肢体に対応する第2キーポイント情報を取得するステップと、を含む。
本開示のいくつかの選択可能な実施例では、前記第1画像中の前記目標対象に対して肢体検出処理を行うステップは、肢体検出ネットワークを用いて前記第1画像中の前記目標対象に対して肢体検出処理を行うステップを含み、前記肢体検出ネットワークは、第1タイプのサンプル画像を用いて訓練して得られるものであり、前記第1タイプのサンプル画像には目標対象の検出枠がラベル付けされ、前記検出枠のラベル付け範囲は前記目標対象の一部の肢体が位置する領域を含む。
本開示のいくつかの選択可能な実施例では、前記第1領域に対応する画素点に対して肢体キーポイント検出処理を行うステップは、肢体キーポイント検出ネットワークを用いて前記第1領域に対応する画素点に対して肢体キーポイント検出処理を行うステップを含み、前記肢体キーポイント検出ネットワークは、第2タイプのサンプル画像を用いて訓練して得られるものであり、前記第2タイプのサンプル画像には、前記目標対象の一部の肢体を含むキーポイントがラベル付けされている。
本開示のいくつかの選択可能な実施例では、前記目標対象の一部の肢体は、頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも1つを含み、前記第1キーポイント情報及び前記第2キーポイント情報は、頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも1つの肢体の輪郭キーポイント情報及び/又は骨格キーポイント情報を含む。
本開示のいくつかの選択可能な実施例では、前記画像処理方法は、前記目標対象の一部の肢体に対応する第1キーポイント情報を取得したことに応答して、前記目標対象に追跡識別子を割り当てるステップと、前記複数のフレームの画像の処理プロセスにおいて割り当てられた前記追跡識別子の数に基づき、前記複数のフレームの画像中の目標対象の数を決定するステップと、をさらに含む。
本開示のいくつかの選択可能な実施例では、前記画像処理方法は、前記第2キーポイント情報に基づいて前記目標対象の姿勢を決定するステップと、前記目標対象の姿勢に基づいて前記目標対象に対応するインタラクション命令を決定するステップと、をさらに含む。
本開示の実施例は画像処理装置をさらに提供する。前記画像処理装置は、取得ユニット、検出ユニット及び追跡決定ユニットを含み、前記取得ユニットは、複数のフレームの画像を取得するように構成され、前記検出ユニットは、前記複数のフレームの画像のうちの第1画像中の目標対象に対して肢体キーポイント検出処理を行い、前記目標対象の一部の肢体に対応する第1キーポイント情報を取得するように構成され、前記追跡決定ユニットは、前記第1キーポイント情報に基づき、第2画像中の前記目標対象の前記一部の肢体に対応する第2キーポイント情報を決定するように構成され、前記第2画像は、前記複数のフレームの画像のうち、前記第1画像以後の1つのフレームの画像である。
本開示のいくつかの選択可能な実施例では、前記検出ユニットは、肢体検出モジュール及び肢体キーポイント検出モジュールを含み、前記肢体検出モジュールは、前記第1画像中の前記目標対象に対して肢体検出処理を行い、前記目標対象の第1領域を決定するように構成され、前記第1領域は前記目標対象の一部の肢体が位置する領域を含み、前記肢体キーポイント検出モジュールは、前記第1領域に対応する画素点に対して肢体キーポイント検出処理を行い、前記目標対象の前記一部の肢体に対応する第1キーポイント情報を取得するように構成される。
本開示のいくつかの選択可能な実施例では、前記追跡決定ユニットは、前記第1キーポイント情報に基づいて前記第1画像において第2領域を決定し、前記第2領域に基づき、前記第2画像における、前記第2領域の位置範囲に対応する第3領域を決定し、そして前記第2画像における前記第3領域内の画素点に対して肢体キーポイント検出処理を行い、前記一部の肢体に対応する第2キーポイント情報を取得するように構成され、ここで前記第2領域は前記目標対象の第1領域よりも大きく、前記第1領域は前記目標対象の一部の肢体が位置する領域を含む。
本開示のいくつかの選択可能な実施例では、前記追跡決定ユニットは、前記第1キーポイント情報の前記第1画像における位置範囲に基づき、前記第2画像における、前記位置範囲に対応する第3領域を決定し、そして前記第2画像における前記第3領域内の画素点に対して肢体キーポイント検出処理を行い、前記一部の肢体に対応する第2キーポイント情報を取得するように構成される。
本開示のいくつかの選択可能な実施例では、前記肢体検出モジュールは、肢体検出ネットワークを用いて前記第1画像中の前記目標対象に対して肢体検出処理を行うように構成され、前記肢体検出ネットワークは、第1タイプのサンプル画像を用いて訓練して得られるものであり、前記第1タイプのサンプル画像には目標対象の検出枠がラベル付けされ、前記検出枠のラベル付け範囲は前記目標対象の一部の肢体が位置する領域を含む。
本開示のいくつかの選択可能な実施例では、前記肢体キーポイント検出モジュールは、肢体キーポイント検出ネットワークを用いて前記第1領域に対応する画素点に対して肢体キーポイント検出処理を行うように構成され、前記肢体キーポイント検出ネットワークは、第2タイプのサンプル画像を用いて訓練して得られるものであり、前記第2タイプのサンプル画像には、前記目標対象の一部の肢体を含むキーポイントがラベル付けされている。
本開示のいくつかの選択可能な実施例では、前記目標対象の一部の肢体は、頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも1つを含み、前記第1キーポイント情報及び前記第2キーポイント情報は、頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも1つの肢体の輪郭キーポイント情報及び/又は骨格キーポイント情報を含む。
本開示のいくつかの選択可能な実施例では、前記画像処理装置は、割り当てユニット及び統計ユニットをさらに含み、前記割り当てユニットは、前記検出ユニットが前記目標対象の一部の肢体に対応する第1キーポイント情報を取得したことに応答して、前記目標対象に追跡識別子を割り当てるように構成され、前記統計ユニットは、前記複数のフレームの画像の処理プロセスにおいて割り当てられた前記追跡識別子の数に基づき、前記複数のフレームの画像中の目標対象の数を決定するように構成される。
本開示のいくつかの選択可能な実施例では、前記画像処理装置は、前記第2キーポイント情報に基づいて前記目標対象の姿勢を決定し、そして前記目標対象の姿勢に基づいて前記目標対象に対応するインタラクション命令を決定するように構成される決定ユニットをさらに含む。
本開示の実施例は、プロセッサにより実行されると、本開示の実施例に記載の画像処理方法のステップを実現するコンピュータプログラムが記憶されているコンピュータ可読記憶媒体をさらに提供する。
本開示の実施例は、メモリと、プロセッサと、メモリに記憶されているプロセッサで実行可能なコンピュータプログラムと、を含み、前記プロセッサによって前記コンピュータプログラムが実行されると、本開示の実施例に記載の画像処理方法のステップを実現する電子機器をさらに提供する。
本開示の実施例は、コンピュータに本開示の実施例に記載の画像処理方法を実行させるコンピュータプログラムをさらに提供する。
本開示の実施例により提供される画像処理方法、装置、電子機器及び記憶媒体によれば、処理待ちの複数のフレームの画像のうちの第1画像中の目標対象の一部の肢体のキーポイントを認識し、認識された一部の肢体のキーポイントに基づき、それ以後の第2画像中の目標対象の一部の肢体のキーポイントを決定することで、画像内に目標対象の一部の肢体(例えば、上半身)が存在するシーンでの目標追跡が実現される。
本開示の実施例の画像処理方法のフローチャート1である。 本開示の実施例の画像処理方法における肢体キーポイント検出処理方法のフローチャートである。 本開示の実施例の画像処理方法における肢体キーポイント追跡方法のフローチャートである。 本開示の実施例の画像処理方法のフローチャート2である。 本開示の実施例の画像処理装置の構成図1である。 本開示の実施例の画像処理装置の構成図2である。 本開示の実施例の画像処理装置の構成図3である。 本開示の実施例の画像処理装置の構成図4である。 本開示の実施例の電子機器のハードウェア構成図である。
以下において、図面及び具体的な実施例により、本開示をさらに詳細に説明する。
以下の説明において、本願を十分に理解できるように、特定のシステム構造、インタフェース、技術等の具体的な詳細が提供され、これらは限定するためのものではなく説明するためのものである。
本明細書の用語の「及び/又は」は、関連対象の関連関係を記述するためのものに過ぎず、3種の関係が存在可能であることを示し、例えば、A及び/又はBは、Aが単独して存在し、AとBが同時に存在し、Bが単独して存在するという3種の場合を示してもよい。また、本明細書の文字「/」は、一般的に、前後の関連対象が「又は」の関係であることを示す。また、本明細書の「複数」は、2つ又は2つ以上を示す。
本開示の実施例は画像処理方法を提供する。図1は、本開示の実施例の画像処理方法のフローチャート1であり、図1に示すように、前記方法は以下のステップを含む。
ステップ101で、複数のフレームの画像を取得する。
ステップ102で、複数のフレームの画像のうちの第1画像中の目標対象に対して肢体キーポイント検出処理を行い、目標対象の一部の肢体に対応する第1キーポイント情報を取得する。
ステップ103で、第1キーポイント情報に基づき、第2画像中の目標対象の一部の肢体に対応する第2キーポイント情報を決定し、第2画像は、複数のフレームの画像のうち、第1画像以後の1つのフレームの画像である。
本実施例の画像処理方法は画像処理装置に利用可能であり、画像処理装置は、パーソナルコンピュータ、サーバ等の処理機能を備えた電子機器内に設置されてもよく、又は、プロセッサでコンピュータプログラムを実行することによって実現されてもよい。
本実施例では、上記複数のフレームの画像は、電子機器に内蔵又は外部接続されたカメラデバイスによって収集した連続的なビデオであってもよく、又は受信した他の電子機器から送信されるビデオ等であってもよい。いくつかの適用シーンにおいて、上記複数のフレームの画像は、監視カメラにより収集した監視ビデオであってもよく、この監視ビデオ中の各目標対象を追跡する。他の適用シーンにおいて、上記複数のフレームの画像は、ローカルビデオライブラリや他のビデオライブラリに記憶されたビデオであってもよく、このビデオ中の各目標対象を追跡する。さらに他の適用シーンにおいて、本実施例の画像処理方法は、仮想現実(VR:Virtual Reality)、拡張現実(AR:Augmented Reality)、又は体感ゲーム等の適用シーンに利用可能であり、この場合、上記複数のフレームの画像は、仮想現実や拡張現実のシーンで収集された操作者の画像であってもよく、画像中の操作者の姿勢を認識することで、仮想現実シーンや拡張現実シーンでの仮想対象の動作を制御してもよく、あるいは、上記複数のフレームの画像は、体感ゲームで収集された、ゲームに参加している目標対象(例えば、複数のユーザ)の画像等であってもよい。
いくつかの適用シーンにおいて、画像処理装置は、1つ又は複数の監視カメラとの通信接続を確立し、リアルタイムに得られた監視カメラにより収集した監視ビデオを処理待ちの複数のフレームの画像としてもよい。他の適用シーンにおいて、画像処理装置は、自機に記憶されているビデオからビデオを取得して、処理待ちの複数のフレームの画像としてもよく、又は他の電子機器に記憶されているビデオからビデオを取得して、処理待ちの複数のフレームの画像としてもよい。さらに他の適用シーンにおいて、画像処理装置は、ゲームデバイスに配置されてもよく、ゲームデバイスのプロセッサによってコンピュータプログラムを実行してゲーム操作者の操作を実現するプロセスで、出力表示される画像を処理待ちの複数のフレームの画像とし、画像中の目標対象(目標対象はゲーム操作者に対応)を追跡する。
本実施例では、処理待ちの複数のフレームの画像は目標対象を含んでもよく、目標対象は1つ又は複数であってもよく、いくつかの適用シーンにおいて、目標対象はリアル人物であってもよく、他の適用シーンにおいて、目標対象は、実際の追跡要件に応じて決定された他の対象、例えば、仮想人物又は他の仮想対象等であってもよい。
本実施例では、複数のフレームの画像のうちの各フレームの画像は、フレーム画像と呼ばれてもよく、ビデオ(即ち処理待ち画像)を構成する最小単位であり、複数のフレームの画像は時間的に連続するフレーム画像の画像セットであり、上記複数のフレームの画像は各フレーム画像の収集時間により形成し、各フレーム画像に対応する時間パラメータは連続的であることが理解される。
例示的に、目標対象がリアル人物であることを例にし、複数のフレームの画像に目標対象が含まれる場合、上記複数のフレームの画像に対応する時間範囲内に1つ又は複数の目標対象が含まれてもよく、又は上記複数のフレームの画像の時間範囲内の一部の時間範囲内に1つ又は複数の目標対象が含まれてもよく、本実施例ではこれを限定しない。
本実施例では、上記第1画像は複数のフレームの画像のうちの任意の1つのフレームの画像であり、第2画像は第1画像以後の1つのフレームの画像である。つまり、上記第1画像は複数のフレームの画像のうち、第2画像より前の任意の1つのフレームの画像である。いくつかの選択可能な実施例では、第2画像は、第1画像と時間的に連続する、それに続く1つのフレームの画像であってもよい。例えば、複数のフレームの画像は10個のフレームの画像を含み、上記第1画像は10個のフレームの画像のうちの2番目のフレームの画像であり、上記第2画像は3番目のフレームの画像である。他の選択可能な実施例では、第2画像は、第1画像以後の、第1画像から予め設定した数のフレームの画像を隔てる1つのフレームの画像であってもよい。例えば、複数のフレームの画像は20個のフレームの画像を含み、上記第1画像は20個のフレームの画像のうちの2番目のフレームの画像であり、予め設定した数のフレームの画像は3個のフレームの画像であると仮定すると、上記第2画像は20個のフレームの画像のうちの6番目のフレームの画像である。上記予め設定した数は、実際の状況に応じて予め設定でき、例えば、予め設定した数は目標対象の移動速度に基づいて予め設定することができる。このような実施形態では、データの処理量を効果的に低減し、これにより、画像処理装置の消費を削減することができる。
本実施例では、画像処理装置は、肢体キーポイント検出ネットワークを用いて第1画像中の目標対象に対して肢体キーポイント検出処理を行い、目標対象の一部の肢体に対応する第1キーポイント情報を取得してもよい。本実施例では、上記目標対象の一部の肢体は、頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも1つを含む。それに応じて、目標対象の一部の肢体に対応する第1キーポイント情報及び第2キーポイント情報は、目標対象の頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも1つの肢体の輪郭キーポイント情報及び/又は骨格キーポイント情報を含む。
例示的に、本実施例において、複数のフレームの画像中の、上半身を持つ目標対象を認識できるように、目標対象の一部の肢体は目標対象の上半身の肢体とし、これにより、上半身だけ又は全身を持つ目標対象への追跡が実現される。
例示的に、上記第1キーポイント情報及び第2キーポイント情報に対応するキーポイントは、頭部の少なくとも1つのキーポイント、肩部の少なくとも1つのキーポイント、腕の少なくとも1つのキーポイント、胸の少なくとも1つのキーポイント、股関節部の少なくとも1つのキーポイント、及び腰部の少なくとも1つのキーポイントを含んでもよく、選択的に、上記第1キーポイント情報及び第2キーポイント情報に対応するキーポイントはさらに、手部のうちの少なくとも1つのキーポイントを含んでもよい。画像処理装置が手部のキーポイントを取得できるか否かは、肢体キーポイント検出ネットワークを訓練するためのサンプル画像には手部のキーポイントがラベル付けされているか否かに依存し、サンプル画像には手部のキーポイントがラベル付けされている場合、肢体キーポイント検出ネットワークを用いて手部のキーポイントを検出することができる。
いくつかの選択可能な実施例では、上記目標対象の一部の肢体が頭部を含む場合、第1キーポイント情報及び第2キーポイント情報は、少なくとも1つの器官のキーポイント情報を含んでもよく、少なくとも1つの器官のキーポイント情報は、鼻のキーポイント情報、眉間のキーポイント情報、口部のキーポイント情報の少なくとも1つを含んでもよい。
いくつかの選択可能な実施例では、上記目標対象の一部の肢体が腕を含む場合、第1キーポイント情報及び第2キーポイント情報は、肘部のキーポイント情報を含んでもよい。
いくつかの選択可能な実施例では、上記目標対象の一部の肢体が手部を含む場合、第1キーポイント情報及び第2キーポイント情報は、手首のキーポイント情報を含んでもよい。選択的に、第1キーポイント情報及び第2キーポイント情報は、手部の輪郭キーポイント情報をさらに含んでもよい。
いくつかの選択可能な実施例では、上記目標対象の一部の肢体が股関節部を含む場合、第1キーポイント情報及び第2キーポイント情報は、左股関節のキーポイント情報及び右股関節のキーポイント情報を含んでもよい。選択的に、第1キーポイント情報及び第2キーポイント情報は、脊髄神経根のキーポイント情報をさらに含んでもよい。
上記第1キーポイント情報は、具体的には、キーポイントの座標を含んでもよい。上記第1キーポイント情報は、輪郭キーポイントの座標及び/又は骨格キーポイントの座標を含んでもよい。対応する一部の肢体の輪郭エッジは輪郭キーポイントの座標によって形成でき、対応する一部の肢体の骨格は骨格キーポイントの座標によって形成できることが理解される。
図2は、本開示の実施例の画像処理方法における肢体キーポイント検出処理方法のフローチャートであり、いくつかの選択可能な実施例では、ステップ102は、図2に示すように、以下のステップを含む。
ステップ1021で、第1画像中の目標対象に対して肢体検出処理を行い、目標対象の第1領域を決定し、第1領域は上記目標対象の一部の肢体が位置する領域を含む。
ステップ1022で、第1領域に対応する画素点に対して肢体キーポイント検出処理を行い、目標対象の一部の肢体に対応する第1キーポイント情報を取得する。
本実施例では、まず、第1画像中の各目標対象に対して肢体検出を行い、各目標対象の第1領域を決定し、例えば、各目標対象の上半身に対応する第1領域、又は各目標対象の全身に対応する第1領域を決定してもよい。実際の適用において、目標対象を識別する検出枠(例えば、矩形枠)で一部の肢体に対応する第1領域を示してもよく、例えば、各矩形枠で第1画像中の各人物の上半身を識別してもよい。
いくつかの選択可能な実施例では、第1画像中の目標対象に対して肢体検出処理を行う上記ステップは、肢体検出ネットワークを用いて第1画像中の目標対象に対して肢体検出処理を行うステップを含み、上記肢体検出ネットワークは、第1タイプのサンプル画像を用いて訓練して得られるものであり、第1タイプのサンプル画像には目標対象の検出枠がラベル付けされ、検出枠のラベル付け範囲は目標対象の一部の肢体が位置する領域を含み、目標対象の一部の肢体は目標対象の上半身の肢体としてもよい。
本実施例では、予め訓練された肢体検出ネットワークを用いて、第1画像に対して肢体検出を行い、目標対象の第1領域を決定してもよく、即ち第1画像中の各目標対象の検出枠を取得する。上記検出枠は、目標対象の一部の肢体又は全ての肢体を識別することができ、即ち、肢体検出ネットワークによって目標対象の全ての肢体又は上半身の肢体を検出して取得することができる。上記肢体検出ネットワークは、目標対象の肢体を検出可能な任意のネットワーク構造を用いることができ、本実施例ではこれを限定しない。
例示的に、肢体検出ネットワークを用いて検出して目標対象の一部の肢体の検出枠を得ることを例にし、肢体検出ネットワークを用いて第1画像に対して特徴抽出を行い、抽出された特徴に基づき、第1画像中の各目標対象の一部の肢体の中心点、及び各目標対象の一部の肢体に対応する検出枠の高さ及び幅を決定してもよく、各目標対象の一部の肢体の中心点及び対応する高さと幅に基づき、各目標対象の一部の肢体の検出枠を決定することができる。
本実施例では、肢体検出ネットワークは、目標対象の検出枠がラベル付けされている第1タイプのサンプル画像を用いて訓練して得られるものであってもよく、検出枠のラベル付け範囲は目標対象の一部の肢体を含み、第1タイプのサンプル画像には、目標対象の一部の肢体(例えば、目標対象の上半身の肢体)の検出枠のみがラベル付けされてもよく、目標対象の完全肢体の検出枠がラベル付けされてもよいことが理解される。例示的に、検出枠のラベル付け範囲が目標対象の一部の肢体であることを例にし、肢体検出ネットワークを用いて第1タイプのサンプル画像の特徴データを抽出し、特徴データに基づき、第1タイプのサンプル画像中の各目標対象の一部の肢体の予測中心点及び一部の肢体に対応する予測検出枠の高さ及び幅を決定し、上記一部の肢体の予測中心点及び対応する高さと幅に基づき、一部の肢体の各々に対応する予測検出枠を決定し、予測検出枠及びラベル付けされている一部の肢体の検出枠に基づいてロスを決定し、ロスに基づいて肢体検出ネットワークのネットワークパラメータを調整することができる。
いくつかの選択可能な実施例では、第1領域に対応する画素点に対して肢体キーポイント検出処理を行うステップは、肢体キーポイント検出ネットワークを用いて第1領域に対応する画素点に対して肢体キーポイント検出処理を行うステップを含み、上記肢体キーポイント検出ネットワークは、第2タイプのサンプル画像を用いて訓練して得られるものであり、第2タイプのサンプル画像には目標対象のキーポイントがラベル付けされており、上記キーポイントのラベル付け範囲は目標対象の一部の肢体を含む。
本実施例では、予め訓練された肢体キーポイント検出ネットワークを用いて、第1領域に対応する画素点に対して肢体キーポイント検出を行い、各目標対象の一部の肢体の第1キーポイント情報を決定してもよい。例示的に、上記第1領域は目標対象の一部の肢体を含んでもよく、各目標対象の検出枠に対応する画素点を肢体キーポイント検出ネットワークに入力し、各目標対象の一部の肢体に対応する第1キーポイント情報を得てもよい。上記肢体キーポイント検出ネットワークは、肢体キーポイントを検出可能な任意のネットワーク構造を用いることができ、本実施例ではこれを限定しない。
本実施例では、肢体キーポイント検出ネットワークは、目標対象のキーポイントがラベル付けされている第2タイプのサンプル画像を用いて訓練して得られるものであってもよく、キーポイントのラベル付け範囲は目標対象の一部の肢体を含み、第2タイプのサンプル画像には、目標対象の一部の肢体(例えば、目標対象の上半身の肢体)のキーポイントのみがラベル付けされてもよく、目標対象の完全肢体のキーポイントがラベル付けされてもよいことが理解される。例示的に、第2タイプのサンプル画像には、目標対象の一部の肢体のキーポイントがラベル付けされていることを例にし、肢体キーポイント検出ネットワークを用いて第2タイプのサンプル画像の特徴データを抽出し、特徴データに基づき、第2タイプのサンプル画像中の各目標対象の一部の肢体の予測キーポイントを決定し、上記予測キーポイント及びラベル付けされているキーポイントに基づいてロスを決定し、ロスに基づいて肢体キーポイント検出ネットワークのネットワークパラメータを調整することができる。
図3は、本開示の実施例の画像処理方法における肢体キーポイント追跡方法のフローチャートであり、いくつかの選択可能な実施例では、ステップ103は、図3に示すように、以下のステップを含んでもよい。
ステップ1031で、第1キーポイント情報に基づいて第1画像において第2領域を決定し、第2領域は目標対象の第1領域よりも大きく、第1領域は上記目標対象の一部の肢体が位置する領域を含む。
ステップ1032で、第2領域に基づき、第2画像における、第2領域の位置範囲に対応する第3領域を決定する。
ステップ1033で、第2画像における第3領域内の画素点に対して肢体キーポイント検出処理を行い、一部の肢体に対応する第2キーポイント情報を取得する。
本実施例では、第1画像中の1つの目標対象に対して、該目標対象の一部の肢体の第1キーポイント情報に基づいて1つの領域を決定し、該領域は、該目標対象の一部の肢体のキーポイントを全て含む最小領域であってもよい。例示的に、該領域が矩形領域であると、該矩形領域は該目標対象の一部の肢体のキーポイントを全て含む最小領域である。上記第2領域は、第1画像において、第1領域を拡大処理して得た領域である。
例示的に、第1領域が矩形であることを例にし、上記第1領域の高さがHであり、幅がWであると仮定すると、該領域の中心点を中心とし、該領域の4つの辺が中心点から離れる方向へ伸長するようにしてもよく、例えば、高さ方向で、中心点から離れる方向へそれぞれH/4伸長し、幅方向で、中心点から離れる方向へそれぞれW/4伸長すると、上記第2領域は、第1画像における、上記中心点を中心とし、高さが3H/2であり、幅が3W/2である矩形領域で示してもよい。
さらに、本実施例では、第2領域の第1画像における位置範囲に基づき、第2画像における、上記位置範囲に対応する第3領域を決定してもよい。
いくつかの選択可能な実施例では、第2領域に基づき、第2画像における、第2領域の位置範囲に対応する第3領域を決定するステップは、第2領域に対応する画素点に対して肢体キーポイント検出処理を行い、第3キーポイント情報を取得するステップと、第3キーポイント情報の第1画像における位置範囲を決定し、上記位置範囲に基づき、第2画像における、上記位置範囲に対応する第3領域を決定するステップと、をさらに含んでもよい。
例示的に、本実施例においても、肢体キーポイント検出ネットワークを用いて第2領域に対応する画素点に対して肢体キーポイント検出処理を行い、第1画像における拡大した上記第2領域に対応する画素点を肢体キーポイント検出ネットワークの入力データとして、第3キーポイント情報を出力し、上記第3キーポイント情報を第2画像中の目標対象の予測キーポイント情報とすることができ、つまり、本願の実施例は、前の1つのフレームの画像中の目標対象が位置する領域を拡大処理し(例えば、前の1つのフレームの画像中の目標対象の一部の肢体が位置する領域を拡大処理し)、拡大した領域に対して肢体キーポイント検出を行い、得られたキーポイントを現フレームの画像(即ち第1画像)以後の1つのフレームの画像(即ち第2画像)における、目標対象(例えば、目標対象の一部の肢体)に対応する予測キーポイントとする。さらに、予測された位置範囲に基づき、第2画像における第3領域に対応する画素点に対して肢体キーポイント検出処理を行い、検出されたキーポイント情報は即ち上記目標対象の一部の肢体に対応する第2キーポイント情報である。
いくつかの選択可能な実施例では、上記ステップ103は、前記第1キーポイント情報の前記第1画像における位置範囲に基づき、前記第2画像における、前記位置範囲に対応する第3領域を決定するステップと、前記第2画像における前記第3領域内の画素点に対して肢体キーポイント検出処理を行い、前記一部の肢体に対応する第2キーポイント情報を取得するステップと、をさらに含んでもよい。
本実施例では、第1キーポイントの第1画像における位置範囲に基づき、第2画像における、上記位置範囲に対応する第3領域を決定してもよい。さらに、第2画像における第3領域に対応する画素点に対して肢体キーポイント検出処理を行い、検出されたキーポイント情報は即ち上記目標対象の一部の肢体に対応する第2キーポイント情報である。
他の選択可能な実施例では、ステップ103は、第1画像、目標対象の第1領域及び目標追跡ネットワークに基づき、第2画像中の目標対象の予測領域を決定し、第2画像における上記予測領域の画素点に基づいて肢体キーポイント検出処理を行い、目標対象の一部の肢体に対応する第2キーポイント情報を得るステップをさらに含んでもよく、目標追跡ネットワークは、複数のフレームのサンプル画像を用いて訓練して得られるものであり、複数のフレームのサンプル画像は、少なくとも第1サンプル画像及び第2サンプル画像を含み、第2サンプル画像は第1サンプル画像以後の1つのフレームの画像であり、第1サンプル画像には目標対象の位置がラベル付けされており、第2サンプル画像には目標対象の位置がラベル付けされている。例示的に、複数のフレームのサンプル画像のいずれにも、目標対象の検出枠がラベル付けされ、検出枠で目標対象のサンプル画像における位置を示し、検出枠のラベル付け範囲は、目標対象の一部の肢体が位置する領域を含み、目標対象の一部の肢体は目標対象の上半身の肢体であってもよい。
本実施例では、前の1つのフレームの画像(即ち第1画像)及び画像中の目標対象の位置に基づき、予め訓練された目標追跡ネットワークを用いて次の1つのフレームの画像(即ち第2画像)中の該目標対象の予測位置を決定してもよい。例示的に、目標対象の検出枠が含まれる第1画像を目標追跡ネットワークに入力し、第2画像中の目標対象の予測位置を得て、さらに、第2画像における予測位置での画素点に対して肢体キーポイント検出処理を行い、目標対象の一部の肢体の第2画像における第2キーポイント情報を得ることができる。上記目標追跡ネットワークは、目標追跡を実現可能な任意のネットワーク構造を用いることができ、本実施例ではこれを限定しない。
本実施例では、目標追跡ネットワークは、目標対象の位置がラベル付けされている(例えば、目標対象の検出枠を含むか又は目標対象の一部の肢体の検出枠を含む)複数のフレームのサンプル画像を用いて訓練して得られるものであってもよい。例示的に、複数のフレームのサンプル画像は少なくとも第1画像及び第2画像を含むことを例にし、目標追跡ネットワークを用いて第1サンプル画像を処理してもよく、第1サンプル画像には目標対象の位置がラベル付けされており、処理の結果は、該目標対象の第2サンプル画像における予測位置であり、これにより、上記予測位置及び第2画像における目標対象のラベル付け位置に基づいてロスを決定し、ロスに基づいて目標追跡ネットワークのネットワークパラメータを調整することができる。
説明すべきは、第1キーポイント情報に基づき、第2画像中の目標対象の一部の肢体に対応する第2キーポイント情報を決定した後、第2画像中の目標対象の一部の肢体に対応する第2キーポイント情報に基づき、さらに、それ以後の画像中の目標対象の一部の肢体に対応するキーポイント情報を決定し、次の1つのフレームの画像から目標対象の一部の肢体に対応するキーポイント情報が検出できなくなるまで続けることができ、この場合、処理待ちの複数のフレームの画像には上記目標対象が含まれず、つまり、目標対象は処理待ちの複数のフレームの画像の視野範囲外に移動することが示されている。
いくつかの選択可能な実施例では、画像処理装置は、各フレームの画像中の目標対象に対して肢体検出を行い、各フレームの画像中の目標対象が位置する領域を得てもよい。検出された目標対象を追跡対象とし、これにより、現フレームの画像に新しい目標対象が出現したか否かを決定することができ、現フレームの画像に新しい目標対象が出現した場合、新しい目標対象を追跡対象とし、新しい目標対象に対応する第1領域内の画素点に対して肢体キーポイント検出処理を行い、即ち、新しい目標対象に対して本開示の実施例におけるステップ103の処理を実行する。例示的に、画像処理装置は、予め設定した時間ごとに又は予め設定した数のフレームの画像ごとに、画像中の目標対象の肢体検出処理を行ってもよく、これにより、所定時間ごとに画像に新しい目標対象が出現したか否かを検出し、新しい目標対象を追跡することを実現する。
本開示のいくつかの選択可能な実施例では、上記方法は、目標対象の一部の肢体に対応する第1キーポイント情報を取得したことに応答して、目標対象に追跡識別子を割り当てるステップと、複数のフレームの画像の処理プロセスにおいて割り当てられた追跡識別子の数に基づき、複数のフレームの画像中の目標対象の数を決定するステップと、をさらに含む。
本実施例では、画像処理装置により、処理待ちの複数のフレームの画像のうちの先頭のフレームの画像内で目標対象が検出され、即ち目標対象の一部の肢体に対応する第1キーポイント情報が取得された場合、目標対象に1つの追跡識別子を割り当て、該目標対象の追跡プロセスで該目標対象を追跡できなくなるまで、該追跡識別子は該目標対象に関連付けられている。
いくつかの選択可能な実施例では、画像処理装置は、各フレームの画像中の目標対象に対して肢体検出を行い、各フレームの画像中の目標対象の一部の肢体に対応する領域を得て、検出された目標対象を追跡対象としてもよい。これに基づき、画像処理装置は、処理待ち画像のうちの先頭のフレームの画像に対して検出を行い、検出された目標対象に追跡識別子を割り当てる。その後、該追跡識別子は、該目標対象を追跡できなくなるまで、該目標対象を追従し続ける。ある1つのフレームの画像内で新しい目標対象が検出されると、該新しい目標対象に追跡識別子を割り当て、このように上述した解決手段を繰り返し実行する。同一時刻に検出された各目標対象は異なる追跡識別子に対応し、連続の時間範囲内で追跡された目標対象は同じ追跡識別子に対応し、不連続の時間範囲のそれぞれで検出された目標対象は異なる追跡識別子に対応することが理解される。
例えば、ある1つのフレームの画像から3つの目標対象がそれぞれ検出された場合、3つの目標対象に対してそれぞれ1つの追跡識別子を割り当て、各目標対象はそれぞれ1つの追跡識別子に対応する。
別の例として、5分間の複数のフレームの画像について、1つ目の1分間内に3つの目標対象が検出されると、3つの目標対象にそれぞれ1つの追跡識別子を割り当て、例えば、識別子1、識別子2及び識別子3と表記してもよく、2つ目の1分間内に、上記3つの目標対象のうちの1つ目の目標対象が消えると、現在の1分間内に、2つの目標対象のみが存在し、対応する追跡識別子はそれぞれ識別子2及び識別子3であり、3つ目の1分間内に、上記1つ目の目標対象が再び画像に出現し、つまり、前の画像に比べて新しい目標対象が検出されると、該目標対象は1つ目の1分間内に出現した目標対象(即ち1つ目の目標対象)であるが、それにもかかわらず、該目標対象に識別子4を追跡識別子として割り当て、このように類推する。
これに基づき、本実施例の技術的解決手段は、複数のフレームの画像処理プロセスにおける対応する追跡識別子の数に基づき、複数のフレームの画像内に出現した目標対象の数を決定してもよい。例示的に、複数のフレームの画像内に出現した目標対象の数とは、複数のフレームの画像に対応する時間範囲内に出現した目標対象の出現回数を指す。
本開示の実施例の技術的解決手段によって、処理待ちの複数のフレームの画像のうちの第1画像中の目標対象の一部の肢体のキーポイントを認識し、認識された一部の肢体のキーポイントに基づき、それ以後の第2画像中の目標対象の一部の肢体のキーポイントを決定することで、画像内に目標対象の一部の肢体(例えば、上半身)だけ存在するシーンでの目標追跡が実現され、つまり、本開示の実施例の技術的解決手段は、完全肢体が含まれるシーン及び一部の肢体(例えば、上半身)が含まれるシーンのどちらにも対応可能であり、画像中の目標への追跡が実現される。
本開示の実施例はさらに、もう1つの画像処理方法を提供する。図4は、本開示の実施例の画像処理方法のフローチャート2であり、図4に示すように、前記方法は以下のステップを含む。
ステップ201で、複数のフレームの画像を取得する。
ステップ202で、複数のフレームの画像のうちの第1画像中の目標対象に対して肢体キーポイント検出処理を行い、目標対象の一部の肢体に対応する第1キーポイント情報を取得する。
ステップ203で、第1キーポイント情報に基づき、第2画像中の目標対象の一部の肢体に対応する第2キーポイント情報を決定し、第2画像は、複数のフレームの画像のうち、第1画像以後の1つのフレームの画像である。
ステップ204で、第2キーポイント情報に基づいて目標対象の姿勢を決定し、目標対象の姿勢に基づいて目標対象に対応するインタラクション命令を決定する。
本実施例のステップ201~ステップ203の具体的な説明は、ステップ101~ステップ103の説明を参照すればよく、ここで重複説明を省略する。
本実施例は、追跡された目標対象及び該目標対象の第2キーポイント情報に基づいて目標対象の姿勢を決定し、目標対象の姿勢に基づいて各姿勢に対応するインタラクション命令を決定してもよい。その後、各姿勢に対応するインタラクション命令に応答する。
本実施例では、動作インタラクションのシーンに適し、画像処理装置は、各姿勢に基づいて対応するインタラクション命令を決定し、上記インタラクション命令に応答してもよく、上記インタラクション命令への応答は、例えば、画像処理装置自機、又は画像処理装置が存在する電子機器自機の何らかの機能等をオン又はオフにすることであってもよく、あるいは、上記インタラクション命令への応答は、上記インタラクション命令を他の電子機器に送信し、他の電子機器は上記インタラクション命令を受信し、インタラクション命令に基づいて何らかの機能をオン又はオフにすることであってもよく、つまり、上記インタラクション命令は、他の電子機器の対応する機能をオン又はオフにするために用いてもよい。
本実施例は、仮想現実、拡張現実又は体感ゲーム等の様々な適用シーンにも適する。画像処理装置は、様々なインタラクション命令に基づいて対応する処理を実行してもよく、処理は、仮想現実又は拡張現実のシーンで、対応する動作を実行するように仮想対象を制御すること、体感ゲームのシーンで、対応する動作を実行するように目標対象に対応する仮想キャラクタを制御することを含むが、これらに限定されない。いくつかの例では、上記方法が拡張現実や仮想現実等のシーンに適用されると、画像処理装置がインタラクション命令に基づいて実行する対応の処理は、現実シーン又は仮想シーンでインタラクション命令に対応する動作を実行するように仮想目標対象を制御することを含んでもよい。
本開示の実施例の技術的解決手段によって、一方では、画像内に目標対象の一部の肢体(例えば、上半身)だけ存在するシーンでの目標追跡が実現され、つまり、本開示の実施例の技術的解決手段は、完全肢体が含まれるシーン及び一部の肢体(例えば、上半身)が含まれるシーンのどちらにも対応可能であり、画像中の目標への追跡が実現され、他方では、目標追跡のプロセスで、追跡された目標対象のキーポイント情報を検出し、目標対象のキーポイント情報に基づき、追跡された目標対象の姿勢を決定し、目標対象の姿勢に基づいて対応するインタラクション命令を決定し、決定の適用シーン(例えば、仮想現実シーン、拡張現実シーン、体感ゲームシーン等のインタラクションシーン)でのマンマシンインタラクションが実現され、ユーザのインタラクション体験が向上する。
本開示の実施例は画像処理装置をさらに提供する。図5は、本開示の実施例の画像処理装置の構成図1であり、図5に示すように、前記装置は、取得ユニット31、検出ユニット32及び追跡決定ユニット33を含み、
上記取得ユニット31は、複数のフレームの画像を取得するように構成され、
上記検出ユニット32は、複数のフレームの画像のうちの第1画像中の目標対象に対して肢体キーポイント検出処理を行い、上記目標対象の一部の肢体に対応する第1キーポイント情報を取得するように構成され、
上記追跡決定ユニット33は、上記第1キーポイント情報に基づき、第2画像中の上記目標対象の上記一部の肢体に対応する第2キーポイント情報を決定するように構成され、上記第2画像は、上記複数のフレームの画像のうち、上記第1画像以後の1つのフレームの画像である。
本開示のいくつかの選択可能な実施例では、図6に示すように、上記検出ユニット32は、肢体検出モジュール321及び肢体キーポイント検出モジュール322を含み、
上記肢体検出モジュール321は、上記第1画像中の目標対象に対して肢体検出処理を行い、目標対象の第1領域を決定するように構成され、第1領域は目標対象の一部の肢体が位置する領域を含み、
上記肢体キーポイント検出モジュール322は、上記第1領域に対応する画素点に対して肢体キーポイント検出処理を行い、上記目標対象の上記一部の肢体に対応する第1キーポイント情報を取得するように構成される。
本開示のいくつかの選択可能な実施例では、上記追跡決定ユニット33は、上記第1キーポイント情報に基づいて第1画像において第2領域を決定し、ここで上記第2領域は上記目標対象の第1領域よりも大きく、上記第1領域は目標対象の一部の肢体が位置する領域を含み、第2領域に基づき、第2画像における、第2領域の位置範囲に対応する第3領域を決定し、そして第2画像における第3領域内の画素点に対して肢体キーポイント検出処理を行い、上記一部の肢体に対応する第2キーポイント情報を取得するように構成される。
本開示のいくつかの選択可能な実施例では、上記追跡決定ユニット33は、前記第1キーポイント情報の前記第1画像における位置範囲に基づき、前記第2画像における、前記位置範囲に対応する第3領域を決定し、そして前記第2画像における前記第3領域内の画素点に対して肢体キーポイント検出処理を行い、前記一部の肢体に対応する第2キーポイント情報を取得するように構成される。
本開示のいくつかの選択可能な実施例では、上記肢体検出モジュール321は、肢体検出ネットワークを用いて上記第1画像中の上記目標対象に対して肢体検出処理を行うように構成され、上記肢体検出ネットワークは、第1タイプのサンプル画像を用いて訓練して得られるものであり、上記第1タイプのサンプル画像には目標対象の検出枠がラベル付けされ、検出枠のラベル付け範囲は目標対象の一部の肢体が位置する領域を含む。
本開示のいくつかの選択可能な実施例では、上記肢体キーポイント検出モジュール322は、肢体キーポイント検出ネットワークを用いて上記第1領域に対応する画素点に対して肢体キーポイント検出処理を行うように構成され、上記肢体キーポイント検出ネットワークは、第2タイプのサンプル画像を用いて訓練して得られるものであり、上記第2タイプのサンプル画像には、前記目標対象の一部の肢体を含むキーポイントがラベル付けされている。
本開示のいくつかの選択可能な実施例では、上記目標対象の一部の肢体は、頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも1つを含み、上記第1キーポイント情報及び上記第2キーポイント情報は、頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも1つの肢体の輪郭キーポイント情報及び/又は骨格キーポイント情報を含む。
本開示のいくつかの選択可能な実施例では、図7に示すように、上記装置は、割り当てユニット34及び統計ユニット35をさらに含み、
上記割り当てユニット34は、上記検出ユニットが目標対象の一部の肢体に対応する第1キーポイント情報を取得したことに応答して、目標対象に追跡識別子を割り当てるように構成され、
上記統計ユニット35は、複数のフレームの画像の処理プロセスにおいて割り当てられた追跡識別子の数に基づき、複数のフレームの画像中の目標対象の数を決定するように構成される。
本開示のいくつかの選択可能な実施例では、図8に示すように、上記装置は、第2キーポイント情報に基づいて目標対象の姿勢を決定し、目標対象の姿勢に基づいて目標対象に対応するインタラクション命令を決定するように構成される決定ユニット36をさらに含む。
本開示の実施例では、上記画像処理装置内の取得ユニット31、検出ユニット32(肢体検出モジュール321及び肢体キーポイント検出モジュール322を含む)、追跡決定ユニット33、割り当てユニット34、統計ユニット35及び決定ユニット36は、実際の適用において、いずれも中央処理ユニット(CPU:Central Processing Unit)、デジタル信号プロセッサ(DSP:Digital Signal Processor)、マイクロコントローラーユニット(MCU:Microcontroller Unit)又はフィールド・プログラマブル・ゲート・アレイ(FPGA:Field-Programmable Gate Array)によって実現されてもよい。
説明すべきは、上記実施例で提供された画像処理装置によって画像処理を行う時に、上述したように分割した各プログラムモジュールを例にして説明したが、実際の適用において、必要に応じて上記処理を異なるプログラムモジュールによって完了するように割り当ててもよく、即ち装置の内部構造を異なるプログラムモジュールに分割して上述した全て又は一部の処理を完了するようにしてもよい。なお、上記実施例で提供された画像処理装置及び画像処理方法の実施例が同じ構想によるものであり、その具体的な実施過程の詳細については方法の実施例を参照すればよく、ここで重複説明を省略する。
本開示の実施例は電子機器をさらに提供する。図9は、本開示の実施例の電子機器のハードウェア構成図であり、図9に示すように、電子機器40は、メモリ42と、プロセッサ41と、メモリ42に記憶されているプロセッサ41で実行可能なコンピュータプログラムと、を含み、上記プロセッサ41は、上記プログラムが実行して、本開示の実施例に記載の画像処理方法のステップを実行する。
電子機器40における各コンポーネントはバスシステム43によって接続されることが理解される。バスシステム43はこれらのコンポーネントの間の接続通信を実現するためのものであることが理解される。バスシステム43はデータバスに加えて、さらに電源バス、制御バス及び状態信号バスを含む。ただし、説明を明瞭にするために、図9において各種のバスが全てバスシステム43とされている。
メモリ42は揮発性メモリ又は不揮発性メモリであってもよく、揮発性及び不揮発性メモリの両方を含んでもよいことが理解される。ここで、不揮発性メモリは、読み取り専用メモリ(ROM:Read Only Memory)、プログラマブル読み取り専用メモリ(PROM:Programmable Read-Only Memory)、消去可能プログラマブル読み取り専用メモリ(EPROM:Erasable Programmable Read-Only Memory)、電気的消去可能なプログラマブル読み取り専用メモリ(EEPROM:Electrically Erasable Programmable Read-Only Memory)、磁気ランダムアクセスメモリ(FRAM(登録商標):ferromagnetic random access memory)、フラッシュメモリ(Flash Memory)、磁性面メモリ、光ディスク又はシーディーロム(CD-ROM:Compact Disc Read-Only Memory)であってよく、磁性面メモリは磁気ディスクメモリ又は磁気テープメモリであってよい。揮発性メモリはランダムアクセスメモリ(RAM:Random Access Memory)であってよく、外部キャッシュとして用いられる。例示的なものであり限定する意図がない説明によれば、例えば、スタティックランダムアクセスメモリ(SRAM:Static Random Access Memory)、同期スタティックランダムアクセスメモリ(SSRAM:Synchronous Static Random Access Memory)、ダイナミックランダムアクセスメモリ(DRAM:Dynamic Random Access Memory)、同期ダイナミックランダムアクセスメモリ(SDRAM:Synchronous Dynamic Random Access Memory)、ダブルデータレート同期ダイナミックランダムアクセスメモリ(DDRSDRAM:Double Data Rate Synchronous Dynamic Random Access Memory)、強化型同期ダイナミックランダムアクセスメモリ(ESDRAM:Enhanced Synchronous Dynamic Random Access Memory)、同期接続ダイナミックランダムアクセスメモリ(SLDRAM:SyncLink Dynamic Random Access Memory)、ダイレクトラムバスランダムアクセスメモリ(DRRAM:Direct Rambus Random Access Memory)のような多くの形のRAMが使用可能である。本開示の実施例に記載のメモリ42は、これらのメモリ及び他のいかなる適切なメモリを含むが、それらに限定されない。
上記の本開示の実施例で開示された方法は、プロセッサ41に用いることができ、又はプロセッサ41によって実現することができる。プロセッサ41は信号処理能力を有する集積回路チップであってよい。実施過程では、上記方法の各ステップはプロセッサ41のハードウェアの集積論理回路又はソフトウェア形態の命令によって完成可能である。上記プロセッサ41は共通プロセッサ、DSP又は他のプログラマブル論理デバイス、離散ゲート又はトランジスタ論理デバイス、離散ハードウェアコンポーネント等であってもよい。プロセッサ41は、本開示の実施例で開示された各方法、ステップ及び論理ブロック図を実現又は実行することができる。共通プロセッサは、マイクロプロセッサ又はいかなる一般のプロセッサ等であってもよい。本開示の実施例で開示された方法のステップによれば、ハードウェア復号プロセッサにより実行、完了し、又は復号プロセッサ中のハードウェア及びソフトウェアモジュールの組み合わせにより実行、完了するように直接体現することができる。ソフトウェアモジュールは記憶媒体にあってもよく、該記憶媒体はメモリ42に位置し、プロセッサ41はメモリ42中の情報を読み取り、そのハードウェアと組み合わせて上記方法のステップを完成する。
例示的な実施例では、電子機器40は1つ又は複数の特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、DSP、プログラマブルロジックデバイス(PLD:Programmable Logic Device)、複合プログラマブルロジックデバイス(CPLD:Complex Programmable Logic Device)、FPGA、共通プロセッサ、コントローラ、MCU、マイクロプロセッサ(Microprocessor)又は他の電子要素によって実現し、上記方法を実行するために用いることができる。
例示的な実施例では、本開示の実施例はさらにコンピュータ可読記憶媒体、例えば、電子機器40のプロセッサ41によって実行して、前記方法の前記ステップを完了することができるコンピュータプログラムを含むメモリ42を提供する。コンピュータ可読記憶媒体はFRAM(登録商標)、ROM、PROM、EPROM、EEPROM、Flash Memory、磁性面記憶装置、光ディスク、又はCD-ROM等のメモリであってもよく、又は上記メモリの1つ又は任意の組み合わせを含む様々な機器、例えば携帯電話、コンピュータ、タブレットデバイス、携帯情報端末等であってもよい。
本開示の実施例は、プロセッサにより実行されると、前記プロセッサに本開示の実施例に記載の画像処理方法のステップを実行させるためのコンピュータプログラムを記憶したコンピュータ可読記憶媒体をさらに提供する。
本開示の実施例は、コンピュータに本開示の実施例に記載の画像処理方法を実行させるコンピュータプログラムをさらに提供する。
本願により提供されるいくつかの方法の実施例で開示された方法は、矛盾なく任意に組み合わせて、新たな方法の実施例を得ることができる。
本願により提供されるいくつかの製品の実施例で開示された特徴は、矛盾なく任意に組み合わせて、新たな製品の実施例を得ることができる。
本願により提供されるいくつかの方法又は機器の実施例で開示された特徴は、矛盾なく任意に組み合わせて、新たな方法の実施例又は機器の実施例を得ることができる。
なお、本願により提供されるいくつかの実施例では、開示した機器及び方法は、他の形態で実現することができることを理解すべきである。以上に記載の機器の実施例は例示的なものに過ぎず、例えば、前記ユニットの分割は、論理機能の分割に過ぎず、実際に実現する場合に別の形態で分割してもよく、例えば、複数のユニット又はコンポーネントは組み合わせてもよいし、又は別のシステムに統合してもよいし、又は一部の特徴を省略もしくは実行しなくてもよい。また、図示又は説明した各構成要素の結合、又は直接結合、又は通信接続は、いくつかのインタフェース、機器又はユニットを介した間接結合又は通信接続であり得、電気的、機械的又は他の形態であり得る。
分離部材として説明したユニットは物理的に分離されたものであってもなくてもよく、ユニットとして示した部材は物理的ユニットであってもなくてもよく、一箇所に位置してもよく、又は複数のネットワークユニットに分布してもよく、実際の必要に応じてその一部又は全てのユニットを選択して本実施例の解決手段の目的を実現できる。
また、本開示の各実施例における各機能ユニットは全て1つの処理ユニットに統合されてもよいし、それぞれ独立して1つのユニットとして存在してもよいし、2つ又は2つ以上で1つのユニットに統合されてもよく、上記統合されたユニットはハードウェアの形で実現してもよく、又はハードウェアとソフトウェアを組み合わせた機能ユニットの形で実現してもよい。
当業者であれば、上記方法の実施例を実現する全て又は一部のステップはプログラムによって関連ハードウェアに命令を出すことにより完了でき、前記プログラムは、携帯型記憶装置、ROM、RAM、磁気ディスク又は光ディスク等のプログラムコードを記憶可能である様々な媒体を含むコンピュータ可読記憶媒体に記憶可能であり、該プログラムは実行される時に、上記方法の実施例のステップを実行することを理解できる。
あるいは、本開示の上記統合されたユニットはソフトウェア機能モジュールの形で実現され且つ独立した製品として販売又は使用される場合、コンピュータ可読記憶媒体に記憶されてもよい。このような見解をもとに、本開示の実施例の技術的解決手段は実質的に又は従来技術に寄与する部分がソフトウェア製品の形で実施することができ、該コンピュータソフトウェア製品は記憶媒体に記憶され、コンピュータ機器(パーソナルコンピュータ、サーバ、又はネットワーク機器等であってもよい)に本開示の各実施例に記載の画像処理方法の全て又は一部を実行させる複数の命令を含む。前記記憶媒体は、携帯型記憶装置、ROM、RAM、磁気ディスク又は光ディスク等のプログラムコードを記憶可能である様々な媒体を含む。
以上は本開示の具体的な実施形態に過ぎず、本開示の保護範囲がそれに限定されるものでなく、本開示に記載された技術範囲内に当業者に容易に想到される変化又は取り替えは、全て本開示の保護範囲に含まれる。従って、本開示の保護範囲は請求項の保護範囲に準ずるものとする。
本開示の実施例により提供される画像処理方法、装置、電子機器及び記憶媒体によれば、処理待ちの複数のフレームの画像のうちの第1画像中の目標対象の一部の肢体のキーポイントを認識し、認識された一部の肢体のキーポイントに基づき、それ以後の第2画像中の目標対象の一部の肢体のキーポイントを決定することで、画像内に目標対象の一部の肢体(例えば、上半身)が存在するシーンでの目標追跡が実現される。
例えば、本願は以下の項目を提供する。
(項目1)
複数のフレームの画像を取得するステップと、
前記複数のフレームの画像のうちの第1画像中の目標対象に対して肢体キーポイント検出処理を行い、前記目標対象の一部の肢体に対応する第1キーポイント情報を取得するステップと、
前記第1キーポイント情報に基づき、第2画像中の前記目標対象の前記一部の肢体に対応する第2キーポイント情報を決定するステップであって、前記第2画像は、前記複数のフレームの画像のうち、前記第1画像以後の1つのフレームの画像である、ステップと、を含む、画像処理方法。
(項目2)
前記複数のフレームの画像のうちの第1画像中の目標対象に対して肢体キーポイント検出処理を行い、前記目標対象の一部の肢体に対応する第1キーポイント情報を取得するステップは、
前記第1画像中の前記目標対象に対して肢体検出処理を行い、前記目標対象の第1領域を決定するステップであって、前記第1領域は前記目標対象の一部の肢体が位置する領域を含む、ステップと、
前記第1領域に対応する画素点に対して肢体キーポイント検出処理を行い、前記目標対象の前記一部の肢体に対応する第1キーポイント情報を取得するステップと、を含む
項目1に記載の画像処理方法。
(項目3)
前記第1キーポイント情報に基づき、第2画像中の前記目標対象の前記一部の肢体に対応する第2キーポイント情報を決定するステップは、
前記第1キーポイント情報に基づいて前記第1画像において第2領域を決定するステップであって、前記第2領域は前記目標対象の第1領域よりも大きく、前記第1領域は前記目標対象の一部の肢体が位置する領域を含む、ステップと、
前記第2領域に基づき、前記第2画像における、前記第2領域の位置範囲に対応する第3領域を決定するステップと、
前記第2画像における前記第3領域内の画素点に対して肢体キーポイント検出処理を行い、前記一部の肢体に対応する第2キーポイント情報を取得するステップと、を含む
項目1に記載の画像処理方法。
(項目4)
前記第1キーポイント情報に基づき、第2画像中の前記目標対象の前記一部の肢体に対応する第2キーポイント情報を決定するステップは、
前記第1キーポイント情報の前記第1画像における位置範囲に基づき、前記第2画像における、前記位置範囲に対応する第3領域を決定するステップと、
前記第2画像における前記第3領域内の画素点に対して肢体キーポイント検出処理を行い、前記一部の肢体に対応する第2キーポイント情報を取得するステップと、を含む
項目1に記載の画像処理方法。
(項目5)
前記第1画像中の前記目標対象に対して肢体検出処理を行うステップは、
肢体検出ネットワークを用いて前記第1画像中の前記目標対象に対して肢体検出処理を行うステップを含み、
前記肢体検出ネットワークは、第1タイプのサンプル画像を用いて訓練して得られるものであり、前記第1タイプのサンプル画像には目標対象の検出枠がラベル付けされ、前記検出枠のラベル付け範囲は前記目標対象の一部の肢体が位置する領域を含む
項目2に記載の画像処理方法。
(項目6)
前記第1領域に対応する画素点に対して肢体キーポイント検出処理を行うステップは、
肢体キーポイント検出ネットワークを用いて前記第1領域に対応する画素点に対して肢体キーポイント検出処理を行うステップを含み、
前記肢体キーポイント検出ネットワークは、第2タイプのサンプル画像を用いて訓練して得られるものであり、前記第2タイプのサンプル画像には、前記目標対象の一部の肢体を含むキーポイントがラベル付けされている
項目2に記載の画像処理方法。
(項目7)
前記目標対象の一部の肢体は、頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも1つを含み、
前記第1キーポイント情報及び前記第2キーポイント情報は、頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも1つの肢体の輪郭キーポイント情報及び/又は骨格キーポイント情報を含む
項目1から6のいずれか1項に記載の画像処理方法。
(項目8)
前記目標対象の一部の肢体に対応する第1キーポイント情報を取得したことに応答して、前記目標対象に追跡識別子を割り当てるステップと、
前記複数のフレームの画像の処理プロセスにおいて割り当てられた前記追跡識別子の数に基づき、前記複数のフレームの画像中の目標対象の数を決定するステップと、をさらに含む
項目1から7のいずれか1項に記載の画像処理方法。
(項目9)
前記第2キーポイント情報に基づいて前記目標対象の姿勢を決定するステップと、
前記目標対象の姿勢に基づいて前記目標対象に対応するインタラクション命令を決定するステップと、をさらに含む
項目1から8のいずれか1項に記載の画像処理方法。
(項目10)
複数のフレームの画像を取得するように構成される取得ユニットと、
前記複数のフレームの画像のうちの第1画像中の目標対象に対して肢体キーポイント検出処理を行い、前記目標対象の一部の肢体に対応する第1キーポイント情報を取得するように構成される検出ユニットと、
前記第1キーポイント情報に基づき、第2画像中の前記目標対象の前記一部の肢体に対応する第2キーポイント情報を決定するように構成される追跡決定ユニットであって、前記第2画像は、前記複数のフレームの画像のうち、前記第1画像以後の1つのフレームの画像である、追跡決定ユニットと、を含む、画像処理装置。
(項目11)
前記検出ユニットは、肢体検出モジュール及び肢体キーポイント検出モジュールを含み、
前記肢体検出モジュールは、前記第1画像中の前記目標対象に対して肢体検出処理を行い、前記目標対象の第1領域を決定するように構成され、前記第1領域は前記目標対象の一部の肢体が位置する領域を含み、
前記肢体キーポイント検出モジュールは、前記第1領域に対応する画素点に対して肢体キーポイント検出処理を行い、前記目標対象の前記一部の肢体に対応する第1キーポイント情報を取得するように構成される
項目10に記載の画像処理装置。
(項目12)
前記追跡決定ユニットは、前記第1キーポイント情報に基づいて前記第1画像において第2領域を決定し、前記第2領域に基づき、前記第2画像における、前記第2領域の位置範囲に対応する第3領域を決定し、そして前記第2画像における前記第3領域内の画素点に対して肢体キーポイント検出処理を行い、前記一部の肢体に対応する第2キーポイント情報を取得するように構成され、ここで前記第2領域は前記目標対象の第1領域よりも大きく、前記第1領域は前記目標対象の一部の肢体が位置する領域を含む
項目10に記載の画像処理装置。
(項目13)
前記追跡決定ユニットは、前記第1キーポイント情報の前記第1画像における位置範囲に基づき、前記第2画像における、前記位置範囲に対応する第3領域を決定し、そして前記第2画像における前記第3領域内の画素点に対して肢体キーポイント検出処理を行い、前記一部の肢体に対応する第2キーポイント情報を取得するように構成される
項目10に記載の画像処理装置。
(項目14)
前記肢体検出モジュールは、肢体検出ネットワークを用いて前記第1画像中の前記目標対象に対して肢体検出処理を行うように構成され、
前記肢体検出ネットワークは、第1タイプのサンプル画像を用いて訓練して得られるものであり、前記第1タイプのサンプル画像には目標対象の検出枠がラベル付けされ、前記検出枠のラベル付け範囲は前記目標対象の一部の肢体が位置する領域を含む
項目11に記載の画像処理装置。
(項目15)
前記肢体キーポイント検出モジュールは、肢体キーポイント検出ネットワークを用いて前記第1領域に対応する画素点に対して肢体キーポイント検出処理を行うように構成され、
前記肢体キーポイント検出ネットワークは、第2タイプのサンプル画像を用いて訓練して得られるものであり、前記第2タイプのサンプル画像には、前記目標対象の一部の肢体を含むキーポイントがラベル付けされている
項目11に記載の画像処理装置。
(項目16)
前記目標対象の一部の肢体は、頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも1つを含み、
前記第1キーポイント情報及び前記第2キーポイント情報は、頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも1つの肢体の輪郭キーポイント情報及び/又は骨格キーポイント情報を含む
項目10から15のいずれか1項に記載の画像処理装置。
(項目17)
前記検出ユニットが前記目標対象の一部の肢体に対応する第1キーポイント情報を取得したことに応答して、前記目標対象に追跡識別子を割り当てるように構成される割り当てユニットと、
前記複数のフレームの画像の処理プロセスにおいて割り当てられた前記追跡識別子の数に基づき、前記複数のフレームの画像中の目標対象の数を決定するように構成される統計ユニットと、をさらに含む
項目10から16のいずれか1項に記載の画像処理装置。
(項目18)
前記第2キーポイント情報に基づいて前記目標対象の姿勢を決定し、そして前記目標対象の姿勢に基づいて前記目標対象に対応するインタラクション命令を決定するように構成される決定ユニットをさらに含む
項目10から17のいずれか1項に記載の画像処理装置。
(項目19)
プロセッサに、項目1から9のいずれか1項に記載の画像処理方法のステップを実行させるためのコンピュータプログラムを記憶した、コンピュータ可読記憶媒体。
(項目20)
メモリと、プロセッサと、前記メモリに記憶されている前記プロセッサで実行可能なコンピュータプログラムと、を含み、前記プロセッサは前記コンピュータプログラムを実行して、項目1から9のいずれか1項に記載の画像処理方法のステップを実施する、電子機器。
(項目21)
コンピュータに項目1から9のいずれか1項に記載の画像処理方法を実行させる、コンピュータプログラム。

Claims (21)

  1. 複数のフレームの画像を取得するステップと、
    前記複数のフレームの画像のうちの第1画像中の目標対象に対して肢体キーポイント検出処理を行い、前記目標対象の一部の肢体に対応する第1キーポイント情報を取得するステップと、
    前記第1キーポイント情報に基づき、第2画像中の前記目標対象の前記一部の肢体に対応する第2キーポイント情報を決定するステップであって、前記第2画像は、前記複数のフレームの画像のうち、前記第1画像以後の1つのフレームの画像である、ステップと、を含む、画像処理方法。
  2. 前記複数のフレームの画像のうちの第1画像中の目標対象に対して肢体キーポイント検出処理を行い、前記目標対象の一部の肢体に対応する第1キーポイント情報を取得するステップは、
    前記第1画像中の前記目標対象に対して肢体検出処理を行い、前記目標対象の第1領域を決定するステップであって、前記第1領域は前記目標対象の一部の肢体が位置する領域を含む、ステップと、
    前記第1領域に対応する画素点に対して肢体キーポイント検出処理を行い、前記目標対象の前記一部の肢体に対応する第1キーポイント情報を取得するステップと、を含む
    請求項1に記載の画像処理方法。
  3. 前記第1キーポイント情報に基づき、第2画像中の前記目標対象の前記一部の肢体に対応する第2キーポイント情報を決定するステップは、
    前記第1キーポイント情報に基づいて前記第1画像において第2領域を決定するステップであって、前記第2領域は前記目標対象の第1領域よりも大きく、前記第1領域は前記目標対象の一部の肢体が位置する領域を含む、ステップと、
    前記第2領域に基づき、前記第2画像における、前記第2領域の位置範囲に対応する第3領域を決定するステップと、
    前記第2画像における前記第3領域内の画素点に対して肢体キーポイント検出処理を行い、前記一部の肢体に対応する第2キーポイント情報を取得するステップと、を含む
    請求項1に記載の画像処理方法。
  4. 前記第1キーポイント情報に基づき、第2画像中の前記目標対象の前記一部の肢体に対応する第2キーポイント情報を決定するステップは、
    前記第1キーポイント情報の前記第1画像における位置範囲に基づき、前記第2画像における、前記位置範囲に対応する第3領域を決定するステップと、
    前記第2画像における前記第3領域内の画素点に対して肢体キーポイント検出処理を行い、前記一部の肢体に対応する第2キーポイント情報を取得するステップと、を含む
    請求項1に記載の画像処理方法。
  5. 前記第1画像中の前記目標対象に対して肢体検出処理を行うステップは、
    肢体検出ネットワークを用いて前記第1画像中の前記目標対象に対して肢体検出処理を行うステップを含み、
    前記肢体検出ネットワークは、第1タイプのサンプル画像を用いて訓練して得られるものであり、前記第1タイプのサンプル画像には目標対象の検出枠がラベル付けされ、前記検出枠のラベル付け範囲は前記目標対象の一部の肢体が位置する領域を含む
    請求項2に記載の画像処理方法。
  6. 前記第1領域に対応する画素点に対して肢体キーポイント検出処理を行うステップは、
    肢体キーポイント検出ネットワークを用いて前記第1領域に対応する画素点に対して肢体キーポイント検出処理を行うステップを含み、
    前記肢体キーポイント検出ネットワークは、第2タイプのサンプル画像を用いて訓練して得られるものであり、前記第2タイプのサンプル画像には、前記目標対象の一部の肢体を含むキーポイントがラベル付けされている
    請求項2に記載の画像処理方法。
  7. 前記目標対象の一部の肢体は、頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも1つを含み、
    前記第1キーポイント情報及び前記第2キーポイント情報は、頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも1つの肢体の輪郭キーポイント情報及び/又は骨格キーポイント情報を含む
    請求項1から6のいずれか1項に記載の画像処理方法。
  8. 前記目標対象の一部の肢体に対応する第1キーポイント情報を取得したことに応答して、前記目標対象に追跡識別子を割り当てるステップと、
    前記複数のフレームの画像の処理プロセスにおいて割り当てられた前記追跡識別子の数に基づき、前記複数のフレームの画像中の目標対象の数を決定するステップと、をさらに含む
    請求項1から7のいずれか1項に記載の画像処理方法。
  9. 前記第2キーポイント情報に基づいて前記目標対象の姿勢を決定するステップと、
    前記目標対象の姿勢に基づいて前記目標対象に対応するインタラクション命令を決定するステップと、をさらに含む
    請求項1から8のいずれか1項に記載の画像処理方法。
  10. 複数のフレームの画像を取得するように構成される取得ユニットと、
    前記複数のフレームの画像のうちの第1画像中の目標対象に対して肢体キーポイント検出処理を行い、前記目標対象の一部の肢体に対応する第1キーポイント情報を取得するように構成される検出ユニットと、
    前記第1キーポイント情報に基づき、第2画像中の前記目標対象の前記一部の肢体に対応する第2キーポイント情報を決定するように構成される追跡決定ユニットであって、前記第2画像は、前記複数のフレームの画像のうち、前記第1画像以後の1つのフレームの画像である、追跡決定ユニットと、を含む、画像処理装置。
  11. 前記検出ユニットは、肢体検出モジュール及び肢体キーポイント検出モジュールを含み、
    前記肢体検出モジュールは、前記第1画像中の前記目標対象に対して肢体検出処理を行い、前記目標対象の第1領域を決定するように構成され、前記第1領域は前記目標対象の一部の肢体が位置する領域を含み、
    前記肢体キーポイント検出モジュールは、前記第1領域に対応する画素点に対して肢体キーポイント検出処理を行い、前記目標対象の前記一部の肢体に対応する第1キーポイント情報を取得するように構成される
    請求項10に記載の画像処理装置。
  12. 前記追跡決定ユニットは、前記第1キーポイント情報に基づいて前記第1画像において第2領域を決定し、前記第2領域に基づき、前記第2画像における、前記第2領域の位置範囲に対応する第3領域を決定し、そして前記第2画像における前記第3領域内の画素点に対して肢体キーポイント検出処理を行い、前記一部の肢体に対応する第2キーポイント情報を取得するように構成され、ここで前記第2領域は前記目標対象の第1領域よりも大きく、前記第1領域は前記目標対象の一部の肢体が位置する領域を含む
    請求項10に記載の画像処理装置。
  13. 前記追跡決定ユニットは、前記第1キーポイント情報の前記第1画像における位置範囲に基づき、前記第2画像における、前記位置範囲に対応する第3領域を決定し、そして前記第2画像における前記第3領域内の画素点に対して肢体キーポイント検出処理を行い、前記一部の肢体に対応する第2キーポイント情報を取得するように構成される
    請求項10に記載の画像処理装置。
  14. 前記肢体検出モジュールは、肢体検出ネットワークを用いて前記第1画像中の前記目標対象に対して肢体検出処理を行うように構成され、
    前記肢体検出ネットワークは、第1タイプのサンプル画像を用いて訓練して得られるものであり、前記第1タイプのサンプル画像には目標対象の検出枠がラベル付けされ、前記検出枠のラベル付け範囲は前記目標対象の一部の肢体が位置する領域を含む
    請求項11に記載の画像処理装置。
  15. 前記肢体キーポイント検出モジュールは、肢体キーポイント検出ネットワークを用いて前記第1領域に対応する画素点に対して肢体キーポイント検出処理を行うように構成され、
    前記肢体キーポイント検出ネットワークは、第2タイプのサンプル画像を用いて訓練して得られるものであり、前記第2タイプのサンプル画像には、前記目標対象の一部の肢体を含むキーポイントがラベル付けされている
    請求項11に記載の画像処理装置。
  16. 前記目標対象の一部の肢体は、頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも1つを含み、
    前記第1キーポイント情報及び前記第2キーポイント情報は、頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも1つの肢体の輪郭キーポイント情報及び/又は骨格キーポイント情報を含む
    請求項10から15のいずれか1項に記載の画像処理装置。
  17. 前記検出ユニットが前記目標対象の一部の肢体に対応する第1キーポイント情報を取得したことに応答して、前記目標対象に追跡識別子を割り当てるように構成される割り当てユニットと、
    前記複数のフレームの画像の処理プロセスにおいて割り当てられた前記追跡識別子の数に基づき、前記複数のフレームの画像中の目標対象の数を決定するように構成される統計ユニットと、をさらに含む
    請求項10から16のいずれか1項に記載の画像処理装置。
  18. 前記第2キーポイント情報に基づいて前記目標対象の姿勢を決定し、そして前記目標対象の姿勢に基づいて前記目標対象に対応するインタラクション命令を決定するように構成される決定ユニットをさらに含む
    請求項10から17のいずれか1項に記載の画像処理装置。
  19. プロセッサに、請求項1から9のいずれか1項に記載の画像処理方法のステップを実行させるためのコンピュータプログラムを記憶した、コンピュータ可読記憶媒体。
  20. メモリと、プロセッサと、前記メモリに記憶されている前記プロセッサで実行可能なコンピュータプログラムと、を含み、前記プロセッサは前記コンピュータプログラムを実行して、請求項1から9のいずれか1項に記載の画像処理方法のステップを実施する、電子機器。
  21. コンピュータに請求項1から9のいずれか1項に記載の画像処理方法を実行させる、コンピュータプログラム。
JP2021565760A 2020-04-29 2021-02-10 画像処理方法、装置、電子機器及び記憶媒体 Pending JP2022534666A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010357593.2 2020-04-29
CN202010357593.2A CN111539992A (zh) 2020-04-29 2020-04-29 图像处理方法、装置、电子设备和存储介质
PCT/CN2021/076504 WO2021218293A1 (zh) 2020-04-29 2021-02-10 图像处理方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
JP2022534666A true JP2022534666A (ja) 2022-08-03

Family

ID=71975386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021565760A Pending JP2022534666A (ja) 2020-04-29 2021-02-10 画像処理方法、装置、電子機器及び記憶媒体

Country Status (4)

Country Link
JP (1) JP2022534666A (ja)
CN (1) CN111539992A (ja)
TW (1) TW202141340A (ja)
WO (1) WO2021218293A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539992A (zh) * 2020-04-29 2020-08-14 北京市商汤科技开发有限公司 图像处理方法、装置、电子设备和存储介质
CN112016514B (zh) * 2020-09-09 2024-05-14 平安科技(深圳)有限公司 一种交通标志识别方法、装置、设备及储存介质
CN112465890A (zh) * 2020-11-24 2021-03-09 深圳市商汤科技有限公司 深度检测方法、装置、电子设备和计算机可读存储介质
CN112785573B (zh) * 2021-01-22 2024-08-16 上海商汤善萃医疗科技有限公司 图像处理方法及相关装置、设备
CN112818908B (zh) * 2021-02-22 2024-07-02 Oppo广东移动通信有限公司 关键点检测方法、装置、终端及存储介质
CN113192127B (zh) * 2021-05-12 2024-01-02 北京市商汤科技开发有限公司 一种图像处理方法、装置、电子设备和存储介质
CN113469017B (zh) * 2021-06-29 2024-09-17 北京市商汤科技开发有限公司 一种图像处理方法、装置及电子设备
CN115337607B (zh) * 2022-10-14 2023-01-17 佛山科学技术学院 一种基于计算机视觉的上肢运动康复训练方法
CN117831075B (zh) * 2024-01-03 2024-09-03 深圳力强数智科技有限公司 视频流分析训练的人体骨骼关键点推理方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012083955A (ja) * 2010-10-12 2012-04-26 Nippon Telegr & Teleph Corp <Ntt> 動作モデル学習装置、3次元姿勢推定装置、動作モデル学習方法、3次元姿勢推定方法およびプログラム
CN108230357A (zh) * 2017-10-25 2018-06-29 北京市商汤科技开发有限公司 关键点检测方法、装置、存储介质、计算机程序和电子设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10262426B2 (en) * 2014-10-31 2019-04-16 Fyusion, Inc. System and method for infinite smoothing of image sequences
CN108986137B (zh) * 2017-11-30 2022-02-01 成都通甲优博科技有限责任公司 人体跟踪方法、装置及设备
CN109918975B (zh) * 2017-12-13 2022-10-21 腾讯科技(深圳)有限公司 一种增强现实的处理方法、对象识别的方法及终端
CN108062526B (zh) * 2017-12-15 2021-05-04 厦门美图之家科技有限公司 一种人体姿态估计方法及移动终端
CN108062536B (zh) * 2017-12-29 2020-07-24 纳恩博(北京)科技有限公司 一种检测方法及装置、计算机存储介质
CN109685797B (zh) * 2018-12-25 2021-08-10 北京旷视科技有限公司 骨骼点检测方法、装置、处理设备及存储介质
CN110139115B (zh) * 2019-04-30 2020-06-09 广州虎牙信息科技有限公司 基于关键点的虚拟形象姿态控制方法、装置及电子设备
CN111539992A (zh) * 2020-04-29 2020-08-14 北京市商汤科技开发有限公司 图像处理方法、装置、电子设备和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012083955A (ja) * 2010-10-12 2012-04-26 Nippon Telegr & Teleph Corp <Ntt> 動作モデル学習装置、3次元姿勢推定装置、動作モデル学習方法、3次元姿勢推定方法およびプログラム
CN108230357A (zh) * 2017-10-25 2018-06-29 北京市商汤科技开发有限公司 关键点检测方法、装置、存储介质、计算机程序和电子设备

Also Published As

Publication number Publication date
TW202141340A (zh) 2021-11-01
CN111539992A (zh) 2020-08-14
WO2021218293A1 (zh) 2021-11-04

Similar Documents

Publication Publication Date Title
JP2022534666A (ja) 画像処理方法、装置、電子機器及び記憶媒体
US10832039B2 (en) Facial expression detection method, device and system, facial expression driving method, device and system, and storage medium
JP7137804B2 (ja) ジェスチャベースインタラクションのための方法およびシステム
KR102014385B1 (ko) 수술영상 학습 및 학습 기반 수술동작 인식 방법 및 장치
JP2004513442A (ja) 外観及び幾何学的配置特質に基づき統計モデルを活用する画像処理システムでの人物の札付け
KR20170014491A (ko) 움직임 인식 방법 및 움직임 인식 장치
WO2017084319A1 (zh) 手势识别方法及虚拟现实显示输出设备
WO2021098545A1 (zh) 一种姿势确定方法、装置、设备、存储介质、芯片及产品
CN111527468A (zh) 一种隔空交互方法、装置和设备
TW202145065A (zh) 一種圖像處理方法、電子設備及電腦可讀儲存介質
Lemley et al. Eye tracking in augmented spaces: A deep learning approach
CN110770742B (zh) 基于面部特征点的摇动动作识别系统和方法
US20210133985A1 (en) Method, system, and computer-accessible recording medium for motion recognition based on an atomic pose
WO2023273071A1 (zh) 一种图像处理方法、装置及电子设备
CN110069126B (zh) 虚拟对象的控制方法和装置
WO2020019353A1 (zh) 跟踪控制方法、设备、计算机可读存储介质
Ueng et al. Vision based multi-user human computer interaction
CN117455989A (zh) 室内场景slam追踪方法、装置、头戴式设备及介质
US11410398B2 (en) Augmenting live images of a scene for occlusion
CN113192127B (zh) 一种图像处理方法、装置、电子设备和存储介质
CN112655021A (zh) 图像处理方法、装置、电子设备和存储介质
JP2007048232A (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
Xu et al. Bare hand gesture recognition with a single color camera
CN114510142B (zh) 基于二维图像的手势识别方法及其系统和电子设备
CN114495272A (zh) 动作识别方法、装置、存储介质以及计算机设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211104

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211104

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221121

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230616