JP2022534666A

JP2022534666A - 画像処理方法、装置、電子機器及び記憶媒体

Info

Publication number: JP2022534666A
Application number: JP2021565760A
Authority: JP
Inventors: 李通; 金晟; ▲劉▼文▲韜▼; ▲錢▼晨
Original assignee: ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Priority date: 2020-04-29
Filing date: 2021-02-10
Publication date: 2022-08-03
Also published as: WO2021218293A1; TW202141340A; CN111539992A

Abstract

本開示の実施例は画像処理方法、装置、電子機器及び記憶媒体を開示する。前記方法は、複数のフレームの画像を取得するステップと、前記複数のフレームの画像のうちの第１画像中の目標対象に対して肢体キーポイント検出処理を行い、前記目標対象の一部の肢体に対応する第１キーポイント情報を取得するステップと、前記第１キーポイント情報に基づき、第２画像中の前記目標対象の前記一部の肢体に対応する第２キーポイント情報を決定するステップであって、前記第２画像は、前記複数のフレームの画像のうち、前記第１画像以後の１つのフレームの画像である、ステップと、を含む。

Description

（関連出願の相互参照）
本開示は、出願番号が２０２０１０３５７５９３．２であり、出願日が２０２０年０４月２９日である中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、該中国特許出願の全てが参照によって本開示に組み込まれる。

本開示はコンピュータビジョンの技術分野に関し、具体的には画像処理方法、装置、電子機器及び記憶媒体に関する。

目標追跡技術は、通常、肢体検出アルゴリズム及び肢体キーポイント検出アルゴリズムに基づき、肢体検出アルゴリズムで検出した人体、及び肢体キーポイント検出アルゴリズムで検出した人体キーポイントを用いて、目標追跡を実現する。しかし、現在の肢体検出アルゴリズム及び肢体キーポイント検出アルゴリズムは、上半身の肢体だけ存在するシーンには適応できないため、上半身の肢体だけ存在する目標への追跡が不可能である。

本開示の実施例は画像処理方法、装置、電子機器及び記憶媒体を提供する。

本開示の実施例は画像処理方法を提供する。前記画像処理方法は、複数のフレームの画像を取得するステップと、前記複数のフレームの画像のうちの第１画像中の目標対象に対して肢体キーポイント検出処理を行い、前記目標対象の一部の肢体に対応する第１キーポイント情報を取得するステップと、前記第１キーポイント情報に基づき、第２画像中の前記目標対象の前記一部の肢体に対応する第２キーポイント情報を決定するステップであって、前記第２画像は、前記複数のフレームの画像のうち、前記第１画像以後の１つのフレームの画像である、ステップと、を含む。

本開示のいくつかの選択可能な実施例では、前記複数のフレームの画像のうちの第１画像中の目標対象に対して肢体キーポイント検出処理を行い、前記目標対象の一部の肢体に対応する第１キーポイント情報を取得するステップは、前記第１画像中の前記目標対象に対して肢体検出処理を行い、前記目標対象の第１領域を決定するステップであって、前記第１領域は前記目標対象の一部の肢体が位置する領域を含む、ステップと、前記第１領域に対応する画素点に対して肢体キーポイント検出処理を行い、前記目標対象の前記一部の肢体に対応する第１キーポイント情報を取得するステップと、を含む。

本開示のいくつかの選択可能な実施例では、前記第１キーポイント情報に基づき、第２画像中の前記目標対象の前記一部の肢体に対応する第２キーポイント情報を決定するステップは、前記第１キーポイント情報に基づいて前記第１画像において第２領域を決定するステップであって、前記第２領域は前記目標対象の第１領域よりも大きく、前記第１領域は前記目標対象の一部の肢体が位置する領域を含む、ステップと、前記第２領域に基づき、前記第２画像における、前記第２領域の位置範囲に対応する第３領域を決定するステップと、前記第２画像における前記第３領域内の画素点に対して肢体キーポイント検出処理を行い、前記一部の肢体に対応する第２キーポイント情報を取得するステップと、を含む。

本開示のいくつかの選択可能な実施例では、前記第１キーポイント情報に基づき、第２画像中の前記目標対象の前記一部の肢体に対応する第２キーポイント情報を決定するステップは、前記第１キーポイント情報の前記第１画像における位置範囲に基づき、前記第２画像における、前記位置範囲に対応する第３領域を決定するステップと、前記第２画像における前記第３領域内の画素点に対して肢体キーポイント検出処理を行い、前記一部の肢体に対応する第２キーポイント情報を取得するステップと、を含む。

本開示のいくつかの選択可能な実施例では、前記第１画像中の前記目標対象に対して肢体検出処理を行うステップは、肢体検出ネットワークを用いて前記第１画像中の前記目標対象に対して肢体検出処理を行うステップを含み、前記肢体検出ネットワークは、第１タイプのサンプル画像を用いて訓練して得られるものであり、前記第１タイプのサンプル画像には目標対象の検出枠がラベル付けされ、前記検出枠のラベル付け範囲は前記目標対象の一部の肢体が位置する領域を含む。

本開示のいくつかの選択可能な実施例では、前記第１領域に対応する画素点に対して肢体キーポイント検出処理を行うステップは、肢体キーポイント検出ネットワークを用いて前記第１領域に対応する画素点に対して肢体キーポイント検出処理を行うステップを含み、前記肢体キーポイント検出ネットワークは、第２タイプのサンプル画像を用いて訓練して得られるものであり、前記第２タイプのサンプル画像には、前記目標対象の一部の肢体を含むキーポイントがラベル付けされている。

本開示のいくつかの選択可能な実施例では、前記目標対象の一部の肢体は、頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも１つを含み、前記第１キーポイント情報及び前記第２キーポイント情報は、頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも１つの肢体の輪郭キーポイント情報及び／又は骨格キーポイント情報を含む。

本開示のいくつかの選択可能な実施例では、前記画像処理方法は、前記目標対象の一部の肢体に対応する第１キーポイント情報を取得したことに応答して、前記目標対象に追跡識別子を割り当てるステップと、前記複数のフレームの画像の処理プロセスにおいて割り当てられた前記追跡識別子の数に基づき、前記複数のフレームの画像中の目標対象の数を決定するステップと、をさらに含む。

本開示のいくつかの選択可能な実施例では、前記画像処理方法は、前記第２キーポイント情報に基づいて前記目標対象の姿勢を決定するステップと、前記目標対象の姿勢に基づいて前記目標対象に対応するインタラクション命令を決定するステップと、をさらに含む。

本開示の実施例は画像処理装置をさらに提供する。前記画像処理装置は、取得ユニット、検出ユニット及び追跡決定ユニットを含み、前記取得ユニットは、複数のフレームの画像を取得するように構成され、前記検出ユニットは、前記複数のフレームの画像のうちの第１画像中の目標対象に対して肢体キーポイント検出処理を行い、前記目標対象の一部の肢体に対応する第１キーポイント情報を取得するように構成され、前記追跡決定ユニットは、前記第１キーポイント情報に基づき、第２画像中の前記目標対象の前記一部の肢体に対応する第２キーポイント情報を決定するように構成され、前記第２画像は、前記複数のフレームの画像のうち、前記第１画像以後の１つのフレームの画像である。

本開示のいくつかの選択可能な実施例では、前記検出ユニットは、肢体検出モジュール及び肢体キーポイント検出モジュールを含み、前記肢体検出モジュールは、前記第１画像中の前記目標対象に対して肢体検出処理を行い、前記目標対象の第１領域を決定するように構成され、前記第１領域は前記目標対象の一部の肢体が位置する領域を含み、前記肢体キーポイント検出モジュールは、前記第１領域に対応する画素点に対して肢体キーポイント検出処理を行い、前記目標対象の前記一部の肢体に対応する第１キーポイント情報を取得するように構成される。

本開示のいくつかの選択可能な実施例では、前記追跡決定ユニットは、前記第１キーポイント情報に基づいて前記第１画像において第２領域を決定し、前記第２領域に基づき、前記第２画像における、前記第２領域の位置範囲に対応する第３領域を決定し、そして前記第２画像における前記第３領域内の画素点に対して肢体キーポイント検出処理を行い、前記一部の肢体に対応する第２キーポイント情報を取得するように構成され、ここで前記第２領域は前記目標対象の第１領域よりも大きく、前記第１領域は前記目標対象の一部の肢体が位置する領域を含む。

本開示のいくつかの選択可能な実施例では、前記追跡決定ユニットは、前記第１キーポイント情報の前記第１画像における位置範囲に基づき、前記第２画像における、前記位置範囲に対応する第３領域を決定し、そして前記第２画像における前記第３領域内の画素点に対して肢体キーポイント検出処理を行い、前記一部の肢体に対応する第２キーポイント情報を取得するように構成される。

本開示のいくつかの選択可能な実施例では、前記肢体検出モジュールは、肢体検出ネットワークを用いて前記第１画像中の前記目標対象に対して肢体検出処理を行うように構成され、前記肢体検出ネットワークは、第１タイプのサンプル画像を用いて訓練して得られるものであり、前記第１タイプのサンプル画像には目標対象の検出枠がラベル付けされ、前記検出枠のラベル付け範囲は前記目標対象の一部の肢体が位置する領域を含む。

本開示のいくつかの選択可能な実施例では、前記肢体キーポイント検出モジュールは、肢体キーポイント検出ネットワークを用いて前記第１領域に対応する画素点に対して肢体キーポイント検出処理を行うように構成され、前記肢体キーポイント検出ネットワークは、第２タイプのサンプル画像を用いて訓練して得られるものであり、前記第２タイプのサンプル画像には、前記目標対象の一部の肢体を含むキーポイントがラベル付けされている。

本開示のいくつかの選択可能な実施例では、前記画像処理装置は、割り当てユニット及び統計ユニットをさらに含み、前記割り当てユニットは、前記検出ユニットが前記目標対象の一部の肢体に対応する第１キーポイント情報を取得したことに応答して、前記目標対象に追跡識別子を割り当てるように構成され、前記統計ユニットは、前記複数のフレームの画像の処理プロセスにおいて割り当てられた前記追跡識別子の数に基づき、前記複数のフレームの画像中の目標対象の数を決定するように構成される。

本開示のいくつかの選択可能な実施例では、前記画像処理装置は、前記第２キーポイント情報に基づいて前記目標対象の姿勢を決定し、そして前記目標対象の姿勢に基づいて前記目標対象に対応するインタラクション命令を決定するように構成される決定ユニットをさらに含む。

本開示の実施例は、プロセッサにより実行されると、本開示の実施例に記載の画像処理方法のステップを実現するコンピュータプログラムが記憶されているコンピュータ可読記憶媒体をさらに提供する。

本開示の実施例は、メモリと、プロセッサと、メモリに記憶されているプロセッサで実行可能なコンピュータプログラムと、を含み、前記プロセッサによって前記コンピュータプログラムが実行されると、本開示の実施例に記載の画像処理方法のステップを実現する電子機器をさらに提供する。

本開示の実施例は、コンピュータに本開示の実施例に記載の画像処理方法を実行させるコンピュータプログラムをさらに提供する。

本開示の実施例により提供される画像処理方法、装置、電子機器及び記憶媒体によれば、処理待ちの複数のフレームの画像のうちの第１画像中の目標対象の一部の肢体のキーポイントを認識し、認識された一部の肢体のキーポイントに基づき、それ以後の第２画像中の目標対象の一部の肢体のキーポイントを決定することで、画像内に目標対象の一部の肢体（例えば、上半身）が存在するシーンでの目標追跡が実現される。

本開示の実施例の画像処理方法のフローチャート１である。本開示の実施例の画像処理方法における肢体キーポイント検出処理方法のフローチャートである。本開示の実施例の画像処理方法における肢体キーポイント追跡方法のフローチャートである。本開示の実施例の画像処理方法のフローチャート２である。本開示の実施例の画像処理装置の構成図１である。本開示の実施例の画像処理装置の構成図２である。本開示の実施例の画像処理装置の構成図３である。本開示の実施例の画像処理装置の構成図４である。本開示の実施例の電子機器のハードウェア構成図である。

以下において、図面及び具体的な実施例により、本開示をさらに詳細に説明する。

以下の説明において、本願を十分に理解できるように、特定のシステム構造、インタフェース、技術等の具体的な詳細が提供され、これらは限定するためのものではなく説明するためのものである。

本明細書の用語の「及び／又は」は、関連対象の関連関係を記述するためのものに過ぎず、３種の関係が存在可能であることを示し、例えば、Ａ及び／又はＢは、Ａが単独して存在し、ＡとＢが同時に存在し、Ｂが単独して存在するという３種の場合を示してもよい。また、本明細書の文字「／」は、一般的に、前後の関連対象が「又は」の関係であることを示す。また、本明細書の「複数」は、２つ又は２つ以上を示す。

本開示の実施例は画像処理方法を提供する。図１は、本開示の実施例の画像処理方法のフローチャート１であり、図１に示すように、前記方法は以下のステップを含む。

ステップ１０１で、複数のフレームの画像を取得する。

ステップ１０２で、複数のフレームの画像のうちの第１画像中の目標対象に対して肢体キーポイント検出処理を行い、目標対象の一部の肢体に対応する第１キーポイント情報を取得する。

ステップ１０３で、第１キーポイント情報に基づき、第２画像中の目標対象の一部の肢体に対応する第２キーポイント情報を決定し、第２画像は、複数のフレームの画像のうち、第１画像以後の１つのフレームの画像である。

本実施例の画像処理方法は画像処理装置に利用可能であり、画像処理装置は、パーソナルコンピュータ、サーバ等の処理機能を備えた電子機器内に設置されてもよく、又は、プロセッサでコンピュータプログラムを実行することによって実現されてもよい。

本実施例では、上記複数のフレームの画像は、電子機器に内蔵又は外部接続されたカメラデバイスによって収集した連続的なビデオであってもよく、又は受信した他の電子機器から送信されるビデオ等であってもよい。いくつかの適用シーンにおいて、上記複数のフレームの画像は、監視カメラにより収集した監視ビデオであってもよく、この監視ビデオ中の各目標対象を追跡する。他の適用シーンにおいて、上記複数のフレームの画像は、ローカルビデオライブラリや他のビデオライブラリに記憶されたビデオであってもよく、このビデオ中の各目標対象を追跡する。さらに他の適用シーンにおいて、本実施例の画像処理方法は、仮想現実（ＶＲ：ＶｉｒｔｕａｌＲｅａｌｉｔｙ）、拡張現実（ＡＲ：ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）、又は体感ゲーム等の適用シーンに利用可能であり、この場合、上記複数のフレームの画像は、仮想現実や拡張現実のシーンで収集された操作者の画像であってもよく、画像中の操作者の姿勢を認識することで、仮想現実シーンや拡張現実シーンでの仮想対象の動作を制御してもよく、あるいは、上記複数のフレームの画像は、体感ゲームで収集された、ゲームに参加している目標対象（例えば、複数のユーザ）の画像等であってもよい。

いくつかの適用シーンにおいて、画像処理装置は、１つ又は複数の監視カメラとの通信接続を確立し、リアルタイムに得られた監視カメラにより収集した監視ビデオを処理待ちの複数のフレームの画像としてもよい。他の適用シーンにおいて、画像処理装置は、自機に記憶されているビデオからビデオを取得して、処理待ちの複数のフレームの画像としてもよく、又は他の電子機器に記憶されているビデオからビデオを取得して、処理待ちの複数のフレームの画像としてもよい。さらに他の適用シーンにおいて、画像処理装置は、ゲームデバイスに配置されてもよく、ゲームデバイスのプロセッサによってコンピュータプログラムを実行してゲーム操作者の操作を実現するプロセスで、出力表示される画像を処理待ちの複数のフレームの画像とし、画像中の目標対象（目標対象はゲーム操作者に対応）を追跡する。

本実施例では、処理待ちの複数のフレームの画像は目標対象を含んでもよく、目標対象は１つ又は複数であってもよく、いくつかの適用シーンにおいて、目標対象はリアル人物であってもよく、他の適用シーンにおいて、目標対象は、実際の追跡要件に応じて決定された他の対象、例えば、仮想人物又は他の仮想対象等であってもよい。

本実施例では、複数のフレームの画像のうちの各フレームの画像は、フレーム画像と呼ばれてもよく、ビデオ（即ち処理待ち画像）を構成する最小単位であり、複数のフレームの画像は時間的に連続するフレーム画像の画像セットであり、上記複数のフレームの画像は各フレーム画像の収集時間により形成し、各フレーム画像に対応する時間パラメータは連続的であることが理解される。

例示的に、目標対象がリアル人物であることを例にし、複数のフレームの画像に目標対象が含まれる場合、上記複数のフレームの画像に対応する時間範囲内に１つ又は複数の目標対象が含まれてもよく、又は上記複数のフレームの画像の時間範囲内の一部の時間範囲内に１つ又は複数の目標対象が含まれてもよく、本実施例ではこれを限定しない。

本実施例では、上記第１画像は複数のフレームの画像のうちの任意の１つのフレームの画像であり、第２画像は第１画像以後の１つのフレームの画像である。つまり、上記第１画像は複数のフレームの画像のうち、第２画像より前の任意の１つのフレームの画像である。いくつかの選択可能な実施例では、第２画像は、第１画像と時間的に連続する、それに続く１つのフレームの画像であってもよい。例えば、複数のフレームの画像は１０個のフレームの画像を含み、上記第１画像は１０個のフレームの画像のうちの２番目のフレームの画像であり、上記第２画像は３番目のフレームの画像である。他の選択可能な実施例では、第２画像は、第１画像以後の、第１画像から予め設定した数のフレームの画像を隔てる１つのフレームの画像であってもよい。例えば、複数のフレームの画像は２０個のフレームの画像を含み、上記第１画像は２０個のフレームの画像のうちの２番目のフレームの画像であり、予め設定した数のフレームの画像は３個のフレームの画像であると仮定すると、上記第２画像は２０個のフレームの画像のうちの６番目のフレームの画像である。上記予め設定した数は、実際の状況に応じて予め設定でき、例えば、予め設定した数は目標対象の移動速度に基づいて予め設定することができる。このような実施形態では、データの処理量を効果的に低減し、これにより、画像処理装置の消費を削減することができる。

本実施例では、画像処理装置は、肢体キーポイント検出ネットワークを用いて第１画像中の目標対象に対して肢体キーポイント検出処理を行い、目標対象の一部の肢体に対応する第１キーポイント情報を取得してもよい。本実施例では、上記目標対象の一部の肢体は、頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも１つを含む。それに応じて、目標対象の一部の肢体に対応する第１キーポイント情報及び第２キーポイント情報は、目標対象の頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも１つの肢体の輪郭キーポイント情報及び／又は骨格キーポイント情報を含む。

例示的に、本実施例において、複数のフレームの画像中の、上半身を持つ目標対象を認識できるように、目標対象の一部の肢体は目標対象の上半身の肢体とし、これにより、上半身だけ又は全身を持つ目標対象への追跡が実現される。

例示的に、上記第１キーポイント情報及び第２キーポイント情報に対応するキーポイントは、頭部の少なくとも１つのキーポイント、肩部の少なくとも１つのキーポイント、腕の少なくとも１つのキーポイント、胸の少なくとも１つのキーポイント、股関節部の少なくとも１つのキーポイント、及び腰部の少なくとも１つのキーポイントを含んでもよく、選択的に、上記第１キーポイント情報及び第２キーポイント情報に対応するキーポイントはさらに、手部のうちの少なくとも１つのキーポイントを含んでもよい。画像処理装置が手部のキーポイントを取得できるか否かは、肢体キーポイント検出ネットワークを訓練するためのサンプル画像には手部のキーポイントがラベル付けされているか否かに依存し、サンプル画像には手部のキーポイントがラベル付けされている場合、肢体キーポイント検出ネットワークを用いて手部のキーポイントを検出することができる。

いくつかの選択可能な実施例では、上記目標対象の一部の肢体が頭部を含む場合、第１キーポイント情報及び第２キーポイント情報は、少なくとも１つの器官のキーポイント情報を含んでもよく、少なくとも１つの器官のキーポイント情報は、鼻のキーポイント情報、眉間のキーポイント情報、口部のキーポイント情報の少なくとも１つを含んでもよい。

いくつかの選択可能な実施例では、上記目標対象の一部の肢体が腕を含む場合、第１キーポイント情報及び第２キーポイント情報は、肘部のキーポイント情報を含んでもよい。

いくつかの選択可能な実施例では、上記目標対象の一部の肢体が手部を含む場合、第１キーポイント情報及び第２キーポイント情報は、手首のキーポイント情報を含んでもよい。選択的に、第１キーポイント情報及び第２キーポイント情報は、手部の輪郭キーポイント情報をさらに含んでもよい。

いくつかの選択可能な実施例では、上記目標対象の一部の肢体が股関節部を含む場合、第１キーポイント情報及び第２キーポイント情報は、左股関節のキーポイント情報及び右股関節のキーポイント情報を含んでもよい。選択的に、第１キーポイント情報及び第２キーポイント情報は、脊髄神経根のキーポイント情報をさらに含んでもよい。

上記第１キーポイント情報は、具体的には、キーポイントの座標を含んでもよい。上記第１キーポイント情報は、輪郭キーポイントの座標及び／又は骨格キーポイントの座標を含んでもよい。対応する一部の肢体の輪郭エッジは輪郭キーポイントの座標によって形成でき、対応する一部の肢体の骨格は骨格キーポイントの座標によって形成できることが理解される。

図２は、本開示の実施例の画像処理方法における肢体キーポイント検出処理方法のフローチャートであり、いくつかの選択可能な実施例では、ステップ１０２は、図２に示すように、以下のステップを含む。

ステップ１０２１で、第１画像中の目標対象に対して肢体検出処理を行い、目標対象の第１領域を決定し、第１領域は上記目標対象の一部の肢体が位置する領域を含む。

ステップ１０２２で、第１領域に対応する画素点に対して肢体キーポイント検出処理を行い、目標対象の一部の肢体に対応する第１キーポイント情報を取得する。

本実施例では、まず、第１画像中の各目標対象に対して肢体検出を行い、各目標対象の第１領域を決定し、例えば、各目標対象の上半身に対応する第１領域、又は各目標対象の全身に対応する第１領域を決定してもよい。実際の適用において、目標対象を識別する検出枠（例えば、矩形枠）で一部の肢体に対応する第１領域を示してもよく、例えば、各矩形枠で第１画像中の各人物の上半身を識別してもよい。

いくつかの選択可能な実施例では、第１画像中の目標対象に対して肢体検出処理を行う上記ステップは、肢体検出ネットワークを用いて第１画像中の目標対象に対して肢体検出処理を行うステップを含み、上記肢体検出ネットワークは、第１タイプのサンプル画像を用いて訓練して得られるものであり、第１タイプのサンプル画像には目標対象の検出枠がラベル付けされ、検出枠のラベル付け範囲は目標対象の一部の肢体が位置する領域を含み、目標対象の一部の肢体は目標対象の上半身の肢体としてもよい。

本実施例では、予め訓練された肢体検出ネットワークを用いて、第１画像に対して肢体検出を行い、目標対象の第１領域を決定してもよく、即ち第１画像中の各目標対象の検出枠を取得する。上記検出枠は、目標対象の一部の肢体又は全ての肢体を識別することができ、即ち、肢体検出ネットワークによって目標対象の全ての肢体又は上半身の肢体を検出して取得することができる。上記肢体検出ネットワークは、目標対象の肢体を検出可能な任意のネットワーク構造を用いることができ、本実施例ではこれを限定しない。

例示的に、肢体検出ネットワークを用いて検出して目標対象の一部の肢体の検出枠を得ることを例にし、肢体検出ネットワークを用いて第１画像に対して特徴抽出を行い、抽出された特徴に基づき、第１画像中の各目標対象の一部の肢体の中心点、及び各目標対象の一部の肢体に対応する検出枠の高さ及び幅を決定してもよく、各目標対象の一部の肢体の中心点及び対応する高さと幅に基づき、各目標対象の一部の肢体の検出枠を決定することができる。

本実施例では、肢体検出ネットワークは、目標対象の検出枠がラベル付けされている第１タイプのサンプル画像を用いて訓練して得られるものであってもよく、検出枠のラベル付け範囲は目標対象の一部の肢体を含み、第１タイプのサンプル画像には、目標対象の一部の肢体（例えば、目標対象の上半身の肢体）の検出枠のみがラベル付けされてもよく、目標対象の完全肢体の検出枠がラベル付けされてもよいことが理解される。例示的に、検出枠のラベル付け範囲が目標対象の一部の肢体であることを例にし、肢体検出ネットワークを用いて第１タイプのサンプル画像の特徴データを抽出し、特徴データに基づき、第１タイプのサンプル画像中の各目標対象の一部の肢体の予測中心点及び一部の肢体に対応する予測検出枠の高さ及び幅を決定し、上記一部の肢体の予測中心点及び対応する高さと幅に基づき、一部の肢体の各々に対応する予測検出枠を決定し、予測検出枠及びラベル付けされている一部の肢体の検出枠に基づいてロスを決定し、ロスに基づいて肢体検出ネットワークのネットワークパラメータを調整することができる。

いくつかの選択可能な実施例では、第１領域に対応する画素点に対して肢体キーポイント検出処理を行うステップは、肢体キーポイント検出ネットワークを用いて第１領域に対応する画素点に対して肢体キーポイント検出処理を行うステップを含み、上記肢体キーポイント検出ネットワークは、第２タイプのサンプル画像を用いて訓練して得られるものであり、第２タイプのサンプル画像には目標対象のキーポイントがラベル付けされており、上記キーポイントのラベル付け範囲は目標対象の一部の肢体を含む。

本実施例では、予め訓練された肢体キーポイント検出ネットワークを用いて、第１領域に対応する画素点に対して肢体キーポイント検出を行い、各目標対象の一部の肢体の第１キーポイント情報を決定してもよい。例示的に、上記第１領域は目標対象の一部の肢体を含んでもよく、各目標対象の検出枠に対応する画素点を肢体キーポイント検出ネットワークに入力し、各目標対象の一部の肢体に対応する第１キーポイント情報を得てもよい。上記肢体キーポイント検出ネットワークは、肢体キーポイントを検出可能な任意のネットワーク構造を用いることができ、本実施例ではこれを限定しない。

本実施例では、肢体キーポイント検出ネットワークは、目標対象のキーポイントがラベル付けされている第２タイプのサンプル画像を用いて訓練して得られるものであってもよく、キーポイントのラベル付け範囲は目標対象の一部の肢体を含み、第２タイプのサンプル画像には、目標対象の一部の肢体（例えば、目標対象の上半身の肢体）のキーポイントのみがラベル付けされてもよく、目標対象の完全肢体のキーポイントがラベル付けされてもよいことが理解される。例示的に、第２タイプのサンプル画像には、目標対象の一部の肢体のキーポイントがラベル付けされていることを例にし、肢体キーポイント検出ネットワークを用いて第２タイプのサンプル画像の特徴データを抽出し、特徴データに基づき、第２タイプのサンプル画像中の各目標対象の一部の肢体の予測キーポイントを決定し、上記予測キーポイント及びラベル付けされているキーポイントに基づいてロスを決定し、ロスに基づいて肢体キーポイント検出ネットワークのネットワークパラメータを調整することができる。

図３は、本開示の実施例の画像処理方法における肢体キーポイント追跡方法のフローチャートであり、いくつかの選択可能な実施例では、ステップ１０３は、図３に示すように、以下のステップを含んでもよい。

ステップ１０３１で、第１キーポイント情報に基づいて第１画像において第２領域を決定し、第２領域は目標対象の第１領域よりも大きく、第１領域は上記目標対象の一部の肢体が位置する領域を含む。

ステップ１０３２で、第２領域に基づき、第２画像における、第２領域の位置範囲に対応する第３領域を決定する。

ステップ１０３３で、第２画像における第３領域内の画素点に対して肢体キーポイント検出処理を行い、一部の肢体に対応する第２キーポイント情報を取得する。

本実施例では、第１画像中の１つの目標対象に対して、該目標対象の一部の肢体の第１キーポイント情報に基づいて１つの領域を決定し、該領域は、該目標対象の一部の肢体のキーポイントを全て含む最小領域であってもよい。例示的に、該領域が矩形領域であると、該矩形領域は該目標対象の一部の肢体のキーポイントを全て含む最小領域である。上記第２領域は、第１画像において、第１領域を拡大処理して得た領域である。

例示的に、第１領域が矩形であることを例にし、上記第１領域の高さがＨであり、幅がＷであると仮定すると、該領域の中心点を中心とし、該領域の４つの辺が中心点から離れる方向へ伸長するようにしてもよく、例えば、高さ方向で、中心点から離れる方向へそれぞれＨ／４伸長し、幅方向で、中心点から離れる方向へそれぞれＷ／４伸長すると、上記第２領域は、第１画像における、上記中心点を中心とし、高さが３Ｈ／２であり、幅が３Ｗ／２である矩形領域で示してもよい。

さらに、本実施例では、第２領域の第１画像における位置範囲に基づき、第２画像における、上記位置範囲に対応する第３領域を決定してもよい。

いくつかの選択可能な実施例では、第２領域に基づき、第２画像における、第２領域の位置範囲に対応する第３領域を決定するステップは、第２領域に対応する画素点に対して肢体キーポイント検出処理を行い、第３キーポイント情報を取得するステップと、第３キーポイント情報の第１画像における位置範囲を決定し、上記位置範囲に基づき、第２画像における、上記位置範囲に対応する第３領域を決定するステップと、をさらに含んでもよい。

例示的に、本実施例においても、肢体キーポイント検出ネットワークを用いて第２領域に対応する画素点に対して肢体キーポイント検出処理を行い、第１画像における拡大した上記第２領域に対応する画素点を肢体キーポイント検出ネットワークの入力データとして、第３キーポイント情報を出力し、上記第３キーポイント情報を第２画像中の目標対象の予測キーポイント情報とすることができ、つまり、本願の実施例は、前の１つのフレームの画像中の目標対象が位置する領域を拡大処理し（例えば、前の１つのフレームの画像中の目標対象の一部の肢体が位置する領域を拡大処理し）、拡大した領域に対して肢体キーポイント検出を行い、得られたキーポイントを現フレームの画像（即ち第１画像）以後の１つのフレームの画像（即ち第２画像）における、目標対象（例えば、目標対象の一部の肢体）に対応する予測キーポイントとする。さらに、予測された位置範囲に基づき、第２画像における第３領域に対応する画素点に対して肢体キーポイント検出処理を行い、検出されたキーポイント情報は即ち上記目標対象の一部の肢体に対応する第２キーポイント情報である。

いくつかの選択可能な実施例では、上記ステップ１０３は、前記第１キーポイント情報の前記第１画像における位置範囲に基づき、前記第２画像における、前記位置範囲に対応する第３領域を決定するステップと、前記第２画像における前記第３領域内の画素点に対して肢体キーポイント検出処理を行い、前記一部の肢体に対応する第２キーポイント情報を取得するステップと、をさらに含んでもよい。

本実施例では、第１キーポイントの第１画像における位置範囲に基づき、第２画像における、上記位置範囲に対応する第３領域を決定してもよい。さらに、第２画像における第３領域に対応する画素点に対して肢体キーポイント検出処理を行い、検出されたキーポイント情報は即ち上記目標対象の一部の肢体に対応する第２キーポイント情報である。

他の選択可能な実施例では、ステップ１０３は、第１画像、目標対象の第１領域及び目標追跡ネットワークに基づき、第２画像中の目標対象の予測領域を決定し、第２画像における上記予測領域の画素点に基づいて肢体キーポイント検出処理を行い、目標対象の一部の肢体に対応する第２キーポイント情報を得るステップをさらに含んでもよく、目標追跡ネットワークは、複数のフレームのサンプル画像を用いて訓練して得られるものであり、複数のフレームのサンプル画像は、少なくとも第１サンプル画像及び第２サンプル画像を含み、第２サンプル画像は第１サンプル画像以後の１つのフレームの画像であり、第１サンプル画像には目標対象の位置がラベル付けされており、第２サンプル画像には目標対象の位置がラベル付けされている。例示的に、複数のフレームのサンプル画像のいずれにも、目標対象の検出枠がラベル付けされ、検出枠で目標対象のサンプル画像における位置を示し、検出枠のラベル付け範囲は、目標対象の一部の肢体が位置する領域を含み、目標対象の一部の肢体は目標対象の上半身の肢体であってもよい。

本実施例では、前の１つのフレームの画像（即ち第１画像）及び画像中の目標対象の位置に基づき、予め訓練された目標追跡ネットワークを用いて次の１つのフレームの画像（即ち第２画像）中の該目標対象の予測位置を決定してもよい。例示的に、目標対象の検出枠が含まれる第１画像を目標追跡ネットワークに入力し、第２画像中の目標対象の予測位置を得て、さらに、第２画像における予測位置での画素点に対して肢体キーポイント検出処理を行い、目標対象の一部の肢体の第２画像における第２キーポイント情報を得ることができる。上記目標追跡ネットワークは、目標追跡を実現可能な任意のネットワーク構造を用いることができ、本実施例ではこれを限定しない。

本実施例では、目標追跡ネットワークは、目標対象の位置がラベル付けされている（例えば、目標対象の検出枠を含むか又は目標対象の一部の肢体の検出枠を含む）複数のフレームのサンプル画像を用いて訓練して得られるものであってもよい。例示的に、複数のフレームのサンプル画像は少なくとも第１画像及び第２画像を含むことを例にし、目標追跡ネットワークを用いて第１サンプル画像を処理してもよく、第１サンプル画像には目標対象の位置がラベル付けされており、処理の結果は、該目標対象の第２サンプル画像における予測位置であり、これにより、上記予測位置及び第２画像における目標対象のラベル付け位置に基づいてロスを決定し、ロスに基づいて目標追跡ネットワークのネットワークパラメータを調整することができる。

説明すべきは、第１キーポイント情報に基づき、第２画像中の目標対象の一部の肢体に対応する第２キーポイント情報を決定した後、第２画像中の目標対象の一部の肢体に対応する第２キーポイント情報に基づき、さらに、それ以後の画像中の目標対象の一部の肢体に対応するキーポイント情報を決定し、次の１つのフレームの画像から目標対象の一部の肢体に対応するキーポイント情報が検出できなくなるまで続けることができ、この場合、処理待ちの複数のフレームの画像には上記目標対象が含まれず、つまり、目標対象は処理待ちの複数のフレームの画像の視野範囲外に移動することが示されている。

いくつかの選択可能な実施例では、画像処理装置は、各フレームの画像中の目標対象に対して肢体検出を行い、各フレームの画像中の目標対象が位置する領域を得てもよい。検出された目標対象を追跡対象とし、これにより、現フレームの画像に新しい目標対象が出現したか否かを決定することができ、現フレームの画像に新しい目標対象が出現した場合、新しい目標対象を追跡対象とし、新しい目標対象に対応する第１領域内の画素点に対して肢体キーポイント検出処理を行い、即ち、新しい目標対象に対して本開示の実施例におけるステップ１０３の処理を実行する。例示的に、画像処理装置は、予め設定した時間ごとに又は予め設定した数のフレームの画像ごとに、画像中の目標対象の肢体検出処理を行ってもよく、これにより、所定時間ごとに画像に新しい目標対象が出現したか否かを検出し、新しい目標対象を追跡することを実現する。

本開示のいくつかの選択可能な実施例では、上記方法は、目標対象の一部の肢体に対応する第１キーポイント情報を取得したことに応答して、目標対象に追跡識別子を割り当てるステップと、複数のフレームの画像の処理プロセスにおいて割り当てられた追跡識別子の数に基づき、複数のフレームの画像中の目標対象の数を決定するステップと、をさらに含む。

本実施例では、画像処理装置により、処理待ちの複数のフレームの画像のうちの先頭のフレームの画像内で目標対象が検出され、即ち目標対象の一部の肢体に対応する第１キーポイント情報が取得された場合、目標対象に１つの追跡識別子を割り当て、該目標対象の追跡プロセスで該目標対象を追跡できなくなるまで、該追跡識別子は該目標対象に関連付けられている。

いくつかの選択可能な実施例では、画像処理装置は、各フレームの画像中の目標対象に対して肢体検出を行い、各フレームの画像中の目標対象の一部の肢体に対応する領域を得て、検出された目標対象を追跡対象としてもよい。これに基づき、画像処理装置は、処理待ち画像のうちの先頭のフレームの画像に対して検出を行い、検出された目標対象に追跡識別子を割り当てる。その後、該追跡識別子は、該目標対象を追跡できなくなるまで、該目標対象を追従し続ける。ある１つのフレームの画像内で新しい目標対象が検出されると、該新しい目標対象に追跡識別子を割り当て、このように上述した解決手段を繰り返し実行する。同一時刻に検出された各目標対象は異なる追跡識別子に対応し、連続の時間範囲内で追跡された目標対象は同じ追跡識別子に対応し、不連続の時間範囲のそれぞれで検出された目標対象は異なる追跡識別子に対応することが理解される。

例えば、ある１つのフレームの画像から３つの目標対象がそれぞれ検出された場合、３つの目標対象に対してそれぞれ１つの追跡識別子を割り当て、各目標対象はそれぞれ１つの追跡識別子に対応する。

別の例として、５分間の複数のフレームの画像について、１つ目の１分間内に３つの目標対象が検出されると、３つの目標対象にそれぞれ１つの追跡識別子を割り当て、例えば、識別子１、識別子２及び識別子３と表記してもよく、２つ目の１分間内に、上記３つの目標対象のうちの１つ目の目標対象が消えると、現在の１分間内に、２つの目標対象のみが存在し、対応する追跡識別子はそれぞれ識別子２及び識別子３であり、３つ目の１分間内に、上記１つ目の目標対象が再び画像に出現し、つまり、前の画像に比べて新しい目標対象が検出されると、該目標対象は１つ目の１分間内に出現した目標対象（即ち１つ目の目標対象）であるが、それにもかかわらず、該目標対象に識別子４を追跡識別子として割り当て、このように類推する。

これに基づき、本実施例の技術的解決手段は、複数のフレームの画像処理プロセスにおける対応する追跡識別子の数に基づき、複数のフレームの画像内に出現した目標対象の数を決定してもよい。例示的に、複数のフレームの画像内に出現した目標対象の数とは、複数のフレームの画像に対応する時間範囲内に出現した目標対象の出現回数を指す。

本開示の実施例の技術的解決手段によって、処理待ちの複数のフレームの画像のうちの第１画像中の目標対象の一部の肢体のキーポイントを認識し、認識された一部の肢体のキーポイントに基づき、それ以後の第２画像中の目標対象の一部の肢体のキーポイントを決定することで、画像内に目標対象の一部の肢体（例えば、上半身）だけ存在するシーンでの目標追跡が実現され、つまり、本開示の実施例の技術的解決手段は、完全肢体が含まれるシーン及び一部の肢体（例えば、上半身）が含まれるシーンのどちらにも対応可能であり、画像中の目標への追跡が実現される。

本開示の実施例はさらに、もう１つの画像処理方法を提供する。図４は、本開示の実施例の画像処理方法のフローチャート２であり、図４に示すように、前記方法は以下のステップを含む。

ステップ２０１で、複数のフレームの画像を取得する。

ステップ２０２で、複数のフレームの画像のうちの第１画像中の目標対象に対して肢体キーポイント検出処理を行い、目標対象の一部の肢体に対応する第１キーポイント情報を取得する。

ステップ２０３で、第１キーポイント情報に基づき、第２画像中の目標対象の一部の肢体に対応する第２キーポイント情報を決定し、第２画像は、複数のフレームの画像のうち、第１画像以後の１つのフレームの画像である。

ステップ２０４で、第２キーポイント情報に基づいて目標対象の姿勢を決定し、目標対象の姿勢に基づいて目標対象に対応するインタラクション命令を決定する。

本実施例のステップ２０１～ステップ２０３の具体的な説明は、ステップ１０１～ステップ１０３の説明を参照すればよく、ここで重複説明を省略する。

本実施例は、追跡された目標対象及び該目標対象の第２キーポイント情報に基づいて目標対象の姿勢を決定し、目標対象の姿勢に基づいて各姿勢に対応するインタラクション命令を決定してもよい。その後、各姿勢に対応するインタラクション命令に応答する。

本実施例では、動作インタラクションのシーンに適し、画像処理装置は、各姿勢に基づいて対応するインタラクション命令を決定し、上記インタラクション命令に応答してもよく、上記インタラクション命令への応答は、例えば、画像処理装置自機、又は画像処理装置が存在する電子機器自機の何らかの機能等をオン又はオフにすることであってもよく、あるいは、上記インタラクション命令への応答は、上記インタラクション命令を他の電子機器に送信し、他の電子機器は上記インタラクション命令を受信し、インタラクション命令に基づいて何らかの機能をオン又はオフにすることであってもよく、つまり、上記インタラクション命令は、他の電子機器の対応する機能をオン又はオフにするために用いてもよい。

本実施例は、仮想現実、拡張現実又は体感ゲーム等の様々な適用シーンにも適する。画像処理装置は、様々なインタラクション命令に基づいて対応する処理を実行してもよく、処理は、仮想現実又は拡張現実のシーンで、対応する動作を実行するように仮想対象を制御すること、体感ゲームのシーンで、対応する動作を実行するように目標対象に対応する仮想キャラクタを制御することを含むが、これらに限定されない。いくつかの例では、上記方法が拡張現実や仮想現実等のシーンに適用されると、画像処理装置がインタラクション命令に基づいて実行する対応の処理は、現実シーン又は仮想シーンでインタラクション命令に対応する動作を実行するように仮想目標対象を制御することを含んでもよい。

本開示の実施例の技術的解決手段によって、一方では、画像内に目標対象の一部の肢体（例えば、上半身）だけ存在するシーンでの目標追跡が実現され、つまり、本開示の実施例の技術的解決手段は、完全肢体が含まれるシーン及び一部の肢体（例えば、上半身）が含まれるシーンのどちらにも対応可能であり、画像中の目標への追跡が実現され、他方では、目標追跡のプロセスで、追跡された目標対象のキーポイント情報を検出し、目標対象のキーポイント情報に基づき、追跡された目標対象の姿勢を決定し、目標対象の姿勢に基づいて対応するインタラクション命令を決定し、決定の適用シーン（例えば、仮想現実シーン、拡張現実シーン、体感ゲームシーン等のインタラクションシーン）でのマンマシンインタラクションが実現され、ユーザのインタラクション体験が向上する。

本開示の実施例は画像処理装置をさらに提供する。図５は、本開示の実施例の画像処理装置の構成図１であり、図５に示すように、前記装置は、取得ユニット３１、検出ユニット３２及び追跡決定ユニット３３を含み、
上記取得ユニット３１は、複数のフレームの画像を取得するように構成され、
上記検出ユニット３２は、複数のフレームの画像のうちの第１画像中の目標対象に対して肢体キーポイント検出処理を行い、上記目標対象の一部の肢体に対応する第１キーポイント情報を取得するように構成され、
上記追跡決定ユニット３３は、上記第１キーポイント情報に基づき、第２画像中の上記目標対象の上記一部の肢体に対応する第２キーポイント情報を決定するように構成され、上記第２画像は、上記複数のフレームの画像のうち、上記第１画像以後の１つのフレームの画像である。

本開示のいくつかの選択可能な実施例では、図６に示すように、上記検出ユニット３２は、肢体検出モジュール３２１及び肢体キーポイント検出モジュール３２２を含み、
上記肢体検出モジュール３２１は、上記第１画像中の目標対象に対して肢体検出処理を行い、目標対象の第１領域を決定するように構成され、第１領域は目標対象の一部の肢体が位置する領域を含み、
上記肢体キーポイント検出モジュール３２２は、上記第１領域に対応する画素点に対して肢体キーポイント検出処理を行い、上記目標対象の上記一部の肢体に対応する第１キーポイント情報を取得するように構成される。

本開示のいくつかの選択可能な実施例では、上記追跡決定ユニット３３は、上記第１キーポイント情報に基づいて第１画像において第２領域を決定し、ここで上記第２領域は上記目標対象の第１領域よりも大きく、上記第１領域は目標対象の一部の肢体が位置する領域を含み、第２領域に基づき、第２画像における、第２領域の位置範囲に対応する第３領域を決定し、そして第２画像における第３領域内の画素点に対して肢体キーポイント検出処理を行い、上記一部の肢体に対応する第２キーポイント情報を取得するように構成される。

本開示のいくつかの選択可能な実施例では、上記追跡決定ユニット３３は、前記第１キーポイント情報の前記第１画像における位置範囲に基づき、前記第２画像における、前記位置範囲に対応する第３領域を決定し、そして前記第２画像における前記第３領域内の画素点に対して肢体キーポイント検出処理を行い、前記一部の肢体に対応する第２キーポイント情報を取得するように構成される。

本開示のいくつかの選択可能な実施例では、上記肢体検出モジュール３２１は、肢体検出ネットワークを用いて上記第１画像中の上記目標対象に対して肢体検出処理を行うように構成され、上記肢体検出ネットワークは、第１タイプのサンプル画像を用いて訓練して得られるものであり、上記第１タイプのサンプル画像には目標対象の検出枠がラベル付けされ、検出枠のラベル付け範囲は目標対象の一部の肢体が位置する領域を含む。

本開示のいくつかの選択可能な実施例では、上記肢体キーポイント検出モジュール３２２は、肢体キーポイント検出ネットワークを用いて上記第１領域に対応する画素点に対して肢体キーポイント検出処理を行うように構成され、上記肢体キーポイント検出ネットワークは、第２タイプのサンプル画像を用いて訓練して得られるものであり、上記第２タイプのサンプル画像には、前記目標対象の一部の肢体を含むキーポイントがラベル付けされている。

本開示のいくつかの選択可能な実施例では、上記目標対象の一部の肢体は、頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも１つを含み、上記第１キーポイント情報及び上記第２キーポイント情報は、頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも１つの肢体の輪郭キーポイント情報及び／又は骨格キーポイント情報を含む。

本開示のいくつかの選択可能な実施例では、図７に示すように、上記装置は、割り当てユニット３４及び統計ユニット３５をさらに含み、
上記割り当てユニット３４は、上記検出ユニットが目標対象の一部の肢体に対応する第１キーポイント情報を取得したことに応答して、目標対象に追跡識別子を割り当てるように構成され、
上記統計ユニット３５は、複数のフレームの画像の処理プロセスにおいて割り当てられた追跡識別子の数に基づき、複数のフレームの画像中の目標対象の数を決定するように構成される。

本開示のいくつかの選択可能な実施例では、図８に示すように、上記装置は、第２キーポイント情報に基づいて目標対象の姿勢を決定し、目標対象の姿勢に基づいて目標対象に対応するインタラクション命令を決定するように構成される決定ユニット３６をさらに含む。

本開示の実施例では、上記画像処理装置内の取得ユニット３１、検出ユニット３２（肢体検出モジュール３２１及び肢体キーポイント検出モジュール３２２を含む）、追跡決定ユニット３３、割り当てユニット３４、統計ユニット３５及び決定ユニット３６は、実際の適用において、いずれも中央処理ユニット（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、デジタル信号プロセッサ（ＤＳＰ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、マイクロコントローラーユニット（ＭＣＵ：ＭｉｃｒｏｃｏｎｔｒｏｌｌｅｒＵｎｉｔ）又はフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ：Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）によって実現されてもよい。

説明すべきは、上記実施例で提供された画像処理装置によって画像処理を行う時に、上述したように分割した各プログラムモジュールを例にして説明したが、実際の適用において、必要に応じて上記処理を異なるプログラムモジュールによって完了するように割り当ててもよく、即ち装置の内部構造を異なるプログラムモジュールに分割して上述した全て又は一部の処理を完了するようにしてもよい。なお、上記実施例で提供された画像処理装置及び画像処理方法の実施例が同じ構想によるものであり、その具体的な実施過程の詳細については方法の実施例を参照すればよく、ここで重複説明を省略する。

本開示の実施例は電子機器をさらに提供する。図９は、本開示の実施例の電子機器のハードウェア構成図であり、図９に示すように、電子機器４０は、メモリ４２と、プロセッサ４１と、メモリ４２に記憶されているプロセッサ４１で実行可能なコンピュータプログラムと、を含み、上記プロセッサ４１は、上記プログラムが実行して、本開示の実施例に記載の画像処理方法のステップを実行する。

電子機器４０における各コンポーネントはバスシステム４３によって接続されることが理解される。バスシステム４３はこれらのコンポーネントの間の接続通信を実現するためのものであることが理解される。バスシステム４３はデータバスに加えて、さらに電源バス、制御バス及び状態信号バスを含む。ただし、説明を明瞭にするために、図９において各種のバスが全てバスシステム４３とされている。

メモリ４２は揮発性メモリ又は不揮発性メモリであってもよく、揮発性及び不揮発性メモリの両方を含んでもよいことが理解される。ここで、不揮発性メモリは、読み取り専用メモリ（ＲＯＭ：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ：ＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ：ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、電気的消去可能なプログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ：ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、磁気ランダムアクセスメモリ（ＦＲＡＭ（登録商標）：ｆｅｒｒｏｍａｇｎｅｔｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、フラッシュメモリ（ＦｌａｓｈＭｅｍｏｒｙ）、磁性面メモリ、光ディスク又はシーディーロム（ＣＤ－ＲＯＭ：ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）であってよく、磁性面メモリは磁気ディスクメモリ又は磁気テープメモリであってよい。揮発性メモリはランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）であってよく、外部キャッシュとして用いられる。例示的なものであり限定する意図がない説明によれば、例えば、スタティックランダムアクセスメモリ（ＳＲＡＭ：ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、同期スタティックランダムアクセスメモリ（ＳＳＲＡＭ：ＳｙｎｃｈｒｏｎｏｕｓＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ：ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、同期ダイナミックランダムアクセスメモリ（ＳＤＲＡＭ：ＳｙｎｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ダブルデータレート同期ダイナミックランダムアクセスメモリ（ＤＤＲＳＤＲＡＭ：ＤｏｕｂｌｅＤａｔａＲａｔｅＳｙｎｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、強化型同期ダイナミックランダムアクセスメモリ（ＥＳＤＲＡＭ：ＥｎｈａｎｃｅｄＳｙｎｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、同期接続ダイナミックランダムアクセスメモリ（ＳＬＤＲＡＭ：ＳｙｎｃＬｉｎｋＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ダイレクトラムバスランダムアクセスメモリ（ＤＲＲＡＭ：ＤｉｒｅｃｔＲａｍｂｕｓＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）のような多くの形のＲＡＭが使用可能である。本開示の実施例に記載のメモリ４２は、これらのメモリ及び他のいかなる適切なメモリを含むが、それらに限定されない。

上記の本開示の実施例で開示された方法は、プロセッサ４１に用いることができ、又はプロセッサ４１によって実現することができる。プロセッサ４１は信号処理能力を有する集積回路チップであってよい。実施過程では、上記方法の各ステップはプロセッサ４１のハードウェアの集積論理回路又はソフトウェア形態の命令によって完成可能である。上記プロセッサ４１は共通プロセッサ、ＤＳＰ又は他のプログラマブル論理デバイス、離散ゲート又はトランジスタ論理デバイス、離散ハードウェアコンポーネント等であってもよい。プロセッサ４１は、本開示の実施例で開示された各方法、ステップ及び論理ブロック図を実現又は実行することができる。共通プロセッサは、マイクロプロセッサ又はいかなる一般のプロセッサ等であってもよい。本開示の実施例で開示された方法のステップによれば、ハードウェア復号プロセッサにより実行、完了し、又は復号プロセッサ中のハードウェア及びソフトウェアモジュールの組み合わせにより実行、完了するように直接体現することができる。ソフトウェアモジュールは記憶媒体にあってもよく、該記憶媒体はメモリ４２に位置し、プロセッサ４１はメモリ４２中の情報を読み取り、そのハードウェアと組み合わせて上記方法のステップを完成する。

例示的な実施例では、電子機器４０は１つ又は複数の特定用途向け集積回路（ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＤＳＰ、プログラマブルロジックデバイス（ＰＬＤ：ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、複合プログラマブルロジックデバイス（ＣＰＬＤ：ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、ＦＰＧＡ、共通プロセッサ、コントローラ、ＭＣＵ、マイクロプロセッサ（Ｍｉｃｒｏｐｒｏｃｅｓｓｏｒ）又は他の電子要素によって実現し、上記方法を実行するために用いることができる。

例示的な実施例では、本開示の実施例はさらにコンピュータ可読記憶媒体、例えば、電子機器４０のプロセッサ４１によって実行して、前記方法の前記ステップを完了することができるコンピュータプログラムを含むメモリ４２を提供する。コンピュータ可読記憶媒体はＦＲＡＭ（登録商標）、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ＦｌａｓｈＭｅｍｏｒｙ、磁性面記憶装置、光ディスク、又はＣＤ－ＲＯＭ等のメモリであってもよく、又は上記メモリの１つ又は任意の組み合わせを含む様々な機器、例えば携帯電話、コンピュータ、タブレットデバイス、携帯情報端末等であってもよい。

本開示の実施例は、プロセッサにより実行されると、前記プロセッサに本開示の実施例に記載の画像処理方法のステップを実行させるためのコンピュータプログラムを記憶したコンピュータ可読記憶媒体をさらに提供する。

本願により提供されるいくつかの方法の実施例で開示された方法は、矛盾なく任意に組み合わせて、新たな方法の実施例を得ることができる。

本願により提供されるいくつかの製品の実施例で開示された特徴は、矛盾なく任意に組み合わせて、新たな製品の実施例を得ることができる。

本願により提供されるいくつかの方法又は機器の実施例で開示された特徴は、矛盾なく任意に組み合わせて、新たな方法の実施例又は機器の実施例を得ることができる。

なお、本願により提供されるいくつかの実施例では、開示した機器及び方法は、他の形態で実現することができることを理解すべきである。以上に記載の機器の実施例は例示的なものに過ぎず、例えば、前記ユニットの分割は、論理機能の分割に過ぎず、実際に実現する場合に別の形態で分割してもよく、例えば、複数のユニット又はコンポーネントは組み合わせてもよいし、又は別のシステムに統合してもよいし、又は一部の特徴を省略もしくは実行しなくてもよい。また、図示又は説明した各構成要素の結合、又は直接結合、又は通信接続は、いくつかのインタフェース、機器又はユニットを介した間接結合又は通信接続であり得、電気的、機械的又は他の形態であり得る。

分離部材として説明したユニットは物理的に分離されたものであってもなくてもよく、ユニットとして示した部材は物理的ユニットであってもなくてもよく、一箇所に位置してもよく、又は複数のネットワークユニットに分布してもよく、実際の必要に応じてその一部又は全てのユニットを選択して本実施例の解決手段の目的を実現できる。

また、本開示の各実施例における各機能ユニットは全て１つの処理ユニットに統合されてもよいし、それぞれ独立して１つのユニットとして存在してもよいし、２つ又は２つ以上で１つのユニットに統合されてもよく、上記統合されたユニットはハードウェアの形で実現してもよく、又はハードウェアとソフトウェアを組み合わせた機能ユニットの形で実現してもよい。

当業者であれば、上記方法の実施例を実現する全て又は一部のステップはプログラムによって関連ハードウェアに命令を出すことにより完了でき、前記プログラムは、携帯型記憶装置、ＲＯＭ、ＲＡＭ、磁気ディスク又は光ディスク等のプログラムコードを記憶可能である様々な媒体を含むコンピュータ可読記憶媒体に記憶可能であり、該プログラムは実行される時に、上記方法の実施例のステップを実行することを理解できる。

あるいは、本開示の上記統合されたユニットはソフトウェア機能モジュールの形で実現され且つ独立した製品として販売又は使用される場合、コンピュータ可読記憶媒体に記憶されてもよい。このような見解をもとに、本開示の実施例の技術的解決手段は実質的に又は従来技術に寄与する部分がソフトウェア製品の形で実施することができ、該コンピュータソフトウェア製品は記憶媒体に記憶され、コンピュータ機器（パーソナルコンピュータ、サーバ、又はネットワーク機器等であってもよい）に本開示の各実施例に記載の画像処理方法の全て又は一部を実行させる複数の命令を含む。前記記憶媒体は、携帯型記憶装置、ＲＯＭ、ＲＡＭ、磁気ディスク又は光ディスク等のプログラムコードを記憶可能である様々な媒体を含む。

以上は本開示の具体的な実施形態に過ぎず、本開示の保護範囲がそれに限定されるものでなく、本開示に記載された技術範囲内に当業者に容易に想到される変化又は取り替えは、全て本開示の保護範囲に含まれる。従って、本開示の保護範囲は請求項の保護範囲に準ずるものとする。

本開示の実施例により提供される画像処理方法、装置、電子機器及び記憶媒体によれば、処理待ちの複数のフレームの画像のうちの第１画像中の目標対象の一部の肢体のキーポイントを認識し、認識された一部の肢体のキーポイントに基づき、それ以後の第２画像中の目標対象の一部の肢体のキーポイントを決定することで、画像内に目標対象の一部の肢体（例えば、上半身）が存在するシーンでの目標追跡が実現される。
例えば、本願は以下の項目を提供する。
（項目１）
複数のフレームの画像を取得するステップと、
前記複数のフレームの画像のうちの第１画像中の目標対象に対して肢体キーポイント検出処理を行い、前記目標対象の一部の肢体に対応する第１キーポイント情報を取得するステップと、
前記第１キーポイント情報に基づき、第２画像中の前記目標対象の前記一部の肢体に対応する第２キーポイント情報を決定するステップであって、前記第２画像は、前記複数のフレームの画像のうち、前記第１画像以後の１つのフレームの画像である、ステップと、を含む、画像処理方法。
（項目２）
前記複数のフレームの画像のうちの第１画像中の目標対象に対して肢体キーポイント検出処理を行い、前記目標対象の一部の肢体に対応する第１キーポイント情報を取得するステップは、
前記第１画像中の前記目標対象に対して肢体検出処理を行い、前記目標対象の第１領域を決定するステップであって、前記第１領域は前記目標対象の一部の肢体が位置する領域を含む、ステップと、
前記第１領域に対応する画素点に対して肢体キーポイント検出処理を行い、前記目標対象の前記一部の肢体に対応する第１キーポイント情報を取得するステップと、を含む
項目１に記載の画像処理方法。
（項目３）
前記第１キーポイント情報に基づき、第２画像中の前記目標対象の前記一部の肢体に対応する第２キーポイント情報を決定するステップは、
前記第１キーポイント情報に基づいて前記第１画像において第２領域を決定するステップであって、前記第２領域は前記目標対象の第１領域よりも大きく、前記第１領域は前記目標対象の一部の肢体が位置する領域を含む、ステップと、
前記第２領域に基づき、前記第２画像における、前記第２領域の位置範囲に対応する第３領域を決定するステップと、
前記第２画像における前記第３領域内の画素点に対して肢体キーポイント検出処理を行い、前記一部の肢体に対応する第２キーポイント情報を取得するステップと、を含む
項目１に記載の画像処理方法。
（項目４）
前記第１キーポイント情報に基づき、第２画像中の前記目標対象の前記一部の肢体に対応する第２キーポイント情報を決定するステップは、
前記第１キーポイント情報の前記第１画像における位置範囲に基づき、前記第２画像における、前記位置範囲に対応する第３領域を決定するステップと、
前記第２画像における前記第３領域内の画素点に対して肢体キーポイント検出処理を行い、前記一部の肢体に対応する第２キーポイント情報を取得するステップと、を含む
項目１に記載の画像処理方法。
（項目５）
前記第１画像中の前記目標対象に対して肢体検出処理を行うステップは、
肢体検出ネットワークを用いて前記第１画像中の前記目標対象に対して肢体検出処理を行うステップを含み、
前記肢体検出ネットワークは、第１タイプのサンプル画像を用いて訓練して得られるものであり、前記第１タイプのサンプル画像には目標対象の検出枠がラベル付けされ、前記検出枠のラベル付け範囲は前記目標対象の一部の肢体が位置する領域を含む
項目２に記載の画像処理方法。
（項目６）
前記第１領域に対応する画素点に対して肢体キーポイント検出処理を行うステップは、
肢体キーポイント検出ネットワークを用いて前記第１領域に対応する画素点に対して肢体キーポイント検出処理を行うステップを含み、
前記肢体キーポイント検出ネットワークは、第２タイプのサンプル画像を用いて訓練して得られるものであり、前記第２タイプのサンプル画像には、前記目標対象の一部の肢体を含むキーポイントがラベル付けされている
項目２に記載の画像処理方法。
（項目７）
前記目標対象の一部の肢体は、頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも１つを含み、
前記第１キーポイント情報及び前記第２キーポイント情報は、頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも１つの肢体の輪郭キーポイント情報及び／又は骨格キーポイント情報を含む
項目１から６のいずれか１項に記載の画像処理方法。
（項目８）
前記目標対象の一部の肢体に対応する第１キーポイント情報を取得したことに応答して、前記目標対象に追跡識別子を割り当てるステップと、
前記複数のフレームの画像の処理プロセスにおいて割り当てられた前記追跡識別子の数に基づき、前記複数のフレームの画像中の目標対象の数を決定するステップと、をさらに含む
項目１から７のいずれか１項に記載の画像処理方法。
（項目９）
前記第２キーポイント情報に基づいて前記目標対象の姿勢を決定するステップと、
前記目標対象の姿勢に基づいて前記目標対象に対応するインタラクション命令を決定するステップと、をさらに含む
項目１から８のいずれか１項に記載の画像処理方法。
（項目１０）
複数のフレームの画像を取得するように構成される取得ユニットと、
前記複数のフレームの画像のうちの第１画像中の目標対象に対して肢体キーポイント検出処理を行い、前記目標対象の一部の肢体に対応する第１キーポイント情報を取得するように構成される検出ユニットと、
前記第１キーポイント情報に基づき、第２画像中の前記目標対象の前記一部の肢体に対応する第２キーポイント情報を決定するように構成される追跡決定ユニットであって、前記第２画像は、前記複数のフレームの画像のうち、前記第１画像以後の１つのフレームの画像である、追跡決定ユニットと、を含む、画像処理装置。
（項目１１）
前記検出ユニットは、肢体検出モジュール及び肢体キーポイント検出モジュールを含み、
前記肢体検出モジュールは、前記第１画像中の前記目標対象に対して肢体検出処理を行い、前記目標対象の第１領域を決定するように構成され、前記第１領域は前記目標対象の一部の肢体が位置する領域を含み、
前記肢体キーポイント検出モジュールは、前記第１領域に対応する画素点に対して肢体キーポイント検出処理を行い、前記目標対象の前記一部の肢体に対応する第１キーポイント情報を取得するように構成される
項目１０に記載の画像処理装置。
（項目１２）
前記追跡決定ユニットは、前記第１キーポイント情報に基づいて前記第１画像において第２領域を決定し、前記第２領域に基づき、前記第２画像における、前記第２領域の位置範囲に対応する第３領域を決定し、そして前記第２画像における前記第３領域内の画素点に対して肢体キーポイント検出処理を行い、前記一部の肢体に対応する第２キーポイント情報を取得するように構成され、ここで前記第２領域は前記目標対象の第１領域よりも大きく、前記第１領域は前記目標対象の一部の肢体が位置する領域を含む
項目１０に記載の画像処理装置。
（項目１３）
前記追跡決定ユニットは、前記第１キーポイント情報の前記第１画像における位置範囲に基づき、前記第２画像における、前記位置範囲に対応する第３領域を決定し、そして前記第２画像における前記第３領域内の画素点に対して肢体キーポイント検出処理を行い、前記一部の肢体に対応する第２キーポイント情報を取得するように構成される
項目１０に記載の画像処理装置。
（項目１４）
前記肢体検出モジュールは、肢体検出ネットワークを用いて前記第１画像中の前記目標対象に対して肢体検出処理を行うように構成され、
前記肢体検出ネットワークは、第１タイプのサンプル画像を用いて訓練して得られるものであり、前記第１タイプのサンプル画像には目標対象の検出枠がラベル付けされ、前記検出枠のラベル付け範囲は前記目標対象の一部の肢体が位置する領域を含む
項目１１に記載の画像処理装置。
（項目１５）
前記肢体キーポイント検出モジュールは、肢体キーポイント検出ネットワークを用いて前記第１領域に対応する画素点に対して肢体キーポイント検出処理を行うように構成され、
前記肢体キーポイント検出ネットワークは、第２タイプのサンプル画像を用いて訓練して得られるものであり、前記第２タイプのサンプル画像には、前記目標対象の一部の肢体を含むキーポイントがラベル付けされている
項目１１に記載の画像処理装置。
（項目１６）
前記目標対象の一部の肢体は、頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも１つを含み、
前記第１キーポイント情報及び前記第２キーポイント情報は、頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも１つの肢体の輪郭キーポイント情報及び／又は骨格キーポイント情報を含む
項目１０から１５のいずれか１項に記載の画像処理装置。
（項目１７）
前記検出ユニットが前記目標対象の一部の肢体に対応する第１キーポイント情報を取得したことに応答して、前記目標対象に追跡識別子を割り当てるように構成される割り当てユニットと、
前記複数のフレームの画像の処理プロセスにおいて割り当てられた前記追跡識別子の数に基づき、前記複数のフレームの画像中の目標対象の数を決定するように構成される統計ユニットと、をさらに含む
項目１０から１６のいずれか１項に記載の画像処理装置。
（項目１８）
前記第２キーポイント情報に基づいて前記目標対象の姿勢を決定し、そして前記目標対象の姿勢に基づいて前記目標対象に対応するインタラクション命令を決定するように構成される決定ユニットをさらに含む
項目１０から１７のいずれか１項に記載の画像処理装置。
（項目１９）
プロセッサに、項目１から９のいずれか１項に記載の画像処理方法のステップを実行させるためのコンピュータプログラムを記憶した、コンピュータ可読記憶媒体。
（項目２０）
メモリと、プロセッサと、前記メモリに記憶されている前記プロセッサで実行可能なコンピュータプログラムと、を含み、前記プロセッサは前記コンピュータプログラムを実行して、項目１から９のいずれか１項に記載の画像処理方法のステップを実施する、電子機器。
（項目２１）
コンピュータに項目１から９のいずれか１項に記載の画像処理方法を実行させる、コンピュータプログラム。

Claims

複数のフレームの画像を取得するステップと、
前記複数のフレームの画像のうちの第１画像中の目標対象に対して肢体キーポイント検出処理を行い、前記目標対象の一部の肢体に対応する第１キーポイント情報を取得するステップと、
前記第１キーポイント情報に基づき、第２画像中の前記目標対象の前記一部の肢体に対応する第２キーポイント情報を決定するステップであって、前記第２画像は、前記複数のフレームの画像のうち、前記第１画像以後の１つのフレームの画像である、ステップと、を含む、画像処理方法。
前記複数のフレームの画像のうちの第１画像中の目標対象に対して肢体キーポイント検出処理を行い、前記目標対象の一部の肢体に対応する第１キーポイント情報を取得するステップは、
前記第１画像中の前記目標対象に対して肢体検出処理を行い、前記目標対象の第１領域を決定するステップであって、前記第１領域は前記目標対象の一部の肢体が位置する領域を含む、ステップと、
前記第１領域に対応する画素点に対して肢体キーポイント検出処理を行い、前記目標対象の前記一部の肢体に対応する第１キーポイント情報を取得するステップと、を含む
請求項１に記載の画像処理方法。
前記第１キーポイント情報に基づき、第２画像中の前記目標対象の前記一部の肢体に対応する第２キーポイント情報を決定するステップは、
前記第１キーポイント情報に基づいて前記第１画像において第２領域を決定するステップであって、前記第２領域は前記目標対象の第１領域よりも大きく、前記第１領域は前記目標対象の一部の肢体が位置する領域を含む、ステップと、
前記第２領域に基づき、前記第２画像における、前記第２領域の位置範囲に対応する第３領域を決定するステップと、
前記第２画像における前記第３領域内の画素点に対して肢体キーポイント検出処理を行い、前記一部の肢体に対応する第２キーポイント情報を取得するステップと、を含む
請求項１に記載の画像処理方法。
前記第１キーポイント情報に基づき、第２画像中の前記目標対象の前記一部の肢体に対応する第２キーポイント情報を決定するステップは、
前記第１キーポイント情報の前記第１画像における位置範囲に基づき、前記第２画像における、前記位置範囲に対応する第３領域を決定するステップと、
前記第２画像における前記第３領域内の画素点に対して肢体キーポイント検出処理を行い、前記一部の肢体に対応する第２キーポイント情報を取得するステップと、を含む
請求項１に記載の画像処理方法。
前記第１画像中の前記目標対象に対して肢体検出処理を行うステップは、
肢体検出ネットワークを用いて前記第１画像中の前記目標対象に対して肢体検出処理を行うステップを含み、
前記肢体検出ネットワークは、第１タイプのサンプル画像を用いて訓練して得られるものであり、前記第１タイプのサンプル画像には目標対象の検出枠がラベル付けされ、前記検出枠のラベル付け範囲は前記目標対象の一部の肢体が位置する領域を含む
請求項２に記載の画像処理方法。
前記第１領域に対応する画素点に対して肢体キーポイント検出処理を行うステップは、
肢体キーポイント検出ネットワークを用いて前記第１領域に対応する画素点に対して肢体キーポイント検出処理を行うステップを含み、
前記肢体キーポイント検出ネットワークは、第２タイプのサンプル画像を用いて訓練して得られるものであり、前記第２タイプのサンプル画像には、前記目標対象の一部の肢体を含むキーポイントがラベル付けされている
請求項２に記載の画像処理方法。
前記目標対象の一部の肢体は、頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも１つを含み、
前記第１キーポイント情報及び前記第２キーポイント情報は、頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも１つの肢体の輪郭キーポイント情報及び／又は骨格キーポイント情報を含む
請求項１から６のいずれか１項に記載の画像処理方法。
前記目標対象の一部の肢体に対応する第１キーポイント情報を取得したことに応答して、前記目標対象に追跡識別子を割り当てるステップと、
前記複数のフレームの画像の処理プロセスにおいて割り当てられた前記追跡識別子の数に基づき、前記複数のフレームの画像中の目標対象の数を決定するステップと、をさらに含む
請求項１から７のいずれか１項に記載の画像処理方法。
前記第２キーポイント情報に基づいて前記目標対象の姿勢を決定するステップと、
前記目標対象の姿勢に基づいて前記目標対象に対応するインタラクション命令を決定するステップと、をさらに含む
請求項１から８のいずれか１項に記載の画像処理方法。
複数のフレームの画像を取得するように構成される取得ユニットと、
前記複数のフレームの画像のうちの第１画像中の目標対象に対して肢体キーポイント検出処理を行い、前記目標対象の一部の肢体に対応する第１キーポイント情報を取得するように構成される検出ユニットと、
前記第１キーポイント情報に基づき、第２画像中の前記目標対象の前記一部の肢体に対応する第２キーポイント情報を決定するように構成される追跡決定ユニットであって、前記第２画像は、前記複数のフレームの画像のうち、前記第１画像以後の１つのフレームの画像である、追跡決定ユニットと、を含む、画像処理装置。
前記検出ユニットは、肢体検出モジュール及び肢体キーポイント検出モジュールを含み、
前記肢体検出モジュールは、前記第１画像中の前記目標対象に対して肢体検出処理を行い、前記目標対象の第１領域を決定するように構成され、前記第１領域は前記目標対象の一部の肢体が位置する領域を含み、
前記肢体キーポイント検出モジュールは、前記第１領域に対応する画素点に対して肢体キーポイント検出処理を行い、前記目標対象の前記一部の肢体に対応する第１キーポイント情報を取得するように構成される
請求項１０に記載の画像処理装置。
前記追跡決定ユニットは、前記第１キーポイント情報に基づいて前記第１画像において第２領域を決定し、前記第２領域に基づき、前記第２画像における、前記第２領域の位置範囲に対応する第３領域を決定し、そして前記第２画像における前記第３領域内の画素点に対して肢体キーポイント検出処理を行い、前記一部の肢体に対応する第２キーポイント情報を取得するように構成され、ここで前記第２領域は前記目標対象の第１領域よりも大きく、前記第１領域は前記目標対象の一部の肢体が位置する領域を含む
請求項１０に記載の画像処理装置。
前記追跡決定ユニットは、前記第１キーポイント情報の前記第１画像における位置範囲に基づき、前記第２画像における、前記位置範囲に対応する第３領域を決定し、そして前記第２画像における前記第３領域内の画素点に対して肢体キーポイント検出処理を行い、前記一部の肢体に対応する第２キーポイント情報を取得するように構成される
請求項１０に記載の画像処理装置。
前記肢体検出モジュールは、肢体検出ネットワークを用いて前記第１画像中の前記目標対象に対して肢体検出処理を行うように構成され、
前記肢体検出ネットワークは、第１タイプのサンプル画像を用いて訓練して得られるものであり、前記第１タイプのサンプル画像には目標対象の検出枠がラベル付けされ、前記検出枠のラベル付け範囲は前記目標対象の一部の肢体が位置する領域を含む
請求項１１に記載の画像処理装置。
前記肢体キーポイント検出モジュールは、肢体キーポイント検出ネットワークを用いて前記第１領域に対応する画素点に対して肢体キーポイント検出処理を行うように構成され、
前記肢体キーポイント検出ネットワークは、第２タイプのサンプル画像を用いて訓練して得られるものであり、前記第２タイプのサンプル画像には、前記目標対象の一部の肢体を含むキーポイントがラベル付けされている
請求項１１に記載の画像処理装置。
前記目標対象の一部の肢体は、頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも１つを含み、
前記第１キーポイント情報及び前記第２キーポイント情報は、頭部、首部、肩部、胸部、腰部、股関節部、腕、手部のうちの少なくとも１つの肢体の輪郭キーポイント情報及び／又は骨格キーポイント情報を含む
請求項１０から１５のいずれか１項に記載の画像処理装置。
前記検出ユニットが前記目標対象の一部の肢体に対応する第１キーポイント情報を取得したことに応答して、前記目標対象に追跡識別子を割り当てるように構成される割り当てユニットと、
前記複数のフレームの画像の処理プロセスにおいて割り当てられた前記追跡識別子の数に基づき、前記複数のフレームの画像中の目標対象の数を決定するように構成される統計ユニットと、をさらに含む
請求項１０から１６のいずれか１項に記載の画像処理装置。
前記第２キーポイント情報に基づいて前記目標対象の姿勢を決定し、そして前記目標対象の姿勢に基づいて前記目標対象に対応するインタラクション命令を決定するように構成される決定ユニットをさらに含む
請求項１０から１７のいずれか１項に記載の画像処理装置。
プロセッサに、請求項１から９のいずれか１項に記載の画像処理方法のステップを実行させるためのコンピュータプログラムを記憶した、コンピュータ可読記憶媒体。
メモリと、プロセッサと、前記メモリに記憶されている前記プロセッサで実行可能なコンピュータプログラムと、を含み、前記プロセッサは前記コンピュータプログラムを実行して、請求項１から９のいずれか１項に記載の画像処理方法のステップを実施する、電子機器。
コンピュータに請求項１から９のいずれか１項に記載の画像処理方法を実行させる、コンピュータプログラム。