JP7311640B2

JP7311640B2 - 行動予測方法及び装置、歩容認識方法及び装置、電子機器並びにコンピュータ可読記憶媒体

Info

Publication number: JP7311640B2
Application number: JP2021573491A
Authority: JP
Inventors: 豊邱; 旻汪; 文▲トウ▼ 劉; 晨銭; 利庄馬
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2020-02-28
Filing date: 2021-02-22
Publication date: 2023-07-19
Anticipated expiration: 2041-02-22
Also published as: EP3979122A1; US20220114839A1; KR20220008843A; TW202133036A; EP3979122A4; JP2022536354A; WO2021169924A1; CN111291718B; CN111291718A

Description

本発明は、コンピュータビジョン技術分野に関し、具体的に、行動予測方法及び装置、歩容認識方法及び装置、電子機器並びにコンピュータ可読記憶媒体に関する。

オブジェクトに対して行動分析及び認識を行うことは、人工知能分野における１種の基本的な需要である。行動分析及び認識を行う際に、一般的に多段階の３次元人体姿勢認識を採用し、且つオブジェクトビデオを撮影するカメラのパラメータに依存したり、カメラの撮影画角を制限したりする等が必要ある。

第１態様において、本発明は、行動予測方法を提供する。当該行動予測方法は、それぞれが目標画像と前記目標画像よりも前のＮ（Ｎは正整数）フレームの画像とを含む複数の目標ビデオセグメントを取得するステップと、各目標ビデオセグメントにおける目標オブジェクトの複数の２次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの歩容データ及び目標重心座標を特定するステップと、前記歩容データ及び前記目標重心座標に基づいて、前記目標オブジェクトの所定時間帯における行動特徴情報を予測するステップと、を含む。

本態様では、目標ビデオセグメントにおける目標オブジェクトの２次元キーポイント情報に基づくことにより、予測された歩容データ及び目標重心座標の正確度を向上させることができ、正確な歩容データ及び目標重心座標に基づくことにより、予測された行動特徴情報の正確性を向上させることができるため、目標オブジェクトの安全を有効に保証することができる。

１つの可能な実施形態において、上記行動予測方法は、前記行動特徴情報に基づいて、前記目標オブジェクトの前記所定時間帯における安全特徴情報と前記安全特徴情報にマッチングする安全措置対策とを特定するステップを更に含む。

１つの可能な実施形態において、前記各目標ビデオセグメントにおける目標オブジェクトの複数の２次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの歩容データを特定することは、各目標ビデオセグメントの各フレームの画像における前記目標オブジェクトの複数の２次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の３次元キーポイント情報を特定することと、前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定することと、前記複数の３次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識することと、を含む。

本実施形態では、ビデオセグメントの各フレームの画像における目標オブジェクトの複数の２次元キーポイント情報を用いて、ビデオセグメントの最後１フレームの画像における目標オブジェクトの３次元キーポイント情報を特定し、特定された各３次元キーポイント情報に多値多義性の問題が現れることを回避可能であるため、３次元キーポイント情報に基づいて歩容分析及び認識を行う成功率及び正確率を向上させることができ、また、目標オブジェクトの複数の３次元キーポイント情報が特定された後、３次元キーポイント情報を用いて目標オブジェクトの前進方向を特定し、特定された前進方向及び３次元キーポイント情報に基づいて目標オブジェクトの歩容データを特定し、目標オブジェクトに対して歩容分析及び認識を行い、ビデオセグメントの撮影に使用されるカメラのカメラパラメータに依存していないため、他のデータ又は機器に対する依存性が強くて汎用化能力が悪いという、歩容分析及び認識に存在する欠陥は、克服される。

１つの可能な実施形態において、前記各目標ビデオセグメントにおける目標オブジェクトの複数の２次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの目標重心座標を特定することは、各目標ビデオセグメントの各フレームの画像における前記目標オブジェクトの複数の２次元キーポイント情報に基づいて、前記目標オブジェクトの第１重心座標と、前記目標画像における前記目標オブジェクトの複数の３次元キーポイント情報とを特定することと、前記目標画像における前記目標オブジェクトの複数の２次元キーポイント情報と前記複数の３次元キーポイント情報とに基づいて、前記目標オブジェクトの第２重心座標を特定することと、前記第１重心座標及び前記第２重心座標に基づいて、前記目標画像における前記目標オブジェクトの目標重心座標を特定することと、を含む。

本実施形態では、特定された２つの重心座標も合わせて使用されるため、目標オブジェクトの最終的な目標重心座標は、より正確に特定することができる。

１つの可能な実施形態において、前記目標画像における前記目標オブジェクトの複数の３次元キーポイント情報を特定することは、各目標ビデオセグメントにおける各フレームの画像について、当該フレームの画像における前記目標オブジェクトの複数の２次元キーポイント情報に基づいて、当該フレームの画像における前記目標オブジェクトの検出枠を特定することと、前記検出枠のサイズ情報と前記検出枠の中心点の座標とに基づいて、当該フレームの画像における各２次元キーポイント情報に対応する座標情報に対して正規化処理を行い、当該フレームの画像における目標オブジェクトの複数の目標２次元キーポイント情報を取得することと、前記各フレームの画像における前記目標オブジェクトの複数の目標２次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の３次元キーポイント情報を特定することと、を含む。

本実施形態では、まず、画像における目標オブジェクトの２次元キーポイント情報を用いて目標オブジェクトの検出枠を特定し、次に、検出枠のサイズ情報及び中心点座標等を用いて２次元キーポイント情報に対応する座標情報に対して正規化処理を行い、ビデオセグメントを撮影するカメラのカメラパラメータ又はオリジナル画像のサイズ情報に依存しないため、カメラパラメータに対する依存性を逸脱し、切り出された画像については依然として優れた汎用性を有している。

１つの可能な実施形態において、前記各フレームの画像における前記目標オブジェクトの複数の目標２次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の３次元キーポイント情報を特定することは、前記各フレームの画像における前記目標オブジェクトの複数の目標２次元キーポイント情報をトレーニングされた第１ニューラルネットワークに入力し、入力された複数の目標２次元キーポイント情報に対して前記第１ニューラルネットワークを介して処理し、前記目標画像における前記目標オブジェクトの複数の３次元キーポイント情報を特定することを含む。

本実施形態では、トレーニングされたニューラルネットワークを用いて３次元キーポイント情報を特定するため、情報処理及び特定の自動化レベルを向上させ、情報処理及び特定の正確度を向上させることができる。

１つの可能な実施形態において、上記行動予測方法は、前記第１ニューラルネットワークをトレーニングするステップを更に含み、前記第１ニューラルネットワークをトレーニングするステップは、第１サンプル画像を含むとともに前記第１サンプル画像よりも前のＮフレームの画像も含む第１サンプルビデオセグメントと、前記第１サンプル画像における第１サンプルオブジェクトの複数の標準３次元キーポイント情報とを取得することと、
前記複数の標準３次元キーポイント情報に基づいて、前記第１サンプルビデオセグメントの各フレームの画像における前記第１サンプルオブジェクトの複数のサンプル２次元キーポイント情報を特定することと、特定された前記複数のサンプル２次元キーポイント情報をトレーニングすべき第１初期ニューラルネットワークに入力し、入力された複数のサンプル２次元キーポイント情報に対して前記第１初期ニューラルネットワークを介して処理し、前記第１サンプル画像における前記第１サンプルオブジェクトの複数の予測３次元キーポイント情報を特定することと、前記複数の予測３次元キーポイント情報と前記複数の標準３次元キーポイント情報との間の誤差情報に基づいて、前記第１初期ニューラルネットワークのネットワークパラメータを調整することと、前記第１初期ニューラルネットワークのトレーニングが完了された後、前記第１ニューラルネットワークを取得することと、を含む。

本実施形態では、複数の標準３次元キーポイント情報に基づいて複数のサンプル２次元キーポイント情報を逆投影的に特定するため、特定されたサンプル２次元キーポイント情報の正確度を向上させることができる。

１つの可能な実施形態において、前記第１サンプルビデオセグメントの各フレームの画像における前記第１サンプルオブジェクトの複数のサンプル２次元キーポイント情報を特定することは、前記第１サンプルビデオセグメントを撮影する撮影機器の機器パラメータ情報と、前記第１サンプルビデオセグメントの各フレームの画像のＲＧＢ画面とを取得することと、前記機器パラメータ情報と、前記各フレームの画像のＲＧＢ画面と、前記複数の標準３次元キーポイント情報とに基づいて、前記第１サンプルビデオセグメントの各フレームの画像における前記第１サンプルオブジェクトの複数のサンプル２次元キーポイント情報を特定することと、を含む。

本実施形態では、撮影機器の機器パラメータ情報と複数の標準３次元キーポイント情報とを組み合わせるため、複数のサンプル２次元キーポイント情報を正確に特定することができる。

１つの可能な実施形態において、前記複数の予測３次元キーポイント情報と前記複数の標準３次元キーポイント情報との間の誤差情報に基づいて、前記第１初期ニューラルネットワークのネットワークパラメータを調整することは、前記第１サンプルオブジェクトの物理サイズ情報を取得することと、前記第１サンプルオブジェクトの物理サイズ情報に基づいて、各標準３次元キーポイント情報の、ネットワーク尺度空間に対応する目標標準３次元キーポイント情報を特定することと、前記複数の予測３次元キーポイント情報と複数の前記目標標準３次元キーポイント情報との間の誤差情報に基づいて、前記第１初期ニューラルネットワークのネットワークパラメータを調整することと、を含む。

本実施形態では、サンプルオブジェクトの物理サイズ情報を用いて、物理尺度空間の標準３次元キーポイント情報をネットワーク尺度空間の目標標準３次元キーポイント情報に変換し、ネットワーク尺度空間の目標標準３次元キーポイント情報でトレーニングされたニューラルネットワークに基づいて、ネットワーク尺度空間の３次元キーポイント情報を特定することができ、即ち、３次元キーポイント情報の特定への目標オブジェクトの大きさの影響を解消可能であり、歩容認識の正確度の向上に有利である。

１つの可能な実施形態において、前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定することは、前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの左股部と右股部の間の第１接続線、及び前記目標オブジェクトの左肩部と右肩部の間の第２接続線を特定することと、前記第１接続線と前記第２接続線との間の最小誤差平面を特定することと、前記最小誤差平面と水平面との交線に基づいて、前記目標オブジェクトの前進方向を特定することと、を含み、又は、前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの左股部と右股部の間の第３接続線であって前記第１接続線である第３接続線、前記目標オブジェクトの左肩部と右肩部の間の第４接続線であって前記第２接続線である第４接続線、及び前記目標オブジェクトの骨盤点と頸椎点の間の第５接続線を特定することと、前記第３接続線及び前記第４接続線に基づいて、水平面に対する前記目標オブジェクトの第１胴体方向を特定することと、前記第５接続線に基づいて、鉛直面に対する前記目標オブジェクトの第２胴体方向を特定することと、前記第１胴体方向及び前記第２胴体方向に基づいて、前記目標オブジェクトの前進方向を特定することと、を含む。

本実施形態では、３次元キーポイント情報のみを用いて第１接続線、第２接続線及び第１接続線と第２接続線の間の最小誤差平面を特定し、更に最小誤差平面と水平面の間の交線を用いて目標オブジェクトの前進方向を特定し、あえて撮影機器の機器パラメータに基づいて前進方向を特定することがなく、即ち、撮影機器の機器パラメータに基づいて歩容分析及び認識を行うことがないため、他のデータ又は機器に対する依存性が強くて汎用化能力が悪いという、歩容分析及び認識に存在する欠陥は、克服される。

また、本実施形態では、３次元キーポイント情報のみを用いて複数本の接続線を特定し、その後、特定された各接続線を用いて、水平面に対する目標オブジェクトの第１胴体方向と鉛直面に対する目標オブジェクトの第２胴体方向とを特定し、最後に第１胴体方向及び第２胴体方向を用いて目標オブジェクトの前進方向を特定し、あえて撮影機器の機器パラメータに基づいて前進方向を特定することがなく、即ち、撮影機器の機器パラメータに基づいて歩容分析及び認識を行うことがないため、他のデータ又は機器に対する依存性が強くて汎用化能力が悪いという、歩容分析及び認識に存在する欠陥は、克服される。

１つの可能な実施形態において、前記歩容データは、前記目標オブジェクトの歩幅情報を含み、前記複数の３次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識することは、前記複数の３次元キーポイント情報に基づいて、前記前進方向における前記目標オブジェクトの両足の間の接続線の第１投影を特定することと、前記第１投影の長さ情報に基づいて、前記目標オブジェクトの歩幅情報を特定することとを含み、及び／又は、前記歩容データは、前記目標オブジェクトの歩隔情報を含み、前記複数の３次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識することは、前記複数の３次元キーポイント情報に基づいて、前記前進方向に垂直な方向における前記目標オブジェクトの両足の間の接続線の第２投影を特定することと、前記第２投影の長さ情報に基づいて、前記目標オブジェクトの歩隔情報を特定することと、を含む。

上記２種の実施形態では、３次元キーポイント情報で特定された目標オブジェクトの両足の間の接続線と３次元キーポイント情報で特定された目標オブジェクトの前進方向とのみを用いて目標オブジェクトの歩幅情報及び歩隔情報を特定し、あえて撮影機器の機器パラメータに依存して上記歩幅情報及び歩隔情報を特定することがないため、他のデータ又は機器に対する依存性が強くて汎用化能力が悪いという、歩容分析及び認識に存在する欠陥は、克服される。

１つの可能な実施形態において、前記各目標ビデオセグメントの各フレームの画像における前記目標オブジェクトの複数の２次元キーポイント情報に基づいて、前記目標オブジェクトの第１重心座標を特定することは、各目標ビデオセグメントの各フレームの画像における前記目標オブジェクトの複数の２次元キーポイント情報をトレーニングされた第２ニューラルネットワークに入力し、入力された複数の２次元キーポイント情報を前記第２ニューラルネットワークを介して処理し、前記目標オブジェクトの第１重心座標を特定することを含む。

本実施形態では、トレーニングされたニューラルネットワークを用いて重心座標を特定し、情報処理及び特定の自動化レベルを向上させ、情報処理及び特定の正確度を向上させることができる。

１つの可能な実施形態において、上記行動予測方法は、前記第２ニューラルネットワークをトレーニングするステップを更に含み、前記第２ニューラルネットワークをトレーニングするステップは、第２サンプル画像を含むとともに前記第２サンプル画像よりも前のＮフレームの画像も含む第２サンプルビデオセグメントと、前記第２サンプル画像における第２サンプルオブジェクトの複数の標準３次元キーポイント情報とを取得することと、前記複数の標準３次元キーポイント情報に基づいて、前記第２サンプルビデオセグメントの各フレームの画像における前記第２サンプルオブジェクトの複数のサンプル２次元キーポイント情報を特定することと、前記複数の標準３次元キーポイント情報に基づいて、前記第２サンプルオブジェクトの標準重心座標を特定することと、特定された前記複数のサンプル２次元キーポイント情報をトレーニングすべき第２初期ニューラルネットワークに入力し、入力された複数のサンプル２次元キーポイント情報を前記第２初期ニューラルネットワークを介して処理し、前記第２サンプル画像における前記第２サンプルオブジェクトの予測重心座標を出力することと、前記予測重心座標と前記標準重心座標との間の誤差情報に基づいて、前記第２初期ニューラルネットワークのネットワークパラメータを調整することと、前記第２初期ニューラルネットワークのトレーニングが完了された後、前記第２ニューラルネットワークを取得することと、を含む。

第２態様において、本発明は、歩容認識方法を提供する。当該歩容認識方法は、それぞれが目標画像と前記目標画像よりも前のＮ（Ｎは正整数）フレームの画像とを含む複数の目標ビデオセグメントを取得するステップと、各目標ビデオセグメントにおける目標オブジェクトの複数の２次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の３次元キーポイント情報を特定するステップと、前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定するステップと、前記複数の３次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識するステップと、を含む。

１つの可能な実施形態において、前記複数の３次元キーポイント情報がネットワーク尺度空間の３次元キーポイント情報である場合に、前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定する前に、上記歩容認識方法は、前記目標オブジェクトの物理サイズ情報を取得するステップと、前記目標オブジェクトの物理サイズ情報に基づいて、ネットワーク尺度空間の３次元キーポイント情報を物理尺度空間の３次元キーポイント情報に更新するステップと、を更に含む。

本実施形態では、ネットワーク尺度空間の３次元キーポイント情報が特定された後、物理尺度空間における目標オブジェクトの歩容データを正確に特定するために、ネットワーク尺度空間の３次元キーポイント情報を物理尺度空間の３次元キーポイント情報に更新する必要がある。

１つの可能な実施形態において、前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定するステップは、前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの左股部と右股部の間の第１接続線、及び前記目標オブジェクトの左肩部と右肩部の間の第２接続線を特定することと、前記第１接続線と前記第２接続線との間の最小誤差平面を特定することと、前記最小誤差平面と水平面との交線に基づいて、前記目標オブジェクトの前進方向を特定することと、を含み、又は、前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの左股部と右股部の間の第３接続線、前記目標オブジェクトの左肩部と右肩部の間の第４接続線、及び前記目標オブジェクトの骨盤点と頸椎点の間の第５接続線を特定することと、前記第３接続線及び前記第４接続線に基づいて、水平面に対する前記目標オブジェクトの第１胴体方向を特定することと、前記第５接続線に基づいて、鉛直面に対する前記目標オブジェクトの第２胴体方向を特定することと、前記第１胴体方向及び前記第２胴体方向に基づいて、前記目標オブジェクトの前進方向を特定することと、を含む。

１つの可能な実施形態において、前記歩容データは、前記目標オブジェクトの歩幅情報を含み、前記複数の３次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識するステップは、前記複数の３次元キーポイント情報に基づいて、前記前進方向における前記目標オブジェクトの両足の間の接続線の第１投影を特定することと、前記第１投影の長さ情報に基づいて、前記目標オブジェクトの歩幅情報を特定することと、を含み、及び／又は、前記歩容データは、前記目標オブジェクトの歩隔情報を含み、前記複数の３次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識するステップは、前記複数の３次元キーポイント情報に基づいて、前記前進方向に垂直な方向における前記目標オブジェクトの両足の間の接続線の第２投影を特定することと、前記第２投影の長さ情報に基づいて、前記目標オブジェクトの歩隔情報を特定することと、を含む。

第３態様において、本発明は、歩容認識装置を提供する。当該歩容認識装置は、

それぞれが目標画像と前記目標画像よりも前のＮ（Ｎは正整数）フレームの画像とを含む複数の目標ビデオセグメントを取得するためのビデオ取得モジュールと、

各目標ビデオセグメントにおける目標オブジェクトの複数の２次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の３次元キーポイント情報を特定するためのキーポイント処理モジュールと、

前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定するための前進方向特定モジュールと、

前記複数の３次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識するための歩容認識モジュールと、を備える。

第４態様において、本発明は、行動予測装置を提供する。当該行動予測装置は、

それぞれが目標画像と前記目標画像よりも前のＮ（Ｎは正整数）フレームの画像とを含む複数の目標ビデオセグメントを取得するための画像取得モジュールと、

各目標ビデオセグメントにおける目標オブジェクトの複数の２次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの歩容データ及び目標重心座標を特定するための画像処理モジュールと、

前記歩容データ及び前記目標重心座標に基づいて、前記目標オブジェクトの所定時間帯における行動特徴情報を予測するための予測モジュールと、を備える。

第５態様において、本発明は、電子機器を提供する。当該電子機器は、プロセッサと、メモリと、バスとを備え、前記メモリには、前記プロセッサで実行され得る機器読み取り可能な指令が記憶され、前記電子機器が動作しているとき、前記プロセッサと前記メモリとは、前記バスを介して互いに通信され、前記プロセッサは、前記機器読み取り可能な指令を実行することにより、上記行動予測方法又は上記歩容認識方法を実施する。

第６態様において、本発明は、コンピュータ可読記憶媒体を更に提供する。当該コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、当該コンピュータプログラムがプロセッサによって運転されたときに、前記プロセッサは、上記歩容認識方法又は行動予測方法を実施する。

本発明では、上記装置、電子機器及びコンピュータ可読記憶媒体が本発明の上記方法の何れか１つの態様又は何れか１つの態様の何れか１つの実施形態の技術特徴とは実質的に同じ又は類似する技術特徴を少なくとも含むため、上記装置、電子機器及びコンピュータ可読記憶媒体に関する効果の記述は、上記方法内容の効果の記述を参照すればよく、ここで繰り返して説明しない。

本発明の実施例がより明瞭に説明されるように、以下では、本発明の実施例に使用必要な図面を簡単に紹介する。理解できるように、以下の図面が本発明の幾つかの実施例のみを示し、範囲に対する制限として見なされるべきではない。当業者であれば、進歩性に値する労力を掛けずにこれらの図面から他の関連する図面を取得可能である。
本発明の実施例に係る行動予測方法のフローチャートを示す。本発明の実施例に係る別の行動予測方法において目標画像における目標オブジェクトの複数の３次元キーポイント情報を特定するフローチャートを示す。本発明の実施例に係る更に別の行動予測方法における検出枠の模式図を示す。本発明の実施例に係るもう１つの行動予測方法において前進方向を特定する模式図を示す。本発明の実施例に係る重心予測方法のフローチャートを示す。従来技術における時間的膨張畳み込みニューラルネットワークの構造模式図を示す。簡素化された時間的膨張畳み込みニューラルネットワークの構造模式図を示す。本発明の実施例に係る歩容認識方法のフローチャートを示す。本発明の実施例に係る行動予測装置の構造模式図を示す。本発明の実施例に係る歩容認識装置の構造模式図を示す。本発明の実施例に係る電子機器の構造模式図を示す。

本発明の実施例の目的、特徴およびメリットがより明瞭になるように、以下では、図面を参照しながら、本発明の実施例について明瞭で完全に記述する。本発明における図面が説明及び記述の目的のみを果たし、本発明の保護範囲を制限するためのものではないことは、理解されるべきである。また、模式的な図面が実物の縮尺通りに描かれていないことは、理解されるべきである。本発明に使用されるフローチャートは、本発明の幾つかの実施例に基づいて実施される操作を示す。フローチャートの操作が順番通りに実施されなくてもよく、ロジックのない文脈関係のステップが反対する順番で又は同時に実施されてもよいことは、理解されるべきである。また、当業者は、本発明の内容のガイドのもとで、フローチャートに１つ又は複数の他の操作を追加してもよく、フローチャートから１つ又は複数の操作を除去してもよい。

また、記述される実施例は、単に本発明の一部の実施例であり、全ての実施例ではない。通常、ここの図面に記述や示される本発明の実施例のユニットは、各種の異なる配置で配備及び設計されてもよい。したがって、図面に供される本発明の実施例に対する以下の詳細な記述は、保護請求される本発明の範囲を制限するためのものでなく、本発明の特定の実施例を示すだけである。本発明の実施例に基づいて当業者が進歩性に値する労働を掛けずになした全ての他の実施例は、何れも本発明の保護範囲に属する。

説明すべきことは、本発明の実施例は、用語「含む」を採用し、それは、その後の声明する特徴の存在を指すためのものであり、あえて他の特徴の追加を排除しない。

上述した通り、行動分析及び認識を行う際に、一般的に多段階３次元人体姿勢認識を採用し、且つオブジェクトビデオを撮影するカメラのパラメータに依存したりカメラの撮影画角等を制限したりする必要がある。上記行動分析及び認識の方式には、認識正確度及び成功率の両方が低く、制限性が強く、汎用化能力が悪いという欠陥が存在する。

本発明は、行動予測方法及び装置を提供する。本発明では、ビデオセグメントにおける目標オブジェクトの２次元キーポイント情報に基づくことにより、予測された歩容データ及び目標重心座標の正確度を向上させることができ、正確な歩容データ及び目標重心座標に基づくことにより、予測された行動特徴情報の正確性を向上させることができるため、目標オブジェクトの安全を有効に保証することができる。

また、本発明は、歩容認識方法及び装置を更に提供する。本発明では、ビデオセグメントにおける目標オブジェクトの複数の２次元キーポイント情報を用いてビデオセグメントの最後１フレームの画像における目標オブジェクトの３次元キーポイント情報を特定することにより、特定された３次元キーポイント情報に多値多義性の問題が現れることを回避可能であるため、３次元キーポイント情報に基づいて歩容分析及び認識を行う成功率及び正確率を向上させることができる。また、本発明では、３次元キーポイント情報を用いて目標オブジェクトの前進方向を特定し、特定された前進方向及び３次元キーポイント情報に基づいて目標オブジェクトの歩容データを特定し、目標オブジェクトに対して歩容分析及び認識を行い、ビデオセグメントの撮影に使用されるカメラのカメラパラメータに依存していないため、他のデータ又は機器に対する依存性が強くて汎用化能力が悪いという、歩容分析及び認識に存在する欠陥は、克服される。

以下では、具体的な実施例により、本発明の行動予測方法及び装置、歩容認識方法及び装置、電子機器、コンピュータ可読記憶媒体について説明する。

本発明の実施例は、行動予測方法を提供する。当該方法は、目標オブジェクトに対して行動予測を行う端末機器又はサーバ等に用いられる。具体的に、図１に示すように、本発明の実施例に係る行動予測方法は、以下のステップを含む。

Ｓ１１０では、複数の目標ビデオセグメントを取得し、各目標ビデオセグメントは、目標画像と前記目標画像よりも前のＮフレームの画像とを含み、Ｎは、正整数である。

ここで、目標画像は、目標ビデオセグメントの最後１フレームの画像であってもよく、行動予測すべき画像である。本実施例では、目標画像における目標オブジェクトの行動特徴情報、安全特徴情報等を特定してもよい。

目標ビデオセグメントは、行動予測を行う端末機器が自身のカメラヘッド等の撮影機器を用いて撮影したものであってもよく、他の撮影機器が撮影したものであってもよい。他の撮影機器は、撮影した後、目標ビデオセグメントを行動予測を行う端末機器又はサーバへ伝送すればよい。

Ｓ１２０では、各目標ビデオセグメントにおける目標オブジェクトの複数の２次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの歩容データ及び目標重心座標を特定する。

ここで、まず、目標ビデオセグメントの各フレームの画像における目標オブジェクトの複数の２次元キーポイント情報を用いて前記目標画像における前記目標オブジェクトの複数の３次元キーポイント情報を予測し、次に、前記目標画像における目標オブジェクトの複数の３次元キーポイント情報を用いて前記目標画像における目標オブジェクトの歩容データを特定し、目標ビデオセグメントの各フレームの画像における目標オブジェクトの複数の２次元キーポイント情報及び前記目標画像における前記目標オブジェクトの複数の３次元キーポイント情報を用いて、前記目標画像における前記目標オブジェクトの目標重心座標を特定してもよい。

幾つかの実施例において、上記歩容データは、目標オブジェクトの歩幅（ｇａｉｔ－ｌｅｎｇｔｈ）情報及び／又は歩隔（ｇａｉｔ－ｗｉｄｔｈ）情報を含んでもよい。

Ｓ１３０では、前記歩容データ及び前記目標重心座標に基づいて、前記目標オブジェクトの所定時間帯における行動特徴情報を予測する。

ここで、目標ビデオは、複数の目標ビデオセグメントを含んでもよく、各目標ビデオセグメントは、目標画像を含む。各目標ビデオセグメントの目標画像における目標オブジェクトの歩容データ及び目標重心座標を特定することにより、複数の連続する時点における目標オブジェクトの歩容データ及び目標重心座標を取得することができる。複数の連続する時点における目標オブジェクトの歩容データが取得された後、取得された歩容データに基づいて目標オブジェクトの所定時間帯における行動をモニタリング及び予測してもよい。複数の連続する時点における目標オブジェクトの目標重心座標が取得された後、目標オブジェクトの所定時間帯における運動軌跡を予測してもよい。その後、予測された目標オブジェクトの行動及び運動軌跡を纏めて、目標オブジェクトの所定時間帯における行動特徴情報を特定する。

幾つかの実施例において、上記行動特徴情報は、目標オブジェクトの所定時間帯における軌跡特徴及び行動特徴を含む。例えば、行動特徴情報は、具体的に、目標オブジェクトの所定時間帯における運動軌跡座標や、目標オブジェクトの所定時間帯における運動の歩幅及び歩隔等を含む。

幾つかの実施例では、取得された歩容データ及び目標重心座標を用いて、児童又は認知障害を持つ老人の行動及び運動軌跡を遠隔にモニタリングして予測することにより、児童又は認知障害を持つ老人の人身安全を保障することができる。また、現在予測された児童又は認知障害を持つ老人の行動及び運動軌跡を纏めると、児童又は認知障害を持つ老人の次の行動の行動特徴情報を予測することができる。当該行動特徴情報は、児童又は認知障害を持つ老人の次の行動に危険が発生するか否かを示すか特定するために用いられてもよく、マッチングする安全措置対策の実施を容易にする。

Ｓ１４０では、前記行動特徴情報に基づいて、前記目標オブジェクトの前記所定時間帯における安全特徴情報と前記安全特徴情報にマッチングする安全措置対策とを特定する。

上記安全特徴情報は、目標オブジェクトの所定時間帯における運動に危険が発生するか否か及び何の危険が発生するか等を示すために用いられる。例えば、安全特徴情報は、目標オブジェクトの所定時間帯における運動歩調が大きすぎて他の物体に衝突したり転倒したりする等の危険状况を示す。

上記安全措置対策は、予め設定され、且つ安全特徴情報に対してマッピング関係を有する。当該マッピング関係と特定された安全特徴情報とに基づいて、目標オブジェクトに対して実施された安全措置対策を特定することができる。当該安全措置対策は、目標オブジェクト又は目標オブジェクトの保護者へアラートを発す等であってもよい。例えば、目標オブジェクトは歩調が大きすぎて転倒する可能性のある場合に、目標オブジェクト又は目標オブジェクトの保護者へ転倒防止のアラート（ａｌｅｒｔ）を発し、目標オブジェクトに衝突が発生する可能性のある場合において、目標オブジェクト又は目標オブジェクトの保護者へ衝突防止のアラートを発す。

本実施例では、目標ビデオセグメントにおける目標オブジェクトの２次元キーポイント情報に基づくことにより、予測された歩容データ及び目標重心座標の正確度を向上させることができ、正確な歩容データ及び目標重心座標に基づくことにより、予測された行動特徴情報の正確性を向上させることができるため、目標オブジェクトの安全を有効に保証することができる。

幾つかの実施例において、前記目標画像における前記目標オブジェクトの歩容データの特定過程は、以下のステップを含んでもよい。

ステップ一では、前記目標ビデオセグメントの各フレームの画像における目標オブジェクトの複数の２次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の３次元キーポイント情報を特定する。

このステップ一が実行される前に、まず、目標ビデオセグメントの各フレームの画像における目標オブジェクトの複数の２次元キーポイント情報を特定する必要がある。具体的に実施する際に、２次元キーポイント検出ネットワークを介して各フレームの画像に対して検出を行い、各フレームの画像における複数の２次元キーポイント情報を特定してもよい。

各フレームの画像における目標オブジェクトの複数の２次元キーポイント情報が特定された後、例えば、時間的膨張畳み込みニューラルネットワークを介して、特定された複数の２次元キーポイント情報に基づいて、目標画像における目標オブジェクトの複数の３次元キーポイント情報を特定してもよい。

目標ビデオセグメントの各フレームの画像における目標オブジェクトの複数の２次元キーポイント情報を用いて、目標画像即ち目標ビデオセグメントの最後１フレームの画像における目標オブジェクトの３次元キーポイント情報を特定することにより、単一フレームの画像の２次元キーポイント情報を用いて３次元キーポイント情報を特定するときに現れやすい多値多義性の問題は、回避可能であり、より良好なシーケンス連続性と３次元キーポイント情報の予測の安定性が取得されるため、３次元キーポイント情報に基づいて歩容分析及び認識を行う成功率及び正確率は、向上することができる。

ステップ二では、前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定する。

幾つかの実施例では、目標ビデオセグメントを撮影する撮影機器の機器パラメータに依存せずに、３次元キーポイント情報における目標オブジェクトの股部、肩部、骨盤、頸椎等に対応する３次元キーポイント情報を用いて目標オブジェクトの前進方向を特定してもよい。

上記前進方向は、物理尺度（ｓｃａｌｅ）空間における目標オブジェクトの前進方向であり、３次元キーポイント情報は、ネットワーク尺度空間における目標オブジェクトの情報であってもよく、物理尺度空間における目標オブジェクトの情報であってもよい。３次元キーポイント情報がネットワーク尺度空間における目標オブジェクトの情報である場合に、まず、ネットワーク尺度空間における３次元キーポイント情報を物理尺度空間におけるものに変換する必要がある。

上記物理尺度空間は、実世界における物理尺度であり、単位が国際単位制における長さの標準単位「メートル」であってもよい。ネットワーク尺度空間は、人工的に定義される１つの算術尺度であり、単位が１であり、その目的は、関連計算へのオブジェクト自身のサイズの影響を解消して計算を簡単にすることにある。両者の次元は、異なる。

ステップ三では、前記複数の３次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識する。

目標オブジェクトの前進方向が特定された後、３次元キーポイント情報における目標オブジェクトの足部に対応する３次元キーポイント情報を用いて目標オブジェクトの歩容データを特定してもよい。

ここで、上記歩容データは、目標オブジェクトの歩幅情報及び／又は歩隔情報を含んでもよい。

具体的に実施する際に、以下のサブステップを用いて来特定目標画像における目標オブジェクトの歩幅情報を特定してもよい。

前記複数の３次元キーポイント情報に基づいて、前記前進方向における前記目標オブジェクトの両足の間の接続線の第１投影を特定し、前記第１投影の長さ情報に基づいて、前記目標オブジェクトの歩幅情報を特定する。

具体的に実施する際には、前記複数の３次元キーポイント情報に基づいて、前記前進方向に垂直な方向における前記目標オブジェクトの両足の間の接続線の第２投影を特定するサブステップと、前記第２投影の長さ情報に基づいて、前記目標オブジェクトの歩隔情報を特定するサブステップとを用いて、目標画像における目標オブジェクトの歩隔情報を特定してもよい。

上記では、両足の間の接続線を目標オブジェクトの前進方向と前進方向に垂直な方向とに投影してから、投影の長さに基づいて目標オブジェクトの歩幅情報及び歩隔情報を特定する。具体的に、３次元キーポイント情報が物理尺度空間における情報であるときに、直接第１投影の長さ情報を前記目標オブジェクトの歩幅情報、第２投影の長さ情報を前記目標オブジェクトの歩隔情報としてもよい。また、３次元キーポイント情報が物理尺度空間における情報ではないときに、第１投影及び第２投影が取得された後、第１投影の長さ情報と第２投影の長さ情報とを物理尺度空間に変換し、物理尺度空間における第１投影の長さ情報及び第２投影の長さ情報をそれぞれ歩幅情報及び歩隔情報とする必要がある。空間変換の過程において、特定された第１投影の長さ情報をそのまま空間変換の所定比率と乗算し、変換後の物理尺度空間における歩幅情報を取得し、特定された第２投影の長さ情報をそのまま空間変換の所定比率と乗算し、変換後の物理尺度空間における歩隔情報を取得してもよい。

上記では、３次元キーポイント情報で特定された目標オブジェクトの両足の間の接続線と３次元キーポイント情報で特定された目標オブジェクトの前進方向とのみを用いて、目標オブジェクトの歩幅情報及び歩隔情報を特定し、あえて撮影機器の機器パラメータに依存して上記歩幅情報及び歩隔情報を特定することがないため、他のデータ又は機器に対する依存性が強くて汎用化能力が悪いという、歩容分析及び認識に存在する欠陥は、克服される。

本実施例では、目標オブジェクトの複数の３次元キーポイント情報が特定された後、３次元キーポイント情報を用いて目標オブジェクトの前進方向を特定し、特定された前進方向及び３次元キーポイント情報に基づいて目標オブジェクトの歩容データを特定し、目標オブジェクトに対して歩容分析及び認識を行い、あえてビデオセグメントの撮影に使用されるカメラのカメラパラメータに依存していないため、他のデータ又は機器に対する依存性が強くて汎用化能力が悪いという、歩容分析及び認識に存在する欠陥は、克服される。

幾つかの実施例において、図２に示すように、上記目標ビデオセグメントの各フレームの画像における目標オブジェクトの複数の２次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の３次元キーポイント情報を特定することは、具体的に、以下のステップを含む。

Ｓ２１０では、目標ビデオセグメントにおける各フレームの画像について、当該フレームの画像における前記目標オブジェクトの複数の２次元キーポイント情報に基づいて、当該フレームの画像における前記目標オブジェクトの検出枠を特定する。

ここで、まず、２次元キーポイント検出ネットワークを介して、各フレームの画像における目標オブジェクトの複数の２次元キーポイント情報を特定してもよい。

複数の２次元キーポイント情報におけるキーポイント座標に基づいて、目標オブジェクトを囲む１つの検出枠、例えば、図３における検出枠３１を特定してもよい。図において、ｗｄは、検出枠の幅を示し、ｈｄは、検出枠の高さを示す。

Ｓ２２０では、前記検出枠のサイズ情報と前記検出枠の中心点の座標とに基づいて、当該フレームの画像における各２次元キーポイント情報に対応する座標情報に対して正規化処理を行い、当該フレームの画像における目標オブジェクトの複数の目標２次元キーポイント情報を取得する。

正規化処理時に、検出枠のサイズ情報、即ち、検出枠の幅及び検出枠の高さに基づいて、１つの大きな正方形枠３２を特定し、その後、当該正方形枠３２を用いて正規化処理を行ってもよい。当該正方形枠３２の辺長は、ｍ×ｍａｘ｛ｗｄ、ｈｄ｝である。ｍの値は、実際の応用場面に応じて定められ、例えば、値が１．２であってもよい。正方形枠３２の中心と検出枠３１の中心とは、重なり合う。

具体的に実施する際に、以下の数式を用いて正規化処理を行ってもよい。

式において、Ｋ_ｘ、ｙは、正規化処理後の２次元キーポイント情報を示し、即ち、上記目標２次元キーポイント情報に対応する座標であり、

は、２次元キーポイント情報に対応する座標を示し、

は、検出枠の中心点の座標を示す。

Ｓ２３０では、前記各フレームの画像における目標オブジェクトの複数の目標２次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の３次元キーポイント情報を特定する。

本実施例では、まず、画像における目標オブジェクトの２次元キーポイント情報を用いて目標オブジェクトの検出枠を特定し、その後、検出枠のサイズ情報及び中心点座標等を用いて２次元キーポイント情報に対応する座標情報に対して正規化処理を行い、あえてビデオセグメントを撮影するカメラのカメラパラメータ又はオリジナル画像のサイズ情報に依存しないため、カメラパラメータに対する依存性を逸脱し、切り出された画像については依然として優れた汎用性を有している。

上記２次元キーポイント情報に対して正規化処理を行った後、正規化処理された２次元キーポイント情報を、トレーニングされた第１ニューラルネットワーク例えばトレーニングされた時間的膨張畳み込みニューラルネットワークに入力し、３次元キーポイント情報を特定してもよい。

トレーニングされた第１ニューラルネットワークを用いて３次元キーポイント情報を特定することにより、情報処理及び特定の自動化レベルを向上させ、情報処理及び特定の正確度を向上させることができる。

具体的に実施する際に、以下のステップを利用して上記第１ニューラルネットワークをトレーニングしてもよい。

ステップ一では、第１サンプル画像を含む第１サンプルビデオセグメントと、前記第１サンプル画像における第１サンプルオブジェクトの複数の標準３次元キーポイント情報とを取得し、前記第１サンプルビデオセグメントは、前記第１サンプル画像よりも前のＮフレームの画像を更に含む。

ここで、第１サンプル画像は、歩容認識すべき画像である。上記標準３次元キーポイント情報は、サンプルマーキング情報として使用される。

具体的に実施する際に、ニューラルネットワークを介して前記第１サンプル画像における第１サンプルオブジェクトの複数の標準３次元キーポイント情報を特定してもよい。当該複数の標準３次元キーポイント情報は、例えば１７個のキーポイントの情報を含むオブジェクト骨格であってもよい。

ステップ二では、前記複数の標準３次元キーポイント情報に基づいて、前記第１サンプルビデオセグメントの各フレームの画像における前記第１サンプルオブジェクトの複数のサンプル２次元キーポイント情報を特定する。

ここで、標準３次元キーポイント情報を用いて逆投影してサンプル２次元キーポイント情報を取得してもよい。例えば、以下のステップを利用して逆投影処理を行ってもよい。

つまり、前記第１サンプルビデオセグメントを撮影する撮影機器の機器パラメータ情報、及び第１サンプルビデオセグメントにおける各フレームの画像のＲＧＢ画面を取得するステップと、前記機器パラメータ情報、各フレームの画像のＲＧＢ画面、及び前記複数の標準３次元キーポイント情報に基づいて、前記第１サンプルビデオセグメントの各フレームの画像における前記第１サンプルオブジェクトの複数のサンプル２次元キーポイント情報を特定するステップとを利用する。

複数の標準３次元キーポイント情報に基づいて複数のサンプル２次元キーポイント情報を逆投影的に特定するため、特定されたサンプル２次元キーポイント情報の正確度を向上させることができる。

また、具体的に実施する際に、逆投影処理を利用せずにサンプル２次元キーポイント情報を取得してもよい。例えば、直接２次元キーポイント検出ネットワークを介して各フレームの画像における第１サンプルオブジェクトに対して検出を行い、前記第１サンプルビデオセグメントの各フレームの画像における第１サンプルオブジェクトの複数のサンプル２次元キーポイント情報を取得してもよい。

サンプル２次元キーポイント情報を取得した後、サンプル２次元キーポイント情報を用いて第１初期ニューラルネットワークのトレーニングを行う前には、サンプル２次元キーポイント情報に対応する座標情報に対して正規化処理を行う必要がある。当該正規化処理の方法は、上記実施例において２次元キーポイント情報に対応する座標情報に対して正規化処理を行う方法と同じであり、同様に、前記第１サンプルビデオセグメントにおける各フレームの画像について、当該フレームの画像における前記第１サンプルオブジェクトの複数のサンプル２次元キーポイント情報に基づいて、当該フレームの画像における前記第１サンプルオブジェクトのサンプル検出枠を特定するステップと、前記サンプル検出枠のサイズ情報、前記サンプル検出枠の中心点の座標に基づいて、当該フレームの画像における各サンプル２次元キーポイント情報に対応する座標情報に対して正規化処理を行うステップと、を含む。

ステップ三では、上記複数のサンプル２次元キーポイント情報をトレーニングすべき第１初期ニューラルネットワークに入力し、入力された複数のサンプル２次元キーポイント情報を前記第１初期ニューラルネットワークを介して処理し、前記第１サンプル画像における前記第１サンプルオブジェクトの複数の予測３次元キーポイント情報を特定する。

ステップ四では、前記複数の予測３次元キーポイント情報と前記複数の標準３次元キーポイント情報との間の誤差情報に基づいて、前記第１初期ニューラルネットワークのネットワークパラメータを調整し、トレーニングの完了後で前記第１ニューラルネットワークを取得する。

上記では、ステップ一における複数の標準３次元キーポイント情報は、物理尺度空間の情報であり、当該物理尺度空間の標準３次元キーポイント情報が取得された後、直接当該物理尺度空間の標準３次元キーポイント情報と前記複数の予測３次元キーポイント情報との間の誤差情報を用いて、前記第１初期ニューラルネットワークのネットワークパラメータを調整してもよい。このように、トレーニングされた第１ニューラルネットワークは、使用されるとき、直接予測して得られた３次元キーポイント情報も物理尺度空間の情報である。そうすると、予測された３次元キーポイント情報を用いて目標オブジェクトの歩容データを特定する際に、物理尺度空間の変換を行う必要がない。

無論、ステップ一における物理尺度空間の標準３次元キーポイント情報をネットワーク尺度空間における情報に変換し、その後、ネットワーク尺度空間の標準３次元キーポイント情報と複数の予測３次元キーポイント情報との間の誤差情報を用いて、前記第１初期ニューラルネットワークのネットワークパラメータを調整してもよい。このように、トレーニングされた第１ニューラルネットワークは、使用されるとき、直接予測して得られた３次元キーポイント情報もネットワーク尺度空間の情報である。そうすると、予測された３次元キーポイント情報を用いて目標オブジェクトの歩容データを特定する際に、ネットワーク尺度空間の３次元キーポイント情報を物理尺度空間における３次元キーポイント情報に変換する必要がある。

具体的に実施する際に、前記第１サンプルオブジェクトの物理サイズ情報を取得するステップと、前記第１サンプルオブジェクトの物理サイズ情報に基づいて、物理尺度空間の複数の標準３次元キーポイント情報をそれぞれネットワーク尺度空間における情報とするステップとにより、物理尺度空間の複数の標準３次元キーポイント情報をネットワーク尺度空間における情報に変換してもよい。

第１サンプルオブジェクトの物理サイズ情報が取得された後、物理尺度空間の標準３次元キーポイント情報における座標情報を当該物理サイズ情報で割って、物理尺度空間の標準３次元キーポイント情報の変換後のネットワーク尺度空間における情報を取得してもよい。

幾つかの実施例において、上記物理サイズ情報は、第１サンプルオブジェクト（例えば、１つの人物）の身長情報等であってもよい。

上記サンプルオブジェクトの物理サイズ情報を用いて、物理尺度空間の標準３次元キーポイント情報をネットワーク尺度空間の情報に変換し、ネットワーク尺度空間の情報でトレーニングされたニューラルネットワークを介してネットワーク尺度空間の３次元キーポイント情報を特定することができ、即ち、尺度多様性を解消可能であり、３次元キーポイント情報の特定への目標オブジェクトの大きさの影響を解消し、歩容認識の正確度の向上に有利である。

第１ニューラルネットワークで予測して得られた３次元キーポイント情報がネットワーク尺度空間における情報である場合に、予測された３次元キーポイント情報を用いて歩容分析を行う、即ち、前進方向及び歩容データを特定する前に、ネットワーク尺度空間における３次元キーポイント情報を物理尺度空間における情報に変換する必要があり、具体的に以下のステップによって変換してもよい。

つまり、前記目標オブジェクトの物理サイズ情報を取得するステップと、前記目標オブジェクトの物理サイズ情報に基づいて、ネットワーク尺度空間の３次元キーポイント情報を物理尺度空間の３次元キーポイント情報に更新するステップとによって変換してもよい。

上記のように、目標オブジェクトの物理サイズ情報が取得された後、ネットワーク尺度空間の３次元キーポイント情報における座標情報を当該物理サイズ情報と乗算し、ネットワーク尺度空間の３次元キーポイント情報の変換後の物理尺度空間における情報を取得してもよい。

幾つかの実施例において、上記物理サイズ情報は、目標オブジェクト（例えば、１つの人物）の身長情報等であってもよい。

幾つかの実施例において、上記前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定し、具体的に、以下のステップを含む。

つまり、前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの左股部と右股部の間の第１接続線、及び前記目標オブジェクトの左肩部と右肩部の間の第２接続線を特定するステップと、前記第１接続線と前記第２接続線との間の最小誤差平面を特定するステップと、前記最小誤差平面と水平面との交線に基づいて、前記目標オブジェクトの前進方向を特定するステップと、を含む。

上記第１接続線と第２接続線との特定に使用される３次元キーポイント情報は、物理尺度空間における３次元キーポイント情報である。

図４に示すように、具体的に実施する際に、第１接続線Ｌ２と第２接続線Ｌ１の間の最小誤差平面を特定した後、最小誤差平面と水平面（ＸＺ平面）の間の交線Ｌ０を特定し、当該交線Ｌ０の水平面内に位置する垂線Ｃ０を目標オブジェクトの前進方向とする。

上記３次元キーポイント情報のみを用いて第１接続線、第２接続線、及び第１接続線と第２接続線の間の最小誤差平面を特定し、更に最小誤差平面と水平面の間の交線を用いて目標オブジェクトの前進方向を特定し、あえて撮影機器の機器パラメータに基づいて前進方向を特定することがなく、即ち、撮影機器の機器パラメータに基づいて歩容分析及び認識を行うことがないため、他のデータ又は機器に対する依存性が強くて汎用化能力が悪いという、歩容分析及び認識に存在する欠陥は、克服される。

幾つかの実施例において、前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定することは、具体的に以下のステップを含んでもよい。

つまり、前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの左股部と右股部の間の第３接続線、前記目標オブジェクトの左肩部と右肩部の間の第４接続線、及び前記目標オブジェクトの骨盤点と頸椎点の間の第５接続線を特定するステップと、前記第３接続線及び前記第４接続線に基づいて、水平面に対する前記目標オブジェクトの第１胴体方向を特定するステップと、前記第５接続線に基づいて、鉛直面に対する前記目標オブジェクトの第２胴体方向を特定するステップと、前記第１胴体方向及び前記第２胴体方向に基づいて、前記目標オブジェクトの前進方向を特定するステップと、を含んでもよい。

上記第３接続線と第４接続線と第５接続線との特定に使用される３次元キーポイント情報は、物理尺度空間における情報である。

具体的に実施する際に、上記第３接続線と第４接続線とでなされた角の平分線の方向を目標オブジェクトの左右方向即ち上記第１胴体方向とし、第５接続線の方向を目標オブジェクトの上下方向即ち上記第２胴体方向としてもよい。その後、第１胴体方向と第２胴体方向とのクロス積を目標オブジェクトの前進方向とする。

上記３次元キーポイント情報のみを用いて複数本の接続線を特定し、その後、特定された各接続線を用いて、水平面に対する目標オブジェクトの第１胴体方向と鉛直面に対する目標オブジェクトの第２胴体方向とを特定し、最後に第１胴体方向及び第２胴体方向を用いて目標オブジェクトの前進方向を特定し、あえて撮影機器の機器パラメータに基づいて前進方向を特定することがなく、即ち、撮影機器の機器パラメータに基づいて歩容分析及び認識を行うことがないため、他のデータ又は機器に対する依存性が強くて汎用化能力が悪いという、歩容分析及び認識に存在する欠陥は、克服される。

上記実施例により、認識して複数の連続する時点における目標オブジェクトの歩容データを取得可能であり、複数の連続する時点における目標オブジェクトの歩容データが認識によって取得された後、認識で得られた歩容データモニタリング及び予測目標オブジェクトの行動に基づいて、具体的な応用において、認識で得られた歩容データを用いて児童又は認知障害を持つ老人の行動を遠隔にモニタリングして予測することにより、児童又は認知障害を持つ老人の人身安全を保障することができる。

本発明は、重心予測方法を更に提供する。当該方法は、目標オブジェクトに対して重心予測を行う単独の端末機器又はサーバに適用されてもよく、無論上記行動予測を行う端末機器又はサーバに適用されてもよい。図５に示すように、本発明に係る重心予測方法可以は、以下のステップＳ５１０を含む。

Ｓ５１０では、目標ビデオセグメントの各フレームの画像における目標オブジェクトの複数の２次元キーポイント情報に基づいて、前記目標オブジェクトの第１重心座標と、前記目標画像における前記目標オブジェクトの複数の３次元キーポイント情報とを特定する。

ここで、目標ビデオセグメントの各フレームの画像における目標オブジェクトの複数の２次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の３次元キーポイント情報を特定することは、上記実施例における方法と同じであるため、ここで繰り返して説明しない。

ここで、具体的にトレーニングされた時間的膨張畳み込みニューラルネットワークを用いて第１重心座標を特定してもよい。ここでの時間的膨張畳み込みニューラルネットワークは、上記３次元キーポイント情報を特定する時間的膨張畳み込みニューラルネットワークと異なり、再度トレーニングされる必要がある。

時間的膨張畳み込みニューラルネットワークを用いて第１重心座標を特定する際に、入力された２次元キーポイント情報に対して正規化処理を行う必要がない。同様に、当該時間的膨張畳み込みニューラルネットワークをトレーニングする際、サンプル２次元キーポイント情報に対して正規化処理を行う必要がない。

本ステップでは、トレーニングされたニューラルネットワークを用いて重心座標を特定し、情報処理及び特定の自動化レベルを向上させ、情報処理及び特定の正確度を向上させることができる。

上記時間的膨張畳み込みニューラルネットワークで特定された第１重心座標が深さ方向（Ｚ方向）において正確であるため、第１重心座標に基づいて目標重心座標を特定する際に、第１重心座標の深さ方向における座標のみを取ってもよい。

Ｓ５２０では、目標画像における前記目標オブジェクトの複数の２次元キーポイント情報及び前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの第２重心座標を特定する。

ここで、例えばＳｏｌｖｅＰｎＰアルゴリズム又は類似する最適化方法を用いて２次元キーポイント情報及び３次元キーポイント情報に基づいて第２重心座標を特定してもよい。上記アルゴリズムで特定された第２重心座標が水平方向（Ｘ方向）及び鉛直方向（Ｙ方向）において正確であるため、第２重心座標に基づいて目標重心座標を特定する際に、第２重心座標の水平方向及び鉛直方向における座標のみを取ってもよい。

上記３次元キーポイント情報は、物理尺度空間における情報である。

Ｓ５３０では、前記第１重心座標及び前記第２重心座標に基づいて、前記目標画像における前記目標オブジェクトの目標重心座標を特定する。

ここで、具体的に、第１重心座標の深さ方向における座標並びに第２重心座標の水平方向及び鉛直方向における座標を前記目標画像における目標オブジェクトの目標重心座標としてもよい。

本実施例では、特定された２つの重心座標も合わせて使用されるため、目標オブジェクトの最終的な目標重心座標は、より正確に特定することができる。

上記実施例により、複数の連続する時点における目標オブジェクトの目標重心座標を取得可能であり、複数の連続する時点における目標オブジェクトの目標重心座標が取得された後、取得された複数の目標重心座標に基づいて、当該複数の連続する時点における目標オブジェクトの変位推定結果（運動軌跡）を特定してもよい。

目標オブジェクトの変位推定結果が特定された後、当該変位推定結果に基づいて目標オブジェクトの後続の運動軌跡を予測してもよい。例えば、具体的な応用において、バスケットボール選手の現在の運動軌跡を利用してこのバスケットボール選手の後続の運動軌跡を予測することにより、対抗戦術を策定してもよい。又は、バスケットボールの試合後、あるバスケットボール選手の運動軌跡を分析し、当該運動軌跡を利用してこのバスケットボール選手の戦術を分析して総括し、対抗戦術を策定してもよい。

また、上記実施例で得られた目標オブジェクトの歩容データを用いて目標オブジェクトの行動を予測し、上記実施例で得られた目標オブジェクトの目標重心座標を用いて目標オブジェクトの運動軌跡を予測した後、予測された目標オブジェクトの行動及び運動軌跡を総合的に考慮し、目標オブジェクトの次の行動に危険が発生するか否かを予測してもよい。例えば、現在予測された児童の行動及び運動軌跡を総合的に考慮し、児童の次の行動の行動特徴情報を予測し、当該行動特徴情報に基づいて児童の次の行動に危険が発生するか否かを特定することにより、マッチングする安全措置対策の実施を容易にする。

上記目標オブジェクトの重心座標を特定するためのニューラルネットワークは、第２ニューラルネットワークとしてもよく、具体的に実施する際に、以下のステップを利用して前記第２ニューラルネットワークをトレーニングしてもよい。

ステップ一では、第２サンプル画像を含む第２サンプルビデオセグメントと、前記第２サンプル画像における第２サンプルオブジェクトの複数の標準３次元キーポイント情報とを取得し、前記第２サンプルビデオセグメントは、前記第２サンプル画像よりも前のＮフレームの画像を更に含む。

ここで、第２サンプル画像は、重心座標を特定すべき画像である。上記標準３次元キーポイント情報は、サンプルマーキング情報として使用される。

具体的に実施する際に、ニューラルネットワークを介して前記第２サンプル画像における第２サンプルオブジェクトの複数の標準３次元キーポイント情報を特定してもよい。当該複数の標準３次元キーポイント情報は、例えば１７個のキーポイントの情報を含むオブジェクト骨格であってもよく、物理尺度空間における情報である。

ステップ二では、前記複数の標準３次元キーポイント情報に基づいて、前記第２サンプルビデオセグメントの各フレームの画像における前記第２サンプルオブジェクトの複数のサンプル２次元キーポイント情報を特定する。

ここで、上記標準３次元キーポイント情報を用いて逆投影してサンプル２次元キーポイント情報を取得してもよい。例えば、以下のステップを利用して逆投影処理を行ってもよい。

つまり、前記第２サンプルビデオセグメントを撮影する撮影機器の機器パラメータ情報、及び第２サンプルビデオセグメントにおける各フレームの画像のＲＧＢ画面を取得するステップと、前記機器パラメータ情報、各ＲＧＢ画面及び前記複数の標準３次元キーポイント情報に基づいて、前記第２サンプルビデオセグメントの各フレームの画像における前記第２サンプルオブジェクトの複数のサンプル２次元キーポイント情報をそれぞれ特定するステップと、を利用する。

また、具体的に実施する際に、逆投影処理で得られたサンプル２次元キーポイント情報を利用しなくてもよい。例えば、２次元キーポイント検出ネットワークをそのまま利用して各フレームの画像における第２サンプルオブジェクトに対して検出を行い、前記第２サンプルビデオセグメントの各フレームの画像における第２サンプルオブジェクトの複数のサンプル２次元キーポイント情報を取得してもよい。

ステップ三では、前記複数の標準３次元キーポイント情報に基づいて、前記第２サンプルオブジェクトの標準重心座標を特定する。

ステップ四では、特定された前記複数のサンプル２次元キーポイント情報をトレーニングすべき第２初期ニューラルネットワークに入力し、入力された複数のサンプル２次元キーポイント情報を前記第２初期ニューラルネットワークを介して処理し、前記第２サンプル画像における前記第２サンプルオブジェクトの予測重心座標を出力する。

ステップ五では、前記予測重心座標と前記標準重心座標との間の誤差情報に基づいて、前記第２初期ニューラルネットワークのネットワークパラメータを調整し、トレーニングの完了後で前記第２ニューラルネットワークを取得する。

上記では、ステップ一における複数の標準３次元キーポイント情報が物理尺度空間の情報であり、当該物理尺度空間の標準３次元キーポイント情報が取得された後、直接当該物理尺度空間の標準３次元キーポイント情報を用いて物理尺度空間の標準重心座標を特定し、前記予測重心座標と物理尺度空間の標準重心座標との間の誤差情報を用いて、前記第２初期ニューラルネットワークのネットワークパラメータを調整してもよい。このように、トレーニングされた第２ニューラルネットワークは、使用されるとき、直接予測して得られた重心座標も物理尺度空間の情報である。

幾つかの実施例において、上記第１ニューラルネットワークは、時間的膨張畳み込みニューラルネットワークを含んでもよく、目標画像における前記３次元キーポイント情報を特定するために用いられないニューロンは、前記第１ニューラルネットワークから除去されている。

時間的膨張畳み込みニューラルネットワークを用いて３次元キーポイント情報を特定することにより、単一フレームの画像検出において２次元キーポイント情報から３次元キーポイント情報に変換するときに現れやすい多値多義性の欠陥は、克服可能である。また、本実施例では、時間的膨張畳み込みニューラルネットワークを簡素化してその中の目標画像における３次元キーポイント情報を特定するために用いられないニューロンを除去したため、２次元キーポイント情報から３次元キーポイント情報に変換するときに存在する、時間がかかってリアルタイム性が悪いという欠陥は、克服することができ、歩容分析及び認識の効率の向上に有利である。具体的に、本発明における簡素化された時間的膨張畳み込みニューラルネットワークは、家庭用コンピュータにおいて、７２０Ｐの各フレームの画像について、２次元キーポイント情報から３次元キーポイント情報への変換を１０ミリ秒以内に完了することができる。

また、上記第２ニューラルネットワークは、時間的膨張畳み込みニューラルネットワークを含んでもよく、目標画像における重心座標を特定するために用いられないニューロンは、前記第２ニューラルネットワークから除去されている。

上記では、時間的膨張畳み込みニューラルネットワークを簡素化してその中の目標画像における重心座標を特定するために用いられないニューロンを除去したため、重心座標を特定する過程に存在する、時間がかかってリアルタイム性が悪いという欠陥は、克服することができる。

また、第１ニューラルネットワークと第２ニューラルネットワークとにおけるニューロンを除去せず、その中の、３次元キーポイント情報と重心座標とを特定するためのニューロンのみを使用してデータ処理を行い、他のニューロンを使用しない。図６Ａに示す時間的膨張畳み込みニューラルネットワークは、全てのニューロンを使用して３次元キーポイント情報を特定し、図６Ｂに示す時間的膨張畳み込みニューラルネットワークは、目標画像における前記３次元キーポイント情報を特定するためのニューロンのみを使用して３次元キーポイント情報を特定する。

本発明の実施例は、歩容認識方法を更に提供する。当該方法は、目標オブジェクトに対して歩容認識を行う端末機器又はサーバに適用される。具体的に、図７に示すように、本発明の実施例に係る歩容認識方法は、以下のステップを含む。

Ｓ７１０では、複数の目標ビデオセグメントを取得し、各目標ビデオセグメントは、目標画像と前記目標画像よりも前のＮフレームの画像とを含み、Ｎは、正整数である。

ここで、目標画像は、目標ビデオセグメントの最後１フレームの画像であってもよく、歩容認識すべき画像である。即ち、本実施例では、目標画像における目標オブジェクトの歩容データを特定してもよい。

目標ビデオセグメントは、歩容認識を行う端末機器が自身のカメラヘッド等の撮影機器を用いて撮影したものであってもよく、他の撮影機器が撮影したものであってもよい。他の撮影機器は、撮影した後、目標ビデオセグメントを歩容認識を行う端末機器又はサーバへ伝送すればよい。

上記Ｎは、具体的な応用場面に応じて柔軟に設定されてもよく、例えば、２７と設定されてもよい。

Ｓ７２０では、各目標ビデオセグメントにおける目標オブジェクトの複数の２次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の３次元キーポイント情報を特定する。

このステップが実行される前に、まず、目標ビデオセグメントの各フレームの画像における目標オブジェクトの複数の２次元キーポイント情報を特定する必要がある。具体的に実施する際に、２次元キーポイント検出ネットワークを介して各フレームの画像に対して検出を行い、各フレームの画像における複数の２次元キーポイント情報を特定してもよい。

各フレームの画像における目標オブジェクトの複数の２次元キーポイント情報が特定された後、例えば時間的膨張畳み込みニューラルネットワークを介して、特定された複数の２次元キーポイント情報に基づいて、目標画像における目標オブジェクトの複数の３次元キーポイント情報を特定してもよい。

Ｓ７３０では、前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定する。

幾つかの実施例において、目標ビデオセグメントを撮影する撮影機器の機器パラメータに依存せずに、３次元キーポイント情報における目標オブジェクトの股部、肩部、骨盤、頸椎等に対応する３次元キーポイント情報を用いて目標オブジェクトの前進方向を特定してもよい。

上記前進方向は、物理尺度空間における目標オブジェクトの前進方向であり、３次元キーポイント情報は、ネットワーク尺度空間における目標オブジェクトの情報であってもよく、物理尺度空間における目標オブジェクトの情報であってもよい。３次元キーポイント情報がネットワーク尺度空間における目標オブジェクトの情報である場合に、まず、ネットワーク尺度空間における３次元キーポイント情報を物理尺度空間におけるものに変換する必要がある。

Ｓ７４０では、前記複数の３次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識する。

幾つかの実施例において、前記複数の３次元キーポイント情報がネットワーク尺度空間の３次元キーポイント情報である場合に、前記複数の３次元キーポイント情報に基づいて前記目標オブジェクトの前進方向を特定する前に、上記歩容認識方法は、前記目標オブジェクトの物理サイズ情報を取得するステップと、前記目標オブジェクトの物理サイズ情報に基づいて、ネットワーク尺度空間の３次元キーポイント情報を物理尺度空間の３次元キーポイント情報に更新するステップと、を更に含む。

上記歩容認識方法の実施例において、複数の３次元キーポイント情報、目標オブジェクトの前進方向、歩容データ等の実施案は、上記行動予測方法実施例における対応する実施案と同じであり、奏する技術効果も同じであるため、ここで繰り返して説明しない。

上記行動予測方法に相応し、本発明は、行動予測装置を更に提供する。当該装置は、行動予測を行う端末機器又はサーバに適用され、各モジュールが上記方法における同じ方法ステップを実施可能であり、且つ同じ有利な作用効果を奏することができるため、その中の同じ部分について、本発明では繰り返し説明しない。

図８に示すように、本発明に係る行動予測装置は、以下のモジュールを備えてもよい。

画像取得モジュール８１０は、複数の目標ビデオセグメントを取得し、各目標ビデオセグメントは、目標画像と前記目標画像よりも前のＮフレームの画像とを含む。Ｎは、正整数である。

画像処理モジュール８２０は、各目標ビデオセグメントにおける目標オブジェクトの複数の２次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの歩容データ及び目標重心座標を特定する。

予測モジュール８３０は、前記歩容データ及び前記目標重心座標に基づいて、前記目標オブジェクトの所定時間帯における行動特徴情報を予測する。

情報処理モジュール８４０は、前記行動特徴情報に基づいて、前記目標オブジェクトの前記所定時間帯における安全特徴情報と前記安全特徴情報にマッチングする安全措置対策とを特定する。

上記歩容認識方法に相応し、本発明は、歩容認識装置を更に提供する。当該装置は、歩容認識を行う端末機器又はサーバに適用され、各モジュールが上記方法における同じ方法ステップを実施可能であり、且つ同じ有利な作用効果を奏することができるため、その中の同じ部分について、本発明では繰り返し説明しない。

具体的に、図９に示すように、本発明に係る歩容認識装置は、以下のモジュールを備えてもよい。

ビデオ取得モジュール９１０は、複数の目標ビデオセグメントを取得し、各目標ビデオセグメントは、目標画像と前記目標画像よりも前のＮフレームの画像とを含む。Ｎは、正整数である。

キーポイント処理モジュール９２０は、各目標ビデオセグメントにおける目標オブジェクトの複数の２次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の３次元キーポイント情報を特定する。

前進方向特定モジュール９３０は、前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定する。

歩容認識モジュール９４０は、前記複数の３次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識する。

本発明の実施例は、電子機器を提供する。図１０に示すように、前記電子機器は、プロセッサ１００１と、メモリ１００２と、バス１００３とを備え、前記メモリ１００２には、前記プロセッサ１００１で実行され得る機器読み取り可能な指令が記憶され、電子機器が運転されたときに、前記プロセッサ１００１と前記メモリ１００２とは、バス１００３を介して互いに通信される。

前記機器読み取り可能な指令が前記プロセッサ１００１によって実行されたときに、前記プロセッサ１００１は、以下の行動予測方法を実施する。当該行動予測方法は、

それぞれが目標画像と前記目標画像よりも前のＮ（Ｎは正整数）フレームの画像とを含む複数の目標ビデオセグメントを取得するステップと、

各目標ビデオセグメントにおける目標オブジェクトの複数の２次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの歩容データ及び目標重心座標を特定するステップと、

前記歩容データ及び前記目標重心座標に基づいて、前記目標オブジェクトの所定時間帯における行動特徴情報を予測するステップと、

前記行動特徴情報に基づいて、前記目標オブジェクトの前記所定時間帯における安全特徴情報と前記安全特徴情報にマッチングする安全措置対策とを特定するステップと、を含む。

又は、前記機器読み取り可能な指令が前記プロセッサ１００１によって実行されたときに、前記プロセッサ１００１は、以下の歩容認識方法を実施する。当該歩容認識方法は、

各目標ビデオセグメントにおける目標オブジェクトの複数の２次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の３次元キーポイント情報を特定するステップと、

前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定するステップと、

前記複数の３次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識するステップと、を含む。

その他、機器読み取り可能な指令がプロセッサ１００１によって実行されたときに、前記プロセッサ１００１に上記方法部分に記述される何れか１つの実施形態における方法内容を実施させてもよく、ここで繰り返して説明しない。

本発明の実施例は、上記方法及び装置に対応するコンピュータプログラム製品を更に提供する。当該コンピュータプログラム製品は、プログラムコードが記憶されるコンピュータ可読記憶媒体を含み、プログラムコードに含まれる指令は、上記方法実施例における方法を実行するために用いられてもよく、具体的な実施は、方法実施例を参照すればよく、ここで繰り返し説明しない。

上記各実施例に対する記述に各実施例同士の相違点を強調する傾向があり、同じ又は類似するところは、互いに参照可能である。簡潔のために、本文で繰り返し説明しない。

当業者であれば明白で理解できるように、記述の利便性及び簡潔性のために、上述した装置の具体的な動作手順は、方法実施例における対応する手順を参照可能であり、本発明では繰り返して説明しない。本発明に係る幾つかの実施例において、開示された機器及び方法が他の方式にて実現され得ることは、理解されるべきである。上述した装置実施例が単に模式的なものであり、例えば、前記モジュールの区分が、単に１種の論理機能区分であり、実際に実施するときに別の区分方式もあり得る。更に例えば、複数のモジュール或いはユニットは、組み合わせられてもよく、又は、別のシステムに統合されてもよく、又は、幾つかの特徴が略され、若しくは実行しないようにしてもよい。また、示され或いは議論された互いの結合、直接結合又は通信接続は、幾つかの通信インターフェース、装置又はモジュールを介する間接結合又は通信接続であってもよく、電気的なもの、機械的なもの或いは他の形態であってもよい。

上記分離部品として説明されたモジュールが物理的に分離されるものであってもよくでなくてもよい。また、モジュールとして表示された部品は、物理手段であってもでなくてもよい。更に、それらの手段は、１箇所に位置してもよく、複数のネットワークセルに分散してもよい。実際の需要に応じてその中の一部又は全部の手段を選択して本発明の実施例の目的を果たすことが可能である。

また、本発明の各実施例における各機能手段は、全部で１つの処理手段に集積されてもよく、各手段がそれぞれ単独で物理的に存在してもよく、２つ或いは２つ以上の手段が１つの手段に集積されてもよい。

上記機能は、ソフトウェア機能手段の形式で実現され、且つ独立の製品として販売や使用されるときに、プロセッサで実行され得る不揮発性のコンピュータ可読記憶媒体に記憶されてもよい。このような理解を基に、本発明の実施例は本質的に又は本発明の実施例の全部又は一部がコンピュータソフトウェア製品の形式で体現されてもよい。当該コンピュータソフトウェア製品は、１つの記憶媒体に記憶され、幾つかの指令を含むことで一台のコンピュータ機器（パソコン、サーバ又はネットワーク機器等であってもよい）に本発明の各実施例の前記方法の全部或いは一部のステップを実行させる。上述した記憶媒体は、Ｕディスク、モバイルハードディスク、ＲＯＭ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、読み出し専用メモリ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ランダムアクセスメモリ）、磁気ディスク又は光ディスク等の、プログラムコードを格納可能な各種の媒体を含む。

上述したのが単に本発明の具体的な実施形態であるが、本発明の保護範囲は、これに限定されない。当技術分野に精通している如何なる技術者が本発明に開示された技術範囲内で容易に想到し得る変更又は置換は、何れも本発明の保護範囲内に含まれるべきである。したがって、本発明の保護範囲は、請求項の保護範囲に準じるべきである。

本願は、２０２０年２月２８日に提出された、出願番号が２０２０１０１２９９３６．Ｘであって発明名称が「行動予測方法及び装置、歩容認識方法及び装置」である中国特許出願の優先権を要求し、当該中国特許出願に開示された全ての内容が引用によって本願に組み込まれる。

Claims

それぞれが目標画像と前記目標画像よりも前のＮ（Ｎは正整数）フレームの画像とを含む複数の目標ビデオセグメントを取得するステップと、
各目標ビデオセグメントにおける目標オブジェクトの複数の２次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの歩容データ及び目標重心座標を特定するステップと、
前記歩容データ及び前記目標重心座標に基づいて、前記目標オブジェクトの所定時間帯における行動特徴情報を予測するステップと、を含むことを特徴とする行動予測方法。
前記各目標ビデオセグメントにおける目標オブジェクトの複数の２次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの歩容データ及び目標重心座標を特定することは、
各目標ビデオセグメントの各フレームの画像における前記目標オブジェクトの複数の２次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の３次元キーポイント情報及び前記目標オブジェクトの第１重心座標を特定することと、
前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定することと、
前記複数の３次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識することと、
前記目標画像における前記目標オブジェクトの複数の２次元キーポイント情報と前記複数の３次元キーポイント情報とに基づいて、前記目標オブジェクトの第２重心座標を特定することと、
前記第１重心座標及び前記第２重心座標に基づいて、前記目標画像における前記目標オブジェクトの目標重心座標を特定することと、を含むことを特徴とする請求項１に記載の行動予測方法。
前記目標画像における前記目標オブジェクトの複数の３次元キーポイント情報を特定することは、
各目標ビデオセグメントにおける各フレームの画像について、当該フレームの画像における前記目標オブジェクトの複数の２次元キーポイント情報に基づいて、当該フレームの画像における前記目標オブジェクトの検出枠を特定することと、
前記検出枠のサイズ情報と前記検出枠の中心点の座標とに基づいて、当該フレームの画像における各２次元キーポイント情報に対応する座標情報に対して正規化処理を行い、当該フレームの画像における目標オブジェクトの複数の目標２次元キーポイント情報を取得することと、
前記各フレームの画像における前記目標オブジェクトの複数の目標２次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の３次元キーポイント情報を特定することと、を含むことを特徴とする請求項２に記載の行動予測方法。
前記各フレームの画像における前記目標オブジェクトの複数の目標２次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の３次元キーポイント情報を特定することは、
前記各フレームの画像における前記目標オブジェクトの複数の目標２次元キーポイント情報をトレーニングされた第１ニューラルネットワークに入力し、入力された複数の目標２次元キーポイント情報に対して前記第１ニューラルネットワークを介して処理し、前記目標画像における前記目標オブジェクトの複数の３次元キーポイント情報を特定することを含むことを特徴とする請求項３に記載の行動予測方法。
前記第１ニューラルネットワークをトレーニングするステップを更に含み、
前記第１ニューラルネットワークをトレーニングするステップは、
第１サンプル画像を含むとともに前記第１サンプル画像よりも前のＮフレームの画像も含む第１サンプルビデオセグメントと、前記第１サンプル画像における第１サンプルオブジェクトの複数の標準３次元キーポイント情報とを取得することと、
前記第１サンプルオブジェクトの物理サイズ情報に基づいて、各標準３次元キーポイント情報の、ネットワーク尺度空間に対応する目標標準３次元キーポイント情報を特定することと、
前記複数の標準３次元キーポイント情報に基づいて、前記第１サンプルビデオセグメントの各フレームの画像における前記第１サンプルオブジェクトの複数のサンプル２次元キーポイント情報を特定することと、
特定された前記複数のサンプル２次元キーポイント情報をトレーニングすべき第１ニューラルネットワークに入力し、入力された複数のサンプル２次元キーポイント情報に対して前記第１ニューラルネットワークを介して処理し、前記第１サンプル画像における前記第１サンプルオブジェクトの複数の予測３次元キーポイント情報を特定することと、
前記複数の予測３次元キーポイント情報と前記複数の目標標準３次元キーポイント情報との間の誤差情報に基づいて、前記第１ニューラルネットワークのネットワークパラメータを調整することと、を含むことを特徴とする請求項４に記載の行動予測方法。
前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定することは、
前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの左股部と右股部の間の第１接続線、及び前記目標オブジェクトの左肩部と右肩部の間の第２接続線を特定することと、前記第１接続線と前記第２接続線との間の最小誤差平面を特定することと、前記最小誤差平面と水平面との交線に基づいて、前記目標オブジェクトの前進方向を特定することと、を含み、又は、
前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの左股部と右股部の間の第３接続線であって前記第１接続線である第３接続線、前記目標オブジェクトの左肩部と右肩部の間の第４接続線であって前記第２接続線である第４接続線、及び前記目標オブジェクトの骨盤点と頸椎点の間の第５接続線を特定することと、前記第３接続線及び前記第４接続線に基づいて、水平面に対する前記目標オブジェクトの第１胴体方向を特定することと、前記第５接続線に基づいて、鉛直面に対する前記目標オブジェクトの第２胴体方向を特定することと、前記第１胴体方向及び前記第２胴体方向に基づいて、前記目標オブジェクトの前進方向を特定することと、を含むことを特徴とする請求項２に記載の行動予測方法。
前記複数の３次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識することは、前記複数の３次元キーポイント情報に基づいて、前記前進方向における前記目標オブジェクトの両足の間の接続線の第１投影の長さ情報を特定し、前記目標オブジェクトの歩幅情報とすることとを含み、
及び／又は、
前記複数の３次元キーポイント情報に基づいて、前記前進方向に垂直な方向における前記目標オブジェクトの両足の間の接続線の第２投影の長さ情報を特定し、前記目標オブジェクトの歩隔情報とすることと、を含むことを特徴とする請求項２又は６に記載の行動予測方法。
前記各目標ビデオセグメントの各フレームの画像における前記目標オブジェクトの複数の２次元キーポイント情報に基づいて、前記目標オブジェクトの第１重心座標を特定することは、
各目標ビデオセグメントの各フレームの画像における前記目標オブジェクトの複数の２次元キーポイント情報をトレーニングされた第２ニューラルネットワークに入力し、入力された複数の２次元キーポイント情報に対して前記第２ニューラルネットワークを介して処理し、前記目標オブジェクトの第１重心座標を特定することを含むことを特徴とする請求項２に記載の行動予測方法。
前記第２ニューラルネットワークをトレーニングするステップを更に含み、
前記第２ニューラルネットワークをトレーニングするステップは、
第２サンプル画像を含むとともに前記第２サンプル画像よりも前のＮフレームの画像も含む第２サンプルビデオセグメントと、前記第２サンプル画像における第２サンプルオブジェクトの複数の標準３次元キーポイント情報とを取得することと、
前記複数の標準３次元キーポイント情報に基づいて、前記第２サンプルビデオセグメントの各フレームの画像における前記第２サンプルオブジェクトの複数のサンプル２次元キーポイント情報を特定することと、
前記複数の標準３次元キーポイント情報に基づいて、前記第２サンプルオブジェクトの標準重心座標を特定することと、
特定された前記複数のサンプル２次元キーポイント情報をトレーニングすべき第２ニューラルネットワークに入力し、入力された複数のサンプル２次元キーポイント情報に対して前記第２ニューラルネットワークを介して処理し、前記第２サンプル画像における前記第２サンプルオブジェクトの予測重心座標を出力することと、
前記予測重心座標と前記標準重心座標との間の誤差情報に基づいて、前記第２ニューラルネットワークのネットワークパラメータを調整することと、を含むことを特徴とする請求項８に記載の行動予測方法。
それぞれが目標画像と前記目標画像よりも前のＮ（Ｎは正整数）フレームの画像とを含む複数の目標ビデオセグメントを取得するステップと、
各目標ビデオセグメントにおける目標オブジェクトの複数の２次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の３次元キーポイント情報を特定するステップと、
前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定するステップと、
前記複数の３次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識するステップと、を含み、
前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定するステップは、
前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの左股部と右股部の間の第１接続線、及び前記目標オブジェクトの左肩部と右肩部の間の第２接続線を特定することと、前記第１接続線と前記第２接続線との間の最小誤差平面を特定することと、前記最小誤差平面と水平面との交線に基づいて、前記目標オブジェクトの前進方向を特定することと、を含み、又は、
前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの左股部と右股部の間の第３接続線、前記目標オブジェクトの左肩部と右肩部の間の第４接続線、及び前記目標オブジェクトの骨盤点と頸椎点の間の第５接続線を特定することと、前記第３接続線及び前記第４接続線に基づいて、水平面に対する前記目標オブジェクトの第１胴体方向を特定することと、前記第５接続線に基づいて、鉛直面に対する前記目標オブジェクトの第２胴体方向を特定することと、前記第１胴体方向及び前記第２胴体方向に基づいて、前記目標オブジェクトの前進方向を特定することと、を含む、
ことを特徴とする歩容認識方法。
前記歩容データは、
前記複数の３次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識するステップは、前記複数の３次元キーポイント情報に基づいて、前記前進方向における前記目標オブジェクトの両足の間の接続線の第１投影の長さ情報を特定し、前記目標オブジェクトの歩幅情報とすることと、を含み、
及び／又は、
前記複数の３次元キーポイント情報に基づいて、前記前進方向に垂直な方向における前記目標オブジェクトの両足の間の接続線の第２投影の長さ情報を特定し、前記目標オブジェクトの歩隔情報とすることと、を含むことを特徴とする請求項１０に記載の歩容認識方法。
それぞれが目標画像と前記目標画像よりも前のＮ（Ｎは正整数）フレームの画像とを含む複数の目標ビデオセグメントを取得するためのビデオ取得モジュールと、
各目標ビデオセグメントにおける目標オブジェクトの複数の２次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の３次元キーポイント情報を特定するためのキーポイント処理モジュールと、
前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定するための前進方向特定モジュールと、
前記複数の３次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識するための歩容認識モジュールと、を備え、
前進方向特定モジュールは、前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの左股部と右股部の間の第１接続線、及び前記目標オブジェクトの左肩部と右肩部の間の第２接続線を特定し、前記第１接続線と前記第２接続線との間の最小誤差平面を特定し、前記最小誤差平面と水平面との交線に基づいて、前記目標オブジェクトの前進方向を特定し、又は、
前記複数の３次元キーポイント情報に基づいて、前記目標オブジェクトの左股部と右股部の間の第３接続線、前記目標オブジェクトの左肩部と右肩部の間の第４接続線、及び前記目標オブジェクトの骨盤点と頸椎点の間の第５接続線を特定し、前記第３接続線及び前記第４接続線に基づいて、水平面に対する前記目標オブジェクトの第１胴体方向を特定し、前記第５接続線に基づいて、鉛直面に対する前記目標オブジェクトの第２胴体方向を特定し、前記第１胴体方向及び前記第２胴体方向に基づいて、前記目標オブジェクトの前進方向を特定する、
ことを特徴とする歩容認識装置。
それぞれが目標画像と前記目標画像よりも前のＮ（Ｎは正整数）フレームの画像とを含む複数の目標ビデオセグメントを取得するための画像取得モジュールと、
各目標ビデオセグメントにおける目標オブジェクトの複数の２次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの歩容データ及び目標重心座標を特定するための画像処理モジュールと、
前記歩容データ及び前記目標重心座標に基づいて、前記目標オブジェクトの所定時間帯における行動特徴情報を予測するための予測モジュールと、を備えることを特徴とする行動予測装置。
電子機器であって、
プロセッサと、メモリと、バスとを備え、
前記メモリには、前記プロセッサで実行され得る機器読み取り可能な指令が記憶され、前記電子機器が動作しているとき、前記プロセッサと前記メモリとは、前記バスを介して互いに通信され、前記プロセッサは、前記機器読み取り可能な指令を実行することにより、請求項１から９の何れか一項に記載の行動予測方法、あるいは、請求項１０又は１１に記載の歩容認識方法を実施することを特徴とする電子機器。
コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、
前記コンピュータプログラムがプロセッサによって運転されたときに、前記プロセッサは、請求項１から９の何れか一項に記載の行動予測方法、あるいは、請求項１０又は１１に記載の歩容認識方法を実施することを特徴とするコンピュータ可読記憶媒体。