JP7419964B2

JP7419964B2 - 人体動作認識装置及び方法、電子機器

Info

Publication number: JP7419964B2
Application number: JP2020086788A
Authority: JP
Inventors: イヌ・ルォイ; タヌ・ジミン; ジャン・ゾォンイェヌ; ディン・ラヌ
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-06-21
Filing date: 2020-05-18
Publication date: 2024-01-23
Anticipated expiration: 2040-05-18
Also published as: CN112115746B; JP2021002332A; CN112115746A

Description

本発明は、情報技術分野に関する。

近年、深層学習（deep learning）のかげで、コンピュータビジョン分野における研究が大きく進展している。深層学習とは、階層的ニュラールネットワーク上で各種の機械学習アルゴリズムを用いて画像、テキストなどの各種の問題を解決するためのアルゴリズム集合を指す。深層学習の核心は特徴学習であり、階層的ニュラールネットワークを用いて階層的特徴情報を得ることにより、手動で特徴を設計する必要があるという従来の難題を解決することができる。

安全監視が深層学習の重要な応用の1つであり、また、人体の動作及び行為の認識が安全監視の重要な構成部分である。

しかしながら、人体の動作が比較的複雑であり、応用のシナリオも多種多様であるため、従来の動作認識方法は、処理の速度が遅く、認識の正確度が低く、まは、各種のシナリオ及びニーズに柔軟に対応することができない。

本発明の実施例は、人体動作認識装置及び方法、電子機器を提供する。まず、入力画像において人体の境界枠（border）を検出し、それから、検出された境界枠において選択的に人体のキーポイントに基づいて人体の動作を検出し及び／又は畳み込みニュラールネットワークに基づいて人体の動作を検出し、このように、段階的な検出方法を採用することで、処理の速度が速く且つ認識の正確度が高く、また、2種類の検出方法を組み合わせることで、異なる状況に基づいて異なる検出方法を選択することもでき、これにより、各種のシナリオ及びニーズに柔軟に対応することができる。

本発明の実施例の第一側面によれば、人体の動作を認識する装置が提供され、前記装置は、
入力画像における人体の境界枠を検出するターゲット検出ユニット；
検出された前記人体の境界枠において、前記人体のキーポイントに基づいて前記人体の特徴を計算し、そして、前記人体の特徴に基づいて前記人体の動作を検出し、第一認識結果を得る第一検出ユニット；
検出された前記人体の境界枠において、畳み込みニュラールネットワークに基づいて前記人体の動作を検出し、第二認識結果を得る第二検出ユニット；及び
前記第一検出ユニット及び前記第二検出ユニットのうちの少なくとも1つを選択して前記人体の動作を検出し、前記第一認識結果及び前記第二認識結果のうちの少なくとも1つを得る選択ユニットを含む。

本発明の実施例の第二側面によれば、電子機器が提供され、前記電子機器は、本発明の実施例の第一側面に記載の装置を含む。

本発明の実施例の第三側面によれば、人体の動作を認識する方法が提供され、前記方法は、
入力画像における人体の境界枠を検出し；及び
以下の2種類の処理、即ち、
検出された前記人体の境界枠において、前記人体のキーポイントに基づいて前記人体の特徴を計算し、前記人体の特徴に基づいて前記人体の動作を検出し、第一認識結果を取得し；及び
検出された前記人体の境界枠において、畳み込みニュラールネットワークに基づいて前記人体の動作を検出し、第二認識結果を取得する
という2種類の処理のうち少なくとも1つを選択して実行することを含む、
本発明の有益な効果は、次の通りであり、即ち、まず、入力画像において人体の境界枠（border）を検出し、それから、検出された境界枠において選択的に人体のキーポイントに基づいて人体の動作を検出し及び／又は畳み込みニュラールネットワークに基づいて人体の動作を検出し、このように、段階的な検出方法を採用することで、処理の速度が速く且つ認識の正確度が高く、また、2種類の検出方法を組み合わせることで、異なる状況に基づいて異なる検出方法を選択することもでき、これにより、各種のシナリオ及びニーズに柔軟に対応することができる。

本発明の実施例1における人体動作認識装置を示す図である。本発明の実施例1における第一検出ユニット102を示す図である。本発明の実施例1における人体のキーポイントの検出結果を示す図である。本発明の実施例1においてキーポイントをもとに人体の特徴を得ることを示す図である。本発明の実施例1において人体動作認識装置100を用いて人体動作認識を行うことを示す図である。本発明の実施例2における電子機器を示す図である。本発明の実施例2における電子機器のシステム構成を示すブロック図である。本発明実施例3における人体動作認識方法を示す図である。

以下、添付した図面を参照しながら、本発明を実施するための好適な形態について詳細に説明する。

本発明の実施例1では、人体動作認識装置が提供される。図1は、本発明の実施例1における人体動作認識装置を示す図である。

図1に示すように、人体動作認識装置100は、以下のものを含む。

ターゲット検出ユニット101：入力画像における人体の境界枠を検出し；
第一検出ユニット102：検出された人体の境界枠において、人体のキーポイントに基づいて人体の特徴を計算し、そして、人体の特徴に基づいて人体の動作を検出し、第一認識結果を取得し；
第二検出ユニット103：検出された人体の境界枠において、畳み込みニュラールネットワークに基づいて人体の動作を検出し、第二認識結果を取得し；及び
選択ユニット104：第一検出ユニット102及び第二検出ユニット103のうちの少なくとも1つを選択して人体の動作を検出し、第一認識結果及び第二認識結果のうちの少なくとも1つを取得する。

上述の実施例から分かるように、まず、入力画像において人体の境界枠を検出し、それから、検出された境界枠において選択的に人体のキーポイントに基づいて人体の動作を検出し及び／又は畳み込みニュラールネットワークに基づいて人体の動作を検出し、このように、段階的な検出方法を行うことで、処理の速度が速く且つ認識の正確度が高く、また、2種類の検出方法を組み合わせることで、異なる状況に基づいて異なる検出方法を選択することもでき、これにより、各種のシナリオ及びビーズに柔軟に対応することができる。

本実施例では、該入力画像は、リアルタイム又は事前に得られた画像であって良い。例えば、該入力画像は、監視装置が撮ったビデオ画像であり、該ビデオ画像の各フレームに対応する画像は、入力画像とされても良い。

本実施例では、ターゲット検出ユニット101は、入力画像における人体の境界枠を検出するために用いられる。ターゲット検出ユニット101は、各種のターゲット検出方法、例えば、Faster R-CNN、FPN、Yoloネットワークなどを用いて検出を行うことができる。

本実施例では、異なるニーズに応じて、異なるネットワークを用いて検出を行っても良く、例えば、処理の速度への要求が高いときに、Yoloネットワークを採用しても良く、認識の正確度への要求が高いときに、Faster R-CNNネットワークを採用しても良い。

ターゲット検出ユニット101により、入力画像に少なくとも1つの人体が存在するときに、少なくとも1つの人体の境界枠を検出することができる。人体の境界枠を検出した後に、選択ユニット104は、第一検出ユニット102及び第二検出ユニット103のうちの少なくとも1つを選択して人体の動作を検出し、これにより、第一認識結果及び第二認識結果のうちの少なくとも1つを得ることができる。

本実施例では、選択ユニット104は、実際のニーズ又は応用シナリオに基づいて、第一検出ユニット102及び第二検出ユニット103のうちの少なくとも1つを選択して人体の動作を検出し、これにより、第一認識結果及び第二認識結果のうちのの少なくとも1つを得ることができる。ターゲット検出ユニット101が入力画像において複数の人体の複数の境界枠を検出したときに、第一検出ユニット102及び／又は第二検出ユニット103は、選択ユニット104の選択結果に基づいて、複数の境界枠に対して逐一検出を行うことができる。

例えば、簡単な動作のみを検出する必要があるときに、例えば、「歩く」、「立つ」、「座る」などの簡単な胴体の動作を検出するときに、選択ユニット104は、第二検出ユニット103を選択して人体の動作を検出し、第二認識結果を出力しても良い。

本実施例では、第二検出ユニット103は、検出された人体の境界枠において、畳み込みニュラールネットワーク（CNN）に基づいて、人体の動作を検出し、第二認識結果を得ることができる。

本実施例では、流行っているCNNネットワークを用いて胴体の動作の検出を実現しても良く、例えば、AlexNetネットワークを用いて検出を行うことができる。

本実施例では、該CNNネットワークを訓練するときに、事前に訓練データ集合をビルドしても良く、該訓練データ集合は、動作が「歩く」、「立つ」、「座る」、「走る」、「蹲む」及び「横たわる」とラベル付けされた人体の画像を含み、これらの画像は、オープンデータ集合から得ることができる。

また、例えば、簡単な動作及び複雑な動作を同時に検出する必要がある場合、例えば、「歩く」、「立つ」、「座る」などの簡単な胴体の動作以外に、さらに「上を見る」や「手を挙げる」などの複雑なローカル動作を含む場合、選択ユニット104は、第一検出ユニット102を選択して人体の動作を検出し、第一認識結果を出力しても良い。或いは、第一検出ユニット102及び第二検出ユニット103の両方を選択して同時に検出を行い、第一認識結果及び第二認識結果を出力することもできる。

本実施例では、第一検出ユニット102は、検出された人体の境界枠において、人体のキーポイントに基づいて人体の特徴を計算し、そして、人体の特徴に基づいて人体の動作を検出し、これにより、第一認識結果を得ることができる。

図2は、本発明の実施例1における第一検出ユニット102を示す図である。図2に示すように、第一検出ユニット102は、以下のものを含む。

第一検出モジュール201：検出された人体の境界枠において人体のキーポイントを検出し；
計算モジュール202：検出された人体のキーポイントに基づいて人体の特徴を計算し；及び
第二検出モジュール203：計算された人体の特徴に基づいて、分類器及び／又は所定のルールを用いて、人体の動作を検出することで、第一認識結果を得る。

本実施例では、第一検出モジュール201は、各種の方法によって人体のキーポイント（key-points）を検出することができ、例えば、第一検出モジュール201は、CPN（Cascaded Pyramid Network）を用いて人体のキーポイントを検出しても良く、又は、Open-poseやAlpha-poseなどの方法により検出を行っても良い。

本実施例では、人体のキーポイントは、人体の複数の部位の所在する位置をそれぞれ示す複数のポイントを含んでも良く、例えば、人体の2つの耳、2つの目、鼻、2つの肩、2つの肘、2つの手首、2つの骨盤部、2つの膝及び2つの足首をそれぞれ示すポイントである。

図3は、本発明の実施例1における人体のキーポイントの検出結果を示す図である。図3に示すように示、1つの人体の境界枠において、CPNにより、人体の各部位を示すキーポイントを検出し、そして、これらのキーポイントの位置情報を出力することができる。

本実施例では、計算モジュール202は、第一検出モジュール201により検出された人体のキーポイントに基づいて人体の特徴を計算し、人体の特徴は、例えば、人体の複数の部位の所在する位置をそれぞれ示す複数のポイントの2次元座標、及び、複数のポイントを結ぶラインの間の少なくとも1つの角度を含んでも良い。

本実施例では、計算する必要のある人体の特徴は、実際のニーズに応じて決定されても良い。

図4は、本発明の実施例1におけるキーポイントに基づいて得られた人体の特徴を示す図である。図4に示すように、特徴を計算するためのキーポイントは、次のような人体の部位の所在するポイントを含み、即ち、鼻、左肩、右肩、左肘、右肘、左手首、右手首、左骨盤部、右骨盤部、左膝、右膝、左足首及び右足首である。計算した人体の特徴は、これらのポイントの2次元座標、例えば、これらのポイントのX坐標及びY坐標を含み、また、人体の特徴は、さらに、左脚と胴体との間の第1角度、右脚と胴体との間の第2角度、左下腿と左大腿との間の第3角度、及び右下腿と右大腿との間の第4角度を含んでも良い。

計算モジュール202が人体の特徴を計算した後に、第二検出モジュール203は、計算された人体の特徴に基づいて、分類器及び／又は所定のルールを用いて、人体の動作を検出することで、第一認識結果を得ることができる。

本実施例では、第二検出モジュール203は、計算された人体の特徴に基づいて、分類器を用いて人体の胴体の動作を検出し、また、所定のルールを用いて人体の頭部の動作及び上肢の動作を検出することができる。

本実施例では、第二検出モジュール203は、各種の分類器により、人体の胴体の動作を検出することができ、例えば、第二検出モジュール203は、MLP（Multi-Layer Perceptron）分類器を用いて検出を行っても良い。計算された特徴に基づいて、MLP分類器を用いて検出を行うことにより、より良いパフォーマンスを得ることができる。

本実施例では、第二検出モジュール203は、さらに、所定のルールを用いて人体の頭部の動作及び上肢の動作を検出することができ、例えば、「上を見る」、「下を見る」、「手を挙げる」などの動作を検出することができる。なお、実際のニーズに応じて異なる動作に対して所定のルールを設定しても良い。例えば、2つの耳の高さが2つの目の高さよりも高いときに、「下を見る」と判断し、手首の高さが肘の高さよりも高いときに、「手を挙げる」と判断することができるなどである。

図5は、本発明の実施例1における人体動作認識装置100を用いて人体動作認識を行うことを示す図である。図5に示すように、複数の人体を含む入力画像をターゲット検出ユニット101に入力し、ターゲット検出ユニット101は、入力画像における各々の人体の境界枠を検出し、それぞれ、第一検出ユニット102及び第二検出ユニット103に出力し、そして、第一検出ユニット102及び第二検出ユニット103は、選択ユニット104の選択結果に基づいて検出を行い、第一認識結果及び第二認識結果のうちの少なくとも1つを出力することができる。

上述の実施例から分かるように、まず、入力画像において人体の境界枠を検出し、そして、検出された境界枠において選択的に人体のキーポイントに基づいて人体の動作を検出し及び／又は畳み込みニュラールネットワークに基づいて人体の動作を検出し、このように、段階的な検出方法を行うことで、処理の速度が速く且つ認識の正確度が高く、また、2種類の検出方法を組み合わせることで、異なる状況に基づいて異なる検出方法を選択することもでき、これにより、各種のシナリオ及びビーズに柔軟に対応することができる。

本発明の実施例2は、さらに、電子機器を提供する。図6は、本発明の実施例2における電子機器を示す図である。図6に示すように、電子機器600は、人体動作認識装置601を含み、人体動作認識装置601の構造及び機能が実施例1に記載のものと同じであるため、ここでは、その説明が省略される。

図7は、本発明の実施例2における電子機器のシステム構成を示すブロック図である。
図7に示すように、電子機器700は、中央処理器701及び記憶器702を含んでも良く、該記憶器702は、該中央処理器701に接続される。なお、該図は、例示に過ぎず、さらに、該構造に対して他の類型の構成結構を用いて補充又は代替を行い、電気通信機能又は他の機能を実現しても良い。

図7に示すように、電子機器700は、さらに、入力ユニット703、表示器704及び電源705を含んでも良い。

1つの実施方式では、実施例1に記載の人体動作認識装置の機能が中央処理器701に集積されても良い。ここで、中央処理器701は、以下の操作を行うように構成されても良い。

第1操作：入力画像における人体の境界枠を検出し；及び
第2操作：検出された人体の境界枠において、前記人体のキーポイントに基づいて前記人体の特徴を計算し、そして、前記人体の特徴に基づいて前記人体の動作を検出し、第一認識結果を得る処理、及び、検出された人体の境界枠において、畳み込みニュラールネットワークに基づいて前記人体の動作を検出し、第二認識結果を得る処理、のうちの少なくとも1つの処理を行う。

例えば、検出された人体の境界枠において、前記人体のキーポイントに基づいて前記人体の特徴を計算し、そして、前記人体の特徴に基づいて前記人体の動作を検出し、第一認識結果を得る処理は、検出された人体の境界枠において前記人体のキーポインを検出し；検出された前記人体のキーポイントに基づいて前記人体の特徴を計算し；及び、計算された前記人体の特徴に基づいて、分類器及び／又は所定のルールを用いて前記人体の動作を検出し、第一認識結果を得ることを含む。

もう1つの実施方式では、実施例1に記載の人体動作認識装置は、該中央処理器701と別々で配置されても良く、例えば、該人体動作認識装置を、中央処理器701と接続されるチップとして構成し、中央処理器701の制御により該人体動作認識装置の機能を実現しても良い。

本実施例では、電子機器700は、図7に示す全部の部品を含む必要がない。

図7に示すように、中央処理器701は、制御器又は操作コントローラと称される場合があり、マイクロプロセッサ又は他の理器装置及び／又は論理装置を含んでも良い。中央処理器701は、入力を受け取り、電子機器700の各部品の操作を制御することができる。

該記憶器702は、例えば、バッファ、フレッシュメモリ、HDD、移動可能な媒体、揮発性記憶器、不揮発性記憶器又は他の適切な装置のうちの1つ又は複数であっても良い。また、該中央処理器701は、該記憶器702に記憶のプログラムを実行することで、情報の記憶や処理などを実現することもできる。他の部品の機能が従来技術と同様であるため、ここでは、その詳しい説明を省略する。また、電子機器700の各部品は、専用ハードウェア、ファームウェア、ソフトウェア又はその組み合わせにより実現されても良いが、これらは、すべて、本発明の技術的範囲に属する。

本発明の実施例3は、さらに、人体動作認識方法を提供する。該方法は、実施例1における人体動作認識装置に対応する。図8は、本発明の実施例3における人体動作認識方法を示す図である。図8に示すように、該方法は、以下のステップを含む。

ステップ801：入力画像における人体の境界枠を検出し；及び
ステップ802：次のような処理のうちの少なくとも1つを選択して実行し、即ち、検出された人体の境界枠において、前記人体のキーポイントに基づいて前記人体の特徴を計算し、そして、前記人体の特徴に基づいて前記人体の動作を検出し、第一認識結果を得る処理、及び、検出された人体の境界枠において、畳み込みニュラールネットワークに基づいて前記人体の動作を検出し、第二認識結果を得る処理である。

本実施例では、上述の各ステップの具体的な実現方法が実施例1に記載のものと同じであるため、ここでは、その詳細な説明を省略する。

本発明の実施例は、さらに、コンピュータ可読プログラムを提供し、人体動作認識装置又は電子機器中で前記プログラムを実行するときに、前記プログラムは、コンピュータに、前記人体動作認識装置又は電子機器中で実施例3に記載の人体動作認識方法を実行させることができる。

本発明の実施例は、さらに、上述のようなプログラムを記憶した記憶媒体も提供する。

また、本発明の実施例で説明した前記方法、装置などは、ハードウェア、処理器により実行されるソフトウェアモジュール、又は両者の組み合わせにより実現することができる。例えば、図1に示す機能ブロック図における１つ又は複数の機能及びび／又は機能ブロック図における１つ又は複数の機能の組み合わせは、コンピュータプログラムにおける各ソフトウェアモジュールに対応しても良く、各ハードウェアモジュールに対応しても良い。また、これらのソフトウェアモジュールは、それぞれ、図8に示す各ステップに対応することができる。これらのハードウェアモジュールは、例えば、FPGA（field-programmable gate array）を用いてこれらのソフトウェアモジュールを固化して実現することができる。

また、本発明の実施例による装置、方法などは、ソフトウェアにより実現されても良く、ハードェアにより実現されてもよく、ハードェア及びびソフトウェアの組み合わせにより実現されても良い。本発明は、このようなコンピュータ可読プログラムにも関し、即ち、前記プログラムは、ロジック部品により実行される時に、前記ロジック部品に、上述の装置又は構成要素を実現させることができ、又は、前記ロジック部品に、上述の方法又はそのステップを実現させることができる。さらに、本発明は、上述のプログラムを記憶した記憶媒体、例えば、ハードディスク、磁気ディスク、光ディスク、ＤＶＤ、フレッシュメモリなどにも関する。

以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の技術的範囲に属する。

Claims

人体の動作を認識する装置であって、
入力画像における人体の境界枠を検出するターゲット検出ユニット；
検出された前記人体の境界枠において、前記人体のキーポイントに基づいて前記人体の特徴を計算し、前記人体の特徴に基づいて前記人体の動作を検出し、第一認識結果を得る第一検出ユニット；
検出された前記人体の境界枠において、畳み込みニュラールネットワークに基づいて前記人体の動作を検出し、第二認識結果を得る第二検出ユニット；及び
前記第一検出ユニット及び前記第二検出ユニットのうちの少なくとも1つを選択して前記人体の動作を検出し、前記第一認識結果及び前記第二認識結果のうちの少なくとも1つを得る選択ユニットを含む、装置。
請求項1に記載の装置であって、
前記第一検出ユニットは、
検出された前記人体の境界枠において前記人体のキーポイントを検出する第一検出モジュール；
検出された前記人体のキーポイントに基づいて前記人体の特徴を計算する計算モジュール；及び
計算された前記人体の特徴に基づいて、分類器及び／又は所定のルールを用いて前記人体の動作を検出し、前記第一認識結果を得る第二検出モジュールを含む、装置。
請求項2に記載の装置であって、
前記人体のキーポイントは、前記人体の複数の部位の所在する位置をそれぞれ示す複数のポイントを含む、装置。
請求項2に記載の装置であって、
前記人体の特徴は、
前記人体の複数の部位の所在する位置をそれぞれ示す複数のポイントの2次元座標；及び
前記複数のポイントを結ぶラインの間の少なくとも1つの角度を含む、装置。
請求項2に記載の装置であって、
前記第一検出モジュールは、CPN（Cascaded Pyramid Network）に基づいて前記人体のキーポイントを検出する、装置。
請求項2に記載の装置であって、
前記分類器がMLP（Multi-Layer Perceptron）分類器である、装置。
請求項2に記載の装置であって、
前記第二検出モジュールは、計算された前記人体の特徴に基づいて、分類器を用いて前記人体の胴体の動作を検出し、また、所定のルールを用いて前記人体の頭部の動作及び上肢の動作を検出する、装置。
請求項1-7のうちの任意の1項に記載の装置を含む電子機器。
人体の動作を認識する方法であって、
入力画像における人体の境界枠を検出し；及び
検出された前記人体の境界枠において、前記人体のキーポイントに基づいて前記人体の特徴を計算し、前記人体の特徴に基づいて前記人体の動作を検出し、第一認識結果を取得する処理、及び、検出された前記人体の境界枠において、畳み込みニュラールネットワークに基づいて前記人体の動作を検出し、第二認識結果を取得する処理、のうちの少なくとも1つの処理を選択して実行することを含む、方法。
請求項9に記載の方法であって、
検出された前記人体の境界枠において、前記人体のキーポイントに基づいて前記人体の特徴を計算し、前記人体の特徴に基づいて前記人体の動作を検出し、第一認識結果を取得することは、
検出された前記人体の境界枠において前記人体のキーポイントを検出し；
検出された前記人体のキーポイントに基づいて前記人体の特徴を計算し；及び
計算された前記人体の特徴に基づいて、分類器及び／又は所定のルールを用いて前記人体の動作を検出し、前記第一認識結果を取得することを含む、方法。