JP7124746B2

JP7124746B2 - 物体の部分位置推定プログラム、物体の部分位置推定用ニューラルネットワーク構造、物体の部分位置推定方法、および物体の部分位置推定装置

Info

Publication number: JP7124746B2
Application number: JP2019022868A
Authority: JP
Inventors: 希武田中; 義満青木; 智之鈴木
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2019-02-12
Filing date: 2019-02-12
Publication date: 2022-08-24
Anticipated expiration: 2039-02-12
Also published as: JP2020134970A

Description

本発明は、物体の部分位置推定プログラム、物体の部分位置推定用ニューラルネットワーク構造、物体の部分位置推定方法、および物体の部分位置推定装置に関する。

病院や老人福祉施設等の施設で、要介護者等の転倒や転落等が生じたときに介護士等のスタッフがすぐに駆けつけられるようにするために、各居室で撮影された撮影画像から要介護者等の状態等を検出するためのシステムの開発が進められている。

また、ショッピングモールやコンビニエンスストア等の施設で、マーケティング等を目的として、比較的広範囲を撮影する広角カメラ等で撮影された撮影画像から客の行動を検出するためのシステムの開発が進められている。

これらのシステムで、人の状態や行動等を検出するためには、撮影画像から、検出対象である人の関節点等の部分位置を高精度で検出する必要がある。

撮影画像から人の行動を検出する技術に関連し、下記非特許文献１には、次の技術が開示されている。撮影画像から推定した、人の姿勢からＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）を用いて行動を推定する際、過去の行動の推定結果を当該姿勢の推定に反映させる。

ＷｅｎｂｉｎＤｕ，ＹａｌｉＷａｎｇ，ＹｕＱｉａｏ，ＲＰＡＮ：ＡｎＥｎｄ－ｔｏ－ＥｎｄＲｅｃｕｒｒｅｎｔＰｏｓｅ－ＡｔｔｅｎｔｉｏｎＮｅｔｗｏｒｋｆｏｒＡｃｔｉｏｎＲｅｃｏｇｎｉｔｉｏｎｉｎＶｉｄｅｏｓ，ＩＣＣＶ２０１７、インターネット（URL:http://openaccess.thecvf.com/content_ICCV_2017/papers/Du_RPAN_An_End-To-End_ICCV_2017_paper.pdf）

しかし、上記先行技術文献に開示された先行技術は、人が手前の物体の背後に位置することで、当該物体が人または人の一部を隠して見えなくする等のオクルージョン等が発生した場合に、姿勢の推定精度が低下するという問題がある。

本発明は、このような問題を解決するためになされたものである。すなわち、オクルージョン等が発生しても物体の部分位置の推定精度の向上が可能な、物体の部分位置推定プログラム、物体の部分位置推定用ニューラルネットワーク構造、物体の部分位置推定方法、および物体の部分位置推定装置を提供することを目的とする。

本発明の上記課題は、以下の手段によって解決される。

（１）撮影された画像に基づいて、所定時点における、物体の部分位置の信頼度を表す第１信頼マップを、ニューラルネットワークのアピアランスモデルを用いて生成して出力する手順（ａ）と、前記所定時点より前の複数の時点の、前記物体の前記部分位置の信頼度をそれぞれ表す、複数の統合信頼マップの経時的変化に基づいて、前記所定時点における、前記物体の前記部分位置の信頼度を表す第２信頼マップを、ニューラルネットワークのモーションモデルを用いて、生成して出力する手順（ｂ）と、マスクにより、前記手順（ａ）において出力された前記第１信頼マップと、前記手順（ｂ）において出力された前記第２信頼マップと、を統合することで、前記所定時点の、前記物体の前記部分位置の信頼度を表す、前記統合信頼マップを生成して出力する手順（ｃ）と、を有する処理を、コンピューターに実行させるための、物体の部分位置推定プログラム。

（２）前記所定時点における前記画像に基づいて、ニューラルネットワークのマスク生成モデルにより、前記マスクを生成する手順（ｄ）をさらに有し、前記マスクは、前記第１信頼マップおよび前記第２信頼マップのそれぞれに対する自信度を乗算する重み付け演算をし、前記重み付け演算後の、前記第１信頼マップおよび前記第２信頼マップを互いに加算することで、前記第１信頼マップと前記第２信頼マップとを統合する、上記（１）に記載の物体の部分位置推定プログラム。

（３）前記画像において前記物体についてオクルージョンが発生している場合、前記マスクにおける前記第２信頼マップに対する前記自信度が、前記第１信頼マップに対する前記自信度より大きい、上記（２）に記載の物体の部分位置推定プログラム。

（４）前記画像の撮影環境が変わることにより、前記マスクにおける前記第１信頼マップおよび前記第２信頼マップのそれぞれに対する前記自信度が変わる、上記（２）に記載の物体の部分位置推定プログラム。

（５）撮影された画像に基づいて、物体の部分位置の信頼度を表す統合信頼マップを出力するよう、コンピューターを機能させるためのニューラルネットワーク構造であって、前記画像に基づいて、所定時点における、前記物体の前記部分位置の信頼度を表す第１信頼マップを生成して出力する、ニューラルネットワークのアピアランスモデルと、前記所定時点より前の複数の時点の、前記物体の前記部分位置の信頼度をそれぞれ表す、複数の統合信頼マップの経時的変化に基づいて、前記所定時点における、前記物体の前記部分位置の信頼度を表す第２信頼マップを生成して出力する、ニューラルネットワークのモーションモデルと、前記アピアランスモデルから出力された前記第１信頼マップと、前記モーションモデルから出力された前記第２信頼マップと、を統合することで、前記所定時点における、前記物体の前記部分位置を表す、前記統合信頼マップを生成して出力するマスクを、前記所定時点における前記画像に基づいて生成する、ニューラルネットワークのマスク生成モデルと、を有する、物体の部分位置推定用ニューラルネットワーク構造。

（６）前記マスクは、前記第１信頼マップおよび前記第２信頼マップのそれぞれに対する自信度を乗算する重み付け演算をし、前記重み付け演算後の、前記第１信頼マップおよび前記第２信頼マップを互いに加算することで、前記第１信頼マップと前記第２信頼マップとを統合する、上記（５）に記載の物体の部分位置推定用ニューラルネットワーク構造。

（７）前記マスク生成モデルは、前記画像において前記物体についてオクルージョンが発生している場合、前記第２信頼マップに対する前記自信度を、前記第１信頼マップに対する前記自信度より大きくした前記マスクを生成する、上記（６）に記載の物体の部分位置推定用ニューラルネットワーク構造。

（８）前記マスク生成モデルは、前記画像の撮影環境により、前記第１信頼マップおよび前記第２信頼マップのそれぞれに対する前記自信度を変化させた前記マスクを生成する、上記（６）に記載の物体の部分位置推定用ニューラルネットワーク構造。

（９）撮影された画像に基づいて、所定時点における、物体の部分位置の信頼度を表す第１信頼マップを、ニューラルネットワークのアピアランスモデルを用いて生成して出力する段階（ａ）と、前記所定時点より前の複数の時点の、前記物体の前記部分位置の信頼度をそれぞれ表す、複数の統合信頼マップの経時的変化に基づいて、前記所定時点における、前記物体の前記部分位置の信頼度を表す第２信頼マップを、ニューラルネットワークのモーションモデルを用いて、生成して出力する段階（ｂ）と、マスクにより、前記段階（ａ）において出力された前記第１信頼マップと、前記段階（ｂ）において出力された前記第２信頼マップと、を統合することで、前記所定時点の、前記物体の前記部分位置の信頼度を表す、前記統合信頼マップを生成して出力する段階（ｃ）と、を有する物体の部分位置推定方法。

（１０）撮影された画像に基づいて、所定時点における、物体の部分位置の信頼度を表す第１信頼マップを、ニューラルネットワークのアピアランスモデルを用いて生成して出力する第１信頼マップ生成部と、前記所定時点より前の複数の時点の、前記物体の前記部分位置の信頼度をそれぞれ表す、複数の統合信頼マップの経時的変化に基づいて、前記所定時点における、前記物体の前記部分位置の信頼度を表す第２信頼マップを、ニューラルネットワークのモーションモデルを用いて、生成して出力する第２信頼マップ生成部と、マスクにより、前記第１信頼マップ生成部により出力された前記第１信頼マップと、前記第２信頼マップ生成部により出力された前記第２信頼マップと、を統合することで、前記所定時点の、前記物体の前記部分位置の信頼度を表す、前記統合信頼マップを生成して出力する統合信頼マップ生成部と、を有する物体の部分位置推定装置。

撮影画像に基づいてアピアランスモデルにより生成した、物体の現在の部分位置の第１信頼度マップと、過去の部分位置の複数の統合信頼マップに基づいてモーションモデルにより生成した、現在の部分位置の第２信頼度マップとを、マスクで統合して現在の部分位置の統合信頼マップを生成する。これにより、オクルージョン等が発生しても物体の部分位置の推定精度を向上できる。

関節点推定装置を含む関節点推定システムの概略構成を示す図である。関節点推定装置のハードウェア構成を示すブロック図である。関節点推定装置の制御部の機能を示すブロック図である。対象者についてオクルージョンが発生した場合の、関節点推定装置の制御部の作用について説明するための説明図である。関節点推定装置の動作を示すフローチャートである。

以下、図面を参照して、本発明の実施形態に係る物体検出プログラムおよび関節点推定装置について説明する。なお、図面において、同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

図１は、実施形態に係る関節点推定装置１００を含む関節点推定システム１０の概略構成を示す図である。

関節点推定システム１０は、関節点推定装置１００、撮影装置２００、および通信ネットワーク３００を備える。関節点推定装置１００は、通信ネットワーク３００により撮影装置２００と相互に通信可能に接続される。本明細書において、物体とは、関節点推定装置１００による関節点の推定対象の物体である。物体には複数のカテゴリーが含まれ得る。カテゴリーとは、関節点推定装置１００が認識可能な物体の種別であり、人、犬、猫等が含まれる。以下、説明を簡単にするために、物体は対象者５００（すなわち、「人」）であるものとして説明する。関節点推定装置１００は、物体の部分位置推定装置を構成する。

関節点推定装置１００は、撮影装置２００により撮影された画像（以下、単に「撮影画像２５０」と称する（図３等参照））を、撮影装置２００から受信し、撮影画像２５０に含まれる対象者５００の関節点２５３（より詳細には、関節点の撮影画像上の位置（図３等参照））を推定する。関節点２５３には、右足首、右膝、右腰、左腰、左膝、左足首、右手首、右肩、左肩、左手首、首、および頭頂部等の各関節点２５３（以下、各関節点２５３を「個別関節点」とも称する）が含まれる。関節点推定装置１００は、コンピューターにより構成される。関節点推定装置１００は、撮影装置２００と一体化されることで、撮影装置２００に包含され得る。一方、関節点推定装置１００は、サーバーとして構成されてもよい。

撮影装置２００は、例えば、対象者５００の居室の天井、または壁の上部に配置され、所定の撮影領域として対象者５００の居室のできるだけ広い範囲を、対象者５００を俯瞰可能な位置から撮影し、撮影画像２５０（画像データ）を出力する。撮影画像２５０には対象者５００を含む画像が含まれる。撮影装置２００は、広角カメラであり得る。広角カメラは、比較的広い画角の撮影画像２５０を撮影できるカメラであり、撮影画像２５０上の位置に対応して歪みの大きさが変化するカメラである。広角カメラの近くの位置にいる対象者５００は、撮影画像２５０において、頭部と肩部が比較的大きく映り、腕や足は肩に隠れ得る。広角カメラの遠くにいる対象者５００は、撮影画像２５０において、比較的小さく、かつ全身が映る。撮影装置２００は、例えば１５ｆｐｓ～３０ｆｐｓのフレームレートの動画の撮影画像２５０として撮影領域を撮影し得る。撮影画像２５０は動画と静止画とを含む。撮影装置２００は、撮影画像２５０を関節点推定装置１００等に送信する。

通信ネットワーク３００には、イーサネット（登録商標）などの有線通信規格によるネットワークインターフェースを使用し得る。通信ネットワーク３００には、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＩＥＥＥ８０２．１１などの無線通信規格によるネットワークインターフェースを使用してもよい。

図２は、関節点推定装置１００のハードウェア構成を示すブロック図である。関節点推定装置１００は、制御部１１０、記憶部１２０、表示部１３０、入力部１４０、および通信部１５０を有する。これらの構成要素は、バス１６０を介して相互に接続される。

制御部１１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）により構成され、プログラムに従って、関節点推定装置１００の各部の制御および演算処理を行う。制御部１１０の作用の詳細については後述する。

記憶部１２０は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、およびＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）により構成され得る。ＲＡＭは、制御部１１０の作業領域として一時的にプログラムやデータを記憶する。ＲＯＭは、あらかじめ各種プログラムや各種データを格納する。ＳＳＤは、オペレーションシステムを含む各種プログラムおよび各種データを格納する。

表示部１３０は、例えば液晶ディスプレイであり、各種情報を表示する。

入力部１４０は、例えばタッチパネルや各種キーにより構成される。入力部１４０は、各種操作、入力のために使用される。

通信部１５０は、外部機器と通信するためのインターフェースである。通信には、イーサネット（登録商標）、ＳＡＴＡ、ＰＣＩＥｘｐｒｅｓｓ、ＵＳＢ、ＩＥＥＥ１３９４などの規格によるネットワークインターフェースが用いられ得る。その他、通信には、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＩＥＥＥ８０２．１１、４Ｇなどの無線通信インターフェースが用いられ得る。

制御部１１０の作用の詳細について説明する。

図３は、関節点推定装置１００の制御部１１０の機能を示すブロック図である。制御部１１０は、アピアランスモデル１１１、マスク生成モデル１１２、モーションモデル１１３、および物体部分位置推定部１１４を有する。アピアランスモデル１１１、マスク生成モデル１１２、およびモーションモデル１１３は、それぞれＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）により構成され得る。アピアランスモデル１１１とマスク生成モデル１１２は結合されることで、一つのＤＮＮにより構成されてもよい。アピアランスモデル１１１、モーションモデル１１３、およびマスク生成モデル１１２は、部分位置推定用ニューラルネットワーク構造を構成する。部分位置推定用ニューラルネットワーク構造には、物体部分位置推定部１１４が含まれてもよい。アピアランスモデル１１１は、第１信頼マップ生成部を構成する。モーションモデル１１３は、第２信頼マップ生成部を構成する。制御部１１０は、統合信頼マップ生成部を構成する。

アピアランスモデル１１１は、撮影画像２５０に基づいて、現在（現時点）のアピアランス信頼マップを生成して出力する。アピアランス信頼マップは、１つの画像に基づいて算出される、個別関節点２５３の画素ごとの尤度のマップであり、第１信頼マップを構成する。アピアランスモデル１１１は、対象者５００を含む候補矩形として当該対象者５００を検出し、候補矩形内で、個別関節点の画素ごとの尤度を推定することで、アピアランス信頼マップの生成速度を高速化し得る。以下、説明を簡単にするために、現在である、ｔ時点(所定の時点)の関節点２５３の推定に関する各ブロックの作用について説明する。ｔ時点の関節点２５３の推定に関する各ブロックの作用は、時間の経過に伴う、ｔ＋１時点（ｔ時点に対し未来）の関節点２５３の推定に関する各ブロックの機能にも同様に適用される。なお、ｔ－１時点はｔ時点に対し過去の時点であり、ｔ－２時点は、ｔ－１時点に対しさらに過去の時点である。

モーションモデル１１３は、過去の複数の統合信頼マップ２５２の経時的変化に基づいて、現在のモーション信頼マップを生成して出力する。統合信頼マップ２５２については後述する。具体的には、モーションモデル１１３は、ｔ－１時点および、ｔ－２時点のそれぞれの時点の複数の統合信頼マップ２５２の経時的変化に基づいて、ｔ時点のモーション信頼マップを生成する。モーション信頼マップは、所定時点より前の信頼マップ（本実施形態では、統合信頼マップ２５２）における経時的変化に基づいて推定された、所定時点の個別関節点の画素ごとの尤度のマップである。

マスク生成モデル１１２は、ｔ時点のアピアランス信頼マップと、ｔ時点のモーション信頼マップとを統合するためのマスクを生成して出力する。マスクは、ｔ時点のアピアランス信頼マップと、ｔ時点のモーション信頼マップとを統合することで、ｔ時点の統合信頼マップを生成して出力する。具体的には、マスクは、アピアランス信頼マップおよびモーション信頼マップに、それぞれに対する自信度を乗算する重み付け演算をした後、当該演算後の、アピアランス信頼マップおよびモーション信頼度を互いに加算することで統合信頼マップを生成する。マスク生成モデル１１２は、時点ごと（すなわち、撮影画像２５０のフレームごと）にマスクを生成する。統合信頼マップは、個別関節点の画素ごとの尤度のマップであり、アピアランス信頼マップとモーション信頼マップのそれぞれに対する自信度が反映されている。図３において示されている、統合信頼マップ２５２の模式図においては、個別関節点である右足首についての画素ごとの尤度を示すヒートマップが、対象者５００の画像とともに示されているが、対象者５００の画像を示したのは説明を判りやすくするためである。統合信頼マップ２５２は、上述したように、画素ごとの尤度のマップであり、対象者５００の画像は含まれない。自信度は、アピアランス信頼マップとモーション信頼マップのそれぞれの尤度に対する相対的な自信の大きさ（信頼性）を示す値である。アピアランス信頼マップに対する自信度と、モーション信頼マップに対する自信度は、それぞれ０～１の値であり、両者の和は１である。

物体部分位置推定部１１４は、統合信頼マップ２５２に基づいて、関節点２５３を推定して出力する。具体的には、物体部分位置推定部１１４は、ｔ時点の、個別関節点ごとの統合信頼マップ２５２において、それぞれ尤度が最も大きい画素の位置（座標）を、個別関節点の位置として推定し、推定したすべての個別関節点の位置を、対象者５００の関節点２５３として推定する。

アピアランスモデル１１１、マスク生成モデル１１２、モーションモデル１１３、および物体部分位置推定部１１４により構成される部分位置推定用ニューラルネットワーク構造は、教師データにより予め学習される。学習は、撮影画像２５０を入力、当該撮影画像２５０に対応する既知の関節点２５３を正解ラベルとして実行され得る。学習は、対象者５００についてオクルージョンが発生している撮影画像２５０を含む時系列の（連続するフレームの）複数の撮影画像２５０と、当該複数の撮影画像２５０にそれぞれ対応する関節点２５３の正解ラベルを教師データに含めて実行される。オクルージョンには、対象者５００の体の一部が物体６００（図４参照）の背後に位置することで、対象者５００の一部が物体に隠れて撮影画像２５０上で見えなくなることや、対象者５００の体の一の部分が他の部分に隠れることで見えなくなること等が含まれる。

図４は、対象者５００についてオクルージョンが発生した場合の、関節点推定装置１００の制御部１１０の作用について説明するための説明図である。

図４の例においては、ｔ時点において、対象者５００の一部が手前の物体６００の背後に位置することで、対象者５００の一部が物体に隠れて撮影画像２５０上で見えなくなっており、オクルージョンが発生している。この場合、マスク生成モデル１１２により、オクルージョンが発生している撮影画像２５０に基づいて、モーション信頼マップに対する自信度が、アピアランス信頼マップに対する自信度より大きい、ｔ時点のマスクが生成される。これは、オクルージョンが発生している撮影画像２５０に基づいて生成される、ｔ時点のアピアランス信頼マップの信頼性が低いからである。

従来の３ＤＣＮＮ（３ＤＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）を用いた関節点推定においては、オクルージョンが発生している撮影画像も、オクルージョンが発生していない撮影画像も、信頼マップの作成において同等に扱われる。従って、オクルージョンが発生している撮影画像についての関節点推定の精度が低下する。

マスク２５１により、統合信頼マップ２５２が生成される際の演算に使用される自信度は、アピアランス信頼マップおよびモーション信頼マップのそれぞれに対する信頼性を表しているため、マスク２５１を解析することで、関節点２５３の推定精度を向上するために、アピアランスモデル１１１およびモーションモデル１１３のいずれを改良する必要があるかについての検証が容易にできる。すなわち、関節点２５３の推定において、対象者５００の動き（モーション）が重視されたのか、画像上の対象者５００の見え（アピアランス）が重視されたのかがマスク２５１により可視化されるため、アピアランスモデル１１１およびモーションモデル１１３の改良のための指針が容易に得られる。従って、マスク２５１の検証結果に基づいてアピアランスモデル１１１およびモーションモデル１１３を改良することで、関節点２５３の検出精度をさらに向上できる。

撮影画像２５０の撮影環境が変わることによっても、マスク生成モデル１１２により生成されるマスクにおける、アピアランス信頼マップおよびモーション信頼マップのそれぞれに対する自信度が変わる。これは、例えば、比較的暗い撮影環境で撮影された撮影画像２５０と、比較的明るい撮影環境で撮影された撮影画像２５０とでは、アピアランス信頼マップおよびモーション信頼マップのいずれの信頼性を高くすべきかが変わり得るからである。

関節点推定装置１００の動作について説明する。

図５は、関節点推定装置１００の動作を示すフローチャートである。本フローチャートは、記憶部１２０に記憶されたプログラムに従い、制御部１１０により実行される。

制御部１１０は、撮影装置２００から、通信部１５０を介して現時点（ｔ時点）の撮影画像２５０（フレーム）を取得する（Ｓ１０１）。

制御部１１０は、現時点の撮影画像２５０に基づいて、アピアランスモデル１１１を用いて、現時点のアピアランス信頼度マップを生成する（Ｓ１０２）。

制御部１１０は、現時点の撮影画像２５０に基づいて、マスク生成モデル１１２を用いて、現時点のマスクを生成する（Ｓ１０３）。

制御部１１０は、過去（ｔ時点より前）の複数の時点（ｔ－１時点およびｔ－２時点）のそれぞれの複数の統合信頼マップに基づいて、モーションモデル１１３を用いて、現時点のモーション信頼マップを生成する（Ｓ１０４）。過去の複数の統合信頼マップ２５２は、記憶部１２０に記憶されており、これを読み出すことで利用し得る。

制御部１１０は、現時点のマスクにより、現時点のアピアランス信頼度マップと、現時点のモーション信頼マップを統合することで、現時点の統合信頼マップ２５２を生成する（Ｓ１０５）。

制御部１１０は、現時点の統合信頼マップ２５２に基づいて、現時点の関節点２５３を推定する（Ｓ１０６）。

制御部１１０は、撮影画像２５０の全てのフレームについて関節点２５３を推定したかどうかを判断する（Ｓ１０７）。

制御部１１０は、全てのフレームについて関節点２５３を推定したと判断した場合は（Ｓ１０７：ＹＥＳ）、処理を終了する。

制御部１１０は、全てのフレームについて関節点２５３を推定していないと判断した場合は（Ｓ１０７：ＮＯ）、ステップＳ１０１に戻り、次のフレーム（ｔ＋１時点のフレーム）に対し、処理を続行する。

本実施形態は、以下の効果を奏する。

撮影画像に基づいてアピアランスモデルにより生成した、物体の現在の部分位置の第１信頼度マップと、過去の部分位置の複数の統合信頼マップに基づいてモーションモデルにより生成した、現在の部分位置の第２信頼度マップとを、マスクで統合して現在の部分位置の統合信頼マップを生成する。これにより、オクルージョン等が発生しても物体の部分位置の推定精度を向上できる。また、マスクの検証により、アピアランスモデルおよびモーションモデルのいずれを改良すべきかの指針が容易に得られるため、当該検証の結果に基づく各モデルの改良により、物体の部分位置の推定精度をさらに向上できる。

さらに、現在の撮影画像に基づいて、マスク生成モデルにより、第１信頼マップおよび第２信頼マップのそれぞれに対する自信度を乗算する重み付け演算をし、演算後の、第１信頼マップおよび第２信頼マップを加算することで両マップを統合するマスクを生成する。これにより、アピアランスモデルおよびモーションモデルの長所を生かした、物体の部分位置の推定を、簡単かつ効率的に行うことができる。

さらに、撮影画像において物体についてオクルージョンが発生している場合、マスクにおける第２信頼マップに対する自信度が、第１信頼マップに対する自信度より大きくする。これにより、オクルージョンが発生することによる部分位置の推定精度の低下を抑止できる。

さらに、撮影画像の撮影環境が変わることにより、マスクにおける第１信頼度マップおよび第２信頼マップのそれぞれに対する自信度を変える。これにより、撮影画像の撮影環境の変化による部分位置の推定精度の低下を抑止できる。

以上に説明した、関節点推定システム１０および関節点推定装置１００の構成は、上述の実施形態の特徴を説明するにあたって主要構成を説明したのであって、上述の構成に限られず、特許請求の範囲内において、種々改変することができる。また、一般的な物体検出システムが備える構成を排除するものではない。

例えば、関節点推定装置１００が有する機能を、コンピューターを内蔵する撮影装置２００が備えるようにしてもよい。

また、関節点推定装置１００、および撮影装置２００は、それぞれ複数の装置により構成されてもよく、いずれか複数の装置が単一の装置として構成されてもよい。

また、上述したフローチャートは、一部のステップを省略してもよく、他のステップが追加されてもよい。また各ステップの一部は同時に実行されてもよく、一つのステップが複数のステップに分割されて実行されてもよい。

また、モーションモデル１１３は、過去の２つの統合信頼マップ２５２に基づいて、現在のモーション信頼マップを生成している。しかし、モーションモデル１１３が、現在のモーション信頼マップを生成するために用いる過去の統合信頼マップ２５２の数は２つに限定されず、例えば、８つでもよい。

また、モーションモデル１１３は、過去の複数の撮影画像２５０に基づいて、現在のモーション信頼マップを生成してもよいし、過去の複数のアピアランス信頼マップに基づいて、現在のモーション信頼マップを生成してもよい。

また、ｔ時点を現在として説明したが、ｔ時点は過去の時点であってもよい。

また、物体は、人に限定されず、猫、または犬等の動物であってもよく、物体に複数のカテゴリーが含まれてもよい。

また、上述した実施形態においてＣＮＮにより実現していた機能を、ＣＮＮ以外の機械学習手段により実現してもよい。

また、上述した関節点推定システム１０および関節点推定装置１００における各種処理を行う手段および方法は、専用のハードウェア回路、またはプログラムされたコンピューターのいずれによっても実現することが可能である。上記プログラムは、例えば、ＵＳＢメモリやＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）－ＲＯＭ等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部に転送され記憶される。また、上記プログラムは、単独のアプリケーションソフトとして提供されてもよいし、一機能としてその検出部等の装置のソフトウエアに組み込まれてもよい。

１０関節点推定システム、
１００関節点推定装置、
１１０制御部、
１１１アピアランスモデル、
１１２マスク生成モデル、
１１３モーションモデル、
１１４物体部分位置推定部、
１２０記憶部、
１３０表示部、
１４０入力部、
１５０通信部、
２００撮影装置、
２５０撮影画像、
２５１マスク、
２５２統合信頼マップ、
２５３関節点、
３００通信ネットワーク、
５００対象者。

Claims

撮影された画像に基づいて、所定時点における、物体の部分位置の信頼度を表す第１信頼マップを、ニューラルネットワークのアピアランスモデルを用いて生成して出力する手順（ａ）と、
前記所定時点より前の複数の時点の、前記物体の前記部分位置の信頼度をそれぞれ表す、複数の統合信頼マップの経時的変化に基づいて、前記所定時点における、前記物体の前記部分位置の信頼度を表す第２信頼マップを、ニューラルネットワークのモーションモデルを用いて、生成して出力する手順（ｂ）と、
マスクにより、前記手順（ａ）において出力された前記第１信頼マップと、前記手順（ｂ）において出力された前記第２信頼マップと、を統合することで、前記所定時点の、前記物体の前記部分位置の信頼度を表す、前記統合信頼マップを生成して出力する手順（ｃ）と、
を有する処理を、コンピューターに実行させるための、物体の部分位置推定プログラム。
前記所定時点における前記画像に基づいて、ニューラルネットワークのマスク生成モデルにより、前記マスクを生成する手順（ｄ）をさらに有し、
前記マスクは、前記第１信頼マップおよび前記第２信頼マップのそれぞれに対する自信度を乗算する重み付け演算をし、前記重み付け演算後の、前記第１信頼マップおよび前記第２信頼マップを互いに加算することで、前記第１信頼マップと前記第２信頼マップとを統合する、請求項１に記載の物体の部分位置推定プログラム。
前記画像において前記物体についてオクルージョンが発生している場合、前記マスクにおける前記第２信頼マップに対する前記自信度が、前記第１信頼マップに対する前記自信度より大きい、請求項２に記載の物体の部分位置推定プログラム。
前記画像の撮影環境が変わることにより、前記マスクにおける前記第１信頼マップおよび前記第２信頼マップのそれぞれに対する前記自信度が変わる、請求項２に記載の物体の部分位置推定プログラム。
撮影された画像に基づいて、物体の部分位置の信頼度を表す統合信頼マップを出力するよう、コンピューターを機能させるためのニューラルネットワーク構造であって、
前記画像に基づいて、所定時点における、前記物体の前記部分位置の信頼度を表す第１信頼マップを生成して出力する、ニューラルネットワークのアピアランスモデルと、
前記所定時点より前の複数の時点の、前記物体の前記部分位置の信頼度をそれぞれ表す、複数の統合信頼マップの経時的変化に基づいて、前記所定時点における、前記物体の前記部分位置の信頼度を表す第２信頼マップを生成して出力する、ニューラルネットワークのモーションモデルと、
前記アピアランスモデルから出力された前記第１信頼マップと、前記モーションモデルから出力された前記第２信頼マップと、を統合することで、前記所定時点における、前記物体の前記部分位置を表す、前記統合信頼マップを生成して出力するマスクを、前記所定時点における前記画像に基づいて生成する、ニューラルネットワークのマスク生成モデルと、
を有する、物体の部分位置推定用ニューラルネットワーク構造。
前記マスクは、前記第１信頼マップおよび前記第２信頼マップのそれぞれに対する自信度を乗算する重み付け演算をし、前記重み付け演算後の、前記第１信頼マップおよび前記第２信頼マップを互いに加算することで、前記第１信頼マップと前記第２信頼マップとを統合する、請求項５に記載の物体の部分位置推定用ニューラルネットワーク構造。
前記マスク生成モデルは、前記画像において前記物体についてオクルージョンが発生している場合、前記第２信頼マップに対する前記自信度を、前記第１信頼マップに対する前記自信度より大きくした前記マスクを生成する、請求項６に記載の物体の部分位置推定用ニューラルネットワーク構造。
前記マスク生成モデルは、前記画像の撮影環境により、前記第１信頼マップおよび前記第２信頼マップのそれぞれに対する前記自信度を変化させた前記マスクを生成する、請求項６に記載の物体の部分位置推定用ニューラルネットワーク構造。
撮影された画像に基づいて、所定時点における、物体の部分位置の信頼度を表す第１信頼マップを、ニューラルネットワークのアピアランスモデルを用いて生成して出力する段階（ａ）と、
前記所定時点より前の複数の時点の、前記物体の前記部分位置の信頼度をそれぞれ表す、複数の統合信頼マップの経時的変化に基づいて、前記所定時点における、前記物体の前記部分位置の信頼度を表す第２信頼マップを、ニューラルネットワークのモーションモデルを用いて、生成して出力する段階（ｂ）と、
マスクにより、前記段階（ａ）において出力された前記第１信頼マップと、前記段階（ｂ）において出力された前記第２信頼マップと、を統合することで、前記所定時点の、前記物体の前記部分位置の信頼度を表す、前記統合信頼マップを生成して出力する段階（ｃ）と、
を有する物体の部分位置推定方法。
撮影された画像に基づいて、所定時点における、物体の部分位置の信頼度を表す第１信頼マップを、ニューラルネットワークのアピアランスモデルを用いて生成して出力する第１信頼マップ生成部と、
前記所定時点より前の複数の時点の、前記物体の前記部分位置の信頼度をそれぞれ表す、複数の統合信頼マップの経時的変化に基づいて、前記所定時点における、前記物体の前記部分位置の信頼度を表す第２信頼マップを、ニューラルネットワークのモーションモデルを用いて、生成して出力する第２信頼マップ生成部と、
マスクにより、前記第１信頼マップ生成部により出力された前記第１信頼マップと、前記第２信頼マップ生成部により出力された前記第２信頼マップと、を統合することで、前記所定時点の、前記物体の前記部分位置の信頼度を表す、前記統合信頼マップを生成して出力する統合信頼マップ生成部と、
を有する物体の部分位置推定装置。