JP7124746B2 - 物体の部分位置推定プログラム、物体の部分位置推定用ニューラルネットワーク構造、物体の部分位置推定方法、および物体の部分位置推定装置 - Google Patents

物体の部分位置推定プログラム、物体の部分位置推定用ニューラルネットワーク構造、物体の部分位置推定方法、および物体の部分位置推定装置 Download PDF

Info

Publication number
JP7124746B2
JP7124746B2 JP2019022868A JP2019022868A JP7124746B2 JP 7124746 B2 JP7124746 B2 JP 7124746B2 JP 2019022868 A JP2019022868 A JP 2019022868A JP 2019022868 A JP2019022868 A JP 2019022868A JP 7124746 B2 JP7124746 B2 JP 7124746B2
Authority
JP
Japan
Prior art keywords
confidence
confidence map
time
partial position
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019022868A
Other languages
English (en)
Other versions
JP2020134970A (ja
Inventor
希武 田中
義満 青木
智之 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2019022868A priority Critical patent/JP7124746B2/ja
Publication of JP2020134970A publication Critical patent/JP2020134970A/ja
Application granted granted Critical
Publication of JP7124746B2 publication Critical patent/JP7124746B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、物体の部分位置推定プログラム、物体の部分位置推定用ニューラルネットワーク構造、物体の部分位置推定方法、および物体の部分位置推定装置に関する。
病院や老人福祉施設等の施設で、要介護者等の転倒や転落等が生じたときに介護士等のスタッフがすぐに駆けつけられるようにするために、各居室で撮影された撮影画像から要介護者等の状態等を検出するためのシステムの開発が進められている。
また、ショッピングモールやコンビニエンスストア等の施設で、マーケティング等を目的として、比較的広範囲を撮影する広角カメラ等で撮影された撮影画像から客の行動を検出するためのシステムの開発が進められている。
これらのシステムで、人の状態や行動等を検出するためには、撮影画像から、検出対象である人の関節点等の部分位置を高精度で検出する必要がある。
撮影画像から人の行動を検出する技術に関連し、下記非特許文献1には、次の技術が開示されている。撮影画像から推定した、人の姿勢からLSTM(Long Short-Term Memory)を用いて行動を推定する際、過去の行動の推定結果を当該姿勢の推定に反映させる。
Wenbin Du, Yali Wang, Yu Qiao,RPAN: An End-to-End Recurrent Pose-Attention Network for Action Recognition in Videos,ICCV2017、インターネット(URL:http://openaccess.thecvf.com/content_ICCV_2017/papers/Du_RPAN_An_End-To-End_ICCV_2017_paper.pdf)
しかし、上記先行技術文献に開示された先行技術は、人が手前の物体の背後に位置することで、当該物体が人または人の一部を隠して見えなくする等のオクルージョン等が発生した場合に、姿勢の推定精度が低下するという問題がある。
本発明は、このような問題を解決するためになされたものである。すなわち、オクルージョン等が発生しても物体の部分位置の推定精度の向上が可能な、物体の部分位置推定プログラム、物体の部分位置推定用ニューラルネットワーク構造、物体の部分位置推定方法、および物体の部分位置推定装置を提供することを目的とする。
本発明の上記課題は、以下の手段によって解決される。
(1)撮影された画像に基づいて、所定時点における、物体の部分位置の信頼度を表す第1信頼マップを、ニューラルネットワークのアピアランスモデルを用いて生成して出力する手順(a)と、前記所定時点より前の複数の時点の、前記物体の前記部分位置の信頼度をそれぞれ表す、複数の統合信頼マップの経時的変化に基づいて、前記所定時点における、前記物体の前記部分位置の信頼度を表す第2信頼マップを、ニューラルネットワークのモーションモデルを用いて、生成して出力する手順(b)と、マスクにより、前記手順(a)において出力された前記第1信頼マップと、前記手順(b)において出力された前記第2信頼マップと、を統合することで、前記所定時点の、前記物体の前記部分位置の信頼度を表す、前記統合信頼マップを生成して出力する手順(c)と、を有する処理を、コンピューターに実行させるための、物体の部分位置推定プログラム。
(2)前記所定時点における前記画像に基づいて、ニューラルネットワークのマスク生成モデルにより、前記マスクを生成する手順(d)をさらに有し、前記マスクは、前記第1信頼マップおよび前記第2信頼マップのそれぞれに対する自信度を乗算する重み付け演算をし、前記重み付け演算後の、前記第1信頼マップおよび前記第2信頼マップを互いに加算することで、前記第1信頼マップと前記第2信頼マップとを統合する、上記(1)に記載の物体の部分位置推定プログラム。
(3)前記画像において前記物体についてオクルージョンが発生している場合、前記マスクにおける前記第2信頼マップに対する前記自信度が、前記第1信頼マップに対する前記自信度より大きい、上記(2)に記載の物体の部分位置推定プログラム。
(4)前記画像の撮影環境が変わることにより、前記マスクにおける前記第1信頼マップおよび前記第2信頼マップのそれぞれに対する前記自信度が変わる、上記(2)に記載の物体の部分位置推定プログラム。
(5)撮影された画像に基づいて、物体の部分位置の信頼度を表す統合信頼マップを出力するよう、コンピューターを機能させるためのニューラルネットワーク構造であって、前記画像に基づいて、所定時点における、前記物体の前記部分位置の信頼度を表す第1信頼マップを生成して出力する、ニューラルネットワークのアピアランスモデルと、前記所定時点より前の複数の時点の、前記物体の前記部分位置の信頼度をそれぞれ表す、複数の統合信頼マップの経時的変化に基づいて、前記所定時点における、前記物体の前記部分位置の信頼度を表す第2信頼マップを生成して出力する、ニューラルネットワークのモーションモデルと、前記アピアランスモデルから出力された前記第1信頼マップと、前記モーションモデルから出力された前記第2信頼マップと、を統合することで、前記所定時点における、前記物体の前記部分位置を表す、前記統合信頼マップを生成して出力するマスクを、前記所定時点における前記画像に基づいて生成する、ニューラルネットワークのマスク生成モデルと、を有する、物体の部分位置推定用ニューラルネットワーク構造。
(6)前記マスクは、前記第1信頼マップおよび前記第2信頼マップのそれぞれに対する自信度を乗算する重み付け演算をし、前記重み付け演算後の、前記第1信頼マップおよび前記第2信頼マップを互いに加算することで、前記第1信頼マップと前記第2信頼マップとを統合する、上記(5)に記載の物体の部分位置推定用ニューラルネットワーク構造。
(7)前記マスク生成モデルは、前記画像において前記物体についてオクルージョンが発生している場合、前記第2信頼マップに対する前記自信度を、前記第1信頼マップに対する前記自信度より大きくした前記マスクを生成する、上記(6)に記載の物体の部分位置推定用ニューラルネットワーク構造。
(8)前記マスク生成モデルは、前記画像の撮影環境により、前記第1信頼マップおよび前記第2信頼マップのそれぞれに対する前記自信度を変化させた前記マスクを生成する、上記(6)に記載の物体の部分位置推定用ニューラルネットワーク構造。
(9)撮影された画像に基づいて、所定時点における、物体の部分位置の信頼度を表す第1信頼マップを、ニューラルネットワークのアピアランスモデルを用いて生成して出力する段階(a)と、前記所定時点より前の複数の時点の、前記物体の前記部分位置の信頼度をそれぞれ表す、複数の統合信頼マップの経時的変化に基づいて、前記所定時点における、前記物体の前記部分位置の信頼度を表す第2信頼マップを、ニューラルネットワークのモーションモデルを用いて、生成して出力する段階(b)と、マスクにより、前記段階(a)において出力された前記第1信頼マップと、前記段階(b)において出力された前記第2信頼マップと、を統合することで、前記所定時点の、前記物体の前記部分位置の信頼度を表す、前記統合信頼マップを生成して出力する段階(c)と、を有する物体の部分位置推定方法。
(10)撮影された画像に基づいて、所定時点における、物体の部分位置の信頼度を表す第1信頼マップを、ニューラルネットワークのアピアランスモデルを用いて生成して出力する第1信頼マップ生成部と、前記所定時点より前の複数の時点の、前記物体の前記部分位置の信頼度をそれぞれ表す、複数の統合信頼マップの経時的変化に基づいて、前記所定時点における、前記物体の前記部分位置の信頼度を表す第2信頼マップを、ニューラルネットワークのモーションモデルを用いて、生成して出力する第2信頼マップ生成部と、マスクにより、前記第1信頼マップ生成部により出力された前記第1信頼マップと、前記第2信頼マップ生成部により出力された前記第2信頼マップと、を統合することで、前記所定時点の、前記物体の前記部分位置の信頼度を表す、前記統合信頼マップを生成して出力する統合信頼マップ生成部と、を有する物体の部分位置推定装置。
撮影画像に基づいてアピアランスモデルにより生成した、物体の現在の部分位置の第1信頼度マップと、過去の部分位置の複数の統合信頼マップに基づいてモーションモデルにより生成した、現在の部分位置の第2信頼度マップとを、マスクで統合して現在の部分位置の統合信頼マップを生成する。これにより、オクルージョン等が発生しても物体の部分位置の推定精度を向上できる。
関節点推定装置を含む関節点推定システムの概略構成を示す図である。 関節点推定装置のハードウェア構成を示すブロック図である。 関節点推定装置の制御部の機能を示すブロック図である。 対象者についてオクルージョンが発生した場合の、関節点推定装置の制御部の作用について説明するための説明図である。 関節点推定装置の動作を示すフローチャートである。
以下、図面を参照して、本発明の実施形態に係る物体検出プログラムおよび関節点推定装置について説明する。なお、図面において、同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
図1は、実施形態に係る関節点推定装置100を含む関節点推定システム10の概略構成を示す図である。
関節点推定システム10は、関節点推定装置100、撮影装置200、および通信ネットワーク300を備える。関節点推定装置100は、通信ネットワーク300により撮影装置200と相互に通信可能に接続される。本明細書において、物体とは、関節点推定装置100による関節点の推定対象の物体である。物体には複数のカテゴリーが含まれ得る。カテゴリーとは、関節点推定装置100が認識可能な物体の種別であり、人、犬、猫等が含まれる。以下、説明を簡単にするために、物体は対象者500(すなわち、「人」)であるものとして説明する。関節点推定装置100は、物体の部分位置推定装置を構成する。
関節点推定装置100は、撮影装置200により撮影された画像(以下、単に「撮影画像250」と称する(図3等参照))を、撮影装置200から受信し、撮影画像250に含まれる対象者500の関節点253(より詳細には、関節点の撮影画像上の位置(図3等参照))を推定する。関節点253には、右足首、右膝、右腰、左腰、左膝、左足首、右手首、右肩、左肩、左手首、首、および頭頂部等の各関節点253(以下、各関節点253を「個別関節点」とも称する)が含まれる。関節点推定装置100は、コンピューターにより構成される。関節点推定装置100は、撮影装置200と一体化されることで、撮影装置200に包含され得る。一方、関節点推定装置100は、サーバーとして構成されてもよい。
撮影装置200は、例えば、対象者500の居室の天井、または壁の上部に配置され、所定の撮影領域として対象者500の居室のできるだけ広い範囲を、対象者500を俯瞰可能な位置から撮影し、撮影画像250(画像データ)を出力する。撮影画像250には対象者500を含む画像が含まれる。撮影装置200は、広角カメラであり得る。広角カメラは、比較的広い画角の撮影画像250を撮影できるカメラであり、撮影画像250上の位置に対応して歪みの大きさが変化するカメラである。広角カメラの近くの位置にいる対象者500は、撮影画像250において、頭部と肩部が比較的大きく映り、腕や足は肩に隠れ得る。広角カメラの遠くにいる対象者500は、撮影画像250において、比較的小さく、かつ全身が映る。撮影装置200は、例えば15fps~30fpsのフレームレートの動画の撮影画像250として撮影領域を撮影し得る。撮影画像250は動画と静止画とを含む。撮影装置200は、撮影画像250を関節点推定装置100等に送信する。
通信ネットワーク300には、イーサネット(登録商標)などの有線通信規格によるネットワークインターフェースを使用し得る。通信ネットワーク300には、Bluetooth(登録商標)、IEEE802.11などの無線通信規格によるネットワークインターフェースを使用してもよい。
図2は、関節点推定装置100のハードウェア構成を示すブロック図である。関節点推定装置100は、制御部110、記憶部120、表示部130、入力部140、および通信部150を有する。これらの構成要素は、バス160を介して相互に接続される。
制御部110は、CPU(Central Processing Unit)により構成され、プログラムに従って、関節点推定装置100の各部の制御および演算処理を行う。制御部110の作用の詳細については後述する。
記憶部120は、RAM(Random Access Memory)、ROM(Read Only Memory)、およびSSD(Solid State Drive)により構成され得る。RAMは、制御部110の作業領域として一時的にプログラムやデータを記憶する。ROMは、あらかじめ各種プログラムや各種データを格納する。SSDは、オペレーションシステムを含む各種プログラムおよび各種データを格納する。
表示部130は、例えば液晶ディスプレイであり、各種情報を表示する。
入力部140は、例えばタッチパネルや各種キーにより構成される。入力部140は、各種操作、入力のために使用される。
通信部150は、外部機器と通信するためのインターフェースである。通信には、イーサネット(登録商標)、SATA、PCI Express、USB、IEEE1394などの規格によるネットワークインターフェースが用いられ得る。その他、通信には、Bluetooth(登録商標)、IEEE802.11、4Gなどの無線通信インターフェースが用いられ得る。
制御部110の作用の詳細について説明する。
図3は、関節点推定装置100の制御部110の機能を示すブロック図である。制御部110は、アピアランスモデル111、マスク生成モデル112、モーションモデル113、および物体部分位置推定部114を有する。アピアランスモデル111、マスク生成モデル112、およびモーションモデル113は、それぞれDNN(Deep Neural Network)により構成され得る。アピアランスモデル111とマスク生成モデル112は結合されることで、一つのDNNにより構成されてもよい。アピアランスモデル111、モーションモデル113、およびマスク生成モデル112は、部分位置推定用ニューラルネットワーク構造を構成する。部分位置推定用ニューラルネットワーク構造には、物体部分位置推定部114が含まれてもよい。アピアランスモデル111は、第1信頼マップ生成部を構成する。モーションモデル113は、第2信頼マップ生成部を構成する。制御部110は、統合信頼マップ生成部を構成する。
アピアランスモデル111は、撮影画像250に基づいて、現在(現時点)のアピアランス信頼マップを生成して出力する。アピアランス信頼マップは、1つの画像に基づいて算出される、個別関節点253の画素ごとの尤度のマップであり、第1信頼マップを構成する。アピアランスモデル111は、対象者500を含む候補矩形として当該対象者500を検出し、候補矩形内で、個別関節点の画素ごとの尤度を推定することで、アピアランス信頼マップの生成速度を高速化し得る。以下、説明を簡単にするために、現在である、t時点(所定の時点)の関節点253の推定に関する各ブロックの作用について説明する。t時点の関節点253の推定に関する各ブロックの作用は、時間の経過に伴う、t+1時点(t時点に対し未来)の関節点253の推定に関する各ブロックの機能にも同様に適用される。なお、t-1時点はt時点に対し過去の時点であり、t-2時点は、t-1時点に対しさらに過去の時点である。
モーションモデル113は、過去の複数の統合信頼マップ252の経時的変化に基づいて、現在のモーション信頼マップを生成して出力する。統合信頼マップ252については後述する。具体的には、モーションモデル113は、t-1時点および、t-2時点のそれぞれの時点の複数の統合信頼マップ252の経時的変化に基づいて、t時点のモーション信頼マップを生成する。モーション信頼マップは、所定時点より前の信頼マップ(本実施形態では、統合信頼マップ252)における経時的変化に基づいて推定された、所定時点の個別関節点の画素ごとの尤度のマップである。
マスク生成モデル112は、t時点のアピアランス信頼マップと、t時点のモーション信頼マップとを統合するためのマスクを生成して出力する。マスクは、t時点のアピアランス信頼マップと、t時点のモーション信頼マップとを統合することで、t時点の統合信頼マップを生成して出力する。具体的には、マスクは、アピアランス信頼マップおよびモーション信頼マップに、それぞれに対する自信度を乗算する重み付け演算をした後、当該演算後の、アピアランス信頼マップおよびモーション信頼度を互いに加算することで統合信頼マップを生成する。マスク生成モデル112は、時点ごと(すなわち、撮影画像250のフレームごと)にマスクを生成する。統合信頼マップは、個別関節点の画素ごとの尤度のマップであり、アピアランス信頼マップとモーション信頼マップのそれぞれに対する自信度が反映されている。図3において示されている、統合信頼マップ252の模式図においては、個別関節点である右足首についての画素ごとの尤度を示すヒートマップが、対象者500の画像とともに示されているが、対象者500の画像を示したのは説明を判りやすくするためである。統合信頼マップ252は、上述したように、画素ごとの尤度のマップであり、対象者500の画像は含まれない。自信度は、アピアランス信頼マップとモーション信頼マップのそれぞれの尤度に対する相対的な自信の大きさ(信頼性)を示す値である。アピアランス信頼マップに対する自信度と、モーション信頼マップに対する自信度は、それぞれ0~1の値であり、両者の和は1である。
物体部分位置推定部114は、統合信頼マップ252に基づいて、関節点253を推定して出力する。具体的には、物体部分位置推定部114は、t時点の、個別関節点ごとの統合信頼マップ252において、それぞれ尤度が最も大きい画素の位置(座標)を、個別関節点の位置として推定し、推定したすべての個別関節点の位置を、対象者500の関節点253として推定する。
アピアランスモデル111、マスク生成モデル112、モーションモデル113、および物体部分位置推定部114により構成される部分位置推定用ニューラルネットワーク構造は、教師データにより予め学習される。学習は、撮影画像250を入力、当該撮影画像250に対応する既知の関節点253を正解ラベルとして実行され得る。学習は、対象者500についてオクルージョンが発生している撮影画像250を含む時系列の(連続するフレームの)複数の撮影画像250と、当該複数の撮影画像250にそれぞれ対応する関節点253の正解ラベルを教師データに含めて実行される。オクルージョンには、対象者500の体の一部が物体600(図4参照)の背後に位置することで、対象者500の一部が物体に隠れて撮影画像250上で見えなくなることや、対象者500の体の一の部分が他の部分に隠れることで見えなくなること等が含まれる。
図4は、対象者500についてオクルージョンが発生した場合の、関節点推定装置100の制御部110の作用について説明するための説明図である。
図4の例においては、t時点において、対象者500の一部が手前の物体600の背後に位置することで、対象者500の一部が物体に隠れて撮影画像250上で見えなくなっており、オクルージョンが発生している。この場合、マスク生成モデル112により、オクルージョンが発生している撮影画像250に基づいて、モーション信頼マップに対する自信度が、アピアランス信頼マップに対する自信度より大きい、t時点のマスクが生成される。これは、オクルージョンが発生している撮影画像250に基づいて生成される、t時点のアピアランス信頼マップの信頼性が低いからである。
従来の3DCNN(3D Convolutional Neural Networks)を用いた関節点推定においては、オクルージョンが発生している撮影画像も、オクルージョンが発生していない撮影画像も、信頼マップの作成において同等に扱われる。従って、オクルージョンが発生している撮影画像についての関節点推定の精度が低下する。
マスク251により、統合信頼マップ252が生成される際の演算に使用される自信度は、アピアランス信頼マップおよびモーション信頼マップのそれぞれに対する信頼性を表しているため、マスク251を解析することで、関節点253の推定精度を向上するために、アピアランスモデル111およびモーションモデル113のいずれを改良する必要があるかについての検証が容易にできる。すなわち、関節点253の推定において、対象者500の動き(モーション)が重視されたのか、画像上の対象者500の見え(アピアランス)が重視されたのかがマスク251により可視化されるため、アピアランスモデル111およびモーションモデル113の改良のための指針が容易に得られる。従って、マスク251の検証結果に基づいてアピアランスモデル111およびモーションモデル113を改良することで、関節点253の検出精度をさらに向上できる。
撮影画像250の撮影環境が変わることによっても、マスク生成モデル112により生成されるマスクにおける、アピアランス信頼マップおよびモーション信頼マップのそれぞれに対する自信度が変わる。これは、例えば、比較的暗い撮影環境で撮影された撮影画像250と、比較的明るい撮影環境で撮影された撮影画像250とでは、アピアランス信頼マップおよびモーション信頼マップのいずれの信頼性を高くすべきかが変わり得るからである。
関節点推定装置100の動作について説明する。
図5は、関節点推定装置100の動作を示すフローチャートである。本フローチャートは、記憶部120に記憶されたプログラムに従い、制御部110により実行される。
制御部110は、撮影装置200から、通信部150を介して現時点(t時点)の撮影画像250(フレーム)を取得する(S101)。
制御部110は、現時点の撮影画像250に基づいて、アピアランスモデル111を用いて、現時点のアピアランス信頼度マップを生成する(S102)。
制御部110は、現時点の撮影画像250に基づいて、マスク生成モデル112を用いて、現時点のマスクを生成する(S103)。
制御部110は、過去(t時点より前)の複数の時点(t-1時点およびt-2時点)のそれぞれの複数の統合信頼マップに基づいて、モーションモデル113を用いて、現時点のモーション信頼マップを生成する(S104)。過去の複数の統合信頼マップ252は、記憶部120に記憶されており、これを読み出すことで利用し得る。
制御部110は、現時点のマスクにより、現時点のアピアランス信頼度マップと、現時点のモーション信頼マップを統合することで、現時点の統合信頼マップ252を生成する(S105)。
制御部110は、現時点の統合信頼マップ252に基づいて、現時点の関節点253を推定する(S106)。
制御部110は、撮影画像250の全てのフレームについて関節点253を推定したかどうかを判断する(S107)。
制御部110は、全てのフレームについて関節点253を推定したと判断した場合は(S107:YES)、処理を終了する。
制御部110は、全てのフレームについて関節点253を推定していないと判断した場合は(S107:NO)、ステップS101に戻り、次のフレーム(t+1時点のフレーム)に対し、処理を続行する。
本実施形態は、以下の効果を奏する。
撮影画像に基づいてアピアランスモデルにより生成した、物体の現在の部分位置の第1信頼度マップと、過去の部分位置の複数の統合信頼マップに基づいてモーションモデルにより生成した、現在の部分位置の第2信頼度マップとを、マスクで統合して現在の部分位置の統合信頼マップを生成する。これにより、オクルージョン等が発生しても物体の部分位置の推定精度を向上できる。また、マスクの検証により、アピアランスモデルおよびモーションモデルのいずれを改良すべきかの指針が容易に得られるため、当該検証の結果に基づく各モデルの改良により、物体の部分位置の推定精度をさらに向上できる。
さらに、現在の撮影画像に基づいて、マスク生成モデルにより、第1信頼マップおよび第2信頼マップのそれぞれに対する自信度を乗算する重み付け演算をし、演算後の、第1信頼マップおよび第2信頼マップを加算することで両マップを統合するマスクを生成する。これにより、アピアランスモデルおよびモーションモデルの長所を生かした、物体の部分位置の推定を、簡単かつ効率的に行うことができる。
さらに、撮影画像において物体についてオクルージョンが発生している場合、マスクにおける第2信頼マップに対する自信度が、第1信頼マップに対する自信度より大きくする。これにより、オクルージョンが発生することによる部分位置の推定精度の低下を抑止できる。
さらに、撮影画像の撮影環境が変わることにより、マスクにおける第1信頼度マップおよび第2信頼マップのそれぞれに対する自信度を変える。これにより、撮影画像の撮影環境の変化による部分位置の推定精度の低下を抑止できる。
以上に説明した、関節点推定システム10および関節点推定装置100の構成は、上述の実施形態の特徴を説明するにあたって主要構成を説明したのであって、上述の構成に限られず、特許請求の範囲内において、種々改変することができる。また、一般的な物体検出システムが備える構成を排除するものではない。
例えば、関節点推定装置100が有する機能を、コンピューターを内蔵する撮影装置200が備えるようにしてもよい。
また、関節点推定装置100、および撮影装置200は、それぞれ複数の装置により構成されてもよく、いずれか複数の装置が単一の装置として構成されてもよい。
また、上述したフローチャートは、一部のステップを省略してもよく、他のステップが追加されてもよい。また各ステップの一部は同時に実行されてもよく、一つのステップが複数のステップに分割されて実行されてもよい。
また、モーションモデル113は、過去の2つの統合信頼マップ252に基づいて、現在のモーション信頼マップを生成している。しかし、モーションモデル113が、現在のモーション信頼マップを生成するために用いる過去の統合信頼マップ252の数は2つに限定されず、例えば、8つでもよい。
また、モーションモデル113は、過去の複数の撮影画像250に基づいて、現在のモーション信頼マップを生成してもよいし、過去の複数のアピアランス信頼マップに基づいて、現在のモーション信頼マップを生成してもよい。
また、t時点を現在として説明したが、t時点は過去の時点であってもよい。
また、物体は、人に限定されず、猫、または犬等の動物であってもよく、物体に複数のカテゴリーが含まれてもよい。
また、上述した実施形態においてCNNにより実現していた機能を、CNN以外の機械学習手段により実現してもよい。
また、上述した関節点推定システム10および関節点推定装置100における各種処理を行う手段および方法は、専用のハードウェア回路、またはプログラムされたコンピューターのいずれによっても実現することが可能である。上記プログラムは、例えば、USBメモリやDVD(Digital Versatile Disc)-ROM等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部に転送され記憶される。また、上記プログラムは、単独のアプリケーションソフトとして提供されてもよいし、一機能としてその検出部等の装置のソフトウエアに組み込まれてもよい。
10 関節点推定システム、
100 関節点推定装置、
110 制御部、
111 アピアランスモデル、
112 マスク生成モデル、
113 モーションモデル、
114 物体部分位置推定部、
120 記憶部、
130 表示部、
140 入力部、
150 通信部、
200 撮影装置、
250 撮影画像、
251 マスク、
252 統合信頼マップ、
253 関節点、
300 通信ネットワーク、
500 対象者。

Claims (10)

  1. 撮影された画像に基づいて、所定時点における、物体の部分位置の信頼度を表す第1信頼マップを、ニューラルネットワークのアピアランスモデルを用いて生成して出力する手順(a)と、
    前記所定時点より前の複数の時点の、前記物体の前記部分位置の信頼度をそれぞれ表す、複数の統合信頼マップの経時的変化に基づいて、前記所定時点における、前記物体の前記部分位置の信頼度を表す第2信頼マップを、ニューラルネットワークのモーションモデルを用いて、生成して出力する手順(b)と、
    マスクにより、前記手順(a)において出力された前記第1信頼マップと、前記手順(b)において出力された前記第2信頼マップと、を統合することで、前記所定時点の、前記物体の前記部分位置の信頼度を表す、前記統合信頼マップを生成して出力する手順(c)と、
    を有する処理を、コンピューターに実行させるための、物体の部分位置推定プログラム。
  2. 前記所定時点における前記画像に基づいて、ニューラルネットワークのマスク生成モデルにより、前記マスクを生成する手順(d)をさらに有し、
    前記マスクは、前記第1信頼マップおよび前記第2信頼マップのそれぞれに対する自信度を乗算する重み付け演算をし、前記重み付け演算後の、前記第1信頼マップおよび前記第2信頼マップを互いに加算することで、前記第1信頼マップと前記第2信頼マップとを統合する、請求項1に記載の物体の部分位置推定プログラム。
  3. 前記画像において前記物体についてオクルージョンが発生している場合、前記マスクにおける前記第2信頼マップに対する前記自信度が、前記第1信頼マップに対する前記自信度より大きい、請求項2に記載の物体の部分位置推定プログラム。
  4. 前記画像の撮影環境が変わることにより、前記マスクにおける前記第1信頼マップおよび前記第2信頼マップのそれぞれに対する前記自信度が変わる、請求項2に記載の物体の部分位置推定プログラム。
  5. 撮影された画像に基づいて、物体の部分位置の信頼度を表す統合信頼マップを出力するよう、コンピューターを機能させるためのニューラルネットワーク構造であって、
    前記画像に基づいて、所定時点における、前記物体の前記部分位置の信頼度を表す第1信頼マップを生成して出力する、ニューラルネットワークのアピアランスモデルと、
    前記所定時点より前の複数の時点の、前記物体の前記部分位置の信頼度をそれぞれ表す、複数の統合信頼マップの経時的変化に基づいて、前記所定時点における、前記物体の前記部分位置の信頼度を表す第2信頼マップを生成して出力する、ニューラルネットワークのモーションモデルと、
    前記アピアランスモデルから出力された前記第1信頼マップと、前記モーションモデルから出力された前記第2信頼マップと、を統合することで、前記所定時点における、前記物体の前記部分位置を表す、前記統合信頼マップを生成して出力するマスクを、前記所定時点における前記画像に基づいて生成する、ニューラルネットワークのマスク生成モデルと、
    を有する、物体の部分位置推定用ニューラルネットワーク構造。
  6. 前記マスクは、前記第1信頼マップおよび前記第2信頼マップのそれぞれに対する自信度を乗算する重み付け演算をし、前記重み付け演算後の、前記第1信頼マップおよび前記第2信頼マップを互いに加算することで、前記第1信頼マップと前記第2信頼マップとを統合する、請求項5に記載の物体の部分位置推定用ニューラルネットワーク構造。
  7. 前記マスク生成モデルは、前記画像において前記物体についてオクルージョンが発生している場合、前記第2信頼マップに対する前記自信度を、前記第1信頼マップに対する前記自信度より大きくした前記マスクを生成する、請求項6に記載の物体の部分位置推定用ニューラルネットワーク構造。
  8. 前記マスク生成モデルは、前記画像の撮影環境により、前記第1信頼マップおよび前記第2信頼マップのそれぞれに対する前記自信度を変化させた前記マスクを生成する、請求項6に記載の物体の部分位置推定用ニューラルネットワーク構造。
  9. 撮影された画像に基づいて、所定時点における、物体の部分位置の信頼度を表す第1信頼マップを、ニューラルネットワークのアピアランスモデルを用いて生成して出力する段階(a)と、
    前記所定時点より前の複数の時点の、前記物体の前記部分位置の信頼度をそれぞれ表す、複数の統合信頼マップの経時的変化に基づいて、前記所定時点における、前記物体の前記部分位置の信頼度を表す第2信頼マップを、ニューラルネットワークのモーションモデルを用いて、生成して出力する段階(b)と、
    マスクにより、前記段階(a)において出力された前記第1信頼マップと、前記段階(b)において出力された前記第2信頼マップと、を統合することで、前記所定時点の、前記物体の前記部分位置の信頼度を表す、前記統合信頼マップを生成して出力する段階(c)と、
    を有する物体の部分位置推定方法。
  10. 撮影された画像に基づいて、所定時点における、物体の部分位置の信頼度を表す第1信頼マップを、ニューラルネットワークのアピアランスモデルを用いて生成して出力する第1信頼マップ生成部と、
    前記所定時点より前の複数の時点の、前記物体の前記部分位置の信頼度をそれぞれ表す、複数の統合信頼マップの経時的変化に基づいて、前記所定時点における、前記物体の前記部分位置の信頼度を表す第2信頼マップを、ニューラルネットワークのモーションモデルを用いて、生成して出力する第2信頼マップ生成部と、
    マスクにより、前記第1信頼マップ生成部により出力された前記第1信頼マップと、前記第2信頼マップ生成部により出力された前記第2信頼マップと、を統合することで、前記所定時点の、前記物体の前記部分位置の信頼度を表す、前記統合信頼マップを生成して出力する統合信頼マップ生成部と、
    を有する物体の部分位置推定装置。
JP2019022868A 2019-02-12 2019-02-12 物体の部分位置推定プログラム、物体の部分位置推定用ニューラルネットワーク構造、物体の部分位置推定方法、および物体の部分位置推定装置 Active JP7124746B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019022868A JP7124746B2 (ja) 2019-02-12 2019-02-12 物体の部分位置推定プログラム、物体の部分位置推定用ニューラルネットワーク構造、物体の部分位置推定方法、および物体の部分位置推定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019022868A JP7124746B2 (ja) 2019-02-12 2019-02-12 物体の部分位置推定プログラム、物体の部分位置推定用ニューラルネットワーク構造、物体の部分位置推定方法、および物体の部分位置推定装置

Publications (2)

Publication Number Publication Date
JP2020134970A JP2020134970A (ja) 2020-08-31
JP7124746B2 true JP7124746B2 (ja) 2022-08-24

Family

ID=72263084

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019022868A Active JP7124746B2 (ja) 2019-02-12 2019-02-12 物体の部分位置推定プログラム、物体の部分位置推定用ニューラルネットワーク構造、物体の部分位置推定方法、および物体の部分位置推定装置

Country Status (1)

Country Link
JP (1) JP7124746B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005141687A (ja) 2003-11-10 2005-06-02 Nippon Telegr & Teleph Corp <Ntt> 物体追跡方法、物体追跡装置、物体追跡システム、プログラム、および、記録媒体
JP2018088057A (ja) 2016-11-28 2018-06-07 コニカミノルタ株式会社 画像認識装置及び画像認識方法
JP2019012497A (ja) 2017-07-03 2019-01-24 富士通株式会社 部位認識方法、装置、プログラム、及び撮像制御システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005141687A (ja) 2003-11-10 2005-06-02 Nippon Telegr & Teleph Corp <Ntt> 物体追跡方法、物体追跡装置、物体追跡システム、プログラム、および、記録媒体
JP2018088057A (ja) 2016-11-28 2018-06-07 コニカミノルタ株式会社 画像認識装置及び画像認識方法
JP2019012497A (ja) 2017-07-03 2019-01-24 富士通株式会社 部位認識方法、装置、プログラム、及び撮像制御システム

Also Published As

Publication number Publication date
JP2020134970A (ja) 2020-08-31

Similar Documents

Publication Publication Date Title
JP7178396B2 (ja) 入力映像に含まれた客体の3次元ポーズの推定のためのデータを生成する方法およびコンピュータシステム
JP2019028843A (ja) 人物の視線方向を推定するための情報処理装置及び推定方法、並びに学習装置及び学習方法
CN112434679B (zh) 康复运动的评估方法及装置、设备、存储介质
US20120194513A1 (en) Image processing apparatus and method with three-dimensional model creation capability, and recording medium
JP2010123019A (ja) 動作認識装置及び方法
KR20220024494A (ko) 사람의 단안 깊이 추정을 위한 방법 및 시스템
JP7103354B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US20180114339A1 (en) Information processing device and method, and program
Vo et al. Spatiotemporal bundle adjustment for dynamic 3d human reconstruction in the wild
CN117542122B (zh) 人体位姿估计与三维重建方法、网络训练方法及装置
JP7499346B2 (ja) 逆運動学に基づいた関節の回転の推測
JP6288770B2 (ja) 顔検出方法、顔検出システム、および顔検出プログラム
JP2022095332A (ja) 学習モデル生成方法、コンピュータプログラム及び情報処理装置
CN113033526A (zh) 基于计算机实现的方法、电子设备和计算机程序产品
JP7124746B2 (ja) 物体の部分位置推定プログラム、物体の部分位置推定用ニューラルネットワーク構造、物体の部分位置推定方法、および物体の部分位置推定装置
JP5767078B2 (ja) 姿勢推定装置、姿勢推定方法及び姿勢推定プログラム
US20210042607A1 (en) Cross-domain metric learning system and method
JP6839116B2 (ja) 学習装置、推定装置、学習方法、推定方法及びコンピュータプログラム
KR102514807B1 (ko) 모션 블러된 rgb 이미지에서의 3d 손 메시 복원 방법 및 장치
JP7347577B2 (ja) 画像処理システム、画像処理プログラム、および画像処理方法
WO2022107548A1 (ja) 3次元骨格検出方法及び3次元骨格検出装置
WO2021241293A1 (ja) 行動体特定システム
JP6797344B1 (ja) 学習装置、活用装置、プログラム、学習方法及び活用方法
Yamane et al. Human motion generation based on GAN toward unsupervised 3D human pose estimation
Morimoto et al. 3D Pose Estimation Using Multiple Asynchronous Cameras

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210628

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220704

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220725

R150 Certificate of patent or registration of utility model

Ref document number: 7124746

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150