JP7067672B2

JP7067672B2 - 画像処理システム、画像処理プログラム、および画像処理方法

Info

Publication number: JP7067672B2
Application number: JP2021522674A
Authority: JP
Inventors: 智也岡▲崎▼; 希武田中; 直樹池田
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2019-05-29
Filing date: 2020-04-06
Publication date: 2022-05-16
Anticipated expiration: 2040-04-06
Also published as: WO2020241057A1; JP7347577B2; JP2022095994A; JPWO2020241057A1

Description

本発明は、画像処理システム、画像処理プログラム、および画像処理方法に関する。

我が国は、戦後の高度経済成長に伴う生活水準の向上、衛生環境の改善、および医療水準の向上等により、長寿命化が顕著となっている。このため、出生率の低下と相まって、高齢化率が高い高齢化社会になっている。このような高齢化社会では、病気、怪我、および加齢などにより、介護等の対応を必要とする要介護者等の増加が想定される。

要介護者等は、病院や老人福祉施設などの施設において、歩行中に転倒したり、ベッドから転落して怪我をするおそれがある。そのため、要介護者等がこのような状態になったときに介護士や看護師等のスタッフがすぐに駆けつけられるようにするために、撮影画像から要介護者等の状態を検出するためのシステムの開発が進められている。このようなシステムで要介護者等の状態を検出するためには、撮影された画像から検知対象である人物の姿勢等を高精度で検出する必要がある。

しかし、特に魚眼レンズカメラのような広角レンズのカメラで撮影された全方位画像においては、レンズの歪み特性により、同じ人物であっても、人物の位置に応じて、画像内の人物の見え方が変化するという特徴をもつ。

全方位画像等の画像から人物の姿勢を検出する技術としては、下記特許文献１および２に開示されたものがある。

特許文献１には、人の個人ＩＤと、画像における直立時の頭の大きさとを関連付けて登録しておき、画像における人の頭の像の大きさを検出し、検出された頭の像の大きさに基づいて人の姿勢を判別する技術が開示されている。特許文献２には、画像から人を含む人領域を検出し、人領域の画像と姿勢との組み合わせの教師データにより予め学習されたニューラルネットワーク等により、人領域の画像に基づいて人の姿勢を推定する技術が開示されている。

特開２０１５－１５８９５２号公報特開２０１８－２０６３２１号公報

しかし、特許文献１の技術は、画像上の頭の像の大きさに基づいて人物の姿勢を判別するに過ぎないため、高精度に姿勢を推定できないという問題がある。特許文献２の技術は、画像を撮影する撮影装置の設置場所の変更等により撮影装置の高さが変動した場合に、画像に基づく人物の姿勢の推定精度が低下するという問題がある。

本発明は、このような問題を解決するためになされたものである。すなわち、撮影装置の設置高さが変動しても、撮影された画像に基づいて高精度に人物の姿勢を推定できる画像処理システム、画像処理プログラム、および画像処理方法を提供することを目的とする。

本発明の上記課題は、以下の手段によって解決される。

（１）所定の撮影領域を俯瞰する設置位置に設置された撮影装置により、前記撮影領域全体が撮影された画像を取得する画像取得部と、前記画像から人物領域を検出する人物領域検出部と、前記設置位置の、所定位置からの高さの情報を取得する情報取得部と、人物の姿勢を推定するための学習により得られた学習済みモデルと、を有し、前記人物領域又は前記人物領域から推定される人の体に関する特徴点に対し、前記高さの情報を用いた補正を含む処理をし、得られたデータに基づいて、前記学習済みモデルを用いて、人物の姿勢を推定する姿勢推定部と、を有する画像処理システム。

（２）前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記人物領域を補正する補正部をさらに有し、前記学習済みモデルは、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域と、前記人物の姿勢との組合せを教師データとして予め学習され、前記姿勢推定部は、前記補正部により補正された前記人物領域に基づいて人物の姿勢を推定する、上記（１）に記載の画像処理システム。

（３）前記人物領域から、人の体に関する特徴点を推定する特徴点推定部と、前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記特徴点を補正する補正部をさらに有し、前記学習済みモデルは、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域から推定された前記特徴点と、前記人物の姿勢との組合せを教師データとして予め学習され、前記姿勢推定部は、前記補正部により補正された前記特徴点に基づいて人物の姿勢を推定する、上記（１）に記載の画像処理システム。

（４）所定の撮影領域を俯瞰する設置位置に設置された撮影装置により、前記撮影領域全体が撮影された画像を取得する手順（ａ）と、前記画像から人物領域を検出する手順（ｂ）と、前記設置位置の、所定位置からの高さの情報を取得する手順（ｃ）と、前記人物領域又は前記人物領域から推定される人の体に関する特徴点に対し、前記高さの情報を用いた補正を含む処理をし、得られたデータに基づいて、人物の姿勢を推定するための学習により得られた学習済みモデルを用いて、人物の姿勢を推定する手順（ｄ）と、を有する処理を、コンピューターに実行させるための画像処理プログラム。

（５）前記処理は、前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記人物領域を補正する手順（ｅ）をさらに有し、前記手順（ｄ）では、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域と、前記人物の姿勢との組合せを教師データとして予め学習された学習済みモデルにより、前記手順（ｅ）において補正された前記人物領域に基づいて人物の姿勢を推定する、上記（４）に記載の画像処理プログラム。

（６）前記処理は、前記人物領域から、人の体に関する特徴点を推定する手順（ｆ）と、前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記特徴点を補正する手順（ｇ）と、をさらに有し、前記手順（ｄ）では、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域から推定された前記特徴点と、前記人物の姿勢との組合せを教師データとして予め学習された学習済みモデルにより、前記手順（ｇ）において補正された前記特徴点に基づいて人物の姿勢を推定する、上記（４）に記載の画像処理プログラム。

（７）画像処理システムによる画像処理方法であって、所定の撮影領域を俯瞰する設置位置に設置された撮影装置により、前記撮影領域全体が撮影された画像を取得する段階（ａ）と、前記画像から人物領域を検出する段階（ｂ）と、前記設置位置の、所定位置からの高さの情報を取得する段階（ｃ）と、前記人物領域又は前記人物領域から推定される人の体に関する特徴点に対し、前記高さの情報を用いた補正を含む処理をし、得られたデータに基づいて、および人物の姿勢を推定するための学習により得られた学習済みモデルを用いて、人物の姿勢を推定する段階（ｄ）と、を有する画像処理方法。

（８）前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記人物領域を補正する段階（ｅ）をさらに有し、前記段階（ｄ）では、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域と、前記人物の姿勢との組合せを教師データとして予め学習された学習済みモデルにより、前記段階（ｅ）において補正された前記人物領域に基づいて人物の姿勢を推定する、上記（７）に記載の画像処理方法。

（９）前記人物領域から、人の体に関する特徴点を推定する段階（ｆ）と、前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記特徴点を補正する段階（ｇ）と、をさらに有し、前記段階（ｄ）では、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域から推定された前記特徴点と、前記人物の姿勢との組合せを教師データとして予め学習された学習済みモデルにより、前記段階（ｇ）において補正された前記特徴点に基づいて人物の姿勢を推定する、上記（７）に記載の画像処理方法。

所定の撮影領域を俯瞰する設置位置に設置された撮影装置で撮影された撮影領域全体の画像から人物領域を検出し、撮影装置が設置された高さの情報と、人物領域とに基づいて、機械学習により人物の姿勢を推定する。これにより、撮影装置の設置高さが変動しても、撮影された画像に基づいて高精度に人物の姿勢を推定できる。

実施形態に係る画像認識装置を含む画像認識システムの概略構成を示す図である。画像認識装置のハードウェア構成を示すブロック図である。画像認識装置の制御部の機能を示すブロック図である。画像において検出された人物領域を示す図である。特徴点を示す説明図である。補正部による特徴点の補正について説明するための説明図である。補正前後の特徴点を画像上で説明するための説明図である。画像認識装置の動作を示すフローチャートである。画像認識装置の制御部の機能を示すブロック図である。画像認識装置の動作を示すフローチャートである。画像認識装置の制御部の機能を示すブロック図である。画像認識装置の動作を示すフローチャートである。

以下、図面を参照して、本発明の実施形態に係る、画像処理システム、画像処理プログラム、および画像処理方法について説明する。なお、図面において、同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

（第１実施形態）
図１は、実施形態に係る画像認識装置１００を含む画像認識システム１０の概略構成を示す図である。

画像認識システム１０は、画像認識装置１００、撮影装置２００、通信ネットワーク３００、および携帯端末４００を有する。画像認識装置１００は、通信ネットワーク３００により撮影装置２００および携帯端末４００と相互に通信可能に接続される。

画像認識装置１００は、撮影装置２００により撮影された画像（以下、単に「画像６００」とも称する（図４等参照））を、撮影装置２００から受信し、画像６００から人物である対象者５００を含む領域を人物領域６１０として検出する。画像認識装置１００は、画像６００上で物体（オブジェクト）が存在する領域を検出し、検出した領域に含まれる物体のカテゴリーを推定することで、人物領域６１０を検出し得る。物体が存在する領域は、画像６００上で物体が含まれる矩形（候補矩形）として検出される。画像認識装置１００は、検出された候補矩形のうち、物体のカテゴリーが人物であると推定された候補矩形を検出することで、人物領域６１０を検出する。画像認識装置１００は、人物領域６１０に基づいて、対象者５００の姿勢または行動を検出する。姿勢には、立位、中腰、座位、臥位、しゃがみ込み、および座り込みが含まれる。行動には、起床、離床、転倒、および転落が含まれる。後述するように、人物領域６１０は、撮影装置２００の設置位置の高さが予め設定した基準高さである場合に合わせて、撮影装置２００の設置位置の高さに基づいて、補正される。また、推定した姿勢または行動から、対象者５００に関するイベントを検出し得る。イベントとは、対象者５００に関し、画像認識装置１００等が認識した状態の変化であって、例えば、起床、離床、転倒、および転落等のスタッフ８０に発報（報知）を行うべき事象である。画像認識装置１００は、イベントを検出した場合は、イベントの内容を通知するイベント通知を携帯端末４００へ送信する。画像認識装置１００は、ニューラルネットワーク（以下、「ＮＮ」と称する）により、対象者５００を画像６００上の人物領域６１０として検出し得る。ＮＮによる対象物体の検出方法としては、例えば、ＦａｓｔｅｒＲ－ＣＮＮ、ＦａｓｔＲ－ＣＮＮ、およびＲ－ＣＮＮといった公知の方法が挙げられる。画像認識装置１００は、コンピューターにより構成される。画像認識装置１００は、例えば、サーバーにより構成され得る。

撮影装置２００は、例えば、近赤外線カメラにより構成され、所定の撮影領域を俯瞰する設置位置に設置され、撮影領域全体を撮影する。撮影装置２００の設置位置は、例えば対象者５００の居室の天井である。所定の撮影領域は、例えば、居室の床面全体を含む３次元の領域である。以下、撮影装置２００は対象者５００の居室の天井に設置されるものとして説明する。撮影装置２００は、ＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｅｖｉｃｅ）により近赤外線を撮影領域に向けて照射し、撮影領域内の物体により反射される近赤外線の反射光をＣＭＯＳ（ＣｏｍｐｌｅｍｅｍｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）センサーにより受光することで撮影領域を撮影し得る。画像６００は近赤外線の反射率を各画素とするモノクロ画像であり得る。

撮影装置２００は、たとえば１５ｆｐｓ～３０ｆｐｓのフレームレートの動画として撮影領域を撮影し得る。画像６００には動画と静止画とが含まれる。撮影装置２００は、画像６００を画像認識装置１００等に送信する。

撮影装置２００は、コンピューターを有するセンサーボックスにより構成し得る。センサーボックスとは、近赤外線カメラおよび体動センサー等を備える装置である。この場合、画像６００が、センサーボックスから画像認識装置１００へ送信される。なお、画像認識装置１００の機能の一部または全部をセンサーボックスが有するようにしてもよい。体動センサーは、ベッドに対してマイクロ波を送受信して対象者５００の体動（例えば呼吸動）によって生じたマイクロ波のドップラシフトを検出するドップラシフト方式のセンサーである。

通信ネットワーク３００には、イーサネット（登録商標）などの有線通信規格によるネットワークインターフェースを使用し得る。通信ネットワーク３００には、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＩＥＥＥ８０２．１１などの無線通信規格によるネットワークインターフェースを使用してもよい。通信ネットワーク３００には、アクセスポイント３１０が設けられ、携帯端末４００と、画像認識装置１００および撮影装置２００とを無線通信ネットワークにより通信可能に接続する。

携帯端末４００は、画像認識装置１００からイベント通知を受信し、イベント通知の内容を表示する。イベント通知には、起床、離床、転倒、および転落の検出結果の他、微体動異常等の検出結果が含まれ得る。携帯端末４００は、撮影装置２００または画像認識装置１００から画像６００を受信して表示し得る。携帯端末４００は、たとえばスマートフォンにより構成される。

図２は、画像認識装置１００のハードウェア構成を示すブロック図である。画像認識装置１００は、制御部１１０、記憶部１２０、表示部１３０、入力部１４０、および通信部１５０を有する。これらの構成要素は、バス１６０を介して相互に接続される。

制御部１１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）により構成され、プログラムに従って画像認識装置１００の各部の制御および演算処理を行う。制御部１１０の機能の詳細については後述する。

記憶部１２０は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、およびＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）により構成され得る。ＲＡＭは、制御部１１０の作業領域として一時的にプログラムやデータを記憶する。ＲＯＭは、あらかじめ各種プログラムや各種データを格納する。ＳＳＤは、オペレーションシステムを含む各種プログラムおよび各種データを格納する。

表示部１３０は、たとえば液晶ディスプレイであり、各種情報を表示する。

入力部１４０は、たとえばタッチパネルや各種キーにより構成される。入力部１４０は、各種操作、入力のために使用される。

通信部１５０は、外部機器と通信するためのインターフェースである。通信には、イーサネット（登録商標）、ＳＡＴＡ、ＰＣＩＥｘｐｒｅｓｓ、ＵＳＢ、ＩＥＥＥ１３９４などの規格によるネットワークインターフェースが用いられ得る。その他、通信には、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＩＥＥＥ８０２．１１、４Ｇ等の無線通信インターフェースが用いられ得る。通信部１５０は、撮影装置２００から画像６００を受信する。通信部１５０は、イベント通知を携帯端末４００へ送信する。

制御部１１０の機能の詳細について説明する。

図３は、画像認識装置１００の制御部１１０の機能を示すブロック図である。制御部１１０は、画像取得部１１１、人物領域検出部１１２、特徴点推定部１１３、高さ情報取得部１１４、補正部１１５、および姿勢推定部１１６を含む。高さ情報取得部１１４は情報取得部を構成する。

画像取得部１１１は、通信部１５０により撮影装置２００から受信した画像６００を取得する。

人物領域検出部１１２はＮＮにより構成される。ＮＮには、人物領域を検出するための学習により得られた人物領域検出パラメーターが反映されている。人物領域検出部１１２は、画像６００に基づく畳み込み演算により、画素の特徴が抽出された特徴マップを生成する。人物領域検出部１１２は、特徴マップから、画像６００上で物体が存在する領域を候補矩形として検出する。人物領域検出部１１２は、ＦａｓｔｅｒＲ－ＣＮＮ等のＮＮを用いた公知の技術により候補矩形を検出し得る。人物領域検出部１１２は、各候補矩形について、所定のカテゴリーごとの信頼度スコアを算出する。すなわち、人物領域検出部１１２は、人物を含む所定のカテゴリーに関する信頼度スコアを算出する。信頼度スコアは、所定のカテゴリーごとの尤度である。人物領域検出部１１２は、ＦａｓｔｅｒＲ－ＣＮＮ等のＮＮを用いた公知の技術により信頼度スコアを算出し得る。所定のカテゴリーは、例えば、人物、椅子、および機具とし得る。人物領域検出部１１２は、信頼度スコアが最も高いカテゴリーが人物である候補矩形をそれぞれ人物領域６１０として検出する。なお、１つの候補矩形に対し、所定のカテゴリーことにそれぞれ算出された信頼度スコアの和は１となる。

人物領域検出部１１２は、画像６００と、当該画像６００に対する正解として設定された人物領域６１０との組合せの教師データを用いて、画像６００から人物領域６１０を推定するための学習が予めされている。これにより、人物領域検出部１１２には、上述した人物領域検出パラメーターが反映されている。

図４は、画像６００において検出された人物領域６１０を示す図である。

図４の例においては、人物領域６１０が、人物である対象者５００を囲む矩形の領域として検出されている。この場合、人物領域６１０は、画像６００における人物領域６１０の矩形の対頂点のいずれかの組をなす２つの点の座標として画像６００とともに出力され得る。

特徴点推定部１１３はＮＮにより構成される。ＮＮには、人の体に関する特徴点６２０（以下、単に「特徴点６２０」とも称する）を推定するための学習により得られた特徴点推定パラメーターが反映されている。特徴点推定部１１３は、人物領域６１０に基づいて、特徴点６２０を推定する。特徴点６２０には、関節点６２１、および頭部矩形６２３の対頂点６２２が含まれ得る。頭部矩形６２３は、人物の頭部を含む矩形の領域である。特徴点推定部１１３は、ＤｅｅｐＰｏｓｅ等のＮＮを用いた公知の技術により特徴点６２０を推定し得る。ＤｅｅｐＰｏｓｅについては、公知の文献（Alexander Toshev, et al. “DeepPose: Human Pose Estimation via Deep Neural Networks”, in CVPR, 2014）に詳細が記載されている。

図５は、特徴点６２０を示す説明図である。図５には、人物領域６１０（より詳しくは、人物領域６１０の枠）も併せて示されている。

図５の例において、白い丸はそれぞれ関節点６２１を示し、グレーの丸はそれぞれ頭部矩形６２３の対頂点６２２を示している。

特徴点推定部１１３は、人物領域６１０と、当該人物領域６１０に対する正解として設定された特徴点６２０との組合せの教師データを用いて、人物領域６１０から特徴点６２０を推定するための学習が予めされている。これにより、特徴点推定部１１３には、上述した特徴点推定パラメーターが反映されている。

高さ情報取得部１１４は、例えば、ユーザーにより入力部１４０において入力された、撮影装置２００の設置位置の、所定位置からの高さの情報を取得する。以下、撮影装置２００の設置位置の所定位置からの高さを「撮影装置２００の高さ」と、所定位置からの高さの情報を単に「高さ情報」ともそれぞれ称する。所定位置は任意かつ一定の位置であり、例えば、床面の位置とし得る。

補正部１１５は、撮影装置２００の高さが予め設定された基準高さである場合に合わせて、高さ情報に基づいて、特徴点６２０（より詳細には、画像６００における特徴点６２０の座標）を補正する。

図６は、補正部１１５による特徴点６２０の補正について説明するための説明図である。

図６において、撮影装置２００Ａは、基準高さである、床面から２４０ｃｍの設置位置に設置されている。撮影装置２００Ｂは、基準高さより高い、床面から２７０ｃｍの設置位置に設置されている。撮影装置２００Ａと撮影装置２００Ｂとで、床面上で固定された同じ対象者５００を撮影すると、同じ対象者５００を撮影しているにもかかわらず、画像６００上の対象者５００の大きさが異なる。具体的には、床面から２７０ｃｍの高さの撮影装置２００Ｂにより撮影された画像６００上の対象者５００の方が、床面から２４０ｃｍの高さの撮影装置２００Ａにより撮影された画像６００上の対象者５００よりも小さくなる。このような、撮影装置２００の高さが変化することによる画像６００上の対象者５００の大きさの変動は、後述する、姿勢推定部１１６による、特徴点６２０に基づく対象者５００の姿勢の推定精度を低下させ得る。このような姿勢の推定精度の低下は、様々な高さの撮影装置２００で撮影された画像６００から推定された特徴点６２０と、当該特徴点６２０に対する正解として設定された姿勢との組合せの教師データを用いて姿勢推定部１１６を学習させることで防止できる。しかし、姿勢の推定精度を維持するために必要な教師データの量が増大する。そこで、撮影装置２００の高さが変動しても、必要な教師データの量を増大させずに、高精度な姿勢推定を実現するために、特徴点６２０を補正する。具体的には、特徴点６２０を、基準高さの撮影装置２００により撮影された場合に合わせて補正する。すなわち、各特徴点６２０相互の距離および位置の相対的関係が、撮影装置２００が基準高さに設置された場合の各特徴点６２０相互の距離および位置の相対的関係となるように、特徴点６２０を補正する。

図６に示すように、床面に対する基準画像平面の高さは、αｃｍである。従って、基準画像平面と撮影装置２００Ａとの距離は（２４０－α）ｃｍであり、基準画像平面と撮影装置２００Ｂとの距離は（２７０－α）ｃｍである。そうすると、基準画像平面上のものが画像６００に映る長さの、撮影装置２００Ａによる画像６００と、撮影装置２００Ｂによる画像６００との比は、（２４０－α）と（２７０－α）との比になる。そこで、撮影装置２００Ｂにより撮影された画像６００から推定された特徴点６２０の、画像６００上の画像６００の中心からの距離Ｌが、下記式による補正後の距離Ｌ’となるように、当該特徴点６２０の、当該画像６００上の座標を補正する。基準画像平面の高さは、姿勢推定精度の観点から実験により適当な一定の値に設定し得る。

Ｌ’＝Ｌ×（２７０－α）／（２４０－α）
図７は、補正前後の特徴点６２０を画像６００上で説明するための説明図である。

図７において、画像６００の中心が黒い点で示されており、特徴点６２０が白抜きの丸で示されている。画像６００の中心との距離がＬである特徴点６２０が補正前の特徴点である。画像６００の中心との距離がＬ’である特徴点６２０が補正後の特徴点である。図７に示すように、特徴点６２０は、画像６００の中心に対する特徴点６２０の方向は変えずに、画像６００の中心との距離を上記式により変更することで、その座標が補正される。

姿勢推定部１１６は、ＮＮにより構成される。ＮＮには、人物の姿勢を推定するための学習により得られた姿勢推定パラメーターが反映されている。姿勢推定部１１６は、補正後の特徴点６２０に基づいて、対象者５００の姿勢を推定する。

姿勢推定部１１６は、特徴点６２０と、当該特徴点６２０に対する正解として設定された姿勢との組合せを教師データとして、特徴点６２０から姿勢を推定するための学習が予めされている。これにより、姿勢推定部１１６には、上述した姿勢推定パラメーターが反映されている。教師データとして用いられる特徴点６２０等は、基準高さに設置された撮影装置２００により撮影された画像６００から検出されたもののみでよい。すなわち、姿勢推定しようとする画像６００が撮影された撮影装置２００が基準高さ以外の高さに設置されていても、当該基準高さと異なる高さに設置された撮影装置２００により撮影された画像６００から検出された特徴点６２０等の教師データを新たに用意する必要はない。

画像認識装置１００の動作について説明する。

図８は、画像認識装置１００の動作を示すフローチャートである。本フローチャートは、記憶部１２０に記憶されたプログラムに従い、制御部１１０により実行される。

画像取得部１１１は、撮影装置２００から画像６００を、通信部１５０を介して受信することで取得する（Ｓ１０１）。

人物領域検出部１１２は、画像６００から人物領域６１０を検出する（Ｓ１０２）。

特徴点推定部１１３は、人物領域６１０から特徴点６２０を推定する（Ｓ１０３）。

補正部１１５は、撮影装置２００の高さ情報に基づいて、撮影装置２００が基準高さに設置されたと仮定された場合に合わせて、特徴点６２０を補正する（Ｓ１０４）。

姿勢推定部１１６は、補正後の特徴点６２０に基づいて、対象者５００の姿勢を推定する（Ｓ１０５）。

本実施形態は以下の効果を奏する。

所定の撮影領域を俯瞰する設置位置に設置された撮影装置で撮影された撮影領域全体の画像から人物領域を検出し、人物領域から特徴点を推定し、撮影装置の高さが基準高さである場合に合わせて特徴点を補正し、補正後の特徴点に基づいて、機械学習により人物の姿勢を推定する。これにより、撮影装置の設置高さが変動しても、撮影された画像に基づいて高精度に人物の姿勢を推定できるとともに、撮影装置の設置高さの変化に起因する、機械学習による姿勢推定精度の低下を防止するために必要な、機械学習に用いる教師データを削減できる。

（第２実施形態）
本発明の第２実施形態について説明する。本実施形態と第１実施形態とで異なる点は次の点である。第１実施形態は、人物領域６１０から推定された特徴点６２０を高さ情報に基づいて補正し、補正後の特徴点６２０に基づいて姿勢を推定する。一方、本実施形態は、人物領域６１０を高さ情報に基づいて補正し、補正後の人物領域６１０に基づいて姿勢を推定する。その他の点については、本実施形態は第１実施形態と同様であるため、重複する説明は省略または簡略化する。

図９は、画像認識装置１００の制御部１１０の機能を示すブロック図である。制御部１１０は、画像取得部１１１、人物領域検出部１１２、高さ情報取得部１１４、補正部１１５、および姿勢推定部１１６を含む。

補正部１１５は、撮影装置２００の高さが基準高さとされた場合に合わせて、高さ情報に基づいて人物領域６１０を補正する。具体的には、第１実施形態において行った各特徴点６２０の座標の補正を、人物領域６１０の各画素について行う。これにより、人物領域の画素の各座標が補正されることで、補正後の人物領域６１０が算出される。なお、人物領域６１０が補正されることにより、人物領域６１０の画素密度が変化し得るが、補正後の人物領域６１０について、補正前の人物領域６１０の画素密度に戻す公知の変換がなされ得る。

姿勢推定部１１６は、補正後の人物領域６１０に基づいて、対象者５００の姿勢を推定する。

姿勢推定部１１６は、人物領域６１０と、当該人物領域６１０に対する正解として設定された姿勢との組合せを教師データとして、人物領域６１０から姿勢を推定するための学習が予めされる。教師データとして用いられる人物領域６１０等は、基準高さに設置された撮影装置２００により撮影された画像６００から検出されたもののみでよい。すなわち、姿勢推定しようとする画像６００が撮影された撮影装置２００が基準高さ以外の高さに設置されていても、当該基準高さと異なる高さに設置された撮影装置２００により撮影された画像６００から検出された人物領域６１０等の教師データを新たに用意する必要はない。

画像認識装置１００の動作について説明する。

図１０は、画像認識装置１００の動作を示すフローチャートである。本フローチャートは、記憶部１２０に記憶されたプログラムに従い、制御部１１０により実行される。

画像取得部１１１は、撮影装置２００から画像６００を、通信部１５０を介して受信することで取得する（Ｓ２０１）。

人物領域検出部１１２は、画像６００から対象者５００を含む人物領域６１０を検出する（Ｓ２０２）。

補正部１１５は、撮影装置２００が基準高さに設置された場合に合わせて、撮影装置２００の高さ情報に基づいて、人物領域６１０を補正する（Ｓ２０３）。

姿勢推定部１１６は、補正後の人物領域６１０に基づいて、対象者５００の姿勢を推定する（Ｓ２０４）。

本実施形態は以下の効果を奏する。

所定の撮影領域を俯瞰する設置位置に設置された撮影装置で撮影された撮影領域全体の画像から人物領域を検出し、撮影装置の高さが基準高さである場合に合わせて人物領域を補正し、補正後の人物領域に基づいて、機械学習により人物の姿勢を推定する。これにより、撮影装置の設置高さが変動しても、撮影された画像に基づいて高精度に人物の姿勢を推定できるとともに、撮影装置の設置高さの変化に起因する、機械学習による姿勢推定精度の低下を防止するために必要な、機械学習に用いる教師データを削減できる。

（第３実施形態）
本発明の第３実施形態について説明する。本実施形態と第１実施形態とで異なる点は次の点である。第１実施形態は、人物領域６１０から推定された特徴点６２０を高さ情報に基づいて補正し、補正後の特徴点６２０に基づいて姿勢を推定する。一方、本実施形態は、特徴点６２０等の補正はせずに、人物領域６１０と、高さ情報とに基づいて、機械学習により姿勢を推定する。その他の点については、本実施形態は第１実施形態と同様であるため、重複する説明は省略または簡略化する。

図１１は、画像認識装置１００の制御部１１０の機能を示すブロック図である。制御部１１０は、画像取得部１１１、人物領域検出部１１２、高さ情報取得部１１４、および姿勢推定部１１６を含む。

姿勢推定部１１６は、画像６００から検出された人物領域６１０と、高さ情報とに基づいて、対象者５００の姿勢を推定する。

姿勢推定部１１６は、人物領域６１０および高さ情報と、当該人物領域６１０および高さ情報の入力に対する正解として設定された姿勢との組合せを教師データとして、人物領域６１０および高さ情報から姿勢を推定するための学習が予めされる。教師データとして用いられる人物領域６１０および高さ情報と、当該人物領域６１０および高さ情報の入力に対する正解として設定された姿勢との組合せは、複数の高さに設置された撮影装置２００により撮影された画像６００に基づくものを用いる。すなわち、教師データとして、様々な高さに設置された撮影装置２００により撮影された画像６００に基づいて得られた、人物領域６１０および高さ情報の入力と、当該人物領域６１０および高さ情報の入力に対する正解として設定された姿勢の正解ラベルとの組合せを用いる。

画像認識装置１００の動作について説明する。

図１２は、画像認識装置１００の動作を示すフローチャートである。本フローチャートは、記憶部１２０に記憶されたプログラムに従い、制御部１１０により実行される。

画像取得部１１１は、撮影装置２００から画像６００を、通信部１５０を介して受信することで取得する（Ｓ３０１）。

人物領域検出部１１２は、画像６００から対象者５００を含む人物領域６１０を検出する（Ｓ３０２）。

姿勢推定部１１６は、人物領域６１０および高さ情報に基づいて、対象者５００の姿勢を推定する（Ｓ３０３）。

本実施形態は以下の効果を奏する。

以上に説明した画像認識システム１０の構成は、上述の実施形態の特徴を説明するにあたって主要構成を説明したのであって、上述の構成に限られず、特許請求の範囲内において、種々改変することができる。また、一般的な画像認識システムが備える構成を排除するものではない。

例えば、上述の実施形態においては、基準高さと基準画像平面の高さは別々に設定している。しかし、基準高さと基準画像平面の高さは同じであってもよい。

また、画像認識装置１００が有する機能を、センサーボックスにより構成される撮影装置２００、または携帯端末４００が備えるようにしてもよい。

また、画像認識装置１００、撮影装置２００、および携帯端末４００は、それぞれ複数の装置により構成されてもよく、いずれか複数の装置が単一の装置として構成されてもよい。

また、上述したフローチャートは、一部のステップを省略してもよく、他のステップが追加されてもよい。また各ステップの一部は同時に実行されてもよく、一つのステップが複数のステップに分割されて実行されてもよい。

また、上述した画像認識システム１０における各種処理を行う手段および方法は、専用のハードウェア回路、またはプログラムされたコンピューターのいずれによっても実現することが可能である。上記プログラムは、例えば、ＵＳＢメモリやＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）－ＲＯＭ等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部に転送され記憶される。また、上記プログラムは、単独のアプリケーションソフトとして提供されてもよいし、一機能としてその検出部等の装置のソフトウエアに組み込まれてもよい。

本出願は、２０１９年５月２９日に出願された日本特許出願（特願２０１９－１００６９９号）に基づいており、その開示内容は、参照され、全体として、組み入れられている。

Claims

所定の撮影領域を俯瞰する設置位置に設置された撮影装置により、前記撮影領域全体が撮影された画像を取得する画像取得部と、
前記画像から人物領域を検出する人物領域検出部と、
前記設置位置の、所定位置からの高さの情報を取得する情報取得部と、
人物の姿勢を推定するための学習により得られた学習済みモデルと、を有し、
前記人物領域又は前記人物領域から推定される人の体に関する特徴点に対し、前記高さの情報を用いた補正を含む処理をし、得られたデータに基づいて、前記学習済みモデルを用いて、人物の姿勢を推定する姿勢推定部と、
を有する画像処理システム。
前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記人物領域を補正する補正部をさらに有し、
前記学習済みモデルは、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域と、前記人物の姿勢との組合せを教師データとして予め学習され、前記姿勢推定部は、前記補正部により補正された前記人物領域に基づいて人物の姿勢を推定する、
請求項１に記載の画像処理システム。
前記人物領域から、人の体に関する特徴点を推定する特徴点推定部と、
前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記特徴点を補正する補正部をさらに有し、
前記学習済みモデルは、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域から推定された前記特徴点と、前記人物の姿勢との組合せを教師データとして予め学習され、前記姿勢推定部は、前記補正部により補正された前記特徴点に基づいて人物の姿勢を推定する、
請求項１に記載の画像処理システム。
所定の撮影領域を俯瞰する設置位置に設置された撮影装置により、前記撮影領域全体が撮影された画像を取得する手順（ａ）と、
前記画像から人物領域を検出する手順（ｂ）と、
前記設置位置の、所定位置からの高さの情報を取得する手順（ｃ）と、
前記人物領域又は前記人物領域から推定される人の体に関する特徴点に対し、前記高さの情報を用いた補正を含む処理をし、得られたデータに基づいて、人物の姿勢を推定するための学習により得られた学習済みモデルを用いて、人物の姿勢を推定する手順（ｄ）と、
を有する処理を、コンピューターに実行させるための画像処理プログラム。
前記処理は、前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記人物領域を補正する手順（ｅ）をさらに有し、
前記手順（ｄ）では、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域と、前記人物の姿勢との組合せを教師データとして予め学習された学習済みモデルにより、前記手順（ｅ）において補正された前記人物領域に基づいて人物の姿勢を推定する、
請求項４に記載の画像処理プログラム。
前記処理は、前記人物領域から、人の体に関する特徴点を推定する手順（ｆ）と、
前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記特徴点を補正する手順（ｇ）と、をさらに有し、
前記手順（ｄ）では、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域から推定された前記特徴点と、前記人物の姿勢との組合せを教師データとして予め学習された学習済みモデルにより、前記手順（ｇ）において補正された前記特徴点に基づいて人物の姿勢を推定する、
請求項４に記載の画像処理プログラム。
画像処理システムによる画像処理方法であって、
所定の撮影領域を俯瞰する設置位置に設置された撮影装置により、前記撮影領域全体が撮影された画像を取得する段階（ａ）と、
前記画像から人物領域を検出する段階（ｂ）と、
前記設置位置の、所定位置からの高さの情報を取得する段階（ｃ）と、
前記人物領域又は前記人物領域から推定される人の体に関する特徴点に対し、前記高さの情報を用いた補正を含む処理をし、得られたデータに基づいて、人物の姿勢を推定するための学習により得られた学習済みモデルを用いて、人物の姿勢を推定する段階（ｄ）と、
を有する画像処理方法。
前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記人物領域を補正する段階（ｅ）をさらに有し、
前記段階（ｄ）では、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域と、前記人物の姿勢との組合せを教師データとして予め学習された学習済みモデルにより、前記段階（ｅ）において補正された前記人物領域に基づいて人物の姿勢を推定する、
請求項７に記載の画像処理方法。
前記人物領域から、人の体に関する特徴点を推定する段階（ｆ）と、
前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記特徴点を補正する段階（ｇ）と、をさらに有し、
前記段階（ｄ）では、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域から推定された前記特徴点と、前記人物の姿勢との組合せを教師データとして予め学習された学習済みモデルにより、前記段階（ｇ）において補正された前記特徴点に基づいて人物の姿勢を推定する、
請求項７に記載の画像処理方法。