JP2021033379A

JP2021033379A - 画像処理システム、画像処理プログラム、および画像処理方法

Info

Publication number: JP2021033379A
Application number: JP2019149164A
Authority: JP
Inventors: 一谷　修司; Shuji Ichitani; 修司一谷
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2021-03-01

Abstract

【課題】撮影された画像に基づく人物の姿勢および行動の推定精度を向上できる、画像処理システムを提供する。【解決手段】対象者の所定部位の基準位置からの高さを特定する高さ特定部と、撮影装置により撮影された、対象者を含む画像と、高さ特定部により特定された当該高さと、に基づいて、対象者の姿勢を推定する姿勢推定部と、を有する。【選択図】図３

Description

本発明は、画像処理システム、画像処理プログラム、および画像処理方法に関する。

我が国は、戦後の高度経済成長に伴う生活水準の向上、衛生環境の改善、および医療水準の向上等により、長寿命化が顕著となっている。このため、出生率の低下と相まって、高齢化率が高い高齢化社会になっている。このような高齢化社会では、病気、怪我、および加齢などにより、介護等の対応を必要とする要介護者等の増加が想定される。

要介護者等は、病院や老人福祉施設などの施設において、歩行中に転倒したり、ベッドから転落して怪我をするおそれがある。そのため、要介護者等がこのような状態になったときに介護士や看護師等のスタッフがすぐに駆けつけられるようにするために、撮影された画像から要介護者等の状態を検出するためのシステムの開発が進められている。このようなシステムで要介護者等の状態を検出するためには、画像から検知対象である人物の姿勢や行動を高精度で検出する必要がある。

下記特許文献１には、次の先行技術が開示されている。被監視者の所定行動を検知して通知等をする検知ユニットによる監視機能を、端末ユニットから受信した情報等に基づいて停止する。これにより、必要に応じて監視機能を停止できるため、被監視者以外の者に対する誤検知を低減できる。

国際公開第２０１６／１５２４２８号

しかし、上記特許文献１に開示された先行技術は、被監視者以外の者の行動を被監視者の行動として誤検知することを防止できるが、被監視者の姿勢および行動の検知精度を向上できないという問題がある。

本発明は、このような問題を解決するためになされたものである。すなわち、撮影された画像に基づく人物の姿勢および行動の推定精度を向上できる、画像処理システム、画像処理プログラム、および画像処理方法を提供することを目的とする。

本発明の上記課題は、以下の手段によって解決される。

（１）対象者の所定部位の基準位置からの高さを特定する高さ特定部と、撮影装置により撮影された、前記対象者を含む画像と、前記高さ特定部により特定された前記高さと、に基づいて、前記対象者の姿勢を推定する姿勢推定部と、を有する画像処理システム。

（２）前記姿勢推定部は、前記画像に基づいて前記対象者の姿勢の候補を推定する姿勢候補推定部と、前記姿勢候補推定部により推定された前記対象者の姿勢の前記候補を、前記高さ特定部により特定された前記高さに基づいて補正する補正部と、を有し、前記補正部による補正後の前記候補を、前記対象者の姿勢として推定する、上記（１）に記載の画像処理システム。

（３）前記姿勢推定部は、前記画像に基づいて、人の体に関する特徴点を特定する特徴点特定部を有し、前記姿勢候補推定部は、特徴点特定部により特定された前記特徴点に基づいて、前記対象者の姿勢の前記候補を推定する、上記（２）に記載の画像処理システム。

（４）前記高さ特定部は、複数の前記撮影装置によりそれぞれ撮影された、複数の前記画像に基づいて前記高さを特定し、または、所定位置から前記所定部位に照射された光の照射開始から、前記所定部位により反射された反射光の前記所定位置での受光までの時間に基づいて前記高さを特定する、上記（１）〜（３）のいずれかに記載の画像処理システム。

（５）前記補正部は、前記高さ特定部により特定された前記高さと閾値との比較結果に基づいて前記姿勢候補推定部により推定された前記対象者の姿勢の前記候補を補正し、
前記閾値を、前記撮影装置から前記対象者までの距離に応じて切り換える、上記（２）または（３）に記載の画像処理システム。

（６）前記姿勢推定部により推定された姿勢に基づいて前記対象者の行動を推定する行動推定部と、前記行動推定部により推定された行動が所定行動に含まれるかどうか判定する判定部と、前記判定部により、前記行動推定部により推定された行動が所定行動に含まれると判定された場合に、前記対象者の行動に関する情報を出力する出力部と、をさらに有する上記（１）〜（５）のいずれかに記載の画像処理システム。

（７）対象者の所定部位（頭）の基準位置からの高さを特定する手順（ａ）と、撮影装置により撮影された、前記対象者を含む画像と、特定された前記高さと、に基づいて、前記対象者の姿勢を推定する手順（ｂ）と、を有する手順をコンピューターに実行させるための画像処理プログラム。

（８）画像処理システムに実行させる方法であって、対象者の所定部位（頭）の基準位置からの高さを特定する段階（ａ）と、撮影装置により撮影された、前記対象者を含む画像と、特定された前記高さと、に基づいて、前記対象者の姿勢を推定する段階（ｂ）と、
を有する画像処理方法。

対象者の所定部位の基準位置からの高さを特定し、撮影された画像と、当該高さとに基づいて対象者の姿勢を推定する。これにより、撮影された画像に基づく人物の姿勢および行動の推定精度を向上できる。

画像認識システムの概略構成を示す図である。検出部の構成を示すブロック図である。制御部の機能ブロック図である。画像において検出された人物領域を示す図である。特徴点を示す図である。立位の姿勢の対象者の画像から特定された特徴点と、臥位の姿勢の対象者の画像から特定された特徴点とを比較して示す図である。立位の姿勢の対象者の画像から特定された特徴点ごとの部位高さと、臥位の姿勢の対象者の画像から特定された特徴点ごとの部位高さとを比較して示す図である。サーバーの構成を示すブロック図である。携帯端末の構成を示すブロック図である。画像認識システムの動作を示すフローチャートである。制御部の機能ブロック図である。画像認識システムの動作を示すフローチャートである。

以下、図面を参照して、本発明の実施形態に係る、画像処理システム、画像処理プログラム、および画像処理方法について説明する。なお、図面において、同一の要素には同一の符号を付し、重複する説明を省略する。図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

（第１実施形態）
図１は、画像認識システム１０の概略構成を示す図である。

画像認識システム１０は、検出部１００、サーバー２００、通信ネットワーク３００、および携帯端末４００を有する。検出部１００は、通信ネットワーク３００によりサーバー２００および携帯端末４００と相互に通信可能に接続される。携帯端末４００はアクセスポイント３１０を介して通信ネットワーク３００と接続され得る。検出部１００は、画像処理システムを構成する。検出部１００は、１つの一体化された装置でも、分離配置される複数の装置でもあり得る。なお、後述するように、検出部１００の機能の一部をサーバー２００が実施するようにしてもよい。

（検出部１００）
図２は、検出部１００の構成を示すブロック図である。図２の例に示すように、検出部１００は、制御部１１０、通信部１２０、カメラ１３０、および体動センサー１４０を備え、これらはバスによって相互に接続されている。カメラ１３０は、撮影装置を構成する。

制御部１１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、およびＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等のメモリにより構成され、プログラムに従って検出部１００の各部の制御および演算処理を行う。制御部１１０の作用の詳細については後述する。

通信部１２０は、通信ネットワーク３００を介して、携帯端末４００等と通信するためのインターフェース回路（例えばＬＡＮカード等）である。

カメラ１３０は、例えば広角カメラである。カメラ１３０は、検出部１００が対象者５００の居室の天井等に設置されることで、所定の領域を俯瞰する位置に設置され、当該所定の領域を含む画像（以下、単に「画像６００」とも称する）を撮影する。対象者５００は、例えばスタッフ等により介護または看護を必要とする者である。所定の領域は対象者５００の居室の床面全体を含む３次元の領域であり得る。カメラ１３０は、広角カメラより画角が狭い標準カメラであってもよい。以下、説明を簡単にするために、カメラ１３０は、広角カメラであるものとして説明する。画像６００には、対象者５００が画像として含まれ得る。画像６００には、静止画および動画が含まれる。カメラ１３０は近赤外線カメラであり、ＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｅｖｉｃｅ）により近赤外線を撮影領域に向けて照射し、撮影領域内の物体により反射される近赤外線の反射光をＣＭＯＳ（ＣｏｍｐｌｅｍｅｍｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）センサーにより受光することで所定の領域を撮影し得る。画像６００は近赤外線の反射率を各画素とするモノクロ画像であり得る。カメラ１３０は、近赤外線カメラに代替して可視光カメラを用いてもよく、これらを併用してもよい。

体動センサー１４０は、ベッド７００に対してマイクロ波を送受信して対象者５００の体動（例えば呼吸動）によって生じたマイクロ波のドップラシフトを検出するドップラシフト方式のセンサーである。

制御部１１０の作用について説明する。

図３は、制御部１１０の機能ブロック図である。制御部１１０は、姿勢推定部１１１、部位高さ特定部１１２、行動推定部１１３、判定部１１４、および出力部１１５として機能する。姿勢推定部１１１には、特徴点特定部１１１ａ、姿勢候補推定部１１１ｂ、および補正部１１１ｃが含まれ得る。部位高さ特定部１１２は高さ特定部を構成する。

制御部１１０は、図３の機能ブロック図に示す機能を実行することで、画像６００に基づいて、対象者５００の行動を推定し、推定された行動が所定行動に含まれる場合、対象者５００の行動に関する情報を出力する。制御部１１０は、画像６００から検出した人の画像のシルエット（以下、「人シルエット」と称する）に基づいて、対象者５００の所定行動を検出したことを契機として、図３の機能ブロック図に示す機能を実行することで、画像６００に基づいて、対象者５００の所定行動を推定（再検出）し得る。なお、制御部１１０は、人シルエットに基づく対象者５００の所定行動の検出とは独立に、常時、図３の機能ブロック図に示す機能を実行してもよい。所定行動には、転倒、および転落が含まれる。なお、所定行動には、起床および離床がさらに含まれてもよい。

以下、説明を簡単にするために、制御部１１０は、人シルエットに基づいて所定行動を検出したことを契機として、図３の機能ブロック図に示す機能を実行するものとして説明する。

制御部１１０は、画像６００から人シルエットを検出する。人シルエットは、例えば、撮影時刻が前後する画像（フレーム）の差分を抽出する時間差分法により差分が相対的に大きい画素の範囲を抽出することで検出され得る。人シルエットは、撮影画像と背景画像との差分を抽出する背景差分法により検出されてもよい。制御部１１０は、人シルエットに基づいて、対象者５００の所定行動を検出し得る。制御部１１０は、例えば、検出されたシルエットの重心が、時系列で動いていた状態から急に停止した状態に変化したことや、人シルエットに対応する矩形のアスペクト比の変化等により、転倒を検出し得る。制御部１１０は、例えば、人シルエットがベッド７００の領域内に存在している状態から急にベッド７００の領域外に存在している状態に変化したことや、人シルエットに対応する矩形のアスペクト比の変化等により、転落を検出し得る。画像６００におけるベッド７００の領域は、検出部１００が設置される際に予め設定され、データとして制御部１１０のメモリに記憶され得る。なお、制御部１１０は、人シルエットと、ベッド７００の領域との関係や、人シルエットに対応する矩形のアスペクト比の変化等により、起床および離床をそれぞれ検出し得る。後述するように、検出部１００の一部の機能（図３の機能ブロック図に示す機能等）がサーバー２００により実行される場合等においては、制御部１１０は、人シルエットに基づいて検出された、対象者５００の所定行動を示す行動特定情報をサーバー２００へ送信し得る。

特徴点特定部１１１ａは、画像６００に基づいて、対象者５００を含む領域として、人物領域６１０を検出し、人物領域６１０に基づいて、人の体に関する特徴点（以下、単に「特徴点６２０」とも称する）を特定する。

図４は、画像６００において検出された人物領域６１０を示す図である。

特徴点特定部１１１ａは、画像６００から、人物である対象者５００を含む領域を人物領域６１０として検出する。具体的には、特徴点特定部１１１ａは、画像６００上で物体（オブジェクト）が存在する領域を検出し、検出した領域に含まれる物体のカテゴリーを推定することで、人物領域６１０を検出し得る。物体が存在する領域は、画像６００上で物体が含まれる矩形（候補矩形）として検出され得る。特徴点特定部１１１ａは、検出された候補矩形のうち、物体のカテゴリーが人物であると推定された候補矩形を検出することで、人物領域６１０を検出する。人物領域６１０は、ニューラルネットワーク（以下、「ＮＮ」と称する）を用いて検出され得る。ＮＮによる人物領域６１０の検出方法としては、例えば、ＦａｓｔｅｒＲ−ＣＮＮ、ＦａｓｔＲ−ＣＮＮ、およびＲ−ＣＮＮといった公知の方法が挙げられる。画像６００から人物領域６１０を検出するためのＮＮは、画像６００と、当該画像６００に対する正解として設定された人物領域６１０との組合せの教師データを用いて、画像６００から人物領域６１０を検出（推定）するための学習が予めされる。

図５は、特徴点６２０を示す図である。特徴点６２０には、関節点６２１、および頭部６２２が含まれ得る。なお、特徴点６２０は、図５の例に限定されず、例えば、後述する図６の例に示すようなものでもよい。

関節点６２１には、例えば、腰の関節点６２１ａ、６２１ｂが含まれる。頭部６２２は、例えば、対象者５０の頭を含む領域（例えば、頭部矩形）の２つの対頂点である。頭部６２２は頭部矩形の重心であってもよい（図７参照）。特徴点６２０は、画像６００における座標として検出され得る。特徴点６２０は、ＤｅｅｐＰｏｓｅ等のＮＮを用いた公知の技術により検出され得る。ＤｅｅｐＰｏｓｅについては、公知の文献（Alexander Toshev, et al. “DeepPose: Human Pose Estimation via Deep Neural Networks”, in CVPR, 2014）に詳細が記載されている。人物領域６１０から特徴点６２０を検出するためのＮＮは、人物領域６１０と、当該人物領域６１０に対する正解として設定された特徴点６２０との組合せの教師データを用いて、人物領域６１０から特徴点６２０を特定（推定）するための学習が予めされる。なお、特徴点６２０は、画像６００から特徴点６２０を検出するためのＮＮを用いて、画像６００から直接特定（推定）されてもよい。この場合、画像６００から特徴点６２０を検出するためのＮＮは、画像６００と、当該画像６００に対する正解として設定された特徴点６２０との組合せの教師データを用いて、画像６００から特徴点６２０を特定（推定）するための学習が予めされる。

姿勢候補推定部１１１ｂは、特徴点６２０に基づいて、対象者５００の姿勢の候補（以下、単に「姿勢候補」とも称する）を推定する。姿勢候補は、特徴点６２０から姿勢を検出するためのＮＮを用いて推定され得る。この場合、特徴点６２０から姿勢を検出するためのＮＮは、特徴点６２０と、当該特徴点６２０に対する正解として設定された姿勢との組合せの教師データを用いて、特徴点６２０から姿勢を推定するための学習が予めされる。姿勢候補は、特徴点６２０または画像６００に基づいて姿勢を検出するための隠れマルコフモデルを用いて推定されてもよい。姿勢には、立位、臥位、座位、中腰、しゃがみ込み、座り込み、および転倒中が含まれる。座り込みは、例えば、床上で座っている姿勢であるが、座位と区別される。座位には、椅子上で座っている姿勢やベッド７００上で座っている姿勢が含まれる。

部位高さ特定部１１２は、対象者５００の所定部位の基準位置からの高さ（以下、「部位高さ」とも称する）を特定する。所定部位は、例えば、対象者５００の頭や腰であり得る。対象者５００の頭の部位高さは、例えば、頭部６２２のいずれか１つの高さや、頭部６２２の重心に対応する。対象者５００の腰の部位高さは、例えば、腰の関節点６２１ａ、６２１ｂのいずれか１つの高さや、腰の関節点６２１ａ、６２１ｂの重心の高さに対応する。基準位置は、例えば床である。

部位高さ特定部１１２は、複数のカメラ１３０によりそれぞれ撮影された、複数の画像６００に基づいて、演算により部位高さを特定し得る。例えば、複数のカメラ１３０で撮影された複数の画像６００に含まれる所定部位の各位置から算出される視差と、複数のカメラ１３０の、既知の、基線長および焦点距離とからカメラ１３０から所定部位までの距離（最短距離）を算出する。カメラ１３０による画像６００上のカメラ１３０の直下の位置に対応する位置と、画像６００上の所定部位の位置とに基づいて、カメラ１３０から所定部位までの水平方向の距離を算出する。カメラ１３０から所定部位までの距離と、カメラ１３０から所定部位までの水平方向の距離とに基づいて、カメラ１３０から所定部位までの垂直方向の距離を算出する。そして、カメラ１３０から所定部位までの垂直方向の距離を、既知の、カメラ１３０の設置高さ（床からのカメラ１３０の高さ）から差し引くことで、部位高さを特定（算出）できる。この場合、カメラ１３０はステレオカメラにより構成され得る。なお、部位高さ特定部１１２は、ＴＯＦ（ＴｉｍｅＯｆＦｌｉｇｈｔ）により、部位高さを特定してもよい。すなわち、所定位置に設置された、検出部１００の光照射部（図示せず）から、所定部位に照射された光の照射開始から、所定部位で反射された反射光の、当該所定位置に設置された受光部（図示せず）による受光までの時間に基づいて部位高さを特定し得る。

補正部１１１ｃは、姿勢候補を、部位高さに基づいて補正する。

図６は、立位の姿勢の対象者５００の画像６００から特定された特徴点６２０と、臥位の姿勢の対象者５００の画像６００から特定された特徴点６２０とを比較して示す図である。図６のＡは、立位の姿勢の対象者５００の画像６００から特定された特徴点６２０を示す図である。図６のＢは、臥位の姿勢の対象者５００の画像６００から特定された特徴点６２０を示す図である。図６においては、特徴点６２０が、黒丸により示されている。

図６の例に示すように、立位の姿勢と臥位の姿勢は、関節が全体的に比較的伸びた状態になることで共通するため、画像６００上の区別が比較的困難になる。このため、特徴点６２０に基づく姿勢推定では、例えば、立位を臥位と誤推定される可能性がある。従って、姿勢候補推定部１１１ｂにより特徴点６２０に基づいて推定された姿勢候補には、誤推定された推定結果が含まれる可能性がある。

補正部１１１ｃは、姿勢候補を、部位高さに基づいて補正することで、特徴点６２０に基づく姿勢の推定精度を向上する。補正部１１１ｃは、例えば、部位高さと閾値とを比較することで、姿勢候補を補正する。具体的には、所定部位が頭（頭部６２２に対応）である場合、頭部の部位高さが閾値である１ｍ以上であれば、姿勢候補推定部１１１ｂにより臥位と推定されたとしても、姿勢候補である臥位を立位に補正する。また、頭部６２２の部位高さが閾値である０．５ｍ以下であれば、姿勢候補推定部１１１ｂにより立位と推定されたとしても、姿勢候補である立位を臥位に補正する。また、所定部位が腰（例えば、腰の関節点６２１ａ、６２１ｂのいずれか１つに対応）である場合、腰の部位高さが、例えば１ｍ以上であれば、姿勢候補推定部１１１ｂにより座り込みと推定されたとしても、座位に補正される。腰の部位高さが、例えば０．２ｍ以下であれば、姿勢候補推定部１１１ｂにより座位と推定されたとしても、座り込みに補正される。閾値、および当該閾値が適用される補正前後の姿勢は、特徴点６２０（または画像６００）に基づく姿勢推定精度の観点から、実験により適当に設定され得る。閾値は、画像６００における対象者５００の位置に応じて設定される。画像６００における対象者５００の位置は、カメラ１３０から対象者５００までの距離に対応する。例えば、カメラ１３０の直下が画像６００の中心に設定される場合は、カメラ１３０から対象者５００までの距離は、画像６００における、画像６００の中心から対象者５００までの距離に対応する。従って、閾値が、カメラ１３０から対象者５００までの距離に応じて設定されることは、閾値が画像６００における、画像６００の中心から対象者５００までの距離に応じて設定されることに対応する。例えば、画像６００の中心から比較的短い距離の範囲内を第１範囲、画像６００の中心から比較的遠い距離の範囲内を第３範囲、第１範囲と第３範囲の間の範囲を第２範囲とする。そして、範囲毎に補正するための閾値の基準を変える。このように、範囲毎に補正するための閾値の基準を変えるのは、特にカメラ１３０が広角カメラの場合、カメラ１３０による画像６００上の対象者５００の映り方が、カメラ１３０から対象者５００までの距離に応じて変わるからである。また、部位高さの測定精度が、カメラ１３０から対象者５００までの距離に応じて変わり得るからである。範囲毎の閾値は、特徴点６２０（または画像６００）に基づく姿勢推定精度の観点から、実験により適当に設定され得る。

図７は、立位の姿勢の対象者５００の画像６００から特定された特徴点６２０ごとの部位高さと、臥位の姿勢の対象者５００の画像６００から特定された特徴点６２０ごとの部位高さとを比較して示す図である。図７のＡは、立位の姿勢の対象者５００の画像６００から特定された特徴点６２０ごとの部位高さを示す図である。図６のＢは、臥位の姿勢の対象者５００の画像６００から特定された特徴点６２０ごとの部位高さを示す図である。図７においては、特徴点６２０ごとの部位高さが、各特徴点の色（グレー）の濃度により示されている。

図７の例に示すように、立位の姿勢の対象者５００の画像６００から特定された頭部６２２の部位高さと、臥位の姿勢の対象者５００の画像６００から特定された頭部６２２の部位高さとでは、立位の方が明確に高い。従って、姿勢候補推定部１１１ｂにより特徴点６２０に基づいて推定された姿勢候補を、頭部６２２の部位高さが閾値以上かどうかにより補正することで、特徴点６２０に基づく姿勢の推定精度を向上できる。

行動推定部１１３は、姿勢推定部１１１により推定された対象者５００の姿勢に基づいて、対象者５００の行動を推定する。対象者５００の行動は、例えば、姿勢推定部１１１により、立位の姿勢と、臥位の姿勢とが、時系列で連続する画像６００（フレーム）からそれぞれ推定された場合、対象者５００が転倒または転落の少なくともいずれかをしたと推定する。また、座位の姿勢と、臥位の姿勢とが、時系列で連続する画像６００からそれぞれ推定された場合、対象者５００が転倒または転落したと判定してもよい。なお、行動推定部１１３は、転倒および転落を区別しない。しかし、転倒か転落かは、人シルエットに基づく所定行動の検出において区別されているため、転倒および転落のいずれかであると推定できれば十分である。人シルエットに基づいて転倒または転落が検出されたときに、さらに、対象者５０の姿勢と、部位高さとに基づいて、転倒および転落のいずれかであると判定することにより、転倒および転落の検出精度を向上できる。そして、後述するように、所定行動である、転倒および転落のいずれかであると判定部１１４に判定された場合にのみ、出力部１１５により対象者５００の行動に関する情報が出力されるため、人シルエットに基づく所定行動の誤検知を抑制できる。

なお、行動推定部１１３は、転倒および転落を区別してもよい。例えば、ベッド７００の領域内における臥位または立位の姿勢と、ベッド７００の領域外における臥位の姿勢とが時系列で連続する画像６００からそれぞれ推定された場合、対象者５００が転落したと推定し得る。ベッド７００の領域外において、立位の姿勢と、臥位の姿勢とが時系列で連続する画像６００からそれぞれ推定された場合、対象者５００が転倒したと推定し得る。

判定部１１４は、行動推定部１１３により推定された、対象者５００の行動が、所定の行動に含まれる行動かどうか判定する。すなわち、判定部１１４は、行動推定部１１３により推定された、対象者５００の行動が、所定の行動である、転倒および転落のいずれかであるかどうか判定する。

出力部１１５は、判定部１１４による対象者５００の行動の判定結果が、対象者５００が所定行動に含まれる行動であるという判定結果である場合、対象者５００の行動に関する情報を、通信部１２０によりサーバー２００に送信すること等により、出力する。対象者５００の行動に関する情報は、対象者５００の行動が所定行動のいずれかであることを示す第１情報、または、人シルエットに基づき検出された所定行動の確度（確率）が高いことを示す第２情報であり得る。第１情報は、例えば、「対象者５００の行動が、転倒および転落のいずれかである」という情報である。第２情報は、例えば、「検出された行動である確率が高い」という情報である。制御部１１０は、上述したように、対象者５００の行動に関する情報と関連付けて、人シルエットに基づいて検出された、対象者５００の所定行動を示す行動特定情報をさらにサーバー２００等に送信し得る。第１情報、第２情報、および行動特定情報には、対象者５００のＩＤ（番号）等の対象者５００を特定する情報、および画像６００の撮影時間等が含まれることで関連付けされ得る。後述するように、サーバー２００において、行動特定情報と、対象者５００の行動に関する情報と、に基づいて、対象者５００が、人シルエットに基づいて検出された所定行動をしたという最終判断がされ得る。

また、制御部１１０により、人シルエットに基づいて対象者５００の所定行動のいずれかが検出され、かつ、判定部１１４による対象者５００の行動の判定結果が、対象者５００が所定行動に含まれる行動であるという判定結果である場合、制御部１１０が、対象者５００が人シルエットに基づいて検出された所定行動をしたという最終判断をしてもよい。この場合、出力部１１５は、対象者５００が所定行動をしたという最終判断を示す第３情報を、対象者５００の行動に関する情報としてサーバー２００等に送信（出力）し得る。なお、この場合、行動特定情報はサーバー２００等に送信される必要はない。第３情報は、例えば、「対象者５００が転倒した」という情報である。第３情報には、対象者５００の氏名等の対象者５００を特定する情報が含まれる。第３情報は、イベント情報として携帯端末４００へ送信されてもよい。

また、図３に示す制御部１１０の機能は、サーバー２００により実行されてもよい。この場合、制御部１１０は、画像６００をサーバー２００へ送信するとともに、人シルエットに基づいて検出された、対象者５００の所定行動を示す行動特定情報をサーバー２００へ送信する。サーバー２００は、行動特定情報を受信したことを契機として、画像６００に基づいて姿勢候補を推定し、部位高さを特定し、部位高さに基づいて姿勢候補を補正することで、対象者５００の姿勢を推定する。サーバー２００は、推定された姿勢に基づいて行動を推定し、推定した行動が所定行動に含まれると判断した場合、対象者５００が、行動特定情報が示す所定行動をしたという最終判断をする。そして、サーバー２００は、対象者５００の所定行動をしたということを示す、対象者５００の行動に関する情報を、イベント通知として携帯端末４００へ送信し、または表示部（図示せず）に表示することにより出力する。

（サーバー２００）
図８は、サーバー２００の構成を示すブロック図である。サーバー２００は、制御部２１０、通信部２２０、および記憶部２３０を備える。各構成要素は、バスによって、相互に接続されている。

制御部２１０および通信部２２０の基本構成は、検出部１００の対応する構成要素である、制御部１１０および通信部１２０と同様である。記憶部２３０は、ＲＡＭ、ＲＯＭ、ＨＤＤ（ＨａｒｄＤｉｓｃＤｒｉｖｅ）等により構成される。

制御部２１０は、通信部２２０により、検出部１００から対象者５００の行動に関する情報を受信する。制御部２１０は、検出部１００から行動特定情報をさらに受信し得る。

制御部２１は、対象者５００の行動に関する情報が、対象者５００の行動が所定行動のいずれかであることを示す第１情報である場合、対象者５００が、行動特定情報が示す所定行動をしたという最終判断をする。制御部２１は、対象者５００の行動に関する情報が、人シルエットに基づき検出された所定行動の確度（確率）が高いことを示す第２情報である場合も、同様に、対象者５００が、行動特定情報が示す所定行動をしたという最終判断をする。制御部２１は、行動特定情報が示す所定行動をしたという最終判断をしたときに、対象者５００が所定行動（例えば、転倒）をしたことをスタッフ等に通知するためのイベント通知を、携帯端末４００等に送信し得る。

制御部２１は、対象者５００の行動に関する情報が、対象者５００の所定行動をしたという最終判断を示す第３情報である場合、対象者５００が所定行動をしたことをスタッフ等に通知するためのイベント通知を、携帯端末４００等に送信し得る。

サーバー２００は、図３に示す機能を検出部１００に代替して実行し得る。例えば、サーバー２００は、検出部１００から画像６００を受信する。サーバー２００は、人シルエットに基づいて検出された、対象者５００の所定行動を示す行動特定情報を受信する。そして、サーバー２００は、行動特定情報を受信したことを契機として、画像６００に基づいて姿勢候補を推定し、部位高さを特定し、部位高さに基づいて姿勢候補を補正することで、対象者５００の姿勢を推定する。サーバー２００は、推定された姿勢に基づいて行動を推定し、推定した行動が所定行動に含まれると判断した場合、対象者５００が、行動特定情報が示す所定行動をしたという最終判断をする。そして、サーバー２００は、対象者５００の所定行動をしたということを示す、対象者５００の行動に関する情報を、イベント通知として携帯端末４００へ送信し、または表示部（図示せず）に表示することにより出力する。

また、サーバー２００は、検出部１００から画像６００を受信し、検出部１００に代替して、画像６００から人シルエットを検出し、人シルエットに基づいて、対象者５００の所定行動を検出してもよい。そして、対象者５００の所定行動が検出されたことを契機として、図３に示す機能を実行する。サーバー２００は、画像６００に基づいて姿勢候補を推定し、部位高さを特定し、部位高さに基づいて姿勢候補を補正することで、対象者５００の姿勢を推定する。サーバー２００は、推定された姿勢に基づいて行動を推定し、推定した行動が所定行動に含まれると判断した場合、対象者５００が、行動特定情報が示す所定行動をしたという最終判断をする。そして、サーバー２００は、対象者５００の所定行動をしたということを示す、対象者５００の行動に関する情報を、イベント通知として携帯端末４００へ送信し、または表示部（図示せず）に表示することにより出力する。

（携帯端末４００）
図９は、携帯端末４００の構成を示すブロック図である。携帯端末４００は、制御部４１０、無線通信部４２０、表示部４３０、入力部４４０、および音声入出力部４５０を備える。各構成要素は、バスにより相互に接続されている。携帯端末４００は、例えば、タブレット型コンピューター、スマートフォン、または携帯電話等の通信端末機器によって構成され得る。

制御部４１０は、検出部１００の制御部１１０の構成と同様に、ＣＰＵ、ＲＡＭ、ＲＯＭなどの基本構成を備える。

無線通信部４２０は、Ｗｉ−Ｆｉ、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの規格による無線通信を行う機能を有し、アクセスポイント３１０を経由して、または直接に各装置と無線通信する。無線通信部４２０は、イベント通知をサーバー２００から受信する。

表示部４３０および入力部４４０は、タッチパネルであり、液晶などで構成される表示部４３０の表示面に、入力部４４０としてのタッチセンサーが設けられる。表示部４３０、入力部４４０によって、イベント通知を表示する。そして、イベント通知に関する対象者５００への対応を促す入力画面を表示するとともに、当該入力画面に入力された、スタッフによるイベント通知への対応の意思を受け付けて、サーバー２００へ送信する。

音声入出力部４５０は、例えばスピーカーとマイクであり、無線通信部４２０を介して他の携帯端末４００との間でスタッフ相互間の音声通話を可能にする。また、音声入出力部４５０は、無線通信部４２０を介して検出部１００との間で音声通話を可能にする機能を備え得る。

画像認識システム１０の動作について説明する。

図１０は、画像認識システム１０の動作を示すフローチャートである。本フローチャートは、プログラムに従い、検出部１００の制御部１１０により実行され得る。なお、図３に示す機能がサーバー２００により実行される場合は、本フローチャートは、プログラムに従い、サーバー２００の制御部２１０により実行される。

特徴点特定部１１１ａは、画像６００から検出した人シルエットに基づいて、対象者５００の所定行動が検出されたことを契機に、画像６００を、例えばカメラ１３０から取得し（Ｓ１０１）、画像６００に基づいて、特徴点６２０を特定する（Ｓ１０２）。

部位高さ特定部１１２は、複数のカメラ１３０により撮影された複数の画像６００等に基づいて部位高さを特定する（Ｓ１０３）。

姿勢候補推定部１１１ｂは、特徴点６２０に基づいて、姿勢候補を推定する（Ｓ１０４）。

補正部１１１ｃは、部位高さに基づいて姿勢候補を補正することで、対象者５００の姿勢を推定する（Ｓ１０５）。

行動推定部１１３は、推定された、対象者５００の姿勢に基づいて、対象者５００の行動を推定する（Ｓ１０６）。

判定部１１４は、推定された行動が、所定行動に含まれるかどうか判定する（Ｓ１０７）。判定部１１４により、推定された行動が、所定行動に含まれないと判定された場合（Ｓ１０７：ＮＯ）、処理が終了される。

判定部１１４は、推定された行動が、所定行動に含まれると判定した場合（Ｓ１０７：ＮＯ）、対象者５００の行動に関する情報を出力する（Ｓ１０８）。

（第２実施形態）
第２実施形態について説明する。本実施形態が第１実施形態と異なる点は次の点である。第１実施形態は、画像６００に基づいて、特徴点６２０を特定して姿勢候補を推定し、部位高さに基づいて姿勢候補を補正することで、対象者５００の姿勢を推定する。本実施形態は、画像６００および部位高さに基づいて対象者５００の姿勢を推定する。これ以外の点については、本実施形態は第１実施形態と同様であるため、重複する説明は省略または簡略化する。

図１１は、制御部１１０の機能ブロック図である。制御部１１０は、姿勢推定部１１１、部位高さ特定部１１２、行動推定部１１３、判定部１１４、および出力部１１５として機能する。

姿勢推定部１１１は、画像６００と、部位高さ特定部１１２により特定された部位高さとに基づいて、対象者５００の姿勢を推定する。対象者５００の姿勢は、画像６００および部位高さに基づいて姿勢を検出するためのＮＮを用いて推定され得る。この場合、画像６００および部位高さに基づいて姿勢を検出するためのＮＮは、画像６００および部位高さと、当該画像６００および部位高さに対する正解として設定された姿勢との組合せの教師データを用いて、画像６００および部位高さから姿勢を推定するための学習が予めされる。

図１２は、画像認識システム１０の動作を示すフローチャートである。本フローチャートは、プログラムに従い、検出部１００の制御部１１０により実行され得る。なお、図１１に示す機能がサーバー２００により実行される場合は、本フローチャートは、プログラムに従い、サーバー２００の制御部２１０により実行される。

姿勢推定部１１１は、画像６００から検出した人シルエットに基づいて、対象者５００の所定行動が検出されたことを契機に、画像６００をカメラ１３０から取得する（Ｓ２０１）。

部位高さ特定部１１２は、複数のカメラ１３０により撮影された複数の画像６００等に基づいて部位高さを特定する（Ｓ２０２）。

姿勢推定部１１１は、画像６００および部位高さに基づいて、対象者５００の姿勢を推定する（Ｓ２０３）。

行動推定部１１３は、推定された、対象者５００の姿勢に基づいて、対象者５００の行動を推定する（Ｓ２０４）。

判定部１１４は、推定された行動が、所定行動に含まれるかどうか判定する（Ｓ２０５）。判定部１１４により、推定された行動が、所定行動に含まれないと判定された場合（Ｓ２０５：ＮＯ）、処理が終了される。

判定部１１４は、推定された行動が、所定行動に含まれると判定した場合（Ｓ２０５：ＮＯ）、対象者５００の行動に関する情報を出力する（Ｓ２０６）。

実施形態は以下の効果を奏する。

さらに、画像に基づいて対象者の姿勢候補を推定し、推定された姿勢候補を、部位高さに基づいて補正し、補正後の姿勢候補を、対象者の姿勢として推定する。これにより、より簡単に、画像に基づく人物の姿勢および行動の推定精度を向上できる。

さらに、画像に基づいて、人の体に関する特徴点を特定し、特徴点に基づいて、対象者の姿勢候補を推定する。これにより、より簡単かつ効果的に、画像に基づく人物の姿勢および行動の推定精度を向上できる。

さらに、複数の撮影装置によりそれぞれ撮影された、複数の画像に基づいて部位高さを特定し、または、所定位置から所定部位に照射された光の照射開始から、所定部位により反射された反射光の所定位置での受光までの時間に基づいて部位高さを特定する。これにより、容易かつ正確に部位高さを特定できる。

さらに、部位高さと閾値との比較結果に基づいて姿勢候補を補正し、当該閾値を、撮影装置から対象者までの距離に応じて切り換える。これにより、広角カメラにより撮影された画像のような比較的広範囲の画像を使用して対象者の姿勢を推定しても、推定精度を効果的に向上できる。

さらに、推定された姿勢に基づいて対象者の行動を推定し、推定された行動が所定行動に含まれるかどうか判定し、含まれると判定された場合に、対象者の行動に関する情報を出力する。これにより、行動等の誤推定による誤報を効果的に抑制できる。

以上に説明した画像認識システム１０の構成は、上述の実施形態の特徴を説明するにあたって主要構成を説明したのであって、上述の構成に限られず、特許請求の範囲内において、種々改変することができる。また、一般的な画像認識システムが備える構成を排除するものではない。

例えば、検出部１００、サーバー２００、および携帯端末４００は、それぞれ複数の装置により構成されてもよく、いずれか複数の装置が単一の装置として構成されてもよい。

また、上述したフローチャートは、一部のステップを省略してもよく、他のステップが追加されてもよい。また各ステップの一部は同時に実行されてもよく、一つのステップが複数のステップに分割されて実行されてもよい。

また、上述した画像認識システム１０における各種処理を行う手段および方法は、専用のハードウェア回路、またはプログラムされたコンピューターのいずれによっても実現することが可能である。上記プログラムは、例えば、ＵＳＢメモリやＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）−ＲＯＭ等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部に転送され記憶される。また、上記プログラムは、単独のアプリケーションソフトとして提供されてもよいし、一機能としてその検出部等の装置のソフトウエアに組み込まれてもよい。

１０画像認識システム、
１００検出部、
１１０制御部、
１１１姿勢推定部、
１１１ａ特徴点特定部、
１１１ｂ姿勢候補推定部
１１１ｃ補正部、
１１２部位高さ特定部、
１１３行動推定部、
１１４判定部、
１１５出力部、
１２０通信部、
１３０カメラ、
２００サーバー、
３００通信ネットワーク、
３１０アクセスポイント、
４００携帯端末、
５００対象者、
６００画像、
６１０人物領域、
６２０特徴点、
６２１関節点、
６２２頭部。

Claims

対象者の所定部位の基準位置からの高さを特定する高さ特定部と、
撮影装置により撮影された、前記対象者を含む画像と、前記高さ特定部により特定された前記高さと、に基づいて、前記対象者の姿勢を推定する姿勢推定部と、
を有する画像処理システム。
前記姿勢推定部は、
前記画像に基づいて前記対象者の姿勢の候補を推定する姿勢候補推定部と、
前記姿勢候補推定部により推定された前記対象者の姿勢の前記候補を、前記高さ特定部により特定された前記高さに基づいて補正する補正部と、
を有し、前記補正部による補正後の前記候補を、前記対象者の姿勢として推定する、
請求項１に記載の画像処理システム。
前記姿勢推定部は、前記画像に基づいて、人の体に関する特徴点を特定する特徴点特定部を有し、
前記姿勢候補推定部は、特徴点特定部により特定された前記特徴点に基づいて、前記対象者の姿勢の前記候補を推定する、請求項２に記載の画像処理システム。
前記高さ特定部は、複数の前記撮影装置によりそれぞれ撮影された、複数の前記画像に基づいて前記高さを特定し、または、所定位置から前記所定部位に照射された光の照射開始から、前記所定部位により反射された反射光の前記所定位置での受光までの時間に基づいて前記高さを特定する、請求項１〜３のいずれか一項に記載の画像処理システム。
前記補正部は、前記高さ特定部により特定された前記高さと閾値との比較結果に基づいて前記姿勢候補推定部により推定された前記対象者の姿勢の前記候補を補正し、
前記閾値を、前記撮影装置から前記対象者までの距離に応じて切り換える、請求項２または３に記載の画像処理システム。
前記姿勢推定部により推定された姿勢に基づいて前記対象者の行動を推定する行動推定部と、
前記行動推定部により推定された行動が所定行動に含まれるかどうか判定する判定部と、
前記判定部により、前記行動推定部により推定された行動が所定行動に含まれると判定された場合に、前記対象者の行動に関する情報を出力する出力部と、
をさらに有する請求項１〜５のいずれか一項に記載の画像処理システム。
対象者の所定部位（頭）の基準位置からの高さを特定する手順（ａ）と、
撮影装置により撮影された、前記対象者を含む画像と、特定された前記高さと、に基づいて、前記対象者の姿勢を推定する手順（ｂ）と、
を有する手順をコンピューターに実行させるための画像処理プログラム。
画像処理システムに実行させる方法であって、
対象者の所定部位（頭）の基準位置からの高さを特定する段階（ａ）と、
撮影装置により撮影された、前記対象者を含む画像と、特定された前記高さと、に基づいて、前記対象者の姿勢を推定する段階（ｂ）と、
を有する画像処理方法。