JP2022165483A

JP2022165483A - 検出装置、検出システム、検出方法、および検出プログラム

Info

Publication number: JP2022165483A
Application number: JP2021070825A
Authority: JP
Inventors: 直樹池田; Naoki Ikeda
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2022-11-01

Abstract

【課題】存在しない、人の周辺の物体を誤検知することを抑止可能な、検出装置を提供する。【解決手段】所定領域が撮影された画像を取得する取得部と、人および物体を含む画像から人および前記物体の位置情報を検出する学習がされた学習済モデルを用いて、取得された画像から人および物体の位置情報を検出する検出部と、検出された物体の位置情報が誤検出かどうかを、位置情報が検出された画像より前に所定領域が撮影された画像から検出された過去の位置情報に基づいて判定する判定部と、を有する検出装置。【選択図】図１２

Description

本発明は、検出装置、検出システム、検出方法、および検出プログラムに関する。

我が国は、戦後の高度経済成長に伴う生活水準の向上、衛生環境の改善、および医療水準の向上等により、長寿命化が顕著となっている。このため、出生率の低下と相まって、高齢化率が高い高齢化社会になっている。このような高齢化社会では、病気、怪我、および加齢などにより、介護等の対応を必要とする要介護者等の増加が想定される。

要介護者等は、病院や老人福祉施設などの施設において、歩行中に転倒したり、ベッドから転落して怪我をするおそれがある。そのため、要介護者等がこのような状態になったときに介護士や看護師等のスタッフがすぐに駆けつけられるようにするために、撮影された画像から要介護者等の状態を検出するためのシステムの開発が進められている。このようなシステムで要介護者等の状態を検出するためには、画像から検知対象である人物の姿勢や行動を高精度で検出する必要がある。

下記特許文献１には、次の先行技術が開示されている。魚眼カメラにより得られた魚眼画像から人体候補および物体を検出する。魚眼画像に含まれる大型の机の中央部分等に設定された除外領域と人体候補のバウンディングボックスが重なり合う場合に、人体候補は物体であって物体が人体として誤検出されたと判定する。

特開２０２０－１７０２４７号公報

しかし、人と物体の両方を含む画像の訓練データを用いて学習されたモデルを用いて、画像から人および物体を検知すると、人の動きや姿勢によっては、何も存在しない人の周辺空間に物体を誤検知する現象が起こる場合がある。この現象は、訓練データの画像に人と物体の両方を含む画像を用いることで、人の特徴と周辺物体の特徴とが関連付けられて学習されること等に起因していると考えられる。上記先行技術は、このような誤検知を抑止できないという問題がある。

本発明は上述の問題を解決するためになされたものである。すなわち、存在しない、人の周辺の物体を誤検知することを抑止可能な、検出装置、検出システム、検出方法、および検出プログラムを提供することを目的とする。

本発明の上記課題は、以下の手段によって解決される。

（１）所定領域が撮影された画像を取得する取得部と、人および物体を含む前記画像から前記人および前記物体の位置情報を検出する学習がされた学習済モデルを用いて、取得された前記画像から前記人および前記物体の前記位置情報を検出する検出部と、検出された前記物体の前記位置情報が誤検出かどうかを、前記位置情報が検出された前記画像より前に前記所定領域が撮影された前記画像から検出された過去の前記位置情報に基づいて判定する判定部と、を有する検出装置。

（２）前記検出部により検出された前記位置情報を記憶する記憶部をさらに有し、前記判定部は、検出された前記位置情報に基づいて、前記人と前記物体との接触があるかどうか判定する接触判定部と、前記接触があると判定された場合に、前記過去の前記位置情報を前記記憶部から参照する参照部と、参照された前記過去の前記位置情報に基づいて、検出された前記物体の前記位置情報が誤検出かどうかを判定する誤検出判定部と、を有する、上記（１）に記載の検出装置。

（３）前記検出部は、前記人の前記位置情報および前記物体の前記位置情報を、それぞれ前記人を含む人領域および前記物体を含む物体領域として検出し、前記接触判定部は、前記人領域と前記物体領域との重なりの大きさが、所定の第１閾値以上の場合前記接触があると判定し、前記第１閾値未満の場合前記接触がないと判定する、上記（２）に記載の検出装置。

（４）前記判定部は、前記人領域および前記物体領域の少なくともいずれか一方の前記画像上の位置に応じて、前記第１閾値を切り替える、上記（３）に記載の検出装置。

（５）前記誤検出判定部は、前記人との前記接触があると判定された前記物体の前記物体領域と、前記参照部により参照された前記過去の前記位置情報に含まれる前記物体領域との重なりの大きさが、所定の第２閾値以下の場合前記物体の前記位置情報が誤検出であると判定し、前記第２閾値より大きい場合前記物体の前記位置情報が誤検出ではないと判定する、上記（３）または（４）に記載の検出装置。

（６）前記物体の前記位置情報の検出が誤検出であると判定された場合、前記検出部により検出された前記位置情報において、誤検出であると判定された前記物体の前記位置情報を削除する補正をする補正部と、補正後の前記位置情報に基づいて前記人の行動を推定する行動推定部と、推定された前記行動を出力する出力部と、をさらに有する上記（１）～（５）のいずれかに記載の検出装置。

（７）前記人が床に座っている姿勢の前記画像が前記取得部により取得された場合、転倒の前記行動が前記出力部から出力され、前記人が椅子に座っている姿勢の前記画像が前記取得部により取得された場合、前記転倒の前記行動が前記出力部から出力されない、上記（６）に記載の検出装置。

（８）前記人が車椅子へ移乗する姿勢の前記画像が前記取得部により取得された場合、前記車椅子への移乗の前記行動が前記出力部から出力され、前記人が前記車椅子以外へ移乗する姿勢の前記画像が前記取得部により取得された場合、前記車椅子への移乗の前記行動が前記出力部から出力されない、上記（６）または（７）に記載の検出装置。

（９）前記画像を撮影する撮影装置と、上記（１）～（８）のいずれかに記載の検出装置と、を有し、前記取得部は、前記撮影装置により撮影された前記画像を取得する、検出システム。

（１０）所定領域が撮影された画像を取得する段階（ａ）と、人および物体を含む前記画像から前記人および前記物体の位置情報を検出する学習がされた学習済モデルを用いて、取得された前記画像から前記人および前記物体の前記位置情報を検出する段階（ｂ）と、検出された前記物体の前記位置情報が誤検出かどうかを、前記位置情報が検出された前記画像より前に前記所定領域が撮影された前記画像から検出された過去の前記位置情報に基づいて判定する段階（ｃ）と、を有する検出方法。

（１１）所定領域が撮影された画像を取得する手順（ａ）と、人および物体を含む前記画像から前記人および前記物体の位置情報を検出する学習がされた学習済モデルを用いて、取得された前記画像から前記人および前記物体の前記位置情報を検出する手順（ｂ）と、検出された前記物体の前記位置情報が誤検出かどうかを、前記位置情報が検出された前記画像より前に前記所定領域が撮影された前記画像から検出された過去の前記位置情報に基づいて判定する手順（ｃ）と、を有する処理をコンピューターに実行させるための検出プログラム。

（１２）前記処理は、前記手順（ｂ）において検出された前記位置情報を記憶する手順（ｄ）をさらに有し、前記手順（ｃ）は、検出された前記位置情報に基づいて、前記人と前記物体との接触があるかどうか判定する手順（ｃ１）と、前記接触があると判定された場合に、前記手順（ｄ）において記憶された前記過去の前記位置情報を参照する手順（ｃ２）と、参照された前記過去の前記位置情報に基づいて、検出された前記物体の前記位置情報が誤検出かどうかを判定する手順（ｃ３）と、を有する、上記（１１）に記載の検出プログラム。

（１３）前記手順（ｂ）においては、前記人の前記位置情報および前記物体の前記位置情報を、それぞれ前記人を含む人領域および前記物体を含む物体領域として検出し、前記手順（ｃ）は、前記人領域と前記物体領域との重なりの大きさが、所定の第１閾値以上の場合前記接触があると判定し、前記第１閾値未満の場合前記接触がないと判定する、上記（１２）に記載の検出プログラム。

（１４）前記手順（ｃ）においては、前記人領域および前記物体領域の少なくともいずれか一方の前記画像上の位置に応じて、前記第１閾値を切り替える、上記（１３）に記載の検出プログラム。

（１５）前記手順（ｃ３）においては、前記人との前記接触があると判定された前記物体の前記物体領域と、前記手順（ｃ２）において参照された前記過去の前記位置情報に含まれる前記物体領域との重なりの大きさが、所定の第２閾値以下の場合前記物体の前記位置情報が誤検出であると判定し、前記第２閾値より大きい場合前記物体の前記位置情報が誤検出ではないと判定する、上記（１３）または（１４）に記載の検出プログラム。

（１６）前記処理は、前記物体の前記位置情報の検出が誤検出であると判定された場合、前記手順（ｂ）において検出された前記位置情報において、誤検出であると判定された前記物体の前記位置情報を削除する補正をする手順（ｅ）と、補正後の前記位置情報に基づいて前記人の行動を推定する手順（ｆ）と、推定された前記行動を出力する手順（ｇ）と、をさらに有する上記（１１）～（１５）のいずれかに記載の検出プログラム。

（１７）前記手順（ｇ）においては、前記人が床に座っている姿勢の前記画像が前記手順（ａ）において取得された場合、転倒の前記行動を出力し、前記人が椅子に座っている姿勢の前記画像が前記手順（ａ）において取得された場合、前記転倒の前記行動を出力しない、上記（１６）に記載の検出プログラム。

（１８）前記手順（ｇ）においては、前記人が車椅子へ移乗する姿勢の前記画像が前記（ａ）において取得された場合、前記車椅子への移乗の前記行動を出力し、前記人が前記車椅子以外へ移乗される姿勢の前記画像が前記手順（ａ）において取得された場合、前記車椅子への移乗の前記行動を出力しない、上記（１６）または（１７）に記載の検出プログラム。

人および物体を含む画像から人および物体の位置情報を検出する学習がされた学習済モデルを用いて、入力された所定領域の画像から検出された物体の位置情報が誤検出かどうかを、当該位置情報が検出された画像より前に当該所定領域が撮影された過去の画像から検出された過去の位置情報に基づいて判定する。これにより、存在しない、人の周辺の物体の誤検知を抑止できる。

検出システムの概略構成を示す図である。撮影装置の構成を示すブロック図である。サーバーの構成を示すブロック図である。制御部の機能ブロック図である。学習済みモデルの学習に用いられる訓練データの画像を示す説明図である。検出部により正常に検出された位置情報の例を、取得部により取得される画像とともに示す説明図である。検出部により異常検出された物体矩形を含む位置情報の例を、取得部により取得される画像とともに示す説明図である。画像上に設定された、第１閾値の設定領域を示す図である。画像において検出された位置情報と、過去の画像において検出された過去の位置情報とを示す説明図である。関節点、人矩形、および物体矩形を示す図である。携帯端末の構成を示すブロック図である。検出システムの動作を示すフローチャートである。ソファーへの移乗動作を車椅子の移乗動作と検出する誤検知を抑止する例を示す説明図である。

以下、図面を参照して、本発明の実施形態に係る検出装置、検出システム、検出方法、および検出プログラムについて説明する。なお、図面において、同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

図１は、検出システム１０の概略構成を示す図である。

検出システム１０は、撮影装置１００、サーバー２００、通信ネットワーク３００、および携帯端末４００を備える。撮影装置１００は、通信ネットワーク３００によりサーバー２００と相互に通信可能に接続される。携帯端末４００はアクセスポイント３１０を介して通信ネットワーク３００と接続され得る。サーバー２００は検出装置を構成する。なお、後述するように、サーバー２００の機能の一部または全部を撮影装置１００が実行するようにしてもよい。この場合、撮影装置１００が単独で、またはサーバー２００とともに検出装置を構成し得る。

（撮影装置１００）
図２は、撮影装置１００の構成を示すブロック図である。図２の例に示すように、撮影装置１００は、制御部１１０、通信部１２０、およびカメラ１３０を備え、これらはバスによって相互に接続されている。

制御部１１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、およびＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等のメモリにより構成され、プログラムに従って撮影装置１００の各部の制御および演算処理を行う。制御部１１０は、カメラ１３０が所定領域を撮影することで得られる画像６００（図９等参照）を、通信部１２０によりサーバー２００等へ送信する。所定領域は、例えば人５００の居室の床面全体を含む３次元の領域である。

通信部１２０は、通信ネットワーク３００を介して、携帯端末４００等と通信するためのインターフェース回路（例えばＬＡＮカード等）である。

カメラ１３０は、例えば広角カメラである。カメラ１３０は、撮影装置１００が人５００の居室の天井等に設置されることで、所定領域を俯瞰する位置に設置され、当該所定領域を撮影する。人５００は、例えばスタッフ等により介護または看護を必要とする者であり、行動検出の対象者である。カメラ１３０は、広角カメラより画角が狭い標準カメラであってもよい。以下、説明を簡単にするために、カメラ１３０は、広角カメラであるものとして説明する。画像６００には、人５００、ならびに、物体７００であるベッド７１０および椅子７２０等が画像として含まれ得る。画像６００には、静止画および動画が含まれる。カメラ１３０は近赤外線カメラであり、ＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｅｖｉｃｅ）により近赤外線を撮影領域に向けて照射し、撮影領域内の物体により反射される近赤外線の反射光をＣＭＯＳ（ＣｏｍｐｌｅｍｅｍｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）センサーにより受光することで所定領域を撮影し得る。画像６００は近赤外線の反射率を各画素とするモノクロ画像であり得る。カメラ１３０は、近赤外線カメラに代替して可視光カメラを用いてもよく、これらを併用してもよい。

（サーバー２００）
図３は、サーバー２００の構成を示すブロック図である。サーバー２００は、制御部２１０、通信部２２０、および記憶部２３０を備える。各構成要素は、バスによって、相互に接続されている。

制御部２１０および通信部２２０の基本構成は、撮影装置１００の対応する構成要素である、制御部１１０および通信部１２０と同様であるため重複する説明は省略する。記憶部２３０は、ＲＡＭ、ＲＯＭ、ＨＤＤ（ＨａｒｄＤｉｓｃＤｒｉｖｅ）等により構成される。

図４は、制御部２１０の機能ブロック図である。制御部２１０は、取得部２１１、検出部２１２、接触判定部２１３、誤検出判定部２１４、補正部２１５、および行動推定部２１６として機能する。なお、説明を簡単にするために、図４には、記憶部２３０も併せて示されている。誤検出判定部２１４は、参照部を構成する。

取得部２１１は、撮影装置１００から画像６００を通信部２２０により受信することで取得する。撮影装置１００から受信される画像６００が記憶部２３０に記憶される場合は、取得部２１１は、画像６００を記憶部２３０から読み出すことで取得してもよい。

検出部２１２は、取得部２１１により取得された画像６００から人５００および物体７００の位置情報（以下、単に「位置情報」とも称する）を、機械学習により学習された学習済みモデルを用いて検出する。位置情報には、人５００と物体７００のそれぞれの位置が含まれる。人５００の位置は、画像６００における人５００を含む領域である人領域の例である人矩形６１０（図９参照）の座標（例えば矩形の一組の対角の各座標）であり得る。物体７００の位置は、画像６００における物体を含む領域である物体領域の例である物体矩形６２０（図１０参照）の座標（例えば矩形の一組の対角の各座標）であり得る。人矩形６１０および物体矩形６２０は、それぞれ人５００および物体７００の大きさを反映する。従って、位置情報には人５００および物体７００のそれぞれの位置とともにそれぞれの大きさの情報が含まれ得る。以下、説明を簡単にするために、人５００の位置は人矩形６１０として検出され、物体７００の位置は物体矩形６２０として検出されるものとして説明する。すなわち、位置情報は、人矩形６１０および物体矩形６２０であるものとして説明する。学習済みモデルは、人５００および物体７００を含む画像６５０と、当該画像６５０における人矩形６１０および物体矩形６２０の正解ラベル（人５００および物体７００の位置の正解ラベル）との組合せの訓練データを比較的大量に用いて、機械学習により学習されたモデルである。学習済みモデルとして、例えばニューラルネットワークのモデルであるＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ（ＲＰＮ）を用い得る。

図５は、学習済みモデルの学習に用いられる訓練データの画像６５０を示す説明図である。図５においては、説明を簡単にするために、正解ラベルである、人５００および物体７００（椅子７２０）の位置をそれぞれ示す人矩形６１０および物体矩形６２０が画像６５０上に併せて示されている。

図５の例に示すように、人５００および物体７００を含む画像６５０と、人矩形６１０および物体矩形６２０の正解ラベルとの組合せが、学習済みモデルの学習に用いられる訓練データとして用いられ得る。

図６は、検出部２１２により正常に検出された位置情報の例を、取得部２１１により取得される画像６００とともに示す説明図である。図６においては、説明を簡単にするために、検出された位置情報である人矩形６１０が画像６００上に示されている。取得部２１１により取得された画像６００に人５００が含まれていて、物体７００が含まれていない場合は、位置情報が正常に検出されれば、人５００の位置等が人矩形６１０として検出され、存在しない物体は物体矩形６２０として検出されない。

図７は、検出部２１２により異常検出された物体矩形６２０を含む位置情報の例を、取得部２１１により取得される画像６００とともに示す説明図である。図７においては、説明を簡単にするために、検出された人矩形６１０および物体矩形６２０が画像６００上に示されている。図７に示す例においては、取得部２１１により取得された画像６００に人５００が含まれていて、物体７００が含まれていない場合に、人５００の位置等が人矩形６１０として正常に検出されている。一方、存在しない物体７００である椅子７２０も、椅子７２０の物体矩形６２０として異常検出されている。このような物体７００の異常検出は、学習済みモデルの学習に用いる訓練データの画像に人５００と物体７００の両方を含む画像を用いることで、人５００の特徴と人５００の周辺の物体７００の特徴とが関連付けられて学習されること等に起因していると考えられる。このことは、人５００の動きや姿勢によっては、何も存在しない、人５００の周辺の空間に物体７００を誤検出する可能性があることを示している。

このような存在しない物体７００である椅子７２０等が誤検出されると、床座位の姿勢が、椅子座位の姿勢と誤って推定される。その結果、人５００が転倒するという行動が、椅子７２０に座るという行動として誤って判断され得る。

接触判定部２１３は、検出された人矩形６１０および物体矩形６２０に基づいて、人５００と物体７００との接触があるかどうか判定する。具体的には、接触判定部２１３は、人矩形６１０と物体矩形６２０との重なりの大きさが所定の第１閾値以上の場合、人５００と物体７００との接触があると判定する。接触判定部２１３は、人矩形６１０と物体矩形６２０との重なりの大きさが所定の第１閾値未満の場合、人５００と物体７００との接触がないと判定する。人矩形６１０と物体矩形６２０との重なりの大きさは、各面積のＩｏＵ（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ）として算出され得る。第１閾値は、後述する行動推定部２１６による対象者５１０の行動の推定精度の観点等から実験により適当な値に設定し得る。例えば、第１閾値は、ＩｏＵの値として、０．５～０．９の範囲のいずれかの値に設定され得る。

接触判定部２１３は、第１閾値を、人矩形６１０および物体矩形６２０の少なくともいずれか一方の画像６００上の位置に応じて異なる値に切替え得る。

図８は、画像６００上に設定された、第１閾値の設定領域を示す図である。なお、図８においては、説明を簡単にするために、人矩形６１０、ならびに、椅子７２０およびベッド７１０の物体矩形６２０も併せて示されている。図８においては、椅子７２０の物体矩形６２０がグレーの破線の矩形で示され、ベッド７１０の物体矩形６２０がグレーの実線の矩形で示されている。

図８の例においては、画像６００上に、それぞれ一点鎖線で囲まれた領域として領域Ａ、領域Ｂ、および領域Ｃが設定されている。

領域Ａは撮影装置１００のカメラ１３０直下およびその周辺の領域である。領域Ｂは領域Ａに隣接した領域Ａの外側の領域である。領域Ｃは領域Ｂに隣接した領域Ｂの外側の領域であり、カメラ１３０から最も遠い領域である。

第１閾値は、領域Ａ、領域Ｂ、領域Ｃの順に大きな値に設定され得る。これは、カメラ１３０が広角カメラである場合、例えば対象者５１０が領域Ａおよび領域Ｃにおいて同じ椅子７２０に同じように座っていても、広角カメラの歪特性に起因して、カメラ１３０の直下に近い領域ほど（すなわち領域Ｃよりも領域Ａの方が）、人矩形６１０と椅子７２０の物体矩形６２０との重なりが大きくなるからである。人矩形６１０および物体矩形６２０の画像６００上の位置が、領域Ａ、領域Ｂ、および領域Ｃのいずれの領域内にあるかに応じて第１閾値を切替えることで、人矩形６１０および物体矩形６２０の接触の検出精度を、これらの画像６００上の位置によらずに一定にすることができる。なお、人矩形６１０と物体矩形６２０とが、領域Ａ～Ｃの異なる領域にある場合、例えば人矩形６１０と物体矩形６２０との重複範囲が、領域Ａ～Ｃのいずれの領域になるかによって第１閾値を切替え得る。一方、人矩形６１０と物体矩形６２０が、領域Ａ～Ｃの異なる領域にある場合、人矩形６１０と物体矩形６２０のいずれかが存在する領域を基準に第１閾値を切替えてもよい。

誤検出判定部２１４は、接触判定部２１３により対象者５１０と物体７００との接触があると判定された場合、物体矩形６２０が誤検知かどうかを、当該物体矩形６２０が検出された画像６００より前に所定領域が撮影された過去の画像６４０（以下、単に「過去の画像６４０」とも称する）から検出された過去の位置情報（以下、単に「過去の位置情報」とも称する）に基づいて判定する。具体的には、誤検出判定部２１４は、接触判定部２１３により対象者５１０と物体７００との接触があると判定された場合、当該接触があると判定された画像６００より前に撮影された過去の画像６４０から検出された過去の位置情報を記憶部２３０から参照する。参照される過去の画像６４０は、上記接触があると判定された画像６００に対し、例えば３０フレーム遡ったフレームであり得る。なお、参照される過去の画像６４０は、上記接触がない過去の画像６４０であれば上記の例に限定されない。後述するように、画像６００から検出された位置情報（位置情報において後述する補正がされた場合は補正後の位置情報）は、当該画像６００と関連付けされて記憶部２３０に記憶される。誤検出判定部２１４は、過去の位置情報に基づいて、位置情報に含まれる物体矩形６２０が誤検出かどうか判定する。具体的には、誤検出判定部２１４は、上記接触があると判定された物体７００の物体矩形６２０と、過去の位置情報に含まれる当該物体７００の物体矩形６２０との重なりの大きさが所定の第２閾値以下の場合、当該物体矩形６２０が誤検出であると判定する。重なりが小さい（重なりがない場合を含む）場合、もともと存在しない物体７００が物体矩形６２０として誤検出された可能性が高いからである。当該重なりの大きさは、各面積のＩｏＵとして算出され得る。なお、上記接触があると判定された物体７００の物体矩形６２０が、過去の位置情報に含まれていない（存在しない）場合は、当該重なりの大きさは０または０に近い値になり得る。第２閾値は、行動推定部２１６による人５００の行動の推定精度の観点等から実験により適当な値に設定し得る。なお、物体矩形６２０が、車椅子等のようにその性質上固定されずに使用される物体７００のものである場合、当該物体７００はなんらかの偶然の力により移動する可能性があるため、第２閾値は０以外の比較的小さい値に設定され得る。第２閾値は、行動推定部２１６による人５００の行動の推定精度の観点等から各物体７００の物体矩形６２０ごとに異なる値に設定されてもよい。

図９は、画像６００において検出された位置情報と、過去の画像６４０において検出された過去の位置情報とを示す説明図である。

図９の例においては、画像６００（現在の画像）において、位置情報として人矩形６１０と物体矩形６２０が検出されている。一方、過去の画像６４０から検出された過去の位置情報には、画像６００において検出されている物体矩形６２０が含まれていない。なお、図９においては、説明を簡単にするために、過去の画像６４０において、画像６００において検出された物体矩形６２０に対応する位置に、当該物体矩形６２０に相当する矩形が破線で示されている。この場合、誤検出判定部２１４は、画像６００において検出されている物体矩形６２０は誤検出であると判定する。上記接触があると判定された物体７００の物体矩形６２０と、過去の位置情報に含まれる物体矩形６２０との重なりの大きさが０（すなわち、所定の第２閾値以下）であるからである。

補正部２１５は、誤検出判定部２１４による誤検出判定結果に基づいて、位置情報を補正する。具体的には、補正部２１５は、誤検出判定部２１４により物体矩形６２０が誤検出であると判定された場合、位置情報において当該物体矩形６２０を削除する補正をする。補正部２１５は、誤検出判定部２１４により物体矩形６２０が誤検出でないと判定された場合、位置情報の補正をしない。

行動推定部２１６は、補正後の位置情報に基づいて対象者５１０の行動を推定する。具体的には、行動推定部２１６は次のように対象者５１０の行動を推定し得る。行動推定部２１６は、人矩形６１０（より詳細には、人矩形６１０に含まれる画像）に基づいて関節点６１１（図１０参照）を推定する。行動推定部２１６は、人矩形６１０から人５００の関節点６１１を推定する学習がされたニューラルネットワークのモデルを用いて、人５００の関節点を推定し得る。ニューラルネットワークのモデルとしては、ＤｅｅｐＰｏｓｅ等の公知のモデルを用い得る。ＤｅｅｐＰｏｓｅについては、公知の文献（Alexander Toshev, et al. “DeepPose: Human Pose Estimation via Deep Neural Networks”, in CVPR, 2014）に詳細が記載されている。行動推定部２１６は、関節点６１１と物体矩形６２０の関係に基づいて対象者５１０の行動を推定し得る。具体的には、関節点６１１が示す対象者５１０の姿勢と物体矩形６２０が示す物体７００の位置および種類との関係に基づいて対象者５１０の行動を推定し得る。例えば、物体矩形６２０が示す物体が椅子で、関節点６１１が示す姿勢が座位である場合、行動推定部２１６は、関節点６１１の所定数以上が物体矩形６２０と重複している場合に、対象者５１０が椅子座位の行動をしていると推定し得る。

図１０は、関節点６１１、人矩形６１０、および物体矩形６２０を示す図である。図１０は、図８に、関節点６１１が追加された図に相当する。

図１０の例においては、関節点６１１から座位の姿勢が検出され、関節点６１１の所定数（例えば、９個）以上が椅子の物体矩形６２０と重複している。この場合、行動推定部２１６は、対象者５１０が椅子座位の行動をしていると推定し得る。なお、図１０に示す椅子の物体矩形６２０が誤検出であると誤検出判定部２１４により判断される場合は、補正部２１５により、位置情報において椅子の物体矩形６２０を削除する補正がされる。これにより、関節点６１１と椅子の物体矩形６２０は重複しないため、行動推定部２１６は、対象者５１０が何も物体がない場所で座位の姿勢を検出することになる。この場合、行動推定部２１６は、対象者５１０が転倒しているという行動を推定し得る。

行動推定部２１６は、関節点６１１と物体矩形６２０の関係に基づいて対象者５１０の行動をニューラルネットワークの学習済みモデルを用いて推定してもよい。この場合、当該学習済みモデルは、人５００が床に座っている姿勢の画像６００が取得部２１１により取得された場合、転倒の行動を推定し、人５００が椅子７２０に座っている姿勢の画像６００が取得された場合、転倒の行動を推定しないように学習されたモデルであり得る。また、当該学習済みモデルは、人５００が車椅子へ移乗する姿勢の画像６００が取得部２１１により取得された場合、車椅子への移乗の行動を推定し、人５００が車椅子以外へ移乗する姿勢の画像６００が取得された場合、車椅子への移乗の行動を推定しないように学習されたモデルであり得る。

なお、複数の時系列の画像６００に基づいて対象者５１０の行動を推定してもよい。この場合、例えば、公知技術であるＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）を用い得る。

行動推定部２１６は、対象者５１０の行動の推定結果を出力する。対象者５１０の行動の推定結果は、例えば通信部２２０を介して携帯端末４００や外部装置へ送信されることで出力され得る。対象者５１０の行動の推定結果は、図示しないディスプレイに表示されることで出力されてもよい。

行動推定部２１６は、所定行動を推定（検出）した場合、当該所定行動を報知するためのイベント通知を、通信部２２０を介して携帯端末４００等へ送信してもよい。所定行動には、例えば、起床、離床、転倒、および転落が含まれる。

（携帯端末４００）
図１１は、携帯端末４００の構成を示すブロック図である。携帯端末４００は、制御部４１０、無線通信部４２０、表示部４３０、入力部４４０、および音声入出力部４５０を備える。各構成要素は、バスにより相互に接続されている。携帯端末４００は、例えば、タブレット型コンピューター、スマートフォン、または携帯電話等の通信端末機器によって構成され得る。

制御部４１０は、撮影装置１００の制御部１１０の構成と同様に、ＣＰＵ、ＲＡＭ、ＲＯＭなどの基本構成を備える。

無線通信部４２０は、Ｗｉ－Ｆｉ、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの規格による無線通信を行う機能を有し、アクセスポイント３１０を経由して、または直接に各装置と無線通信する。無線通信部４２０は、イベント通知をサーバー２００から受信する。

表示部４３０および入力部４４０は、タッチパネルであり、液晶などで構成される表示部４３０の表示面に、入力部４４０としてのタッチセンサーが設けられる。表示部４３０は、サーバー２００から受信した対象者５１０の行動を表示する。対象者５１０の行動は、上述したイベント通知を表示することで表示されてもよい。なお、表示部４３０および入力部４４０は、イベント通知に関する対象者５１０への対応を促す入力画面を表示するとともに、当該入力画面に入力された、スタッフによるイベント通知への対応の意思を受け付けて、サーバー２００へ送信してもよい。この場合、サーバー２００は、いずれかのスタッフを、当該イベント通知への対応を担当するスタッフとして決定し、決定したスタッフを含むすべてのスタッフの携帯端末４００へ、当該イベント通知への対応を担当するスタッフを周知する通知を送信してもよい。

音声入出力部４５０は、例えばスピーカーとマイクであり、無線通信部４２０を介して他の携帯端末４００との間でスタッフ相互間の音声通話を可能にする。

検出システム１０の動作について説明する。

図１２は、検出システム１０の動作を示すフローチャートである。本フローチャートは、プログラムに従い、サーバー２００の制御部２１０により実行され得る。なお、図４に示す機能の一部または全部が撮影装置１００により実行される場合は、本フローチャートは、プログラムに従い、撮影装置１００の制御部１１０により実行されてもよい。

制御部２１０は、撮影装置１００から画像６００を受信することで取得する（Ｓ１０１）。

制御部２１０は、人５００および物体７００を含む画像６００から、人矩形６１０および物体矩形６２０を検出する学習がされた学習済モデルを用いて、取得された画像６００から人矩形６１０および物体矩形６２０を、人５００および物体７００の位置情報として検出する。制御部は、検出した位置情報を記憶部２３０に記憶する（Ｓ１０２）。

制御部２１０は、位置情報において人５００と物体７００との接触があるかどうか判定する（Ｓ１０３）。具体的には、制御部２１０は、人矩形６１０と物体矩形６２０との重なりの大きさが第１閾値以上の場合、人５００と物体７００との接触があると判定する。制御部２１０は、人矩形６１０と物体矩形６２０との重なりの大きさが第１閾値未満の場合、人５００と物体７００との接触がないと判定する。

制御部２１０は、位置情報において人５００と物体７００との接触がないと判断した場合は（Ｓ１０３：ＮＯ）、ステップＳ１０８の処理を実行する。

制御部２１０は、位置情報において人５００と物体７００との接触があると判断した場合は（Ｓ１０３：ＹＥＳ）、記憶部２３０に記憶されている過去の位置情報を記憶部２３０から読み出すことで参照する（Ｓ１０４）。

制御部２１０は、人５００との接触があると判断した物体７００の位置を示す物体矩形６２０が、過去の位置情報に含まれているかどうか判定する（Ｓ１０５）。具体的には、制御部２１０は、上記接触があると判定された物体７００の物体矩形６２０と、過去の位置情報に含まれる物体矩形６２０との重なりの大きさが第２閾値より大きい場合、上記接触があると判断した物体７００の位置を示す物体矩形６２０が、過去の位置情報に含まれていると判断する。制御部２１０は、上記接触があると判定された物体７００の物体矩形６２０と、過去の位置情報に含まれる物体矩形６２０との重なりの大きさが第２閾値以下の場合、上記接触があると判断した物体７００の位置を示す物体矩形６２０が、過去の位置情報に含まれていないと判断する。

制御部２１０は、人５００との接触があると判断した物体７００の位置を示す物体矩形６２０が、過去の位置情報に含まれていると判断した場合は（Ｓ１０５：ＹＥＳ）、当該物体矩形６２０が誤検出ではないと判断し、ステップＳ１０８を実行する。

制御部２１０は、人５００との接触があると判断した物体７００の位置を示す物体矩形６２０が、過去の位置情報に含まれていないと判断した場合は（Ｓ１０５：ＮＯ）、当該物体矩形６２０が誤検出であると判定する（Ｓ１０６）。そして、制御部２１０は、人５００と物体７００との接触があると判定した位置情報において、誤検出と判定された物体矩形６２０を削除する補正を実行する（Ｓ１０７）。

制御部２１０は、位置情報（位置情報が補正された場合は、補正後の位置情報）に基づいて人５００の行動を推定する（Ｓ１０８）。具体的には、制御部２１０は、位置情報に含まれる人矩形６１０から関節点６１１を推定し、関節点６１１と物体矩形６２０の関係に基づいて対象者５１０の行動を推定し得る。

（変形例１）
図１３は、ソファーへの移乗動作を車椅子の移乗動作と検出する誤検知を抑止する例を示す説明図である。図１３においては、説明を簡単にするために、補正前の位置情報および補正後の位置情報を、それぞれ画像６００上の人矩形６１０および物体矩形６２０として示している。

図１３に示すように、補正前の位置情報は、破線の矩形で示すように、実際には存在しない車椅子の物体矩形６２０が誤検知されている。一方、太い実線の矩形で示すように、実際に存在するソファーおよびベッド７１０の物体矩形６２０がそれぞれ正常に検知されている。車椅子の物体矩形６２０が誤検知と判定されるのは、上述したように、車椅子の物体矩形６２０と人矩形６１０の重なりの大きさが第１閾値以上であることで、記憶部２３０から過去の画像６４０を参照される。そして、画像６００と過去の画像６４０における車椅子の物体矩形６２０の重なりの大きさが第２閾値以下であることによる。

位置情報の補正をせずに、補正前の位置情報に基づいて人５００の行動を推定すると、人５００が（ベッドから）車椅子へ移乗する動作をしていると誤って検知されることになる。

しかし、補正後の位置情報は、補正前の位置情報に対し、誤検出と判断された車椅子の物体矩形６２０を削除する補正がなされている。その結果、人５００が（ベッドから）ソファーへ移乗する動作が正常に検出される。すなわち、ソファーへの移乗動作を車椅子への移乗動作と検出する誤検知を抑止される。なお、図１３に示す例においては、車椅子への移乗動作が誤検知である場合が示されているが、誤検知さる物体７００は車椅子に限定されない。

なお、ソファーの物体矩形６２０と人矩形６１０の重なりの大きさが第１閾値以上である場合も、記憶部２３０から過去の画像６４０を参照される。そして、画像６００と過去の画像６４０におけるソファーの物体矩形６２０の重なりの大きさが第２閾値以下であるかどうか判定される。図１３の例においては、ソファーは実際に存在する物体であるため、画像６００と過去の画像６４０におけるソファーの物体矩形６２０の重なりの大きさは第２閾値より大きくなる。

（変形例２）
誤検知かどうかの判断の対象となる物体７００は任意であり、例えばドア、カーテン、および洗面台等を考えられる。そして、これらの物体７００が誤検知かどうか判定されることで、ドアの開閉、カーテンの開閉、および洗面台での洗顔の各行動の誤検知が抑止される。

実施形態は以下の効果を奏する。

さらに、検出された位置情報を記憶し、検出された位置情報に基づいて、人と物体との接触があるかどうか判定し、接触があると判定された場合に、過去の位置情報を記憶部から参照し、参照された過去の位置情報に基づいて、検出された物体の前記位置情報が誤検出かどうかを判定する。これにより、より高速に、人の周辺物体の誤検知を抑止しつつ人の姿勢や行動を推定できる。

さらに、人の位置情報および物体の位置情報を、それぞれ人を含む人領域および物体を含む物体領域として検出し、人領域と物体領域との重なりの大きさが、第１閾値以上の場合、接触があると判定し、第１閾値未満の場合、接触がないと判定する。これにより、より簡単に、人の周辺物体の誤検知を抑止しつつ人の姿勢や行動を推定できる。

さらに、人領域および物体領域の少なくともいずれか一方の画像上の位置に応じて、第１閾値を切り替える。これにより、さらに高精度かつ高速に人の周辺物体の誤検知を抑止できる。

さらに、人との接触があると判定された物体の物体領域と、参照された過去の位置情報に含まれる物体領域との重なりの大きさが、第２閾値以下の場合、物体の位置情報が誤検出であると判定し、第２閾値より大きい場合、物体の位置情報が誤検出ではないと判定する。これにより、固定されずに使用される等の物体の性質によらず、人の周辺物体の誤検知を抑止できる。

さらに、物体の位置情報の検出が誤検出であると判定された場合、検出された位置情報において、誤検出であると判定された物体の位置情報を削除する補正をし、補正後の位置情報に基づいて人の行動を推定して出力する。これにより、より簡単に人の周辺物体の誤検知を抑止できる。

さらに、人が床に座っている姿勢の画像が取得された場合、転倒の行動を出力し、人が椅子に座っている姿勢の画像が取得された場合、転倒の行動を出力する。これにより、人の転倒の誤検知を抑止できる。

さらに、人が車椅子へ移乗する画像が取得された場合、車椅子への移乗動作の行動を出力し、人が車椅子以外へ移乗される画像が取得された場合、車椅子の移乗動作の行動を出力する。これにより、人の車椅子への移乗動作の誤検知を抑止できる。

以上に説明した検出システム１０の構成は、上述の実施形態の特徴を説明するにあたって主要構成を説明したのであって、上述の構成に限られず、特許請求の範囲内において、種々改変することができる。また、一般的な検出システムが備える構成を排除するものではない。

また、上述した検出システム１０における各種処理を行う手段および方法は、専用のハードウェア回路、またはプログラムされたコンピューターのいずれによっても実現することが可能である。上記プログラムは、例えば、ＵＳＢメモリやＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）－ＲＯＭ等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部に転送され記憶される。また、上記プログラムは、単独のアプリケーションソフトとして提供されてもよいし、一機能としてサーバーその他の装置のソフトウエアに組み込まれてもよい。

１０検出システム、
１００撮影装置、
１１０制御部、
１２０通信部、
１３０カメラ、
２００サーバー、
２１０制御部、
２２０通信部、
２３０記憶部、
３００通信ネットワーク、
４００携帯端末、
５００人、
６００画像、
６１０人矩形、
６１１関節点、
６２０物体矩形、
７００物体、
７１０ベッド、
７２０椅子。

Claims

所定領域が撮影された画像を取得する取得部と、
人および物体を含む前記画像から前記人および前記物体の位置情報を検出する学習がされた学習済モデルを用いて、取得された前記画像から前記人および前記物体の前記位置情報を検出する検出部と、
検出された前記物体の前記位置情報が誤検出かどうかを、前記位置情報が検出された前記画像より前に前記所定領域が撮影された前記画像から検出された過去の前記位置情報に基づいて判定する判定部と、
を有する検出装置。
前記検出部により検出された前記位置情報を記憶する記憶部をさらに有し、
前記判定部は、
検出された前記位置情報に基づいて、前記人と前記物体との接触があるかどうか判定する接触判定部と、
前記接触があると判定された場合に、前記過去の前記位置情報を前記記憶部から参照する参照部と、
参照された前記過去の前記位置情報に基づいて、検出された前記物体の前記位置情報が誤検出かどうかを判定する誤検出判定部と、を有する、
請求項１に記載の検出装置。
前記検出部は、前記人の前記位置情報および前記物体の前記位置情報を、それぞれ前記人を含む人領域および前記物体を含む物体領域として検出し、
前記接触判定部は、前記人領域と前記物体領域との重なりの大きさが、所定の第１閾値以上の場合前記接触があると判定し、前記第１閾値未満の場合前記接触がないと判定する、請求項２に記載の検出装置。
前記判定部は、前記人領域および前記物体領域の少なくともいずれか一方の前記画像上の位置に応じて、前記第１閾値を切り替える、請求項３に記載の検出装置。
前記誤検出判定部は、前記人との前記接触があると判定された前記物体の前記物体領域と、前記参照部により参照された前記過去の前記位置情報に含まれる前記物体領域との重なりの大きさが、所定の第２閾値以下の場合前記物体の前記位置情報が誤検出であると判定し、前記第２閾値より大きい場合前記物体の前記位置情報が誤検出ではないと判定する、請求項３または４に記載の検出装置。
前記物体の前記位置情報の検出が誤検出であると判定された場合、前記検出部により検出された前記位置情報において、誤検出であると判定された前記物体の前記位置情報を削除する補正をする補正部と、
補正後の前記位置情報に基づいて前記人の行動を推定する行動推定部と、
推定された前記行動を出力する出力部と、をさらに有する請求項１～５のいずれか一項に記載の検出装置。
前記人が床に座っている姿勢の前記画像が前記取得部により取得された場合、転倒の前記行動が前記出力部から出力され、前記人が椅子に座っている姿勢の前記画像が前記取得部により取得された場合、前記転倒の前記行動が前記出力部から出力されない、請求項６に記載の検出装置。
前記人が車椅子へ移乗する姿勢の前記画像が前記取得部により取得された場合、前記車椅子への移乗の前記行動が前記出力部から出力され、前記人が前記車椅子以外へ移乗する姿勢の前記画像が前記取得部により取得された場合、前記車椅子への移乗の前記行動が前記出力部から出力されない、請求項６または７に記載の検出装置。
前記画像を撮影する撮影装置と、
請求項１～８のいずれか一項に記載の検出装置と、を有し、
前記取得部は、前記撮影装置により撮影された前記画像を取得する、検出システム。
所定領域が撮影された画像を取得する段階（ａ）と、
人および物体を含む前記画像から前記人および前記物体の位置情報を検出する学習がされた学習済モデルを用いて、取得された前記画像から前記人および前記物体の前記位置情報を検出する段階（ｂ）と、
検出された前記物体の前記位置情報が誤検出かどうかを、前記位置情報が検出された前記画像より前に前記所定領域が撮影された前記画像から検出された過去の前記位置情報に基づいて判定する段階（ｃ）と、
を有する検出方法。
所定領域が撮影された画像を取得する手順（ａ）と、
人および物体を含む前記画像から前記人および前記物体の位置情報を検出する学習がされた学習済モデルを用いて、取得された前記画像から前記人および前記物体の前記位置情報を検出する手順（ｂ）と、
検出された前記物体の前記位置情報が誤検出かどうかを、前記位置情報が検出された前記画像より前に前記所定領域が撮影された前記画像から検出された過去の前記位置情報に基づいて判定する手順（ｃ）と、
を有する処理をコンピューターに実行させるための検出プログラム。
前記処理は、
前記手順（ｂ）において検出された前記位置情報を記憶する手順（ｄ）をさらに有し、
前記手順（ｃ）は、
検出された前記位置情報に基づいて、前記人と前記物体との接触があるかどうか判定する手順（ｃ１）と、
前記接触があると判定された場合に、前記手順（ｄ）において記憶された前記過去の前記位置情報を参照する手順（ｃ２）と、
参照された前記過去の前記位置情報に基づいて、検出された前記物体の前記位置情報が誤検出かどうかを判定する手順（ｃ３）と、を有する、
請求項１１に記載の検出プログラム。
前記手順（ｂ）においては、前記人の前記位置情報および前記物体の前記位置情報を、それぞれ前記人を含む人領域および前記物体を含む物体領域として検出し、
前記手順（ｃ１）においては、前記人領域と前記物体領域との重なりの大きさが、所定の第１閾値以上の場合前記接触があると判定し、前記第１閾値未満の場合前記接触がないと判定する、請求項１２に記載の検出プログラム。
前記手順（ｃ）においては、前記人領域および前記物体領域の少なくともいずれか一方の前記画像上の位置に応じて、前記第１閾値を切り替える、請求項１３に記載の検出プログラム。
前記手順（ｃ３）においては、前記人との前記接触があると判定された前記物体の前記物体領域と、前記手順（ｃ２）において参照された前記過去の前記位置情報に含まれる前記物体領域との重なりの大きさが、所定の第２閾値以下の場合前記物体の前記位置情報が誤検出であると判定し、前記第２閾値より大きい場合前記物体の前記位置情報が誤検出ではないと判定する、請求項１３または１４に記載の検出プログラム。
前記処理は、
前記物体の前記位置情報の検出が誤検出であると判定された場合、前記手順（ｂ）において検出された前記位置情報において、誤検出であると判定された前記物体の前記位置情報を削除する補正をする手順（ｅ）と、
補正後の前記位置情報に基づいて前記人の行動を推定する手順（ｆ）と、
推定された前記行動を出力する手順（ｇ）と、をさらに有する請求項１１～１５のいずれか一項に記載の検出プログラム。
前記手順（ｇ）においては、
前記人が床に座っている姿勢の前記画像が前記手順（ａ）において取得された場合、転倒の前記行動を出力し、前記人が椅子に座っている姿勢の前記画像が前記手順（ａ）において取得された場合、前記転倒の前記行動を出力しない、請求項１６に記載の検出プログラム。
前記手順（ｇ）においては、
前記人が車椅子へ移乗する姿勢の前記画像が前記（ａ）において取得された場合、前記車椅子への移乗の前記行動を出力し、前記人が前記車椅子以外へ移乗される姿勢の前記画像が前記手順（ａ）において取得された場合、前記車椅子への移乗の前記行動を出力しない、請求項１６または１７に記載の検出プログラム。