JP2021033646A

JP2021033646A - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP2021033646A
Application number: JP2019153191A
Authority: JP
Inventors: 譲大久保; Yuzuru Okubo
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2021-03-01
Also published as: US20210056826A1

Abstract

【課題】子供の危険状態を検出しつつ、危険状態と判定するための学習データを容易に収集することのできる情報処理装置、情報処理方法、及びプログラムを提供する。
【解決手段】情報処理装置であって、撮像手段（撮影部３０３）から取得した動画データに含まれる人物および物体の情報を入力データとし、動画データに含まれる物体を原因とした、動画データに含まれる人物が危険な状態であることを示す情報を教師データとして機械学習することで生成された学習済みモデルを利用する。危険な状態を推定する推定手段（推定部３０４）と、新たな動画データを取得して推定手段に提供し、その応答として新たな動画データに含まれる人物が危険な状態であること示す情報を取得した場合に通知する通知手段（通知送信部３０５）とを有する。
【選択図】図３

Description

本発明は、情報処理装置、情報処理方法、及びプログラムに関する。

近年、女性の職場進出が進む一方で育児への負担感・拘束感が少子化の原因のひとつとなっている。負担感・拘束感の原因の一つとして、子供が危険な状態にならないように、保育者が子供を常時観察し続ける必要があることが挙げられる。

例えば、特許文献１は、各種センサによって対象者の状態を検知し、その影響度を用いて対象者の状態が適正であるか否かを判定する装置を開示している。

特開２０１８−２６００６号公報

特許文献１に記載の方法では、主に一人暮らしの高齢者を対象者とし、その前提として、通常の生活パターンや、生活パターンに対応する各種センサを必要としている。一方、保育を必要とする子供に対し、複数の各種センサを前もって子供の生活パターンに合わせて設置しておくことは容易ではない。

本発明は上述した課題に鑑みてなされたものであり、子供の危険状態を検出することを目的とする。更には、危険状態と判定するための学習データを容易に収集することを目的とする。

上記課題を解決するために本願発明は以下の構成を有する。すなわち、情報処理装置であって、撮像手段から取得した動画データに含まれる人物および物体の情報を入力データとし、前記動画データに含まれる物体を原因とした、前記動画データに含まれる人物が危険な状態であることを示す情報を教師データとして機械学習することで生成された学習済みモデルを利用し、危険な状態を推定する推定手段と、新たな動画データを取得して前記推定手段に提供し、その応答として前記新たな動画データに含まれる人物が危険な状態であること示す情報を取得した場合に通知する通知手段とを有する。

本願発明により、子供の危険状態を検出することができる。更には、危険状態と判定するための学習データを容易に収集することも可能となる。

本願発明の一実施形態に係るシステムの全体構成の例を示す図。本願発明の一実施形態に係るシステムのハードウェア構成の例を示す図。本願発明の一実施形態に係るシステムのソフトウェア構成の例を示す図。本願発明の一実施形態に係る危険度推定のための入力データ、学習モデル、および出力データの概念図。第１の実施形態に係るシステムの処理全体のシーケンス図。本願発明の一実施形態に係る学習フェーズのフローチャート。本願発明の一実施形態に係る推定フェーズのフローチャート。本願発明の一実施形態に係るクライアント端末に表示されるＵＩの例を示す図。第２の実施形態に係るシステムの処理全体のシーケンス図。

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

＜第１の実施形態＞
［システム構成］
図１は、本発明を適用できるシステムの全体構成の例を示す図である。図１において、システムは、クライアント端末１０２、ネットワークカメラ１０３、データ収集サーバー１０４、および学習サーバー１０５を含んで構成される。クライアント端末１０２およびネットワークカメラ１０３はローカルネットワーク１０１に接続される。ローカルネットワーク１０１は、インターネット１００に通信可能に接続される。クライアント端末１０２とネットワークカメラ１０３は、学習サーバー１０５とデータ収集サーバー１０４に、インターネット１００を介してアクセス可能な状態となっている。

インターネット１００、およびローカルネットワーク１０１は、例えば、ＬＡＮ、ＷＡＮ、電話回線、専用デジタル回線、ＡＴＭやフレームリレー回線、ケーブルテレビ回線、データ放送用無線回線や移動体通信回線等、またはこれらの組み合わせにより実現される、いわゆる通信ネットワークである。通信ネットワークは、有線／無線やその通信規格を限定するものではない。データ収集サーバー１０４、学習サーバー１０５、クライアント端末１０２、およびネットワークカメラ１０３は、それぞれに相互にデータの送受信が可能とする。

クライアント端末１０２は、情報処理装置であり、デスクトップコンピュータやノートパソコン、またはスマートフォンやタブレットなどの情報端末である。クライアント端末１０２は、プログラムの実行環境が内蔵されているものとする。クライアント端末１０２は、本実施形態に係るシステムにおいて、危険状態が検知された際の通知先として設定される。また、クライアント端末１０２は、ネットワークカメラ１０３の撮影範囲内に含まれる家具・家電などの種類や位置・座標を事前に取得するために用いられてもよい。

ネットワークカメラ１０３は、屋内外に設置されたカメラであり、保育の対象とする所定の人物（ここでは、幼児などの子供）を撮影する。なお、本実施形態において、保育の対象となる対象者およびその保護者（ここでは、親や保育を行う大人など）は予め認識可能であるとする。例えば、子供や保護者の顔情報を登録しておき、人物の特定が可能であるものとする。ネットワークカメラ１０３は、ローカルネットワーク１０１を介して、撮影・取得した動画および関連情報をクライアント端末１０２や学習サーバー１０５、データ収集サーバー１０４にリアルタイムに送信可能である。ネットワークカメラ１０３の撮影範囲は特に限定するものではなく、複数台のネットワークカメラ１０３を用いて撮影可能な範囲を拡張してよい。もしくは、ネットワークカメラ１０３の機能に応じて、ズーム、パン、チルトの動作や、撮影方向や画角の変更などにより、撮影範囲の制御が行われてもよい。

データ収集サーバー１０４は、ネットワークカメラ１０３から学習データを受信・収集する。本実施形態に係る学習データとは、子供が危険状態に陥ったと判定されたタイミングを基準として一定時間の範囲の動画データと、該当する子供周辺の家具・家電の情報である。この学習データの取得方法および取得タイミングは、後述する学習データ生成の詳細な流れを示すフローチャート（図６）にて説明する。

学習サーバー１０５は、定期的にデータ収集サーバー１０４の格納された学習データを基に学習済モデルを生成する。学習済モデルの生成方法は、後述する図６の学習フェーズにおける学習の詳細な流れを示すフローチャートで説明する。

図１では、各装置を１台ずつ示したが、これに限定するものではない。例えば、各種サーバーは１台の装置にて構成されてもよいし、１のサーバーを複数の装置にて構成してもよい。また、クライアント端末１０２やネットワークカメラ１０３は複数台が用いられてもよい。したがって、本実施形態に係る学習データは、複数のネットワークカメラ１０３から収集されてよい。そして、複数のネットワークカメラ１０３から収集された学習データを用いて行われた学習により得られた学習済モデルが複数のネットワークカメラ１０３にて共有されてよい。

［ハードウェア構成］
図２は、本実施形態に係る各装置のハードウェア構成の例を示す。情報処理装置２００は、図１に示した本実施形態に係るクライアント端末１０２、データ収集サーバー１０４、および学習サーバー１０５のハードウェア構成の例を示す。本実施形態では、クライアント端末１０２、データ収集サーバー１０４、および学習サーバー１０５は同じ構成を備えているものとして説明するが、それぞれが異なる構成を備えていてよい。

情報処理装置２００において、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０２は装置全体の制御を行う。ＣＰＵ２０２は、ＨＤＤ（ＨａｒｄＤｉｓｃＤｒｉｖｅ）２０５に格納されているアプリケーションプログラムやＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等を読み出し、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０４にプログラムの実行に必要な情報、ファイル等を一時的に格納して、実行する。

ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０９は、表示部２０８への出力処理を担うほか、ディープラーニングのような機械学習の学習モデルを用いて複数回に渡り学習を行う場合の処理を行う。ＧＰＵ２０９を利用することで、データをより多く並列処理することが可能となり、効率的な演算を行うことができる。

ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２０３は不揮発性の記憶手段であり、内部には、基本Ｉ／Ｏプログラム等の各種データを記憶する。ＲＡＭ２０４は一時記憶手段であり、ＣＰＵ２０２、ＧＰＵ２０９の主メモリ、ワークエリア等として機能する。ＨＤＤ２０５は外部記憶手段の一つであり、大容量メモリとして機能し、Ｗｅｂブラウザ等のアプリケーションプログラム、サービスサーバー群のプログラム、ＯＳ、関連プログラム等を格納している。ＨＤＤ２０５は、不揮発性の記憶手段であればＨＤＤに限定される必要は無く、例えば、フラッシュメモリであってもよい。

入力部２０７は、ユーザからの操作を受け付ける操作部であり、例えば、キーボードやマウスなどが該当する。表示部２０８は表示手段であり、入力部２０７から入力したコマンド等の表示先や、ＣＰＵ２０２の演算結果の出力先となる。なお、入力部２０７と表示部２０８は、タッチパネルディスプレイなどとして一体化された構成であってもよい。

ＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣｏｎｔｒｏｌｌｅｒ）２０６は、ネットワーク２３０を介して外部装置とのデータのやり取りを行う。ネットワーク２３０は、図１に示すインターネット１００やローカルネットワーク１０１に相当する。システムバス２０１は、情報処理装置２００内における各部位を通信可能に接続し、各部位間のデータの流れを司る。

なお、情報処理装置２００の構成は一例であり、例えば、データやプログラムの格納先は、その特徴に応じてＲＡＭ２０４、ＲＯＭ２０３、ＨＤＤ２０５などで変更することも可能である。加えて、ＣＰＵ２０２、ＧＰＵ２０９がＨＤＤ２０５に記憶されているプログラムに基づき処理を実行することによって、図３に示されるようなソフトウェア構成における処理が実現される。

ネットワークカメラ２１０は、図１に示した本実施形態に係るネットワークカメラ１０３のハードウェア構成の例を示す。ここでは、１台のネットワークカメラを例に挙げて説明するが、複数台のネットワークカメラが用いられる際にはそれぞれの構成が異なっていてもよい。

ネットワークカメラ２１０において、ＣＰＵ２１２は装置全体の制御を行う。ＣＰＵ２１２はＨＤＤ２１５に格納されているアプリケーションプログラムやＯＳ等を実行し、ＲＡＭ２１４にプログラムの実行に必要な情報、ファイル等を一時的に格納する制御を行う。ＲＯＭ２１３は不揮発性の記憶手段であり、内部には、基本Ｉ／Ｏプログラム等の各種データを記憶する。ＲＡＭ２１４は一時記憶手段であり、ＣＰＵ２１２の主メモリ、ワークエリア等として機能する。

ＧＰＵ２１９は、表示部２１８への出力処理を担うほか、ディープラーニングのような機械学習の学習モデルを用いて複数回に渡り学習を行う場合の処理を行う。ＧＰＵ２１９を利用することで、データをより多く並列処理することが可能となり、効率的な演算を行うことができる。なお、学習自体は外部装置により行われ、ＧＰＵ２１９は、すでに生成されている学習済モデルを用いた処理のみを行うような構成であってもよい。

ＨＤＤ２１５は外部記憶手段の一つであり、大容量メモリとして機能し、アプリケーションプログラム、サービスサーバー群のプログラム、ＯＳ、関連プログラム等を格納している。ＨＤＤ２１５は、不揮発性の記憶手段であればＨＤＤに限定される必要は無く、例えばフラッシュメモリであっても良い。

表示部２１８は表示手段であり、入力部２１７から入力されたコマンド等の表示先や、ＣＰＵ２０２の演算結果の出力先となる。なお、表示部２１８や入力部２１７は、外付けの構成であってもよいし、外部装置にて提供される構成であってもよい。システムバス２１１は、ネットワークカメラ２１０内における各部位を通信可能に接続し、各部位間のデータの流れを司る。ＮＩＣ２１６は、ネットワーク２３０を介して外部装置とのデータのやり取りを行う。

レンズ２２１は、ネットワークカメラ２１０の周辺における映像を撮影するためのレンズである。レンズ２２１を介して入力された光をイメージセンサー２２０で読み取り、イメージセンサー２２０で読み取った結果をＨＤＤ２１５やＲＡＭ２１４に格納することで、映像を記録する。ここでの映像は、動画や静止画を含む。

マイク２２２は、ネットワークカメラ１０３周辺の音や会話などの音声を取得する。マイク２２２、レンズ２２１、およびイメージセンサー２２０と組み合わせて動作させることで、撮像手段として機能し、録音録画を同時に行える。

なお、ネットワークカメラ２１０の構成は一例であり、例えば、データやプログラムの格納先は、その特徴に応じてＲＯＭ２１３、ＲＡＭ２１４、ＨＤＤ２１５などで変更することも可能である。加えて、ＣＰＵ２１２がＨＤＤ２１５に記憶されているプログラムに基づき処理を実行することによって、図３に示されるようなソフトウェア構成における処理が実現される。また、イメージセンサー２２０やマイク２２２はシステムバス２１１に直接接続されている必要は無く、例えば、ＵＳＢバス等を通じて間接的にシステムバス２１１またはＣＰＵ２１２に接続されていても良い。もしくは、イメージセンサー２２０やマイク２２２が、ＣＰＵ２１２やＧＰＵ２１９に直接接続される形態であっても良い。

［ソフトウェア構成］
図３は、本実施形態に係る各装置のソフトウェア構成の例を示す。各装置のソフトウェアは、例えば、各装置の記憶部に記憶されたプログラムを各装置の処理部（ＣＰＵ等）が読み出して実行されることにより実現される。

クライアント端末１０２は、通知受信部３１１、およびＵＩ表示部３１２を含んで構成される。通知受信部３１１は、ネットワークカメラ１０３の通知送信部３０５から送信された通知を受信する。ＵＩ表示部３１２は、通知受信部３１１が受信した通知に基づいて、その内容を表示部２０８に出力させる。ＵＩ表示部３１２による通知の出力方法としては、例えば、クライアント端末１０２の表示部２０８において、通知ウィンドウを最前面に表示する、またはメッセージボックスやトーストによって保育者に対して通知を行うなどの方法が挙げられる。この時、単にメッセージを表示するだけでなく、ネットワークカメラ１０３の通知送信部３０５がリアルタイムに画像や動画を、クライアント端末１０２の通知受信部３１１に送信し、その内容をＵＩ表示部３１２が表示させても良い。また、ネットワークカメラ１０３の推定部３０４が出力した危険度の大きさに対して、クライアント端末１０２上で閾値を設定可能とし、ＵＩ表示部３１２に通知を表示する子供の推定危険度を調整可能としても良い。

ネットワークカメラ１０３は、学習データ送信部３０１、学習済モデル受信部３０２、撮影部３０３、推定部３０４、通知送信部３０５、および姿勢解析部３０６を含んで構成される。

学習データ送信部３０１は、撮影部３０３で取得した動画と音声を基に、保育者が対象となる子供に対して危険回避行動を行ったかを判定する。ここで危険回避行動とは、例えば、保育者が大声を出す、または、保育者が対象となる子供を危険物から急いで退避させるといった行動が該当する。ここでは、例えば、発声の音量、発声の期間、移動距離、移動速度に対する閾値を予め設定しておき、その閾値との比較により危険回避行動を判定してよい。学習データ送信部３０１は、危険回避行動があったタイミングを基準として一定時間の区間の動画を切り出す。例えば、１秒間に１５フレームの動画を撮影する場合に、過去３秒の動画を切り出すとすると、危険回避行動発生時から４５フレーム分前までの動画データとなる。なお、ここでの取得する範囲は特に限定するものではなく、例えば、動画データ等の記録を逐次行っておき、危険回避行動を検知したタイミングにてその前後の一定期間に記録された動画データを学習データとして設定してよい。そして、学習データとして設定されていない動画データ等は、時間経過とともに破棄してよい。学習データ送信部３０１は、切り出した動画データと、姿勢解析部３０６で得られた解析結果、および、周辺の家具家電情報を、学習データとしてデータ収集サーバー１０４のデータ収集／提供部３２２に送信する。

学習済モデル受信部３０２は、推定部３０４で使用する学習済モデルを、学習サーバー１０５の学習済モデル送信部３３４から定期的に受信する。ここでの受信は、ネットワークカメラ１０３側から定期的に学習サーバー１０５に要求してもよいし、学習サーバー１０５から定期的に送信されてくる学習済モデルを待ち受けるような構成であってもよい。

撮影部３０３は、イメージセンサー２２０で読み取られた結果を映像信号に変換して、ＨＤＤ２１５に格納する。さらに、撮影部３０３は、推定部３０４へリアルタイムに映像信号を転送する。また、撮影部３０３は、撮影範囲内の家具・家電に関する家具家電情報を物体検出処理によって検出する。撮影部３０３が行う物体検出処理は、毎フレーム行う必要は無く、背景画像に一定割合変化があった場合などに物体検出処理を行ってもよい。具体的な物体認識処理の方法としては、例えば、スライディングウィンドウを用いた上でＨＯＧ（ＨｉｓｔｏｇｒａｍｓｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ）特徴量を検出し、機械学習を行う。または、画像情報をＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いて直接機械学習を行う方法などがある。なお、物体認識を行う処理であれば他の方式でも良く、例えばパ、フォーマンスを向上させるために物体領域候補もＣＮＮで検出しても良いし、ＱＲコード（登録商標）などの物理的な識別子（マーカー）を家具・家電に設置しても良い。

推定部３０４は、撮影部３０３からの映像信号と、姿勢解析部３０６からの対象人物の位置情報と姿勢ベクトルデータと、周辺の家具家電情報を入力とする。そして、推定部３０４は、それらの入力と、学習サーバー１０５の学習済モデル送信部３３４から取得した学習済モデルを用いて、対象人物が危険状態か否かの推定を行う。推定部３０４と学習サーバー１０５の学習部３３３は、危険状態か否かを判定するために、機械学習を用いた学習および推定を行う。具体的なアルゴリズムとしては、最近傍法、ナイーブベイズ法、決定木、サポートベクターマシン（ＳＶＭ）などが挙げられる。また、ニューラルネットワークを利用して、学習するための特徴量、結合重み付け係数を自ら生成する深層学習（ディープラーニング）も挙げられる。適宜、上記アルゴリズムのうち利用できるものを用いて本実施形態に適用することができる。

また、推定部３０４による処理には、ＣＰＵ２１２に加えてＧＰＵ２１９を用いても良い。具体的には、学習モデルを含む推定プログラムを実行する場合に、ＣＰＵ２１２とＧＰＵ２１９が協働して演算を行うことで推定を行う。なお、推定部３０４の処理はＣＰＵ２１２またはＧＰＵ２１９のみにより演算が行われても良い。また、後述する学習サーバー１０５の学習部３３３も同様に、ＧＰＵ２０９を用いても良い。

通知送信部３０５は、推定部３０４で対象人物である子供が危険状態であると推定した時にクライアント端末１０２の通知受信部３１１に危険通知を行う。通知送信部３０５は、危険通知の情報と共に撮影部３０３の動画データを送信しても良い。

姿勢解析部３０６は、撮影部３０３で得られた動画データを基に撮影範囲内の人物の位置と姿勢を解析する。姿勢解析部３０６は、撮影部３０３で得られる動画データの各フレームの差分画像から移動物体を認識し、さらに検出した移動物体を解析することで人物の姿勢を推定する。姿勢解析部３０６による解析の結果として得られる情報は、人物の位置情報および姿勢ベクトルデータとなる。以下、これらの情報をまとめて「姿勢情報」と称する。

データ収集サーバー１０４は、データ記憶部３２１およびデータ収集／提供部３２２を含んで構成される。

データ記憶部３２１は、データ収集／提供部３２２を介してネットワークカメラ１０３の学習データ送信部３０１から送信された学習データを記憶する。データ収集／提供部３２２は、ネットワークカメラ１０３の学習データ送信部３０１から送信された学習データを受信する。また、データ収集／提供部３２２は、学習サーバー１０５からの要求に応じて、学習データ受信部３３２に対して学習データを送信する。

学習サーバー１０５は、学習済モデル記憶部３３１、学習データ受信部３３２、学習部３３３、および学習済モデル送信部３３４を含んで構成される。

学習済モデル記憶部３３１は、学習部３３３で学習した結果の学習済モデルを記憶する。学習データ受信部３３２は、データ収集サーバー１０４のデータ収集／提供部３２２に対して定期的に学習データを要求する。ここでの定期的とは、予め設定された時間間隔であってもよいし、データ収集サーバー１０４にて一定量以上のデータが収集されたタイミングであってもよい。学習データ受信部３３２は、データ収集／提供部３２２から受信した学習データを学習部３３３に入力し、学習部３３３に対し学習処理を行うように要求する。

学習部３３３は、受信した学習データを用いて機械学習を用いた学習を行う。学習部３３３は、学習手法に対応した誤差検出部と更新部（不図示）を備えてもよい。誤差検出部は、入力層に入力される入力データに応じてニューラルネットワークの出力層から出力される出力データと、教師データとの誤差を得る。誤差検出部は、損失関数を用いて、ニューラルネットワークからの出力データと教師データとの誤差を計算するようにしてもよい。更新部は、誤差検出部で得られた誤差に基づいて、その誤差が小さくなるように、ニューラルネットワークのノード間の結合重み付け係数等を更新する。更新部は、例えば、誤差逆伝搬法を用いて、結合重み付け係数等を更新する。誤差逆伝搬法は、上記の誤差が小さくなるように、各ニューラルネットワークのノード間の結合重み付け係数等を調整する手法である。本実施形態において、ネットワークカメラ１０３の学習データ送信部３０１が危険状態であるとして判定した場合に送信される学習データを用いて学習した場合の出力データは、危険度が高いものとして教師データが設定される。そのため、学習部３３３では、その教師データの値に近づくように結合重み付け係数等が更新される。

図４は、学習部３３３および推定部３０４で使用される学習モデルと、入出力の関係を示す概念図である。学習モデル４０３は、学習部３３３が用いる学習モデルに対応する。入力データ４０１は、ネットワークカメラ１０３の学習データ送信部３０１がデータ収集サーバー１０４の入力データ収集／提供部３２２に送信した学習データである。本実施形態に係る学習データは、保育者が対象とする子供に対して危険回避行動取ったタイミングを基準として一定期間の範囲の撮影部３０３で撮影された動画データを含む。更に、学習データは、姿勢解析部３０６で得られた子供の姿勢情報、および子供の周辺に位置する家具・家電に関する家具家電情報を含む。

出力データ４０２は、入力データ４０１を基に学習モデル４０３によって推定部３０４が推定した危険値であり、子供の危険度合いを表す。ここで危険値は、推定部３０４の回帰分析の結果であり、連続値を取るものとする。例えば、確実に危険な状態である場合、危険値は“１．０”を取る。一方、確実に安全な状態である場合、危険値は“０．０”と表現する。なお、クライアント端末１０２への通知方法によっては必ずしも連続値とする必要は無く、例えば、クライアント端末１０２が単に危険通知を受け取るだけであれば、危険状態か非危険状態かの２つに分類する方式であっても良い。また、家具・家電ごとに学習モデル４０３を用意する方法だけでなく、家具家電ごとの危険値を出力データ４０２としても良い。学習モデル４０３および学習データを用いて学習が行われることで、学習済モデルが生成され、学習サーバー１０５からネットワークカメラ１０３に提供される。

［シーケンス］
図５を用いて、本実施形態に係るシステムがどのように、子供が危険な時に保育者に対して通知を行う流れを説明する。また、学習データの収集方法および学習モデルの学習の流れについても合わせて説明する。

Ｓ５０１にて、ネットワークカメラ１０３の推定部３０４は、動画データ、姿勢情報、および家具家電情報を入力データとして、学習済モデルを用いて、対象の子供の危険度を推定する。ここで、ネットワークカメラ１０３は、すでに過去の学習データを用いて生成された学習済モデルを保持しているものとする。

Ｓ５０２にて、ネットワークカメラ１０３の通知送信部３０５は、Ｓ５０１の推定部３０４による危険度の推定の結果を応答として受け付け、その危険度が閾値を超えた場合に、クライアント端末１０２の通知受信部３１１にその旨の通知を送信する。ここでの通知内容としては、危険度や動画データなどを含んでよい。

Ｓ５０３にて、クライアント端末１０２は、Ｓ５０２にて受信した通知内容に基づいて、ＵＩ表示部３１２に対象の子供が危険状態であることを表示する。このとき、クライアント端末１０２は、単に危険状態であることを知らせるだけでなく、その危険度の値に応じてＵＩ表示部３１２における通知方法を変えても良い。例えば、危険度が０．９未満０．７以上である場合、危険通知を知らせるウィンドウ、メッセージボックス、トーストまたはアイコンをＵＩ表示部３１２に表示してよい。また、危険度が０．９以上である場合、さらにアラームを鳴らすことで、対象の子供が危険な状態である確度が高いことを知らせてもよい。さらに、姿勢情報と家具家電情報のうち、最も危険度の高い組み合わせの家具家電を強調させてＵＩ表示部３１２に表示させても良い。ＵＩの表示例については、図８を用いて後述する。

Ｓ５０４にて、クライアント端末１０２は、Ｓ５０２にて受信した通知結果に対するユーザの評価内容を、ネットワークカメラ１０３に送信する。ここで送信される内容としては、例えば、ネットワークカメラ１０３による推定結果が正しかったか否かの正当性に対するユーザの評価を返信しても良い。ネットワークカメラ１０３の学習データ送信部３０１は、このクライアント端末１０２からの評価結果を学習データ収集のトリガ、および教師データとすることで、学習済モデルの精度をより向上させることができる。つまり、ユーザにより推定が正しくないと指定された場合には、その旨を学習データに含めてデータ収集サーバー１０４に送信する。そして、その学習データを用いて学習した場合の出力データは、危険度が低いものとして教師データが設定されるようにしてよい。このステップは学習済モデルの精度をより向上させる効果が期待できるが、本実施形態において必須の構成ではない。

続いて、学習モデルの学習の流れについて説明する。Ｓ５１１にて、ネットワークカメラ１０３の学習データ送信部３０１は、撮影部３０３にて取得した動作データを解析し、危険回避行動があったか否かを判定する。そして、学習データ送信部３０１は、危険回避行動があったことを検知した場合には、その危険回避行動が行われたタイミングを基準として一定期間の動画データを取得する。

Ｓ５１２にて、ネットワークカメラ１０３の学習データ送信部３０１は、危険回避行動があったタイミングを基準とした一定期間の動画データ、姿勢情報、および家具家電情報を学習データとしてデータ収集サーバー１０４のデータ収集／提供部３２２に送信する。

Ｓ５１３にて、データ収集サーバー１０４は、Ｓ５１２にて受信した学習データを、データ記憶部３２１に記憶する。

Ｓ５１４にて、学習サーバー１０５の学習データ受信部３３２は、定期的にデータ収集サーバー１０４のデータ収集／提供部３２２から未学習の学習データを取得する。ここでの取得タイミングは、学習サーバー１０５が一定期間ごとにデータ収集サーバー１０４に学習データを要求してもよい。または、データ収集サーバー１０４が一定期間ごとや、一定量のデータを収集したタイミングにて送信してもよい。なお、データ収集サーバー１０４は、学習サーバー１０５に送信済みの学習データは破棄してもよいし、送信済みであること記録した上で保持し続けてもよい。学習データ受信部３３２は、取得した学習データを用いて学習を行うように学習サーバー１０５の学習部３３３に依頼する。

Ｓ５１５にて、学習サーバー１０５の学習部３３３は、Ｓ５１４にてデータ収集サーバー１０４から取得した学習データを用いて学習を行う。

Ｓ５１６にて、学習サーバー１０５の学習済モデル送信部３３４は、学習部３３３で学習した結果となる学習済モデルをネットワークカメラ１０３の学習済モデル受信部３０２に送信する。学習済モデル受信部３０２は、推定部３０４が使用する学習済モデルを、受信した学習済モデルに更新する。更新前の学習済モデルは、履歴として保持してもよいし、破棄してもよい。

［処理フロー］
（学習処理）
図６は、学習フェーズにおける学習の詳細な流れを示すフローチャートである。図６（ａ）は、ネットワークカメラ１０３の学習データ送信部３０１による処理のフローチャートである。図６（ａ）の処理は、ネットワークカメラ１０３にて定期的に繰り返される。

Ｓ６０１にて、学習データ送信部３０１は、撮影部３０３から得られた動画データ、または、マイク２２２から得られた音声データから、保育者が対象とする子供に対して危険回避行動を行ったかを判定する。ここで危険回避行動とは、例えば保育者が大声を出す、対象となる子供が大声で一定時間泣き続ける、または、保育者が対象となる子供を危険物から急いで退避させるといった行動が挙げられる。さらに、子供を危険物から急いで退避させるだけでなく、危険物を子供から急いで遠ざける行動を危険回避行動として検出してもよい。危険回避行動を検出した場合（Ｓ６０１にてＹＥＳ）Ｓ６０２へ進み、検出しなかった場合（Ｓ６０１にてＮＯ）Ｓ６０４に進む。

Ｓ６０２にて、学習データ送信部３０１は、危険回避行動を検出したタイミングを基準として、前後一定時間分の動画データのフレームをＨＤＤ２１５から取得する。

Ｓ６０３にて、学習データ送信部３０１は、Ｓ６０２で取得した動画データ、危険回避行動を検出したタイミングの姿勢データ、および家具家電情報を、学習データとしてデータ収集サーバー１０４のデータ収集／提供部３２２に送信する。姿勢データは、危険回避行動を検出したタイミングの瞬時値が送信されるが、動画データと同様に一定時間のフレーム分をデータ収集／提供部３２２に送信しても良い。そして、本処理フローを終了する。

Ｓ６０４にて、学習済モデル受信部３０２は、学習サーバー１０５の学習済モデル送信部３３４から学習済モデルを受信したか否かを判定する。学習済データを受信したと判定した場合（Ｓ６０４にてＹＥＳ）Ｓ６０５へ進み、受信していないと判定した場合（Ｓ６０４にてＮＯ）本処理フローを終了する。

Ｓ６０５にて、学習済モデル受信部３０２は、受信した学習済モデルを、推定部３０４が使用できるようにＨＤＤ２１５またはＲＡＭ２１４に記憶して更新する。更新前の学習済モデルは、履歴として保持してもよいし、破棄してもよい。

図６（ｂ）は、学習サーバー１０５による学習処理のフローチャートである。

Ｓ６２１にて、学習データ受信部３３２は、データ収集サーバー１０４のデータ収集／提供部３２２から学習データを取得する。

Ｓ６２２にて、学習部３３３は、Ｓ６２１にて受信した学習データ（動画データ、姿勢情報、および家具家電情報）を入力データとし、危険な状態であったか否かを示す情報（危険度）を教師データとする。ここで表１に入力データおよび教師データとして使用するデータの具体例を示す。

学習データＩＤは、入力データと教師データの組を表現するＩＤ（識別情報）である。ＩＤの付与規則は特に限定するものではなく、入力データおよび教師データとの組を一意に特定できればよい。本実施形態では、上述したように、動画データ、姿勢データおよび家具家電情報を入力データとする。動画データは、ネットワークカメラ１０３の学習データ送信部３０１が危険回避行動を検出したタイミングを基準とした一定時間内の動画データである。姿勢データは、同タイミングにおいて、姿勢解析部３０６が解析した姿勢情報である。本実施形態において、姿勢情報は、人の関節とボーン位置を示す数値のベクトルで表される。家具家電情報は、対象となる子供に最も近い家具家電の距離を“１．０”とし、その他の家具家電の距離を、最も近い家具家電に対して相対的に表す。例えば、家電Ａが子供に対して距離０．５ｍの位置にあった場合、家電Ｂが子供に対して距離２ｍの位置にあったとすると、家電Ａとの距離は“１．０”で表現され、家電Ｂとの距離は“４．０”と表現される。なお、距離に限定するものではなく、人物と家具・家電との位置関係に関する情報を含めてもよい。

教師データとしては、危険度が用いられる。危険度については図４を用いて説明を行ったため、詳細は省略するが、教師データとしては危険回避行動があった場合に危険度の値を“１．０”とし、危険回避行動の無い定常的な学習データの場合は危険度の値を“０．０”としている。例えば、図５のＳ５０４にてユーザにより推定が正しくないと評価された場合に対応する学習データに対しては、教師データ（危険度）を“０．０”としてよい。一方、ユーザにより推定が正しいと評価された場合やＳ５０４における評価が行われない場合には教師データ（危険度）を“１．０”としてよい。

Ｓ６２３にて、学習部３３３は、Ｓ６２２で設定した情報を用いて学習を行う。上述したように、学習手法は特に限定するものでは無い。

Ｓ６２４にて、学習部３３３は、全ての学習データを用いた学習が完了したか否かを判定する。未処理の学習データが残っていると判定された場合（Ｓ６２４にてＮＯ）Ｓ６２２へ戻り、未処理の学習データに対して処理を繰り返す。全ての学習データを用いた学習が完了したと判定した場合（Ｓ６２４にてＹＥＳ）Ｓ６２５へ進む。

Ｓ６２５にて、学習済モデル送信部３３４は、ネットワークカメラ１０３の学習済モデル受信部３０２に対して、新たな学習済モデルを送信する。そして、本処理フローを終了する。

（推定処理）
図７は、ネットワークカメラ１０３による推定処理の詳細な流れを示すフローチャートである。本処理フローは、ネットワークカメラ１０３により定常的に実行される。

Ｓ７０１にて、ネットワークカメラ１０３の撮影部３０３は、撮影処理を行い、動画データを取得する。この時、推定部３０４が必要とする動画データとして、一定期間の撮影データを必要とするため、ＨＤＤ２１５またはＲＡＭ２１４に撮影した動画データが適時記憶される。

Ｓ７０２にて、姿勢解析部３０６は、Ｓ７０１にて撮影された動画データを基に姿勢解析を行う。姿勢解析部３０６の姿勢解析の結果、対象となる子供の位置と姿勢ベクトルを得る。

Ｓ７０３にて、推定部３０４は、Ｓ７０１、Ｓ７０２にて得られた姿勢に関する情報、および事前に取得した家具家電情報を入力データとして、学習サーバー１０５の学習済モデル送信部３３４から受信した学習済モデルを用いて推定を行う。推定部３０４は、推定の結果、対象となる子供が危険な状態かを表す危険度を出力する。

Ｓ７０４にて、Ｓ７０３で推定した危険度が閾値以上であるか否かを判定する。危険度が閾値以上であると判定された場合（Ｓ７０４にてＹＥＳ）Ｓ７０５へ進み、閾値未満であると判定された場合（Ｓ７０４にてＮＯ）Ｓ７０１へ戻り、処理を繰り返す。ここでの閾値は、事前に規定され、ＨＤＤ２１５等の記憶部に保持されていてもよいし、ユーザー（例えば、保育者）が動的に設定可能であっても良い。

Ｓ７０５にて、通知送信部３０５は、クライアント端末１０２の通知受信部３１１に対して対象となる子供が危険な状態にあるという推定結果を送信する。ここで通知送信部３０５がクライアント端末１０２に送るデータは、Ｓ７０３の推定の結果得られた危険度、リアルタイムの動画データ、および危険に陥った原因と考えられる家具・家電の領域情報が含まれてよい。本実施形態において、家具家電の領域情報は、Ｓ７０３の危険度推定時に得られる、最も関連度の高い（距離の近い）家具家電の位置を示す領域情報とする。

図８は、クライアント端末１０２において危険通知を行う際のＵＩ表示の例を示す。図８は、クライアント端末１０２のＵＩ表示部３１２にて表示される画面の例である。

図８の例では、子供８０１の近くにコンロ８０３と乾電池８０２が表示されている。さらに、子供８０１が手を上に伸ばす姿勢を取っている。これらは、Ｓ７０５に送信されたリアルタイムの動画データを基にＵＩ表示部３１２が表示している。例えば、図８では、危険度の推定の結果動画データや姿勢情報、および家具家電情報から、危険となっている原因がコンロ８０３である可能性が最も高いと推定された場合、コンロ８０３の部分を領域情報として強調して表示している。一方、子供がしゃがむような姿勢を取った場合、コンロ８０３の部分ではなく乾電池８０２の部分を領域情報として強調して表示するといった結果になる場合もある。この強調処理によって、保育者に何が危険の原因かを伝えることができる。なお、図８は表示の一例であり、実際には学習結果に基づいて、強調される家具家電が決定されてよい。

以上、本実施形態により、保育の必要な子供が危険状態にあるか否かを保育者に通知できる。更には、危険状態を判定するための学習済モデルを生成するために用いられる学習データを容易に収集することができる。そして、このような学習データを用いて学習が行われた学習済モデルを共有することにより、他の保育者の知見を活用でき、その結果、危険状態の推定精度を向上することも可能となる。

＜第２の実施形態＞
第１の実施形態では、危険度が閾値以上の際の通知先はクライアント端末１０２を想定した形態について説明した。近年、様々な家電がインターネットに接続され、インターネット経由で各種センサ値を収集、または外部から制御可能なものが増えてきている。このようなインターネット経由で情報の取得、または制御を行うことをＩｏＴ（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）と呼ばれている。また、ＩｏＴに対応した機器についてＩｏＴ対応機器と呼ぶ。本願発明の第２の実施形態として、通知先としてＩｏＴ対応機器を含め、危険度に応じてＩｏＴ対応機器を制御する形態について説明する。なお、第１の実施形態と重複する構成については説明を省略し、差分のみを説明する。

図９を用いて本実施形態のシステムの動きについて説明する。図９に示す処理シーケンスのうち、第１の実施形態と同じ処理は同じ参照番号を付している。本実施形態では、ＩｏＴ対応機器９００がシステム内に含まれる。ＩｏＴ対応機器９００の種類は特に限定されるものではない。また、複数のＩｏＴ対応機器９００が含まれてよく、その通知先に関する情報がネットワークカメラ１０３にて管理されているものとする。

第１の実施形態にて述べたように、Ｓ５０２にて、クライアント端末１０２に危険通知を行う。このとき、クライアント端末１０２に対して、危険の原因となった可能性の最も高い家具・家電の情報を送信する。ここで危険の原因と推定された家具・家電がＩｏＴ対応機器９００であるものとし、ＩｏＴ対応機器９００は、緊急停止機能を備えているものとする。

Ｓ９０１にて、ネットワークカメラ１０３の通知送信部３０５は、Ｓ５０２におけるクライアント端末１０２に対する通知を行うとともに、対象のＩｏＴ対応機器９００に対して緊急停止指示を出す。緊急停止指示により、危険状態が解消するようにＩｏＴ対応機器９００の動作を制御させる。ここでの対象のＩｏＴ対応機器９００は、最も関連度の高い（距離の近い）家具・家電としてのＩｏＴ対応機器が相当する。また、ネットワークカメラ１０３からＩｏＴ対応機器９００に対して緊急停止指示を直接送信する構成に限定するものではない。例えば、ＩｏＴ対応機器９００を管理するインターネット１００上のサーバー（不図示）に対して対象のＩｏＴ対応機器９００への緊急停止指示を送信してもよい。また、ＩｏＴ対応機器９００の撮影範囲内における位置の把握は、撮影部３０３が行う物体検出処理により行うことができる。

以上、本実施形態により、保育の必要な子供が危険な状態にあり、その原因と思われる家具家電がＩｏＴ対応機器である場合、緊急停止をリモートで自動的に指示することで、怪我などを未然に防止する可能性を高めることが可能となる。

＜その他の実施形態＞
本発明は上述の実施形態の１以上の機能を実現するプログラムをネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピューターにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＭＰＵ、ＧＰＵ、ＡＳＩＣ、ＦＰＧＡ、ＤＳＰ、ＤＦＰ、ＮＰＵ）によっても実現可能である。

１００…インターネット、１０１…ローカルネットワーク、１０２…クライアント端末、１０３…ネットワークカメラ、１０４…データ収集サーバー、１０５…学習サーバー

Claims

撮像手段から取得した動画データに含まれる人物および物体の情報を入力データとし、前記動画データに含まれる物体を原因とした、前記動画データに含まれる人物が危険な状態であることを示す情報を教師データとして機械学習することで生成された学習済みモデルを利用し、危険な状態を推定する推定手段と、
新たな動画データを取得して前記推定手段に提供し、その応答として前記新たな動画データに含まれる人物が危険な状態であること示す情報を取得した場合に通知を行う通知手段と
を有することを特徴とする情報処理装置。
前記撮像手段から動画データを取得する取得手段と、
前記動画データに含まれる人物および物体を特定する特定手段と、
前記特定手段にて特定された人物および物体の情報に基づいて、前記動画データに含まれる人物による所定の行動を検出する検出手段と、
前記検出手段にて前記所定の行動を検出した場合に、前記動画データと前記特定手段にて特定された人物および物体の情報とを学習データとして生成する生成手段と
を有することを特徴とする請求項１に記載の情報処理装置。
前記所定の行動は、人物が所定の音量よりも大きな発声を行う、人物が所定の期間よりも長い発声を行う、または、人物が他の人物を物体から一定の距離よりも離れた位置に移動させる、ことを含むことを特徴とする請求項２に記載の情報処理装置。
前記生成手段にて生成された学習データにおける前記動画データを用いて機械学習を行う場合の教師データの値は、危険な状態である可能性が高いものとして設定されることを特徴とする請求項２または３に記載の情報処理装置。
前記特定手段は、前記動画データに含まれる人物の姿勢、および、前記動画データに含まれる人物と物体との距離を特定することを特徴とする請求項２乃至４のいずれか一項に記載の情報処理装置。
前記生成手段にて生成された学習データを外部装置に提供する提供手段と、
前記提供手段にて提供された学習データを用いて機械学習により生成された学習済モデルを受信する受信手段と
を更に有し、
前記推定手段は、前記受信手段にて受信した学習済モデルにて、保持している学習済モデルを更新することを特徴とする請求項２乃至５のいずれか一項に記載の情報処理装置。
前記通知手段による通知先から、前記推定手段にて前記危険な状態であると判定した結果に対する正当性の評価を受け付ける手段を更に有し、
前記正当性の評価に基づいて、前記学習データにおける前記動画データを用いて機械学習を行う場合の教師データの値が設定されることを特徴とする請求項１乃至６のいずれか一項に記載の情報処理装置。
前記通知手段による通知先は、クライアント端末であり、
前記通知手段は、前記クライアント端末において、前記動画データおよび前記所定の状態の原因となる物体の情報を表示するように通知を行うことを特徴とする請求項１乃至７のいずれか一項に記載の情報処理装置。
前記通知手段による通知先は、ＩｏＴ（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）対応機器であり、
前記通知手段は、前記ＩｏＴ対応機器に対し、危険な状態が解消するように動作の指示を送信することを特徴とする請求項１乃至８のいずれか一項に記載の情報処理装置。
前記情報処理装置は、前記撮像手段を備えるネットワークカメラであることを特徴とする請求項１乃至９のいずれか一項に記載の情報処理装置。
撮像手段から取得した動画データに含まれる人物および物体の情報を入力データとし、前記動画データに含まれる物体を原因とした、前記動画データに含まれる人物が危険な状態であることを示す情報を教師データとして機械学習することで生成された学習済みモデルを利用し、危険な状態を推定する推定工程と、
新たな動画データを取得した際に前記推定工程を実施し、その応答として前記新たな動画データに含まれる人物が危険な状態であること示す情報を取得した場合に通知を行う通知工程と
を有することを特徴とする情報処理方法。
コンピューターを、
撮像手段から取得した動画データに含まれる人物および物体の情報を入力データとし、前記動画データに含まれる物体を原因とした、前記動画データに含まれる人物が危険な状態であることを示す情報を教師データとして機械学習することで生成された学習済みモデルを利用し、危険な状態を推定する推定手段、
新たな動画データを取得して前記推定手段に提供し、その応答として前記新たな動画データに含まれる人物が危険な状態であること示す情報を取得した場合に通知する通知手段
として機能させるためのプログラム。