JP7476965B2

JP7476965B2 - 通知制御装置、制御方法、及びプログラム

Info

Publication number: JP7476965B2
Application number: JP2022534570A
Authority: JP
Inventors: 純一船田; 尚志水本
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2024-05-01
Anticipated expiration: 2040-07-08
Also published as: US20230229164A1; JPWO2022009350A1; WO2022009350A1

Description

本発明は、通知を制御する技術に関する。

感染症の感染拡大を予防する観点などから、複数の人物が互いに近い距離で会話をしている状況が好ましくないことがある。そこで、このような状況を検出して通知を行うシステムが開発されている。例えば特許文献１は、施設に設置されたカメラから得られる画像を利用して、居住者と来訪者が所定時間以上会話を行ったことを検出し、当該検出に応じて、感染症に感染する危険性が高いことを通知する技術を開示している。

国際公開第２０１９／２３９８１３号

特許文献１の装置では、居住者と来訪者が所定時間以上会話を行ったと判定されたら、すぐに通知が行われる。そのため、通知が行われる際、これらの人物の状態が、通知を受けることに適している状態であるとは限らない。

本発明は上記の課題に鑑みてなされたものであり、その目的の一つは、通知対象の人物に対して適切なタイミングで通知を行う技術を提供することである。

本開示の通知制御装置は、監視領域内において互いに所定距離以内で会話をしている複数の人物について、前記複数の人物が含まれるビデオデータ又は前記複数の人物の声が含まれる音声データを取得し、前記ビデオデータ又は前記音声データを解析することで、前記複数の人物の状態が、所定の通知を受けることに適した状態であるか否かを判定する判定部と、前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定された場合に、前記所定の通知を出力する通知部と、を有する。

本開示の制御方法は、コンピュータによって実行される。当該制御方法は、監視領域内において互いに所定距離以内で会話をしている複数の人物について、前記複数の人物が含まれるビデオデータ又は前記複数の人物の声が含まれる音声データを取得し、前記ビデオデータ又は前記音声データを解析することで、前記複数の人物の状態が、所定の通知を受けることに適した状態であるか否かを判定する判定ステップと、
前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定された場合に、前記所定の通知を出力する通知ステップと、を有する。

本開示のコンピュータ可読媒体は、本開示の制御方法をコンピュータに実行させるプログラムを格納している。

本発明によれば、通知対象の人物に対して適切なタイミングで通知を行う技術が提供される。

実施形態１の通知制御装置の概要を例示する図である。通知制御装置の機能構成を例示する図である。通知制御装置を実現するコンピュータのハードウエア構成を例示するブロック図である。移動型ロボットのハードウエア構成を例示するブロック図である。実施形態１の通知制御装置によって実行される処理の流れを例示するフローチャートである。

以下では、本開示の実施形態について、図面を参照しながら詳細に説明する。各図面において、同一又は対応する要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略される。

［実施形態１］
図１は、実施形態１の通知制御装置２０００の概要を例示する図である。なお、図１を参照して行う以下の説明は、実施形態１の通知制御装置２０００についての理解を容易にするためのものであり、実施形態１の通知制御装置２０００の動作は以下で説明するものに限定されない。

通知制御装置２０００は、監視領域内において所定距離 L1 以内で会話をしていることが検出された複数の人物１０（以下、人物グループ４０）について、センサデータを取得する。監視領域は、オフィスなどといった任意の場所とすることができる。また、監視領域は屋外であってもよい。センサデータは、カメラで人物グループ４０を撮像することで生成されたビデオデータ、又はマイクロフォンで人物グループ４０の会話を録音することで生成された音声データである。なお、人物グループ４０の検出は、通知制御装置２０００によって行われてもよいし、通知制御装置２０００以外の装置によって行われてもよい。

通知制御装置２０００は、人物グループ４０に対して所定通知を出力する。ただし、その前に、通知制御装置２０００は、センサデータを利用して、人物グループ４０が、通知を受けることに適した状態（以下、好適状態）であるか否かを判定する。人物グループ４０が好適状態であると判定された場合、通知制御装置２０００は、所定通知を出力する。一方、人物グループ４０が好適状態でない場合、通知制御装置２０００は、所定通知を出力しない。

＜作用効果の一例＞
感染症の感染拡大防止の観点などから、複数の人物が互いに所定距離 L1 以内で会話をするという状況が好ましくない場合がある。そのため、このような状況が検出されたら、当該複数の人物に対して何らかの通知を行うことで、好ましくない状況にあることをこれらの人物に気づかせることが好ましい。

しかしながら、すぐにこのような通知を行うことが必ずしも適しているとは限らない。例えば、重要な会話が行われている場合には、会話が一段落するまで待ってから通知を行うことで、感染拡大防止などといった効果と、仕事の生産性とのバランスを適切に取ることが好ましい。

この点、通知制御装置２０００によれば、人物グループ４０の状態が好適状態（通知を受けることに適した状態）であるか否かが判定され、人物グループ４０が好適状態である場合に所定通知が行われる。よって、人物グループ４０の状態を考慮せずに通知が行われてしまうケースと比較し、人物グループ４０に対してより適したタイミングで通知をすることができる。

以下、本実施形態の通知制御装置２０００について、より詳細に説明する。

＜機能構成の例＞
図２は、通知制御装置２０００の機能構成を例示する図である。通知制御装置２０００は、判定部２０２０及び通知部２０４０を有する。判定部２０２０は、人物グループ４０についてセンサデータを取得し、当該センサデータを解析して、人物グループ４０の状態が好適状態であるか否かを判定する。通知部２０４０は、人物グループ４０の状態が好適状態である場合に所定の通知を行う。なお、人物グループ４０は、互いに所定距離 L1 以内で会話をしていることが検出された複数の人物１０である。

＜ハードウエア構成の例＞
通知制御装置２０００の各機能構成部は、各機能構成部を実現するハードウエア（例：ハードワイヤードされた電子回路など）で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ（例：電子回路とそれを制御するプログラムの組み合わせなど）で実現されてもよい。以下、通知制御装置２０００の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。

図３は、通知制御装置２０００を実現するコンピュータ５００のハードウエア構成を例示するブロック図である。コンピュータ５００は、任意のコンピュータである。例えばコンピュータ５００は、PC（Personal Computer）やサーバマシンなどといった、据え置き型のコンピュータである。その他にも例えば、コンピュータ５００は、スマートフォンやタブレット端末などといった可搬型のコンピュータである。その他にも例えば、コンピュータ５００は、後述する移動型ロボットに内蔵されているコントローラ（後述するコントローラ６００）であってもよい。この場合、通知制御装置２０００が移動型ロボットとして実現されることとなる（すなわち、移動型ロボットが通知制御装置２０００としての機能も兼ね備えることとなる）。コンピュータ５００は、通知制御装置２０００を実現するために設計された専用のコンピュータであってもよいし、汎用のコンピュータであってもよい。

例えば、コンピュータ５００に対して所定のアプリケーションをインストールすることにより、コンピュータ５００で、通知制御装置２０００の各機能が実現される。上記アプリケーションは、通知制御装置２０００の機能構成部を実現するためのプログラムで構成される。

コンピュータ５００は、バス５０２、プロセッサ５０４、メモリ５０６、ストレージデバイス５０８、入出力インタフェース５１０、及びネットワークインタフェース５１２を有する。バス５０２は、プロセッサ５０４、メモリ５０６、ストレージデバイス５０８、入出力インタフェース５１０、及びネットワークインタフェース５１２が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ５０４などを互いに接続する方法は、バス接続に限定されない。

プロセッサ５０４は、CPU（Central Processing Unit）、GPU（Graphics Processing Unit）、又は FPGA（Field－Programmable Gate Array）などの種々のプロセッサである。メモリ５０６は、RAM（Random Access Memory）などを用いて実現される主記憶装置である。ストレージデバイス５０８は、ハードディスク、SSD（Solid State Drive）、メモリカード、又は ROM（Read Only Memory）などを用いて実現される補助記憶装置である。

入出力インタフェース５１０は、コンピュータ５００と入出力デバイスとを接続するためのインタフェースである。例えば入出力インタフェース５１０には、キーボードなどの入力装置や、ディスプレイ装置などの出力装置が接続される。

ネットワークインタフェース５１２は、コンピュータ５００を無線ネットワークに接続するためのインタフェースである。このネットワークは、LAN（Local Area Network）であってもよいし、WAN（Wide Area Network）であってもよい。例えばコンピュータ５００は、ネットワークインタフェース５１２及び無線ネットワークを介して、移動型ロボットと通信可能に接続されている。

ストレージデバイス５０８は、通知制御装置２０００の各機能構成部を実現するプログラム（前述したアプリケーションを実現するプログラム）を記憶している。プロセッサ５０４は、このプログラムをメモリ５０６に読み出して実行することで、通知制御装置２０００の各機能構成部を実現する。

また、ストレージデバイス５０８には、会話情報６０が格納されてもよい。この場合、記憶装置５０は、ストレージデバイス５０８によって実現される。ただし、記憶装置５０は、ストレージデバイス５０８以外の記憶装置（例えば、コンピュータ５００の外部にもうけられている記憶装置）で実現されてもよい。

通知制御装置２０００は、１つのコンピュータ５００で実現されてもよいし、複数のコンピュータ５００で実現されてもよい。後者の場合において、各コンピュータ５００の構成は同一である必要はなく、それぞれ異なるものとすることができる。

また、１つの監視領域に対して複数の通知制御装置２０００が設けられてもよい。例えば、１つの監視領域に複数の移動型ロボットを導入し、各移動型ロボットが通知制御装置２０００として動作するようにする。

＜移動型ロボットのハードウエア構成の例＞
図４は、移動型ロボットのハードウエア構成を例示するブロック図である。移動型ロボット２０は、カメラ２２、マイクロフォン２４、アクチュエータ２６、移動手段２７、及びコントローラ６００を有する。移動型ロボット２０は、アクチュエータ２６の出力に応じて移動手段２７が動作することによって移動する。例えば移動手段２７は、車輪などのような、走行を実現する手段である。この場合、移動型ロボット２０は、監視領域内を走行して移動する。その他にも例えば、移動手段２７は、プロペラのように、飛行を実現する手段でもよい。この場合、移動型ロボット２０は、監視領域内を飛行して移動する。アクチュエータ２６の出力は、コントローラ６００によって制御される。アクチュエータ２６の出力は、コントローラ６００によって制御される。

コントローラ６００は任意のコンピュータであり、例えば SoC（System on a Chip）や SiP（System in a Package）などの集積回路で実現される。その他にも例えば、コントローラ６００は、スマートフォンなどの携帯端末で実現されてもよい。コントローラ６００は、バス６０２、プロセッサ６０４、メモリ６０６、ストレージデバイス６０８、入出力インタフェース６１０、及びネットワークインタフェース６１２を有する。バス６０２、プロセッサ６０４、メモリ６０６、ストレージデバイス６０８、入出力インタフェース６１０、及びネットワークインタフェース６１２はそれぞれ、バス５０２、プロセッサ５０４、メモリ５０６、ストレージデバイス５０８、入出力インタフェース５１０、及びネットワークインタフェース５１２と同様の機能を有する。

＜処理の流れ＞
図５は、実施形態１の通知制御装置２０００によって実行される処理の流れを例示するフローチャートである。判定部２０２０はセンサデータを取得する（Ｓ１０２）。判定部２０２０は、取得したセンサデータを利用して、人物グループ４０が好適状態であるか否かを判定する（Ｓ１０４）。人物グループ４０が好適状態でない場合（Ｓ１０４：ＮＯ）、判定部２０２０は、再度Ｓ１０２及びＳ１０４を実行する。すなわち、判定部２０２０は、新たなセンサデータを取得し、そのセンサデータを利用して、人物グループ４０が好適状態であるか否かを再度判定する。

人物グループ４０が好適状態であると判定された場合（Ｓ１０２：ＹＥＳ）、通知部２０４０は、所定の通知を出力する（Ｓ１０４）。

なお、通知の出力に移動型ロボット２０を利用する場合において、人物グループ４０が好適状態でないと判定されたら（Ｓ１０２：ＮＯ）、通知制御装置２０００は、移動型ロボット２０を人物グループ４０に近づくように移動させてもよい。こうすることで、人物グループ４０が好適状態となった後、速やかに通知を出力できるようになる。

また、図５では、人物グループ４０が好適状態となるまで、Ｓ１０２が繰り返し実行される。しかしながら、当該繰り返しに終了条件を設け、この終了条件が満たされた場合、図５の処理を終了するようにしてもよい。例えば終了条件は、「人物グループ４０において、人物１０の間の距離が所定距離 L1 より大きくなる」という条件や、「Ｓ１０２を最初に実行してから所定時間が経過した」という条件などである。

＜人物グループ４０の検出＞
人物グループ４０が好適状態であるか否かを判定する前提として、人物グループ４０（すなわち、互いに所定距離 L1 以内の位置で会話をしている複数の人物１０）の検出が行われる。以下、人物グループ４０を検出する装置を、会話監視装置と呼ぶ。なお、会話監視装置は、通知制御装置２０００であってもよいし、通知制御装置２０００以外であってもよい。前者の場合、通知制御装置２０００が会話監視装置としての機能を兼ね備えることを意味する。

まず、会話監視装置は、互いに所定距離 L1 以内の位置にいる複数の人物１０を検出する。当該検出は、これらの人物１０が含まれるビデオデータを利用して行われる。当該ビデオデータは、監視領域内を撮像するように設けられているカメラによって生成される。当該カメラは、特定の位置に固定で設けられているカメラ（例えば、天井や壁に設けられている監視カメラ）であってもよいし、移動型ロボットに設けられているカメラであってもよい。

会話監視装置は、ビデオデータから複数の人物１０を検出し、これらの人物１０同士の距離が所定距離 L1 以下であることを特定することにより、互いに所定距離 L1 以内の位置にいる複数の人物１０を検出する。ここで、人物１０同士の距離が所定距離 L1 以下であることを特定する方法は様々である。例えば、会話監視装置は、ビデオデータを解析し、当該ビデオデータから複数の人物１０を検出する。複数の人物１０が検出されたら、会話監視装置は、プロジェクタを制御して、特定の距離を表す画像（以下、距離画像）を地面に投射させる。ここで、距離画像は、検出した複数の人物１０と距離画像の双方をカメラの撮像範囲に含めることができる位置に投射される。距離画像が表す距離は、例えば、前述した所定距離 L1 である。なお、プロジェクタは、移動型ロボットに搭載されていてもよいし、その他の場所（例えば天井）に設置されていてもよい。

会話監視装置は、ビデオデータから複数の人物１０と距離画像を検出し、人物１０同士の距離を距離画像のサイズ（すなわち、画像上の所定距離 L1）と比較する。人物１０同士の距離が距離画像のサイズより小さい場合、会話監視装置は、これらの人物１０を、互いに所定距離 L1 以内に位置する複数の人物１０として検出する。

なお、人物１０同士の距離が所定距離 L1 以下であることを特定する方法は、上述の方法に限定されず、その他の既存の技術を利用してもよい。

会話監視装置は、このようにして検出された、互いに所定距離 L1 以内に位置する複数の人物１０について、会話が行われているか否かの判定（以下、会話判定）を行う。以下、会話判定の対象である複数の人物１０を、候補グループと呼ぶ。例えば会話監視装置は、候補グループが検出されたビデオデータを利用して、会話判定を行う。そして、会話が行われていると判定された候補グループが、人物グループ４０として検出される。以下、会話判定の方法について具体的に例示する。

＜＜口の動きに基づく判定＞＞
例えば会話監視装置は、ビデオデータを利用して、候補グループに含まれる各人物１０が口を動かしているか否かを判定することで、会話の有無を判定する。例えば会話監視装置は、候補グループのうち、誰か一人でも口を動かしていたら、候補グループに含まれる人物１０全員で会話をしていると判定する（すなわち、候補グループを人物グループ４０として検出する）。また、候補グループに含まれる人物１０が誰も口を動かしていなかったら、会話監視装置は、候補グループにおいて会話が行われていないと判定する（すなわち、候補グループを人物グループ４０として検出しない）。

会話監視装置は、候補グループに含まれる人物１０のうち、口を動かしている人物１０のみによって会話が行われていると判定してもよい。この場合、会話監視装置は、口を動かしていないと判定された人物１０を除外した候補グループを、人物グループ４０として検出する。すなわち、会話監視装置は、ビデオデータから、口を動かしている人物１０が二人以上検出されたら、これら口を動かしている複数の人物１０を人物グループ４０として検出する。一方、会話監視装置は、ビデオデータから、口を動かしている人物１０が検出されないか、又は、口を動かしている人物１０が一人だけ検出された場合には、候補グループを人物グループ４０として検出しない。

例えば会話監視装置は、人物の口やその周辺を表す画像領域の時系列データから、その人物について、口を動かしている確率を算出するように構成される。そして、会話監視装置は、口を動かしている確率が閾値以上となった人物１０を、口を動かしている人物１０として扱う。一方、口を動かしている確率が閾値未満となった人物１０を、口を動かしていない人物１０として扱う。

＜＜顔又は視線の向きに基づく判定＞＞
例えば会話監視装置は、ビデオデータを利用して、候補グループに含まれる各人物１０の顔又は視線の向きを特定し、これらの情報に基づいて会話の有無を判定する。以下、顔の向きを利用するケースについて、より具体的に説明する。視線の向きを利用するケースについての説明は、特に説明しない限り、以下の説明において「顔」を「視線」に置き換えたものとなる。

例えば会話監視装置は、各人物１０の顔が他のいずれかの人物１０の方を向いている場合に、候補グループに含まれる人物１０全員で会話をしていると判定する（すなわち、候補グループを人物グループ４０として検出する）。また、候補グループに含まれる人物１０のいずれもが、他の人物１０の方を向いていない場合、会話監視装置は、候補グループにおいて会話が行われていないと判定する（すなわち、候補グループを人物グループ４０として検出しない）。

会話監視装置は、他の人物１０の方へ顔が向いている人物１０のみによって会話が行われていると判定してもよい。この場合、会話監視装置は、他の人物１０の方へ顔が向いていないと判定された人物１０を、候補グループから除外する。すなわち、会話監視装置は、ビデオデータから、他の人物１０の方へ顔が向いている人物１０が二人以上検出されたら、これら複数の人物１０を人物グループ４０として検出する。一方、ビデオデータから他の１０の方へ顔が向いている人物が検出されないか、又は、他の人物１０の方へ向いている人物１０が一人だけ検出された場合、会話監視装置は、候補グループを人物グループ４０として検出しない。

例えば会話監視装置は、人物の顔を表す画像領域の時系列データから、その人物について、複数の向き（例えば、所定の４方向や８方向など）それぞれについて、顔がその向きを向いている確率を算出するように構成される。会話監視装置は、算出した確率が最も高い方向を、その人物の顔の向きとして特定する。

＜＜学習済みモデルを利用する方法＞＞
会話監視装置は、候補グループに含まれる各人物１０の顔が含まれるビデオデータが入力されたことに応じて、候補グループにおいて会話が行われているか否かを識別する学習済みモデルを有していてもよい。当該モデルは、例えば、候補グループに含まれる各人物１０の顔が含まれるビデオデータが入力されたことに応じて、候補グループにおいて会話が行われている確率を出力する。このようなモデルは、例えば、リカレントニューラルネットワーク（RNN: Recurrent neural network）などで実現することができる。会話監視装置は、当該モデルから出力された確率が閾値以上である場合、候補グループを人物グループ４０として検出する。一方、当該モデルから出力された確率が閾値未満である場合、会話監視装置は、候補グループを人物グループ４０として検出しない。

なお、上記モデルは、「ビデオデータ、正解の確率（会話が行われている場合には１、会話が行われていない場合には０）」という組み合わせで構成される学習データを用いて、予め学習しておく。ここで、入力データと正解のラベルの組み合わせで構成される学習データを用いてモデルを学習する技術には、既存の技術を利用することができる。

＜移動型ロボット２０を利用した会話判定＞
候補グループが、固定カメラによって生成されるビデオデータから検出されたとする。この場合において、候補グループについての会話判定は、当該ビデオデータではなく、移動型ロボット２０に設けられているカメラによって生成されるビデオデータや、移動型ロボット２０に設けられているマイクロフォンによって生成される音声データを利用して行われてもよい。

例えば会話監視装置は、まず、固定カメラから得られるビデオデータを利用して、候補グループについて、１）会話が行われている、２）会話が行われていない、及び３）会話の有無を判別できないという３つのうちのいずれの状況であるかを判定する。例えば会話判定装置は、上記ビデオデータを解析することで、会話が行われている確率と、会話が行われていない確率の双方を算出する。そして、会話監視装置は、１）会話をしている確率が閾値以上であれば、会話が行われていると判定し、２）会話をしていない確率が閾値以上であれば、会話をしていないと判定し、３）会話をしている確率と会話をしていない確率のいずれもが閾値未満であれば、会話の有無を判別できないと判定する。会話の有無を判別できない具体的な状況としては、固定カメラから得られたビデオデータに人物１０の顔が含まれていない（例えば、人物１０が固定カメラに背を向けている）ため、人物１０の顔の動きや顔の向きなどが分からないといった状況が考えられる。

候補グループが検出されたビデオデータを利用しても会話の有無を判別できない場合、例えば会話監視装置は、移動型ロボット２０の移動を制御して、移動型ロボット２０に設けられているカメラ２２やマイクロフォン２４から、複数の人物１０が会話をしているか否かを判別できるデータを得られるようにする。ビデオデータを利用する場合、例えば会話監視装置は、移動型ロボット２０を、候補グループに含まれる人物１０それぞれの顔を撮像可能な位置へ移動させる。また、音声データを利用する場合、例えば会話監視装置は、移動型ロボット２０を、候補グループからの距離が所定距離 L2 以下である場所まで移動させる。人物１０からの距離が遠いところでは、会話が行われていても、会話の音声が音声データに含まれない可能性があるためである。

ビデオデータを利用して会話の有無を判定する方法については、前述した通りである。以下、音声データを利用して会話の有無を判定する方法について説明する。

音声データを利用する場合、会話監視装置は、音声データに含まれる音声の大きさと、候補グループまでの距離との関係に基づいて、当該候補グループについての会話判定を行う。ここで、候補グループにおいて会話が行われていたとしても、移動型ロボット２０の位置が候補グループから遠いと、マイクロフォン２４で会話の音声を検出することが難しい。そこで会話監視装置は、移動型ロボット２０を、候補グループからの距離が所定距離 L2 以下の位置まで移動させる。この所定距離 L2 は、候補グループによって会話が行われている場合に、マイクロフォン２４でその会話の音声を検出することが可能な距離として、予め設定される。

会話監視装置は、候補グループからの距離が所定距離 L2 以下である位置に移動した移動型ロボット２０のマイクロフォン２４から音声データを取得し、その音声データによって表される音声の大きさが閾値以上であるか否かを判定する。音声データによって表される音声の大きさが閾値以上である場合、会話監視装置は、候補グループにおいて会話が行われていると判定する（すなわち、候補グループを人物グループ４０として検出する）。一方、音声データによって表される音声の大きさが閾値未満である場合、会話監視装置は、候補グループによって会話が行われていないと判定する（すなわち、候補グループを人物グループ４０として検出しない）。

なお、上記閾値は、固定の値であってもよいし、移動型ロボット２０から候補グループまでの距離に応じて動的に設定されてもよい。後者の場合、例えば、距離と閾値との関係を定めた関数を予め定めておく。会話監視装置は、マイクロフォン２４から音声データを得た時点について、移動型ロボット２０から候補グループまでの距離を特定し、上記関数にその距離を入力することで閾値を特定し、音声データによって表される音声の大きさと特定した閾値とを比較する。

また、会話監視装置は、音声データを解析して、人の声が含まれているか否かを判定してもよい。この場合、会話監視装置は、音声データによって表される音声の大きさが閾値以上であり、なおかつ、当該音声に人の声が含まれる場合に、候補グループにおいて会話が行われていると判定する。一方、当該音声の大きさが閾値未満であるか、又は、当該音声に人の声が含まれていない場合に、候補グループにおいて会話が行われていないと判定する。こうすることで、例えば、人の声以外の音が発生している状況を、候補グループにおいて会話が行われている状況として誤検出してしまうことを防ぐことができる。

なお、会話監視装置は、音声データに声が含まれる人の数を考慮してもよい。例えば会話監視装置は、音声データによって表される音声の大きさが閾値以上であり、なおかつ、当該音声に複数の人物の声が含まれる場合に、候補グループにおいて会話が行われていると判定する。一方、当該音声の大きさが閾値未満であるか、又は、当該音声に声が含まれる人の声が一人以下である場合に、候補グループにおいて会話が行われていないと判定する。こうすることで、例えば、一人の人物が独り言を言っている状況を、候補グループにおいて会話が行われている状況として誤検出してしまうことを防ぐことができる。

また、会話監視装置は、音声データに人の声が含まれているか否かの判定結果の確度や、音声データに声が含まれるに人の数についての算出結果の確度が低い場合に、会話の有無を判別できないと判定してもよい。例えば、音声データに人の声が含まれている確率と、人の声が含まれていない確率のいずれもが、所定の閾値未満である場合に、会話の有無を判別できないと判定される。

さらに、会話監視装置は、音声データが入力されたことに応じて、当該音声データに会話をしている複数の人物１０の音声が含まれているか否かを識別する学習済みモデルを有していてもよい。当該モデルは、例えば、音声データが入力されたことに応じて、会話が行われている確率を出力する。このようなモデルは、例えば、リカレントニューラルネットワーク（RNN: Recurrent neural network）などで実現することができる。

例えば会話監視装置は、上記モデルから出力された確率が閾値以上である場合に、候補グループにおいて会話が行われていると判定する。一方、上記モデルから出力された確率が閾値未満である場合、会話監視装置は、候補グループにおいて会話が行われていないと判定する。

なお、上記モデルは、「音声データ、正解の確率（会話が行われている場合には１、会話が行われていない場合には０）」という組み合わせで構成される学習データを用いて、予め学習しておく。

＜会話時間の考慮＞
会話監視装置は、候補グループにおける会話時間が閾値以上である場合のみ、当該候補グループを人物グループ４０として検出するようにしてもよい。すなわち、この場合、「互いに所定距離 L1 以内に位置しており、なおかつ、所定時間以上会話をしている複数の人物１０」が、人物グループ４０として検出される。

例えば会話監視装置は、ビデオデータや音声データを用いて、候補グループにおいて会話が行われているか否かを繰り返し判定する。ビデオデータを利用する場合、例えば会話監視装置は、当該ビデオデータをビデオフレーム列に分割し、各ビデオフレーム列について、候補グループにおいて会話が行われているか否かを判定する。同様に、音声データを利用する場合、例えば会話監視装置は、当該音声データを音声フレーム列に分割し、各音声フレーム列について、候補グループにおいて会話が行われているか否かを判定する。そして、会話監視装置は、候補グループにおいて会話が行われている状態が継続している時間（候補グループにおいて会話が行われていると判定されるビデオフレーム列や音声フレーム列が連続する時間）を会話時間として算出し、当該会話時間が閾値以上である場合に、当該候補グループを人物グループ４０として検出する。ただし、会話監視装置は、会話が短い時間中断されても、会話が継続しているものとして扱ってもよい。

＜好適状態であるか否の判定：Ｓ１０２＞
判定部２０２０は、人物グループ４０が好適状態であるか否かを判定する。以下、好適状態の具体例と、その好適状態についての判定を行う具体的な方法について説明する。

＜＜好適状態の例１：会話の中断＞＞
複数の人物が会話を行っている際、一時的に会話が中断することがある。これらの人物に通知を行う場合、会話の最中に通知を行うよりも、会話が中断している時に通知を行う方が好適であると考えられる。

そこで判定部２０２０は、センサデータを利用して、人物グループ４０において会話が中断しているか否かを判定する。例えば判定部２０２０は、人物グループ４０が会話をしていない状態が所定時間以上継続した場合に、人物グループ４０において会話が中断していると判定する。この場合、判定部２０２０は、カメラやマイクロフォンによって生成されるセンサデータのうち、直近所定時間についての検出結果を表すセンサデータを取得することが好ましい。

例えば判定部２０２０は、取得したビデオデータを複数のビデオフレーム列に分割し、各ビデオフレーム列について、会話をしている状態の人物グループ４０を表しているか否かの判定（前述した会話判定）を行う。例えば判定部２０２０は、直近所定時間についての複数のビデオフレーム列のいずれもが、会話をしてない状態の人物グループ４０を表している場合、直近所定時間、人物グループ４０において会話が中断されていると判定する（すなわち、人物グループ４０が好適状態であると判定する）。一方、直近所定時間についての複数のビデオフレーム列の中に、会話をしている状態の人物グループ４０を表すビデオフレーム列が存在する場合、判定部２０２０は、人物グループ４０において会話が中断されていないと判定する（すなわち、人物グループ４０が好適状態でないと判定する）。

また、判定部２０２０は、ビデオデータから得られるビデオフレーム列のうち、所定の比率以上のビデオフレーム列それぞれによって、会話をしていない人物グループ４０が表されていたら、人物グループ４０において会話が中断されていると判定してもよい。一方、会話をしていない人物グループ４０を表すビデオフレーム列の比率が所定の比率未満であれば、判定部２０２０は、人物グループ４０において会話が中断されていないと判定する。

音声データを利用する場合についても、ビデオデータを利用する場合と同様である。すなわち、判定部２０２０は、取得した音声データを音声フレーム列に分割し、各音声フレームそれぞれについて、会話をしている状態の人物グループ４０を表しているか否かの判定を行う。例えば判定部２０２０は、直近所定時間についての複数の音声フレーム列のいずれもが、会話をしてない状態の人物グループ４０を表している場合、人物グループ４０において会話が中断されていると判定する。一方、直近所定時間についての複数の音声フレーム列の中に、会話をしている状態の人物グループ４０を表す音声フレーム列が存在する場合、判定部２０２０は、人物グループ４０において会話が中断されていないと判定する。

また、判定部２０２０は、音声データから得られる音声フレーム列のうち、所定の比率以上の音声フレーム列それぞれによって、会話をしていない人物グループ４０が表されていたら、人物グループ４０において会話が中断されていると判定してもよい。一方、会話をしていない人物グループ４０を表す音声フレーム列の比率が所定の比率未満であれば、判定部２０２０は、人物グループ４０において会話が中断されていないと判定する。

会話が中断されているか否かは、学習済みモデルを利用して判定されてもよい。ビデオデータを利用する場合、ビデオデータが入力されたことに応じて、会話が中断されている確率を出力するモデルを予め用意しておく。判定部２０２０は、取得したビデオデータをモデルに入力することで、当該モデルから、会話が中断されている確率を得る。そして判定部２０２０は、会話が中断されている確率が閾値以上であれば会話が中断されていると判定し、当該確率が閾値未満であれば会話が中断されていないと判定する。

上記モデルは、「ビデオデータ、正解の確率（会話が中断されている場合には１、会話が中断されていない場合には０）」というペアで構成される学習データを利用して、学習することができる。

音声データを利用するモデルについても同様である。すなわち、当該モデルは、音声データが入力されたことに応じて、会話が中断されている確率を出力するように構成される。このようなモデルの学習は、「音声データ、正解の確率（会話が中断されている場合には１、会話が中断されていない場合には０）」というペアで構成される学習データを利用して実現できる。

＜＜好適状態の例２：会話の重要さ＞＞
会話の中には、重要なものとそうでないものがある。そして、人物グループ４０からすれば、重要な会話をしているときよりも、重要でない会話をしているときに通知が行われる方が好ましいと考えられる。

そこで判定部２０２０は、センサデータを利用して、人物グループ４０によって行われている会話が重要なものであるか否かを判定する。会話が重要なものでない場合、判定部２０２０は、人物グループ４０が好適状態であると判定する。一方、会話が重要なものである場合、判定部２０２０は、人物グループ４０が好適状態でないと判定する。

会話が含まれる音声データを利用して、当該会話が重要なものであるか否かを判定する方法には、様々な方法を利用できる。例えば、重要な会話の中に現れる単語やフレーズである重要語句の集合（以下、重要語句情報）を予め定めておき、判定部２０２０からアクセス可能な記憶装置に予め格納しておく。判定部２０２０は、音声データと重要語句情報を利用して、音声データによって表される会話から重要語句の検出を行う。

例えば重要語句の検出は、音声データを文字列データ（文章）に変換し、当該文字列データから、重要語句を表す文字列データを検出することで行われる。この場合、重要語句情報において、重要語句は文字列データで表される。その他にも例えば、音声データから、重要語句に対応する音声特徴量を検出することにより、重要語句の検出を行ってもよい。この場合、重要語句情報において、重要語句は音声特徴量で表される。

例えば判定部２０２０は、会話に重要語句が含まれていたら、会話は重要なものであると判定する（すなわち、人物グループ４０が好適状態でないと判定する）。一方、会話の中に重要語句が含まれていない場合、判定部２０２０は、会話は重要なものでないと判定する（すなわち、人物グループ４０が好適状態であると判定する）。

会話の重要さは、重要であるか否かの２値ではなく、重要度で表されてもよい。この場合、判定部２０２０は、音声データを解析することで、会話の重要度を特定する。そして、判定部２０２０は、会話の重要度が閾値以上である場合に会話が重要なものであると判定し、当該重要度が閾値未満である場合に会話が重要なものでないと判定する。

会話の重要度は、例えば、会話の中に重要語句が含まれる度合いで表すことができる。具体的には、判定部２０２０は、音声データによって表される会話に含まれる単語の総数に対する、当該会話に含まれる重要語句の数の比率を算出し、当該比率を会話の重要度として扱う。なお、音声データによって表される会話に含まれる単語の数をカウントする技術には、既存の技術を利用することができる。

また、重要語句情報において各重要語句に重みを付与しておき、当該重みを考慮して、会話の重要度を算出してもよい。この際、重要語句以外の語句には、重要語句よりも小さいデフォルトの重みを定めておく。例えば、重要語句の重みはいずれも１より大きい値とし、重要語句以外の語句の重みを１とする。判定部２０２０は、会話に含まれる単語の重みの総和に対する、会話に含まれる重要語句の重みの総和の比率を、会話の重要度として算出する。

会話が重要であるか否かは、学習済みモデルを利用して判定されてもよい。当該モデルは、音声データが入力されたことに応じて、当該音声データによって表される会話の重要度を出力するように構成されている。判定部２０２０は、取得した音声データをモデルに入力することで、当該モデルから、音声データによって表される会話の重要度を得る。そして判定部２０２０は、会話の重要度が閾値以上であれば会話が重要であると判定し、当該重要度が閾値未満でれば会話が重要でないと判定する。

上記モデルは、「音声データ、正解の重要度」というペアで構成される学習データを利用して、学習することができる。例えば重要度は、最小値を１とし、最大値を１０とする１０段階のレベルで表すことができる。

会話が重要なものであるか否かは、ビデオデータを利用して判定されてもよい。例えば会話が重要なものであるか否かは、人物グループ４０に含まれる各人物１０の表情に基づいて判定することができる。人物グループ４０で重要な会話が行われている場合、各人物１０の表情は真剣なものである確率が高い一方、人物グループ４０で重要でない会話が行われている場合、各人物１０の表情は真剣でないものである（例えば全員が笑いながら会話をしている）確率が高いと考えられる。

そこで例えば、真剣な顔の画像上の特徴量や、真剣でない顔（例えば笑顔）の画像上の特徴量を予め定めておく。判定部２０２０は、これらの特徴量を利用してビデオデータを解析することで、人物グループ４０に含まれる各人物１０について、表情の真剣さの度合いを表す指標値を算出する。そして、判定部２０２０は、算出された指標値が閾値以上である場合に、会話が重要なものである（すなわち、人物グループ４０が好適状態でない）と判定し、算出された指標値が閾値未満である場合に、会話が重要なものでない（すなわち、人物グループ４０が好適状態である）と判定する。

また、ビデオデータが入力されたことに応じて、当該ビデオデータに含まれている複数の人物によって行われている会話の重要度を出力する学習済みモデルを利用してもよい。この場合、判定部２０２０は、ビデオデータを当該モデルに入力することで、当該モデルから、会話の重要度を取得する。当該モデルの学習は、「ビデオデータ、正解の重要度」というペアで構成される学習データを利用して実現できる。

＜通知の実行：Ｓ１０４＞
人物グループ４０が好適状態である場合（Ｓ１０２：ＹＥＳ）、通知部２０４０は所定通知を実行する（Ｓ１０４）。所定通知には、様々なものを採用できる。

例えば所定通知は、人物グループ４０に対する警告を表す通知（以下、警告通知）である。例えば警告通知は、移動型ロボット２０を利用して行われる。具体的には、警告通知は、移動型ロボット２０に設けられているディスプレイ装置に表示される警告画面や、移動型ロボット２０に設けられているプロジェクタから照射される警告画像などである。その他にも例えば、警告通知は、移動型ロボット２０に設けられているスピーカーから出力される音声であってもよい。なお、人物グループ４０のみに通知を出力したい場合、移動型ロボット２０に指向性スピーカーを設けておき、当該指向性スピーカーの出力方向を人物グループ４０の方へ向けた上で、通知を出力することが好適である。

警告画面等の警告通知に含める情報は任意である。例えば警告通知には、会話をやめるように促すメッセージが含まれる。その他にも例えば、警告通知には、感染症対策のために保つべき、人と人との間の距離（いわゆるソーシャルディスタンスやフィジカルディスタンス）を把握可能な情報が含まれる。例えば前述したように、プロジェクタから警告画像を地面に投射するとする。この場合、警告画像に、推奨される人と人との間の距離を表す画像（例えば、直径が当該距離と同じ値である円の画像）が含まれるようにする。特に、このような警告画像を人物グループ４０の足下に投射することで、人物グループ４０に含まれる各人物１０は、互いの間の距離をどの程度の長さ以上にすべきかを、視覚的に容易に把握することができる。

ここで、移動型ロボット２０は、人物グループ４０に対してある程度近づいた上で所定通知を出力するようにしてもよい。例えば通知制御装置２０００は、人物グループ４０からの距離が所定の閾値以下である位置まで移動型ロボット２０を移動させ、その後に所定通知が移動型ロボット２０から出力されるようにしてもよい。なお、移動型ロボット２０を所望の位置まで移動させる技術には、既存の技術を利用することができる。

その他にも例えば、通知部２０４０は、人物グループ４０に含まれる各人物１０に対して、警告通知を送信してもよい。この場合、監視領域内に滞在しうる各人物１０の識別情報（例えば、各従業員の画像上の特徴量や声の音声特徴量など）と、当該人物１０に対する通知の送信先（例えば、メールアドレスなど）とを対応づけた情報を、通知部２０４０からアクセス可能な記憶装置に予め格納しておく。通知部２０４０は、警告対象の人物グループ４０に含まれる各人物１０の識別情報を特定し、当該識別情報に対応する送信先へ、前述した通知を送信する。

また、通知部２０４０は、人物グループ４０の状態に応じて多段階に警告通知を出力してもよい。この場合、複数の警告レベルそれぞれに対し、それぞれ異なる警告通知を対応づけた情報を、予め通知部２０４０からアクセス可能な記憶装置に格納しておく。例えば、より高い警告レベルには、より目立つ（警告の効果が大きい）警告通知が対応づけられる。

例えば警告レベルは、人物グループ４０が会話をしている時間（以下、会話時間）の長さや、人物グループ４０が行っている会話の重要度に応じて決定される。例えば、会話時間が長いほど、警告レベルが高くなるようにする。また、人物グループ４０が行っている会話の重要度が高いほど、警告レベルが低くなるようにする。

会話時間の長さを利用する場合、会話監視装置は、人物グループ４０が好適状態であると判定された後も、人物グループ４０が会話をしているか否かを繰り返し判定し続けることで、人物グループ４０の会話時間を計測する。通知部２０４０は、会話時間の増加に応じて、多段階に警告通知を行う。

例えば、会話時間の閾値として、P1、P2、及び P3（P1<P2<P3）の３つが設けられているとする。通知部２０４０は、会話時間が P1 以上となった場合に、「人物グループ４０から所定の距離以内の位置まで移動する」という第１レベルの警告処理を行う。次に、通知部２０４０は、会話時間が P2 以上となった場合に、「警告画面をディスプレイ装置に表示する、又は警告画像を地面に投射する」という第２レベルの警告処理を行う。そして、通知部２０４０は、会話時間が P3 以上となった場合に、「警告の音声をスピーカーから出力する」という第３レベルの警告処理を行う。

このように会話の合計時間に応じた多段階の警告を行うことで、会話の合計時間が短いうちは控えめな警告を行い、会話の合計時間が長くなるにつれてより目立つ警告を行う、といった運用が可能となる。これにより、警告の効果の大きさと、警告が人の活動の妨げになる度合いとのバランスを取ることができる。すなわち、会話の合計時間が短いうちは、会話を止めさせる効果が小さくてもよいから、できる限り会話の妨げにならないように配慮した警告を行い、会話の合計時間が長くなったら、ある程度会話の妨げになってもよいから、会話を止めさせる効果が大きい警告を行う、といった運用が可能となる。

なお、会話の合計時間に応じて多段階に警告を行う際、会話の合計時間が閾値（例えば前述した P1 など）以上となったタイミングで、人物グループ４０が好適状態でなくなっている可能性がある。そこで例えば、通知部２０４０は、再度人物グループ４０が好適状態になるまで、警告通知を行わないようにしてもよい。すなわち、会話の合計時間が閾値以上となったタイミングで、判定部２０２０が再度、人物グループ４０が好適状態であるか否かの判定を行う。そして、通知部２０４０は、人物グループ４０が好適状態であると判定された後に、警告通知を行う。

通知部２０４０は、会話の重要度に応じて通知を異ならせてもよい。例えば、判定部２０２０によって算出される会話の重要度が、１～１０の１０段階で表されるとする。ここで、重要度の値が小さいほど、重要度が低いとする。そしてこの場合に、人物グループ４０において行われている会話の重要度が４以下である状況を、人物グループ４０が好適状態である状況として扱うとする。

この場合、好適状態であると判定される人物グループ４０の会話の重要度は、１から４のいずれかとなる。そこで例えば、好適状態であると判定される会話の重要度に対応して、４段階の警告レベルを設けておく。ここで、会話の重要度が低いほど、高いレベルの警告を行うことが好ましい。そこで、人物グループ４０の会話の重要度が１である場合、通知部２０４０は、最も高い警告レベルの警告を出力する。一方、人物グループ４０の会話の重要度が４である場合、通知部２０４０は、最も低い警告レベルの警告を出力する。

このように会話の重要度に応じた多段階の警告を行うことで、会話の重要度が高い場合には控えめな警告を行い、会話の重要度が低い場合には目立つ警告を行う、といった運用が可能となる。これにより、前述したように、警告の効果の大きさと、警告が人の活動の妨げになる度合いとのバランスを取ることができる。

＜移動型ロボット２０の制御について＞
前述したように、通知部２０４０は、移動型ロボット２０を候補グループや人物グループ４０に近づけるなど、移動型ロボット２０の制御を行ってもよい。移動型ロボット２０を特定の目的地へ移動させるためには、移動型ロボット２０が参照可能な地図データを用いて、当該目的地までの移動経路を設定する。ここで、地図データを用いて目的地への移動経路を算出し、算出した移動経路を移動型ロボット２０に設定する処理を行う装置を、経路設定装置と呼ぶ。経路設定装置は、移動型ロボット２０であってもよいし、通知制御装置２０００であってもよいし、これら以外の装置であってもよい。

経路設定装置は、監視領域の地図データを取得し、当該地図データと、前述した種々の方法で決定した目的地（移動型ロボット２０を移動させるべき位置）とに基づいて、移動型ロボット２０の移動経路を算出する。そして、経路設定装置は、算出した移動経路を移動型ロボット２０に設定する。移動型ロボット２０は、設定された移動経路に従って移動する。なお、経路設定装置が通知制御装置２０００以外の装置である場合、通知制御装置２０００は、経路設定装置に対し、移動型ロボット２０に設定すべき目的地を示す情報を提供する。

なお、地図データと目的地の情報とに基づいて移動経路を算出する技術には、既存の技術を利用することができる。

移動型ロボット２０は、監視領域にいる人の行動の妨げとならないように移動することが好ましい。例えば移動型ロボット２０は、移動型ロボット２０に設けられているカメラから得られるビデオデータを利用して、監視領域にいる各人物の動きを把握し、各人物と接触しないように移動する。なお、人との接触を避けて移動型ロボット２０を移動させる技術には、既存の技術（例えば、自動運転車を他の自動車や通行人などとぶつからないように移動させる技術など）を採用することができる。

その他にも例えば、移動型ロボット２０は、候補グループや人物グループ４０に含まれない人物の視界に移動型ロボット２０が入らないように移動することが好適である。そこで例えば、経路設定装置は、移動型ロボット２０に設けられているカメラから得られるビデオデータから、候補グループや人物グループ４０に含まれない人物１０が検出されたら、その人物１０の顔の方向又は視線方向を特定する。そして、経路設定装置は、特定した顔の方向又は視線方向と、移動型ロボット２０の目的地とに基づいて、人物１０の視界に入らずに当該目的地へ移動型ロボット２０が到達するための移動経路を算出し、当該移動経路を移動型ロボット２０に設定する。

ただし、人物１０の顔の方向や視線方向が繰り返し大きく変化する場合などには、人物１０の視界に入らないように移動型ロボット２０を移動させることが難しいこともありうる。そこで例えば、経路設定装置は、顔の方向や視線方向が大きく変化する蓋然性が低い人物（例えば、立ち止まっている人物や椅子に座っている人物）のみをビデオデータから検出し、検出された人物の視界に入らないように移動型ロボット２０の移動経路を設定してもよい。

移動型ロボット２０は、通知制御装置２０００による制御を受け付けるまでの間、停止していてもよいし、移動していてもよい。後者の場合、例えば移動型ロボット２０に対し、監視領域内の一部又は全部を巡回するように移動経路を設定しておく。特に、人物グループ４０の検出に移動型ロボット２０に設けられているカメラが利用される場合、監視領域内を移動型ロボット２０に巡回させることで、監視領域内の様々な場所で人物グループ４０を検出できるようにすることが好適である。以下、巡回用に移動型ロボット２０に設定されている移動経路のことを、巡回経路とも表記する。

巡回経路には、監視領域のうち、人の分布の密度が高い（すなわち、人が多い）領域が含まれることが好ましい。例えば、巡回経路には、監視領域のうち、人の分布の密度が高い領域のみが含まれるようにする。その他にも例えば、巡回経路は、人の分布の密度が高い領域を巡回する頻度が、人の密度が低い領域を巡回する頻度よりも高くなるように設定される。

また、監視領域の天井等に固定で設置されているカメラ（以下、固定カメラ）があり、このような固定カメラと移動型ロボット２０に設けられているカメラの双方を人物グループ４０の検出に利用する場合、移動型ロボット２０の巡回経路には、固定カメラの撮像範囲に含まれない領域（以下、撮像範囲外領域）が含まれることが好ましい。このようにすることで、固定カメラで撮像することが難しい領域を移動型ロボット２０に撮像させることができるため、監視領域内を幅広く監視することができるようになる。

巡回経路は、人手で設定されてもよいし、経路設定装置によって自動的に設定されてもよい。後者の場合、例えば経路設置装置は、固定カメラによって生成されるビデオデータを解析することで、当該固定カメラについて撮像範囲外領域を特定し、当該撮像範囲外領域を含む巡回経路を生成する。より具体的には、経路設定装置は、監視領域の地図データと固定カメラによって生成されるビデオデータとを用いて、固定カメラの撮像範囲内の領域を特定し、当該特定した領域以外の領域を、撮像範囲外領域として特定する。

例えば、撮像範囲外領域が、１つの閉じた領域であるとする。この場合、経路設定装置は、撮像範囲外領域の中を巡回するように、巡回経路を生成する。一方、撮像範囲外領域が、互いに繋がっていない複数の領域であるとする。この場合、例えば経路設定装置は、これら複数の撮像範囲外領域を順次巡回するように、巡回経路を生成する。なお、監視領域に移動型ロボット２０が複数設けられている場合、各移動型ロボット２０に対して、それぞれ異なる巡回経路が設定されてもよい。この場合、各巡回経路には、互いに異なる撮像範囲外領域が含まれるようにすることが好ましい。

以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

なお、上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに提供することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば、光磁気ディスク）、CD-ROM、CD-R、CD-R/W、半導体メモリ（例えば、マスク ROM、PROM（Programmable ROM）、EPROM（Erasable PROM）、フラッシュROM、RAM）を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに提供されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない
（付記１）
監視領域内において互いに所定距離以内で会話をしている複数の人物について、前記複数の人物が含まれるビデオデータ又は前記複数の人物の声が含まれる音声データを取得し、前記ビデオデータ又は前記音声データを解析することで、前記複数の人物の状態が、所定の通知を受けることに適した状態であるか否かを判定する判定部と、
前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定された場合に、前記所定の通知を出力する通知部と、を有する通知制御装置。
（付記２）
前記判定部は、
前記ビデオデータ又は前記音声データを用いて、前記複数の人物の会話が中断しているか否かを判定し、
前記複数の人物の会話が中断している場合に、前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定する、付記１に記載の通知制御装置。
（付記３）
前記判定部は、
前記ビデオデータ又は前記音声データを用いて、前記複数の人物の会話が重要なものであるか否かを判定し、
前記会話が重要なものでない場合に、前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定する、付記１に記載の通知制御装置。
（付記４）
前記判定部は、
前記複数の人物の会話に重要語句が含まれていない場合に、前記複数の人物の会話が重要でないと判定するか、又は、
前記複数の人物の会話における重要語句の比率が閾値未満である場合に、前記複数の人物の会話が重要でないと判定する、付記３に記載の通知制御装置。
（付記５）
前記所定の通知は移動型ロボットから出力され、
前記通知部は、前記複数の人物の状態が前記所定の通知を受けることに適していない状態であると判定された場合、前記移動型ロボットを前記複数の人物に近づくように移動させる、付記１から４いずれか一項に記載の通知制御装置。
（付記６）
前記通知部は、移動型ロボットに設けられている指向性スピーカーの出力方向を前記複数の人物の方向へ向け、前記指向性スピーカーから前記所定の通知を出力させる、付記１から５いずれか一項に記載の通知制御装置。
（付記７）
前記所定の通知には、感染症への感染を防ぐために人と人との間で確保すべき距離を把握可能な情報が含まれる、付記１から６いずれか一項に記載の通知制御装置。
（付記８）
前記判定部は、前記複数の人物によって行われている会話の時間を算出し、
前記通知部は、前記算出された時間の長さに応じた通知を出力する、付記１から７いずれか一項に記載の通知制御装置。
（付記９）
前記判定部は、前記複数の人物によって行われている会話の重要度を算出し、
前記通知部は、前記算出された重要度に応じた通知を出力する、付記１から７いずれか一項に記載の通知制御装置。
（付記１０）
コンピュータによって実行される通知制御方法であって、
監視領域内において互いに所定距離以内で会話をしている複数の人物について、前記複数の人物が含まれるビデオデータ又は前記複数の人物の声が含まれる音声データを取得し、前記ビデオデータ又は前記音声データを解析することで、前記複数の人物の状態が、所定の通知を受けることに適した状態であるか否かを判定する判定ステップと、
前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定された場合に、前記所定の通知を出力する通知ステップと、を有する通知制御方法。
（付記１１）
前記判定ステップにおいて、
前記ビデオデータ又は前記音声データを用いて、前記複数の人物の会話が中断しているか否かを判定し、
前記複数の人物の会話が中断している場合に、前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定する、付記１０に記載の通知制御方法。
（付記１２）
前記判定ステップにおいて、
前記ビデオデータ又は前記音声データを用いて、前記複数の人物の会話が重要なものであるか否かを判定し、
前記会話が重要なものでない場合に、前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定する、付記１０に記載の通知制御方法。
（付記１３）
前記判定ステップにおいて、
前記複数の人物の会話に重要語句が含まれていない場合に、前記複数の人物の会話が重要でないと判定するか、又は、
前記複数の人物の会話における重要語句の比率が閾値未満である場合に、前記複数の人物の会話が重要でないと判定する、付記１２に記載の通知制御方法。
（付記１４）
前記所定の通知は移動型ロボットから出力され、
前記通知ステップにおいて、前記複数の人物の状態が前記所定の通知を受けることに適していない状態であると判定された場合、前記移動型ロボットを前記複数の人物に近づくように移動させる、付記１０から１３いずれか一項に記載の通知制御方法。
（付記１５）
前記通知ステップにおいて、移動型ロボットに設けられている指向性スピーカーの出力方向を前記複数の人物の方向へ向け、前記指向性スピーカーから前記所定の通知を出力させる、付記１０から１４いずれか一項に記載の通知制御方法。
（付記１６）
前記所定の通知には、感染症への感染を防ぐために人と人との間で確保すべき距離を把握可能な情報が含まれる、付記１０から１５いずれか一項に記載の通知制御方法。
（付記１７）
前記判定ステップにおいて、前記複数の人物によって行われている会話の時間を算出し、
前記通知ステップにおいて、前記算出された時間の長さに応じた通知を出力する、付記１０から１６いずれか一項に記載の通知制御方法。
（付記１８）
前記判定ステップにおいて、前記複数の人物によって行われている会話の重要度を算出し、
前記通知ステップにおいて、前記算出された重要度に応じた通知を出力する、付記１０から１６いずれか一項に記載の通知制御方法。
（付記１９）
プログラムが格納されているコンピュータ可読媒体であって、
前記プログラムはコンピュータに、
監視領域内において互いに所定距離以内で会話をしている複数の人物について、前記複数の人物が含まれるビデオデータ又は前記複数の人物の声が含まれる音声データを取得し、前記ビデオデータ又は前記音声データを解析することで、前記複数の人物の状態が、所定の通知を受けることに適した状態であるか否かを判定する判定ステップと、
前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定された場合に、前記所定の通知を出力する通知ステップと、を実行させるコンピュータ可読媒体。
（付記２０）
前記判定ステップにおいて、
前記ビデオデータ又は前記音声データを用いて、前記複数の人物の会話が中断しているか否かを判定し、
前記複数の人物の会話が中断している場合に、前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定する、付記１９に記載のコンピュータ可読媒体。
（付記２１）
前記判定ステップにおいて、
前記ビデオデータ又は前記音声データを用いて、前記複数の人物の会話が重要なものであるか否かを判定し、
前記会話が重要なものでない場合に、前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定する、付記１９に記載のコンピュータ可読媒体。
（付記２２）
前記判定ステップにおいて、
前記複数の人物の会話に重要語句が含まれていない場合に、前記複数の人物の会話が重要でないと判定するか、又は、
前記複数の人物の会話における重要語句の比率が閾値未満である場合に、前記複数の人物の会話が重要でないと判定する、付記２１に記載のコンピュータ可読媒体。
（付記２３）
前記所定の通知は移動型ロボットから出力され、
前記通知ステップにおいて、前記複数の人物の状態が前記所定の通知を受けることに適していない状態であると判定された場合、前記移動型ロボットを前記複数の人物に近づくように移動させる、付記１９から２２いずれか一項に記載のコンピュータ可読媒体。
（付記２４）
前記通知ステップにおいて、移動型ロボットに設けられている指向性スピーカーの出力方向を前記複数の人物の方向へ向け、前記指向性スピーカーから前記所定の通知を出力させる、付記１９から２３いずれか一項に記載のコンピュータ可読媒体。
（付記２５）
前記所定の通知には、感染症への感染を防ぐために人と人との間で確保すべき距離を把握可能な情報が含まれる、付記１９から２４いずれか一項に記載のコンピュータ可読媒体。
（付記２６）
前記判定ステップにおいて、前記複数の人物によって行われている会話の時間を算出し、
前記通知ステップにおいて、前記算出された時間の長さに応じた通知を出力する、付記１９から２５いずれか一項に記載のコンピュータ可読媒体。
（付記２７）
前記判定ステップにおいて、前記複数の人物によって行われている会話の重要度を算出し、
前記通知ステップにおいて、前記算出された重要度に応じた通知を出力する、付記１９から２５いずれか一項に記載のコンピュータ可読媒体。

１０人物
２０移動型ロボット
２２カメラ
２４マイクロフォン
２６アクチュエータ
２７移動手段
４０人物グループ
５０記憶装置
６０会話情報
５００コンピュータ
５０２バス
５０４プロセッサ
５０６メモリ
５０８ストレージデバイス
５１０入出力インタフェース
５１２ネットワークインタフェース
６００コントローラ
６０２バス
６０４プロセッサ
６０６メモリ
６０８ストレージデバイス
６１０入出力インタフェース
６１２ネットワークインタフェース
２０００通知制御装置
２０２０判定部
２０４０通知部

Claims

監視領域内において互いに所定距離以内で会話をしている複数の人物について、前記複数の人物が含まれるビデオデータ又は前記複数の人物の声が含まれる音声データを取得し、前記ビデオデータ又は前記音声データを解析することで、前記複数の人物の状態が、所定の通知を受けることに適した状態であるか否かを判定する判定部と、
前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定された場合に、前記所定の通知を出力する通知部と、を有し、
前記判定部は、
前記ビデオデータ又は前記音声データを用いて、前記複数の人物の会話が中断しているか否かを判定し、
前記複数の人物の会話が中断している場合に、前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定する、通知制御装置。
監視領域内において互いに所定距離以内で会話をしている複数の人物について、前記複数の人物が含まれるビデオデータ又は前記複数の人物の声が含まれる音声データを取得し、前記ビデオデータ又は前記音声データを解析することで、前記複数の人物の状態が、所定の通知を受けることに適した状態であるか否かを判定する判定部と、
前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定された場合に、前記所定の通知を出力する通知部と、を有し、
前記判定部は、
前記ビデオデータ又は前記音声データを用いて、前記複数の人物の会話が重要なものであるか否かを判定し、
前記会話が重要なものでない場合に、前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定し、
前記判定部は、
前記複数の人物の会話に重要語句が含まれていない場合に、前記複数の人物の会話が重要でないと判定するか、
前記複数の人物の会話における重要語句の比率が閾値未満である場合に、前記複数の人物の会話が重要でないと判定するか、又は、
前記ビデオデータ又は前記音声データが入力されたことに応じて前記複数の人物の会話の重要度を出力するように学習された学習済みモデルに対し、前記ビデオデータ又は前記音声データを入力することによって、前記複数の人物の会話の重要度を算出し、算出された前記重要度が閾値未満である場合に、前記複数の人物の会話が重要でないと判定する、通知制御装置。
前記所定の通知は移動型ロボットから出力され、
前記通知部は、前記複数の人物の状態が前記所定の通知を受けることに適していない状態であると判定された場合、前記移動型ロボットを前記複数の人物に近づくように移動させる、請求項１又は２いずれか一項に記載の通知制御装置。
前記通知部は、移動型ロボットに設けられている指向性スピーカーの出力方向を前記複数の人物の方向へ向け、前記指向性スピーカーから前記所定の通知を出力させる、請求項１から３いずれか一項に記載の通知制御装置。
前記所定の通知には、感染症への感染を防ぐために人と人との間で確保すべき距離を把握可能な情報が含まれる、請求項１から４いずれか一項に記載の通知制御装置。
前記判定部は、前記複数の人物によって行われている会話の重要度を算出し、
前記通知部は、前記算出された重要度に応じた通知を出力する、請求項１から５いずれか一項に記載の通知制御装置。
コンピュータによって実行される通知制御方法であって、
監視領域内において互いに所定距離以内で会話をしている複数の人物について、前記複数の人物が含まれるビデオデータ又は前記複数の人物の声が含まれる音声データを取得し、前記ビデオデータ又は前記音声データを解析することで、前記複数の人物の状態が、所定の通知を受けることに適した状態であるか否かを判定する判定ステップと、
前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定された場合に、前記所定の通知を出力する通知ステップと、を有し、
前記判定ステップにおいて、
前記ビデオデータ又は前記音声データを用いて、前記複数の人物の会話が中断しているか否かを判定し、
前記複数の人物の会話が中断している場合に、前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定する、通知制御方法。
コンピュータによって実行される通知制御方法であって、
監視領域内において互いに所定距離以内で会話をしている複数の人物について、前記複数の人物が含まれるビデオデータ又は前記複数の人物の声が含まれる音声データを取得し、前記ビデオデータ又は前記音声データを解析することで、前記複数の人物の状態が、所定の通知を受けることに適した状態であるか否かを判定する判定ステップと、
前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定された場合に、前記所定の通知を出力する通知ステップと、を有し、
前記判定ステップにおいて、
前記ビデオデータ又は前記音声データを用いて、前記複数の人物の会話が重要なものであるか否かを判定し、
前記会話が重要なものでない場合に、前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定し、
前記複数の人物の会話が重要なものであるか否かの判定は、
前記複数の人物の会話に重要語句が含まれていない場合に、前記複数の人物の会話が重要でないと判定すること、
前記複数の人物の会話における重要語句の比率が閾値未満である場合に、前記複数の人物の会話が重要でないと判定すること、又は、
前記ビデオデータ又は前記音声データが入力されたことに応じて前記複数の人物の会話の重要度を出力するように学習された学習済みモデルに対し、前記ビデオデータ又は前記音声データを入力することによって、前記複数の人物の会話の重要度を算出し、算出された前記重要度が閾値未満である場合に、前記複数の人物の会話が重要でないと判定することを含む、通知制御方法。
監視領域内において互いに所定距離以内で会話をしている複数の人物について、前記複数の人物が含まれるビデオデータ又は前記複数の人物の声が含まれる音声データを取得し、前記ビデオデータ又は前記音声データを解析することで、前記複数の人物の状態が、所定の通知を受けることに適した状態であるか否かを判定する判定ステップと、
前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定された場合に、前記所定の通知を出力する通知ステップと、をコンピュータに実行させ、
前記判定ステップにおいて、
前記ビデオデータ又は前記音声データを用いて、前記複数の人物の会話が中断しているか否かを判定し、
前記複数の人物の会話が中断している場合に、前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定する、プログラム。
監視領域内において互いに所定距離以内で会話をしている複数の人物について、前記複数の人物が含まれるビデオデータ又は前記複数の人物の声が含まれる音声データを取得し、前記ビデオデータ又は前記音声データを解析することで、前記複数の人物の状態が、所定の通知を受けることに適した状態であるか否かを判定する判定ステップと、
前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定された場合に、前記所定の通知を出力する通知ステップと、をコンピュータに実行させ、
前記判定ステップにおいて、
前記ビデオデータ又は前記音声データを用いて、前記複数の人物の会話が重要なものであるか否かを判定し、
前記会話が重要なものでない場合に、前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定し、
前記複数の人物の会話が重要なものであるか否かの判定は、
前記複数の人物の会話に重要語句が含まれていない場合に、前記複数の人物の会話が重要でないと判定すること、
前記複数の人物の会話における重要語句の比率が閾値未満である場合に、前記複数の人物の会話が重要でないと判定すること、又は、
前記ビデオデータ又は前記音声データが入力されたことに応じて前記複数の人物の会話の重要度を出力するように学習された学習済みモデルに対し、前記ビデオデータ又は前記音声データを入力することによって、前記複数の人物の会話の重要度を算出し、算出された前記重要度が閾値未満である場合に、前記複数の人物の会話が重要でないと判定することを含む、プログラム。