JP7476965B2 - 通知制御装置、制御方法、及びプログラム - Google Patents

通知制御装置、制御方法、及びプログラム Download PDF

Info

Publication number
JP7476965B2
JP7476965B2 JP2022534570A JP2022534570A JP7476965B2 JP 7476965 B2 JP7476965 B2 JP 7476965B2 JP 2022534570 A JP2022534570 A JP 2022534570A JP 2022534570 A JP2022534570 A JP 2022534570A JP 7476965 B2 JP7476965 B2 JP 7476965B2
Authority
JP
Japan
Prior art keywords
conversation
people
notification
video data
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022534570A
Other languages
English (en)
Other versions
JPWO2022009350A5 (ja
JPWO2022009350A1 (ja
Inventor
純一 船田
尚志 水本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2022009350A1 publication Critical patent/JPWO2022009350A1/ja
Publication of JPWO2022009350A5 publication Critical patent/JPWO2022009350A5/ja
Application granted granted Critical
Publication of JP7476965B2 publication Critical patent/JP7476965B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0094Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots involving pointing a payload, e.g. camera, weapon, sensor, towards a fixed or moving target
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • G06Q50/265Personal security, identity or safety
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/02Alarms for ensuring the safety of persons
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/18Status alarms
    • G08B21/22Status alarms responsive to presence or absence of persons
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/028Casings; Cabinets ; Supports therefor; Mountings therein associated with devices performing functions other than acoustics, e.g. electric candles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/323Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Signal Processing (AREA)
  • Tourism & Hospitality (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Emergency Management (AREA)
  • Primary Health Care (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Psychiatry (AREA)
  • Otolaryngology (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Social Psychology (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Computer Security & Cryptography (AREA)
  • Alarm Systems (AREA)
  • Manipulator (AREA)

Description

本発明は、通知を制御する技術に関する。
感染症の感染拡大を予防する観点などから、複数の人物が互いに近い距離で会話をしている状況が好ましくないことがある。そこで、このような状況を検出して通知を行うシステムが開発されている。例えば特許文献1は、施設に設置されたカメラから得られる画像を利用して、居住者と来訪者が所定時間以上会話を行ったことを検出し、当該検出に応じて、感染症に感染する危険性が高いことを通知する技術を開示している。
国際公開第2019/239813号
特許文献1の装置では、居住者と来訪者が所定時間以上会話を行ったと判定されたら、すぐに通知が行われる。そのため、通知が行われる際、これらの人物の状態が、通知を受けることに適している状態であるとは限らない。
本発明は上記の課題に鑑みてなされたものであり、その目的の一つは、通知対象の人物に対して適切なタイミングで通知を行う技術を提供することである。
本開示の通知制御装置は、監視領域内において互いに所定距離以内で会話をしている複数の人物について、前記複数の人物が含まれるビデオデータ又は前記複数の人物の声が含まれる音声データを取得し、前記ビデオデータ又は前記音声データを解析することで、前記複数の人物の状態が、所定の通知を受けることに適した状態であるか否かを判定する判定部と、前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定された場合に、前記所定の通知を出力する通知部と、を有する。
本開示の制御方法は、コンピュータによって実行される。当該制御方法は、監視領域内において互いに所定距離以内で会話をしている複数の人物について、前記複数の人物が含まれるビデオデータ又は前記複数の人物の声が含まれる音声データを取得し、前記ビデオデータ又は前記音声データを解析することで、前記複数の人物の状態が、所定の通知を受けることに適した状態であるか否かを判定する判定ステップと、
前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定された場合に、前記所定の通知を出力する通知ステップと、を有する。
本開示のコンピュータ可読媒体は、本開示の制御方法をコンピュータに実行させるプログラムを格納している。
本発明によれば、通知対象の人物に対して適切なタイミングで通知を行う技術が提供される。
実施形態1の通知制御装置の概要を例示する図である。 通知制御装置の機能構成を例示する図である。 通知制御装置を実現するコンピュータのハードウエア構成を例示するブロック図である。 移動型ロボットのハードウエア構成を例示するブロック図である。 実施形態1の通知制御装置によって実行される処理の流れを例示するフローチャートである。
以下では、本開示の実施形態について、図面を参照しながら詳細に説明する。各図面において、同一又は対応する要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略される。
[実施形態1]
図1は、実施形態1の通知制御装置2000の概要を例示する図である。なお、図1を参照して行う以下の説明は、実施形態1の通知制御装置2000についての理解を容易にするためのものであり、実施形態1の通知制御装置2000の動作は以下で説明するものに限定されない。
通知制御装置2000は、監視領域内において所定距離 L1 以内で会話をしていることが検出された複数の人物10(以下、人物グループ40)について、センサデータを取得する。監視領域は、オフィスなどといった任意の場所とすることができる。また、監視領域は屋外であってもよい。センサデータは、カメラで人物グループ40を撮像することで生成されたビデオデータ、又はマイクロフォンで人物グループ40の会話を録音することで生成された音声データである。なお、人物グループ40の検出は、通知制御装置2000によって行われてもよいし、通知制御装置2000以外の装置によって行われてもよい。
通知制御装置2000は、人物グループ40に対して所定通知を出力する。ただし、その前に、通知制御装置2000は、センサデータを利用して、人物グループ40が、通知を受けることに適した状態(以下、好適状態)であるか否かを判定する。人物グループ40が好適状態であると判定された場合、通知制御装置2000は、所定通知を出力する。一方、人物グループ40が好適状態でない場合、通知制御装置2000は、所定通知を出力しない。
<作用効果の一例>
感染症の感染拡大防止の観点などから、複数の人物が互いに所定距離 L1 以内で会話をするという状況が好ましくない場合がある。そのため、このような状況が検出されたら、当該複数の人物に対して何らかの通知を行うことで、好ましくない状況にあることをこれらの人物に気づかせることが好ましい。
しかしながら、すぐにこのような通知を行うことが必ずしも適しているとは限らない。例えば、重要な会話が行われている場合には、会話が一段落するまで待ってから通知を行うことで、感染拡大防止などといった効果と、仕事の生産性とのバランスを適切に取ることが好ましい。
この点、通知制御装置2000によれば、人物グループ40の状態が好適状態(通知を受けることに適した状態)であるか否かが判定され、人物グループ40が好適状態である場合に所定通知が行われる。よって、人物グループ40の状態を考慮せずに通知が行われてしまうケースと比較し、人物グループ40に対してより適したタイミングで通知をすることができる。
以下、本実施形態の通知制御装置2000について、より詳細に説明する。
<機能構成の例>
図2は、通知制御装置2000の機能構成を例示する図である。通知制御装置2000は、判定部2020及び通知部2040を有する。判定部2020は、人物グループ40についてセンサデータを取得し、当該センサデータを解析して、人物グループ40の状態が好適状態であるか否かを判定する。通知部2040は、人物グループ40の状態が好適状態である場合に所定の通知を行う。なお、人物グループ40は、互いに所定距離 L1 以内で会話をしていることが検出された複数の人物10である。
<ハードウエア構成の例>
通知制御装置2000の各機能構成部は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、通知制御装置2000の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
図3は、通知制御装置2000を実現するコンピュータ500のハードウエア構成を例示するブロック図である。コンピュータ500は、任意のコンピュータである。例えばコンピュータ500は、PC(Personal Computer)やサーバマシンなどといった、据え置き型のコンピュータである。その他にも例えば、コンピュータ500は、スマートフォンやタブレット端末などといった可搬型のコンピュータである。その他にも例えば、コンピュータ500は、後述する移動型ロボットに内蔵されているコントローラ(後述するコントローラ600)であってもよい。この場合、通知制御装置2000が移動型ロボットとして実現されることとなる(すなわち、移動型ロボットが通知制御装置2000としての機能も兼ね備えることとなる)。コンピュータ500は、通知制御装置2000を実現するために設計された専用のコンピュータであってもよいし、汎用のコンピュータであってもよい。
例えば、コンピュータ500に対して所定のアプリケーションをインストールすることにより、コンピュータ500で、通知制御装置2000の各機能が実現される。上記アプリケーションは、通知制御装置2000の機能構成部を実現するためのプログラムで構成される。
コンピュータ500は、バス502、プロセッサ504、メモリ506、ストレージデバイス508、入出力インタフェース510、及びネットワークインタフェース512を有する。バス502は、プロセッサ504、メモリ506、ストレージデバイス508、入出力インタフェース510、及びネットワークインタフェース512が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ504などを互いに接続する方法は、バス接続に限定されない。
プロセッサ504は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、又は FPGA(Field-Programmable Gate Array)などの種々のプロセッサである。メモリ506は、RAM(Random Access Memory)などを用いて実現される主記憶装置である。ストレージデバイス508は、ハードディスク、SSD(Solid State Drive)、メモリカード、又は ROM(Read Only Memory)などを用いて実現される補助記憶装置である。
入出力インタフェース510は、コンピュータ500と入出力デバイスとを接続するためのインタフェースである。例えば入出力インタフェース510には、キーボードなどの入力装置や、ディスプレイ装置などの出力装置が接続される。
ネットワークインタフェース512は、コンピュータ500を無線ネットワークに接続するためのインタフェースである。このネットワークは、LAN(Local Area Network)であってもよいし、WAN(Wide Area Network)であってもよい。例えばコンピュータ500は、ネットワークインタフェース512及び無線ネットワークを介して、移動型ロボットと通信可能に接続されている。
ストレージデバイス508は、通知制御装置2000の各機能構成部を実現するプログラム(前述したアプリケーションを実現するプログラム)を記憶している。プロセッサ504は、このプログラムをメモリ506に読み出して実行することで、通知制御装置2000の各機能構成部を実現する。
また、ストレージデバイス508には、会話情報60が格納されてもよい。この場合、記憶装置50は、ストレージデバイス508によって実現される。ただし、記憶装置50は、ストレージデバイス508以外の記憶装置(例えば、コンピュータ500の外部にもうけられている記憶装置)で実現されてもよい。
通知制御装置2000は、1つのコンピュータ500で実現されてもよいし、複数のコンピュータ500で実現されてもよい。後者の場合において、各コンピュータ500の構成は同一である必要はなく、それぞれ異なるものとすることができる。
また、1つの監視領域に対して複数の通知制御装置2000が設けられてもよい。例えば、1つの監視領域に複数の移動型ロボットを導入し、各移動型ロボットが通知制御装置2000として動作するようにする。
<移動型ロボットのハードウエア構成の例>
図4は、移動型ロボットのハードウエア構成を例示するブロック図である。移動型ロボット20は、カメラ22、マイクロフォン24、アクチュエータ26、移動手段27、及びコントローラ600を有する。移動型ロボット20は、アクチュエータ26の出力に応じて移動手段27が動作することによって移動する。例えば移動手段27は、車輪などのような、走行を実現する手段である。この場合、移動型ロボット20は、監視領域内を走行して移動する。その他にも例えば、移動手段27は、プロペラのように、飛行を実現する手段でもよい。この場合、移動型ロボット20は、監視領域内を飛行して移動する。アクチュエータ26の出力は、コントローラ600によって制御される。アクチュエータ26の出力は、コントローラ600によって制御される。
コントローラ600は任意のコンピュータであり、例えば SoC(System on a Chip)や SiP(System in a Package)などの集積回路で実現される。その他にも例えば、コントローラ600は、スマートフォンなどの携帯端末で実現されてもよい。コントローラ600は、バス602、プロセッサ604、メモリ606、ストレージデバイス608、入出力インタフェース610、及びネットワークインタフェース612を有する。バス602、プロセッサ604、メモリ606、ストレージデバイス608、入出力インタフェース610、及びネットワークインタフェース612はそれぞれ、バス502、プロセッサ504、メモリ506、ストレージデバイス508、入出力インタフェース510、及びネットワークインタフェース512と同様の機能を有する。
<処理の流れ>
図5は、実施形態1の通知制御装置2000によって実行される処理の流れを例示するフローチャートである。判定部2020はセンサデータを取得する(S102)。判定部2020は、取得したセンサデータを利用して、人物グループ40が好適状態であるか否かを判定する(S104)。人物グループ40が好適状態でない場合(S104:NO)、判定部2020は、再度S102及びS104を実行する。すなわち、判定部2020は、新たなセンサデータを取得し、そのセンサデータを利用して、人物グループ40が好適状態であるか否かを再度判定する。
人物グループ40が好適状態であると判定された場合(S102:YES)、通知部2040は、所定の通知を出力する(S104)。
なお、通知の出力に移動型ロボット20を利用する場合において、人物グループ40が好適状態でないと判定されたら(S102:NO)、通知制御装置2000は、移動型ロボット20を人物グループ40に近づくように移動させてもよい。こうすることで、人物グループ40が好適状態となった後、速やかに通知を出力できるようになる。
また、図5では、人物グループ40が好適状態となるまで、S102が繰り返し実行される。しかしながら、当該繰り返しに終了条件を設け、この終了条件が満たされた場合、図5の処理を終了するようにしてもよい。例えば終了条件は、「人物グループ40において、人物10の間の距離が所定距離 L1 より大きくなる」という条件や、「S102を最初に実行してから所定時間が経過した」という条件などである。
<人物グループ40の検出>
人物グループ40が好適状態であるか否かを判定する前提として、人物グループ40(すなわち、互いに所定距離 L1 以内の位置で会話をしている複数の人物10)の検出が行われる。以下、人物グループ40を検出する装置を、会話監視装置と呼ぶ。なお、会話監視装置は、通知制御装置2000であってもよいし、通知制御装置2000以外であってもよい。前者の場合、通知制御装置2000が会話監視装置としての機能を兼ね備えることを意味する。
まず、会話監視装置は、互いに所定距離 L1 以内の位置にいる複数の人物10を検出する。当該検出は、これらの人物10が含まれるビデオデータを利用して行われる。当該ビデオデータは、監視領域内を撮像するように設けられているカメラによって生成される。当該カメラは、特定の位置に固定で設けられているカメラ(例えば、天井や壁に設けられている監視カメラ)であってもよいし、移動型ロボットに設けられているカメラであってもよい。
会話監視装置は、ビデオデータから複数の人物10を検出し、これらの人物10同士の距離が所定距離 L1 以下であることを特定することにより、互いに所定距離 L1 以内の位置にいる複数の人物10を検出する。ここで、人物10同士の距離が所定距離 L1 以下であることを特定する方法は様々である。例えば、会話監視装置は、ビデオデータを解析し、当該ビデオデータから複数の人物10を検出する。複数の人物10が検出されたら、会話監視装置は、プロジェクタを制御して、特定の距離を表す画像(以下、距離画像)を地面に投射させる。ここで、距離画像は、検出した複数の人物10と距離画像の双方をカメラの撮像範囲に含めることができる位置に投射される。距離画像が表す距離は、例えば、前述した所定距離 L1 である。なお、プロジェクタは、移動型ロボットに搭載されていてもよいし、その他の場所(例えば天井)に設置されていてもよい。
会話監視装置は、ビデオデータから複数の人物10と距離画像を検出し、人物10同士の距離を距離画像のサイズ(すなわち、画像上の所定距離 L1)と比較する。人物10同士の距離が距離画像のサイズより小さい場合、会話監視装置は、これらの人物10を、互いに所定距離 L1 以内に位置する複数の人物10として検出する。
なお、人物10同士の距離が所定距離 L1 以下であることを特定する方法は、上述の方法に限定されず、その他の既存の技術を利用してもよい。
会話監視装置は、このようにして検出された、互いに所定距離 L1 以内に位置する複数の人物10について、会話が行われているか否かの判定(以下、会話判定)を行う。以下、会話判定の対象である複数の人物10を、候補グループと呼ぶ。例えば会話監視装置は、候補グループが検出されたビデオデータを利用して、会話判定を行う。そして、会話が行われていると判定された候補グループが、人物グループ40として検出される。以下、会話判定の方法について具体的に例示する。
<<口の動きに基づく判定>>
例えば会話監視装置は、ビデオデータを利用して、候補グループに含まれる各人物10が口を動かしているか否かを判定することで、会話の有無を判定する。例えば会話監視装置は、候補グループのうち、誰か一人でも口を動かしていたら、候補グループに含まれる人物10全員で会話をしていると判定する(すなわち、候補グループを人物グループ40として検出する)。また、候補グループに含まれる人物10が誰も口を動かしていなかったら、会話監視装置は、候補グループにおいて会話が行われていないと判定する(すなわち、候補グループを人物グループ40として検出しない)。
会話監視装置は、候補グループに含まれる人物10のうち、口を動かしている人物10のみによって会話が行われていると判定してもよい。この場合、会話監視装置は、口を動かしていないと判定された人物10を除外した候補グループを、人物グループ40として検出する。すなわち、会話監視装置は、ビデオデータから、口を動かしている人物10が二人以上検出されたら、これら口を動かしている複数の人物10を人物グループ40として検出する。一方、会話監視装置は、ビデオデータから、口を動かしている人物10が検出されないか、又は、口を動かしている人物10が一人だけ検出された場合には、候補グループを人物グループ40として検出しない。
例えば会話監視装置は、人物の口やその周辺を表す画像領域の時系列データから、その人物について、口を動かしている確率を算出するように構成される。そして、会話監視装置は、口を動かしている確率が閾値以上となった人物10を、口を動かしている人物10として扱う。一方、口を動かしている確率が閾値未満となった人物10を、口を動かしていない人物10として扱う。
<<顔又は視線の向きに基づく判定>>
例えば会話監視装置は、ビデオデータを利用して、候補グループに含まれる各人物10の顔又は視線の向きを特定し、これらの情報に基づいて会話の有無を判定する。以下、顔の向きを利用するケースについて、より具体的に説明する。視線の向きを利用するケースについての説明は、特に説明しない限り、以下の説明において「顔」を「視線」に置き換えたものとなる。
例えば会話監視装置は、各人物10の顔が他のいずれかの人物10の方を向いている場合に、候補グループに含まれる人物10全員で会話をしていると判定する(すなわち、候補グループを人物グループ40として検出する)。また、候補グループに含まれる人物10のいずれもが、他の人物10の方を向いていない場合、会話監視装置は、候補グループにおいて会話が行われていないと判定する(すなわち、候補グループを人物グループ40として検出しない)。
会話監視装置は、他の人物10の方へ顔が向いている人物10のみによって会話が行われていると判定してもよい。この場合、会話監視装置は、他の人物10の方へ顔が向いていないと判定された人物10を、候補グループから除外する。すなわち、会話監視装置は、ビデオデータから、他の人物10の方へ顔が向いている人物10が二人以上検出されたら、これら複数の人物10を人物グループ40として検出する。一方、ビデオデータから他の10の方へ顔が向いている人物が検出されないか、又は、他の人物10の方へ向いている人物10が一人だけ検出された場合、会話監視装置は、候補グループを人物グループ40として検出しない。
例えば会話監視装置は、人物の顔を表す画像領域の時系列データから、その人物について、複数の向き(例えば、所定の4方向や8方向など)それぞれについて、顔がその向きを向いている確率を算出するように構成される。会話監視装置は、算出した確率が最も高い方向を、その人物の顔の向きとして特定する。
<<学習済みモデルを利用する方法>>
会話監視装置は、候補グループに含まれる各人物10の顔が含まれるビデオデータが入力されたことに応じて、候補グループにおいて会話が行われているか否かを識別する学習済みモデルを有していてもよい。当該モデルは、例えば、候補グループに含まれる各人物10の顔が含まれるビデオデータが入力されたことに応じて、候補グループにおいて会話が行われている確率を出力する。このようなモデルは、例えば、リカレントニューラルネットワーク(RNN: Recurrent neural network)などで実現することができる。会話監視装置は、当該モデルから出力された確率が閾値以上である場合、候補グループを人物グループ40として検出する。一方、当該モデルから出力された確率が閾値未満である場合、会話監視装置は、候補グループを人物グループ40として検出しない。
なお、上記モデルは、「ビデオデータ、正解の確率(会話が行われている場合には1、会話が行われていない場合には0)」という組み合わせで構成される学習データを用いて、予め学習しておく。ここで、入力データと正解のラベルの組み合わせで構成される学習データを用いてモデルを学習する技術には、既存の技術を利用することができる。
<移動型ロボット20を利用した会話判定>
候補グループが、固定カメラによって生成されるビデオデータから検出されたとする。この場合において、候補グループについての会話判定は、当該ビデオデータではなく、移動型ロボット20に設けられているカメラによって生成されるビデオデータや、移動型ロボット20に設けられているマイクロフォンによって生成される音声データを利用して行われてもよい。
例えば会話監視装置は、まず、固定カメラから得られるビデオデータを利用して、候補グループについて、1)会話が行われている、2)会話が行われていない、及び3)会話の有無を判別できないという3つのうちのいずれの状況であるかを判定する。例えば会話判定装置は、上記ビデオデータを解析することで、会話が行われている確率と、会話が行われていない確率の双方を算出する。そして、会話監視装置は、1)会話をしている確率が閾値以上であれば、会話が行われていると判定し、2)会話をしていない確率が閾値以上であれば、会話をしていないと判定し、3)会話をしている確率と会話をしていない確率のいずれもが閾値未満であれば、会話の有無を判別できないと判定する。会話の有無を判別できない具体的な状況としては、固定カメラから得られたビデオデータに人物10の顔が含まれていない(例えば、人物10が固定カメラに背を向けている)ため、人物10の顔の動きや顔の向きなどが分からないといった状況が考えられる。
候補グループが検出されたビデオデータを利用しても会話の有無を判別できない場合、例えば会話監視装置は、移動型ロボット20の移動を制御して、移動型ロボット20に設けられているカメラ22やマイクロフォン24から、複数の人物10が会話をしているか否かを判別できるデータを得られるようにする。ビデオデータを利用する場合、例えば会話監視装置は、移動型ロボット20を、候補グループに含まれる人物10それぞれの顔を撮像可能な位置へ移動させる。また、音声データを利用する場合、例えば会話監視装置は、移動型ロボット20を、候補グループからの距離が所定距離 L2 以下である場所まで移動させる。人物10からの距離が遠いところでは、会話が行われていても、会話の音声が音声データに含まれない可能性があるためである。
ビデオデータを利用して会話の有無を判定する方法については、前述した通りである。以下、音声データを利用して会話の有無を判定する方法について説明する。
音声データを利用する場合、会話監視装置は、音声データに含まれる音声の大きさと、候補グループまでの距離との関係に基づいて、当該候補グループについての会話判定を行う。ここで、候補グループにおいて会話が行われていたとしても、移動型ロボット20の位置が候補グループから遠いと、マイクロフォン24で会話の音声を検出することが難しい。そこで会話監視装置は、移動型ロボット20を、候補グループからの距離が所定距離 L2 以下の位置まで移動させる。この所定距離 L2 は、候補グループによって会話が行われている場合に、マイクロフォン24でその会話の音声を検出することが可能な距離として、予め設定される。
会話監視装置は、候補グループからの距離が所定距離 L2 以下である位置に移動した移動型ロボット20のマイクロフォン24から音声データを取得し、その音声データによって表される音声の大きさが閾値以上であるか否かを判定する。音声データによって表される音声の大きさが閾値以上である場合、会話監視装置は、候補グループにおいて会話が行われていると判定する(すなわち、候補グループを人物グループ40として検出する)。一方、音声データによって表される音声の大きさが閾値未満である場合、会話監視装置は、候補グループによって会話が行われていないと判定する(すなわち、候補グループを人物グループ40として検出しない)。
なお、上記閾値は、固定の値であってもよいし、移動型ロボット20から候補グループまでの距離に応じて動的に設定されてもよい。後者の場合、例えば、距離と閾値との関係を定めた関数を予め定めておく。会話監視装置は、マイクロフォン24から音声データを得た時点について、移動型ロボット20から候補グループまでの距離を特定し、上記関数にその距離を入力することで閾値を特定し、音声データによって表される音声の大きさと特定した閾値とを比較する。
また、会話監視装置は、音声データを解析して、人の声が含まれているか否かを判定してもよい。この場合、会話監視装置は、音声データによって表される音声の大きさが閾値以上であり、なおかつ、当該音声に人の声が含まれる場合に、候補グループにおいて会話が行われていると判定する。一方、当該音声の大きさが閾値未満であるか、又は、当該音声に人の声が含まれていない場合に、候補グループにおいて会話が行われていないと判定する。こうすることで、例えば、人の声以外の音が発生している状況を、候補グループにおいて会話が行われている状況として誤検出してしまうことを防ぐことができる。
なお、会話監視装置は、音声データに声が含まれる人の数を考慮してもよい。例えば会話監視装置は、音声データによって表される音声の大きさが閾値以上であり、なおかつ、当該音声に複数の人物の声が含まれる場合に、候補グループにおいて会話が行われていると判定する。一方、当該音声の大きさが閾値未満であるか、又は、当該音声に声が含まれる人の声が一人以下である場合に、候補グループにおいて会話が行われていないと判定する。こうすることで、例えば、一人の人物が独り言を言っている状況を、候補グループにおいて会話が行われている状況として誤検出してしまうことを防ぐことができる。
また、会話監視装置は、音声データに人の声が含まれているか否かの判定結果の確度や、音声データに声が含まれるに人の数についての算出結果の確度が低い場合に、会話の有無を判別できないと判定してもよい。例えば、音声データに人の声が含まれている確率と、人の声が含まれていない確率のいずれもが、所定の閾値未満である場合に、会話の有無を判別できないと判定される。
さらに、会話監視装置は、音声データが入力されたことに応じて、当該音声データに会話をしている複数の人物10の音声が含まれているか否かを識別する学習済みモデルを有していてもよい。当該モデルは、例えば、音声データが入力されたことに応じて、会話が行われている確率を出力する。このようなモデルは、例えば、リカレントニューラルネットワーク(RNN: Recurrent neural network)などで実現することができる。
例えば会話監視装置は、上記モデルから出力された確率が閾値以上である場合に、候補グループにおいて会話が行われていると判定する。一方、上記モデルから出力された確率が閾値未満である場合、会話監視装置は、候補グループにおいて会話が行われていないと判定する。
なお、上記モデルは、「音声データ、正解の確率(会話が行われている場合には1、会話が行われていない場合には0)」という組み合わせで構成される学習データを用いて、予め学習しておく。
<会話時間の考慮>
会話監視装置は、候補グループにおける会話時間が閾値以上である場合のみ、当該候補グループを人物グループ40として検出するようにしてもよい。すなわち、この場合、「互いに所定距離 L1 以内に位置しており、なおかつ、所定時間以上会話をしている複数の人物10」が、人物グループ40として検出される。
例えば会話監視装置は、ビデオデータや音声データを用いて、候補グループにおいて会話が行われているか否かを繰り返し判定する。ビデオデータを利用する場合、例えば会話監視装置は、当該ビデオデータをビデオフレーム列に分割し、各ビデオフレーム列について、候補グループにおいて会話が行われているか否かを判定する。同様に、音声データを利用する場合、例えば会話監視装置は、当該音声データを音声フレーム列に分割し、各音声フレーム列について、候補グループにおいて会話が行われているか否かを判定する。そして、会話監視装置は、候補グループにおいて会話が行われている状態が継続している時間(候補グループにおいて会話が行われていると判定されるビデオフレーム列や音声フレーム列が連続する時間)を会話時間として算出し、当該会話時間が閾値以上である場合に、当該候補グループを人物グループ40として検出する。ただし、会話監視装置は、会話が短い時間中断されても、会話が継続しているものとして扱ってもよい。
<好適状態であるか否の判定:S102>
判定部2020は、人物グループ40が好適状態であるか否かを判定する。以下、好適状態の具体例と、その好適状態についての判定を行う具体的な方法について説明する。
<<好適状態の例1:会話の中断>>
複数の人物が会話を行っている際、一時的に会話が中断することがある。これらの人物に通知を行う場合、会話の最中に通知を行うよりも、会話が中断している時に通知を行う方が好適であると考えられる。
そこで判定部2020は、センサデータを利用して、人物グループ40において会話が中断しているか否かを判定する。例えば判定部2020は、人物グループ40が会話をしていない状態が所定時間以上継続した場合に、人物グループ40において会話が中断していると判定する。この場合、判定部2020は、カメラやマイクロフォンによって生成されるセンサデータのうち、直近所定時間についての検出結果を表すセンサデータを取得することが好ましい。
例えば判定部2020は、取得したビデオデータを複数のビデオフレーム列に分割し、各ビデオフレーム列について、会話をしている状態の人物グループ40を表しているか否かの判定(前述した会話判定)を行う。例えば判定部2020は、直近所定時間についての複数のビデオフレーム列のいずれもが、会話をしてない状態の人物グループ40を表している場合、直近所定時間、人物グループ40において会話が中断されていると判定する(すなわち、人物グループ40が好適状態であると判定する)。一方、直近所定時間についての複数のビデオフレーム列の中に、会話をしている状態の人物グループ40を表すビデオフレーム列が存在する場合、判定部2020は、人物グループ40において会話が中断されていないと判定する(すなわち、人物グループ40が好適状態でないと判定する)。
また、判定部2020は、ビデオデータから得られるビデオフレーム列のうち、所定の比率以上のビデオフレーム列それぞれによって、会話をしていない人物グループ40が表されていたら、人物グループ40において会話が中断されていると判定してもよい。一方、会話をしていない人物グループ40を表すビデオフレーム列の比率が所定の比率未満であれば、判定部2020は、人物グループ40において会話が中断されていないと判定する。
音声データを利用する場合についても、ビデオデータを利用する場合と同様である。すなわち、判定部2020は、取得した音声データを音声フレーム列に分割し、各音声フレームそれぞれについて、会話をしている状態の人物グループ40を表しているか否かの判定を行う。例えば判定部2020は、直近所定時間についての複数の音声フレーム列のいずれもが、会話をしてない状態の人物グループ40を表している場合、人物グループ40において会話が中断されていると判定する。一方、直近所定時間についての複数の音声フレーム列の中に、会話をしている状態の人物グループ40を表す音声フレーム列が存在する場合、判定部2020は、人物グループ40において会話が中断されていないと判定する。
また、判定部2020は、音声データから得られる音声フレーム列のうち、所定の比率以上の音声フレーム列それぞれによって、会話をしていない人物グループ40が表されていたら、人物グループ40において会話が中断されていると判定してもよい。一方、会話をしていない人物グループ40を表す音声フレーム列の比率が所定の比率未満であれば、判定部2020は、人物グループ40において会話が中断されていないと判定する。
会話が中断されているか否かは、学習済みモデルを利用して判定されてもよい。ビデオデータを利用する場合、ビデオデータが入力されたことに応じて、会話が中断されている確率を出力するモデルを予め用意しておく。判定部2020は、取得したビデオデータをモデルに入力することで、当該モデルから、会話が中断されている確率を得る。そして判定部2020は、会話が中断されている確率が閾値以上であれば会話が中断されていると判定し、当該確率が閾値未満であれば会話が中断されていないと判定する。
上記モデルは、「ビデオデータ、正解の確率(会話が中断されている場合には1、会話が中断されていない場合には0)」というペアで構成される学習データを利用して、学習することができる。
音声データを利用するモデルについても同様である。すなわち、当該モデルは、音声データが入力されたことに応じて、会話が中断されている確率を出力するように構成される。このようなモデルの学習は、「音声データ、正解の確率(会話が中断されている場合には1、会話が中断されていない場合には0)」というペアで構成される学習データを利用して実現できる。
<<好適状態の例2:会話の重要さ>>
会話の中には、重要なものとそうでないものがある。そして、人物グループ40からすれば、重要な会話をしているときよりも、重要でない会話をしているときに通知が行われる方が好ましいと考えられる。
そこで判定部2020は、センサデータを利用して、人物グループ40によって行われている会話が重要なものであるか否かを判定する。会話が重要なものでない場合、判定部2020は、人物グループ40が好適状態であると判定する。一方、会話が重要なものである場合、判定部2020は、人物グループ40が好適状態でないと判定する。
会話が含まれる音声データを利用して、当該会話が重要なものであるか否かを判定する方法には、様々な方法を利用できる。例えば、重要な会話の中に現れる単語やフレーである重要語句の集合(以下、重要語句情報)を予め定めておき、判定部2020からアクセス可能な記憶装置に予め格納しておく。判定部2020は、音声データと重要語句情報を利用して、音声データによって表される会話から重要語句の検出を行う。
例えば重要語句の検出は、音声データを文字列データ(文章)に変換し、当該文字列データから、重要語句を表す文字列データを検出することで行われる。この場合、重要語句情報において、重要語句は文字列データで表される。その他にも例えば、音声データから、重要語句に対応する音声特徴量を検出することにより、重要語句の検出を行ってもよい。この場合、重要語句情報において、重要語句は音声特徴量で表される。
例えば判定部2020は、会話に重要語句が含まれていたら、会話は重要なものであると判定する(すなわち、人物グループ40が好適状態でないと判定する)。一方、会話の中に重要語句が含まれていない場合、判定部2020は、会話は重要なものでないと判定する(すなわち、人物グループ40が好適状態であると判定する)。
会話の重要さは、重要であるか否かの2値ではなく、重要度で表されてもよい。この場合、判定部2020は、音声データを解析することで、会話の重要度を特定する。そして、判定部2020は、会話の重要度が閾値以上である場合に会話が重要なものであると判定し、当該重要度が閾値未満である場合に会話が重要なものでないと判定する。
会話の重要度は、例えば、会話の中に重要語句が含まれる度合いで表すことができる。具体的には、判定部2020は、音声データによって表される会話に含まれる単語の総数に対する、当該会話に含まれる重要語句の数の比率を算出し、当該比率を会話の重要度として扱う。なお、音声データによって表される会話に含まれる単語の数をカウントする技術には、既存の技術を利用することができる。
また、重要語句情報において各重要語句に重みを付与しておき、当該重みを考慮して、会話の重要度を算出してもよい。この際、重要語句以外の語句には、重要語句よりも小さいデフォルトの重みを定めておく。例えば、重要語句の重みはいずれも1より大きい値とし、重要語句以外の語句の重みを1とする。判定部2020は、会話に含まれる単語の重みの総和に対する、会話に含まれる重要語句の重みの総和の比率を、会話の重要度として算出する。
会話が重要であるか否かは、学習済みモデルを利用して判定されてもよい。当該モデルは、音声データが入力されたことに応じて、当該音声データによって表される会話の重要度を出力するように構成されている。判定部2020は、取得した音声データをモデルに入力することで、当該モデルから、音声データによって表される会話の重要度を得る。そして判定部2020は、会話の重要度が閾値以上であれば会話が重要であると判定し、当該重要度が閾値未満でれば会話が重要でないと判定する。
上記モデルは、「音声データ、正解の重要度」というペアで構成される学習データを利用して、学習することができる。例えば重要度は、最小値を1とし、最大値を10とする10段階のレベルで表すことができる。
会話が重要なものであるか否かは、ビデオデータを利用して判定されてもよい。例えば会話が重要なものであるか否かは、人物グループ40に含まれる各人物10の表情に基づいて判定することができる。人物グループ40で重要な会話が行われている場合、各人物10の表情は真剣なものである確率が高い一方、人物グループ40で重要でない会話が行われている場合、各人物10の表情は真剣でないものである(例えば全員が笑いながら会話をしている)確率が高いと考えられる。
そこで例えば、真剣な顔の画像上の特徴量や、真剣でない顔(例えば笑顔)の画像上の特徴量を予め定めておく。判定部2020は、これらの特徴量を利用してビデオデータを解析することで、人物グループ40に含まれる各人物10について、表情の真剣さの度合いを表す指標値を算出する。そして、判定部2020は、算出された指標値が閾値以上である場合に、会話が重要なものである(すなわち、人物グループ40が好適状態でない)と判定し、算出された指標値が閾値未満である場合に、会話が重要なものでない(すなわち、人物グループ40が好適状態である)と判定する。
また、ビデオデータが入力されたことに応じて、当該ビデオデータに含まれている複数の人物によって行われている会話の重要度を出力する学習済みモデルを利用してもよい。この場合、判定部2020は、ビデオデータを当該モデルに入力することで、当該モデルから、会話の重要度を取得する。当該モデルの学習は、「ビデオデータ、正解の重要度」というペアで構成される学習データを利用して実現できる。
<通知の実行:S104>
人物グループ40が好適状態である場合(S102:YES)、通知部2040は所定通知を実行する(S104)。所定通知には、様々なものを採用できる。
例えば所定通知は、人物グループ40に対する警告を表す通知(以下、警告通知)である。例えば警告通知は、移動型ロボット20を利用して行われる。具体的には、警告通知は、移動型ロボット20に設けられているディスプレイ装置に表示される警告画面や、移動型ロボット20に設けられているプロジェクタから照射される警告画像などである。その他にも例えば、警告通知は、移動型ロボット20に設けられているスピーカーから出力される音声であってもよい。なお、人物グループ40のみに通知を出力したい場合、移動型ロボット20に指向性スピーカーを設けておき、当該指向性スピーカーの出力方向を人物グループ40の方へ向けた上で、通知を出力することが好適である。
警告画面等の警告通知に含める情報は任意である。例えば警告通知には、会話をやめるように促すメッセージが含まれる。その他にも例えば、警告通知には、感染症対策のために保つべき、人と人との間の距離(いわゆるソーシャルディスタンスやフィジカルディスタンス)を把握可能な情報が含まれる。例えば前述したように、プロジェクタから警告画像を地面に投射するとする。この場合、警告画像に、推奨される人と人との間の距離を表す画像(例えば、直径が当該距離と同じ値である円の画像)が含まれるようにする。特に、このような警告画像を人物グループ40の足下に投射することで、人物グループ40に含まれる各人物10は、互いの間の距離をどの程度の長さ以上にすべきかを、視覚的に容易に把握することができる。
ここで、移動型ロボット20は、人物グループ40に対してある程度近づいた上で所定通知を出力するようにしてもよい。例えば通知制御装置2000は、人物グループ40からの距離が所定の閾値以下である位置まで移動型ロボット20を移動させ、その後に所定通知が移動型ロボット20から出力されるようにしてもよい。なお、移動型ロボット20を所望の位置まで移動させる技術には、既存の技術を利用することができる。
その他にも例えば、通知部2040は、人物グループ40に含まれる各人物10に対して、警告通知を送信してもよい。この場合、監視領域内に滞在しうる各人物10の識別情報(例えば、各従業員の画像上の特徴量や声の音声特徴量など)と、当該人物10に対する通知の送信先(例えば、メールアドレスなど)とを対応づけた情報を、通知部2040からアクセス可能な記憶装置に予め格納しておく。通知部2040は、警告対象の人物グループ40に含まれる各人物10の識別情報を特定し、当該識別情報に対応する送信先へ、前述した通知を送信する。
また、通知部2040は、人物グループ40の状態に応じて多段階に警告通知を出力してもよい。この場合、複数の警告レベルそれぞれに対し、それぞれ異なる警告通知を対応づけた情報を、予め通知部2040からアクセス可能な記憶装置に格納しておく。例えば、より高い警告レベルには、より目立つ(警告の効果が大きい)警告通知が対応づけられる。
例えば警告レベルは、人物グループ40が会話をしている時間(以下、会話時間)の長さや、人物グループ40が行っている会話の重要度に応じて決定される。例えば、会話時間が長いほど、警告レベルが高くなるようにする。また、人物グループ40が行っている会話の重要度が高いほど、警告レベルが低くなるようにする。
会話時間の長さを利用する場合、会話監視装置は、人物グループ40が好適状態であると判定された後も、人物グループ40が会話をしているか否かを繰り返し判定し続けることで、人物グループ40の会話時間を計測する。通知部2040は、会話時間の増加に応じて、多段階に警告通知を行う。
例えば、会話時間の閾値として、P1、P2、及び P3(P1<P2<P3)の3つが設けられているとする。通知部2040は、会話時間が P1 以上となった場合に、「人物グループ40から所定の距離以内の位置まで移動する」という第1レベルの警告処理を行う。次に、通知部2040は、会話時間が P2 以上となった場合に、「警告画面をディスプレイ装置に表示する、又は警告画像を地面に投射する」という第2レベルの警告処理を行う。そして、通知部2040は、会話時間が P3 以上となった場合に、「警告の音声をスピーカーから出力する」という第3レベルの警告処理を行う。
このように会話の合計時間に応じた多段階の警告を行うことで、会話の合計時間が短いうちは控えめな警告を行い、会話の合計時間が長くなるにつれてより目立つ警告を行う、といった運用が可能となる。これにより、警告の効果の大きさと、警告が人の活動の妨げになる度合いとのバランスを取ることができる。すなわち、会話の合計時間が短いうちは、会話を止めさせる効果が小さくてもよいから、できる限り会話の妨げにならないように配慮した警告を行い、会話の合計時間が長くなったら、ある程度会話の妨げになってもよいから、会話を止めさせる効果が大きい警告を行う、といった運用が可能となる。
なお、会話の合計時間に応じて多段階に警告を行う際、会話の合計時間が閾値(例えば前述した P1 など)以上となったタイミングで、人物グループ40が好適状態でなくなっている可能性がある。そこで例えば、通知部2040は、再度人物グループ40が好適状態になるまで、警告通知を行わないようにしてもよい。すなわち、会話の合計時間が閾値以上となったタイミングで、判定部2020が再度、人物グループ40が好適状態であるか否かの判定を行う。そして、通知部2040は、人物グループ40が好適状態であると判定された後に、警告通知を行う。
通知部2040は、会話の重要度に応じて通知を異ならせてもよい。例えば、判定部2020によって算出される会話の重要度が、1~10の10段階で表されるとする。ここで、重要度の値が小さいほど、重要度が低いとする。そしてこの場合に、人物グループ40において行われている会話の重要度が4以下である状況を、人物グループ40が好適状態である状況として扱うとする。
この場合、好適状態であると判定される人物グループ40の会話の重要度は、1から4のいずれかとなる。そこで例えば、好適状態であると判定される会話の重要度に対応して、4段階の警告レベルを設けておく。ここで、会話の重要度が低いほど、高いレベルの警告を行うことが好ましい。そこで、人物グループ40の会話の重要度が1である場合、通知部2040は、最も高い警告レベルの警告を出力する。一方、人物グループ40の会話の重要度が4である場合、通知部2040は、最も低い警告レベルの警告を出力する。
このように会話の重要度に応じた多段階の警告を行うことで、会話の重要度が高い場合には控えめな警告を行い、会話の重要度が低い場合には目立つ警告を行う、といった運用が可能となる。これにより、前述したように、警告の効果の大きさと、警告が人の活動の妨げになる度合いとのバランスを取ることができる。
<移動型ロボット20の制御について>
前述したように、通知部2040は、移動型ロボット20を候補グループや人物グループ40に近づけるなど、移動型ロボット20の制御を行ってもよい。移動型ロボット20を特定の目的地へ移動させるためには、移動型ロボット20が参照可能な地図データを用いて、当該目的地までの移動経路を設定する。ここで、地図データを用いて目的地への移動経路を算出し、算出した移動経路を移動型ロボット20に設定する処理を行う装置を、経路設定装置と呼ぶ。経路設定装置は、移動型ロボット20であってもよいし、通知制御装置2000であってもよいし、これら以外の装置であってもよい。
経路設定装置は、監視領域の地図データを取得し、当該地図データと、前述した種々の方法で決定した目的地(移動型ロボット20を移動させるべき位置)とに基づいて、移動型ロボット20の移動経路を算出する。そして、経路設定装置は、算出した移動経路を移動型ロボット20に設定する。移動型ロボット20は、設定された移動経路に従って移動する。なお、経路設定装置が通知制御装置2000以外の装置である場合、通知制御装置2000は、経路設定装置に対し、移動型ロボット20に設定すべき目的地を示す情報を提供する。
なお、地図データと目的地の情報とに基づいて移動経路を算出する技術には、既存の技術を利用することができる。
移動型ロボット20は、監視領域にいる人の行動の妨げとならないように移動することが好ましい。例えば移動型ロボット20は、移動型ロボット20に設けられているカメラから得られるビデオデータを利用して、監視領域にいる各人物の動きを把握し、各人物と接触しないように移動する。なお、人との接触を避けて移動型ロボット20を移動させる技術には、既存の技術(例えば、自動運転車を他の自動車や通行人などとぶつからないように移動させる技術など)を採用することができる。
その他にも例えば、移動型ロボット20は、候補グループや人物グループ40に含まれない人物の視界に移動型ロボット20が入らないように移動することが好適である。そこで例えば、経路設定装置は、移動型ロボット20に設けられているカメラから得られるビデオデータから、候補グループや人物グループ40に含まれない人物10が検出されたら、その人物10の顔の方向又は視線方向を特定する。そして、経路設定装置は、特定した顔の方向又は視線方向と、移動型ロボット20の目的地とに基づいて、人物10の視界に入らずに当該目的地へ移動型ロボット20が到達するための移動経路を算出し、当該移動経路を移動型ロボット20に設定する。
ただし、人物10の顔の方向や視線方向が繰り返し大きく変化する場合などには、人物10の視界に入らないように移動型ロボット20を移動させることが難しいこともありうる。そこで例えば、経路設定装置は、顔の方向や視線方向が大きく変化する蓋然性が低い人物(例えば、立ち止まっている人物や椅子に座っている人物)のみをビデオデータから検出し、検出された人物の視界に入らないように移動型ロボット20の移動経路を設定してもよい。
移動型ロボット20は、通知制御装置2000による制御を受け付けるまでの間、停止していてもよいし、移動していてもよい。後者の場合、例えば移動型ロボット20に対し、監視領域内の一部又は全部を巡回するように移動経路を設定しておく。特に、人物グループ40の検出に移動型ロボット20に設けられているカメラが利用される場合、監視領域内を移動型ロボット20に巡回させることで、監視領域内の様々な場所で人物グループ40を検出できるようにすることが好適である。以下、巡回用に移動型ロボット20に設定されている移動経路のことを、巡回経路とも表記する。
巡回経路には、監視領域のうち、人の分布の密度が高い(すなわち、人が多い)領域が含まれることが好ましい。例えば、巡回経路には、監視領域のうち、人の分布の密度が高い領域のみが含まれるようにする。その他にも例えば、巡回経路は、人の分布の密度が高い領域を巡回する頻度が、人の密度が低い領域を巡回する頻度よりも高くなるように設定される。
また、監視領域の天井等に固定で設置されているカメラ(以下、固定カメラ)があり、このような固定カメラと移動型ロボット20に設けられているカメラの双方を人物グループ40の検出に利用する場合、移動型ロボット20の巡回経路には、固定カメラの撮像範囲に含まれない領域(以下、撮像範囲外領域)が含まれることが好ましい。このようにすることで、固定カメラで撮像することが難しい領域を移動型ロボット20に撮像させることができるため、監視領域内を幅広く監視することができるようになる。
巡回経路は、人手で設定されてもよいし、経路設定装置によって自動的に設定されてもよい。後者の場合、例えば経路設置装置は、固定カメラによって生成されるビデオデータを解析することで、当該固定カメラについて撮像範囲外領域を特定し、当該撮像範囲外領域を含む巡回経路を生成する。より具体的には、経路設定装置は、監視領域の地図データと固定カメラによって生成されるビデオデータとを用いて、固定カメラの撮像範囲内の領域を特定し、当該特定した領域以外の領域を、撮像範囲外領域として特定する。
例えば、撮像範囲外領域が、1つの閉じた領域であるとする。この場合、経路設定装置は、撮像範囲外領域の中を巡回するように、巡回経路を生成する。一方、撮像範囲外領域が、互いに繋がっていない複数の領域であるとする。この場合、例えば経路設定装置は、これら複数の撮像範囲外領域を順次巡回するように、巡回経路を生成する。なお、監視領域に移動型ロボット20が複数設けられている場合、各移動型ロボット20に対して、それぞれ異なる巡回経路が設定されてもよい。この場合、各巡回経路には、互いに異なる撮像範囲外領域が含まれるようにすることが好ましい。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
なお、上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに提供することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば、光磁気ディスク)、CD-ROM、CD-R、CD-R/W、半導体メモリ(例えば、マスク ROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM)を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに提供されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない
(付記1)
監視領域内において互いに所定距離以内で会話をしている複数の人物について、前記複数の人物が含まれるビデオデータ又は前記複数の人物の声が含まれる音声データを取得し、前記ビデオデータ又は前記音声データを解析することで、前記複数の人物の状態が、所定の通知を受けることに適した状態であるか否かを判定する判定部と、
前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定された場合に、前記所定の通知を出力する通知部と、を有する通知制御装置。
(付記2)
前記判定部は、
前記ビデオデータ又は前記音声データを用いて、前記複数の人物の会話が中断しているか否かを判定し、
前記複数の人物の会話が中断している場合に、前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定する、付記1に記載の通知制御装置。
(付記3)
前記判定部は、
前記ビデオデータ又は前記音声データを用いて、前記複数の人物の会話が重要なものであるか否かを判定し、
前記会話が重要なものでない場合に、前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定する、付記1に記載の通知制御装置。
(付記4)
前記判定部は、
前記複数の人物の会話に重要語句が含まれていない場合に、前記複数の人物の会話が重要でないと判定するか、又は、
前記複数の人物の会話における重要語句の比率が閾値未満である場合に、前記複数の人物の会話が重要でないと判定する、付記3に記載の通知制御装置。
(付記5)
前記所定の通知は移動型ロボットから出力され、
前記通知部は、前記複数の人物の状態が前記所定の通知を受けることに適していない状態であると判定された場合、前記移動型ロボットを前記複数の人物に近づくように移動させる、付記1から4いずれか一項に記載の通知制御装置。
(付記6)
前記通知部は、移動型ロボットに設けられている指向性スピーカーの出力方向を前記複数の人物の方向へ向け、前記指向性スピーカーから前記所定の通知を出力させる、付記1から5いずれか一項に記載の通知制御装置。
(付記7)
前記所定の通知には、感染症への感染を防ぐために人と人との間で確保すべき距離を把握可能な情報が含まれる、付記1から6いずれか一項に記載の通知制御装置。
(付記8)
前記判定部は、前記複数の人物によって行われている会話の時間を算出し、
前記通知部は、前記算出された時間の長さに応じた通知を出力する、付記1から7いずれか一項に記載の通知制御装置。
(付記9)
前記判定部は、前記複数の人物によって行われている会話の重要度を算出し、
前記通知部は、前記算出された重要度に応じた通知を出力する、付記1から7いずれか一項に記載の通知制御装置。
(付記10)
コンピュータによって実行される通知制御方法であって、
監視領域内において互いに所定距離以内で会話をしている複数の人物について、前記複数の人物が含まれるビデオデータ又は前記複数の人物の声が含まれる音声データを取得し、前記ビデオデータ又は前記音声データを解析することで、前記複数の人物の状態が、所定の通知を受けることに適した状態であるか否かを判定する判定ステップと、
前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定された場合に、前記所定の通知を出力する通知ステップと、を有する通知制御方法。
(付記11)
前記判定ステップにおいて、
前記ビデオデータ又は前記音声データを用いて、前記複数の人物の会話が中断しているか否かを判定し、
前記複数の人物の会話が中断している場合に、前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定する、付記10に記載の通知制御方法。
(付記12)
前記判定ステップにおいて、
前記ビデオデータ又は前記音声データを用いて、前記複数の人物の会話が重要なものであるか否かを判定し、
前記会話が重要なものでない場合に、前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定する、付記10に記載の通知制御方法。
(付記13)
前記判定ステップにおいて、
前記複数の人物の会話に重要語句が含まれていない場合に、前記複数の人物の会話が重要でないと判定するか、又は、
前記複数の人物の会話における重要語句の比率が閾値未満である場合に、前記複数の人物の会話が重要でないと判定する、付記12に記載の通知制御方法。
(付記14)
前記所定の通知は移動型ロボットから出力され、
前記通知ステップにおいて、前記複数の人物の状態が前記所定の通知を受けることに適していない状態であると判定された場合、前記移動型ロボットを前記複数の人物に近づくように移動させる、付記10から13いずれか一項に記載の通知制御方法。
(付記15)
前記通知ステップにおいて、移動型ロボットに設けられている指向性スピーカーの出力方向を前記複数の人物の方向へ向け、前記指向性スピーカーから前記所定の通知を出力させる、付記10から14いずれか一項に記載の通知制御方法。
(付記16)
前記所定の通知には、感染症への感染を防ぐために人と人との間で確保すべき距離を把握可能な情報が含まれる、付記10から15いずれか一項に記載の通知制御方法。
(付記17)
前記判定ステップにおいて、前記複数の人物によって行われている会話の時間を算出し、
前記通知ステップにおいて、前記算出された時間の長さに応じた通知を出力する、付記10から16いずれか一項に記載の通知制御方法。
(付記18)
前記判定ステップにおいて、前記複数の人物によって行われている会話の重要度を算出し、
前記通知ステップにおいて、前記算出された重要度に応じた通知を出力する、付記10から16いずれか一項に記載の通知制御方法。
(付記19)
プログラムが格納されているコンピュータ可読媒体であって、
前記プログラムはコンピュータに、
監視領域内において互いに所定距離以内で会話をしている複数の人物について、前記複数の人物が含まれるビデオデータ又は前記複数の人物の声が含まれる音声データを取得し、前記ビデオデータ又は前記音声データを解析することで、前記複数の人物の状態が、所定の通知を受けることに適した状態であるか否かを判定する判定ステップと、
前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定された場合に、前記所定の通知を出力する通知ステップと、を実行させるコンピュータ可読媒体。
(付記20)
前記判定ステップにおいて、
前記ビデオデータ又は前記音声データを用いて、前記複数の人物の会話が中断しているか否かを判定し、
前記複数の人物の会話が中断している場合に、前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定する、付記19に記載のコンピュータ可読媒体。
(付記21)
前記判定ステップにおいて、
前記ビデオデータ又は前記音声データを用いて、前記複数の人物の会話が重要なものであるか否かを判定し、
前記会話が重要なものでない場合に、前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定する、付記19に記載のコンピュータ可読媒体。
(付記22)
前記判定ステップにおいて、
前記複数の人物の会話に重要語句が含まれていない場合に、前記複数の人物の会話が重要でないと判定するか、又は、
前記複数の人物の会話における重要語句の比率が閾値未満である場合に、前記複数の人物の会話が重要でないと判定する、付記21に記載のコンピュータ可読媒体。
(付記23)
前記所定の通知は移動型ロボットから出力され、
前記通知ステップにおいて、前記複数の人物の状態が前記所定の通知を受けることに適していない状態であると判定された場合、前記移動型ロボットを前記複数の人物に近づくように移動させる、付記19から22いずれか一項に記載のコンピュータ可読媒体。
(付記24)
前記通知ステップにおいて、移動型ロボットに設けられている指向性スピーカーの出力方向を前記複数の人物の方向へ向け、前記指向性スピーカーから前記所定の通知を出力させる、付記19から23いずれか一項に記載のコンピュータ可読媒体。
(付記25)
前記所定の通知には、感染症への感染を防ぐために人と人との間で確保すべき距離を把握可能な情報が含まれる、付記19から24いずれか一項に記載のコンピュータ可読媒体。
(付記26)
前記判定ステップにおいて、前記複数の人物によって行われている会話の時間を算出し、
前記通知ステップにおいて、前記算出された時間の長さに応じた通知を出力する、付記19から25いずれか一項に記載のコンピュータ可読媒体。
(付記27)
前記判定ステップにおいて、前記複数の人物によって行われている会話の重要度を算出し、
前記通知ステップにおいて、前記算出された重要度に応じた通知を出力する、付記19から25いずれか一項に記載のコンピュータ可読媒体。
10 人物
20 移動型ロボット
22 カメラ
24 マイクロフォン
26 アクチュエータ
27 移動手段
40 人物グループ
50 記憶装置
60 会話情報
500 コンピュータ
502 バス
504 プロセッサ
506 メモリ
508 ストレージデバイス
510 入出力インタフェース
512 ネットワークインタフェース
600 コントローラ
602 バス
604 プロセッサ
606 メモリ
608 ストレージデバイス
610 入出力インタフェース
612 ネットワークインタフェース
2000 通知制御装置
2020 判定部
2040 通知部

Claims (10)

  1. 監視領域内において互いに所定距離以内で会話をしている複数の人物について、前記複数の人物が含まれるビデオデータ又は前記複数の人物の声が含まれる音声データを取得し、前記ビデオデータ又は前記音声データを解析することで、前記複数の人物の状態が、所定の通知を受けることに適した状態であるか否かを判定する判定部と、
    前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定された場合に、前記所定の通知を出力する通知部と、を有し、
    前記判定部は、
    前記ビデオデータ又は前記音声データを用いて、前記複数の人物の会話が中断しているか否かを判定し、
    前記複数の人物の会話が中断している場合に、前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定する、通知制御装置。
  2. 監視領域内において互いに所定距離以内で会話をしている複数の人物について、前記複数の人物が含まれるビデオデータ又は前記複数の人物の声が含まれる音声データを取得し、前記ビデオデータ又は前記音声データを解析することで、前記複数の人物の状態が、所定の通知を受けることに適した状態であるか否かを判定する判定部と、
    前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定された場合に、前記所定の通知を出力する通知部と、を有し、
    前記判定部は、
    前記ビデオデータ又は前記音声データを用いて、前記複数の人物の会話が重要なものであるか否かを判定し、
    前記会話が重要なものでない場合に、前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定し、
    前記判定部は、
    前記複数の人物の会話に重要語句が含まれていない場合に、前記複数の人物の会話が重要でないと判定するか、
    前記複数の人物の会話における重要語句の比率が閾値未満である場合に、前記複数の人物の会話が重要でないと判定するか、又は、
    前記ビデオデータ又は前記音声データが入力されたことに応じて前記複数の人物の会話の重要度を出力するように学習された学習済みモデルに対し、前記ビデオデータ又は前記音声データを入力することによって、前記複数の人物の会話の重要度を算出し、算出された前記重要度が閾値未満である場合に、前記複数の人物の会話が重要でないと判定する、通知制御装置。
  3. 前記所定の通知は移動型ロボットから出力され、
    前記通知部は、前記複数の人物の状態が前記所定の通知を受けることに適していない状態であると判定された場合、前記移動型ロボットを前記複数の人物に近づくように移動させる、請求項1又は2いずれか一項に記載の通知制御装置。
  4. 前記通知部は、移動型ロボットに設けられている指向性スピーカーの出力方向を前記複数の人物の方向へ向け、前記指向性スピーカーから前記所定の通知を出力させる、請求項1からいずれか一項に記載の通知制御装置。
  5. 前記所定の通知には、感染症への感染を防ぐために人と人との間で確保すべき距離を把握可能な情報が含まれる、請求項1からいずれか一項に記載の通知制御装置。
  6. 前記判定部は、前記複数の人物によって行われている会話の重要度を算出し、
    前記通知部は、前記算出された重要度に応じた通知を出力する、請求項1からいずれか一項に記載の通知制御装置。
  7. コンピュータによって実行される通知制御方法であって、
    監視領域内において互いに所定距離以内で会話をしている複数の人物について、前記複数の人物が含まれるビデオデータ又は前記複数の人物の声が含まれる音声データを取得し、前記ビデオデータ又は前記音声データを解析することで、前記複数の人物の状態が、所定の通知を受けることに適した状態であるか否かを判定する判定ステップと、
    前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定された場合に、前記所定の通知を出力する通知ステップと、を有し、
    前記判定ステップにおいて、
    前記ビデオデータ又は前記音声データを用いて、前記複数の人物の会話が中断しているか否かを判定し、
    前記複数の人物の会話が中断している場合に、前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定する、通知制御方法。
  8. コンピュータによって実行される通知制御方法であって、
    監視領域内において互いに所定距離以内で会話をしている複数の人物について、前記複数の人物が含まれるビデオデータ又は前記複数の人物の声が含まれる音声データを取得し、前記ビデオデータ又は前記音声データを解析することで、前記複数の人物の状態が、所定の通知を受けることに適した状態であるか否かを判定する判定ステップと、
    前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定された場合に、前記所定の通知を出力する通知ステップと、を有し、
    前記判定ステップにおいて、
    前記ビデオデータ又は前記音声データを用いて、前記複数の人物の会話が重要なものであるか否かを判定し、
    前記会話が重要なものでない場合に、前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定し、
    前記複数の人物の会話が重要なものであるか否かの判定は、
    前記複数の人物の会話に重要語句が含まれていない場合に、前記複数の人物の会話が重要でないと判定すること、
    前記複数の人物の会話における重要語句の比率が閾値未満である場合に、前記複数の人物の会話が重要でないと判定すること、又は、
    前記ビデオデータ又は前記音声データが入力されたことに応じて前記複数の人物の会話の重要度を出力するように学習された学習済みモデルに対し、前記ビデオデータ又は前記音声データを入力することによって、前記複数の人物の会話の重要度を算出し、算出された前記重要度が閾値未満である場合に、前記複数の人物の会話が重要でないと判定することを含む、通知制御方法。
  9. 監視領域内において互いに所定距離以内で会話をしている複数の人物について、前記複数の人物が含まれるビデオデータ又は前記複数の人物の声が含まれる音声データを取得し、前記ビデオデータ又は前記音声データを解析することで、前記複数の人物の状態が、所定の通知を受けることに適した状態であるか否かを判定する判定ステップと、
    前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定された場合に、前記所定の通知を出力する通知ステップと、をコンピュータに実行させ
    前記判定ステップにおいて、
    前記ビデオデータ又は前記音声データを用いて、前記複数の人物の会話が中断しているか否かを判定し、
    前記複数の人物の会話が中断している場合に、前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定する、プログラム。
  10. 監視領域内において互いに所定距離以内で会話をしている複数の人物について、前記複数の人物が含まれるビデオデータ又は前記複数の人物の声が含まれる音声データを取得し、前記ビデオデータ又は前記音声データを解析することで、前記複数の人物の状態が、所定の通知を受けることに適した状態であるか否かを判定する判定ステップと、
    前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定された場合に、前記所定の通知を出力する通知ステップと、をコンピュータに実行させ、
    前記判定ステップにおいて、
    前記ビデオデータ又は前記音声データを用いて、前記複数の人物の会話が重要なものであるか否かを判定し、
    前記会話が重要なものでない場合に、前記複数の人物の状態が前記所定の通知を受けることに適した状態であると判定し、
    前記複数の人物の会話が重要なものであるか否かの判定は、
    前記複数の人物の会話に重要語句が含まれていない場合に、前記複数の人物の会話が重要でないと判定すること、
    前記複数の人物の会話における重要語句の比率が閾値未満である場合に、前記複数の人物の会話が重要でないと判定すること、又は、
    前記ビデオデータ又は前記音声データが入力されたことに応じて前記複数の人物の会話の重要度を出力するように学習された学習済みモデルに対し、前記ビデオデータ又は前記音声データを入力することによって、前記複数の人物の会話の重要度を算出し、算出された前記重要度が閾値未満である場合に、前記複数の人物の会話が重要でないと判定することを含む、プログラム。
JP2022534570A 2020-07-08 2020-07-08 通知制御装置、制御方法、及びプログラム Active JP7476965B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/026749 WO2022009350A1 (ja) 2020-07-08 2020-07-08 通知制御装置、制御方法、及びコンピュータ可読媒体

Publications (3)

Publication Number Publication Date
JPWO2022009350A1 JPWO2022009350A1 (ja) 2022-01-13
JPWO2022009350A5 JPWO2022009350A5 (ja) 2023-03-17
JP7476965B2 true JP7476965B2 (ja) 2024-05-01

Family

ID=79552453

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022534570A Active JP7476965B2 (ja) 2020-07-08 2020-07-08 通知制御装置、制御方法、及びプログラム

Country Status (3)

Country Link
US (1) US20230229164A1 (ja)
JP (1) JP7476965B2 (ja)
WO (1) WO2022009350A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009011380A1 (ja) 2007-07-19 2009-01-22 Nec Corporation センシング装置、システム、制御方法、及び制御プログラム
JP2017098958A (ja) 2015-11-24 2017-06-01 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation アラート機能を動的に制御する方法、コンピュータ・プログラム、およびコンピュータ・システム
JP2018097564A (ja) 2016-12-13 2018-06-21 ヤフー株式会社 配信装置、配信方法、配信プログラム、端末装置、表示方法、及び表示プログラム
US20190356534A1 (en) 2018-05-21 2019-11-21 Qualcomm Incorporated Notification timing for electronic devices
WO2019239813A1 (ja) 2018-06-14 2019-12-19 パナソニックIpマネジメント株式会社 情報処理方法、情報処理プログラム及び情報処理システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009011380A1 (ja) 2007-07-19 2009-01-22 Nec Corporation センシング装置、システム、制御方法、及び制御プログラム
JP2017098958A (ja) 2015-11-24 2017-06-01 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation アラート機能を動的に制御する方法、コンピュータ・プログラム、およびコンピュータ・システム
JP2018097564A (ja) 2016-12-13 2018-06-21 ヤフー株式会社 配信装置、配信方法、配信プログラム、端末装置、表示方法、及び表示プログラム
US20190356534A1 (en) 2018-05-21 2019-11-21 Qualcomm Incorporated Notification timing for electronic devices
WO2019239813A1 (ja) 2018-06-14 2019-12-19 パナソニックIpマネジメント株式会社 情報処理方法、情報処理プログラム及び情報処理システム

Also Published As

Publication number Publication date
US20230229164A1 (en) 2023-07-20
JPWO2022009350A1 (ja) 2022-01-13
WO2022009350A1 (ja) 2022-01-13

Similar Documents

Publication Publication Date Title
US10614693B2 (en) Dangerous situation notification apparatus and method
JP6729793B2 (ja) 情報処理装置、制御方法、及びプログラム
US10803715B2 (en) Intelligent emergency evacuation system
CN110209281B (zh) 对运动信号进行处理的方法、电子设备和介质
WO2018230654A1 (ja) インタラクション装置、インタラクション方法、およびプログラム
KR20160040954A (ko) 긴급 재난신고를 판단하는 방법 및 장치
JP2009166184A (ja) ガイドロボット
JP2022000825A (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP2022111128A (ja) 警備システム及び監視表示装置
JP7476965B2 (ja) 通知制御装置、制御方法、及びプログラム
US11195404B2 (en) Interpreting reactions of other people for physically impaired during an emergency situation
JP2021135363A (ja) 制御システム、制御装置、制御方法及びコンピュータプログラム
JP2020040839A (ja) エレベータの遠隔監視システム
JP7416253B2 (ja) 会話監視装置、制御方法、及びプログラム
JPWO2020021861A1 (ja) 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
WO2022009339A1 (ja) 会話監視装置、制御方法、及びコンピュータ可読媒体
KR102319583B1 (ko) 영상 또는 음성 분석에 기반한 상호 대화형 컨텐츠 제공 시스템
WO2023286152A1 (ja) 検出装置、検出方法、及び非一時的なコンピュータ可読媒体
US20210383803A1 (en) Information processing apparatus, control method thereof, and program
CN111985309A (zh) 告警方法、摄像器件及存储装置
US11081114B2 (en) Control method, voice interaction apparatus, voice recognition server, non-transitory storage medium, and control system
JP2019140654A (ja) ドアベル
JP7308068B2 (ja) 警備システム及び監視表示装置
US11997445B2 (en) Systems and methods for live conversation using hearing devices
JP7434635B1 (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230105

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240401