JP7430087B2

JP7430087B2 - 発話制御装置

Info

Publication number: JP7430087B2
Application number: JP2020052771A
Authority: JP
Inventors: 瞳山口; 純洙權
Original assignee: Fujita Corp
Current assignee: Fujita Corp
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2024-02-09
Anticipated expiration: 2040-03-24
Also published as: JP2021152739A

Description

本発明は、例えば発話機能を有する対人ロボット等への適用が可能な発話制御装置に関する。

従来、人物を検出してロボット等から発話させる先行技術が知られている（例えば、特許文献１参照。）。この先行技術の例では、建物内に検知領域を設定して人物の位置を特定し、カメラなどのセンサで人物とロボットとの位置を随時検出する。そして、ロボットと人物との位置関係に基づいて人物の移動距離を随時推定し、対話可能距離以下で人物の顔を認識することができた場合、ロボットに人物との対話を実行させることとしている。

特開２０１３－６１７１５号公報

上述した先行技術は、対話を実行させる相手が予めＩＣタグを所持した人物であるため、特段に複雑な判定処理を用いることなく、無線ＩＣタグリーダ等による単純検知だけで容易に人物を検出可能である。また、対象とする人物は決まった建物（介護施設）内に収容されている監視対象者であり、検知領域に入った人物が建物から退出する移動経路についても予め限定（想定）されているため、対話可能距離以下に人物が移動したことについても容易に推定可能である。このため先行技術は、発話を実行させるための制御処理が至って簡素である。

しかしながら、発話対象が不特定の人物であって、人物がどの場所を通るかについて未知であり、かつ、移動経路もランダムである不特定な条件下での発話の実行を前提とした場合、先行技術の手法では適切に制御することができない。

そこで本発明は、不特定な条件下でも適切に発話を制御する技術を提供するものである。

本発明は、発話制御装置を提供する。この発話制御装置は、所定の撮像エリアを連続的に撮像して得られた画像から人物（人物が存在すること）を連続的に判定可能である。このような判定は、例えば畳み込みニューラルネットワークを用いた画像認識モデル（いわゆる人工知能モデル）を用いて実現可能である。画像認識で用いて得られた人物の判定結果には、撮像領域に占める人物の画像領域（大きさ）が情報として含まれる。このため人物の判定結果は、ある基準点（例えばカメラ等の撮像地点）から人物までの距離の判定に用いることができる。

人物までの距離が判定できれば、この対人距離が適切な値（例えば、発話されたことに人物が気付きやすく、また、発話音声が人物に聞き取りやすい距離）となった時に発話音声を出力させればよいと一見して考えられる。しかし、このような考え方は、人物の判定から対人距離の判定、そして発話音声の出力までの間に遅延を生じない限りにおいて有効であり、何らかの遅延を生じる前提では当てはまらない。というのも、連続画像から人物を連続的に判定可能とするには、画像認識モデルを精緻な構成（いわゆる高精度ＡＩモデル）とする必要がある。そして、人物判定の精度と処理速度とはトレードオフの関係にあり、高精度な人物判定には時間的な遅延が伴うことから、人物の判定が即座に対人距離の判定とはならず、理想のタイミングで発話音声を出力させるためには、何らかの補償をする必要が生じてくる。

そこで本発明の発話制御装置は、対人距離の変化量から人物の移動傾向を測り、そこから推測して最適なタイミングで発話音声を出力させることとしている。すなわち、人物の判定結果から対人距離を判定することで、対人距離の変化量（単位時間Δｔあたりの距離変位ΔＤ）を判定することができる。この変化量の判定結果からは、さらに人物の移動傾向が得られることになる。したがって、人物の判定結果を得るまでの遅延時間を加味した上で、人物の移動傾向から最適な発話地点に人物が到達するタイミングを推測すれば、実際に人物が最適な場所に到達したタイミングで発話音声を出力させることができる。

これにより、予めＩＤ情報等を所持しない不特定多数の人物が、任意の場所をランダムな方向に移動するような環境（例えば建設現場）においても、高精度モデルを用いて人物を判定した場合、その人物との位置関係が最適な距離となるタイミングで発話音声を出力させることにより、発話されたことを人物に気付かせやすくし、また、発話内容を人物に聞き取りやすくすることができる。

上記の発話制御では、発話地点をピンポイント（基準点から等距離線上にある各地点）に設定しているため、人物が発話地点に到達するタイミングの推測をどの時点から開始すればよいかについての基準が必要となる。例えば、極端に遠方（対人距離が１５ｍ以上）の場所にいる人物を判定したとしても、その人物が発話地点に向かってくるとは限らず、場合によっては撮像エリアから居なくなってしまうこともあり得るため、あまり離れた地点から発話タイミングの推測を開始することは無意味である（無駄が多い）。逆に、いままで撮像エリア内に存在していなかった人物を突如として判定した場合、その人物が既に発話地点の近くに居るのであれば、直ぐにでも発話タイミングの推測を開始する必要がある。

このような基準を設けるため、発話制御装置は予め「検出エリア」を規定することとしている。検出エリアは、撮像エリア内で発話地点を含む一定の範囲とすることができ、好ましくは発話地点の前後に幅（例えば前後にそれぞれ１～２ｍ）を持たせるのがよい。その上で、人物が検出エリア内に進入してきた際に発話タイミングの推測を開始すれば、その人物は間もなく発話地点に到達する蓋然性が高いと言えるので、適切な時期から推測を開始して発話音声を出力させることが可能となる。

また、一方で発話制御装置は、移動する人物を連続画像から連続的に判定可能な高精度モデルを用いていることから、撮像エリア内で判定した人物の移動を正確に追跡することができる。すなわち、人物までの対人距離及びその変化量を連続的に判定することは、同じ人物を追い続ける判定が可能であることを意味している。したがって、検出エリア以外の場所（例えば遠方）から既に人物を判定していた場合、同じ人物の移動を追跡することで、その人物が検出エリアに進入した際の経路を「遠方からの進入」と判定することができる。あるいは、それまで判定（追跡）していなかった人物を突如、ある時点に検出エリア内で判定した場合、その人物が検出エリアに進入した際の経路を「撮像エリア外（両側方）からの進入」と判定することができる。これらの進入経路を判定した場合、そこから発話タイミングの推測を開始することで、実際に人物が発話地点に到達するタイミングで適切に発話音声を出力させることができる。

上記のような、人物の検出エリアへの進入経路に基づく発話タイミングの推測開始は、人物がある程度理想的なパターンで移動してきた場合には有効であるが、あくまで人物の移動はランダムであるから、常にいずれかの進入経路を判定できるとは限らない。そこで発話制御装置は、一定の例外を設けることとしている。すなわち、人物の進入経路が検出エリアよりも近い、撮像エリア外の方向（手前側）からであると判定した場合、発話タイミングを推測することなく、直ちに発話音声を出力させる。このような進入経路でやってきた人物は、発話元に対して遠方から近づいてきたり、両側方（左右）から来て前を通過したりするパターンと異なり、基本的に発話元に背を向けたまま離れていくパターンであると考えられる。したがって、このような人物の進入経路を判定した場合は即座に発話音声を出力させることで、適切なタイミングで発話内容を聞かせることができる。

また、上記のように検出エリアは、その中に発話地点を含むものではあるが、検出エリア内の人物が必ず発話地点に到達するとも限らない。すなわち、ある人物が一度は検出エリアに進入したものの、発話地点に到達することなく検出エリアの外に出て行くことも充分にあり得る。この場合、「発話地点に到達すると推測されない」ことをもって、発話音声を出力させなかったとすると、ある程度発話地点の近くまで人物が来ていたのに、せっかくの発話機会を逸してしまうことになる。

そこで発話制御装置は、検出エリア内にいる人物が発話地点に到達するタイミングを推測しつつ、その人物が撮像エリア外に出ようとしたと判定すると、直ちに発話音声を出力させることとしている。これにより、人物に対する発話の機会を逸することなく、適切に発話音声を出力させることができる。

本発明によれば、適切に発話を制御することができる。

発話制御装置の適用場面を一例として示す図である。建設現場ＣＳ内で移動ロボットＲＢが発話音声を出力する場面を例示した図である。一実施形態の発話制御装置１００の構成例を示すブロック図である。声掛けシステム１１０による処理の概要を示す図である。対人距離判定部１１８による処理の概要を示す図である。人物が遠方から検出エリアＤＡに進入した場合の声掛けパターンを示す図である。人物が左右から検出エリアＤＡに進入した場合の声掛けパターンを示す図である。人物が前方から検出エリアＤＡに進入した場合の声掛けパターンを示す図である。人物が検出エリアＤＡから左右に移動した場合の声掛けパターンを示す図である。声掛け音声出力処理の手順例を示すフローチャートである。

以下、本発明の実施形態について図面を参照しながら説明する。以下の実施形態では、発話制御装置を移動ロボット（自走式ロボット）による音声出力に適用した例を挙げているが、本発明はこの例に限られるものではない。

図１は、発話制御装置の適用場面を一例として示す図である。本実施形態では、例えば、大型ビルやマンション、医療施設、福祉施設といった建物の建設現場ＣＳでの使用を想定することができる。この建設現場ＣＳは、建物の構造体（コンクリートの梁ＢＭ、壁ＷＬ、床ＦＬ、柱ＣＬ等）がある程度出来上がった状態にあり、内部を人（作業員等）が歩くことができる状態にある。また、図１には示されていないが、建設現場ＣＳには開けた空間の他に、通路や部屋、エレベータシャフト、階段室等も存在する。

この建設現場ＣＳには、例えば自走式の移動ロボットＲＢが配置されている。移動ロボットＲＢは、例えば４つの車輪ＷＨで建設現場ＣＳ内を移動することができる。また、移動ロボットＲＢは、内蔵のＩＰカメラ１１２を用いて周囲を撮像したり、マイク・スピーカ１２８を用いて集音及び発音（発話音声出力）したりすることができる。

移動ロボットＲＢが建設現場ＣＳ内を移動して得た情報は、無線通信を介して例えばクラウドコンピュータ上にアップロードされる。また、移動ロボットＲＢは、クラウドコンピュータから更新情報を適時ダウンロードしてシステムをアップデートすることができる。このような移動ロボットＲＢは、既に多く提供されている公知の自律移動制御システムや環境検知システムを備えるものであり、その詳細についての説明は省略する。なお、移動ロボットＲＢは歩脚式のものでもよい。

本実施形態の発話制御装置は、この適用例に挙げた移動ロボットＲＢによる発話音声出力の制御を好適に実現する。以下、移動ロボットＲＢによる発話音声出力を「声掛け」としても呼称する。

図２は、建設現場ＣＳ内で移動ロボットＲＢが発話音声を出力する場面を例示した図である。移動ロボットＲＢは、日時、周囲の環境、人物の認識を各種センサとＡＩ（人工知能）を用いて行い、各人の状況や建設作業中に関係のある周囲の気候条件や環境に合わせた声掛けを行う。

図２中（Ａ）：移動ロボットＲＢは、例えば建設現場ＣＳ内で作業員を人物認識し、日時や環境、声掛けの対象となる人物の状況に合わせた発話内容を選択する。この例では、人物が立ち止まった姿勢であること、現在が日中の時間帯であること、周囲気温が何らかの閾値を超過すること等の状況から総合判断して、「こんにちは暑いので水分を取って下さい。」といった内容の声掛けを実行している。また、顔認識により人物個人を特定し、「○○さん」のように個人名を付した声掛けも実行することができる。

図２中（Ｂ）：また、移動ロボットＲＢは、例えば建設現場ＣＳ内で作業員を人物認識するとともに、建設関連情報を認識する。この例では、建設関連情報として人物が足場ＳＣに登った高所作業中であることを状況判断し、「危ないですよ！注意して作業して下さい」といった内容の声掛けを実行している。

このような声掛けの仕組みは、移動ロボットＲＢが決まった音声で声掛けする場合と比較して、安全性の向上に利する点が大きい。すなわち、移動ロボットＲＢが建設現場ＣＳ内を移動して回り、「人物認識したら機械的に定型の発話内容で声掛けする」というパターンでは、作業中の人物には発話内容があまり届かず、注意喚起にはつながらない。これに対し、作業員に対してその場の状況に合わせた具体的な健康情報や危険情報、建築関連情報を音声で案内する声掛けのパターンであれば、対象人物の注意喚起につながり、安全性向上に利する点が大きくなる。

〔人物との位置関係〕
ここで、本実施形態の発話制御装置が取り扱う主題は、特に移動ロボットＲＢが声掛けを実行する際の人物との位置関係にある。すなわち、建設現場ＣＳ内には、多数の人物（作業関係者）が各所に存在し、各自がそれぞれに必要な行動をとっている。また、移動ロボットＲＢは移動ロボットＲＢで自律移動を行っているため、移動ロボットＲＢと人物との位置関係は一定していない。このような条件下では、発話対象となる人物（１～２人）との距離があまりに離れたところから移動ロボットＲＢが声掛けしても、その内容をはっきりと人物に届けることができない。そうかといって、あまりに近過ぎるところで声掛けすると、声掛けされた人物に煩わしさや唐突な印象を与えてしまう。

上記の主題には、移動ロボットＲＢを発話元としたときの人物までの距離を適切に管理することで対応可能である。すなわち、移動ロボットＲＢからの声掛けが人物まで届きやすく、かつ、人物にとって聞き取りやすいと感じられる最適な距離があり、そのような最適距離をおいた場所に人物がいるタイミングで、移動ロボットＲＢから声掛けすればよい。

〔遅延の問題〕
しかし、ここで新たに問題となるのは、人物の判定に要する時間である。すなわち、移動ロボットＲＢによる人物の判定（又は検知、検出）には、ＩＰカメラ１１２で撮像した画像から人物を判定する人工知能モデルが用いられる。このとき、より高精度な人工知能モデルを適用することで、画像内に写っている人物をロストすることなく正確に判定（検出）することが可能であるが、高精度なモデルほど、処理に時間がかかることも確かである。このため、人物の判定で高精度な人工知能モデルを用いると、声掛けをするタイミングに遅延が生じることがある。これは、人物を正確に判定できても、その時点では既に人物が他所に移動してしまっていることを意味する。

そこで本実施形態では、高精度人工知能モデルにより生じる処理の遅延を補償し、最適なタイミングで移動ロボットＲＢに声掛けさせる仕組みを構築する。以下、本実施形態で用いる声掛けの仕組みについて説明する。

〔発話制御装置の構成〕
図３は、一実施形態の発話制御装置１００の構成例を示すブロック図である。なお、図３では一部に移動ロボットＲＢの構成要素も合わせて示されている。

発話制御装置１００は、声掛けシステム１１０を中心として構成されている。声掛けシステム１１０は、ＩＰカメラ１１２やマイク・スピーカ１２８からの信号を入力とし、内部でＡＩ（高精度モデル）による処理や各種の演算を行った上で、マイク・スピーカ１２８から発話音声を出力させる制御を実現する。

マイク・スピーカ１２８は、例えば周囲の騒音レベルを計測したり、移動ロボットＲＢから発話音声を出力したりするために用いられる。なお、マイク・スピーカ１２８は別体式（マイクとスピーカが別）の構成であってもよい。

ＩＰカメラ１１２は、人物を含む周囲環境を撮像するために用いられる。ＩＰカメラ１１２には、例えば公知の市販製品を適用することができる。ＩＰカメラ１１２は、いわゆるパン、チルト、ズーム（ＰＴＺ）機能を備えたネットワークカメラであるが、本実施形態では特にＰＴＺ機能を用いていない（ただし、用いてもよい。）。ＩＰカメラ１１２は、移動ロボットＲＢの本体（例えば頭部）に内蔵されている（図１参照）。ここでは、移動ロボットＲＢの進行方向正面にＩＰカメラ１１２の向きを設定している。

また、声掛けシステム１１０には、ＡＩ処理高速化装置１１４が付加されている。ＡＩ処理高速化装置１１４には、例えば公知の市販製品を用いることができ、ＡＩ処理高速化装置１１４は、声掛けシステム１１０の内部で実行されるＡＩ処理の高速化に寄与する。

声掛けシステム１１０は、移動ロボットＲＢの制御部１３０と協働する。制御部１３０は、声掛けシステム１１０と協働して移動ロボットＲＢの移動装置１３２を制御する。例えば、声掛けシステム１１０が声掛けを実行する場合、制御部１３０は移動ロボットＲＢの移動を停止させたり、対象の人物との位置関係を調整したりする。あるいは、制御部１３０が移動ロボットＲＢを移動させつつ、声掛けシステム１１０が声掛けを実行することもある。

声掛けシステム１１０は、例えば図示しないＣＰＵ（中央処理装置）及びその周辺機器を含むコンピュータ機器を用いて実現することができる。声掛けシステム１１０は、移動ロボットＲＢのシステムに追加して搭載される別のハードウエアでもよいし、移動ロボットＲＢが既に有するハードウエアにインストールされるソフトウエアでもよい。

声掛けシステム１１０には、例えば人物判定部１３６や対人距離判定部１１８、距離変位判定部１３８、検出エリア判定部１４０、そして演算部１２２といった各種の機能ブロックが含まれている。これらの機能ブロックは、例えばコンピュータプログラムを用いて行うＡＩ処理やソフトウエア処理によって実現することができる。本実施形態では、人物判定部１３６の処理に高精度ＡＩモデルを採用している。各機能ブロックは、声掛けシステム１１０の内部バス（仮想バス）を通じて相互に連係しながら処理を実行する。

また、声掛けシステム１１０には記憶部１２４や出力装置１２６が含まれる。記憶部１２４は、例えば半導体メモリや磁気記録装置である。記憶部１２４には、例えば声掛けシステム１１０が移動ロボットＲＢに出力させる発話内容の音声データが格納されている。出力装置１２６は、マイク・スピーカ１２８を駆動するドライバアンプ等である。なお、音声データは適宜アップデートすることが可能である。

図４は、声掛けシステム１１０による処理の概要を示す図である。なお、具体的な処理の詳細については、さらに別途フローチャートを用いて後述する。

例えば、図４中の左側領域に示すように、声掛けシステム１１０には、移動ロボットＲＢに内蔵のＩＰカメラ１１２（図４では省略）からの撮像信号が入力される。ＩＰカメラ１１２による撮像は連続的に（例えば３０～６０フレーム毎秒（ｆｐｓ）で）行われ、それらのフレーム画像が連続的に声掛けシステム１１０に入力されている。

〔撮像エリア〕
図４中の右側領域に示すように、撮像エリアはＩＰカメラ１１２の画角（例えば水平方向で左右６４°程度、垂直方向で上方２８°程度、下方１０°程度）により規定される。フレーム画像は、この画角（視野）内に入る周囲環境を撮像したものとなる。なお、撮像エリアの範囲（角度）はこの例に限定されない。

〔人物判定部〕
人物判定部１３６は、連続するフレーム画像から高精度ＡＩモデルを用いた人物の判定（人物検知）処理を実行する。人物の判定は、例えば畳み込みニューラルネットワークを用いた画像認識処理で行われる。ここでは、ＡＩ処理高速化装置１１４のサポートを用いて、例えば１秒間に１回程度の頻度で人物を高精度に判定する。

〔距離判定部〕
距離判定部１１８は、人物判定部１３６で判定した人物までの対人距離Ｄを判定する。ここでは、人物が一点鎖線の矩形枠（バウンディングボックス）で示されている（これ以降も同様。）。対人距離Ｄは、人物判定（検知又は検出）したときのバウンディングボックスより推論が可能である。

〔検出エリア〕
声掛けシステム１１０は、撮像エリア内に検出エリアＤＡ（図４にグレーで示す範囲）を予め規定している。検出エリアＤＡは、例えば移動ロボットＲＢの中心（ＩＰカメラ１１２による撮像地点）を基準点とした一定の範囲であり、ここでは半径Ｒ１～Ｒ３（例えば２ｍ～５ｍ）で示す扇状に近い帯状の範囲である。検出エリアＤＡには、移動ロボットＲＢからの声掛けに最適距離（例えば４ｍ）と考えられる発話地点が含まれる。検出エリアＤＡ内に太い実線で示した半径Ｒ２の円弧は、発話地点の集合を示している。なお、発話地点までの距離及び検出エリアＤＡの範囲はこの例に限定されない。

〔発話地点〕
例えば、図４中の〔１５ｍ〕の画像では、人物までの対人距離Ｄを「１５ｍ」と判定している。このような遠方にいる人物に対して声掛けすることはあまり効果的でない。
この後、同じ人物が遠方から検出エリアＤＡ内に進入してくると、図４中の〔４ｍ〕の画像では、同じ人物について対人距離Ｄを「４ｍ」と判定される。この場合、人物が発話地点にいると考えられるため、このタイミングで移動ロボットＲＢから「こんにちは熱中症に気をつけましょう」等を声掛けさせれば、その内容を適切に人物に聞かせることができると考えられる。
これにより、図４中〔１ｍ〕の画像に示すように、この後に人物が対人距離Ｄ「１ｍ」の場所に移動しても、人物に「そうか、よし気をつけよう」といった安全意識が向上する。

〔発話タイミング〕
ただし、上記のように人物の判定には高精度ＡＩモデルを用いたことによる遅延が生じるため、声掛けシステム１１０による発話タイミングの設定には、処理の遅延を加味した推測が用いられる。つまり、対人距離判定部１１８が対人距離Ｄを「４ｍ」と判定したタイミングで声掛けするのではなく、人物が対人距離Ｄ「４ｍ」の発話地点に到達すると内部で推測したタイミングで声掛けする。このため声掛けシステム１１０の距離変位判定部１３８は、対人距離Ｄの変化量（ΔＤ／Δｔ）を判定し、演算部１２２は、変化量の判定結果から得られる人物の移動傾向に基づいて、人物が発話地点に到達するタイミングを推測する。

〔対人距離判定部〕
図５は、対人距離判定部１１８による処理の概要を示す図である。対人距離Ｄは、人物判定部１３６で人物を判定したときのバウンディングボックスにより判定することができる。

具体的には、図５中（Ａ）に示すように、移動ロボットＲＢと人物が同じ水平面上にあって、移動ロボットＲＢの基準点（ＩＰカメラ１１２）の高さをｈ、人物を判定したときのバウンディングボックスの高さをＨとする。また、基準点とバウンディングボックスの上辺を結ぶ線と水平線との角度をθとする。人物の身長は平均値（例えば１７０ｃｍ）とする。

この場合、対人距離Ｄとバウンディングボックスの高さＨとの関係は、図５中（Ｂ）に示す曲線で近似することができる。人物判定部１３６に高精度ＡＩモデルを用いていることから、バウンディングボックスの高さＨ（大きさ）は高精度に得られる。したがって、対人距離判定部１１８は、バウンディングボックスの高さＨから対人距離Ｄを正確に判定することができる。なお、図５中（Ｃ）～（Ｄ）は、それぞれ画像フレーム内で人物を判定したときのバウンディングボックスの高さから、対人距離Ｄを１５ｍ、５ｍ、４ｍと判定した場合の例を示している。

以上のように、撮像エリア内（フレーム画像内）で人物を判定すると、バウンディングボックス高さＨを用いて対人距離Ｄを判定する。このとき、対人距離Ｄが遠方（検出エリアＤＡの外）にある間は、人物判定部１３６が人物の判定を継続することで、同じ人物の移動を追跡することができる。また、対人距離判定部１１８が対人距離Ｄを判定し続けることで、検出エリアＤＡに人物が進入してきた際に、検出エリア判定部１４０はどのような進入経路であったかを判定することができる。以下、進入経路の判定とその時の声掛けパターンについて説明する。

〔遠方から検出エリアに進入時〕
図６は、人物が遠方から検出エリアＤＡに進入した場合の声掛けパターンを示す図である。この声掛けパターンでは、人物判定部１３６が人物Ｐ１を検出エリアＤＡ外の遠方で既に判定（検出）しており、その後も人物Ｐ１を追跡し続けている。また、対人距離判定部１１８が対人距離Ｄを判定し続けており、対人距離Ｄが５ｍ以下になると、検出エリア判定部１４０が人物Ｐ１の進入経路を「遠方から進入」と判定する。

この場合、距離変位判定部１３８が対人距離Ｄの変化量（単位時間あたりの変化ΔＤ／Δｔ）を連続的に判定し、この変化量に基づいて演算部１２２は、人物Ｐ１が発話地点（４ｍライン）に到達するタイミングを推測（又は推定）する。対人距離Ｄを正確に判定することが可能であるため、対人距離Ｄの変化量も正確に判定することができる。

演算部１２２で推測するタイミングは、対人距離Ｄの変化量が大きければ早くなり、変化量が小さければ遅くなる。そして、推測したタイミングになると、演算部１２２が出力装置１２６に発話音声出力を指示する。これにより、移動ロボットＲＢ（マイク・スピーカ１２８）から例えば「足下に注意して下さい」といった発話内容で声掛けが実行される。

〔左右から検出エリアに進入時〕
図７は、人物が左右から検出エリアＤＡに進入した場合の声掛けパターンを示す図である。この声掛けパターンでは、各人物Ｐ２～Ｐ５が最初から検出エリアＤＡ内で判定（検出）される。すなわち、人物Ｐ２，Ｐ４は検出エリアＤＡの右側方から進入し、人物Ｐ３，Ｐ５は検出エリアＤＡの左側方から進入している。そして、人物Ｐ２，Ｐ３は発話地点（４ｍライン）より遠い対人距離Ｄ（例えば４．５ｍ）で判定され、人物Ｐ４，Ｐ５は発話地点より近い対人距離Ｄ（例えば３ｍ）で判定されている。したがって、これらの人物Ｐ２～Ｐ５の進入経路については、検出エリア判定部１４０は「左右から進入」と判定する。

この場合も同様に、距離変位判定部１３８が対人距離Ｄの変化量を連続的に判定し、この変化量に基づいて演算部１２２は、各人物Ｐ２～Ｐ５が発話地点に到達するタイミングを推測する。そして、推測したタイミングで演算部１２２が出力装置１２６に発話音声出力を指示する。これにより、人物Ｐ２～Ｐ５に対しても発話地点で声掛けが実行されることになる。

〔前方から検出エリアに進入時〕
次に図８は、人物が前方から検出エリアＤＡに進入した場合の声掛けパターンを示す図である。この声掛けパターンは、人物Ｐ６が唐突に判定され、かつ、判定された時点で対人距離Ｄが直近（例えば２ｍ程度）であるような場合が該当する。すなわち、人物Ｐ６は移動ロボットＲＢの近傍から撮像エリア内に入ってきて、こちらに背を向けて検出エリアＤＡ内に進入している。この場合、検出エリア判定部１４０は、人物Ｐ６の進入経路を「前方から進入」と判定する。

そしてこの場合、演算部１２２は、直ちに出力装置１２６に発話音声出力を指示する。したがって、人物Ｐ６に対しては、例外的に発話地点に到達するタイミングを推測することなく、例えば「こんにちは」等の声掛けが実行されることになる。これにより、突然現れて移動ロボットＲＢから遠ざかろうとしている人物Ｐ６に対しても、機会を逸することなく声掛けを実行することができる。

〔検出エリアから左右に移動時〕
図９は、人物が検出エリアＤＡから左右に移動した場合の声掛けパターンを示す図である。この声掛けパターンは、既に検出エリアＤＡ内で判定（検出）されている人物Ｐ７，Ｐ８について、通常通りに発話地点に到達するタイミングを推測していたが、検出エリアＤＡから左右の両側方に出て行く動きをした場合に該当する。すなわち、人物Ｐ７，Ｐ８は検出エリアＤＡ内で判定されているが、対人距離Ｄの変化量がほとんど判定されないまま（発話地点に向かうことなく）、判定された位置が左右方向へ移動している。この場合、検出エリア判定部１４０は、人物Ｐ７，Ｐ８が「（発話地点に到達することなく）検出エリアＤＡから左右に移動した」と判定する。

そしてこの場合、演算部１２２は、直ちに出力装置１２６に発話音声出力を指示する。したがって、人物Ｐ７，Ｐ８に対しても、例外的に発話地点に到達するタイミングを推測することなく、例えば「お疲れさまです」等の声掛けが実行されることになる。これにより、一度は検出エリアＤＡ内に進入したものの、発話地点に向かうことなく検出エリアＤＡ外に出て行こうとする人物Ｐ７，Ｐ８に対しても、機会を逸することなく声掛けを実行することができる。

〔処理プログラムの例〕
以上の説明で声掛けシステム１１０の各機能ブロックによる処理の概要は明らかとなっているが、以下では、フローチャートを用いて具体的な処理の手順を説明する。

〔声掛け音声出力処理〕
図１０は、声掛けシステム１１０で実行されるプログラムの一部として声掛け音声出力処理の手順例を示すフローチャートである。この処理は、声掛けシステム１１０内の各機能ブロック（人物判定部１３６、対人距離判定部１１８、距離変位判定部１３８、検出エリア判定部１４０、演算部１２２）が連係又は協働して実行される。以下、手順例に沿って説明する。

ステップＳ１００：演算部１２２は、人物判定部１３６から人物判定結果を入力する。
ステップＳ１０２：人物の判定がある場合（Ｙｅｓ）、ステップＳ１０４に進む。人物の判定がない場合（Ｎｏ）、ここで本処理を一旦離脱（リターン）する。

ステップＳ１０４：演算部１２２は、距離変位判定部１３８から対人距離Ｄ変位量の判定結果を入力する。
ステップＳ１０６：演算部１２２は、人物判定部１３６、対人距離判定部１１８及び検出エリア判定部１４０と連係し、判定された人物が検出エリアＤＡ内にいるかを確認する。人物が検出エリアＤＡ内にいる場合（Ｙｅｓ）、次にステップＳ１０８を実行する。人物が検出エリアＤＡ内にいない場合（Ｎｏ）、ここで本処理を一旦離脱（リターン）する。

ステップＳ１０８：演算部１２２は、人物判定部１３６、対人距離判定部１１８及び検出エリア判定部１４０と連係して人物の進入経路を確認し、「遠方から進入」であれば（Ｙｅｓ）、ステップＳ１１２に進む。それ以外では（Ｎｏ）、ステップＳ１２０に進む。

ステップＳ１２０：演算部１２２は、同じく人物判定部１３６、対人距離判定部１１８及び検出エリア判定部１４０と連係して人物の進入経路を確認し、「左右から進入」であれば（Ｙｅｓ）、ステップＳ１１２に進む。それ以外では（Ｎｏ）、ステップＳ１２２に進む。

ステップＳ１２２：演算部１２２は、同じく人物判定部１３６、対人距離判定部１１８及び検出エリア判定部１４０と連係して人物の進入経路を確認し、「前方から進入」であれば（Ｙｅｓ）、ステップＳ１１８に進む。それ以外では（Ｎｏ）、ステップＳ１２４に進む。

ステップＳ１２４：演算部１２２は、同じく人物判定部１３６、対人距離判定部１１８及び検出エリア判定部１４０と連係して人物の進入経路を確認し、「検出エリアＤＡから左右に移動した」場合であれば（Ｙｅｓ）、ステップＳ１１８に進む。それ以外では（Ｎｏ）、本処理を一旦離脱（リターン）する。

〔通常時（遠方から進入時、左右から進入時）〕
人物の進入経路が「遠方から進入」又は「左右から進入」の場合は通常通りとして以下の手順となる。
ステップＳ１１２：演算部１２２は、人物判定部１３６、対人距離判定部１１８及び検出エリア判定部１４０と連係し、検出エリアＤＡ内で人物が発話地点（４ｍ）に到達すると推測するタイミングを確認する。発話地点に到達すると推測するタイミングであれば（Ｙｅｓ）、次にステップＳ１１８に進む。それ以外では（Ｎｏ）、ここで本処理を一旦離脱（リターン）する。

〔推測による声掛け〕
ステップＳ１１８：演算部１２２は、声掛け音声出力を出力装置１２６に対して指示する。これにより、人物が発話地点に到達すると推測した発話タイミングでマイク・スピーカ１２８から発話音声が出力される。

〔例外処理時〕
一方、人物の進入経路が「前方から進入」であるか、もしくは「検出エリアＤＡから左右に移動した」と判定した場合は例外処理として以下の手順となる。
ステップＳ１１８：この場合、演算部１２２は、ステップＳ１１２の判断を経ることなく、声掛け音声出力を出力装置１２６に対して指示する。これにより、直ちにマイク・スピーカ１２８から発話音声が出力される。

以上の手順を実行すると、演算部１２２は本処理を離脱（リターン）する。そして、上記同様の手順を繰り返し実行する。

このように、声掛けシステム１１０の各部が処理を連係又は協働して実行することにより、移動ロボットＲＢによる声掛けが適切に実行されることになる。

以上のような実施形態の発話制御装置１００によれば、人物を高精度に判定（検出）しつつ、不特定の条件下でも適切に発話を制御することができる。これにより、例えば建設現場ＣＳのように不特定の人物がランダムに移動している場合であっても、移動ロボットＲＢが日中、建設現場ＣＳ内を自律移動しながら作業者にタイミングよく声掛けし、その際に声掛けの内容を確実に人物に聞かせることができる。また、高精度ＡＩモデルを搭載することによる処理時間の遅延が適切に補償され、実用的で違和感のない声掛けシステム１１０を実現することができる。

本発明は上述した実施形態に制約されることなく、種々に変形して実施することが可能である。
既に述べたように、発話制御装置１００を適用する対象は移動ロボットＲＢに限られず、固定式のロボットであってもよいし、ロボットの形態ではない車両その他のマシン、あるいは据え置き型の機器であってもよい。

ＩＰカメラ１１２やマイク・スピーカ１２８の設置個数や位置、形状、向き等は適宜に選択又は変更することができる。また、ＡＩ処理高速化装置１１４は必須ではなく、特にこれを用いなくてもよい。

また、処理（図１０）で挙げた手順例は適宜に変更可能であるし、必ずしも手順例の通りに処理が行われなくてもよい。また、各種処理をどのような契機（割り込みイベント処理又はトリガイベント処理）で実行させるかは適宜に決定してもよい。

その他、実施形態等において図示とともに挙げた構造はあくまで好ましい一例であり、基本的な構造に各種の要素を付加し、あるいは一部を置換しても本発明を好適に実施可能であることはいうまでもない。

１００発話制御装置
１１０声掛けシステム
１１２ＩＰカメラ
１１８対人距離判定部
１２２演算部（音声出力部）
１２６出力装置（音声出力部）
１２８マイク・スピーカ（音声出力部）
１３６人物判定部
１３８距離変位判定部
１４０検出エリア判定部
ＤＡ検出エリア

Claims

人物判定用の器具を所持しない不特定の人物が任意に移動する所定の撮像エリアを連続的に撮像して得られた画像から人物を連続的に判定可能な人物判定部と、
前記人物判定部の判定結果を用いて人物までの対人距離を連続的に判定する対人距離判定部と、
前記対人距離判定部の判定結果を用いて対人距離の変化量を連続的に判定する距離変位判定部と、
前記距離変位判定部の判定結果に基づき、前記人物判定部が画像から人物を判定するまでの遅延の間の移動を加味して人物が所定間隔離れた発話地点に到達する発話タイミングを推測し、当該推測した発話タイミングで発話音声を出力させる音声出力部と
を備えた発話制御装置。
請求項１に記載の発話制御装置において、
前記撮像エリア内に前記発話地点を含む所定の検出エリアを規定し、前記人物判定部及び前記対人距離判定部の判定結果に基づいて、前記検出エリアへの人物の進入経路を判定する検出エリア判定部をさらに備え、
前記音声出力部は、
前記検出エリア判定部により前記撮像エリア内で前記検出エリアよりも遠方からの進入経路であると判定されたか、もしくは、前記撮像エリアの両側方から前記検出エリアへの進入経路であると判定された場合に、前記発話タイミングで発話音声を出力させることを特徴とする発話制御装置。
請求項２に記載の発話制御装置において、
前記音声出力部は、
前記検出エリア判定部により、人物の進入経路が前記検出エリアより近い前記撮像エリア外の方向からであると判定された場合、前記発話地点に到達すると推測することなく発話音声を出力させることを特徴とする発話制御装置。
請求項２又は３に記載の発話制御装置において、
前記検出エリア判定部は、
前記人物判定部、前記対人距離判定部及び前記距離変位判定部の判定結果に基づいて、前記検出エリア内にいる人物が前記発話地点に到達することなく前記撮像エリアの両外側方向に移動したことをさらに判定可能であり、
前記音声出力部は、
前記検出エリア判定部により前記撮像エリアの両外側方向に人物が移動したことが判定された場合、前記発話地点に到達すると推測することなく発話音声を出力させることを特徴とする発話制御装置。