JP7402721B2

JP7402721B2 - 発話制御装置

Info

Publication number: JP7402721B2
Application number: JP2020052772A
Authority: JP
Inventors: 瞳山口; 純洙權
Original assignee: Fujita Corp
Current assignee: Fujita Corp
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2023-12-21
Anticipated expiration: 2040-03-24
Also published as: JP2021152740A

Description

本発明は、例えば発話機能を有する対人ロボット等への適用が可能な発話制御装置に関する。

従来、人物を検出してロボット等から発話させる先行技術が知られている（例えば、特許文献１参照。）。この先行技術の例では、ロボット本体に内蔵のカメラから取得した撮影画像を処理することでフレーム間差分データを作成し、これらの差分データに基づいて動くものがあるか否かを検出し、動くものがあった場合に、ロボット本体周辺に人物がいると判断する。また、周辺に人物がいる場合は顔を検知し、周辺に人物がおり、かつ顔が検知されている場合に会話シナリオ作成し、音声信号をスピーカへ出力して合成音声データに応じた発話を行うこととしている。

特開２００７－１５５９８５号公報

上述した先行技術は、ロボットから発話させる際に周辺の人物が検知されていれば条件として充分であるが、より正確性を担保するために顔を検知し、顔が検知できた場合は確実に人物からの音声入力であると判断するので、生活雑音を人物からの音声入力であると誤認識する確率をさらに低下させ、ロボットが発話する際の誤動作を防止している。

しかしながら、先行技術の手法は、人物の検知情報を先に取得した上で顔の検知情報を補助的に利用しているだけであり、顔の検知情報が得られなくても機能することから、あくまで顔の検知情報は付け足しでしかない。一方、人物の検知情報が取得できない場合は発話機能も作動することができないため、周囲環境の条件によって人物の検知に失敗した場合は、もはや適切に発話を制御することができない。

そこで本発明は、適切に発話を制御できる技術を提供するものである。

本発明は、発話制御装置を提供する。この発話制御装置は、人物を判定する処理と人物の顔部分を判定する処理をともに実行する。すなわち、撮像エリアを撮像して得られた画像から人物全体の画像領域を認識する処理（人物判定、人物検知）とともに、人物の顔部分だけの画像領域を認識する処理（顔判定、顔検知）も実行する。２つの処理は、同時並行的に実行してもよいし、いずれか一方を選択的に実行してもよい。その上で、２つの処理の結果、すなわち人物の判定結果と顔部分の判定結果とを交互に利用し、いずれか一方の判定結果から人物までの距離を判定し、この距離が所定範囲内にあると判定したタイミングで発話音声を出力させる。

このような発話制御は、画像内の人物の判定（人物検知）を高速処理が可能な判定能力を有した人工知能モデルにより実行する場合に有効である。すなわち、このような高速型の人工知能モデルを用いた人物の判定（検知）は、検知スピードに優れる代わりに検知率（成功率）がやや低いため、人物の判定結果のみに依存して発話制御を実行することは適切でない。特に、遠方にいる人物については判定（検知）能力が要求レベルを満たさないこともある。

一方、顔部分の判定（顔検知）を同じ高速型の人工知能モデルを用いて実行したとしても、検知率（成功率）は人物判定に比較して高く、検知スピードにも優れるという特性が得られる。これは、人体において顔部分の画像特徴量は、かなり遠方（例えば１５ｍ以上）から撮像された画像内でも顕著に現れるため、人工知能モデルによる認識がより高速かつ正確であるということに基づく。

したがって、人物判定（人物検知）の弱点である正確性を顔部分の判定（顔検知）によって補償ないし補完すれば、きわめて合理的な発話制御系が構築できる。ただし、顔部分の判定（顔検知）は正面、側面では高い正確性を得られるが、後方背面からでは判定できないため、顔部分の判定（顔検知）にも固有の弱点があり、この部分を人物の判定（人物検知）によって補償ないし補完することができる。

このように、本発明の発話制御装置は、人物の判定（人物検知）と顔部分の判定（顔検知）とを相補的に機能させ、発話の対象となる人物までの距離の判定材料とする。これにより、より高速かつ適切に人物までの距離を判定した上で、その距離が所定範囲内にあると判定したタイミングで確実に発話音声を出力させることができる。

なお、人物及び顔部分それぞれの判定結果からは、公知のように容易に人物までの距離を判定することができる。これは、標準的な人物の身長や顔部分の大きさを既知データとして保有することにより、判定結果に示される画像領域の大きさからの推定が容易だからである。したがって、人物の存在を示す判定結果（人物検知又は顔検知のどちらか）が得られれば、後は人物までの距離を判定（推定）するだけで、発話タイミングを適切に制御することができる。

以上のような特徴をふまえた上で、発話制御装置は、人物までの距離が所定範囲外にあると判定している間に顔部分の判定結果が得られた場合、以後は人物の判定結果（人物検知）から顔部分の判定結果（顔検知）に切り替えて距離を判定し、発話音声の出力を制御する。これは、ある時点で顔部分の判定結果が得られれば、以後は顔検知の高速性と正確性をフルに活用することがより好ましいことに基づく。これにより、さらに適切に発話を制御することができる。

ただし、発話元と人物との位置関係が一定してない状況では、顔部分の判定結果が得られないまま、唐突に人物の判定結果が得られ、かつ、人物までの距離が所定範囲内であると判定されることがある。このような事例は、例えば不特定の人物が任意の場所をランダムな方向に移動するような環境（例えば建設現場）において顕著である。すなわち、人物は常に決まった方向から撮像エリア内に出現し、そのまま発話元に向かって移動してくるとは限らず、時には撮像エリア外で発話元の付近から所定範囲内に進入してくる場合がある。このような場合、遠方から人物の存在を認識して追跡する（距離を判定し続ける）ことはできず、人物を判定した時点では既に所定範囲内にいるという状況が起こり得る。

そこで発話制御装置は、顔部分の判定結果が得られていない状態で、所定範囲内の距離にある人物の判定結果が得られた場合は、そのタイミングで直ちに発話音声を出力させることとしている。これにより、不測の状況にも直ちに対応し、適切に発話を制御することができる。

また、発話制御装置は、処理を高速化したことに対しても手当している。すなわち、人物の判定に高速型の人工知能モデルを用いる場合、人物の判定から発話音声の出力までの応答時間に遅延が少ないことから、特に、ランダムに移動している人物への発話（声掛け）のタイミングに目立った遅延がなく、発話内容を確実に人物に気付かせることができるという大きな利点がある。ただし、判定能力を高速化したこととのトレードオフで精度が犠牲になるため、その分を補償する手法を考える必要がある。

すなわち、現実に人物が存在する撮像エリアを撮像しても、その画像から人物を判定した結果には一定の割合で成功（人物判定あり）と不成功（人物判定なし）とが含まれることとなり、かつ、それらの発生回数や発生順は不規則である。この場合、判定結果を全て正しいものとして発話音声の出力を制御すると、同じ人物に対して同じ内容の発話を繰り返したり（連呼したり）、人物がいるのに発話しなかったりすることがある。

そこで本発明の発話制御装置は、人物の判定結果にフィルタリングの手法を採用する。すなわち、一連の判定結果をそのまま発話音声の出力に対する入力とするのではなく、得られた判定結果から擬制的な人物の検出結果を二次生成する。擬制的に生成された人物の検出結果は、一連の判定結果が成功と不成功との間でセンシティブに振れる（両極端に変化する）のに対し、ある程度の確からしさで「検出結果あり」と擬制されるか、「検出結果なし（未検出）」と擬制されるかのいずれかに平滑化される。

そして、このような擬制的に生成された検出結果で示される人物について、距離が所定範囲内あると判定したタイミングで発話音声を出力させる。このとき、発話音声の出力に用いる検出結果がフィルタリング（平滑化）されているため、同じ人物に対して同じ内容の発話が繰り返されたり、判定不成功で発話されなかったりといった不具合を確実に防止することができる。

また、所定範囲（以下、「検出エリア」とすることがある）は、例えば発話元と人物との位置関係において、発話内容が人物に届きやすく、また、聞き取りやすいと考えられる距離に基づいて規定することができる。これにより、例えば不特定の人物が任意の場所をランダムな方向に移動するような環境（例えば建設現場）においても、高速モデルを用いて人物を判定した場合の即応性を活かして、その人物との位置関係が最適な距離となるタイミングで発話音声を出力させることにより、発話されたことを人物に気付かせやすくし、また、発話内容を人物に聞き取りやすくすることができる。

なお、発話制御装置によるフィルタリングの手法には、以下の好ましい態様が含まれる。
（１）高速モデルの一連の判定結果に含まれる成功（人物判定あり）の場合と不成功（人物判定なし）の場合との比率から、擬制的に人物を検出又は未検出とする検出結果を生成する。例えば、ある回数の連続する判定結果の群に着目したとき、その中で成功（人物判定あり）が所定割合以上あれば、「人物検出あり」と擬制する検出結果を生成する。逆に、ある回数の連続する判定結果の群の中で、成功（人物判定あり）が所定割合に達していなければ、「人物検出なし（未検出）」と擬制する検出結果を生成する。したがって、高速モデルによる判定結果が一時的（瞬間的）に振れたとしても、生成される検出結果は大きく振れることがなく、平滑化されることになる。

（２）高速モデルから所定回数連続して成功（人物判定あり）の判定結果が得られた場合、擬制的に人物の検出状態とする検出結果を生成し、この後に所定回数連続して成功（人物判定あり）の判定結果が得られなかった場合、擬制的に人物の未検出状態とする検出結果を生成する。この場合、高速モデルによる人物の判定が所定回数連続して成功したことを条件に、以後は「人物検出あり」の状態となる。この状態で、途中に不成功（人物判定なし）の判定結果が得られても、フィルタリング後の検出結果は「人物検出あり」の状態が維持される。したがって、所定回数より少ない回数の不成功によって検出結果が振れることなく、平滑化される。

いずれにしても、上記（１）及び（２）のフィルタリングの態様では、「人物検出あり」と擬制した検出結果を生成した後も、高速モデルによる少数の判定結果が不成功（人物判定なし）となる場合がある。この場合、そのままでは、高速モデルの判定結果に基づく人物の検出結果を一時的（瞬間的）に生成することができないことになる。そこで発話制御装置は、成功の判定結果が得られた後に不成功の判定結果が得られた場合、最後（直前）に得られた成功の判定結果に基づいて、擬制的な人物の検出結果を生成する。これにより、「人物検出あり」と擬制した検出結果を生成した後の抜け（欠け）を防止し、安定して発話音声の出力制御を実行することができる。

本発明によれば、適切に発話を制御することができる。

発話制御装置の適用場面を一例として示す図である。建設現場ＣＳ内で移動ロボットＲＢが発話音声を出力する場面を例示した図である。一実施形態の発話制御装置１００の構成例を示すブロック図である。画像認識処理別の特性を比較して示した図である。声掛けシステム１１０による処理の概要を示す図である。演算部１２２により制御される発話タイミングを示す図である。人物が前方から検出エリアＤＡに進入した場合の声掛けパターンを示す図である。フィルタリング部１４２による処理の概要を示す図である。フィルタリング処理の手順例を示すフローチャートである。声掛け音声出力処理の手順例を示すフローチャートである。

以下、本発明の実施形態について図面を参照しながら説明する。以下の実施形態では、発話制御装置を移動ロボット（自走式ロボット）による音声出力に適用した例を挙げているが、本発明はこの例に限られるものではない。

図１は、発話制御装置の適用場面を一例として示す図である。本実施形態では、例えば、大型ビルやマンション、医療施設、福祉施設といった建物の建設現場ＣＳでの使用を想定することができる。この建設現場ＣＳは、建物の構造体（コンクリートの梁ＢＭ、壁ＷＬ、床ＦＬ、柱ＣＬ等）がある程度出来上がった状態にあり、内部を人（作業員等）が歩くことができる状態にある。また、図１には示されていないが、建設現場ＣＳには開けた空間の他に、通路や部屋、エレベータシャフト、階段室等も存在する。

この建設現場ＣＳには、例えば自走式の移動ロボットＲＢが配置されている。移動ロボットＲＢは、例えば４つの車輪ＷＨで建設現場ＣＳ内を移動することができる。また、移動ロボットＲＢは、内蔵のＩＰカメラ１１２を用いて周囲を撮像したり、マイク・スピーカ１２８を用いて集音及び発音（発話音声出力）したりすることができる。

移動ロボットＲＢが建設現場ＣＳ内を移動して得た情報は、無線通信を介して例えばクラウドコンピュータ上にアップロードされる。また、移動ロボットＲＢは、クラウドコンピュータから更新情報を適時ダウンロードしてシステムをアップデートすることができる。このような移動ロボットＲＢは、既に多く提供されている公知の自律移動制御システムや環境検知システムを備えるものであり、その詳細についての説明は省略する。なお、移動ロボットＲＢは歩脚式のものでもよい。

本実施形態の発話制御装置は、この適用例に挙げた移動ロボットＲＢによる発話音声出力の制御を好適に実現する。以下、移動ロボットＲＢによる発話音声出力を「声掛け」としても呼称する。

図２は、建設現場ＣＳ内で移動ロボットＲＢが発話音声を出力する場面を例示した図である。移動ロボットＲＢは、日時、周囲の環境、人物の認識を各種センサとＡＩ（人工知能）を用いて行い、各人の状況や建設作業中に関係のある周囲の気候条件や環境に合わせた声掛けを行う。

図２中（Ａ）：移動ロボットＲＢは、例えば建設現場ＣＳ内で作業員を人物認識し、日時や環境、声掛けの対象となる人物の状況に合わせた発話内容を選択する。この例では、人物が立ち止まった姿勢であること、現在が日中の時間帯であること、周囲気温が何らかの閾値を超過すること等の状況から総合判断して、「こんにちは暑いので水分を取って下さい。」といった内容の声掛けを実行している。また、顔認識により人物個人を特定し、「○○さん」のように個人名を付した声掛けも実行することができる。

図２中（Ｂ）：また、移動ロボットＲＢは、例えば建設現場ＣＳ内で作業員を人物認識するとともに、建設関連情報を認識する。この例では、建設関連情報として人物が足場ＳＣに登った高所作業中であることを状況判断し、「危ないですよ！注意して作業して下さい」といった内容の声掛けを実行している。

このような声掛けの仕組みは、移動ロボットＲＢが決まった音声で声掛けする場合と比較して、安全性の向上に利する点が大きい。すなわち、移動ロボットＲＢが建設現場ＣＳ内を移動して回り、「人物認識したら機械的に定型の発話内容で声掛けする」というパターンでは、作業中の人物には発話内容があまり届かず、注意喚起にはつながらない。これに対し、作業員に対してその場の状況に合わせた具体的な健康情報や危険情報、建築関連情報を音声で案内する声掛けのパターンであれば、対象人物の注意喚起につながり、安全性向上に利する点が大きくなる。

〔処理の高速化〕
ここで、本実施形態の発話制御装置が取り扱う主題は、移動ロボットＲＢで対象となる人物の検知に要する処理の高速化である。すなわち、移動ロボットＲＢが建設現場ＣＳ内を自律的に移動しつつ、様々な場所で人物（作業関係者）を認識した場合、その都度、適切なタイミングで発話音声を出力させる必要がある。このとき、どのようなタイミングで発話音声を出力させるかは、移動ロボットＲＢを発話元としたときの人物との位置関係にあり、具体的には人物までの距離に依存する。ただし、人物は常に一箇所に留まっているわけではなく、必要な作業をするために移動しているし、移動ロボットＲＢの方も自律移動している。このため、移動ロボットＲＢの方で人物を判定（検知又は検出）し、位置関係に基づいて声掛けさせる際、人物の検知にあまり長い処理時間を要していると、その間に人物が先に移動してしまい、声掛けのタイミングが遅れることになる。

そこで、人物の検知処理を高速化することが考えられる。移動ロボットＲＢによる人物の認識（検知）には、ＩＰカメラ１１２で撮像した画像から人物を判定する人工知能モデルが用いられる。このとき、処理速度がより高速な人工知能モデルを適用することで、画像内に写っている人物を瞬時に判定（検知又は検出）することが可能であるが、処理が高速化されたモデルほど、判定の精度が低いことも確かである。このため、高速処理に特化した人工知能モデルを用いると、人物の判定に不確実性（感覚的に言うと「チラツキ」、「振れ」）が生じ、それによって声掛けを連呼してしまったり、逆に声掛けしなかったりすることがある。一方、高速モデルによる人物判定では、検出率が低い分、遅延は少なく、かつ、単位時間あたりの人物の判定回数は高精度モデルより数倍多いという特性がある。

本来であれば、高速型の人工知能モデルで人物だけを判定（検知又は検出）し、声掛けタイミングを制御するというパターンが最もシンプルでよいが、これだけでは人物の検知率が低く、特に画像内で遠方に写っている人物は検知しにくい。よって、人物検知だけでは高速化を達成することができず、別途、顔検知が好適に用いられる。

本実施形態では、上記の事情に鑑みて、高速処理に特化した人工知能モデルにより生じる人物検知の不正確性や、遠方での低い検知率を顔検知によって補償又は補完し、移動ロボットＲＢから最適に声掛けさせることができる仕組みを構築している。以下、本実施形態で用いる声掛けの仕組みについて説明する。

〔発話制御装置の構成〕
図３は、一実施形態の発話制御装置１００の構成例を示すブロック図である。なお、図３では一部に移動ロボットＲＢの構成要素も合わせて示されている。

発話制御装置１００は、声掛けシステム１１０を中心として構成されている。声掛けシステム１１０は、ＩＰカメラ１１２やマイク・スピーカ１２８からの信号を入力とし、内部でＡＩ（高速モデル）による処理や各種の演算を行った上で、マイク・スピーカ１２８から発話音声を出力させる制御を実現する。

マイク・スピーカ１２８は、例えば周囲の騒音レベルを計測したり、移動ロボットＲＢから発話音声を出力したりするために用いられる。なお、マイク・スピーカ１２８は別体式（マイクとスピーカが別）の構成であってもよい。

ＩＰカメラ１１２は、人物を含む周囲環境を撮像するために用いられる。ＩＰカメラ１１２には、例えば公知の市販製品を適用することができる。ＩＰカメラ１１２は、いわゆるパン、チルト、ズーム（ＰＴＺ）機能を備えたネットワークカメラであるが、本実施形態では特にＰＴＺ機能を用いていない（ただし、用いてもよい。）。ＩＰカメラ１１２は、移動ロボットＲＢの本体（例えば頭部）に内蔵されている（図１参照）。ここでは、移動ロボットＲＢの進行方向正面にＩＰカメラ１１２の向きを設定している。

また、声掛けシステム１１０には、ＡＩ処理高速化装置１１４が付加されている。ＡＩ処理高速化装置１１４には、例えば公知の市販製品を用いることができ、ＡＩ処理高速化装置１１４は、声掛けシステム１１０の内部で実行されるＡＩ処理の高速化に寄与する。

声掛けシステム１１０は、移動ロボットＲＢの制御部１３０と協働する。制御部１３０は、声掛けシステム１１０と協働して移動ロボットＲＢの移動装置１３２を制御する。例えば、声掛けシステム１１０が声掛けを実行する場合、制御部１３０は移動ロボットＲＢの移動を停止させたり、対象の人物との位置関係を調整したりする。あるいは、制御部１３０が移動ロボットＲＢを移動させつつ、声掛けシステム１１０が声掛けを実行することもある。

声掛けシステム１１０は、例えば図示しないＣＰＵ（中央処理装置）及びその周辺機器を含むコンピュータ機器を用いて実現することができる。声掛けシステム１１０は、移動ロボットＲＢのシステムに追加して搭載される別のハードウエアでもよいし、移動ロボットＲＢが既に有するハードウエアにインストールされるソフトウエアでもよい。

声掛けシステム１１０には、例えば顔判定部１４４や人物判定部１３６、フィルタリング部１４２、そして演算部１２２といった各種の機能ブロックが含まれている。これらの機能ブロックは、例えばコンピュータプログラムを用いて行うＡＩ処理やソフトウエア処理によって実現することができる。このうち顔判定部１４４は、ＩＰカメラ１１２により撮像された画像から人物の顔部分を判定（顔検知）する。また、人物判定部１３６は、同じく撮像された画像から人物全体を判定（人物検知）する。フィルタリング部１４２は、人物判定部１３６の判定結果に生じる不確実性（いわゆるチラツキ、振れ）を補正して平滑な検出結果として出力する。このため、機能ブロック上、人物判定部１３６とフィルタリング部１４２を合わせて１つの人物判定ブロック１４６とすることができる。

また、本実施形態では、顔判定部１４４及び人物判定部１３６の処理にそれぞれ高速ＡＩモデルを採用している。各機能ブロックは、声掛けシステム１１０の内部バス（仮想バス）を通じて相互に連係しながら処理を実行することができる。なお、人物判定部１３６だけに高速ＡＩモデルを採用する態様であってもよい。

また、声掛けシステム１１０には記憶部１２４や出力装置１２６が含まれる。記憶部１２４は、例えば半導体メモリや磁気記録装置である。記憶部１２４には、例えば声掛けシステム１１０が移動ロボットＲＢに出力させる発話内容の音声データが格納されている。出力装置１２６は、マイク・スピーカ１２８を駆動するドライバアンプ等である。なお、音声データは適宜アップデートすることが可能である。

〔特性比較〕
ここで、図４は、人工知能モデルを用いた画像認識処理別の特性を比較して示した図である。ここでは、画像認識処理として、「顔検知」、「人物検知（高精度）」及び「人物検知（高速）」の３種類を例に挙げている。「人物検知（高精度）」と「人物検知（高速）」との違いは、適用する人工知能モデルの違いを表している。なお、「顔検知」は高速モデルとする。

各画像認識処理の特性としては、「検知スピード」、「検知率」、「距離推定」、「距離変位推定」、そして「人物の後面検知」の項目が挙げられる。以下、項目別に説明する。

〔検知スピード〕
「検知スピード」は、人工知能モデルが画像認識処理に要する時間を意味し、処理時間が短いほど評価が高い。３つのうち「顔検知」の評価（◎）が最も高く、次に「人物検知（高速）」の評価（○）が高いが、「人物検知（高精度）」の評価（△）は他の２つには及ばない。したがって、ここが「人物検知（高精度）」の弱点といえる。

〔検知率〕
「検知率」は、人工知能モデルによる画像認識処理の結果（判定結果）の精度を意味し、結果が正確であるほど評価が高い。ここでも、３つのうち「顔検知」の評価（◎）が最も高いが、２番目は「人物検知（高精度）」の評価（○）であり、「人物検知（高速）」の評価（△）は最も低い。したがって、ここが「人物検知（高速）」にとって弱点といえる。

〔距離推定〕
「距離推定」は、人工知能モデルによる画像認識処理の結果を用いて推定した人物（人物全体又は検知した顔の人物）までの距離の精度を意味し、推定結果が正確であるほど評価が高い。ここでは、３つのうち「人物検知（高精度）」の評価（◎）が最も高く、次に「人物検知（高速）」の評価（○）が高いが、「顔検知」の評価（△）は他の２つには及ばない。したがって、ここが「顔検知」の弱点といえる。

〔距離変位推定〕
「距離変位推定」は、先の「距離推定」の結果から推定した距離の変化量（単位時間Δｔあたりの距離変位ΔＤ）の精度を意味し、推定結果が正確であるほど評価が高い。この項目は、「距離推定」の精度にそのまま依存するので、評価順は先と同じである。

〔人物の後面検知〕
「人物の後面検知」は、人物の後面（背面、後方）から人工知能モデルで画像認識処理を実行した場合の結果の精度を意味し、結果が正確であるほど評価が高い。ここでは、３つのうち「人物検知（高精度）」が評価（○）で、ある程度は正確であるが、「人物検知（高速）」が評価（△）であまり正確に検知できない。また、評価（×）で示すように、後面からの「顔認識」はできない。この点もまた、「顔検知」の弱点といえる。

〔相補的利用〕
本実施形態では、「人物検知（高精度）」を除いた「顔検知」と「人物検知（高速）」の２つの画像認識処理を相補的に利用する。特に図４中にグレーで着色した項目は、各画像認識処理の強みである（少なくとも弱点でない）ことから、これらを相補的に活用することで、声掛けシステム１１０による処理を高速化させることができる。以下、より具体的に説明する。

図５は、声掛けシステム１１０による処理の概要を示す図である。
例えば、図５中（Ａ）～（Ｈ）に示すように、声掛けシステム１１０には、移動ロボットＲＢに内蔵のＩＰカメラ１１２（図５では省略）からの撮像信号が入力される。ＩＰカメラ１１２による撮像は連続的に（例えば３０～６０フレーム毎秒（ｆｐｓ）で）行われ、それらのフレーム画像が連続的に声掛けシステム１１０に入力されている。なお、ここでは簡略化のため、フレーム数は適宜間引いて示している（これ以降も同様。）。

〔撮像エリア〕
図５中の中央領域に示すように、撮像エリアはＩＰカメラ１１２の画角（例えば水平方向で左右６４°程度、垂直方向で上方２８°程度、下方１０°程度）により規定される。フレーム画像は、この画角（視野）内に入る周囲環境を撮像したものとなる。なお、撮像エリアの範囲（角度）はこの例に限定されない。

〔検出エリア〕
声掛けシステム１１０は、撮像エリア内に検出エリアＤＡ（図５にグレーで示す範囲）を予め規定している。検出エリアＤＡは、例えば移動ロボットＲＢの中心（ＩＰカメラ１１２による撮像地点）を基準点とした一定の範囲であり、ここでは半径Ｒ１～Ｒ３（例えば２ｍ～５ｍ）で示す扇状に近い帯状の範囲である。検出エリアＤＡには、移動ロボットＲＢからの声掛けに最適距離（例えば４ｍ）と考えられる発話地点が含まれる。なお、発話地点までの距離や検出エリアＤＡの範囲はこの例に限定されない。

〔顔判定部〕
顔判定部１４４は、連続するフレーム画像から高速ＡＩモデルを用いた人物の顔部分の判定処理（顔検知）を実行する。顔部分の判定は、例えば畳み込みニューラルネットワークを用いた画像認識処理で行われる。上記のように「顔検知」の検知スピードは最も高速である。ここでは、ＡＩ処理高速化装置１１４のサポートを用いて、例えば１秒間に数十回（ほぼ毎フレーム）の頻度で顔部分を高速に判定することができる。なお、顔部分の検知スピードはこれ以外でもよい。

〔人物判定部〕
人物判定部１３６もまた、連続するフレーム画像から高速ＡＩモデルを用いた人物の判定処理を実行する。人物の判定についても、例えば畳み込みニューラルネットワークを用いた画像認識処理で行われる。「人物検知（高速）」の検知スピードは、「顔検知」には及ばないものの、ある程度の高速性能を有する。ここでは、ＡＩ処理高速化装置１１４のサポートを用いて、例えば１秒間に数回（３～４回）以上の頻度で人物を高速に判定することができる。比較として高精度ＡＩモデルを用いた場合、人物の判定は例えば１秒間に１回程度である。

〔交互活用〕
声掛けシステム１１０では、顔判定部１４４の判定結果と人物判定部１３６の判定結果とを交互に利用する。なお、人物判定部１３６の判定結果は、フィルタリング部１４２によって処理されたものでもよい。

〔遠方人物検知〕
例えば、図５中（Ａ）のフレーム画像では、人物判定部１３６で人物を判定（人物検知）した画像領域が一点鎖線の矩形枠（バウンディングボックス）で示されている。この場合、ある程度の遠方（例えば１５ｍ以上）で得られた人物検知の結果に基づいて、声掛けシステム１１０の演算部１２２が人物までの距離を判定（推定）する。人物までの距離については、人物検知時のバウンディングボックスの大きさから推定することができる。したがって、人物までの距離とバウンディングボックスの大きさ（高さ）との関係を予め相関データとして記憶しておくことで、演算部１２２でバウンディングボックスの大きさから人物までの距離を推定することができる。

〔顔検知切替〕
次に、図５中（Ｂ）のフレーム画像では、顔判定部１４４で人物の顔部分を判定（顔検知）した画像領域が一点鎖線のバウンディングボックスで示される。この場合も同様に、ある程度の遠方（例えば１３ｍ程度）で得られた顔検知の結果に基づいて、演算部１２２が人物までの距離を判定（推定）する。顔検知に基づく人物までの距離についても、顔検知時のバウンディングボックスの大きさから推定することができる。したがって、人物までの距離と顔検知時のバウンディングボックスの大きさ（高さ）との関係を予め相関データとして記憶しておくことで、演算部１２２で顔検知時のバウンディングボックスの大きさから人物までの距離を推定することができる。

ここで、上記のように「距離推定」の評価では、「顔検知」は「人物検知（高速）」より僅かに低いものの、「検知スピード」と「検知率」では上回っていることから、以後は「顔検知」の結果のみに切り替えて人物までの距離を判定し、声掛けを行うことがより高速化につながる。したがって、以後は図５中（Ｃ）～（Ｈ）に示すように、「顔検知」の結果に基づいて人物までの距離を推定する。

〔発話タイミング〕
図６は、演算部１２２により制御される発話タイミングを示す図である。演算部１２２は、例えば「人物検知」又は「顔検知」の結果から推定して得られる人物Ｐまでの距離に基づいて、人物Ｐが検出エリアＤＡに進入したか否かを判定している。ここでは、「顔検知」の結果を利用して検出エリアＤＡ外の遠方から人物Ｐを追跡し、常時、その距離を推定する。その結果、人物Ｐが検出エリアＤＡ（この例では５ｍ以内）に進入したと判定すると、そのタイミングで演算部１２２は出力装置１２６を駆動し、マイク・スピーカ１２８から発話音声を出力させる。これにより、実際に人物Ｐが検出エリアＤＡに進入したタイミングで、直ちに（遅延することなく）移動ロボットＲＢから「こんにちは熱中症に注意してください」といった声掛けが適切に実行されることになる。なお、声掛けの内容はこれに限定されない。

上記の発話タイミングで声掛けさせる発話制御は、声掛けシステム１１０による基本的な声掛けパターンであるが、人物や顔部分が常に遠方から検知できている場合ばかりとは限らない。そこで、以下に例外的な声掛けパターンについても説明する。

〔前方から検出エリアに進入時〕
図７は、人物が前方から検出エリアＤＡに進入した場合の声掛けパターンを示す図である。この声掛けパターンは、人物Ｐ６が唐突に判定され、かつ、判定された時点で人物Ｐ６までの距離が直近（例えば２ｍ程度）であるような場合が該当する。すなわち、人物Ｐ６は移動ロボットＲＢの近傍から撮像エリア内に入ってきて、こちらに背を向けて検出エリアＤＡ内に進入している。この場合、顔判定部１４４では判定（顔検知）できないため、演算部１２２は、人物判定部１３６の判定結果（人物検知）を利用して人物Ｐ６までの距離を推定する。

そしてこの場合、演算部１２２は、人物Ｐ６までの距離が検出エリアＤＡ内であると判定し、このタイミングで出力装置１２６に発話音声出力を指示する。したがって、人物Ｐ６に対しては、顔判定部１４４の判定結果を得ることなく、人物判定部１３６の判定結果から距離を判定すると、直ちに例えば「こんにちは」等の声掛けが実行されることになる。これにより、突然現れて移動ロボットＲＢから遠ざかろうとしている人物Ｐ６に対しても、機会を逸することなく声掛けを実行することができる。

〔人物検知データのフィルタリング〕
次に、人物判定部１３６の判定結果（人物検知データ）のフィルタリング処理について説明する。上記のように高速ＡＩモデルによる人物の判定結果には、ある程度の成功サンプルと不成功サンプルとが混在して得られるため、そのままでは判定結果に不連続性（チラツキ、振れ）が現れるため、入力として実用的でない。そこで、フィルタリング部１４２による処理が用いられる。

図８は、フィルタリング部１４２による処理の概要を示す図である。例えば、フィルタリング部１４２は、人物判定部１３６による人物の判定結果を連続的に観測する。この例では、図８中の上部枠内に（検出データＡ）、（検出データＢ）、（検出データＣ）、（検出データＤ）、（検出データＥ）、（検出データＦ）、（検出データなし）、（検出データＧ）、（検出データＨ）、（検出データＩ）、（検出データＪ）、（検出データなし）、（検出データＫ）、（検出データなし）、（検出データなし）、（検出データなし）で示される一連のフレーム画像毎に判定結果が得られている。

ここで、（検出データＡ）、（検出データＢ）、・・・（検出データＫ）は、それぞれのフレーム画像内で人物が判定（検出、検知）された成功サンプルであることを表している。また、Ａ、Ｂ、・・・Ｋの符号は、フレーム画像別の判定結果を識別するものである。例えば、（検出データＡ）～（検出データＦ）と（検出データＧ）～（検出データＫ）とでは、人物を判定したバウンディングボックスの大きさが違っており、人物の位置が異なることを意味している。したがって、（検出データＡ）～（検出データＦ）と（検出データＧ）～（検出データＫ）とでは、移動ロボットＲＢから人物までの距離が異なっている。また、（検出データＧ）から（検出データＫ）に向かって人物との距離は小さくなっている。

フィルタリング部１４２による処理は、図８中の下部領域に示す処理テーブルを用いて説明することができる。この処理テーブルは、例えばメモリ空間に展開されたデータ配列を便宜的に視覚化したものである。このとき、処理テーブルには、縦方向に「検出結果」、「内部状態」及び「出力」のデータ領域が定義されており、横方向には各データ領域に対応するデータが時系列に配列されている。

〔検出結果のデータ配列〕
処理テーブルの上段に示されているように、「検出結果」のデータ領域には、左（時系列の最古）から右（最新）に向かって人物判定部１３６による一連の判定結果（検出結果）が順次配列される。ここでは、左から３個目までのフレームが全てデータなしであり、４個目から９個目までのフレームには、「Ａ」～「Ｆ」の検出データが順に配列されている。また、１０個目のフレームがデータなしであり、１１個目から１４個目のフレームには「Ｇ」～「Ｊ」の検出データが順に配列されている。１５個目のフレームが再度データなしであるが、１６個目のフレームには「Ｋ」の検出データが配列されている。そして、１７個目以降のフレームはデータなしが連続している。このようなデータ配列は、図８中の上部枠内に示した一連のフレーム画像毎の判定結果に対応している。

〔内部状態のデータ配列〕
処理テーブルの中段に示される「内部状態」のデータ配列は、上段の「検出結果」のデータ配列に基づいて決定される。具体的には、フィルタリング部１４２は、連続するｎ個（例えば３個）のデータ中に検出データが所定割合（例えば６割）以上含まれる場合、内部状態を「検出状態」とし、所定割合に満たない場合は内部状態を「未検出状態」とする。この例では、左から３個のフレームには検出データがないため、ここまでの内部状態は「未検出状態」となっている。２個目から４個目のフレームには検出データＡが１つあるが、６割に満たないため内部状態は「未検出状態」のままである。３個目から５個目のフレームには検出データＡ及びＢがあり、６割以上となることから、ここから内部状態は「検出状態」となる。以後も同様に、連続するｎ個のデータ中に６割以上の検出データがあれば、内部状態は「検出状態」となる。そして、１５個目から１７個目のフレームには検出データＫが１つとなり、ここから内部状態は「未検出状態」となる。

〔出力のデータ配列〕
処理テーブルの下段に示される「出力」のデータ配列は、フィルタリング部１４２が出力する検出データを示している。フィルタリング部１４２からの出力は、人物判定部１３６の判定結果に基づいて生成した擬制的な検出結果である。具体的には、「内部状態」が「検出状態」である場合、フィルタリング部１４２は、最後に得られた検出データをその時点での検出結果と擬制して（みなして）出力する。この例では、時系列で最初に内部状態が「検出状態」となった時点では、最後に得られた検出データＢを出力している。以後は順次、検出データＣ、Ｄ、Ｅ、Ｆを出力するが、１０個目のフレームで検出データなしとなった場合、この時点で最後に得られていた検出データＦを出力している。次からは再び、検出データＧ、Ｈ、Ｉ、Ｊが出力されるが、１５個目のフレームでは検出データなしとなっているため、この時点で最後に得られていた検出データＪを出力している。そして、１６個目では検出データＫが最後となるため、この時点で検出データＫを出力する。

なお、上記の処理では便宜上、未検出状態では「検出データなし」といったステータス情報を出力することとしているが、未検出状態では検出情報そのものを出力しないこととしてもよい。

また、上記の処理では、連続するｎ個のデータ中の割合で内部状態を決定しているが、例えば、ｎフレーム連続して検出データが得られた場合に内部状態を「検出状態」とし、ｎフレーム連続して検出データが得られない場合に内部状態を「未検出状態」とすることとしてもよい。

〔処理プログラムの例〕
以上の説明で声掛けシステム１１０の各機能ブロックによる処理の概要は明らかとなっているが、以下では、フローチャートを用いて具体的な処理の手順を説明する。

〔フィルタリング処理〕
図９は、フィルタリング部１４２で実行されるプログラムの一部として、フィルタリング処理の手順例を示すフローチャートである。この処理は、図８に示す処理テーブルに対応する。以下、手順例に沿って説明する。

ステップＳ１００：フィルタリング部１４２は、ｎフレーム数を初回定義する。ここでは、例えばｎフレーム数を「３個」と定義する。なお、定義は初回のフレームに対して処理を実行した場合のみ行い、以後のフレームで繰り返し処理を実行した場合には重ねて定義しない。また、ここで定義するｎフレーム数の値は声掛けシステム１１０に対して任意に書き換え可能とする。

ステップＳ１０２：フィルタリング部１４２は、毎フレームの人物判定部１３６の判定結果（検出データ）を入力する。ここで入力する判定結果は、各フレームの（検出データＡ）、（検出データＢ）、・・・（検出データＫ）、（検出データなし）等である。

〔１フレーム目の処理〕
ステップＳ１０４：フィルタリング部１４２は、検出データがある場合（Ｙｅｓ）、ステップＳ１０６に進むが、図８の処理テーブルの例では、１個目のフレームに検出データがないため（Ｎｏ）、ステップＳ１１８に進む。

ステップＳ１１８：フィルタリング部１４２は、変数Ｎが０より大か確認する。ここで、変数Ｎは初期値０に設定されているため、ここでは変数Ｎは０より大とならず（Ｎｏ）、ステップＳ１２４に進む。

ステップＳ１２４：フィルタリング部１４２は、変数Ｎを１インクリメントする。ここでは、初期値０であった変数Ｎに値「１」が代入される。
ステップＳ１２６：フィルタリング部１４２、内部状態を「未検出」に設定する。したがって、図８の処理テーブルの例では、１個目のフレームで内部状態が「未検出」となる。

ステップＳ１２８：フィルタリング部１４２は、検出データ「なし」を出力する。すなわち、図８の処理テーブルの例では、１個目のフレームで出力なしとなる。
フィルタリング部１４２は、ここで本処理を一旦離脱（リターン）する。そして、２フレーム目について本処理を実行する。

〔２フレーム目の処理〕
ステップＳ１１８：２フレーム目の処理では、検出データなし（ステップＳ１０４＝Ｎｏ）の場合でも変数Ｎが０より大となっているため（Ｙｅｓ）、ステップＳ１０６に進む。
ステップＳ１０６：フィルタリング部１４２は、変数Ｎを１インクリメントする。２フレーム目では、変数Ｎに値「２」が代入されることになる。

ステップＳ１０８：フィルタリング部１４２は、変数Ｎが定義したフレーム数ｎに等しければ（Ｙｅｓ）、ステップＳ１１０に進むが、ここではフレーム数ｎ（３個）に満たないため（Ｎｏ）、ステップＳ１２６に進む。

ステップＳ１２６：フィルタリング部１４２、内部状態を「未検出」に設定する。したがって、図８の処理テーブルの例では、２個目のフレームで内部状態が「未検出」となる。
ステップＳ１２８：そして、フィルタリング部１４２は、検出データ「なし」を出力する。すなわち、図８の処理テーブルの例では、２個目のフレームで出力なしとなる。
フィルタリング部１４２は、ここで本処理を一旦離脱（リターン）する。そして、３フレーム目について本処理を実行する。

〔３フレーム目の処理〕
ステップＳ１１８：３フレーム目の処理では、検出データなし（ステップＳ１０４＝Ｎｏ）の場合でも変数Ｎが０より大となっているため（Ｙｅｓ）、ステップＳ１０６に進む。
ステップＳ１０６：フィルタリング部１４２は、変数Ｎを１インクリメントする。３フレーム目では、変数Ｎに値「３」が代入されることになる。

ステップＳ１０８：この場合、変数Ｎが定義したフレーム数ｎに等しいため（Ｙｅｓ）、ステップＳ１１０に進む。
ステップＳ１１０：フィルタリング部１４２は、ｎフレーム中の検出データ数と閾値ｘ（例えばｘ＝２）とを比較し、閾値ｘ以上（Ｙｅｓ）の場合はステップＳ１１２に進む。ただし、図８の処理テーブルの例では、３フレーム目で検出データ数は未だ０であるため（Ｎｏ）、ステップＳ１２０に進む。なお、閾値ｘの値は任意に書き換え可能である。

ステップＳ１２０：フィルタリング部１４２は、内部状態を「未検出」に設定する。したがって、図８の処理テーブルの例では、３個目のフレームで内部状態が「未検出」となる。

ステップＳ１２２：そして、フィルタリング部１４２は、検出データ「なし」を出力する。すなわち、図８の処理テーブルの例では、３個目のフレームで出力なしとなる。
ステップＳ１１６：ここで、フィルタリング部１４２は変数Ｎを１デクリメントする。これにより、変数Ｎに値「２＝３－１」が代入されることになる。
フィルタリング部１４２は、ここで本処理を一旦離脱（リターン）する。そして、４フレーム目について本処理を実行する。

〔４フレーム目の処理〕
ステップＳ１０４：図８の処理テーブルの例では、４フレーム目で検出データＡが入力されている。このため、検出データありとなり（Ｙｅｓ）、ステップＳ１０６に進む。
ステップＳ１０６：フィルタリング部１４２は、変数Ｎを１インクリメントする。４フレーム目では、再び変数Ｎに値「３＝２＋１」が代入されることになる。

ステップＳ１０８：この場合、変数Ｎが定義したフレーム数ｎに等しいため（Ｙｅｓ）、ステップＳ１１０に進む。
ステップＳ１１０：図８の処理テーブルの例では、４フレーム目で検出データ数は１であるため（Ｎｏ）、ステップＳ１２０に進む。

ステップＳ１２０：フィルタリング部１４２は、内部状態を「未検出」に設定する。したがって、図８の処理テーブルの例では、４個目のフレームで内部状態が「未検出」となる。

ステップＳ１２２：そして、フィルタリング部１４２は、検出データ「なし」を出力する。すなわち、図８の処理テーブルの例では、４個目のフレームで出力なしとなる。
ステップＳ１１６：また、フィルタリング部１４２は変数Ｎを１デクリメントする。これにより、再び変数Ｎに値「２＝３－１」が代入されることになる。
フィルタリング部１４２は、ここで本処理を一旦離脱（リターン）する。そして、５フレーム目について本処理を実行する。

〔５フレーム目の処理〕
ステップＳ１０４：図８の処理テーブルの例では、５フレーム目で検出データＢが入力されている。このため、検出データありとなり（Ｙｅｓ）、ステップＳ１０６に進む。
ステップＳ１０６：フィルタリング部１４２は、変数Ｎを１インクリメントする。５フレーム目では、再び変数Ｎに値「３＝２＋１」が代入される。

ステップＳ１０８：この場合、変数Ｎが定義したフレーム数ｎに等しいため（Ｙｅｓ）、ステップＳ１１０に進む。
ステップＳ１１０：図８の処理テーブルの例では、５フレーム目で検出データ数は２であるため（Ｙｅｓ）、ステップＳ１１２に進む。

ステップＳ１１２：ここでフィルタリング部１４２は、内部状態を「検出」に設定する。したがって、図８の処理テーブルの例では、５個目のフレームで内部状態が「検出」となる。

ステップＳ１１４：そして、フィルタリング部１４２は、最新の検出データを出力する。すなわち、図８の処理テーブルの例では、５個目のフレームで最新の検出データＢが出力されることになる。
ステップＳ１１６：また、フィルタリング部１４２は変数Ｎを１デクリメントする。これにより、再び変数Ｎに値「２＝３－１」が代入されることになる。
フィルタリング部１４２は、ここで本処理を一旦離脱（リターン）する。そして、６フレーム目以降についても順次、本処理を実行する。

〔１０フレーム目の処理〕
１０フレーム目の処理は以下となる。
ステップＳ１１８：図８の処理テーブルの例では、１０フレーム目の処理で検出データなし（ステップＳ１０４＝Ｎｏ）の場合でも、変数Ｎが０より大となっており（Ｙｅｓ）、ステップＳ１０６に進む。
ステップＳ１０６：フィルタリング部１４２は、変数Ｎを１インクリメントする。１０フレーム目では、変数Ｎに値「３」が代入されることになる。

ステップＳ１０８：この場合、変数Ｎが定義したフレーム数ｎに等しいため（Ｙｅｓ）、ステップＳ１１０に進む。
ステップＳ１１０：図８の処理テーブルの例では、１０フレーム目で検出データ数は２であるため（Ｙｅｓ）、ステップＳ１１２に進む。

ステップＳ１１２：フィルタリング部１４２は、内部状態を「検出」に設定する。したがって、図８の処理テーブルの例では、１０個目のフレームで内部状態が「検出」となる。

ステップＳ１１４：そして、フィルタリング部１４２は、最新の検出データを出力する。すなわち、図８の処理テーブルの例では、１０個目のフレームで最新の検出データＦが出力されることになる。
ステップＳ１１６：また、フィルタリング部１４２は変数Ｎを１デクリメントする。これにより、再び変数Ｎに値「２＝３－１」が代入されることになる。
フィルタリング部１４２は、ここで本処理を一旦離脱（リターン）する。そして、１１フレーム目以降についても順次、本処理を実行する。

〔１７フレーム目の処理〕
１７フレーム目の処理は以下となる。
ステップＳ１１８：図８の処理テーブルの例では、１７フレーム目の処理で検出データなし（ステップＳ１０４＝Ｎｏ）の場合でも、変数Ｎが０より大となっており（Ｙｅｓ）、ステップＳ１０６に進む。
ステップＳ１０６：フィルタリング部１４２は、変数Ｎを１インクリメントする。１０フレーム目では、変数Ｎに値「３」が代入されることになる。

ステップＳ１０８：この場合、変数Ｎが定義したフレーム数ｎに等しいため（Ｙｅｓ）、ステップＳ１１０に進む。
ステップＳ１１０：図８の処理テーブルの例では、１７フレーム目で検出データ数は１であるため（Ｎｏ）、ステップＳ１２０に進む。

ステップＳ１２０：フィルタリング部１４２は、ここで内部状態を「未検出」に設定する。したがって、図８の処理テーブルの例では、１７個目のフレームで内部状態が「未検出」となる。

ステップＳ１２２：そして、フィルタリング部１４２は、検出データ「なし」を出力する。すなわち、図８の処理テーブルの例では、１７個目のフレームで出力なしとなる。
ステップＳ１１６：また、フィルタリング部１４２は変数Ｎを１デクリメントする。これにより、再び変数Ｎに値「２＝３－１」が代入されることになる。
フィルタリング部１４２は、ここで本処理を一旦離脱（リターン）する。そして、１８フレーム目以降についても順次、本処理を実行する。

〔声掛け音声出力処理〕
図１０は、演算部１２２で実行されるプログラムの一部として声掛け音声出力処理の手順例を示すフローチャートである。以下、手順例に沿って説明する。

ステップＳ２００：演算部１２２は、顔判定部１４４及び人物判定部１３６の判定結果（検知結果）を入力する。なお、人物判定部１３６の判定結果は、フィルタリング部１４２で処理された検出データとする。

ステップＳ２０２：演算部１２２は、今回が「顔判定フェーズ」であれば（Ｙｅｓ）、ステップＳ２０４に進み、今回が「人物判定フェーズ」であれば（Ｎｏ）、ステップＳ２１０に進む。ここで、「顔判定フェーズ」及び「人物判定フェーズ」は、それぞれ演算部１２２が処理上で設定するフラグ値又は内部状態であり、初期段階で例えば「人物判定フェーズ」に設定されているものとする。よって、ステップＳ２１０に進む。

ステップＳ２１０：演算部１２２は、ここで「顔判定フェーズ」を設定する。これにより、フラグ値又は内部状態が切り替わることになる。

〔人物検知結果なし時〕
ステップＳ２１２：演算部１２２は、人物判定部１３６の判定結果（人物検知結果）がある場合（Ｙｅｓ）、ステップＳ２０６に進むが、ここでは、人物検知結果がなかったとして（Ｎｏ）、演算部１２２はここで本処理を一旦離脱（リターン）する。

次回の実行時もステップＳ２００で検知結果を入力すると、ステップＳ２０２に進む。
ステップＳ２０２：そして、今回は「顔判定フェーズ」であるため（Ｙｅｓ）、ステップＳ２０４に進む。

〔顔検知結果なし時〕
ステップＳ２０４：演算部１２２は、顔判定部１４４の判定結果（顔検知結果）がある場合（Ｙｅｓ）、ステップＳ２０６に進むが、ここでは、顔検知結果がなかったとして（Ｎｏ）、ステップＳ２０８に進むものとする。

ステップＳ２０８：演算部１２２は、ここで「人物判定フェーズ」を設定する。これにより、フラグ値又は内部状態が切り替わることになる。
そして、演算部１２２はここで本処理を一旦離脱（リターン）する。

さらに次の回の実行時もステップＳ２００で検知結果を入力すると、ステップＳ２０２に進む。
ステップＳ２０２：そして、この回は「人物判定フェーズ」であるため（Ｎｏ）、ステップＳ２１０に進む。
ステップＳ２１０：演算部１２２は、ここで「顔判定フェーズ」を設定する。これにより、フラグ値又は内部状態が切り替わることになる。

〔人物検知結果あり時〕
ステップＳ２１２：ここでは、人物検知結果があるとして（Ｙｅｓ）、ステップＳ２０６に進む。
ステップＳ２０６：演算部１２２は、人物検知結果に基づいて人物までの距離を判定し、人物が検出エリアＤＡ内に進入したかを判定する。そして、検出エリアＤＡ内に人物がいなければ（Ｎｏ）、演算部１２２はここで本処理を離脱（リターン）する。

さらに次の回もステップＳ２００で検知結果を入力すると、ステップＳ２０２に進む。
ステップＳ２０２：そして、この回は引き続き「顔判定フェーズ」であるため（Ｙｅｓ）、ステップＳ２０４に進む。

〔顔検知結果あり時〕
ステップＳ２０４：ここでは、顔検知結果があるとして（Ｙｅｓ）、ステップＳ２０６に進む。
ステップＳ２０６：演算部１２２は、顔検知結果に基づいて人物までの距離を判定し、人物が検出エリアＤＡ内に進入したかを判定する。そして、検出エリアＤＡ内に人物がいなければ（Ｎｏ）、演算部１２２はここで本処理を離脱（リターン）する。

〔顔検知切替後〕
上記のように、顔検知結果があった場合（ステップＳ２０４＝Ｙｅｓ）、以後で演算部１２２は「顔判定フェーズ」を継続する。したがって、以後は顔検知結果のみを用いて判定が行われることになる。

〔検出エリア進入時〕
ステップＳ２０４：演算部１２２は、顔検知結果があるとして（Ｙｅｓ）、ステップＳ２０６に進む。
ステップＳ２０６：演算部１２２は、顔検知結果に基づいて人物が検出エリアＤＡ内に進入したことを判定する（Ｙｅｓ）。この場合、演算部１２２はステップＳ２１４に進む。

ステップＳ２１４：演算部１２２は、声掛け音声出力を出力装置１２６に対して指示する。これにより、人物が検出エリアＤＡ内に進入した発話タイミングでマイク・スピーカ１２８から発話音声が出力される。

以上の手順を実行すると、演算部１２２は本処理を離脱（リターン）する。そして、上記同様の手順を繰り返し実行する。

このように、声掛けシステム１１０の各部が処理を連係又は協働して実行することにより、移動ロボットＲＢによる声掛けが適切に実行されることになる。

以上のような実施形態の発話制御装置１００によれば、顔検知と人物検知とを交互に利用して人物との距離を判定することにより、処理を高速化することができる。これにより、高速ＡＩモデルによる低検知率の弱点をカバーし、適切に発話を制御することができる。したがって、例えば建設現場ＣＳのように不特定の人物がランダムに移動している場合であっても、移動ロボットＲＢが日中、建設現場ＣＳ内を自律移動しながら作業者を高速に検知して声掛けし、その際に声掛けの内容を確実に人物に聞かせることができる。また、高速ＡＩモデルを搭載することによる不確実性（低い検出率）が適切に補償され、実用的で違和感のない声掛けシステム１１０を実現することができる。

また、建設現場ＣＳ等では、例えば周囲環境の明るさが充分でなく、ＩＰカメラ１１２で人物を鮮明に撮像できないフレームがあったり、人物の動きが想定よりも速く、人物画像が不鮮明となるフレームがあったりする。これらの場合、ｎフレーム連続で検出データを得ることができないことが頻繁に生じるため、高速モデルではさらに検出率が低くなるが、フィルタリング処理のロジックを用いれば、ｎフレーム中のデータありとデータなしの比率（検出データが所定割合以上）であれば検出データありと擬制することで、未検出フレームの絶対数を低く抑えることができる。

本発明は上述した実施形態に制約されることなく、種々に変形して実施することが可能である。
既に述べたように、発話制御装置１００を適用する対象は移動ロボットＲＢに限られず、固定式のロボットであってもよいし、ロボットの形態ではない車両その他のマシン、あるいは据え置き型の機器であってもよい。

ＩＰカメラ１１２やマイク・スピーカ１２８の設置個数や位置、形状、向き等は適宜に選択又は変更することができる。また、ＡＩ処理高速化装置１１４は必須ではなく、特にこれを用いなくてもよい。

また、各種処理（図９、図１０）で挙げた手順例は適宜に変更可能であるし、必ずしも手順例の通りに処理が行われなくてもよい。また、各種処理をどのような契機（割り込みイベント処理又はトリガイベント処理）で実行させるかは適宜に決定してもよい。

その他、実施形態等において図示とともに挙げた構造はあくまで好ましい一例であり、基本的な構造に各種の要素を付加し、あるいは一部を置換しても本発明を好適に実施可能であることはいうまでもない。

１００発話制御装置
１１０声掛けシステム
１１２ＩＰカメラ
１１８対人距離判定部
１２２演算部（音声出力部）
１２６出力装置（音声出力部）
１２８マイク・スピーカ（音声出力部）
１３６人物判定部
１４２フィルタリング部
１４４顔判定部
ＤＡ検出エリア

Claims

所定の撮像エリアを撮像して得られた画像から人物の判定を実行する人物判定部と、
前記画像から人物の顔部分の判定を実行する顔判定部と、
前記人物判定部による人物の判定結果と前記顔判定部による顔部分の判定結果とを交互に利用し、いずれか一方の判定結果から得られる人物までの距離が所定範囲内にあると判定したタイミングで発話音声を出力させる音声出力部と
を備えた発話制御装置。
請求項１に記載の発話制御装置において、
前記音声出力部は、
人物までの距離が前記所定範囲外にあると判定している間に前記顔判定部による顔部分の判定結果が得られた場合、前記人物判定部による判定結果を利用することなく、前記顔判定部による判定結果から人物までの距離を判定することを特徴とする発話制御装置。
請求項１又は２に記載の発話制御装置において、
前記音声出力部は、
前記顔判定部から顔部分の判定結果が得られない状態で、前記所定範囲内の距離にある人物の判定結果が前記人物判定部から得られた場合、当該人物の判定結果が得られたタイミングで発話音声を出力させることを特徴とする発話制御装置。
請求項１から３のいずれかに記載の発話制御装置において、
前記人物判定部は、
人物が存在する撮像エリアを連続的に撮像して得られた画像から人物の判定を連続的に実行したとき、一連の判定結果には人物の判定が成功の場合と不成功の場合が不規則に含まれる判定能力を有しており、
前記音声出力部は、
前記人物判定部による一連の判定結果に基づいて擬制的に生成した人物の検出結果を利用して人物までの距離を判定することを特徴とする発話制御装置。