JP2021152741A

JP2021152741A - 発話制御装置

Info

Publication number: JP2021152741A
Application number: JP2020052773A
Authority: JP
Inventors: 瞳山口; Hitomi Yamaguchi; 純洙權; Soonsu Kwon
Original assignee: Fujita Corp
Current assignee: Fujita Corp
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2021-09-30
Anticipated expiration: 2040-03-24
Also published as: JP7430088B2

Abstract

【課題】人物の判定を高速化しつつ、適切に発話を制御できる発話制御装置を提供する。【解決手段】発話制御装置１００は、人物が存在する撮像エリアを連続的に撮像して得られた画像から人物の判定を連続的に実行したとき、一連の判定結果には人物の判定が成功の場合と不成功の場合が不規則に含まれる判定能力を有した人物判定部１３６と、人物判定部１３６により得られた一連の判定結果に基づいて、擬制的な人物の検出結果を生成するフィルタリング部１４２と、撮像エリア内に所定の検出エリアＤＡを規定し、フィルタリング部１４２による擬制的な検出結果で示される人物が検出エリアＤＡ内に進入したか否かを判定する検出エリア判定部１４０と、検出エリア判定部１４０により人物が検出エリアＤＡ内に進入したと判定されたタイミングで出力装置１２６に発話音声を出力させる演算部１２２とを備える。【選択図】図３

Description

本発明は、例えば発話機能を有する対人ロボット等への適用が可能な発話制御装置に関する。

従来、人物を検出してロボット等から発話させる先行技術が知られている（例えば、特許文献１参照。）。この先行技術の例では、複数人が行き交う環境下で対話型のロボットが利用される際、人物が対話意思や関心を持っているかについて、ロボットが人物の関心度を判定し、事前に対話対象となる人物を絞り込むこととしている。このため先行技術は、ロボットに内蔵した撮像装置からの画像情報から人物を検出し、検出された人物を撮像装置の複数の画像で追跡し、追跡された人物の関心度を、複数の画像における人物の顔の向きと胴体の向きの変化に基づいて算出し、算出された関心度に基づいて対話候補とするといった処理を行っている。

特開２０１９−２１７５５８号公報

上述した先行技術は、画像情報から人物が存在する矩形領域を抽出した後、領域内での頭部の領域を検出したり、顔を検出したり、頭部の領域内の情報を用いて頭部の方向を推定したり、さらには、人物の胴体の方向を推定したりする複雑な処理を行っている。このような処理は、畳み込みフィルタを用いたニューラルネットワークを有する人工知能モデルによって好適に実行可能である。

しかしながら、人物の領域に加えて頭部の領域や顔の位置、頭部の方向、さらには人物の胴体の方向までも正確に推定した上で、最終的な声掛けの判定を行おうとすると、適用する人工知能には高精度かつ高機能なモデルを採用しなければならないため、それだけ処理時間が長く、画像情報の入力から判定結果が出力されるまでに遅延が生じるという問題がある。そうかといって、高精度モデルに比較して処理が高速なタイプの人工知能モデルを単に適用しただけでは、判定の精度が犠牲になるため要求レベルを満たせないという不具合を生じる。

そこで本発明は、人物の判定を高速化しつつ、適切に発話を制御できる技術を提供するものである。

本発明は、発話制御装置を提供する。この発話制御装置は、画像内の人物の判定（検出）を高速処理が可能な判定能力を有した人工知能モデルにより実行する。このような高速型の人工知能モデルを用いた発話制御は、人物の判定から発話音声の出力までの応答時間に遅延が少ないことから、特に、ランダムに移動している人物への発話（声掛け）のタイミングに目立った遅延がなく、発話内容を確実に人物に気付かせることができるという大きな利点がある。ただし、判定能力を高速化したこととのトレードオフで精度が犠牲になるため、その分を補償する手法を考える必要がある。

すなわち、現実に人物が存在する撮像エリアを撮像しても、その画像から人物を判定した結果には一定の割合で成功（人物判定あり）と不成功（人物判定なし）とが含まれることとなり、かつ、それらの発生回数や発生順は不規則である。この場合、判定結果を全て正しいものとして発話音声の出力を制御すると、同じ人物に対して同じ内容の発話を繰り返したり（連呼したり）、人物がいるのに発話しなかったりすることがある。

そこで本発明の発話制御装置は、人物の判定結果にフィルタリングの手法を採用する。すなわち、一連の判定結果をそのまま発話音声の出力に対する入力とするのではなく、得られた判定結果から擬制的な人物の検出結果を二次生成する。擬制的に生成された人物の検出結果は、一連の判定結果が成功と不成功との間でセンシティブに振れる（両極端に変化する）のに対し、ある程度の確からしさで「検出結果あり」と擬制されるか、「検出結果なし（未検出）」と擬制されるかのいずれかに平滑化される。

そして、このような擬制的に生成された検出結果で示される人物について、所定の検出エリア内に進入したと判定したタイミングで発話音声を出力させる。このとき、発話音声の出力に用いる検出結果がフィルタリング（平滑化）されているため、同じ人物に対して同じ内容の発話が繰り返されたり、判定不成功で発話されなかったりといった不具合を確実に防止することができる。

また、検出エリアは、例えば発話元と人物との位置関係において、発話内容が人物に届きやすく、また、聞き取りやすいと考えられる距離に基づいて規定することができる。これにより、例えば不特定の人物が任意の場所をランダムな方向に移動するような環境（例えば建設現場）においても、高速モデルを用いて人物を判定した場合の即応性を活かして、その人物との位置関係が最適な距離となるタイミングで発話音声を出力させることにより、発話されたことを人物に気付かせやすくし、また、発話内容を人物に聞き取りやすくすることができる。

発話制御装置によるフィルタリングの手法には、以下の好ましい態様が含まれる。
（１）高速モデルの一連の判定結果に含まれる成功（人物判定あり）の場合と不成功（人物判定なし）の場合との比率から、擬制的に人物を検出又は未検出とする検出結果を生成する。例えば、ある回数の連続する判定結果の群に着目したとき、その中で成功（人物判定あり）が所定割合以上あれば、「人物検出あり」と擬制する検出結果を生成する。逆に、ある回数の連続する判定結果の群の中で、成功（人物判定あり）が所定割合に達していなければ、「人物検出なし（未検出）」と擬制する検出結果を生成する。したがって、高速モデルによる判定結果が一時的（瞬間的）に振れたとしても、生成される検出結果は大きく振れることがなく、平滑化されることになる。

（２）高速モデルから所定回数連続して成功（人物判定あり）の判定結果が得られた場合、擬制的に人物の検出状態とする検出結果を生成し、この後に所定回数連続して成功（人物判定あり）の判定結果が得られなかった場合、擬制的に人物の未検出状態とする検出結果を生成する。この場合、高速モデルによる人物の判定が所定回数連続して成功したことを条件に、以後は「人物検出あり」の状態となる。この状態で、途中に不成功（人物判定なし）の判定結果が得られても、フィルタリング後の検出結果は「人物検出あり」の状態が維持される。したがって、所定回数より少ない回数の不成功によって検出結果が振れることなく、平滑化される。

いずれにしても、上記（１）及び（２）のフィルタリングの態様では、「人物検出あり」と擬制した検出結果を生成した後も、高速モデルによる少数の判定結果が不成功（人物判定なし）となる場合がある。この場合、そのままでは、高速モデルの判定結果に基づく人物の検出結果を一時的（瞬間的）に生成することができないことになる。そこで発話制御装置は、成功の判定結果が得られた後に不成功の判定結果が得られた場合、最後（直前）に得られた成功の判定結果に基づいて、擬制的な人物の検出結果を生成する。これにより、「人物検出あり」と擬制した検出結果を生成した後の抜け（欠け）を防止し、安定して発話音声の出力制御を実行することができる。

本発明によれば、適切に発話を制御することができる。

発話制御装置の適用場面を一例として示す図である。建設現場ＣＳ内で移動ロボットＲＢが発話音声を出力する場面を例示した図である。一実施形態の発話制御装置１００の構成例を示すブロック図である。声掛けシステム１１０による処理の概要を示す図である。フィルタリング部１４２による処理（１）の概要を示す図である。フィルタリング部１４２による処理（２）の概要を示す図である。検出エリア判定部１４０による処理の概要を示す図である。フィルタリング処理（１）の手順例を示すフローチャートである。フィルタリング処理（２）の手順例を示すフローチャートである。声掛け音声出力処理の手順例を示すフローチャートである。

以下、本発明の実施形態について図面を参照しながら説明する。以下の実施形態では、発話制御装置を移動ロボット（自走式ロボット）による音声出力に適用した例を挙げているが、本発明はこの例に限られるものではない。

図１は、発話制御装置の適用場面を一例として示す図である。本実施形態では、例えば、大型ビルやマンション、医療施設、福祉施設といった建物の建設現場ＣＳでの使用を想定することができる。この建設現場ＣＳは、建物の構造体（コンクリートの梁ＢＭ、壁ＷＬ、床ＦＬ、柱ＣＬ等）がある程度出来上がった状態にあり、内部を人（作業員等）が歩くことができる状態にある。また、図１には示されていないが、建設現場ＣＳには開けた空間の他に、通路や部屋、エレベータシャフト、階段室等も存在する。

この建設現場ＣＳには、例えば自走式の移動ロボットＲＢが配置されている。移動ロボットＲＢは、例えば４つの車輪ＷＨで建設現場ＣＳ内を移動することができる。また、移動ロボットＲＢは、内蔵のＩＰカメラ１１２を用いて周囲を撮像したり、マイク・スピーカ１２８を用いて集音及び発音（発話音声出力）したりすることができる。

移動ロボットＲＢが建設現場ＣＳ内を移動して得た情報は、無線通信を介して例えばクラウドコンピュータ上にアップロードされる。また、移動ロボットＲＢは、クラウドコンピュータから更新情報を適時ダウンロードしてシステムをアップデートすることができる。このような移動ロボットＲＢは、既に多く提供されている公知の自律移動制御システムや環境検知システムを備えるものであり、その詳細についての説明は省略する。なお、移動ロボットＲＢは歩脚式のものでもよい。

本実施形態の発話制御装置は、この適用例に挙げた移動ロボットＲＢによる発話音声出力の制御を好適に実現する。以下、移動ロボットＲＢによる発話音声出力を「声掛け」としても呼称する。

図２は、建設現場ＣＳ内で移動ロボットＲＢが発話音声を出力する場面を例示した図である。移動ロボットＲＢは、日時、周囲の環境、人物の認識を各種センサとＡＩ（人工知能）を用いて行い、各人の状況や建設作業中に関係のある周囲の気候条件や環境に合わせた声掛けを行う。

図２中（Ａ）：移動ロボットＲＢは、例えば建設現場ＣＳ内で作業員を人物認識し、日時や環境、声掛けの対象となる人物の状況に合わせた発話内容を選択する。この例では、人物が立ち止まった姿勢であること、現在が日中の時間帯であること、周囲気温が何らかの閾値を超過すること等の状況から総合判断して、「こんにちは暑いので水分を取って下さい。」といった内容の声掛けを実行している。また、顔認識により人物個人を特定し、「○○さん」のように個人名を付した声掛けも実行することができる。

図２中（Ｂ）：また、移動ロボットＲＢは、例えば建設現場ＣＳ内で作業員を人物認識するとともに、建設関連情報を認識する。この例では、建設関連情報として人物が足場ＳＣに登った高所作業中であることを状況判断し、「危ないですよ！注意して作業して下さい」といった内容の声掛けを実行している。

このような声掛けの仕組みは、移動ロボットＲＢが決まった音声で声掛けする場合と比較して、安全性の向上に利する点が大きい。すなわち、移動ロボットＲＢが建設現場ＣＳ内を移動して回り、「人物認識したら機械的に定型の発話内容で声掛けする」というパターンでは、作業中の人物には発話内容があまり届かず、注意喚起にはつながらない。これに対し、作業員に対してその場の状況に合わせた具体的な健康情報や危険情報、建築関連情報を音声で案内する声掛けのパターンであれば、対象人物の注意喚起につながり、安全性向上に利する点が大きくなる。

〔処理速度と正確性のバランス〕
ここで、本実施形態の発話制御装置が取り扱う主題は、移動ロボットＲＢで人物の検出に要する処理速度と正確性とのバランスである。すなわち、移動ロボットＲＢが建設現場ＣＳ内を自律的に移動しつつ、様々な場所で人物（作業関係者）を認識した場合、その都度、適切なタイミングで発話音声を出力させる必要がある。このとき、どのようなタイミングで発話音声を出力させるかは、移動ロボットＲＢを発話元としたときの人物との位置関係にあり、具体的には人物までの距離に依存する。ただし、人物は常に一箇所に留まっているわけではなく、必要な作業をするために移動しているし、移動ロボットＲＢの方も自律移動している。このため、移動ロボットＲＢの方で人物を判定（検出）し、位置関係に基づいて声掛けさせる際、人物の認識にあまり長い処理時間を要していると、その間に人物が先に移動してしまい、声掛けのタイミングが遅れることになる。

そこで、人物の検出処理を高速化することが考えられる。移動ロボットＲＢによる人物の認識には、ＩＰカメラ１１２で撮像した画像から人物を判定する人工知能モデルが用いられる。このとき、処理速度がより高速な人工知能モデルを適用することで、画像内に写っている人物を瞬時に判定（検出）することが可能であるが、処理が高速化されたモデルほど、判定の精度が低いことも確かである。このため、高速処理に特化した人工知能モデルを用いると、人物の判定に不確実性（感覚的に言うと「チラツキ」、「振れ」）が生じ、それによって声掛けを連呼してしまったり、逆に声掛けしなかったりすることがある。一方、高速モデルによる人物判定では、検出率が低い分、遅延は少なく、かつ、単位時間あたりの人物の判定回数は高精度モデルより数倍多いという特性がある。

そこで本実施形態では、上記の特性に鑑みて、高速処理に特化した人工知能モデルにより生じる不正確性を補償し、移動ロボットＲＢから最適に声掛けさせることができる仕組みを構築している。以下、本実施形態で用いる声掛けの仕組みについて説明する。

〔発話制御装置の構成〕
図３は、一実施形態の発話制御装置１００の構成例を示すブロック図である。なお、図３では一部に移動ロボットＲＢの構成要素も合わせて示されている。

発話制御装置１００は、声掛けシステム１１０を中心として構成されている。声掛けシステム１１０は、ＩＰカメラ１１２やマイク・スピーカ１２８からの信号を入力とし、内部でＡＩ（高速モデル）による処理や各種の演算を行った上で、マイク・スピーカ１２８から発話音声を出力させる制御を実現する。

マイク・スピーカ１２８は、例えば周囲の騒音レベルを計測したり、移動ロボットＲＢから発話音声を出力したりするために用いられる。なお、マイク・スピーカ１２８は別体式（マイクとスピーカが別）の構成であってもよい。

ＩＰカメラ１１２は、人物を含む周囲環境を撮像するために用いられる。ＩＰカメラ１１２には、例えば公知の市販製品を適用することができる。ＩＰカメラ１１２は、いわゆるパン、チルト、ズーム（ＰＴＺ）機能を備えたネットワークカメラであるが、本実施形態では特にＰＴＺ機能を用いていない（ただし、用いてもよい。）。ＩＰカメラ１１２は、移動ロボットＲＢの本体（例えば頭部）に内蔵されている（図１参照）。ここでは、移動ロボットＲＢの進行方向正面にＩＰカメラ１１２の向きを設定している。

また、声掛けシステム１１０には、ＡＩ処理高速化装置１１４が付加されている。ＡＩ処理高速化装置１１４には、例えば公知の市販製品を用いることができ、ＡＩ処理高速化装置１１４は、声掛けシステム１１０の内部で実行されるＡＩ処理の高速化に寄与する。

声掛けシステム１１０は、移動ロボットＲＢの制御部１３０と協働する。制御部１３０は、声掛けシステム１１０と協働して移動ロボットＲＢの移動装置１３２を制御する。例えば、声掛けシステム１１０が声掛けを実行する場合、制御部１３０は移動ロボットＲＢの移動を停止させたり、対象の人物との位置関係を調整したりする。あるいは、制御部１３０が移動ロボットＲＢを移動させつつ、声掛けシステム１１０が声掛けを実行することもある。

声掛けシステム１１０は、例えば図示しないＣＰＵ（中央処理装置）及びその周辺機器を含むコンピュータ機器を用いて実現することができる。声掛けシステム１１０は、移動ロボットＲＢのシステムに追加して搭載される別のハードウエアでもよいし、移動ロボットＲＢが既に有するハードウエアにインストールされるソフトウエアでもよい。

声掛けシステム１１０には、例えば人物判定部１３６や検出エリア判定部１４０、フィルタリング部１４２、そして演算部１２２といった各種の機能ブロックが含まれている。これらの機能ブロックは、例えばコンピュータプログラムを用いて行うＡＩ処理やソフトウエア処理によって実現することができる。本実施形態では、人物判定部１３６の処理に高速ＡＩモデルを採用している。各機能ブロックは、声掛けシステム１１０の内部バス（仮想バス）を通じて相互に連係しながら処理を実行する。

また、声掛けシステム１１０には記憶部１２４や出力装置１２６が含まれる。記憶部１２４は、例えば半導体メモリや磁気記録装置である。記憶部１２４には、例えば声掛けシステム１１０が移動ロボットＲＢに出力させる発話内容の音声データが格納されている。出力装置１２６は、マイク・スピーカ１２８を駆動するドライバアンプ等である。なお、音声データは適宜アップデートすることが可能である。

図４は、声掛けシステム１１０による処理の概要を示す図である。なお、具体的な処理の詳細については、さらに別途フローチャートを用いて後述する。

例えば、図４中（Ａ）〜（Ｈ）に示すように、声掛けシステム１１０には、移動ロボットＲＢに内蔵のＩＰカメラ１１２（図４では省略）からの撮像信号が入力される。ＩＰカメラ１１２による撮像は連続的に（例えば３０〜６０フレーム毎秒（ｆｐｓ）で）行われ、それらのフレーム画像が連続的に声掛けシステム１１０に入力されている。なお、ここでは簡略化のため、フレーム数は適宜間引いて示している（これ以降も同様。）。

〔撮像エリア〕
図４中の中央領域に示すように、撮像エリアはＩＰカメラ１１２の画角（例えば水平方向で左右６４°程度、垂直方向で上方２８°程度、下方１０°程度）により規定される。フレーム画像は、この画角（視野）内に入る周囲環境を撮像したものとなる。なお、撮像エリアの範囲（角度）はこの例に限定されない。

〔検出エリア〕
声掛けシステム１１０は、撮像エリア内に検出エリアＤＡ（図４にグレーで示す範囲）を予め規定している。検出エリアＤＡは、例えば移動ロボットＲＢの中心（ＩＰカメラ１１２による撮像地点）を基準点とした一定の範囲であり、ここでは半径Ｒ１〜Ｒ３（例えば２ｍ〜５ｍ）で示す扇状に近い帯状の範囲である。検出エリアＤＡには、移動ロボットＲＢからの声掛けに最適距離（例えば４ｍ）と考えられる発話地点が含まれる。なお、発話地点までの距離や検出エリアＤＡの範囲はこの例に限定されない。

〔人物判定部〕
人物判定部１３６は、連続するフレーム画像から高速ＡＩモデルを用いた人物の判定処理を実行する。人物の判定は、例えば畳み込みニューラルネットワークを用いた画像認識処理で行われる。ここでは、ＡＩ処理高速化装置１１４のサポートを用いて、例えば１秒間に数回（３〜４回）以上の頻度で人物を高速に判定することができる。

〔判定精度〕
ただし、上記のように高速ＡＩモデルによる人物の判定結果には、ある程度の成功サンプルと不成功サンプルとが混在して得られる。例えば、図４中（Ａ）及び（Ｂ）のフレーム画像では、人物を判定した画像領域が一点鎖線の矩形枠（バウンディングボックス）で示されており、これらは人物判定部１３６で人物の判定に成功（検出）していることを意味している。しかし、次の図４中（Ｃ）のフレーム画像では、バウンディングボックスが消失しており、これは人物判定部１３６で人物の判定が不成功（未検出）となっていることを意味している。

以下同様に、図４中（Ｄ）のフレーム画像では人物の判定に成功（検出）しているが、次の（Ｅ）及び（Ｆ）のフレーム画像では、いずれも不成功（未検出）となっている。そして、また（Ｇ）及び（Ｈ）のフレーム画像では、人物の判定に成功（検出）しているが、その前の（Ｄ）からの間に２回、人物の判定が不成功（未検出）となっていることが分かる。

このような場合、人物判定部１３６で得られた一連の判定結果をそのまま声掛けの制御に用いようとすると、移動ロボットＲＢでは、図４中の中央領域に「検出」を付した各位置の実線で示される人物については認識（検出）できているが、「未検出」を付した各位置の二点鎖線で示される人物については認識（検出）できていないことになる。すなわち、移動ロボットＲＢからは、（Ａ）のフレーム画像の位置で認識（検出）していた人物が（Ｂ）のフレーム画像の位置に移動した後、途中が抜けて（Ｄ）のフレーム画像の位置に大きく移動し、次の瞬間（Ｇ）のフレーム画像の位置に大きく移動したように認識されることになる。

このような人物の判定（検出）結果からダイレクトに移動ロボットＲＢから声掛けさせると、例えば（Ｄ）のフレーム画像の位置で声掛けした後で、（Ｇ）のフレーム画像の位置でも同じ内容を声掛けするといった連呼の問題が発生する。これでは、せっかくの声掛けが人物に対する煩わしさや違和感となってしまう。

あるいは、（Ｅ），（Ｆ）のフレーム画像の位置まで人物が接近しているにもかかわらず、移動ロボットＲＢからは人物が判定（検出）できていないため、何も声掛けしないという無反応の問題が発生する。これでは、せっかく（Ａ）のフレーム画像のような遠方の位置から人物の存在を判定（検出）できていたにも関わらず、適切な位置関係となったときに声掛けする機会を逸したことになる。特に（Ｆ）のフレーム画像の位置は検出エリアＤＡ内であるため、ここで声掛けしていないのは好ましくない。

〔フィルタリング部〕
このため本実施形態では、フィルタリング部１４２による処理を用いる。図５及び図６は、フィルタリング部１４２による処理の概要を示す図である。本実施形態のフィルタリング部１４２は、例えば異なる２つの態様でフィルタリング処理を実行することができる。このため、フィルタリング処理（１）の概要を図５に示し、フィルタリング処理（２）の概要を図６にしめしている。以下、フィルタリング部１４２の処理について説明する。

〔フィルタリング処理（１）〕
フィルタリング部１４２は、人物判定部１３６による人物の判定結果を連続的に観測する。この例では、図５中の上部枠内に（検出データＡ）、（検出データＢ）、（検出データＣ）、（検出データＤ）、（検出データＥ）、（検出データＦ）、（検出データなし）、（検出データＧ）、（検出データＨ）、（検出データＩ）、（検出データＪ）、（検出データなし）、（検出データＫ）、（検出データなし）、（検出データなし）、（検出データなし）で示される一連のフレーム画像毎に判定結果が得られている。

ここで、（検出データＡ）、（検出データＢ）、・・・（検出データＫ）は、それぞれのフレーム画像内で人物が判定（検出）されていることを表している。また、Ａ、Ｂ、・・・Ｋの符号は、フレーム画像別の判定結果を識別するものである。例えば、（検出データＡ）〜（検出データＦ）と（検出データＧ）〜（検出データＫ）とでは、人物を判定したバウンディングボックスの大きさが違っており、人物の位置が異なることを意味している。したがって、（検出データＡ）〜（検出データＦ）と（検出データＧ）〜（検出データＫ）とでは、移動ロボットＲＢから人物までの距離が異なっている。また、（検出データＧ）から（検出データＫ）に向かって人物との距離は小さくなっている。

フィルタリング部１４２による処理は、図５中の下部領域に示す処理テーブルを用いて説明することができる。この処理テーブルは、例えばメモリ空間に展開されたデータ配列を便宜的に視覚化したものである。このとき、処理テーブルには、縦方向に「検出結果」、「内部状態」及び「出力」のデータ領域が定義されており、横方向には各データ領域に対応するデータが時系列に配列されている。

〔検出結果のデータ配列〕
処理テーブルの上段に示されているように、「検出結果」のデータ領域には、左（時系列の最古）から右（最新）に向かって人物判定部１３６による一連の判定結果（検出結果）が順次配列される。ここでは、左から３個目までのフレームが全てデータなしであり、４個目から９個目までのフレームには、「Ａ」〜「Ｆ」の検出データが順に配列されている。また、１０個目のフレームがデータなしであり、１１個目から１４個目のフレームには「Ｇ」〜「Ｊ」の検出データが順に配列されている。１５個目のフレームが再度データなしであるが、１６個目のフレームには「Ｋ」の検出データが配列されている。そして、１７個目以降のフレームはデータなしが連続している。このようなデータ配列は、図５中の上部枠内に示した一連のフレーム画像毎の判定結果に対応している。

〔内部状態のデータ配列〕
処理テーブルの中段に示される「内部状態」のデータ配列は、上段の「検出結果」のデータ配列に基づいて決定される。具体的には、フィルタリング部１４２は、連続するｎ個（例えば３個）のデータ中に検出データが所定割合（例えば６割）以上含まれる場合、内部状態を「検出状態」とし、所定割合に満たない場合は内部状態を「未検出状態」とする。この例では、左から３個のフレームには検出データがないため、ここまでの内部状態は「未検出状態」となっている。２個目から４個目のフレームには検出データＡが１つあるが、６割に満たないため内部状態は「未検出状態」のままである。３個目から５個目のフレームには検出データＡ及びＢがあり、６割以上となることから、ここから内部状態は「検出状態」となる。以後も同様に、連続するｎ個のデータ中に６割以上の検出データがあれば、内部状態は「検出状態」となる。そして、１５個目から１７個目のフレームには検出データＫが１つとなり、ここから内部状態は「未検出状態」となる。

〔出力のデータ配列〕
処理テーブルの下段に示される「出力」のデータ配列は、フィルタリング部１４２が出力する検出データを示している。フィルタリング部１４２からの出力は、人物判定部１３６の判定結果に基づいて生成した擬制的な検出結果である。具体的には、「内部状態」が「検出状態」である場合、フィルタリング部１４２は、最後に得られた検出データをその時点での検出結果と擬制して（みなして）出力する。この例では、時系列で最初に内部状態が「検出状態」となった時点では、最後に得られた検出データＢを出力している。以後は順次、検出データＣ、Ｄ、Ｅ、Ｆを出力するが、１０個目のフレームで検出データなしとなった場合、この時点で最後に得られていた検出データＦを出力している。次からは再び、検出データＧ、Ｈ、Ｉ、Ｊが出力されるが、１５個目のフレームでは検出データなしとなっているため、この時点で最後に得られていた検出データＪを出力している。そして、１６個目では検出データＫが最後となるため、この時点で検出データＫを出力する。

〔フィルタリング処理（２）〕
図６に示されるフィルタリング処理（２）は、上記のフィルタリング処理（１）と異なるロジックで「内部状態」及び「出力」を処理する。すなわち、図６中の上部枠内に示される判定結果は同じであるが、下部領域に示される処理テーブル中段の「内部状態」及び下段の「出力」のデータ配列が図５と異なっている。なお、処理テーブル上段の「検出結果」は図５と同じである。

〔内部状態のデータ配列〕
例えば、検出データが未だ得られていない初期の段階では、内部状態が「未検出状態」となっている。ここから、ｎフレーム（例えば３フレーム）連続で検出データが得られた場合、フィルタリング部１４２は内部状態を「検出状態」とする。この例では、太枠で示す４個目から６個目のフレームには検出データＡ、Ｂ及びＣがあり、ｎフレーム連続していることから、ここから内部状態は「検出状態」となる。そして、これ以後は同じ内部状態を継続し、ｎフレーム連続して検出データが得られなかった場合は内部状態を「未検出状態」とする。この例では、太枠で示す１７個目から１９個目のフレームがデータなしとなっており、ｎフレーム連続していることから、ここから内部状態は「未検出状態」となる。

〔出力のデータ配列〕
フィルタリング処理（２）でも同様に、「内部状態」が「検出状態」である場合、フィルタリング部１４２は、最後に得られた検出データをその時点での検出結果と擬制して（みなして）出力する。この例では、時系列で最初に内部状態が「検出状態」となった時点では、最後に得られた検出データＣから出力する点がフィルタリング処理（１）と異なる。以後は順次、検出データＤ、Ｅ、Ｆを出力し、１０個目のフレームで検出データなしとなった場合、この時点で最後に得られていた検出データＦを出力する点は同じである。次からは、検出データＧ、Ｈ、Ｉ、Ｊが出力されるが、１５個目のフレームでは検出データなしとなっているため、この時点で最後に得られていた検出データＪを出力し、そして、１７個目と１８個目のフレームでは検出データＫが最後となるため、それぞれ検出データＫを出力する。

〔発話タイミング〕
図７は、検出エリア判定部１４０による処理の概要を示す図である。検出エリア判定部１４０は、フィルタリング部１４２による検出結果（検出データＢ、Ｃ、・・・Ｋ）で示される人物Ｐに基づいて、人物Ｐが検出エリアＤＡに進入したか否かを判定する。このとき、人物Ｐがどの場所（距離）にいるかについては、各検出データに示されるバウンディングボックスの大きさから推定する。人物Ｐまでの距離とバウンディングボックスの大きさ（高さ）との関係を予め相関データとして記憶しておくことで、各検出データに示されるバウンディングボックスの大きさから人物Ｐまでの距離を推定する。

検出エリア判定部１４０は、フィルタリング部１４２からの出力に基づいて検出エリアＤＡ外の遠方から人物Ｐを追跡し、常時、その距離を推定している。その結果、人物Ｐが検出エリアＤＡ（この例では５ｍ以内）に進入したと判定すると、そのタイミングで検出エリア判定部１４０は演算部１２２に判定結果を出力する。これを受けて、演算部１２２が出力装置１２６を駆動し、マイク・スピーカ１２８から発話音声を出力させる。これにより、実際に人物Ｐが検出エリアＤＡに進入したタイミングで、直ちに（遅延することなく）移動ロボットＲＢから「こんにちは熱中症に注意してください」といった声掛けが適切に実行されることになる。なお、声掛けの内容はこれに限定されない。

〔処理プログラムの例〕
以上の説明で声掛けシステム１１０の各機能ブロックによる処理の概要は明らかとなっているが、以下では、フローチャートを用いて具体的な処理の手順を説明する。

〔フィルタリング処理（１）〕
図８は、フィルタリング部１４２で実行されるプログラムの一部として、フィルタリング処理（１）の手順例を示すフローチャートである。この処理は、図５に示す処理テーブルに対応する。以下、手順例に沿って説明する。

ステップＳ１００：フィルタリング部１４２は、ｎフレーム数を初回定義する。ここでは、例えばｎフレーム数を「３個」と定義する。なお、定義は初回のフレームに対して処理を実行した場合のみ行い、以後のフレームで繰り返し処理を実行した場合には重ねて定義しない。また、ここで定義するｎフレーム数の値は声掛けシステム１１０に対して任意に書き換え可能とする。

ステップＳ１０２：フィルタリング部１４２は、毎フレームの人物判定部１３６の判定結果（検出データ）を入力する。ここで入力する判定結果は、各フレームの（検出データＡ）、（検出データＢ）、・・・（検出データＫ）、（検出データなし）等である。

〔１フレーム目の処理〕
ステップＳ１０４：フィルタリング部１４２は、検出データがある場合（Ｙｅｓ）、ステップＳ１０６に進むが、図５の処理テーブルの例では、１個目のフレームに検出データがないため（Ｎｏ）、ステップＳ１１８に進む。

ステップＳ１１８：フィルタリング部１４２は、変数Ｎが０より大か確認する。ここで、変数Ｎは初期値０に設定されているため、ここでは変数Ｎは０より大とならず（Ｎｏ）、ステップＳ１２４に進む。

ステップＳ１２４：フィルタリング部１４２は、変数Ｎを１インクリメントする。ここでは、初期値０であった変数Ｎに値「１」が代入される。
ステップＳ１２６：フィルタリング部１４２、内部状態を「未検出」に設定する。したがって、図５の処理テーブルの例では、１個目のフレームで内部状態が「未検出」となる。

ステップＳ１２８：フィルタリング部１４２は、検出データ「なし」を出力する。すなわち、図５の処理テーブルの例では、１個目のフレームで出力なしとなる。
フィルタリング部１４２は、ここで本処理を一旦離脱（リターン）する。そして、２フレーム目について本処理を実行する。

〔２フレーム目の処理〕
ステップＳ１１８：２フレーム目の処理では、検出データなし（ステップＳ１０４＝Ｎｏ）の場合でも変数Ｎが０より大となっているため（Ｙｅｓ）、ステップＳ１０６に進む。
ステップＳ１０６：フィルタリング部１４２は、変数Ｎを１インクリメントする。２フレーム目では、変数Ｎに値「２」が代入されることになる。

ステップＳ１０８：フィルタリング部１４２は、変数Ｎが定義したフレーム数ｎに等しければ（Ｙｅｓ）、ステップＳ１１０に進むが、ここではフレーム数ｎ（３個）に満たないため（Ｎｏ）、ステップＳ１２６に進む。

ステップＳ１２６：フィルタリング部１４２、内部状態を「未検出」に設定する。したがって、図５の処理テーブルの例では、２個目のフレームで内部状態が「未検出」となる。
ステップＳ１２８：そして、フィルタリング部１４２は、検出データ「なし」を出力する。すなわち、図５の処理テーブルの例では、２個目のフレームで出力なしとなる。
フィルタリング部１４２は、ここで本処理を一旦離脱（リターン）する。そして、３フレーム目について本処理を実行する。

〔３フレーム目の処理〕
ステップＳ１１８：３フレーム目の処理では、検出データなし（ステップＳ１０４＝Ｎｏ）の場合でも変数Ｎが０より大となっているため（Ｙｅｓ）、ステップＳ１０６に進む。
ステップＳ１０６：フィルタリング部１４２は、変数Ｎを１インクリメントする。３フレーム目では、変数Ｎに値「３」が代入されることになる。

ステップＳ１０８：この場合、変数Ｎが定義したフレーム数ｎに等しいため（Ｙｅｓ）、ステップＳ１１０に進む。
ステップＳ１１０：フィルタリング部１４２は、ｎフレーム中の検出データ数と閾値ｘ（例えばｘ＝２）とを比較し、閾値ｘ以上（Ｙｅｓ）の場合はステップＳ１１２に進む。ただし、図５の処理テーブルの例では、３フレーム目で検出データ数は未だ０であるため（Ｎｏ）、ステップＳ１２０に進む。なお、閾値ｘの値は任意に書き換え可能である。

ステップＳ１２０：フィルタリング部１４２は、内部状態を「未検出」に設定する。したがって、図５の処理テーブルの例では、３個目のフレームで内部状態が「未検出」となる。

ステップＳ１２２：そして、フィルタリング部１４２は、検出データ「なし」を出力する。すなわち、図５の処理テーブルの例では、３個目のフレームで出力なしとなる。
ステップＳ１１６：ここで、フィルタリング部１４２は変数Ｎを１デクリメントする。これにより、変数Ｎに値「２＝３−１」が代入されることになる。
フィルタリング部１４２は、ここで本処理を一旦離脱（リターン）する。そして、４フレーム目について本処理を実行する。

〔４フレーム目の処理〕
ステップＳ１０４：図５の処理テーブルの例では、４フレーム目で検出データＡが入力されている。このため、検出データありとなり（Ｙｅｓ）、ステップＳ１０６に進む。
ステップＳ１０６：フィルタリング部１４２は、変数Ｎを１インクリメントする。４フレーム目では、再び変数Ｎに値「３＝２＋１」が代入されることになる。

ステップＳ１０８：この場合、変数Ｎが定義したフレーム数ｎに等しいため（Ｙｅｓ）、ステップＳ１１０に進む。
ステップＳ１１０：図５の処理テーブルの例では、４フレーム目で検出データ数は１であるため（Ｎｏ）、ステップＳ１２０に進む。

ステップＳ１２０：フィルタリング部１４２は、内部状態を「未検出」に設定する。したがって、図５の処理テーブルの例では、４個目のフレームで内部状態が「未検出」となる。

ステップＳ１２２：そして、フィルタリング部１４２は、検出データ「なし」を出力する。すなわち、図５の処理テーブルの例では、４個目のフレームで出力なしとなる。
ステップＳ１１６：また、フィルタリング部１４２は変数Ｎを１デクリメントする。これにより、再び変数Ｎに値「２＝３−１」が代入されることになる。
フィルタリング部１４２は、ここで本処理を一旦離脱（リターン）する。そして、５フレーム目について本処理を実行する。

〔５フレーム目の処理〕
ステップＳ１０４：図５の処理テーブルの例では、５フレーム目で検出データＢが入力されている。このため、検出データありとなり（Ｙｅｓ）、ステップＳ１０６に進む。
ステップＳ１０６：フィルタリング部１４２は、変数Ｎを１インクリメントする。５フレーム目では、再び変数Ｎに値「３＝２＋１」が代入される。

ステップＳ１０８：この場合、変数Ｎが定義したフレーム数ｎに等しいため（Ｙｅｓ）、ステップＳ１１０に進む。
ステップＳ１１０：図５の処理テーブルの例では、５フレーム目で検出データ数は２であるため（Ｙｅｓ）、ステップＳ１１２に進む。

ステップＳ１１２：ここでフィルタリング部１４２は、内部状態を「検出」に設定する。したがって、図５の処理テーブルの例では、５個目のフレームで内部状態が「検出」となる。

ステップＳ１１４：そして、フィルタリング部１４２は、最新の検出データを出力する。すなわち、図５の処理テーブルの例では、５個目のフレームで最新の検出データＢが出力されることになる。
ステップＳ１１６：また、フィルタリング部１４２は変数Ｎを１デクリメントする。これにより、再び変数Ｎに値「２＝３−１」が代入されることになる。
フィルタリング部１４２は、ここで本処理を一旦離脱（リターン）する。そして、６フレーム目以降についても順次、本処理を実行する。

〔１０フレーム目の処理〕
１０フレーム目の処理は以下となる。
ステップＳ１１８：図５の処理テーブルの例では、１０フレーム目の処理で検出データなし（ステップＳ１０４＝Ｎｏ）の場合でも、変数Ｎが０より大となっており（Ｙｅｓ）、ステップＳ１０６に進む。
ステップＳ１０６：フィルタリング部１４２は、変数Ｎを１インクリメントする。１０フレーム目では、変数Ｎに値「３」が代入されることになる。

ステップＳ１０８：この場合、変数Ｎが定義したフレーム数ｎに等しいため（Ｙｅｓ）、ステップＳ１１０に進む。
ステップＳ１１０：図５の処理テーブルの例では、１０フレーム目で検出データ数は２であるため（Ｙｅｓ）、ステップＳ１１２に進む。

ステップＳ１１２：フィルタリング部１４２は、内部状態を「検出」に設定する。したがって、図５の処理テーブルの例では、１０個目のフレームで内部状態が「検出」となる。

ステップＳ１１４：そして、フィルタリング部１４２は、最新の検出データを出力する。すなわち、図５の処理テーブルの例では、１０個目のフレームで最新の検出データＦが出力されることになる。
ステップＳ１１６：また、フィルタリング部１４２は変数Ｎを１デクリメントする。これにより、再び変数Ｎに値「２＝３−１」が代入されることになる。
フィルタリング部１４２は、ここで本処理を一旦離脱（リターン）する。そして、１１フレーム目以降についても順次、本処理を実行する。

〔１７フレーム目の処理〕
１７フレーム目の処理は以下となる。
ステップＳ１１８：図５の処理テーブルの例では、１７フレーム目の処理で検出データなし（ステップＳ１０４＝Ｎｏ）の場合でも、変数Ｎが０より大となっており（Ｙｅｓ）、ステップＳ１０６に進む。
ステップＳ１０６：フィルタリング部１４２は、変数Ｎを１インクリメントする。１０フレーム目では、変数Ｎに値「３」が代入されることになる。

ステップＳ１０８：この場合、変数Ｎが定義したフレーム数ｎに等しいため（Ｙｅｓ）、ステップＳ１１０に進む。
ステップＳ１１０：図５の処理テーブルの例では、１７フレーム目で検出データ数は１であるため（Ｎｏ）、ステップＳ１２０に進む。

ステップＳ１２０：フィルタリング部１４２は、ここで内部状態を「未検出」に設定する。したがって、図５の処理テーブルの例では、１７個目のフレームで内部状態が「未検出」となる。

ステップＳ１２２：そして、フィルタリング部１４２は、検出データ「なし」を出力する。すなわち、図５の処理テーブルの例では、１７個目のフレームで出力なしとなる。
ステップＳ１１６：また、フィルタリング部１４２は変数Ｎを１デクリメントする。これにより、再び変数Ｎに値「２＝３−１」が代入されることになる。
フィルタリング部１４２は、ここで本処理を一旦離脱（リターン）する。そして、１８フレーム目以降についても順次、本処理を実行する。

〔フィルタリング処理（２）〕
図９は、フィルタリング処理（２）の手順例を示すフローチャートである。この処理は、図６に示す処理テーブルに対応する。以下、手順例に沿って説明する。

ステップＳ２００：フィルタリング部１４２は、ｎフレーム数を初回定義する。処理の内容はフィルタリング処理（１）のステップＳ１００と同様である。
ステップＳ２０２：フィルタリング部１４２は、毎フレームの人物判定部１３６の判定結果（検出データ）を入力する。処理の内容はフィルタリング処理（１）のステップＳ１０２と同様である。

〔１フレーム目の処理〕
ステップＳ２０４：フィルタリング部１４２は、検出データがある場合（Ｙｅｓ）、ステップＳ２０６に進むが、図６の処理テーブルの例では、１個目のフレームに検出データがないため（Ｎｏ）、ステップＳ２１６に進む。

ステップＳ２１６：フィルタリング部１４２は、変数Ｎ_１を値「０」にリセットし、変数Ｎ_２を１インクリメントする。変数Ｎ_２は初期値０に設定されているため、ここでは変数Ｎ_２に値「１」が代入される。なお、変数Ｎ_１も初期値０である。
ステップＳ２１８：フィルタリング部１４２は、変数Ｎ_２が定義したフレーム数ｎに等しければ（Ｙｅｓ）、ステップＳ２２４に進むが、ここではフレーム数ｎ（３個）に満たないため（Ｎｏ）、ステップＳ２２０に進む。

ステップＳ２２０：フィルタリング部１４２は、内部状態が「検出」である場合（Ｙｅｓ）、ステップＳ２１４に進む。ただし、図６の処理テーブルの例では、１フレーム目の内部状態は「未検出」であるため（Ｎｏ）、ステップＳ２２２に進む。

ステップＳ２２２：フィルタリング部１４２は、検出データ「なし」を出力する。すなわち、図６の処理テーブルの例では、１個目のフレームで出力なしとなる。
フィルタリング部１４２は、ここで本処理を一旦離脱（リターン）する。そして、２フレーム目以降についても順次、上記と同様に本処理を実行する。

〔４フレーム目の処理〕
４フレーム目の処理は以下となる。
ステップＳ２０４：図６の処理テーブルの例では、４フレーム目に検出データＡがあるため（Ｙｅｓ）、ステップＳ２０６に進む。
ステップＳ２０６：フィルタリング部１４２は、変数Ｎ_２を値「０」にリセットし、変数Ｎ_１を１インクリメントする。変数Ｎ_１は初期値０に設定されているため、ここでは変数Ｎ_１に値「１」が代入される。

ステップＳ２０８：フィルタリング部１４２は、変数Ｎ_１が定義したフレーム数ｎに等しければ（Ｙｅｓ）、ステップＳ２１０に進むが、ここではフレーム数ｎ（３個）に満たないため（Ｎｏ）、ステップＳ２２０に進む。

ステップＳ２２０：フィルタリング部１４２は、内部状態が「検出」である場合（Ｙｅｓ）、ステップＳ２１４に進む。ただし、図６の処理テーブルの例では、４フレーム目の内部状態は「未検出」であるため（Ｎｏ）、ステップＳ２２２に進む。

ステップＳ２２２：フィルタリング部１４２は、検出データ「なし」を出力する。すなわち、図６の処理テーブルの例では、４個目のフレームで出力なしとなる。
フィルタリング部１４２は、ここで本処理を一旦離脱（リターン）する。そして、５フレーム目ついても順次、上記と同様に本処理を実行する。

〔６フレーム目の処理〕
６フレーム目の処理は以下となる。
ステップＳ２０４：図６の処理テーブルの例では、６フレーム目に検出データＣがあるため（Ｙｅｓ）、ステップＳ２０６に進む。
ステップＳ２０６：フィルタリング部１４２は、変数Ｎ_２を値「０」にリセットし、変数Ｎ_１を１インクリメントする。前回の５フレーム目の処理で変数Ｎ_１に値「２＝１＋１」が代入されているため、ここで変数Ｎ_１に値「３＝２＋１」が代入される。

ステップＳ２０８：フィルタリング部１４２は、変数Ｎ_１が定義したフレーム数ｎに等しいため（Ｙｅｓ）、ステップＳ２１０に進む。

ステップＳ２１０：フィルタリング部１４２は、内部状態を「検出」に設定する。これにより、図６の処理テーブルの例では、６個目のフレームの内部状態が「検出」となる。
ステップＳ２１２：そして、変数Ｎ_１を値「０」にリセットする。

ステップＳ２１４：フィルタリング部１４２は、最新の検出データを出力する。すなわち、図６の処理テーブルの例では、６個目のフレームで最新の検出データＣが出力される。
フィルタリング部１４２は、ここで本処理を一旦離脱（リターン）する。そして、７フレーム目ついても順次、上記と同様に本処理を実行する。７フレーム目から１８フレーム目までは、変数Ｎ_２が定義したフレーム数ｎに満たないため、内部状態は「検出」となる。

〔１９フレーム目の処理〕
１９フレーム目の処理は以下となる。前回１８フレーム目の処理までで、変数Ｎ_２が値「２」となっている。
ステップＳ２０４：図６の処理テーブルの例では、１９フレーム目が検出データなしであるため（Ｎｏ）、ステップＳ２１６に進む。

ステップＳ２１６：変数Ｎ_１を値「０」にリセットし、変数Ｎ_２を１インクリメントする。前回の１８フレーム目の処理で変数Ｎ_２に値「２＝１＋１」が代入されているため、ここで変数Ｎ_２に値「３＝２＋１」が代入される。

ステップＳ２１８：フィルタリング部１４２は、変数Ｎ_２が定義したフレーム数ｎに等しいため（Ｙｅｓ）、ステップＳ２２４に進む。

ステップＳ２２４：フィルタリング部１４２は、内部状態を「未検出」に設定する。これにより、図６の処理テーブルの例では、１９個目のフレームの内部状態が「未検出」となる。
ステップＳ２２６：そして、変数Ｎ_２を値「０」にリセットする。

ステップＳ２２２：フィルタリング部１４２は、検出データ「なし」を出力する。すなわち、図６の処理テーブルの例では、１９個目のフレームで出力なしとなる。
フィルタリング部１４２は、ここで本処理を一旦離脱（リターン）する。そして、２０フレーム目以降についても順次、上記と同様に本処理を実行する。

〔声掛け音声出力処理〕
図１０は、演算部１２２で実行されるプログラムの一部として声掛け音声出力処理の手順例を示すフローチャートである。以下、手順例に沿って説明する。

ステップＳ３００：演算部１２２は、フィルタリング部１４２から検出データを入力する。ここで入力する検出データは、図５又は図６の処理テーブルの例に示されるように、擬制的に生成されたものとなる。
ステップＳ３０２：検出データがある場合（Ｙｅｓ）、ステップＳ３０４に進む。検出データがない場合（Ｎｏ）、ここで本処理を一旦離脱（リターン）する。

ステップＳ３０４：演算部１２２は、検出エリア判定部１４０の判定結果を取得し、人物が検出エリアＤＡ内に進入したと判定された場合（Ｙｅｓ）、次にステップＳ３０６を実行する。それ以外では（Ｎｏ）、ここで本処理を一旦離脱（リターン）する。

ステップＳ３０６：演算部１２２は、声掛け音声出力を出力装置１２６に対して指示する。これにより、人物が検出エリアＤＡ内に進入した発話タイミングでマイク・スピーカ１２８から発話音声が出力される。

以上の手順を実行すると、演算部１２２は本処理を離脱（リターン）する。そして、上記同様の手順を繰り返し実行する。

このように、声掛けシステム１１０の各部が処理を連係又は協働して実行することにより、移動ロボットＲＢによる声掛けが適切に実行されることになる。

なお、上記の処理では便宜上、未検出状態では「検出データなし」といったステータス情報を出力することとしているが、未検出状態では検出情報そのものを出力しないこととしてもよい。

以上のような実施形態の発話制御装置１００によれば、人物を高速に判定（検出）することで適切なタイミングを逸することなく、また、連呼することなく発話を制御することができる。これにより、例えば建設現場ＣＳのように不特定の人物がランダムに移動している場合であっても、移動ロボットＲＢが日中、建設現場ＣＳ内を自律移動しながら作業者にタイミングよく声掛けし、その際に声掛けの内容を確実に人物に聞かせることができる。また、高速ＡＩモデルを搭載することによる不確実性（低い検出率）が適切に補償され、実用的で違和感のない声掛けシステム１１０を実現することができる。

また、建設現場ＣＳ等では、例えば周囲環境の明るさが充分でなく、ＩＰカメラ１１２で人物を鮮明に撮像できないフレームがあったり、人物の動きが想定よりも速く、人物画像が不鮮明となるフレームがあったりする。これらの場合、ｎフレーム連続で検出データを得ることができないことが頻繁に生じるため、高速モデルではさらに検出率が低くなるが、フィルタリング処理（１）のロジックを用いれば、ｎフレーム中のデータありとデータなしの比率（検出データが所定割合以上）であれば検出データありと擬制することで、未検出フレームの絶対数を低く抑えることができる。

本発明は上述した実施形態に制約されることなく、種々に変形して実施することが可能である。
既に述べたように、発話制御装置１００を適用する対象は移動ロボットＲＢに限られず、固定式のロボットであってもよいし、ロボットの形態ではない車両その他のマシン、あるいは据え置き型の機器であってもよい。

ＩＰカメラ１１２やマイク・スピーカ１２８の設置個数や位置、形状、向き等は適宜に選択又は変更することができる。また、ＡＩ処理高速化装置１１４は必須ではなく、特にこれを用いなくてもよい。

また、各種処理（図８〜図１０）で挙げた手順例は適宜に変更可能であるし、必ずしも手順例の通りに処理が行われなくてもよい。また、各種処理をどのような契機（割り込みイベント処理又はトリガイベント処理）で実行させるかは適宜に決定してもよい。

その他、実施形態等において図示とともに挙げた構造はあくまで好ましい一例であり、基本的な構造に各種の要素を付加し、あるいは一部を置換しても本発明を好適に実施可能であることはいうまでもない。

１００発話制御装置
１１０声掛けシステム
１１２ＩＰカメラ
１１８対人距離判定部
１２２演算部（音声出力部）
１２６出力装置（音声出力部）
１２８マイク・スピーカ（音声出力部）
１３６人物判定部
１４０検出エリア判定部
１４２フィルタリング部
ＤＡ検出エリア

Claims

人物が存在する撮像エリアを連続的に撮像して得られた画像から人物の判定を連続的に実行したとき、一連の判定結果には人物の判定が成功の場合と不成功の場合が不規則に含まれる判定能力を有した人物判定部と、
前記人物判定部により得られた一連の判定結果に基づいて、擬制的な人物の検出結果を生成するフィルタリング部と、
前記撮像エリア内に所定の検出エリアを規定し、前記フィルタリング部による擬制的な検出結果で示される人物が前記検出エリア内に進入したか否かを判定する検出エリア判定部と、
前記検出エリア判定部により人物が前記検出エリア内に進入したと判定されたタイミングで発話音声を出力させる音声出力部と
を備えた発話制御装置。
請求項１に記載の発話制御装置において、
前記フィルタリング部は、
前記人物判定部により得られた一連の判定結果に含まれる成功の場合と不成功の場合との比率に基づいて、擬制的に人物を検出又は未検出とする検出結果を生成することを特徴とする発話制御装置。
請求項１に記載の発話制御装置において、
前記フィルタリング部は、
前記人物判定部により所定回数連続して成功の判定結果が得られた場合、擬制的に人物の検出状態とする検出結果を生成し、この後に所定回数連続して成功の判定結果が得られなかった場合、擬制的に人物の未検出状態とする検出結果を生成することを特徴とする発話制御装置。
請求項２又は３に記載の発話制御装置において、
前記フィルタリング部は、
前記人物判定部により成功の判定結果が得られた後に不成功の判定結果が得られた場合、最後に得られた成功の判定結果に基づいて、擬制的な人物の検出結果を生成することを特徴とする発話制御装置。