JP7430083B2 - 発話制御装置 - Google Patents

発話制御装置 Download PDF

Info

Publication number
JP7430083B2
JP7430083B2 JP2020050073A JP2020050073A JP7430083B2 JP 7430083 B2 JP7430083 B2 JP 7430083B2 JP 2020050073 A JP2020050073 A JP 2020050073A JP 2020050073 A JP2020050073 A JP 2020050073A JP 7430083 B2 JP7430083 B2 JP 7430083B2
Authority
JP
Japan
Prior art keywords
speech
noise
type
surrounding environment
control device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020050073A
Other languages
English (en)
Other versions
JP2021146473A (ja
Inventor
瞳 山口
純洙 權
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujita Corp
Original Assignee
Fujita Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujita Corp filed Critical Fujita Corp
Priority to JP2020050073A priority Critical patent/JP7430083B2/ja
Publication of JP2021146473A publication Critical patent/JP2021146473A/ja
Application granted granted Critical
Publication of JP7430083B2 publication Critical patent/JP7430083B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Manipulator (AREA)

Description

本発明は、例えば発話機能を有する対人ロボット等への適用が可能な発話制御装置に関する。
従来、周囲の環境や人物の状況に応じた発話音量でロボットに発話させる先行技術が知られている(例えば、特許文献1参照。)。この先行技術は、周囲の騒音を測定して騒音のレベルを検出し、現在位置する場所と人物の状況に応じてロボットの発話音量を変更する。また、対象とする人物が会話中や休息中ではなく、視線方向がロボットを向いていることを確認して発話タイミングを決定している。
上記の先行技術によれば、対象とする人物が視線を向けている状況でロボットに発話させるため、ロボットからの発話に対象の人物が気付きやすくなると考えられる。また、周囲の騒音レベルに合わせて音量が調整されるため、発話内容を人物が聞き取りやすくなると考えられる。
特開2008-254122号公報
しかしながら、いくら対象の人物がロボットに視線を向けていることを確認した上で発話させたとしても、周囲の騒音レベルが急に高くなったりすると音声がかき消されてしまい、冒頭(出だし)から充分に発話内容を聞き取ることができないという問題がある。
また、上記の先行技術では、予め騒音レベルと対応付けて登録されたローカル地図データを用いて周囲の環境を検出している。これは、登録された地図データ上で周囲の環境が不変という前提では有効である。しかしながら、例えばビルの建設現場のように、作業工程の進捗によって周囲の環境(内部構造や仮設物の有無)も変化していく場合、たとえ地図上では同じ位置でも時期によって周囲の環境や騒音レベルも異なってくるため、先行技術の手法では適切に制御することができない。
本発明は、適切に発話を制御する技術を提供するものである。
本発明は、発話制御装置を提供する。この発話制御装置は、周囲環境中の暗騒音がどのような騒音タイプであるかを判定し、タイプ別に異なる騒音レベルの時間的な変化特性に基づいて発話タイミングを設定する。また、発話制御装置は、発話対象となる人物までの対人距離、及び人物の周囲環境がどのような環境タイプであるかを判定する。そして、対人距離及び環境タイプの判定結果に基づいて発話音量を設定するとともに、設定された発話タイミングで発話音声を出力させる。
例えば、ビル等の建設現場では、作業中の各所でいろいろな騒音が生じており、それらが多数複合して周囲環境中の暗騒音を形成する。このため、暗騒音の大きさ(騒音レベル)は場所や時間で一定しておらず、常時不測に変動し得る。このような環境下では、位置情報と騒音の大きさとは予め対応付けられず、登録済みの地図データ等を用いた制御を適用することができない。
本発明の発話制御装置による発話タイミングは、騒音レベルの時間的な変化特性に基づいて設定される。これは、暗騒音の大きさが時々刻々と変化するような環境下に適した設定である。例えば、打撃作業音のように、ある時点で急に音が大きくなり、次の瞬間急に音が小さくなるといった変化特性を示す騒音タイプの場合もあれば、回転作業機の動作音のように周期的に音が高下する変化特性を示す騒音タイプの場合もあるし、機関運転音のように、運転中は音の大きさがほぼ一定レベルであるような変化特性を示す騒音タイプの場合もある。これらの場合、対象の人物が発話元(ロボット等)に対して注意を向けていても、発話音声を出力させるタイミングによっては暗騒音が大きくなるタイミングと被ることがあり、人物が発話内容を充分に聞き取れないことがある。
このため本発明では、周囲環境中の暗騒音がいずれの騒音タイプであるかを判定し、そのタイプ別に異なる騒音レベルの時間的な変化特性に基づいて発話タイミングを設定する。これにより、発話対象の人物が充分に聞き取りやすい、適切なタイミングで発話音声を出力させることができる。また、対人距離及び周囲環境のタイプをその場で判定し、その結果に基づいて発話音量を設定するので、例えば以前と同じ場所でも対人距離や周囲環境が変わっていれば、その時点での対人距離や環境タイプに合わせた発話音量を適切に設定することができる。
発話制御装置は、騒音タイプとして以下に着目している。
(1)騒音レベルの観測値にインパルス状の上昇が間欠的に現れる変化特性を有するもの。
(2)騒音レベルの観測値が周期的に極大化と極小化を繰り返す変化特定を有するもの。
上記(1)の騒音タイプは、騒音レベルがある瞬間急に大きくなり、次の瞬間は小さくなるといった暗騒音を想定している。また、上記(2)の騒音タイプは、周期的に音が高下するような暗騒音を想定している。
そして、いずれの騒音タイプであるかによって、発話タイミングの設定が異なる。すなわち、上記(1)の騒音タイプであると判定した場合、時間的に前後する観測値間の差分をとり、その差分値が所定値以下となったタイミングを発話タイミングに設定する。また、上記(2)の騒音タイプであると判定した場合、間措置が極大値から閾値以下に低下したタイミングを発話タイミングに設定する。これにより、暗騒音の大きさが前よりも下がったタイミングで発話音声が出力(開始)されるので、対象の人物に発話内容が聞き取りやすくなる。
好ましくは、発話制御装置は特定の環境下においてより好適する。すなわち、ビルやマンション、医療施設等の建設現場において、建物構造体がある程度まで組み上がった状況を想定することができる。このような状況においては、発話音声を出力させる周囲環境も多種多様であり、環境タイプに適した音量設定が求められる。
このため発話制御装置は、環境タイプとして建設現場内の「広い空間」、「通路」、「部屋」を想定し、周囲環境がいずれの環境タイプであるかを判定して発話音量を設定する。このうち「広い空間」は、例えば周囲に壁構造体がなく、開けた環境を想定するものである。「通路」は、発話方向(対象人物がいる方向)にある程度の空間があり、周囲に壁となる物体が存在する環境を想定するものである。また、「部屋」は、発話方向の奥行きが比較的小さく、両側を壁に囲まれている環境を想定するものである。
そして、環境タイプを「広い空間」と判定した場合は発話音量を最大に設定し、「通路」と判定した場合は発話音量を中間に設定し、「部屋」と判定した場合は発話音量を最小に設定する。これにより、周囲環境に合わせた適切な音量設定で発話音声を出力させ、対象の人物に聞き取りにくさや煩わしさ、騒々しさといった不具合を感じさせることを防止することができる。
また、発話制御装置による発話音量の設定は、単に「その時の騒音レベルより大きくする」というだけのものではない。すなわち、何らかの暗騒音がある環境下で発話音声を出力させるということは、そこで出力させた発話音声もまた、別の第三者にとって「騒音」となることを意味する。このため、「対象となる人物に聞こえればよい」というだけの観点から発話音量を設定すべきでない。
本発明はこの点に着目し、発話音量の設定に制限を設けている。すなわち、ある上限値を超えない範囲内で、発話音量を騒音レベルより大きく設定することができるものとする。これにより、対象となる人物に対しては発話音声が聞き取りやすくなり、さらに別の第三者にとっては騒音レベルが上限値以下に抑えられるという二重のメリットを得ることができる。
本発明によれば、適切に発話を制御することができる。
発話制御装置の適用場面を一例として示す図である。 建設現場CS内で移動ロボットRBが発話音声を出力する場面を例示した図である。 一実施形態の発話制御装置100の構成例を示すブロック図である。 騒音タイプ別判定部116による処理の概要を示す図である。 騒音タイプ別判定部116による処理の概要を示す図である。 騒音タイプ別判定部116による処理の概要を示す図である。 対人距離判定部118及び演算部122による処理の概要を示す図である。 周囲環境判定部120及び演算部122による処理の概要を示す図である。 騒音タイプ別判定処理の手順例を示すフローチャートである。 対人距離判定処理の手順例を示すフローチャートである。 周囲環境判定処理の手順例を示すフローチャートである。 声掛け音声出力処理の手順例を示すフローチャートである。
以下、本発明の実施形態について図面を参照しながら説明する。以下の実施形態では、発話制御装置を移動ロボット(自走式ロボット)による音声出力に適用した例を挙げているが、本発明はこの例に限られるものではない。
図1は、発話制御装置の適用場面を一例として示す図である。本実施形態では、例えば、大型ビルやマンション、医療施設、福祉施設といった建物の建設現場CSでの使用を想定することができる。この建設現場CSは、建物の構造体(コンクリートの梁BM、壁WL、床FL、柱CL等)がある程度出来上がった状態にあり、内部を人(作業員等)が歩くことができる状態にある。また、図1には示されていないが、建設現場CSには開けた空間の他に、通路や部屋、エレベータシャフト、階段室等も存在する。
この建設現場CSには、例えば自走式の移動ロボットRBが配置されている。移動ロボットRBは、例えば4つの車輪WHで建設現場CS内を移動することができる。また、移動ロボットRBは、内蔵のIPカメラ112を用いて周囲を撮像したり、マイク・スピーカ128を用いて集音及び発音(発話音声出力)したりすることができる。
移動ロボットRBが建設現場CS内を移動して得た情報は、無線通信を介して例えばクラウドコンピュータ上にアップロードされる。また、移動ロボットRBは、クラウドコンピュータから更新情報を適時ダウンロードしてシステムをアップデートすることができる。このような移動ロボットRBは、既に多く提供されている公知の自律移動制御システムや環境検知システムを備えるものであり、その詳細についての説明は省略する。なお、移動ロボットRBは歩脚式のものでもよい。
本実施形態の発話制御装置は、この適用例に挙げた移動ロボットRBによる発話音声出力の制御を好適に実現する。以下、移動ロボットRBによる発話音声出力を「声掛け」としても呼称する。
図2は、建設現場CS内で移動ロボットRBが発話音声を出力する場面を例示した図である。移動ロボットRBは、日時、周囲の環境、人物の認識を各種センサとAI(人工知能)を用いて行い、各人の状況や建設作業中に関係のある周囲の気候条件や環境に合わせた声掛けを行う。
図2中(A):移動ロボットRBは、例えば建設現場CS内で作業員を人物認識し、日時や環境、声掛けの対象となる人物の状況に合わせた発話内容を選択する。この例では、人物が立ち止まった姿勢であること、現在が日中の時間帯であること、周囲気温が何らかの閾値を超過すること等の状況から総合判断して、「こんにちは 暑いので水分を取って下さい。」といった内容の声掛けを実行している。また、顔認識により人物個人を特定し、「○○さん」のように個人名を付した声掛けも実行することができる。
図2中(B):また、移動ロボットRBは、例えば建設現場CS内で作業員を人物認識するとともに、建設関連情報を認識する。この例では、建設関連情報として人物が足場SCに登った高所作業中であることを状況判断し、「危ないですよ!注意して作業して下さい」といった内容の声掛けを実行している。
このような声掛けの仕組みは、移動ロボットRBが決まった音声で声掛けする場合と比較して、安全性の向上に利する点が大きい。すなわち、移動ロボットRBが建設現場CS内を移動して回り、「人物認識したら機械的に定型の発話内容で声掛けする」というパターンでは、作業中の人物には発話内容があまり届かず、注意喚起にはつながらない。これに対し、作業員に対してその場の状況に合わせた具体的な健康情報や危険情報、建築関連情報を音声で案内する声掛けのパターンであれば、対象人物の注意喚起につながり、安全性向上に利する点が大きくなる。
〔暗騒音との関係〕
ここで、本実施形態の発話制御装置が取り扱う主題は、特に移動ロボットRBが声掛けを実行する際の暗騒音との関係にある。すなわち、建設現場CSのような環境には、各種の作業音や機械動作音、電子機器音といった多様な暗騒音が存在する。このような環境下で移動ロボットRBが声掛け(発話音声出力)の内容を対象の人物に届かせるには、暗騒音を含む環境に合わせた声掛けの仕組みが必要となる。以下、本実施形態で扱う声掛けの仕組みについて説明する。
〔発話制御装置の構成〕
図3は、一実施形態の発話制御装置100の構成例を示すブロック図である。なお、図3では一部に移動ロボットRBの構成要素も合わせて示されている。
発話制御装置100は、声掛けシステム110を中心として構成されている。声掛けシステム110は、IPカメラ112やマイク・スピーカ128からの信号を入力とし、内部でAIによる処理や各種の演算を行った上で、マイク・スピーカ128から発話音声を出力させる制御を実現する。
マイク・スピーカ128は、例えば周囲の騒音レベルを計測したり、移動ロボットRBから発話音声を出力したりするために用いられる。なお、マイク・スピーカ128は別体式(マイクとスピーカが別)の構成であってもよい。
IPカメラ112は、人物を含む周囲環境を撮像するために用いられる。IPカメラ112には、例えば公知の市販製品を適用することができる。IPカメラ112は、いわゆるパン、チルト、ズーム(PTZ)機能を備えたネットワークカメラであるが、本実施形態では特にPTZ機能を用いていない(ただし、用いてもよい。)。IPカメラ112は、移動ロボットRBの本体(例えば頭部)に内蔵されている(図1参照)。ここでは、移動ロボットRBの進行方向正面にIPカメラ112の向きを設定している。
また、声掛けシステム110には、AI処理高速化装置114が付加されている。AI処理高速化装置114には、例えば公知の市販製品を用いることができ、AI処理高速化装置114は、声掛けシステム110の内部で実行されるAI処理の高速化に寄与する。
声掛けシステム110は、移動ロボットRBの制御部130と協働する。制御部130は、声掛けシステム110と協働して移動ロボットRBの移動装置132を制御する。例えば、声掛けシステム110が声掛けを実行する場合、制御部130は移動ロボットRBの移動を停止させたり、対象の人物との位置関係を調整したりする。あるいは、制御部130が移動ロボットRBを移動させつつ、声掛けシステム110が声掛けを実行することもある。
声掛けシステム110は、例えば図示しないCPU(中央処理装置)及びその周辺機器を含むコンピュータ機器を用いて実現することができる。声掛けシステム110は、移動ロボットRBのシステムに追加して搭載される別のハードウエアでもよいし、移動ロボットRBが既に有するハードウエアにインストールされるソフトウエアでもよい。
声掛けシステム110には、例えば騒音タイプ別判定部116や対人距離判定部118、周囲環境判定部120、そして演算部122といった各種の機能ブロックが含まれている。これらの機能ブロックは、例えばコンピュータプログラムを用いて行うAI処理やソフトウエア処理によって実現することができる。
また、声掛けシステム110には記憶部124や出力装置126が含まれる。記憶部124は、例えば半導体メモリや磁気記録装置である。記憶部124には、例えば声掛けシステム110が移動ロボットRBに出力させる発話内容の音声データが格納されている。出力装置126は、マイク・スピーカ128を駆動するドライバアンプ等である。なお、音声データは適宜アップデートすることが可能である。
以下に、声掛けシステム110の各種機能ブロックによる処理の概要を説明する。また、具体的な処理の詳細については、さらに別途フローチャートを用いて後述する。
〔騒音タイプ別判定部〕
図4から図6は、騒音タイプ別判定部116による処理の概要を示す図である。騒音タイプ別判定部116は、予め暗騒音のタイプを例えば「スパイクタイプ」、「波タイプ」及び「一定タイプ」に分類している。なお、各騒音タイプの特性については後述する。
騒音タイプ別判定部116は、マイク・スピーカ128からの入力信号を用いて暗騒音の騒音レベルを観測し、その時間的な変化特性から騒音タイプがいずれであるかを判定する。そして、騒音タイプ別判定部116は、騒音タイプが「スパイクタイプ」又は「波タイプ」のいずれかであれば、それぞれの変化特性に基づいて最適な発話タイミングを設定する。以下、騒音タイプ別に説明する。
〔スパイクタイプの暗騒音〕
「スパイクタイプ」の暗騒音には、例えばハンマー等を用いた打撃作業音が含まれる。すなわち、例えばベースとなる暗騒音があり、その中のある時点で急に大きな打撃音が発生し、次の瞬間急に音が小さくなるといった騒音である。このようなタイプの暗騒音には、図4〔スパイクタイプ判定〕の左側枠内に示すように、騒音レベルの観測値(縦軸の波形)が時間軸上で間欠的にインパルス状(スパイク状)に上昇する変化特性が現れる。このような騒音タイプの判定は、観測値の波形をプロファイルすることで実現可能である(これ以降も同様。)。
このため、図4〔スパイクタイプ時声掛けタイミング設定〕の右側枠内に示すように、騒音タイプ別判定部116は、時間的に前後する観測値(離散時間信号のサンプル値)間の差分値をリアルタイムに演算し、前後の差分値が所定値(例えば30dB)以上である場合に「スパイクタイプ」と判定する。なお、「スパイクタイプ」の判定条件は、前後の差分値が所定値以上であることを1回確認した場合としてもよいし、複数回にわたり確認した場合としてもよい。また、前後の差分値が所定値以上となる間隔(スパイクの間隔)は、実際に発生している暗騒音によって異なるが、例えば1秒以下から数秒の範囲内に設定することができる。
いずれにしても、「スパイクタイプ」の暗騒音が支配的な環境下では、騒音レベルが大きくなるタイミングを避けて声掛けすることが好ましい。逆に、騒音レベルが小さくなるタイミングで声掛けすれば、発話内容が対象の人物には聞き取りやすくなる。そして、騒音レベルが小さくなるタイミングは、観測値の前後の差分値が所定値以上となるタイミングに相当する。
このため騒音タイプ別判定部116は、図4〔スパイクタイプ時声掛けタイミング設定〕の右側枠内に示すように、前後の差分値が所定値以上となる時刻t1や時刻t2を発話タイミングとして設定する。これにより、実際に騒音レベルが小さくなったタイミングで移動ロボットRBに声掛け(発話音声を出力)させることで、対象の人物に発話内容を聞き取りやすくすることができる。
例えば、時刻t1では「こんにちは」を発話させ、時刻t2では「熱中症に気をつけて下さい」を発話させれば、対象の人物にはどちらの発話内容も冒頭から聞き取りやすい。このため、時刻t1と時刻t2の間(時刻t2の直前)に騒音レベルが一瞬大きくなることがあったとしても、対象の人物は2つの発話内容を続けて聞き取り、1つの声掛けとして理解することができる。あるいは、時刻t1又は時刻t2のどちらかのタイミングで両方の内容を一気に発話させてもよい。
〔波タイプの暗騒音〕
「波タイプ」の暗騒音には、例えばドリル等の回転作業機の動作音が一部含まれる。すなわち、騒音レベルが周期的に大きくなったり小さくなったりするような騒音である。このようなタイプの暗騒音には、図5〔波タイプ判定〕の左側枠内に示すように、騒音レベルの観測値が時間軸上で周期的に極大化と極小化を繰り返す変化特性が現れる。
このため、図5〔波タイプ時声掛けタイミング設定〕の右側枠内に示すように、騒音タイプ別判定部116は、観測時間内で騒音レベルが最大(極大)となった値Nmaxを記憶し、騒音レベルの観測値と最大値Nmaxとの差(最大値-現在の観測値)が所定値以上(例えば±10dB以上)となる場合に「波タイプ」と判定する。なお、観測時間は例えば1秒から数秒程度に設定することができる。
このような「波タイプ」の暗騒音が支配的な環境下では、騒音レベルが最大値(ある期間の極大値)になるタイミングを避けて声掛けすることが好ましい。逆に、騒音レベルが最大値からある閾値以下にまで下がってきたタイミングで声掛けすれば、発話内容が対象の人物には聞き取りやすくなる。そして、騒音レベルが最大値から閾値以下まで下がってきたタイミングは、最大値と現在の観測値との差が閾値以上となるタイミングに相当する。
このため騒音タイプ別判定部116は、図5〔波タイプ時声掛けタイミング設定〕の右側枠内に示すように、最大値Nmaxと現在の観測値との差分値が閾値Th以上となる時刻t3を発話タイミングとして設定する。これにより、実際に騒音レベルが最大値から閾値以下に低下したタイミングで移動ロボットRBに声掛け(発話音声を出力)させることで、対象の人物に発話内容を聞き取りやすくすることができる。
例えば、時刻t3で「危ないですよ!注意して作業して下さい」を発話させれば、その後も騒音レベルはより低下していくため、対象の人物には発話内容が冒頭からスムーズに聞き取りやすい。また、仮に時刻t3以降で仮に騒音レベルが低下から上昇に転じることがあったとしても、対象の人物は発話内容をその後も続けて聞き取り、声掛けの内容を最後まで理解することができる。
〔一定タイプ〕
「一定タイプ」の暗騒音には、例えば機関運転音が含まれる。すなわち、発電機等が動力源とする機関の運転中は、音の大きさがほぼ一定レベル(細かい上下はある)であるような騒音である。また、ドリル等の回転音も一部これに含まれる場合がある。このようなタイプの暗騒音には、図6〔一定タイプ判定〕の枠内で左側に示すように、騒音レベルの観測値が時間軸上でほぼ一定レベルを維持する変化特性が現れる。
このため、図6の枠内右側に示すように、騒音タイプ別判定部116は、観測時間内で観測値の前後の差分値をとり、その値が所定範囲P-P内(例えば±10dB以内)に収まっている場合に「一定タイプ」と判定する。なお、観測時間は1秒から数秒程度に設定することができる。
このような「一定タイプ」の暗騒音が支配的な環境下では、発話タイミングの設定は任意(適宜)とすることができる。すなわち、どのタイミングで移動ロボットRBが声掛けを開始しても、暗騒音との関係は一定しているからである。この場合、発話タイミングとは別に、発話音量を騒音レベルの最大値より大きく(例えば+5dB)設定することが好ましい。これにより、対象の人物に発話内容が聞き取りやすい音量で声掛けさせることができる。
〔騒音タイプの複合時〕
以上の騒音タイプは、場所や状況によっては複合することがある。すなわち、異なるタイプの暗騒音が各所から発生している場所では、2つ以上の騒音タイプ(例えば、「スパイクタイプ」と「一定タイプ」、「波タイプ」と「スパイクタイプ」、「波タイプ」と「一定タイプ」、3つのタイプ全て等)が複合的に存在することがある。この場合、本実施形態では優先順位を設けることで処理を一本化する。具体的には、「スパイクタイプ」を最優先とし、次に「波タイプ」、「一定タイプ」の順に低く優先順位を設定する。これにより、騒音タイプが複合する場合でも、混乱なく処理を実行することができる。
〔距離との関係〕
また、本実施形態の発話制御装置が取り扱う主題は、移動ロボットRBが声掛けを実行する際の人物との距離にも関係する。すなわち、建設現場CSのような環境では、例えばオフィスのワンフロアのような開けた場所で移動ロボットRBが遠くの人物に声掛けする場合もあれば、近接した距離で声掛けする場合もある。このような環境下で移動ロボットRBが声掛けの内容を対象の人物に適切に届かせるには、人物と移動ロボットRBとの距離に合わせた声掛けの仕組みも必要となる。
〔対人距離判定部〕
図7は、対人距離判定部118及び演算部122による処理の概要を示す図である。対人距離判定部118は、IPカメラ112からの入力信号(撮像信号)を用いてAI処理により人物を認識するとともに、人物までの距離(対人距離L)を判定する。そして、演算部122は、対人距離判定部118の判定結果に基づいて、移動ロボットRBからの発話音量を設定(調節)する。
〔対人距離〕
図7中(A):ここでは、例えば移動ロボットRBと声掛け対象の人物との距離を対人距離L(m)とする。なお、対人距離Lには、ある程度の誤差(数cm程度)が許容されるものとしてよい。
〔対人距離L≧5(m)時〕
図7中(B):先ず、人物と移動ロボットRBとの距離がある程度離れている状況を想定する。この場合、対人距離判定部118は、IPカメラ112から入力された撮像信号からAI処理により、対象の人物を認識する。ここでは、認識された人物が一点鎖線の矩形枠(バウンディングボックス)で示されている(これ以降も同様。)。対人距離Lは、人物認識したときのバウンディングボックスより推論が可能である。この例では、対人距離判定部118は対人距離Lを15mと判定する。
この結果、演算部122は、「L≧5(m)」の条件を満たすとして、発話音量を基準値より大きく(例えば+5dB)設定する。これにより、移動ロボットRBからある程度離れた場所にいる人物に対しては、基準値よりも大きい音量で声掛けさせることにより、人物に発話内容を聞き取りやすくすることができる。
〔対人距離3≦L<5(m)時〕
図7中(C): 次に、人物と移動ロボットRBとの距離が中程度である状況を想定する。この例では、対人距離判定部118は対人距離Lを4mと判定する。
この結果、演算部122は、「3≦L<5(m)」の条件を満たすとして、発話音量を基準値と同等(例えば±0dB)に設定する。これにより、移動ロボットRBからそう遠くない場所にいる人物に対しては、基準値レベルの音量で声掛けさせることにより、人物に発話内容を聞き取りやすくすることができる。したがって、例えば中程度の距離にいる人物にとって標準的に聞き取りやすい発話音量を基準値(dB)とすることができる。
〔対人距離L<3(m)時〕
図7中(D):次に、人物と移動ロボットRBとの距離が近接している状況を想定する。この例では、対人距離判定部118は対人距離Lを3m以内と判定する。
この結果、演算部122は、「L<3(m)」の条件を満たすとして、発話音量を基準値より小さく(例えば-5dB)設定する。これにより、移動ロボットRBに近接した場所にいる人物に対しては、基準値レベルより小さい音量で声掛けさせることにより、人物に煩わしさを感じさせることなく、充分に発話内容を聞き取りやすくすることができる。
以上のような対人距離Lと発話音量の設定との関係は、以下のような知見に基づく。すなわち、図7中(A)に示すように、移動ロボットRBが発話するときの音量は、対象の人物に聞こえる(対人距離L離れた先まで届く)音量を基準に設定する必要がある。したがって、実際に対象の人物に聞こえる音量は、建設現場CSでの暗騒音レベルを上回っている必要があるが、このとき、対人距離Lが中程度(3~5m)の範囲内であれば、移動ロボットRBから暗騒音レベルを上回る標準的な音量(基準値±0dB)で発話させても、人物への声掛けに大きな影響がない(特段に聞き取りにくくない)ことが分かっている。したがって、周囲環境の暗騒音レベルより大きい(例えば暗騒音+5dB)を発話音量の基準値とし、その上で対人距離Lのレンジに応じて発話音量を大小に調節すれば、どの距離でも安定して人物に聞こやすい音量で声掛けさせることができる。
〔周囲環境との関係〕
さらに、本実施形態の発話制御装置が取り扱う主題は、移動ロボットRBが声掛けを実行する際の周囲環境の条件にも関係する。すなわち、建設現場CSでは、移動ロボットRBが人物に声掛けする際に周囲環境が様々に異なる場合がある。このような異なる環境下で移動ロボットRBが声掛けの内容を対象の人物に適切に届かせるには、周囲環境に合わせた声掛けの仕組みも必要となる。
〔周囲環境判定部〕
図8は、周囲環境判定部120及び演算部122による処理の概要を示す図である。周囲環境判定部120は、IPカメラ112からの入力信号(撮像信号)を用いてAI処理により周囲環境を認識し、どの環境タイプであるかを判定する。ここでは、AIで認識する環境タイプを3つに予め分類しているものとする。すなわち、「広い空間」、「通路」そして「部屋」の3タイプである。そして、演算部122は、周囲環境判定部120の判定結果に基づいて、移動ロボットRBからの発話音量を設定(調節)する。
〔広い空間認識時〕
図8中(A):周囲環境判定部120は、この例のように周囲に壁がない空間SPであるとAI処理によって認識できる場合は、環境タイプを「広い空間」と判定する。
この結果、演算部122は、発話音量を基準値より大きく(例えば+5dB)設定する。これは、実際に広い空間では、移動ロボットRBから発話させた音声が拡散しやすく、対象の人物に届くまでに音圧レベルが減衰しやすいことを考慮したものである。これにより、ある程度開けた場所にいる人物に対しては、基準値よりも大きい音量で声掛けさせることにより、人物に発話内容を聞き取りやすくすることができる。
〔通路認識時〕
図8中(B):また、周囲環境判定部120は、この例のように進行方向に空間SPがあり、周囲に壁WLや棚RCがあるとAI処理によって認識できる場合は、環境タイプを「通路」と判定する。
この結果、演算部122は、発話音量を基準値と同等(例えば±0dB)に設定する。これは、実際に通路のような場所では、移動ロボットRBの正面進行方向(発話音声を出力する方向)に発話させた音声が伝達しやすく、対象の人物に届くまでに音圧レベルがあまり減衰しないことを考慮したものである。これにより、通路のような場所にいる人物に対しては、基準値レベルの音量で声掛けさせることにより、人物に発話内容を聞き取りやすくすることができる。したがって、例えば通路内にいる人物にとって標準的に聞き取りやすい発話音量を基準値(dB)とすることができる。
〔部屋認識時〕
図8中(C):また、周囲環境判定部120は、この例のように移動ロボットRBの正面進行方向の距離は短く(突き当たりDE)、両側に壁WLがあるとAI処理によって認識できる場合は、環境タイプを「部屋」と判定する。
この結果、演算部122は、発話音量を基準値より小さく(例えば-5dB)設定する。これは、実際に部屋のような場所では、移動ロボットRBから発話させた音声が反響しやすく、音圧レベルがほとんど減衰せずに対象の人物に届くことを考慮したものである。これにより、部屋の中にいる人物に対しては、基準値よりも小さい音量で声掛けさせることにより、煩わしさを感じさせることなく、人物に発話内容を聞き取りやすくすることができる。
〔処理プログラムの例〕
以上の説明で声掛けシステム110による各種処理の概要は明らかとなっているが、以下では、フローチャートを用いて具体的な処理の手順を説明する。
〔騒音タイプ別判定処理〕
図9は、騒音タイプ別判定部116で実行されるプログラムの一部として騒音タイプ別判定処理の手順例を示すフローチャートである。以下、手順例に沿って説明する。
ステップS100:騒音タイプ別判定部116は、騒音計測を実行する。ここでは、例えばマイク・スピーカ128からの入力信号を離散時間処理し、観測値のサンプルを得る。なお、入力信号は声掛けシステム110の図示しないA/D変換部によりデジタル変換される。
ステップS102:騒音タイプ別判定部116は、計測完了の条件を判断する。例えば、観測値のサンプルを必要数(30~100個)蓄積すると、計測完了(Yes)と判断する。計測を完了するまでは(No)、騒音タイプ別判定部116はここで本処理を抜け(リターン)、ステップS100を繰り返す。計測完了(Yes)の場合、次にステップS104を実行する。
ステップS104:騒音タイプ別判定部116は、騒音タイプ判定を実行する。ここでは、上記のように暗騒音が「スパイクタイプ」、「波タイプ」又は「一定タイプ」のいずれの騒音タイプであるかを判定する。この判定は、AI処理を用いた推論により行ってもよいし、サンプルを全て評価してから行ってもよい。
ステップS106:騒音タイプ別判定部116は、騒音タイプが「スパイクタイプ」である場合(Yes)、ステップS108に進む。それ以外では(No)、ステップS110に進む。
ステップS110:騒音タイプ別判定部116は、騒音タイプが「波タイプ」である場合(Yes)、ステップS112に進む。それ以外は騒音タイプが「一定タイプ」であり(No)、ステップS114に進む。
〔スパイクタイプ判定時〕
ステップS108:騒音タイプ別判定部116は、「スパイクタイプ」判定時の声掛けタイミング(発話タイミング)を設定する。先の例(図4)であれば、前後の差分値が閾値以上となる時刻t1,t2を発話タイミングとして設定する。
〔波タイプ判定時〕
ステップS112:騒音タイプ別判定部116は、「波タイプ」判定時の声掛けタイミング(発話タイミング)を設定する。先の例(図5)であれば、最大値Nmaxとの差が閾値Th以上となる時刻t3を発話タイミングとして設定する。
〔一定タイプ判定時〕
ステップS114:騒音タイプ別判定部116は、「一定タイプ」判定時の発話音量を設定する。先の例(図6)であれば、暗騒音レベルを上回る音量に設定する。
ステップS116:騒音タイプ別判定部116は、ステップS108,S112,S114のいずれかの処理の結果を出力する。すなわち、設定した発話タイミング又は発話音量を演算部122に出力する。
以上の手順を実行すると、騒音タイプ別判定部116は本処理を離脱(リターン)する。そして、上記同様の手順を繰り返し実行する。
〔対人距離判定処理〕
図10は、対人距離判定部118で実行されるプログラムの一部として対人距離判定処理の手順例を示すフローチャートである。以下、手順例に沿って説明する。
ステップS200:対人距離判定部118は、人物検知処理を実行する。この処理は、AI処理を用いて実行することができる。
ステップS202:対人距離判定部118は、人物を検知した場合(Yes)、ステップS204に進む。人物を検知していない場合(No)、ステップS208に進む。
〔人物検知時〕
ステップS204:対人距離判定部118は、対人距離判定処理を実行する。この処理もまた、AI処理を用いて実行することができる。先の例(図7)であれば、人物を認識したバウンディングボックスを用いた推論により対人距離Lを判定する。
ステップS206:対人距離判定部118は、判定した対人距離Lの値を処理の結果として演算部122に出力する。
〔人物非検知時〕
ステップS208:この場合、対人距離判定部118は、「人物検知なし」を演算部122に出力する。
以上の手順を実行すると、対人距離判定部118は本処理を離脱(リターン)する。そして、上記同様の手順を繰り返し実行する。
〔周囲環境判定処理〕
次に、図11は、周囲環境判定部120で実行される周囲環境判定処理の手順例を示すフローチャートである。以下、手順例に沿って説明する。
ステップS300:周囲環境判定部120は、周囲環境認識処理を実行する。この処理は、AI処理を用いて実行することができる。先の例(図8)に挙げたように、ここでは周囲環境を認識した上で、環境タイプが「広い空間」、「通路」又は「部屋」のいずれであるかを判定する。
ステップS302:周囲環境判定部120は、環境タイプを「広い空間」と判定した場合(Yes)、ステップS304を実行する。それ以外では(No)、ステップS306に進む。
ステップS306:周囲環境判定部120は、環境タイプを「通路」と判定した場合(Yes)、ステップS308を実行する。それ以外では(No)、ステップS310に進む。
ステップS310:周囲環境判定部120は、環境タイプを「部屋」と判定した場合(Yes)、ステップS312を実行する。それ以外では(No)、ステップS314に進む。
〔広い空間判定時〕
ステップS304:周囲環境判定部120は、発話音量の調整パラメータとして「+5dB」を設定する。
〔通路判定時〕
ステップS308:周囲環境判定部120は、発話音量の調整パラメータとして「±0dB」を設定する。
〔部屋判定時〕
ステップS312:周囲環境判定部120は、発話音量の調整パラメータとして「-5dB」を設定する。
ステップS316:周囲環境判定部120は、ステップS304,S308,S312のいずれかの処理の結果を出力する。すなわち、設定した発話音量の調整パラメータを演算部122に対して出力する。
ステップS314:一方、環境タイプを判定できなかった場合(ステップS310=No)、周囲環境判定部120は、「周囲環境不明」を演算部122に対して出力する。
以上の手順を実行すると、周囲環境判定部120は本処理を離脱(リターン)する。そして、上記同様の手順を繰り返し実行する。
〔声掛け音声出力処理〕
図12は、演算部122で実行される声掛け音声出力処理の手順例を示すフローチャートである。以下、手順例に沿って説明する。
ステップS400:演算部122は、騒音タイプ別判定部116、対人距離判定部118及び周囲環境判定部120からの出力結果をそれぞれ入力する。
ステップS402:騒音タイプ別判定部116から声掛け(発話)タイミングの設定が入力されてきた場合(Yes)、演算部122は、ステップS404に進む。それ以外であれば(No)、ステップS404をスキップしてステップS406に進む。
〔声掛けタイミング設定あり時〕
ステップS404:演算部122は、騒音タイプ別判定部116により設定された声掛け(発話)タイミングであることを確認すると(Yes)、ステップS406に進む。設定された声掛けタイミングでなければ(No)、ここで本処理を離脱(リターン)してステップS400から繰り返す。
ステップS406:声掛けタイミングの設定あり時(ステップS402=Yes)及び設定なし時(ステップS402=No)のいずれについても、演算部122は声掛け(発話)音量を設定する。ここでは、対人距離判定部118で判定された対人距離Lの条件や、周囲環境判定部120で設定された調整パラメータを用いて声掛け(発話)音量を設定する。
〔上限値による制限〕
ただし、演算部122は、声掛け(発話)音量の設定に制限を設けている。具体的には、暗騒音レベルを上回る基準値に調整パラメータを足し合わせた上で、発話させる音量の上限は所定の規制値(例えば80dB)の範囲内としている。これにより、移動ロボットRBから出力させる発話音声が別の第三者(建設現場CS外の人物)に対する騒音となるのを防止することができる。
ステップS408:そして演算部122は、声掛け(発話)タイミングが設定された場合はそのタイミングに、設定されていない場合は適宜のタイミングに、かつ、設定した声掛け(発話)音量で声掛け音声出力を出力装置126に対して指示する。これにより、マイク・スピーカ128から発話音声が出力される。
以上の手順を実行すると、演算部122は本処理を離脱(リターン)する。そして、上記同様の手順を繰り返し実行する。
このように、声掛けシステム110の各部が各処理を同時並行的に実行することにより、移動ロボットRBによる声掛けが適切に実行されることになる。
なお、対人距離判定処理(図10)のステップS206では、結果として対人距離Lの値を出力しているが、周囲環境判定処理(図11)のステップS302~S312のように、対人距離Lのレンジ別に発話音量の調整パラメータを設定して出力してもよい。具体的には、対人距離判定部118は、判定した対人距離Lが5m以上であれば、発話音量の調整パラメータとして「+5dB」を設定し、判定した対人距離Lが3m以上5m未満であれば、発話音量の調整パラメータとして「±0dB」を設定し、判定した対人距離Lが3m未満であれば、発話音量の調整パラメータとして「-5dB」を設定することとしてもよい。
逆に、周囲環境判定処理(図11)ではステップS302~S312を実行することなく、判定結果として環境タイプ(又は周囲環境不明)だけを出力することとしてもよい。この場合、ステップS302~S312の処理を音声出力処理の中で実行することで、同じ結果を得ることができる。
以上のような実施形態の発話制御装置100によれば、適切に発話を制御することができる。これにより、例えば建設現場CSのように周囲環境にハンマーを叩く音やドリルが回る音といった様々なタイプの暗騒音が存在し、また、対象の人物までの距離や人物が居る周囲環境も異なる場合であっても、移動ロボットRBが日中、建設現場CS内を自律移動しながら作業者に声掛けする際に、暗騒音に阻害されることなく、声掛けの内容を確実に聞かせることができる。
本発明は上述した実施形態に制約されることなく、種々に変形して実施することが可能である。
既に述べたように、発話制御装置100を適用する対象は移動ロボットRBに限られず、固定式のロボットであってもよいし、ロボットの形態ではない車両その他のマシン、あるいは据え置き型の機器であってもよい。
IPカメラ112やマイク・スピーカ128の設置個数や位置、形状、向き等は適宜に選択又は変更することができる。また、AI処理高速化装置114は必須ではなく、特にこれを用いなくてもよい。
また、各種処理(図9~図12)で挙げた手順例は適宜に変更可能であるし、必ずしも手順例の通りに処理が行われなくてもよい。また、各種処理をどのような契機(割り込みイベント処理又はトリガイベント処理)で実行させるかは適宜に決定してもよい。
その他、実施形態等において図示とともに挙げた構造はあくまで好ましい一例であり、基本的な構造に各種の要素を付加し、あるいは一部を置換しても本発明を好適に実施可能であることはいうまでもない。
100 発話制御装置
110 声掛けシステム
112 IPカメラ
116 騒音タイプ別判定部
118 対人距離判定部
120 周囲環境判定部
122 演算部(音声出力部)
126 出力装置(音声出力部)
128 マイク・スピーカ(音声出力部)

Claims (5)

  1. め複数に分類された騒音タイプ別に異なる騒音レベルの時間的な変化特性を有する暗騒音について、周囲環境中の暗騒音が前記騒音タイプのいずれであるかを騒音レベルの時間的な変化特性に基づいて判定し、当該判定した騒音タイプ別に異なる発話タイミングを設定する騒音タイプ別判定部と、
    発話対象となる人物までの対人距離を判定する対人距離判定部と、
    発話対象となる人物の周囲環境が予め複数に分類されたいずれの環境タイプであるかを判定する周囲環境判定部と、
    前記対人距離判定部及び前記周囲環境判定部の各判定結果に基づいて発話音量を設定し、前記騒音タイプ別判定部により設定された発話タイミングで発話音声を出力させる音声出力部と
    を備えた発話制御装置。
  2. 請求項1に記載の発話制御装置において、
    前記騒音タイプ別判定部は、
    騒音レベルの観測値にインパルス状の上昇が間欠的に現れる変化特性の騒音タイプであると判定した場合、時間的に前後する観測値間の差分値が所定値以上となったタイミングを発話タイミングとして設定することを特徴とする発話制御装置。
  3. 請求項1又は2に記載の発話制御装置において、
    前記騒音タイプ別判定部は、
    騒音レベルの観測値が周期的に極大化と極小化を繰り返す変化特性の騒音タイプであると判定した場合、観測値が極大値から閾値以下に低下したタイミングを発話タイミングとして設定することを特徴とする発話制御装置。
  4. 請求項1から3のいずれかに記載の発話制御装置において、
    前記周囲環境判定部は、
    周囲環境が建設現場内の広い空間、通路及び部屋のいずれの環境タイプであるかを判定し、
    前記音声出力部は、
    前記周囲環境判定部による環境タイプの判定結果が広い空間である場合は発話音量を最大に設定し、通路である場合は発話音量を中間に設定し、部屋である場合は発話音量を最小に設定することを特徴とする発話制御装置。
  5. 請求項1から4のいずれかに記載の発話制御装置において、
    前記音声出力部は、
    所定の上限値を超えない範囲内で、発話音量を騒音レベルより大きく設定することを特徴とする発話制御装置。
JP2020050073A 2020-03-19 2020-03-19 発話制御装置 Active JP7430083B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020050073A JP7430083B2 (ja) 2020-03-19 2020-03-19 発話制御装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020050073A JP7430083B2 (ja) 2020-03-19 2020-03-19 発話制御装置

Publications (2)

Publication Number Publication Date
JP2021146473A JP2021146473A (ja) 2021-09-27
JP7430083B2 true JP7430083B2 (ja) 2024-02-09

Family

ID=77850494

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020050073A Active JP7430083B2 (ja) 2020-03-19 2020-03-19 発話制御装置

Country Status (1)

Country Link
JP (1) JP7430083B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024053765A1 (ko) * 2022-09-08 2024-03-14 엘지전자 주식회사 안내 로봇 및 안내 로봇의 동작방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005202076A (ja) 2004-01-14 2005-07-28 Sony Corp 発話制御装置及び方並びにロボット装置
JP2007276080A (ja) 2006-04-11 2007-10-25 Toyota Motor Corp 案内ロボット
JP2008254122A (ja) 2007-04-05 2008-10-23 Honda Motor Co Ltd ロボット
JP2019219509A (ja) 2018-06-20 2019-12-26 カシオ計算機株式会社 ロボット、ロボットの制御方法及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005202076A (ja) 2004-01-14 2005-07-28 Sony Corp 発話制御装置及び方並びにロボット装置
JP2007276080A (ja) 2006-04-11 2007-10-25 Toyota Motor Corp 案内ロボット
JP2008254122A (ja) 2007-04-05 2008-10-23 Honda Motor Co Ltd ロボット
JP2019219509A (ja) 2018-06-20 2019-12-26 カシオ計算機株式会社 ロボット、ロボットの制御方法及びプログラム

Also Published As

Publication number Publication date
JP2021146473A (ja) 2021-09-27

Similar Documents

Publication Publication Date Title
CN114080589B (zh) 自动主动降噪(anr)控制以改善用户交互
US7424118B2 (en) Moving object equipped with ultra-directional speaker
JP4694700B2 (ja) 話者の方向をトラッキングする方法およびシステム
US7840308B2 (en) Robot device control based on environment and position of a movable robot
US20150222977A1 (en) Awareness intelligence headphone
US10277185B2 (en) Communication system and robot
US20210158828A1 (en) Audio processing device, image processing device, microphone array system, and audio processing method
JP7430083B2 (ja) 発話制御装置
WO2022066393A1 (en) Hearing augmentation and wearable system with localized feedback
JP6489163B2 (ja) 雑音低減装置、雑音低減方法およびプログラム。
CN111104090A (zh) 一种音量调整方法及装置
EP3684076B1 (en) Accelerometer-based selection of an audio source for a hearing device
JPS632500A (ja) 収音装置
CN113314121B (zh) 无声语音识别方法、装置、介质、耳机及电子设备
US11388514B2 (en) Method for operating a hearing device, and hearing device
JP2014206683A (ja) 消音装置および消音方法
JP7430088B2 (ja) 発話制御装置
JP6163924B2 (ja) 雑音検出装置、雑音検出方法、雑音低減装置、雑音低減方法、通信装置およびプログラム。
KR101816691B1 (ko) 사운드 마스킹 시스템
JP4468777B2 (ja) 脚式歩行ロボットの制御装置
JP7430087B2 (ja) 発話制御装置
JP7402721B2 (ja) 発話制御装置
CN112911486A (zh) 一种无线耳机及其入耳状态的检测方法、存储介质
JP7434635B1 (ja) 情報処理装置、情報処理方法及びプログラム
US20230209239A1 (en) Wireless headphone system with standalone microphone functionality

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240123

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240130

R150 Certificate of patent or registration of utility model

Ref document number: 7430083

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150