JP2009192942A

JP2009192942A - 音声対話装置及び支援方法

Info

Publication number: JP2009192942A
Application number: JP2008035126A
Authority: JP
Inventors: Hiroshi Sugiyama; 博史杉山; Kaoru Suzuki; 薫鈴木; Daisuke Yamamoto; 大介山本; Toshiyuki Koga; 敏之古賀
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-02-15
Filing date: 2008-02-15
Publication date: 2009-08-27
Anticipated expiration: 2028-02-15
Also published as: US8155968B2; JP5075664B2; US20090210227A1; CN101510425A; CN101510425B

Abstract

【課題】
音声認識精度を向上させるために利用者の発話に適した領域を推定することのできる対話型ロボットを提供する。
【解決手段】
音声認識可能な音声対話型ロボット100であって、音声認識部302で認識された語彙に対応する処理を実行する。利用者音声強度DB306に記憶された利用者201の音声の特性から、必要なS/N比を満たす推奨距離範囲を推定し、推奨距離範囲提示部309へ出力する。推奨距離範囲提示部309は、推奨距離範囲推定部307から通知された対話型ロボット100と利用者201との音声に適した距離範囲である推奨距離範囲を利用者201に対して提示する。それによって利用者が音声認識精度を満たす発話に適した推奨距離範囲から発話が可能なように支援することが可能な対話型ロボットを提供することが出来る。
【選択図】図３

Description

本発明は、周囲の雑音に応じて発話に適した距離範囲を推定し提示する音声対話装置及びその支援方法に関する。

従来から利用者との間で音声対話を行うロボットが知られている。しかし、家庭やオフィスなどの実環境では様々な機器から発生する雑音によって、音声対話ロボットが利用者の発話する音声を正確に認識できない場合がある。家電機器や人の生活行動によって音が発生する環境で音声認識率を向上させるためには、利用者の音声を適切な強度でマイクに入力する必要がある。

特許文献１は、利用者の声を検出するとS/N比を計算し、S/N比が一定以下である場合にはロボットを利用者の方に近づけることによりS/N比を向上させる方法を提案している。しかし、この方法では、あらかじめどれだけの距離近づけば十分な認識が可能なS/N比を満たす音声を得られるかは判断していない。また周囲の雑音強度が変化した場合、話者と適切な距離であるかを判断するために、再度利用者からの発話を受ける必要がある。

特許文献２は、どの程度の音量で発話すればよいかを話者が感覚的に把握できるように、周囲の騒音レベルに応じて、実際に発話された音声の音量と発話すべき音量とを対比した表示を行う方法を提案している。しかし、自分の声は頭蓋を伝わって聞こえる部分が大きい。そのため、表示に合わせて自らの声の大きさを調整する動作は困難である。また、外部の環境変化に伴って騒音レベルが変化した場合、適切な音量範囲を得るために再び発話を行う必要がある。

特開２００６−１８１６５１公報特開２００６−２２７４９９公報

上述の方法では、利用者に数回発話してもらった結果を確認するという方法であるため、雑音強度が変化し調整が必要になる度に利用者に発話を強いる必要があるという問題がある。

上記課題を解決するため、本発明は、雑音に応じて発話に適する推奨距離範囲を推定し利用者に提示する音声対話装置を提供することを目的とする。

上記課題を解決するために、利用者が発する音声で対話をする音声対話装置であって、ゲインが可変な音声入力手段と、前記音声入力手段から入力された音声信号から発話区間を検出して音声認識を行う認識手段と、前記発話区間の前記音声信号の強度である音声強度を測定する第１の強度測定手段と、前記発話区間を除いた雑音区間における、雑音信号の強度である雑音強度を測定する第２の強度測定手段と、前記音声強度と前記雑音強度との比であるS/N比を算出する第１の算出手段と、前記利用者と前記音声入力手段との現在距離を測定する距離測定手段と、前記認識手段が所定の認識率で音声認識可能なS/N比に対応した第1の閾値を記憶する第１の記憶手段と、前記認識手段が認識に成功した際の、前記音声強度、前記現在距離、及び前記音声入力手段のゲインの組である音声特性を記憶する第２の記憶手段と、前記音声特性に基づき、前記雑音強度と、前記音声強度とのS/N比が前記第１の閾値以上となると推定される前記利用者と前記音声入力手段との距離範囲である推奨距離範囲を算出する第２の算出手段と、前記推奨距離範囲と、前記現在距離を表示する表示手段とを具備したことを特徴とする音声対話装置を提供する。

また、利用者が発する音声で対話をする音声対話装置の音声認識処理を支援する方法であって、前記利用者が発する音声を音声信号として音声入力手段に入力するステップと、
前記音声入力手段のゲインを調整するステップと、前記音声信号から発話区間を検出して音声認識を行うステップと、前記発話区間の前記音声信号の強度である音声強度を測定するステップと、前記発話区間を除いた雑音区間における、雑音信号の強度である雑音強度を測定するステップと、前記音声強度と前記雑音強度との比であるS/N比を算出するステップと、前記利用者と前記音声入力手段との現在距離を測定するステップと、所定の認識率で音声認識可能なS/N比に対応した第1の閾値を記憶するステップと、前記認識手段が認識に成功した際の、前記音声強度、前記現在距離、及び前記音声入力手段のゲインとの組である音声特性を記憶するステップと、前記音声特性に基づき、前記雑音強度と、前記音声強度とのS/N比が前記第１の閾値を満たすと推定される前記利用者と前記音声入力手段との距離範囲である推奨距離範囲を算出するステップと、前記推奨距離範囲と、前記現在距離とを表示するステップとを有する音声対話装置の音声認識処理を支援する支援方法を提供する。

雑音に応じて発話に適する推奨距離範囲を推定し、推定された距離範囲を利用者に提示することができる。

（第１の実施形態）
第１の実施形態の対話型ロボットについて説明する。

図１は本実施形態の対話型ロボットの外観を示す図である。家庭内で用いられる対話型ロボット100は画像撮像デバイス101，102（例えばCCDカメラ）と、音声入力デバイス103，104（例えばマイクロホン）と、距離センサ105と、リモコン信号送受信器109（例えばリモコン送受信器）と、インジケーター106と、可動部107，108（例えば腕部）を備えている。

ロボット100の頭部に配置された、音声入力デバイス103、104は入力される音声をアナログ信号に変換するデバイスである。変換されたアナログ信号はゲインの調整が可能なマイクアンプを通して増幅され、図示しないA/D変換器を通してデジタル信号に変換され、音声データとして図示しないCPUで処理される。

距離センサ105は、例えば赤外線測距センサ、超音波センサの様な対象物との距離を計測し、距離に対応する信号を出力するデバイスである。距離センサ105は音声入力デバイス103の近傍に配置され、利用者と音声入力デバイス103，104との間の距離の測定に使用される。

ロボット100のボディ前面に配置されたインジケーター106は、LEDや液晶などを使った状態表示デバイスであり、連続的に変化する状態量を利用者201に対して提示する。本実施形態では、利用者に対して発話の推奨距離及び、利用者と対話型ロボット100との距離を表示するために使用される。

リモコン信号送受信器109は家電機器を操作するリモコンの信号を送受信するデバイスであり、利用者の操作するリモコンから発信された信号（例えば赤外コード）を受信する。また、利用者の発話による指示に従い、指定された信号（例えば赤外コード）を発信することでテレビ203などの家電機器を操作する。

可動部107，108は対話型ロボット100が動作表現をするための手段である。可動部107，108の動作によって利用者が発話に適した距離範囲である推奨距離範囲内にいるかの判定結果を利用者に伝達する。

図２は本実施形態の対話型ロボットの使用形態を示す図である。

ダイニングテーブル202の上に対話型ロボット100が置かれ、利用者201が対話型ロボット100に向かって命令語彙を発話する。

例えば命令語彙として「テレビつけて」と利用者201が発話し、対話型ロボット100が「テレビつけて」の音声認識に成功する。対話型ロボット100はリモコン信号送受信器109からリモコン信号を発信してテレビ203の電源を入れる。テレビ203をつける前に利用者201は図２のＤ２の距離から対話型ロボット100に発話したとする。テレビ203がついている状態になると、テレビ203の音が雑音となり雑音の強度が強くなり、発話音声と雑音とのS/N比が低下する。

図２に示すように、一定の音量で利用者201が発話する場合、S/N比を向上させるために利用者201は対話型ロボット100にＤ２より近い距離のＤ１まで近づいて発話する必要がある。本実施形態では、一定以上の音声認識率が得られる対話型ロボット100と利用者201との距離範囲を、周囲の雑音強度に応じて推定する。

推定された推奨距離範囲と、距離センサ105が測定した利用者201と対話型ロボット100との距離を利用者201に提示する。それによって、利用者201は雑音強度に応じた発話に適する推奨距離範囲内に自分がいるかどうか及び、どれだけ移動すれば推奨距離範囲内に入るかを知ることが出来る。そのようにして利用者が音声認識精度を満たす発話に適した距離範囲に移動することが可能なように支援することが可能である。

図１３は、インジケータ106が、利用者201に発話に適した推奨距離範囲及び利用者201と対話型ロボット100との距離とを提示する例を示した図である。

インジケータ106は、現在の利用者の距離をバー1305で表示する。また、対話型ロボット100と利用者との推奨距離範囲1302を併せて表示することで、利用者に発話推奨距離を提示する。

図１３(１)のように、インジケータ106は推奨距離範囲1302、利用者203との距離が近すぎる範囲1301、遠すぎる範囲1303と、利用者203の現在の距離をバー1305で示している。この図では、利用者203は推奨距離範囲1302におらず、音声対話装置100との距離が遠すぎる。

図１３(２)は（１）から、周囲の雑音レベルが変化した際のインジケータ106の表示を示す図である。周囲の雑音が変化することによって、推奨距離範囲1302は変動する。

図１３(３)は（２）から、利用者203と対話型ロボット100との距離が変化した際のインジケータ106の表示を示す図である。利用者203と対話型ロボット100との距離が短くなったために利用者203が推奨距離範囲内に居ることが提示されている。

図14は、対話型ロボット100が可動部107，108の動作によって推奨距離範囲1302内に利用者がいるかどうかを提示する例を示す図である。上図は、利用者と対話型ロボット100との距離関係を示す図である。下図は、(a)(b)(c)それぞれの距離に利用者が居ると対話型ロボット100が判断した際の可動部107，108の動作を表す図である。

(a)利用者との距離が遠すぎる場合には、可動部107，108は動作せず、初期位置である下に下ろした状態のままである。(b)利用者との距離が適切な推奨距離範囲内であると判断した際には、片方の可動部107を上に上げる。(c)利用者との距離が近過ぎる場合には両方の可動部107，108を上に上げる。

ここでは、利用者との距離が適切かどうかを、２つの可動部107，108の動作の組み合わせのパターンで提示することが可能である。

以下、本実施形態の対話型ロボットが推奨距離範囲を推定する機構について詳細に説明する。

図3は、本実施形態の対話型ロボット100の機能ブロック図である。

本実施形態の対話型ロボット100は、音声入力部301、音声認識部302、命令実行部303、強度測定部305、利用者音声強度データベース（以下DBと記す）306、推奨距離範囲推定部307、音声認識特性DB308、推奨距離範囲提示部309を有する。

音声入力部301は、対話型ロボット100の外界の音を指定されたゲイン値に従った増幅を行って取り込む手段である。図１に示す音声入力デバイス103，104およびゲイン調整が可能なマイクアンプおよびA/D変換器を有する。取得した音声信号は音声認識部302と強度測定部305に出力される。

音声認識部302は、音声入力部301を通して取得した音声信号に対して音声認識を実行する。発話区間の検出処理と、検出された発話区間に対する語彙を周波数解析やパターンマッチング等の手段により判定する認識処理を実行する。あらかじめノイズ除去処理された状態で抽出された音声パターンの形状と、予め登録されている命令音声の音声パターンの形状とを１つずつ照合する。そして、一致精度の最も高いものを発話内容として認識する。一致精度が一定の閾値を越えない場合は、どの登録音声とも一致しないものとみなし、音声認識が失敗したと判断される。

命令実行部303は音声認識部302で認識された語彙のうち、対話型ロボット100が実行できる命令に対応する命令語彙である場合には命令に対応する処理を実行する手段である。例えば前述の「テレビつけて」の命令語彙が認識された場合には、命令実行部303はリモコン送受信器109から対応する赤外コードを発信する処理を実行する。

利用者距離測定部304は、図１に示す距離センサ105を用いて利用者201と対話型ロボット100との現在の距離を計測する手段である。逐次実行されている音声認識部302が発話区間を検出し始めた開始のタイミングと終了のタイミングをイベント通知され、発話区間中の距離センサ105の出力の一定時間毎の平均値を利用者201との距離として推奨距離範囲推定部307と推奨距離範囲提示部309へ出力する。

強度測定部305は音声入力部301から取得された音声信号の強度を測定する。音声認識部302が発話区間を検出し始めた開始のタイミングと終了のタイミングが強度測定部305にイベント通知される。検出開始通知から検出終了通知までの区間を音声信号と、それ以外の区間を雑音区間と判断する。発話区間に対しては、区間内の音声信号の強度を計算し、発話音声の強度として推奨距離範囲推定部307に出力する。また雑音区間に対しては、区間内を一定時間毎に区切って音声信号の強度を計算し、雑音の強度として推奨距離範囲推定部307に出力する。

利用者音声強度DB306は認識が成功した際のゲインＧと、利用者201と対話型ロボット100との距離Ｄと、音声強度Ｖとの組（Ｇ，Ｄ，Ｖ）を有する利用者の音声の特性の相関を記憶している。

音声認識特性DB308は音声認識部302の音声認識性能に関する数値を記憶している。具体的には、許容できる雑音の上限強度、音声認識対象となる音声の強度の下限強度、及びS/N比と音声認識率との相関が記憶されている。

推奨距離範囲推定部307は音声信号のゲインの調整と、音声認証を行う上で適切なS/N比を満たす発話距離範囲の推定と、推定した推奨距離範囲の出力とを行う。(1)音声入力部301のゲインと、(2)強度測定部305が測定した雑音の強度と、(3)利用者音声強度DB306から参照した（Ｇ，Ｄ，Ｖ）の組と、(4)音声認識特性DB308から参照した音声認識部302の特性値とを用いて、現在の雑音強度に対してゲインの変更が必要かどうかの判断を行う。ゲインの変更が必要である場合には、新しいゲインを決定し、音声入力部301のゲインの調整を指示する。次に、決定したゲインと雑音の強度に対して音声認識部302が一定以上の音声認識率を発揮するために必要なS/N比を推定する。利用者201の音声の強度から必要なS/N比以上になる推奨距離範囲を推定し、推定した推奨距離範囲を推奨距離範囲提示部309へ出力する。具体的なゲインの決定方法および距離推定方法は後述する。

推奨距離範囲提示部309は、推奨距離範囲推定部307から通知された対話型ロボット100と利用者201との音声認識可能な推奨距離範囲を利用者201に対して提示する。利用者201に対して利用者201が推奨距離範囲内にいるかどうかを提示する方法は、インジケータ106による提示、あるいは可動部107,108の動作による提示等である。または、音声合成手段によって対話型ロボット100が発話する機能を設けてもよい。

図４は、強度測定部305が入力音声信号の発話区間と雑音区間の判別をする際の音の特性を示す図である。図に示すように、ある音声強度L１以下の音声強度区間を雑音区間とし、それ以外の区間を発話区間として検出する。検出開始通知から検出終了通知までの区間の音声信号を発話区間と、それ以外の区間を雑音区間と判断する。発話区間に対しては区間内の音声信号から強度を計算し発話音声の強度として推奨距離範囲推定部307と利用者音声強度DB306に通知する。また雑音区間に対しては、一定時間毎に区切って音声信号の強度の平均値を計算したものを雑音の強度とし、推奨距離範囲推定部307に通知する。

次に、音声認識特性DB308に記憶された、音声認識部302の音声認識の特性を示す数値と、音声認識部302における音声認識の処理との関係について説明する。

音声認識部302における音声認識の処理手順は大きく分けて、入力された音声信号から人の発話に該当する区間を検出する発話区間の検出処理と、検出した発話区間の音声信号から発話語彙を識別する認識処理の２段階で処理される。

音声認識性能を阻害する原因もこの２つの処理段階に分けて分析することができる。一つは雑音の強度が大きい事が原因で、発話区間の前後の雑音も含めた範囲が発話区間と誤検出処理されてしまう場合である。もう一つは、要求される認識率を満たすのに必要なS/N比を下まわっている為に、発話区間の信号に雑音信号が上乗せされる事が原因で、認識処理で計算された類似度が低くなってしまう場合である。類似度が低いと、判定基準の閾値を下回わり判定に失敗してしまう、若しくは間違った語彙に判定されてしまう。

音声認識特性DB308には、音声認識部302に音声認識処理を実行させる為に必要となる、下記の(a)〜(d)に記した４つのパラメータが記憶されている。

(a)要求される認識率を満たす為に必要なS/N比：SN1
(b)発話区間検出の誤検出を抑えることができる雑音の上限強度：L1
(c)発話区間検出で音声が正しく発話区間検出されるのに必要な音声の下限強度：L2
(d)A/D変換器の最大参照電圧から正しくデジタル信号に変換できる信号強度の上限：L3
L１,L２の様な雑音の強度が音声認識部302に与える影響の度合いは、予め用意した音声データと雑音データを使って計算機上でシュミレーションしておくことが可能である。

また、音声入力部301は図１で説明したように音声入力デバイス103,104およびゲイン調整が可能なマイクアンプおよびA/D変換器を有しており、L3は音声入力部301の機能によって決定する。

図６はS/N比と音声認識率との相関との例を表す図である。音声データに比率を変えて雑音データを重畳させた音声信号を入力し音声認識処理を実行することで求めた、S/N比と音声認識率との相関を表すグラフである。音声認識を利用するシステムでは、音声認識結果がそのシステムでどのように使われるかによって音声認識に求められる認識性能（音声認識率）が要求仕様として予め決めることができる。例えば、命令実行部303が実行する動作がテレビの操作である場合に、音声認識率80％以上を要求仕様として決める。その場合要求される認識率を満たす為に必要なS/N比であるSN1は、図６から20dB以上であると決定する。この様な、S/N比と音声認識率との相関が、音声認識特性DB308に記憶されている。

図５は、本実施形態の音声認識特性DB308に記憶された雑音の上限強度L１と、音声の強度下限L2及び上限L3の例を示す図である。

音声認識S/N特性DB308に記憶されている上記(a)〜(d)の数値に基づいて、
(1)雑音強度がL1を下回るようにゲイン調整する
(2)音声強度がL2以上L3未満になるようにゲイン調整あるいは利用者201のマイクからの推奨距離を推定する
(3)S/N比がSN1以上になるように利用者201のマイクからの推奨距離を推定する
以上の３つの要件を満たすように制御を行う。(2)、(3)を満たす発話に適する推奨距離範囲を利用者201に提示することで、要求される音声認識率を満たす音声信号を音声認識部302へ供給することができ、音声認識性能を十分に発揮させることができる。

以下に、図６乃至図１０を参照し(2)、(3)を満たす推奨距離範囲を推定する方法について説明する。

まず、音声強度と利用者201のマイクからの距離との関係について説明する。利用者201の発する音声は点音源とみなされるため、音声の強度は伝播距離の２乗に反比例する。音声入力部301のゲインが強度に対して線形に調整可能であり、音声認識部302が認識に成功した際の音声入力部301のゲインをG、利用者距離測定部304の検出距離をD、強度測定部305が測定した音声強度をVとすると、ゲインがGiで検出距離がDiであるときに音声入力部301から出力される音声の強度Viは (式1）で求めることができる。

従って、音声強度がViになる距離Diは（式２）から求められる。

したがって、認識に成功した際の（Ｇ，Ｄ，Ｖ）の組を計測して記憶しておくことにより、現在のゲインの値に対して発話距離から音声強度が算出できる。また、音声強度から推奨距離範囲を推定することができるようになる。利用者201の（Ｇ，Ｄ，Ｖ）は、利用者音声強度DB306に記録される。

図７は、本実施形態の対話型ロボットの動作を示すフローチャートである。

対話型ロボット100が起動されると処理が開始される。

（ステップ401）
利用者201の音声強度を測定済みであるかを判断する。利用者音声強度DB306を参照し、利用者201の音声強度情報が登録されていなければステップ402へ進み、登録されていればステップ403へ進む。

（ステップ402）
利用者201の音声強度の測定を行い、得られた（Ｇ，Ｄ，Ｖ）の組を利用者音声強度DB306へ記録し、ステップ401へ戻る。

（ステップ403）
利用者201の音声強度情報Vを用いて、雑音強度に応じたゲイン調整と、適したマイクからの距離の計算を行い、推奨距離範囲提示部309へ距離情報を通知する。装置の停止信号があるまで、ステップ403での周囲の雑音に適応する音声認識の実行を行う。停止信号があった場合、対話型ロボット100の動作を停止する。

図8は、利用者201の音声強度を測定するステップ402を詳細に示したフローチャートである。

（ステップ801）
利用者201の音声の強度を測定するために利用者201に対して発話を要求する。推奨距離範囲提示部309に対して利用者201への発話要求を提示するように指示する。発話要求の提示方法としては、例えば図14の(b)に示すような可動部107の動作、インジケータ106による表示、音声合成手段による発話、ディスプレイ表示を用いて文字での要求等が挙げられる。

（ステップ802）
利用者201からの発話を待ち受けて音声認識部302が音声認識を行う。

（ステップ803）
音声認識部302が音声の認識に成功すると音声の強度を算出するためにステップ804に進み、失敗した場合はステップ802に戻り利用者201の発話を待ち受ける。

（ステップ804）
推奨距離範囲推定部307は、強度測定部305から取得した音声の強度Vと音声入力部301のゲインGと利用者距離測定部304から取得した距離Dを利用者音声強度DB306に記録し、ステップ401へ戻る。

図9は、ステップ403を詳細に示したフローチャートである。利用者音声強度DB306に記録された利用者201の音声強度情報を用いて、雑音強度に応じたゲイン調整と、適したマイクからの距離の計算および推奨距離範囲提示部309へ距離情報の通知とを行う。

（ステップ901）
音声入力部301のゲインを初期設定する。前回対話型ロボット100を停止した際のゲイン値や、現在の雑音強度がL1未満になるゲイン値を初期値として、ゲインG0を設定する。

（ステップ902）
音声認識部302に音声認識処理の開始を指示する。

（ステップ903）
強度測定部305から雑音強度が通知されるのを待ちうけ、通知されるとステップ904へ進む。

（ステップ904）
通知された雑音強度N0と現在のゲインG0から雑音強度L1になるゲインG1を計算する。ここで音声入力部301の出力信号の強度とゲインは線形に調整可能であるので、

で求められる。

（ステップ905）
利用者距離測定部304は、利用者201と対話型ロボット100との現在の距離がD2であると測定した。利用者201からの発話の音声強度が音声認識に必要な最低限の音声強度であるL2になるゲインG2は式(1)より

で求められる。

（ステップ906）
G1とG2を比較し、
（ステップ907）
G1の方が小さければ音声入力部301のゲインGiをG1にする。

（ステップ908）
G2の方が小さければ音声入力部301のゲインGiをG2にする。

以上の方法によりゲイン調整を行う。

（ステップ909）
次に音声認識に適した音声強度になる距離範囲を計算する。まず、音声認識に必要な発話の音声強度の下限値L2になる距離DL2を式(2)から計算する。なお、ステップ908でゲインをG２に調整した場合には、現在の距離D２をDL２として設定する。

（ステップ910）
音声認識に必要な音声強度の上限値L3となる距離を、DL3を式(2)から計算する。

（ステップ911）
次に、S/N比がSN1になる距離DSN1を計算する。ステップ906で比較し変更された変更後のゲインをGNとする。また、S/N比が20Log10(S/N)で計算される。DSN1は、変更前のゲインG0、変更後のゲインGN、S/N比が20Log10(S/N)で計算され、音声強度は式(1)から、雑音は式(3)のようにゲインに線形であることから、

で計算される。

（ステップ912）
音声認識に適した推奨距離範囲はDL3以上DL2以下の範囲であり、かつDSN1以下の範囲を満たす必要がある。DSN1＜DL3であればステップ914へ進み、そうでなければステップ913へ進む。

（ステップ913）
DSN1≦DL2であればステップ915へ進み、そうでなければステップ916へ進む。

（ステップ914）
雑音が大きすぎるため発話の音声強度がL3となる距離まで近づいても必要なS/N比であるSN1を満たすことができない。そのため、推奨距離範囲は無いことを推奨距離範囲示部309へ通知し、ステップ903へ戻る。

（ステップ915）
雑音が大きいため、必要なS/N比であるSN1を満たすためには音声強度がL2より大きい必要がある。そのため、発話に適した推奨距離範囲はDL3以上DSN1以下になる。推奨距離範囲推定部307は求めた推奨距離範囲を推奨距離範囲提示部309へ通知し、ステップ903へ戻る。

（ステップ916）
雑音が小さくて音声強度がL2以上あれば必要なS/N比を満たすことができるため、発話に適した推奨距離範囲はDL3以上DL2以下になる。推奨距離範囲推定部307は、求めた推奨距離範囲を推奨距離範囲提示部309へ通知し、ステップ903へ戻る。

図10は、推奨距離範囲提示部309が、推奨距離範囲推定部307から通知された推奨距離範囲の情報を利用者201に提示する動作を示すフローチャートである。

（ステップ1001）
推奨距離範囲推定部307から推奨距離範囲の通知があればステップ1002へ進む。推奨距離範囲の更新通知がない場合にはステップ1005へ進む。

（ステップ1002）
推奨距離範囲が無いという通知であればステップ1003へ進み、推奨距離範囲があればステップ1004へ進む。

（ステップ1003）
雑音が大きすぎるため、音声認識が可能な推奨距離範囲が存在しない状態であることを利用者201へ提示し、ステップ1001へ戻る。例えば図14の(c)のようなジェスチャーで表現したり、インジケーター106へ表示したり、合成音声で出力する。

（ステップ1004）
推奨距離範囲推定部307によって通知された推奨距離範囲の下限値を内部変数DD1、上限値を内部変数DD2として格納する。また、既に推奨距離範囲の上限値、下限値が格納されている場合には、新たに推奨距離範囲推定部307から通知された距離範囲の内部変数（下限値DD1、上限値DD2）を更新して格納する。

（ステップ1005）
利用者距離測定部304から、利用者201と対話型ロボット100との現在の距離Dの情報を取得する。

（ステップ1006）
現在の距離DがDD1より小さい場合には、発話に適した推奨距離範囲よりも近くに利用者201が居るのでステップ1008へ進み、そうでなければステップ1007へ進む。

（ステップ1007）
現在の距離Dが推奨距離範囲内であれば利用者と対話型ロボット100との距離範囲が適正なのでステップ1009へ進み、そうでなければ推奨距離範囲よりも遠くに利用者201がいるのでステップ1010へ進む。

（ステップ1008）
利用者201がロボット100に近づき過ぎであることを提示し、ステップ1001へ戻る。例えば図14の(c)のようにジェスチャーで表現したり、図13のようにインジケーター106の1301の領域に位置を表すバー1305で表示したり、合成音声で出力する。

（ステップ1009）
利用者201が音声認識に適した推奨距離範囲内にいることを提示し、ステップ1001へ戻る。例えば図14の(b)のようにジェスチャーで表現したり、図13のようにインジケーター106の1302の領域に位置を表すバー1305で表示したり、合成音声で出力する。

（ステップ1010）
利用者201がロボット100から離れ過ぎであることを提示し、ステップ1001へ戻る。例えば図14の(a)のようにジェスチャーで表現したり、図13のようにインジケーター106の1303の領域に位置を表すバー1305で表示したり、合成音声で出力する。

以上のように雑音の強度の変化と、利用者201の普段の発話の音声強度とに応じて、発話に適した距離を対話型ロボット100が利用者201に提示できる。従来のように利用者が発話を繰り返すことで適切な発話強度や距離を確認することなく、利用者は推奨距離範囲と現在の自分距離とを確認しながら発話をすることができる。それによって、利用者201は雑音強度に応じた推奨距離範囲内に自分がいるかどうか、また、どれだけ移動すれば推奨距離範囲内に入るかを知ることが出来る。それによって利用者が音声認識精度を満たす発話に適した推奨距離範囲から発話が可能なように支援することで音声認識率を向上することが可能である。

また、本実施形態では発話に適した推奨距離範囲を推定し、その推奨距離範囲を利用者に提示していたが、算出した推奨距離範囲に対話型ロボット100が移動する機能を設けてもよい。

（第２の実施形態）
第２の実施形態の対話型ロボットについて説明する。なお、図１と同じ部分には同じ符号を付して重複説明は省略する。

図11は本実施形態の対話型ロボットの機能ブロック図である。

本実施形態の対話型ロボット100は、さらに利用者を認識する機能を有し、認識された利用者毎に利用するＤＢを切り替える事を特徴としている。

画像入力部310は、対話型ロボット100の画像撮像デバイス101,102の撮像デバイスを有する。対話型ロボット100の正面にいる利用者201の画像を撮像し、画像データを入力する。

人物識別部311は、画像入力部310から入力された画像から利用者201を識別する。人物識別部311は顔認識処理を行って利用者201の顔を認識するような利用者を直接的に特定する方法、背景画像の特徴から対話型ロボット100が向いている方向を認識して利用者を決定するような間接的な方法等を用いる。人物識別部311は一定の時間毎に人物識別処理を行い、利用者201を代表するIDを推奨距離範囲推定部307へ通知する。

図12は、本実施形態の対話型ロボット100の推奨距離範囲推定部307の処理を示すフローチャートである。

（ステップ400）
人物識別部311からの通知を参照して利用者201の利用者IDを内部変数として設定する。

（ステップ401）
利用者201の音声強度が測定済みであるかを判断する。利用者IDの音声強度情報があるか利用者音声強度DB306を参照し、指定したIDの音声強度情報が登録されていなければステップ402へ進み、登録されていればステップ403へ進む。

（ステップ402）
利用者201の音声強度の測定を行い、得られた（G,D,V）の組を利用者IDを検索キーにした状態で、利用者音声強度DB306へ登録し、ステップ401へ戻る。

（ステップ403）
利用者201の音声強度情報を用いて、雑音強度に応じたゲイン調整と、適したマイクからの距離の計算を行い、推奨距離範囲提示部309へ距離情報を通知する。

（ステップ404）
人物識別部311から通知された利用者IDが内部変数に保存した利用者IDと変わっていないか確認する。利用者IDが、変わっていればステップ400へ進み、変わっていなければステップ403へ進む。

本実施形態の対話型ロボットによれば、複数の利用者が対話型ロボット100を利用し、利用者によって発話の音声強度が異なる場合であっても利用者に合わせた適切な距離範囲を推定することが出来る。発話に適した推奨距離範囲を推定し、利用者201に提示することで、利用者201は雑音強度に応じた推奨距離範囲内に自分がいるかどうか及び、どれだけ移動すれば推奨距離範囲内に入るかを知ることが出来る。それによって利用者が音声認識精度を満たす発話に適した推奨距離範囲から発話が可能なように支援することで音声認識率を向上することが可能である。

第１の実施形態の対話型ロボットの外観を示す図。第１の実施形態の対話型ロボットの利用形態を示す図。第１の実施形態の対話型ロボットの機能ブロック図。入力音声信号の発話区間と雑音区間の判別をする際の音の特性を示す図。音声認識特性DB308に記憶された雑音の上限強度と音声の下限及び上限強度を示す図。 S/N比と音声認識率の相関を示す図。推奨距離範囲推定部の処理を示すフローチャート。推奨距離範囲推定部の利用者の音量強度測定処理のフローチャート。推奨距離範囲推定部のゲイン調整と推奨距離範囲算出のフローチャート。推奨距離範囲提示部のフローチャート。第２の実施形態の利用者の識別を追加した構成図。利用者の識別を追加した推奨距離範囲推定部のフローチャート。発話推奨距離をインジケータに表示する例を示す図。利用者が発話推奨距離内にいるかを腕部の動作で提示する例を示す図。

符号の説明

100…対話型ロボット
101，102…画像撮像デバイス
103，104…音声入力デバイス
105…距離センサ
106…インジケータ
107，108…可動部
109…リモコン信号送受信器
201…利用者
202…ダイニングテーブル
203…テレビ
301…音声入力部
302…音声認識部
303…命令実行部
304…利用者距離測定部
305…強度測定部
306…利用者音声強度DB
307…推奨距離範囲推定部
308…音声認識特性DB
309…推奨距離範囲提示部
310…画像入力部
311…人物識別部

Claims

利用者が発する音声で対話をする音声対話装置であって、
ゲインが可変な音声入力手段と、
前記音声入力手段から入力された音声信号から発話区間を検出して音声認識を行う認識手段と、
前記発話区間の前記音声信号の強度である音声強度を測定する第１の強度測定手段と、
前記発話区間を除いた雑音区間における、雑音信号の強度である雑音強度を測定する第２の強度測定手段と、
前記音声強度と前記雑音強度との比であるS/N比を算出する第１の算出手段と、
前記利用者と前記音声入力手段との現在距離を測定する距離測定手段と、
前記認識手段が所定の認識率で音声認識可能なS/N比に対応した第1の閾値を記憶する第１の記憶手段と、
前記認識手段が認識に成功した際の、前記音声強度、前記現在距離、及び前記音声入力手段のゲインの組である音声特性を記憶する第２の記憶手段と、
前記音声特性に基づき、前記雑音強度と、前記音声強度とのS/N比が前記第１の閾値以上となると推定される前記利用者と前記音声入力手段との距離範囲である推奨距離範囲を算出する第２の算出手段と、
前記推奨距離範囲と、前記現在距離を表示する表示手段とを具備したことを特徴とする音声対話装置。
前記音声入力手段が入力する音声信号の強度の上限に対応した第２の閾値を記憶する第３の記憶手段をさらに備え、
第２の算出手段は、前記音声特性と前記音声入力手段のゲインとから、前記音声強度が前記第２の閾値を越えないと推定される距離範囲をさらに算出し、S/N比が前記第１の閾値以上となり、前記第２の閾値を越えないと推定される距離範囲を前記推奨距離範囲とすることを特徴とする請求項１記載の音声対話装置。
前記音声信号のうち、雑音強度の上限に対応した第３の閾値を記憶する第４の記憶手段と、
前記雑音強度が、前記第３の閾値を超えないように前記音声入力手段のゲインを制御する制御手段をさらに具備したことを特徴とする請求項２記載の音声対話装置。
前記現在距離が前記推奨距離範囲内であるかを判定する判定手段と、
前記判定手段による判定結果を利用者に提示する提示手段をさらに具備したことを特徴とする請求項３記載の音声対話装置。
前記第２の記憶手段は前記利用者ごとにIDを付与し、複数の前記利用者に対応する前記音声特性を記憶することを特徴とする請求項１記載の音声対話装置。
前記算出手段は前記IDに対応した前記音声特性から前記推奨距離範囲を算出することを特徴とする請求項５記載の音声対話装置。
前記利用者を識別して前記IDを求める識別手段をさらに具備し、
前記算出手段は、前記IDに対応する前記音声特性から前記第１の範囲を算出することを特徴とする請求項５記載の音声対話装置。
利用者が発する音声で対話をする音声対話装置の音声認識処理を支援する方法であって、
前記利用者が発する音声を音声信号として音声入力手段に入力するステップと、
前記音声入力手段のゲインを調整するステップと、
前記音声信号から発話区間を検出して音声認識を行うステップと、
前記発話区間の前記音声信号の強度である音声強度を測定するステップと、
前記発話区間を除いた雑音区間における、雑音信号の強度である雑音強度を測定するステップと、
前記音声強度と前記雑音強度との比であるS/N比を算出するステップと、
前記利用者と前記音声入力手段との現在距離を測定するステップと、
所定の認識率で音声認識可能なS/N比に対応した第1の閾値を記憶するステップと、
前記認識手段が認識に成功した際の、前記音声強度、前記現在距離、及び前記音声入力手段のゲインとの組である音声特性を記憶するステップと、
前記音声特性に基づき、前記雑音強度と、前記音声強度とのS/N比が前記第１の閾値を満たすと推定される前記利用者と前記音声入力手段との距離範囲である推奨距離範囲を算出するステップと、
前記推奨距離範囲と前記現在距離を表示するステップとを有する音声対話装置の音声認識処理を支援する支援方法。