JP6977768B2

JP6977768B2 - 情報処理装置、情報処理方法、音声出力装置、および音声出力方法

Info

Publication number: JP6977768B2
Application number: JP2019513538A
Authority: JP
Inventors: 広岩瀬; 真里斎藤; 真一河野
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2017-04-17
Filing date: 2018-04-03
Publication date: 2021-12-08
Anticipated expiration: 2038-04-03
Also published as: US11232781B2; EP3614692A1; WO2018193826A1; US20200051546A1; JPWO2018193826A1; EP3614692A4

Description

本技術は、情報処理装置、情報処理方法、音声出力装置、および音声出力方法に関し、特に、ユーザがホームエージェント機器からの発話を聞き取ることができるようにする情報処理装置、情報処理方法、音声出力装置、および音声出力方法に関する。

従来、周囲の環境に応じて、出力する音声の音量を制御する機器がある。例えば、特許文献１には、マイクロホンから取得した周囲音量に基づいて、スピーカの音量を決定する電子機器が開示されている。

また近年、ユーザに対して発話を行う家庭用の音声アシスタントデバイス（ホームエージェント機器）が提供されている。

特開２００９−２２６１６９号公報

しかしながら、家庭内には、人が生活する上での様々な環境音が存在する。これらの環境音の発生状況およびユーザの居場所によっては、ユーザは、ホームエージェント機器からの発話を聞き取れなかったり、聞き逃したりする可能性があった。

本技術は、このような状況に鑑みてなされたものであり、ユーザがどこにいてもホームエージェント機器からの発話を聞き取ることができるようにするものである。

本技術の第１の側面の情報処理装置は、ユーザに向けて音声出力可能な機器において取得された画像と所定の騒音源からの騒音とに基づいて、前記ユーザの位置での前記機器からの音声の聞き取り難さを示す情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記機器と前記騒音源との角度差、および、前記機器と前記ユーザとの距離それぞれを表すパラメータ、並びに、それらを用いて算出される聞き取り難さスコアの少なくともいずれかを出力する処理部を備える。

本技術の第１の側面の情報処理方法は、ユーザに向けて音声出力可能な機器において取得された画像と所定の騒音源からの騒音とに基づいて、前記ユーザの位置での前記機器からの音声の聞き取り難さを示す情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記機器と前記騒音源との角度差、および、前記機器と前記ユーザとの距離それぞれを表すパラメータ、並びに、それらを用いて算出される聞き取り難さスコアの少なくともいずれかを出力するステップを含む。

本技術の第１の側面においては、ユーザに向けて音声出力可能な機器において取得された画像と所定の騒音源からの騒音とに基づいて、前記ユーザの位置での前記機器からの音声の聞き取り難さを示す情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記機器と前記騒音源との角度差、および、前記機器と前記ユーザとの距離それぞれを表すパラメータ、並びに、それらを用いて算出される聞き取り難さスコアの少なくともいずれかが出力される。

本技術の第２の側面の音声出力装置は、自装置において取得された画像と所定の騒音源からの騒音とに基づいて生成された、ユーザの位置での前記自装置からの音声の聞き取り難さを示す情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記自装置と前記騒音源との角度差、および、前記自装置と前記ユーザとの距離それぞれを表すパラメータ、並びに、それらを用いて算出される聞き取り難さスコアの少なくともいずれかを用いて、前記ユーザに向けて出力される音声の特性を決定するパラメータを生成することで、前記音声の出力を制御する音声出力制御部を備える。

本技術の第２の側面の音声出力方法は、自装置において取得された画像と所定の騒音源からの騒音とに基づいて生成された、ユーザの位置での前記自装置からの音声の聞き取り難さを示す情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記自装置と前記騒音源との角度差、および、前記自装置と前記ユーザとの距離それぞれを表すパラメータ、並びに、それらを用いて算出される聞き取り難さスコアの少なくともいずれかを用いて、前記ユーザに向けて出力される前記音声の特性を決定するパラメータを生成することで、前記音声の出力を制御するステップを含む。

本技術の第２の側面においては、自装置において取得された画像と所定の騒音源からの騒音とに基づいて生成された、ユーザの位置での前記自装置からの音声の聞き取り難さを示す情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記自装置と前記騒音源との角度差、および、前記自装置と前記ユーザとの距離それぞれを表すパラメータ、並びに、それらを用いて算出される聞き取り難さスコアの少なくともいずれかを用いて、前記ユーザに向けて出力される前記音声の特性を決定するパラメータを生成することで、前記音声の出力が制御される。

本技術によれば、ユーザがどこにいてもホームエージェント機器からの発話を聞き取ることが可能となる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

家庭内での環境音について説明する図である。本技術を適用した音声出力装置の機能構成例を示すブロック図である。音声出力処理について説明するフローチャートである。ユーザ、音声出力装置、および騒音源の位置関係を示す図である。聞き取り難さスコアの角度成分項について説明する図である。外部機器との連携について説明する図である。音声出力装置および外部機器の機能構成例を示すブロック図である。ユーザ、音声出力装置、騒音源、および外部機器の位置関係を示す図である。ユーザ、音声出力装置、騒音源、および外部機器の位置関係を示す図である。音声出力機器決定処理について説明するフローチャートである。音声出力機器の切り替えの一例を示す図である。音声出力機器の切り替えの一例を示す図である。音声出力機器の切り替えの一例を示す図である。クラウドコンピューティングへの適用について説明する図である。本技術を適用したサーバの機能構成例を示すブロック図である。ＷｅｂＡＰＩ処理結果の例を示す図である。

以下、本開示を実施するための形態（以下、実施の形態とする）について説明する。なお、説明は以下の順序で行う。

１．家庭内での環境音について
２．第１の実施の形態（ホームエージェント機器単体）
３．第２の実施の形態（ホームエージェント機器と外部機器との連携）
４．第３の実施の形態（クラウドコンピューティングへの適用）
５．その他（屋外で利用される機器への適用）

＜１．家庭内での環境音について＞
図１には、ユーザ１０と、ユーザ１０に対して発話を行う音声出力装置２０が示されている。音声出力装置２０は、家庭用の音声アシスタントデバイス（ホームエージェント機器）として構成される。

図１に示されるように、家庭内には、人が生活する上での様々な環境音（テレビの音声、他者の会話、赤ん坊の泣き声、音楽、航空機の騒音など）が存在する。これらの環境音の発生状況およびユーザの居場所によっては、ユーザ１０は、音声出力装置２０からの発話を聞き取れなかったり、聞き逃したりする可能性があった。

従来のホームエージェント機器においては、ダイヤルを回したりタッチするなど、ユーザがその機器を直接触れるか、または、ユーザの発話による音声コマンドにより、出力される音量がマニュアルで調整されていた。ユーザがホームエージェント機器に触れられない場所にいる場合や、騒音によりユーザの発話がホームエージェント機器に認識されない場合には、このようなマニュアルでの音量調整は困難となる。

一方で、マニュアルでの音量調整で音量を上げた場合、家庭内では、ホームエージェント機器の発話自体が騒音となるおそれがある。特に、ユーザの位置や環境音の状況が変化した場合には、必要以上に大きな音が出力されてしまうことがある。

また、騒音量とユーザの位置との関係によっては、ホームエージェント機器の出力音量を最大にしても、出力デバイスの性能限界により、ユーザが発話を聞き取ることができない場合がある。

さらに、ユーザが、家事などの作業に集中している場合、ホームエージェント機器からの発話に意識が向かず、発話自体に気づかないこともある。

そこで、以下においては、ユーザがどこにいてもホームエージェント機器からの発話を聞き取ることができるようにする実施の形態について説明する。

＜２．第１の実施の形態＞
（音声出力装置の機能構成例）
図２は、本技術を適用した第１の実施の形態の音声出力装置２０の機能構成例を示している。

音声出力装置２０は、ユーザ１０および騒音源３０の位置を認識し、ユーザ１０、音声出力装置２０、および騒音源３０の位置関係に基づいて、ユーザ１０の位置での音声の聞き取り難さを推定する。そして、音声出力装置２０は、推定した聞き取り難さに適応するようにその特性を調整した音声を出力する。

なお、音声出力装置２０は、上述したホームエージェント機器として構成されるものとするが、マイクロホンおよびカメラを備え、ユーザ１０に向けて音声を出力する機器全般として構成することが可能である。

音声出力装置２０は、音声入力デバイス５１、騒音検出処理部５２、センサデバイス５３、画像認識エンジン５４、聞き取り難さ推定部５５、音声出力制御部５６、通知発話テキスト５７、音声合成エンジン５８、出力音声信号処理部５９、および音声再生デバイス６０を備えている。

音声入力デバイス５１は、複数のマイクロホン（マイクロホンアレイ）により構成される。音声入力デバイス５１には、騒音源３０から発せられる音が入力される。音声入力デバイス５１は、入力された音に対応する入力音声データを、騒音検出処理部５２に供給する。

騒音検出処理部５２は、音声入力デバイス５１からの入力音声データに基づいて、騒音源３０の方向と、その方向からの騒音の音量を検出する。騒音検出処理部５２は、検出した騒音源３０の方向および騒音の音量それぞれを示す情報を、聞き取り難さ推定部５５に供給する。また、騒音検出処理部５２は、検出した騒音源３０の方向を示す情報を、画像認識エンジン５４に供給する。

センサデバイス５３は、ステレオカメラおよびデプスセンサにより構成される。センサデバイス５３により撮像された画像と、その画像内の被写体の深度情報（距離情報）とが、画像認識エンジン５４に供給される。

画像認識エンジン５４は、センサデバイス５３からの画像および深度情報に基づいて、発話対象となるユーザ１０の方向およびユーザ１０との距離を検出する。また、画像認識エンジン５４は、センサデバイス５３からの画像および深度情報と、騒音検出処理部５２からの騒音源３０の方向を示す情報とに基づいて、その方向にある物体（騒音源３０）との距離を検出する。ユーザ１０の方向、ユーザ１０との距離、騒音源３０との距離それぞれを示す情報は、聞き取り難さ推定部５５に供給される。

聞き取り難さ推定部５５は、騒音検出処理部５２からの情報と、画像認識エンジン５４からの情報とに基づいて、ユーザの位置での音声出力装置２０からの音声の聞き取り難さを推定する。聞き取り難さ推定部５５は、その聞き取り難さを示す情報を、音声出力制御部５６に供給する。

音声出力制御部５６は、聞き取り難さ推定部５５からの聞き取り難さを示す情報を用いて、ユーザ１０に向けて出力する音声の特性を決定する音声パラメータを生成し、音声合成エンジン５８、出力音声信号処理部５９、および音声再生デバイス６０に供給する。なお、一部の音声パラメータは、発話内容を示す通知発話テキスト５７とともに、音声合成エンジン５８に供給される。

音声合成エンジン５８は、音声出力制御部５６からの音声パラメータおよび通知発話テキスト５７を用いて音声合成を行うことで音声信号を生成する。音声合成エンジン５８は、生成した音声信号を出力音声信号処理部５９に供給する。

出力音声信号処理部５９は、音声出力制御部５６からの音声パラメータを用いて、音声合成エンジン５８からの音声信号に信号処理を施し、音声再生デバイス６０に供給する。

音声再生デバイス６０は、スピーカを含むようにして構成される。音声再生デバイス６０は、音声出力制御部５６からの音声パラメータに基づいた音量で、出力音声信号処理部５９からの音声信号に従った音声を出力する。

（音声出力処理の流れ）
次に、図３のフローチャートを参照して、音声出力装置２０による音声出力処理の流れについて説明する。

ステップＳ１１において、騒音検出処理部５２は、音声入力デバイス５１からの入力音声データに基づいて、騒音源３０の方向を検出し、また、検出された方向の音声成分だけを取得する音源分離を行うことで、その方向からの騒音の音量を検出する。

音声入力デバイス５１のような複数のマイクロホンを用いて音源の方向を検出する手法としては、例えば相互相関関数を用いた手法が一般的に用いられている。詳細な説明は省略するが、この相互相関関数の最大値をとる２つのマイクロホンの到達時間差（遅延）を検出し、この時間差に基づいて音波の到達方向を推定することができる。

また、検出された方向の音声成分だけを取得する音源分離には、ビームフォーミングの技術を適用することができる。

そして、取得された音声成分のレベルから騒音量が算出される。騒音量の算出には、所定の単位時間（例えば、センサデバイス５３を構成するカメラが撮像する画像の１フレーム時間）での音声信号の振幅値の二乗平均平方根（ＲＭＳ）が用いられる。

なお、騒音源は１つに限らず、複数あってもよい。この場合、音源の方向の検出の際には、相互相関関数の最大値だけではなく所定の閾値を超える複数のピークをとる時間差を用いるようにする。また、音源分離により細分化された各方向の音声成分のレベルを算出し、閾値を超える複数のピークを用いて騒音量を算出するようにしてもよい。

ステップＳ１２において、画像認識エンジン５４は、センサデバイス５３から供給されてくる画像および深度情報に基づいて、顔認識を用いて、発話対象となるユーザ１０の方向およびユーザ１０との距離を検出する。

具体的には、画像認識エンジン５４は、あらかじめ登録されているユーザ１０の顔に基づいて、センサデバイス５３からの画像からユーザ１０の顔を検出する。また、画像認識エンジン５４は、画像内における検出された顔の位置からユーザ１０の方向（角度）を算出するとともに、画像内における検出された顔の位置における深度情報からユーザ１０との距離を算出する。

なお、ユーザ１０との距離は、検出された顔の大きさに基づいて算出されるようにしてもよい。

続いて、ステップＳ１３において、画像認識エンジン５４は、騒音検出処理部５２からの騒音源３０の方向を示す情報に基づいて、騒音源３０との距離を検出する。

具体的には、画像認識エンジン５４は、騒音源となり得る物体（人、テレビ、オーディオ機器、スピーカ、エアーコンディショナ、窓など）をあらかじめ学習している。そして、画像認識エンジン５４は、センサデバイス５３からの画像において、騒音検出処理部５２からの情報で示される方向に、上述した物体を認識した場合、画像内でのその物体の位置における深度情報から騒音源３０との距離を算出する。

なお、騒音検出処理部５２において、騒音源３０の方向として、水平方向の角度に加えて、垂直方向の角度が検出されるようにしてもよい。この場合、画像認識エンジン５４は、騒音源３０の水平方向の角度と垂直方向の角度で決まる画像内での座標における深度情報から、騒音源３０との距離を算出する。

また、騒音源の方向に物体を認識できず、垂直方向の角度も検出されない場合には、騒音源の水平方向の角度で決まる画像内での座標における深度情報の代表値（最大値、最小値、平均値など）を用いて、騒音源３０との距離を算出するようにしてもよい。

ステップＳ１４において、聞き取り難さ推定部５５は、ユーザ１０および騒音源３０との位置関係に基づいて、ユーザ１０の位置での聞き取り難さを示す聞き取り難さスコアを算出する。

ここで、図４に示されるように、騒音検出処理部５２により検出された、ホームエージェント機器（音声出力装置２０）の位置での騒音の音量（騒音レベル）をＮ_ｓ、画像認識エンジン５４により検出されたユーザ１０との距離をＤ_ｓｕ、騒音源３０との距離をＤ_ｎｓとする。

また、騒音検出処理部５２により検出された騒音源３０の方向と、画像認識エンジン５４により検出されたユーザ１０の方向とから算出される、音声出力装置２０からみたユーザ１０と騒音源３０との角度差をθ_ｓとする。

まず、聞き取り難さ推定部５５は、余弦定理により、以下の式を用いて、騒音源３０とユーザ１０との距離Ｄ_ｎｕを算出する。

次に、聞き取り難さ推定部５５は、余弦定理により、以下の式を用いて、ユーザ１０からみた音声出力装置２０と騒音源３０との角度差θ_ｕを算出する。

そして、聞き取り難さ推定部５５は、距離による点音源の音圧減衰特性に基づいて、以下の式を用いて、ユーザ１０の位置での騒音レベルＮ_ｕを算出する。

以上のように算出された、ユーザ１０の位置での騒音レベルＮ_ｕ、ユーザ１０からみた音声出力装置２０と騒音源３０との角度差θ_ｕ、および、音声出力装置２０とユーザ１０との距離Ｄ_ｓｕは、それぞれ個々に、ユーザ１０の位置での音声出力装置２０からの音声の聞き取り難さを示す聞き取り難さスコアとみなすことができる。

ユーザ１０の位置での騒音レベルＮ_ｕは、その値が大きくなるほど、騒音によるエージェント機器からの音声のマスキングによって、聞き取り難さが増す。

ユーザ１０からみた音声出力装置２０と騒音源３０との角度差θ_ｕは、０°乃至１８０°の値をとり、その値が大きくなるほど、音像分離によるカクテルパーティ効果によって、聞き取りやすくなる。すなわち、角度差θ_ｕの値が小さくなるほど、聞き取り難さが増す。

音声出力装置２０とユーザ１０との距離Ｄ_ｓｕは、その値が大きくなるほど、距離による音の減衰によって、聞き取り難さが増す。

ここではさらに、聞き取り難さ推定部５５が、これら３つのパラメータを用いて、ユーザ１０の位置での聞き取り難さを示す聞き取り難さスコアＳ_ｕを算出するものとする。

なお、図４に示されるように、騒音源３０に加えて騒音源４０が存在する場合、騒音検出処理部５２は、騒音源３０，４０それぞれの方向と、それぞれの方向からの騒音の音量を検出する。この場合、ユーザ１０の位置での騒音レベルＮ_ｕと、ユーザ１０からみた音声出力装置２０と騒音源との角度差θ_ｕとは、騒音源毎に算出される。

したがって、ｎ個の騒音源が存在する場合、騒音レベルＮ_ｕと角度差θ_ｕとが騒音源毎に算出されることで、｛Ｎ_ｕ１，Ｎ_ｕ２，Ｎ_ｕ３，・・・，Ｎ_ｕｎ，｝，｛θ_ｕ１，θ_ｕ２，θ_ｕ３，・・・，θ_ｕｎ｝が得られる。

この場合、聞き取り難さ推定部５５は、以下の式を用いて、３つのパラメータそれぞれがユーザ１０の位置での聞き取り難さに与える影響を考慮した聞き取り難さスコアＳ_ｕを算出する（ｉ＝１，２，３，・・・，ｎ）。

音声出力装置２０からの音声は距離Ｄ_ｓｕに比例して音圧が減衰するため、最初に距離Ｄ_ｓｕが乗算される。なお、変数ｃは、騒音に関する項（平方根項）がない場合にも聞き取り難さスコアＳ_ｕを算出するための、距離Ｄ_ｓｕに比例した変数である。

複数音源の音圧加算は二乗和平方根で求められることが一般的に知られている。そこで、騒音に関する項として、複数の騒音源の騒音レベルＮ_ｕｉに、角度差θ_ｕｉに依存する角度成分項ｆ（θ_ｕｉ）を乗じて二乗和平方根をとったものを用いる。

なお、角度成分項ｆ（θ_ｕｉ）は、以下の式で示される。

角度成分項ｆ（θ_ｕｉ）は、図５に示されるように、角度差θ_ｕｉが０°で最大値をとり、１８０°で最小値をとる関数の一例である。

式中、変数ａは、角度差θ_ｕｉによる影響の重み係数であり、変数ｂは、角度差θ_ｕｉによらない騒音による影響の重み係数である。変数ａ，ｂは、それぞれ０以上の値をとり、ａ＋ｂ≦１．０となることが望ましい。例えば、ａ＝１．０，ｂ＝０とした場合、θ_ｕｉ＝０°でｆ（θ_ｕｉ）＝１．０となり、θ_ｕｉ＝１８０°でｆ（θ_ｕｉ）＝０となる。また、ａ＝０，ｂ＝１．０とした場合、θ_ｕｉによらずｆ（θ_ｕｉ）＝１．０となる。

なお、上述した変数ａ，ｂ，ｃは、聞き取り難さ推定部５５の設定パラメータとしてＡＰＩ（Application Programming Interface）化され、外部から制御可能な構成としてもよい。

このようにして算出された聞き取り難さスコアＳ_ｕは、音声出力制御部５６に供給される。

ステップＳ１５において、音声出力制御部５６は、聞き取り難さ推定部５５により算出された聞き取り難さスコアＳ_ｕを用いて、ユーザ１０に向けて出力する音声の特性を決定する音声パラメータを生成する。ここでは、以下で説明する音声パラメータが生成されるものとする。

（１）音量Ｖ_０：聞き取り難さスコアＳ_ｕに比例して音量（出力音圧）が大きくなるようにして算出され、音声再生デバイス６０に供給される。

音量Ｖ_０は、例えば以下の式を用いて算出される。

式中、変数ｋ_ｖは、加算音量の比例係数である。また、音量Ｖ_０は、音声再生デバイス６０の制約により決まる音量Ｖ_ｍａｘを上限とする。

なお、上述した変数ｋ_ｖ，Ｖ_ｍａｘは、音声出力制御部５６の設定パラメータとしてＡＰＩ化され、外部から制御可能な構成としてもよい。例えば、ユーザの年齢などの属性情報からユーザの聴覚特性を推定することで、変数ｋ_ｖ，Ｖ_ｍａｘを設定するようにしてもよい。具体的には、年齢が高くなるにつれ可聴域（ダイナミックレンジ）が狭まるため、ユーザの年齢が高い程、ｋ_ｖを大きく、Ｖ_ｍａｘを小さくするように設定する。

（２）高さ（ピッチ）Ｐ_０：基準となるピッチＰ_ｄ（音声合成エンジン５８の基準ピッチに対するオフセット）に対して、聞き取り難さスコアＳ_ｕに比例してピッチが高くなるようにして算出され、通知発話テキスト５７とともに音声合成エンジン５８に供給される。

ピッチＰ_０は、例えば以下の式を用いて算出される。

式中、変数ｋ_ｐは、加算ピッチの比例係数である。また、ピッチＰ_０は、音声合成エンジン５８で自然な声質を維持できるピッチＰ_ｍａｘを上限とする。

騒音の大きい環境下では、人は相手に発話内容を聞き取りやすくするよう、自然に声を張り上げることが、ロンバード効果として知られている。ロンバード効果では、人は声の音量やピッチ（基本周波数、フォルマント周波数）を上げるとされる。そこで、ピッチＰ_０については、音声合成エンジン５８の設定ピッチを上げることで、ロンバード効果をシミュレートするようにする。

なお、上述した変数Ｐ_ｄ，ｋ_ｐ，Ｐ_ｍａｘは、音声出力制御部５６の設定パラメータとしてＡＰＩ化され、外部から制御可能な構成としてもよい。

（３）発話速度Ｒ_０：基準となる発話速度Ｒ_ｄ（音声合成エンジン５８の基準発話速度に対するオフセット）に対して、聞き取り難さスコアＳ_ｕに比例して発話速度が高くなるようにして算出され、通知発話テキスト５７とともに音声合成エンジン５８に供給される。

発話速度Ｒ_０は、例えば以下の式を用いて算出される。

式中、変数ｋ_ｒは、加算発話速度の比例係数である。また、発話速度Ｒ_０は、音声合成エンジン５８で聞き取ることができる発話速度Ｒ_ｍａｘを上限とする。

騒音の大きい環境下では、発話速度を高めたほうが（やや早口のほうが）発話文全体のまとまりを認知しやすく、間延び感が解消されて内容を理解しやすくなる。ただし、発話速度が高すぎると、語句自体を聞き取れなくなるため、発話速度Ｒ_ｍａｘで制限されるようにする。

なお、上述した変数Ｒ_ｄ，ｋ_ｒ，Ｒ_ｍａｘは、音声出力制御部５６の設定パラメータとしてＡＰＩ化され、外部から制御可能な構成としてもよい。

（４）周波数Ｆ_０：音声合成された音声信号の高域を強調するためのパラメータであり、高域強調の信号処理の最低周波数として算出され、出力音声信号処理部５９に供給される。高域強調の信号処理においては、周波数Ｆ_０より上の帯域が強調される。

（５）ゲインＧ_０：周波数Ｆ_０と同様、音声合成された音声信号の高域を強調するためのパラメータであり、聞き取り難さスコアＳ_ｕに比例してゲインが大きくなるようにして算出され、出力音声信号処理部５９に供給される。

ゲインＧ_０は、例えば以下の式を用いて算出される。

式中、変数ｋ_ｇは、ゲインの比例係数である。また、ゲインＧ_０は、高域強調処理を欠けすぎて音声の声としての自然さが失われない程度のゲインＧ_ｍａｘを上限とする。

高域のレベルを上げることによって、マスキングされている子音が強調されて音韻を知覚しやすくなり、音声の明瞭度が高まることが一般的に知られている。また、音声の高域（子音）のエネルギーは低く、自然界の一般的な騒音はピンクノイズに似た低域が高く高域が低いスペクトルを有するため、音量を上げすぎずに声の明瞭度を高めるには、高域強調が効果的となる。

なお、上述した変数ｋ_ｇ，Ｇ_ｍａｘは、周波数Ｆ_０とともに、音声出力制御部５６の設定パラメータとしてＡＰＩ化され、外部から制御可能な構成としてもよい。

また、高域強調の他の例として、騒音検出処理部５２が、騒音のスペクトル情報を取得し、音声出力制御部５６が、その騒音のスペクトル情報に基づいて、マスキングされる音声合成の音の帯域を推定し、出力音声信号処理部５９が、その帯域のレベルを上げる処理を行うようにしてもよい。

（６）抑揚（イントネーション）Ｉ_０：基準となる抑揚Ｉ_ｄ（音声合成エンジン５８の基準抑揚に対するオフセット）に対して、聞き取り難さスコアＳ_ｕに比例して抑揚が小さくなるようにして算出され、通知発話テキスト５７とともに音声合成エンジン５８に供給される。

抑揚Ｉ_０は、例えば以下の式を用いて算出される。

式中、変数ｋ_ｉは、抑揚の比例係数である。また、抑揚Ｉ_０は、音声合成エンジン５８で制約される抑揚Ｉ_ｍｉｎを下限とする。

音声合成エンジンの中には、発話の抑揚の大きさを設定できるものがある。騒音の大きい環境下では、抑揚が下がったときの語句がノイズにマスキングされ、発話文全体が聞き取り難くなる。そのため、騒音の音量が大きくなるほど平坦な発話にすることで、聞き取りやすさを改善することができる（一方で、騒音が小さく聞き取りやすい環境下では、抑揚がついていた方が発話内容を理解しやすい）。

なお、上述した変数Ｉ_ｄ，ｋ_ｉ，Ｉ_ｍｉｎは、音声出力制御部５６の設定パラメータとしてＡＰＩ化され、外部から制御可能な構成としてもよい。

（７）アクセントＡ_０：基準となるアクセントＡ_ｄ（音声合成エンジン５８の基準アクセントに対するオフセット）に対して、聞き取り難さスコアＳ_ｕに比例してアクセントが強くなるようにして算出され、通知発話テキスト５７とともに音声合成エンジン５８に供給される。

アクセントＡ_０は、例えば以下の式を用いて算出される。

式中、変数ｋ_ａは、アクセントの比例係数である。また、アクセントＡ_０は、音声合成エンジン５８で制約されるアクセントＡ_ｍａｘを上限とする。

音声合成エンジンの中には、発話のアクセントの強さを設定できるものがある。騒音の大きい環境下では、アクセントを強めることによりアクセント句単位での語句の了解度が高くなり、聞き取りやすさを改善することができる（一方で、アクセントを強めすぎると発話の不自然さが目立つようになるため、聞き取り難さスコアＳ_ｕに適応するようにする）。

なお、上述した変数Ａ_ｄ，ｋ_ａ，Ａ_ｍａｘは、音声出力制御部５６の設定パラメータとしてＡＰＩ化され、外部から制御可能な構成としてもよい。

以上のようにして、音声パラメータが生成される。

なお、上述した音声パラメータの生成に用いられる各変数は、聞き取り難さスコアＳ_ｕとともに設定パラメータとしてＡＰＩ化され、騒音以外のユーザのコンテキスト（ユーザの年齢・性別・属性に合わせたパラメータなど）に音声出力特性を適応させる処理が行われるようにしてもよい。

さて、図３のフローチャートに戻り、ステップＳ１６において、音声合成エンジン５８は、音声出力制御部５６から通知発話テキスト５７とともに供給された音声パラメータ（ピッチＰ_０、発話速度Ｒ_０、抑揚Ｉ_０、およびアクセントＡ_０）を用いて音声合成を行うことで音声信号を生成する。

ステップＳ１７において、出力音声信号処理部５９は、音声出力制御部５６からの音声パラメータ（周波数Ｆ_０およびゲインＧ_０）を用いて、音声合成エンジン５８により生成された音声信号に、高域強調の信号処理を施す。

ここでは、例えば、特定の周波数より上の帯域を増幅させるハイシェルフフィルタを用いた信号処理が行われる。また、高域強調の他の例として、上述したように、騒音検出処理部５２が、騒音のスペクトル情報を取得し、音声出力制御部５６が、騒音のスペクトル情報に基づいて、マスキングされる音声合成の音の帯域を推定し、出力音声信号処理部５９が、その帯域のレベルを上げる処理を行うようにしてもよい。

そして、ステップＳ１８において、音声再生デバイス６０は、音声出力制御部５６からの音声パラメータ（音量Ｖ_０）に基づいてスピーカの出力音量を調整し、出力音声信号処理部５９からの音声信号に従った音声を出力する。

なお、音声再生デバイス６０がアレイスピーカを含むように構成され、波面合成によってユーザ１０に対して任意の音像を提示できる場合には、聞き取り難さ推定部５５が、ユーザ１０にとって最も騒音の少ない方向を検出し、音声再生デバイス６０が、その方向に、音声信号に従った音声の音像を定位させるようにしてもよい。

以上の処理によれば、ユーザがどこにいてもホームエージェント機器からの発話を聞き取ることが可能となる。

特に、ユーザがスピーカから遠い位置にいて音量調整の操作を行えないときであっても、ホームエージェント機器が、そのときに伝えるべき通知などの発話を確実にユーザに伝えることができる。

また、ホームエージェント機器が発話対象となるユーザに適応した音声出力を行うので、ホームエージェント機器から出力される音声の音量が大きくなりすぎて、家庭内の他の環境音をマスクしてしまうことを防ぐことができる。

具体的には、ホームエージェント機器からの発話が、家庭内で人が聞いている音をマスクしたり、静かな環境の中で他の事に集中している人の意識を奪うなど、発話対象ではないユーザにとって騒音になることを防ぐことができる。例えば、ホームエージェント機器からの発話が、テレビの音声や音楽、人同士の会話をマスクする騒音となったり、子供の勉強や睡眠を阻害することを避けることができる。また、家庭内での個人のプライバシーを保護することもできる。

＜３．第２の実施の形態＞
近年、家電機器のＩｏＴ（Internet of Things）化や、家庭内におけるＷｉ−Ｆｉなどの無線ＬＡＮ環境の普及により、ホームエージェント機器が、家電機器を一括してコントロールする方向にある。

また、ＤＬＮＡ（登録商標）（Digital Living Network Alliance）などの接続方式で音声コンテンツのストリーミングを行い、他の機器でその音声コンテンツを再生する家庭内ネットワークの環境が整いつつある。

そこで、以下においては、ホームエージェント機器と外部機器とが連携した実施の形態について説明する。

（ホームエージェント機器と外部機器との連携）
図６は、ホームエージェント機器と外部機器とが連携したシステムの構成例を示している。

図６においては、ホームエージェント機器としての音声出力装置１２０が、外部機器としての警報機１３０Ａ、インターホン１３０Ｂ、固定電話１３０Ｃ、冷蔵庫１３０Ｄ、電子レンジ１３０Ｅ、掃除機１３０Ｆ、ＰＣ（パーソナルコンピュータ）１３０Ｇ、テレビジョン受像機１３０Ｈ、ゲーム機１３０Ｉ、スマートフォン１３０Ｊ、ヘッドホン１３０Ｋ、およびオーディオ機器１３０Ｌと、無線ＬＡＮなどのネットワークを介して接続されている。

警報機１３０Ａ乃至オーディオ機器１３０Ｌはそれぞれ、スピーカなどの音声出力が可能な音声再生デバイスが搭載された機器である。

警報機１３０Ａ乃至オーディオ機器１３０Ｌは、ユーザによる操作や稼働状況、センシング結果など、自機器の状態を表す情報を、音声出力装置１２０に送信する。また、警報機１３０Ａ乃至オーディオ機器１３０Ｌは、音声出力装置１２０から送信されてくる音声信号を受信することで、音声を出力する。

図６においては、オーディオ機器１３０Ｌからの音声が騒音となり、音声出力装置１２０からの発話がユーザ１０に伝わらない様子が示されている。

このように、ユーザ１０の位置での騒音（聞き取り難さ）が大きく、音声出力装置１２０から出力される音声の特性を、その聞き取り難さに最大限に適応してもユーザ１０が聞き取ることができないと判断された場合、音声出力装置１２０が、警報機１３０Ａ乃至オーディオ機器１３０Ｌのうち、ユーザ１０への発話が可能な外部機器に対して音声信号を供給し、その外部機器が音声を出力する。

図６の例では、ユーザ１０への発話が可能な外部機器は、その使用状況からユーザ１０の行動（何に集中しているか）を推定し、ユーザ１０の意識が向いていると判定されたテレビジョン受像機１３０Ｈ、ユーザ１０との距離がより近い掃除機１３０Ｆ、騒音源と異なる方向にある冷蔵庫１３０Ｄとされている。

ここで以下において、警報機１３０Ａ乃至オーディオ機器１３０Ｌを、それぞれ区別する必要がない場合、単に、外部機器１３０ということとする。なお、音声出力装置１２０と連携する外部機器１３０は、図６に示されるように複数であってもよいし、１つであってもよい。

（音声出力装置および外部機器の機能構成例）
図７は、本技術を適用した第２の実施の形態の音声出力装置１２０および外部機器１３０の機能構成例を示している。

音声出力装置１２０は、図２の音声出力装置２０と同様の構成に加え、状態受信部１５１および音声送信部１５２を備えている。また、外部機器１３０は、状態取得部１６１、状態送信部１６２、音声受信部１６３、および音声再生デバイス１６４を備えている。

以下においては、第１の実施の形態と異なる構成および動作について説明する。

画像認識エンジン５４は、複数の外部機器１３０それぞれの位置（距離および方向）を検出し、その情報を聞き取り難さ推定部５５に供給する。

例えば、外部機器１３０は、その表面にそれぞれ固有のマーカが付されるようにする。画像認識エンジン５４は、音声出力装置１２０と外部機器１３０とをリンクするセットアップの際にセンサデバイス５３により撮像された画像に対して画像認識を行い、それぞれのマーカを検出する。画像認識エンジン５４は、検出されたマーカの画像内の位置から外部機器１３０の方向（角度）を算出するとともに、その位置の深度情報から外部機器１３０との距離を算出する。この処理は、セットアップの際に限らず、音声出力装置１２０が通知発話を行う直前のタイミングで行われるようにしてもよい。

また、上述したようなマーカを用いない処理として、セットアップの際に、音声入力デバイス５１が、騒音のない環境において外部機器１３０が出力した位置検出用の音を集音し、騒音検出処理部５２が、位置検出用の音の方向を検出することで、画像認識エンジン５４が、外部機器１３０の方向（角度）および外部機器１３０との距離を算出するようにしてもよい。

聞き取り難さ推定部５５は、画像認識エンジン５４からの、外部機器１３０それぞれとの距離および角度を示す情報を用いて、ユーザ１０の位置での外部機器１３０それぞれからの音声の聞き取り難さを示す聞き取り難さスコアＳ_ｅを算出する。

ここで、図８に示されるように、外部機器１３０との距離をＤ_ｓｅ、音声出力装置１２０からみたユーザ１０と外部機器１３０との角度差をθ_ｓｅとする。その他の値は、図４に示される値と同様である。

まず、聞き取り難さ推定部５５は、余弦定理により、以下の式を用いて、外部機器１３０とユーザ１０との距離Ｄ_ｅｕを算出する。

次に、聞き取り難さ推定部５５は、余弦定理により、以下の式を用いて、ユーザ１０からみた音声出力装置２０と外部機器１３０との角度差θ_ｕｅを算出する。

さらに、聞き取り難さ推定部５５は、ユーザ１０からみた外部機器１３０と騒音源３０との角度差θ_ｅを算出する。

ここで、図８に示されるように、音声出力装置１２０からみたユーザ１０と騒音源３０との角度差θ_ｓと、音声出力装置１２０からみたユーザ１０と外部機器１３０との角度差θ_ｓｅの符号が異なる（音声出力装置１２０とユーザ１０とを結ぶ線分に対して、騒音源３０と外部機器１３０とが異なる側にある）場合、ユーザ１０からみた外部機器１３０と騒音源３０との角度差は、θ_ｅ＝θ_ｕｅ＋θ_ｕで示される。

一方、図９に示されるように、音声出力装置１２０からみたユーザ１０と騒音源３０との角度差θ_ｓと、音声出力装置１２０からみたユーザ１０と外部機器１３０との角度差θ_ｓｅの符号が同じ（音声出力装置１２０とユーザ１０とを結ぶ線分に対して、騒音源３０と外部機器１３０とが同じ側にある）場合、ユーザ１０からみた外部機器１３０と騒音源３０との角度差は、θ_ｅ＝｜θ_ｕｅ−θ_ｕ｜で示される。

なお、ｎ個の騒音源が存在する場合、ユーザ１０の位置での騒音レベルＮ_ｕと、ユーザ１０からみた外部機器１３０と騒音源３０との角度差θ_ｅとは、騒音源毎に算出され、｛Ｎ_ｕ１，Ｎ_ｕ２，Ｎ_ｕ３，・・・，Ｎ_ｕｎ，｝，｛θ_ｅ１，θ_ｅ２，θ_ｅ３，・・・，θ_ｅｎ｝が得られる。

この場合、聞き取り難さ推定部５５は、以下の式を用いて、聞き取り難さスコアＳ_ｅを算出する（ｉ＝１，２，３，・・・，ｎ）。

聞き取り難さスコアＳ_ｅは、上述で説明したユーザ１０の位置での音声出力装置２０からの音声の聞き取り難さスコアＳ_ｕと同様の手法により算出される。聞き取り難さスコアＳ_ｅは、ユーザ１０の位置と外部機器１３０との距離が近く、騒音源３０と外部機器１３０の方向が異なるほど、小さい値をとる。

このようにして算出された聞き取り難さスコアＳ_ｅは、音声出力制御部５６に供給される。

また、ｍ個の外部機器１３０が音声出力装置１２０にリンクされている場合、聞き取り難さスコアＳ_ｅが外部機器１３０毎に算出されることで、｛Ｓ_ｅ１，Ｓ_ｅ２，Ｓ_ｅ３，・・・，Ｓ_ｅｍ｝が得られ、音声出力制御部５６に供給される。なお、音声出力装置１２０にリンクされているものの、画像認識エンジン５４によってその位置が検出されなかった外部機器１３０についての聞き取り難さスコアＳ_ｅは、音声出力装置２０についての聞き取り難さスコアＳ_ｕで代替されるようにしてもよい。

図７に戻り、外部機器１３０の状態取得部１６１は、外部機器１３０の使用状況などから、ユーザ１０の意識が外部機器１３０に集中しているか否かを判定し、その度合いを示す意識レベルを状態送信部１６２に供給する。

意識レベルは、以下に示すように、レベル２，１，０の３段階に分けられ、数字が大きいほど、ユーザ１０の意識が外部機器１３０に集中している度合いが高いものとする。

レベル２は、ユーザ１０が外部機器１３０に近接して操作したり作業している最中の状態を示し、例えば、以下のような状態が考えらえる。
・ＰＣにおいて、キーボードやマウスが操作されている。
・ゲーム機において、コントローラが操作されており、ユーザ１０がプレイ中である。
・固定電話機やインターホンにおいて、ユーザ１０が通話中である。
・冷蔵庫において、ドアが開かれている。
・炊飯器が稼働中で、そのふたが開けられている。
・ハンディ型の掃除機が稼働中である。

レベル１は、ユーザ１０が外部機器１３０から受動的に音声を受けている状態を示し、例えば、以下のような状態が考えらえる。
・テレビにおいて、映像および音声が出力されている。
・ラジオにおいて、音声が出力されている。
・オーディオ機器において、音楽が再生されている。

レベル０は、ユーザ１０の意識が外部機器１３０へ向いていない状態を示し、上述したような状態が検出されない状態とされる。

状態送信部１６２は、状態取得部１６１からの意識レベルを、無線ＬＡＮなどのネットワークを介して、音声出力装置１２０に送信する。

一方、音声出力装置１２０の状態受信部１５１は、外部機器１３０からネットワークを介して送信されてくる意識レベルを受信し、音声出力制御部５６に供給する。

なお、状態取得部１６１が外部機器１３０の使用状況を示す情報のみを取得して、状態送信部１６２がその情報を音声出力装置１２０に送信し、音声出力装置１２０（状態受信部１５１）側で、意識レベルの判定が行われるようにしてもよい。

さて、音声出力装置１２０の音声出力制御部５６は、聞き取り難さ推定部５５からの、ユーザ１０の位置での音声出力装置１２０からの音声の聞き取り難さスコアＳ_ｕ、および、ユーザ１０の位置での外部機器１３０それぞれからの音声の聞き取り難さスコア｛Ｓ_ｅ１，Ｓ_ｅ２，Ｓ_ｅ３，・・・，Ｓ_ｅｍ｝と、状態受信部１５１からの意識レベルとに基づいて、通知発話を行う機器（以下、音声出力機器という）を決定する。

そして、音声出力制御部５６によって、外部機器１３０が音声出力機器に決定された場合、出力音声信号処理部５９において信号処理が施された音声信号が、音声出力制御部５６において生成された音声パラメータ（音量Ｖ_０）とともに、音声送信部１５２に供給される。

音声送信部１５２は、出力音声信号処理部５９からの音声信号を、音声出力制御部５６からの音声パラメータとともに、無線ＬＡＮなどのネットワークを介して、音声出力機器に決定された外部機器１３０に送信する。

外部機器１３０の音声受信部１６３は、音声出力装置１２０からの音声信号および音声パラメータを受信し、音声再生デバイス１６４に供給する。

音声再生デバイス１６４は、音声再生デバイス６０と同様にして構成され、音声出力装置１２０からの音声パラメータ（音量Ｖ_０）に基づいた音量で、音声出力装置１２０からの音声信号に従った音声を出力する。

（音声出力機器決定処理）
ここで、図１０のフローチャートを参照して、音声出力制御部５６によって実行される音声出力機器決定処理の詳細について説明する。図１０の処理は、通知発話が行われるタイミング（直前）で開始される。

ステップＳ５１において、音声出力制御部５６は、聞き取り難さスコアＳ_ｕを用いて算出した音量Ｖ_０と、音声再生デバイス６０の制約により決まる音量Ｖ_ｍａｘとを比較し、音量Ｖ_０が音声再生デバイス６０の出力音量の上限（音量Ｖ_ｍａｘ）を超えるか否かを判定する。音量Ｖ_０が上限を超えると判定された場合、処理はステップＳ５２に進む。

ステップＳ５２において、音声出力制御部５６は、状態受信部１５１から供給された、外部機器１３０それぞれの意識レベルに基づいて、意識レベル２の外部機器１３０が存在するか否かを判定する。意識レベル２の外部機器１３０が存在すると判定された場合、処理はステップＳ５３に進む。

ステップＳ５３において、音声出力制御部５６は、意識レベル２の外部機器１３０の中から、聞き取り難さスコアＳ_ｅが最小となる外部機器１３０を選択し、処理はステップＳ５９に進む。

一方、ステップＳ５３において、意識レベル２の外部機器１３０が存在しないと判定された場合、処理はステップＳ５４に進む。

ステップＳ５４において、音声出力制御部５６は、状態受信部１５１から供給された、外部機器１３０それぞれの意識レベルに基づいて、意識レベル１の外部機器１３０が存在するか否かを判定する。意識レベル１の外部機器１３０が存在すると判定された場合、処理はステップＳ５５に進む。

ステップＳ５５において、音声出力制御部５６は、意識レベル１の外部機器１３０の中から、聞き取り難さスコアＳ_ｅが最小となる外部機器１３０を選択する。

ステップＳ５６において、音声出力制御部５６は、選択された外部機器１３０の聞き取り難さスコアＳ_ｅと自装置（音声出力装置１２０）の聞き取り難さスコアＳ_ｕとを比較し、その外部機器１３０の聞き取り難さスコアＳ_ｅが自装置の聞き取り難さスコアＳ_ｕより小さいか否かを判定する。聞き取り難さスコアＳ_ｅが聞き取り難さスコアＳ_ｕより小さいと判定された場合、処理はステップＳ５９に進む。

さて、ステップＳ５４において、意識レベル１の外部機器１３０が存在しないと判定された場合、または、ステップＳ５６において、聞き取り難さスコアＳ_ｅが聞き取り難さスコアＳ_ｕより小さくない（大きい）と判定された場合、処理はステップＳ５７に進む。

ステップＳ５７において、音声出力制御部５６は、音声出力装置１２０にリンクされている全外部機器１３０から、聞き取り難さスコアＳ_ｅが最小となる外部機器１３０を選択する。

ステップＳ５８において、音声出力制御部５６は、選択された外部機器１３０の聞き取り難さスコアＳ_ｅと自装置（音声出力装置１２０）の聞き取り難さスコアＳ_ｕとを比較し、その外部機器１３０の聞き取り難さスコアＳ_ｅが自装置の聞き取り難さスコアＳ_ｕより小さいか否かを判定する。聞き取り難さスコアＳ_ｅが聞き取り難さスコアＳ_ｕより小さいと判定された場合、処理はステップＳ５９に進む。

ステップＳ５９において、音声出力制御部５６は、ステップＳ５３，Ｓ５５，またはＳ５７において選択された外部機器１３０を音声出力機器に決定する。

一方、ステップＳ５１において、音量Ｖ_０が上限を超えないと判定された場合、または、ステップＳ５８において、聞き取り難さスコアＳ_ｅが聞き取り難さスコアＳ_ｕより小さくない（大きい）と判定された場合、処理はステップＳ６０に進む。

ステップＳ６０において、音声出力制御部５６は、自装置（音声出力装置１２０）を音声出力機器に決定する。

このようにして、自装置の聞き取り難さスコアＳ_ｕと、外部機器１３０それぞれの聞き取り難さスコアＳ_ｅおよび意識レベルとに基づいて、通知発話を行う音声出力機器が決定される。

以上の構成および処理によれば、出力すべき音声の音量が、ホームエージェント機器の音声再生デバイス（スピーカ）の性能限界を超えた場合であっても、ユーザの居場所に応じて、リンクされている外部機器を介して、通知発話を確実にユーザに伝えることができる。

また、ユーザが他の事に集中していて、ホームエージェント機器からの発話に気づきにくい状況であっても、ユーザの意識が向いている外部機器から音声を出力することにより、通知発話を確実にユーザに伝えることができる。

さらに、緊急性の高い通知発話を、騒音レベルが低くなったり、ユーザがホームエージェント機器からの発話に気づきやすい状況になるまで待つことなく、通知発話を確実にユーザに伝えることができる。

（ホームエージェント機器の発話中にユーザが移動する場合の例）
本実施の形態においては、音声出力機器（ホームエージェント機器または外部機器）の発話中にユーザが移動する場合、ユーザの位置の変化に追従して音声出力機器を動的に切り替えるようにすることもできる。

この場合、音声入力デバイス５１およびセンサデバイス５３によるセンシングから、音声出力装置１２０の聞き取り難さスコアＳ_ｕおよびｍ個の外部機器１３０毎の聞き取り難さスコア｛Ｓ_ｅ１，Ｓ_ｅ２，Ｓ_ｅ３，・・・，Ｓ_ｅｍ｝の算出までの処理が、音声出力機器の発話開始のタイミングのみではなく、発話中もリアルタイムに行われ、算出された聞き取り難さスコアＳ_ｕおよび｛Ｓ_ｅ１，Ｓ_ｅ２，Ｓ_ｅ３，・・・，Ｓ_ｅｍ｝が音声出力制御部５６に供給される。

音声出力機器の発話中にリアルタイムに行われる処理の時間粒度は、例えば、センサデバイス５３を構成するカメラの撮像フレームレート（すなわち、画像認識エンジン５４の認識処理の時間粒度）とされる。フレームレートが例えば３０ｆｐｓである場合、音声出力機器が発話中の１／３０秒毎に、聞き取り難さスコアＳ_ｕおよび｛Ｓ_ｅ１，Ｓ_ｅ２，Ｓ_ｅ３，・・・，Ｓ_ｅｍ｝が算出され、音声出力制御部５６に供給される。

音声出力制御部５６は、音声出力機器の発話開始のタイミングのみではなく、発話中もリアルタイムに更新される音声出力装置１２０の聞き取り難さスコアＳ_ｕおよび外部機器１３０毎の聞き取り難さスコア｛Ｓ_ｅ１，Ｓ_ｅ２，Ｓ_ｅ３，・・・，Ｓ_ｅｍ｝を用いて、図１０を参照して説明した音声出力機器決定処理を実行する。

音声出力機器に決定された機器の発話中にユーザ１０が移動することによって、聞き取り難さスコアＳ_ｕおよび｛Ｓ_ｅ１，Ｓ_ｅ２，Ｓ_ｅ３，・・・，Ｓ_ｅｍ｝が変化すると、音声出力機器決定処理により決定される機器が切り替わる。

ここで、図１１乃至図１３を参照して、音声出力機器が、外部機器Ａから外部機器Ｂに切り替わる例について説明する。

図１１は、音声出力装置１２０から音声出力機器へ発話音声のファイルが送信される場合の音声出力機器の切り替えの例を示している。

音声出力装置１２０は、外部機器Ａに対して音声出力停止（中断）を指示する。外部機器Ａは、音声出力停止指示を受けたタイミングから、音声出力のフェードアウトを開始し、数秒にかけてフェードアウトを完了することで、音声出力を停止する。

一方で、音声出力装置１２０は、外部機器Ａに対する音声出力停止指示と同時に、外部機器Ｂに発話音声のファイルとファイル内の出力開始時間オフセット（外部機器Ａに音声出力停止を指示した時刻）とを送信することで、外部機器Ｂに対して音声出力開始を指示する。外部機器Ｂは、発話音声のファイルの、出力開始時間オフセットで指定される位置からフェードインを開始し、数秒にかけてフェードインを完了することで、音声出力を開始する。

図１２は、音声出力装置１２０から音声出力機器へ発話音声のストリーミングを行う場合の音声出力機器の切り替えの例を示している。

音声出力装置１２０は、外部機器Ａへの音声ストリーミングのフェードアウトを開始すると同時に、外部機器Ｂへの音声ストリーミングのフェードインを開始する。音声出力装置１２０は、数秒にかけて、外部機器Ａへの音声ストリーミングのフェードアウトと、外部機器Ｂへの音声ストリーミングのフェードインとを完了することで、音声出力機器の切り替えが完了する。

図１３は、音声出力装置１２０から全ての外部機器へ発話音声をブロードキャストする場合の音声出力機器の切り替えの例を示している。

外部機器Ａ，Ｂの両方に発話音声がブロードキャストされている状態で、音声出力装置１２０は、外部機器Ａに対する音声出力停止と、外部機器Ｂに対する音声出力開始を同時に指示する。指示を受けたタイミングから、外部機器Ａは音声出力のフェードアウトを開始し、外部機器Ｂは音声出力のフェードインを開始する。数秒にかけて、外部機器Ａがフェードアウトを、外部機器Ｂがフェードインを、それぞれ完了することで、音声出力機器の切り替えが完了する。

（ホームエージェント機器がユーザを検出できない場合の例）
本実施の形態においては、ユーザがホームエージェント機器周辺に存在しないため、ホームエージェント機器がユーザを検出できず、ユーザの近傍に位置する外部機器がユーザを検出した場合、その外部機器を音声出力機器に決定するようにすることもできる。

ホームエージェント機器がユーザを検出できない場合、ユーザの位置が不明となるので、ユーザの位置での聞き取り難さスコアＳ_ｕ，Ｓ_ｅを算出することができない。

そこで、聞き取り難さスコア算出の例外処理として、音声出力装置１２０についての聞き取り難さスコアＳ_ｕ、および、ユーザを検出していない外部機器１３０についての聞き取り難さスコアＳ_ｅを、Ｖ_０＞Ｖ_ｍａｘとなる大きい値に設定する。さらに、ユーザを検出した外部機器１３０についての聞き取り難さスコアＳ_ｅを、音声出力装置１２０についての聞き取り難さスコアＳ_ｕ、および、ユーザを検出していない外部機器１３０についての聞き取り難さスコアＳ_ｅより小さい値に設定する。すなわち、ユーザを検出した外部機器１３０についての聞き取り難さスコアを、それ以外の機器についての聞き取り難さスコアより小さくする。

このような聞き取り難さスコアの設定により、図１０を参照して説明した音声出力機器決定処理において、ユーザを検出した外部機器１３０が音声出力機器に決定されるようになり、その外部機器１３０から発話音声が出力される。

例えば、１階のリビングにホームエージェント機器が設置されているものの、リビングには誰もおらず、２階の寝室にユーザがおり、その寝室に設置されているＰＣ（外部機器）に設けられているカメラがユーザを検出したとする。この場合、そのＰＣが音声出力機器に決定され、ホームエージェント機器からは発話音声が出力されず、そのＰＣから発話音声が出力される。これにより、２階の寝室にいるユーザに、通知発話を確実に伝えることができる。

（その他の変形例）
本実施の形態において、ホームエージェント機器（音声出力装置１２０）が、音声出力機器に決定された外部機器にヘッドホンやイヤホンが接続されていることを検知できるようにしてもよい。この場合、その外部機器とホームエージェント機器の両方から発話音声が出力されるようにする。

ヘッドホンやイヤホンは外部に音声を放射できないので、ユーザが、その外部機器に接続されているヘッドホンやイヤホンを装着していない場合であっても、上述した構成により、通知発話を確実にユーザに伝えることができる。

発話の冒頭に効果音を付与するようにしてもよい。この場合、外部機器からもその効果音が出力されるようにして、ホームエージェント機器の通知発話が出力されることをユーザに認識させるようにする。

ホームエージェント機器からの音声出力時と、外部機器からの音声出力時とで、通知発話テキストの内容を変えるようにしてもよい。

例えば、ホームエージェント機器本体の状態を通知する場合、ホームエージェント機器本体から出力される発話を「アップデートを行います」とし、外部機器から出力される発話を「ホームエージェント機器のアップデートを行います」とする。

また、ユーザの位置に応じて追加の情報を提供する場合、ホームエージェント機器本体から出力される発話を「画面を見てください」とし、外部機器から出力される発話を「ホームエージェント機器の前にある画面を見てください」とする。このとき、ホームエージェント機器が備えるプロジェクタで追加の情報が投影されるようにする。

外部機器が備えるカメラにより撮像された画像からユーザの位置が検出されなかった場合、その外部機器全てから発話音声が出力されるようにしてもよい。

騒音レベルが非常に大きく、聞き取り難さスコアが一定の値を超える場合、音声以外の手段で通知情報の提示が行われるようにしてもよい。例えば、ホームエージェント機器が備える視覚提示デバイスや、外部機器としてのテレビジョン受像機などの画面に、通知メッセージのテキストが表示されるようにする。また、外部機器がスマートフォンである場合には、そのバイブレーション機能により通知が行われるようにしてもよい。

特に緊急性の高い通知は、ユーザの声やジェスチャーによる了解行動が検知されるまで、音声出力装置１２０の聞き取り難さスコアＳ_ｕを高くして決定された特性の音声で、発話が繰り返し行われるようにしてもよい。さらに、了解行動が検知されない場合には、聞き取り難さスコアＳ_ｅの低い外部機器から順番に、発話が行われるようにしてもよい。

＜４．第３の実施の形態＞
本技術は、クラウドコンピューティングへ適用することもできる。

例えば、図１４に示されるように、音声出力装置１２０は、自装置や外部機器１３０のセンシングにより得られた音声データおよび画像データを、クラウド２００上のサーバに送信する。

クラウド２００上のサーバにおいては、上述した実施の形態と同様にして、聞き取り難さスコア（聞き取り難さを示す情報）が算出される。算出された聞き取り難さスコアは、音声出力装置１２０に送信される。

音声出力装置１２０は、クラウド２００上のサーバからの聞き取り難さスコアを用いて、上述した実施の形態と同様にして、音声パラメータの生成以降の処理を行う。

（サーバの機能構成例）
図１５は、本技術を適用した第３の実施の形態のサーバの機能構成例を示している。

図１５に示されるように、音声出力装置１２０は、ネットワーク２１０を介して、サーバ２２０と接続される。

サーバ２２０は、騒音検出処理部５２、画像認識エンジン５４、聞き取り難さ推定部５５、および通信部２５１を備えている。

通信部２５１は、音声出力装置１２０からネットワーク２１０を介して送信されてくる音声データおよび画像データを受信する。

騒音検出処理部５２、画像認識エンジン５４、および聞き取り難さ推定部５５によって行われる処理は、いわゆるＷｅｂＡＰＩ化された処理となる。この処理により、音声出力装置１２０からの音声データおよび画像データに基づいて、音声出力装置１２０および外部機器１３０の聞き取り難さを示す情報が算出され、出力される。

通信部２５１は、聞き取り難さを示す情報を、ネットワーク２１０を介して音声出力装置１２０に送信する。

ここで、聞き取り難さを示す情報は、各機器の聞き取り難さスコアの他、ユーザの位置での騒音レベル、ユーザからみた各機器と騒音源との角度差、および、各機器とユーザとの距離それぞれを表すパラメータの少なくともいずれかを含むものとする。

図１６は、ＷｅｂＡＰＩ処理結果として得られる聞き取り難さを示す情報の例を示している。

図１６の例では、２つの騒音源と２つの外部機器が存在する場合の聞き取り難さを示す情報が、ＪＳＯＮ（JavaScript Object Notation）形式で記述されている。

データ３１１乃至３１４は、ホームエージェント機器からの音声の聞き取り難さを示す情報を表している。

データ３１１は、ホームエージェント機器の聞き取り難さスコアＳ_ｕを示しており、その値は４．０５とされる。

データ３１２は、ホームエージェント機器とユーザとの距離Ｄ_ｓｕを示しており、その値は５（ｍ）とされる。

データ３１３は、ユーザの位置での第１の騒音源の騒音レベルＮ_ｕ１、および、ユーザからみたホームエージェント機器と第１の騒音源との角度差θ_ｕ１を示しており、その値はそれぞれ０．８および２０（°）とされる。

データ３１４は、ユーザの位置での第２の騒音源の騒音レベルＮ_ｕ２、および、ユーザからみたホームエージェント機器と第２の騒音源との角度差θ_ｕ２を示しており、その値はそれぞれ０．５および１３０（°）とされる。

データ３２１乃至３２４は、第１の外部機器からの音声の聞き取り難さを示す情報を表している。

データ３２１は、第１の外部機器の聞き取り難さスコアＳ_ｅ１を示しており、その値は１．３５とされる。

データ３２２は、第１の外部機器とユーザとの距離Ｄ_ｅｕを示しており、その値は３（ｍ）とされる。

データ３２３は、ユーザの位置での第１の騒音源の騒音レベルＮ_ｕ１、および、ユーザからみた第１の外部機器と第１の騒音源との角度差θ_ｅ１を示しており、その値はそれぞれ０．８および３０（°）とされる。

データ３２４は、ユーザの位置での第２の騒音源の騒音レベルＮ_ｕ２、および、ユーザからみた第１の外部機器と第２の騒音源との角度差θ_ｅ２を示しており、その値はそれぞれ０．５および１１０（°）とされる。

データ３３１乃至３３４は、第２の外部機器からの音声の聞き取り難さを示す情報を表している。

データ３３１は、第２の外部機器の聞き取り難さスコアＳ_ｅ２を示しており、その値は６．２８とされる。

データ３３２は、第２の外部機器とユーザとの距離Ｄ_ｅｕを示しており、その値は８（ｍ）とされる。

データ３３３は、ユーザの位置での第１の騒音源の騒音レベルＮ_ｕ１、および、ユーザからみた第２の外部機器と第１の騒音源との角度差θ_ｅ２を示しており、その値はそれぞれ０．８および７０（°）とされる。

データ３３４は、ユーザの位置での第２の騒音源の騒音レベルＮ_ｕ２、および、ユーザからみた第２の外部機器と第２の騒音源との角度差θ_ｅ２を示しており、その値はそれぞれ０．５および１０（°）とされる。

以上のような処理結果が、音声出力装置１２０に返されることで、音声出力装置１２０または外部機器１３０のいずれかが、音声出力機器に決定されて音声を出力する。

図１６の例においては、ユーザとの距離が最も近く、聞き取り難さスコアが最も小さい第１の外部機器が、音声出力機器に決定されると考えられる。

＜５．その他＞
以上においては、本技術を、家庭内で利用されるホームエージェント機器に適用した例について説明したが、屋外で利用される機器に適用されるようにしてもよい。

具体的には、本技術を、屋外において特定の人に対して音声を出力する機器に適用することができる。

例えば、本技術をデジタルサイネージに適用した場合、その周囲の騒音状況と、通行人やそのデジタルサイネージを立ち止まって見ている人の位置とに応じて、合成音声の特性を適応的に制御することできる。

また、本技術を携帯型の自動翻訳機に適用した場合、相手に確実に聞こえるように、翻訳された合成音声を出力することができる。

さらに、本技術をインターホンの室外機に適用した場合、音声合成は用いないものの、相手の周囲の騒音状況と、相手の位置とに応じて、高域強調と音量とを適応的に調整することができる。

なお、屋内においては、特定の方向からの入力音声ではない、雑踏による騒音が大きい。このため、仮想的な騒音源として、ユーザの位置での騒音レベルを、騒音検出処理部５２による音源分離により細分化された各方向の音声成分のレベルの最小値とし、騒音源の方向を、音声出力機器本体と同じ方向としたものを追加する。これにより、雑踏の騒音による聞き取り難さを考慮した音声出力制御を行うことができる。

具体的には、図４において、角度差θ_ｕを０°とし、騒音レベルＮ_ｕを音声出力機器の位置で観測された各方向の騒音レベルの最小値とした騒音源を、雑踏による騒音の騒音源として追加することで、ユーザの位置での聞き取り難さスコアＳ_ｕを算出する。

また、屋外においては、緊急車両のサイレンや、街頭での宣伝・演説など、特定の方向からの騒音も存在する。屋外では、家庭内と比較して、カメラが撮像した画像によって騒音源までの距離を検出することが難しいことが想定される。そこで、屋外では、家庭内と比較して、騒音源が遠い位置にあることを踏まえて、音声出力機器から騒音源までの距離Ｄ_ｎｓが検出されなかった場合、騒音源までの距離Ｄ_ｎｓを無限遠と仮定する。この場合、図４において、θ_ｕ＝１８０°−θ_ｓ，Ｎ_ｕ＝Ｎ_ｓとして、ユーザの位置での聞き取り難さスコアＳ_ｕを算出する。

なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

さらに、本技術は以下のような構成をとることができる。
（１）
ユーザに向けて音声出力可能な機器において取得された画像と所定の騒音源からの騒音とに基づいて、前記ユーザの位置での前記機器からの音声の聞き取り難さを示す情報を出力する処理部
を備える情報処理装置。
（２）
前記処理部は、前記情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記機器と前記騒音源との角度差、および、前記機器と前記ユーザとの距離を用いて算出される聞き取り難さスコアを出力する
（１）に記載の情報処理装置。
（３）
前記処理部は、前記情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記機器と前記騒音源との角度差、および、前記機器と前記ユーザとの距離それぞれを表すパラメータを出力する
（１）に記載の情報処理装置。
（４）
前記処理部は、前記情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記機器と前記騒音源との角度差、および、前記機器と前記ユーザとの距離それぞれを表すパラメータ、並びに、それらを用いて算出される聞き取り難さスコアの少なくともいずれかを出力する
（１）に記載の情報処理装置。
（５）
前記処理部は、前記騒音源が複数ある場合、前記騒音源毎に、前記ユーザの位置での騒音レベル、および、前記ユーザからみた前記機器と前記騒音源との角度差を算出する
（２）乃至（４）のいずれかに記載の情報処理装置。
（６）
前記処理部は、前記機器に接続された音声出力可能な他の機器の位置に基づいて、前記ユーザの位置での前記他の機器からの音声の聞き取り難さを示す他の情報をさらに出力する
（１）乃至（５）のいずれかに記載の情報処理装置。
（７）
前記機器として、前記ユーザに向けて音声を出力するように構成される
（１）乃至（６）のいずれかに記載の情報処理装置。
（８）
前記ユーザの位置での音声の聞き取り難さを示す前記情報を用いて、前記ユーザに向けて出力される音声の特性を決定するパラメータを生成することで、前記音声の出力を制御する音声出力制御部をさらに備える
（７）に記載の情報処理装置。
（９）
前記音声出力制御部は、前記パラメータにより決定される前記音声の音量が、出力可能な音量の上限を超える場合、前記機器に接続された音声出力可能な他の機器を、前記音声を出力する音声出力機器に決定する
（８）に記載の情報処理装置。
（１０）
前記音声出力制御部は、前記ユーザによる前記他の機器の使用状況に基づいて、前記他の機器を、前記音声出力機器に決定する
（９）に記載の情報処理装置。
（１１）
前記音声出力制御部は、前記ユーザとの距離がより近い前記他の機器を、前記音声出力機器に決定する
（９）に記載の情報処理装置。
（１２）
前記音声出力制御部は、前記ユーザからみた前記騒音源との角度差がより大きい前記他の機器を、前記音声出力機器に決定する
（９）に記載の情報処理装置。
（１３）
ユーザに向けて音声出力可能な機器において取得された画像と所定の騒音源からの騒音とに基づいて、前記ユーザの位置での前記機器からの音声の聞き取り難さを示す情報を出力する
ステップを含む情報処理方法。
（１４）
自装置において取得された画像と所定の騒音源からの騒音とに基づいて生成された、ユーザの位置での前記自装置からの音声の聞き取り難さを示す情報を用いて、前記ユーザに向けて出力される音声の特性を決定するパラメータを生成することで、前記音声の出力を制御する音声出力制御部
を備える音声出力装置。
（１５）
前記情報は、前記ユーザの位置での騒音レベル、前記ユーザからみた前記自装置と前記騒音源との角度差、および前記自装置と前記ユーザとの距離を用いて算出される聞き取り難さスコアである
（１４）に記載の音声出力装置。
（１６）
前記情報は、前記ユーザの位置での騒音レベル、前記ユーザからみた前記自装置と前記騒音源との角度差、および、前記自装置と前記ユーザとの距離それぞれを表すパラメータである
（１４）に記載の音声出力装置。
（１７）
前記情報は、前記ユーザの位置での騒音レベル、前記ユーザからみた前記自装置と前記騒音源との角度差、および、前記自装置と前記ユーザとの距離それぞれを表すパラメータ、並びに、それらを用いて算出される聞き取り難さスコアの少なくともいずれかである
（１４）に記載の音声出力装置。
（１８）
自装置において取得された画像と所定の騒音源からの騒音とに基づいて生成された、ユーザの位置での前記自装置からの音声の聞き取り難さを示す情報を用いて、前記ユーザに向けて出力される前記音声の特性を決定するパラメータを生成することで、前記音声の出力を制御する
ステップを含む音声出力方法。

２０音声出力装置，５１音声入力デバイス，５２騒音検出処理部，５３センサデバイス，５４画像認識エンジン，５５聞き取り難さ推定部，５６音声出力制御部，５７通知発話テキスト，５８音声合成エンジン，５９出力音声信号処理部，６０音声再生デバイス，１２０音声出力装置，１３０外部機器，２００クラウド，２１０ネットワーク，２２０サーバ

Claims

ユーザに向けて音声出力可能な機器において取得された画像と所定の騒音源からの騒音とに基づいて、前記ユーザの位置での前記機器からの音声の聞き取り難さを示す情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記機器と前記騒音源との角度差、および、前記機器と前記ユーザとの距離それぞれを表すパラメータ、並びに、それらを用いて算出される聞き取り難さスコアの少なくともいずれかを出力する処理部
を備える情報処理装置。
前記処理部は、前記情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記機器と前記騒音源との角度差、および、前記機器と前記ユーザとの距離を用いて算出される聞き取り難さスコアを出力する
請求項１に記載の情報処理装置。
前記処理部は、前記情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記機器と前記騒音源との角度差、および、前記機器と前記ユーザとの距離それぞれを表すパラメータを出力する
請求項１に記載の情報処理装置。
前記処理部は、前記騒音源が複数ある場合、前記騒音源毎に、前記ユーザの位置での騒音レベル、および、前記ユーザからみた前記機器と前記騒音源との角度差を算出する
請求項２に記載の情報処理装置。
前記処理部は、前記機器に接続された音声出力可能な他の機器の位置に基づいて、前記ユーザの位置での前記他の機器からの音声の聞き取り難さを示す他の情報をさらに出力する
請求項１乃至４のいずれかに記載の情報処理装置。
前記機器として、前記ユーザに向けて音声を出力するように構成される
請求項１乃至５のいずれかに記載の情報処理装置。
前記ユーザの位置での音声の聞き取り難さを示す前記情報を用いて、前記ユーザに向けて出力される音声の特性を決定するパラメータを生成することで、前記音声の出力を制御する音声出力制御部をさらに備える
請求項６に記載の情報処理装置。
前記音声出力制御部は、前記パラメータにより決定される前記音声の音量が、出力可能な音量の上限を超える場合、前記機器に接続された音声出力可能な他の機器を、前記音声を出力する音声出力機器に決定する
請求項７に記載の情報処理装置。
前記音声出力制御部は、前記ユーザによる前記他の機器の使用状況に基づいて、前記他の機器を、前記音声出力機器に決定する
請求項８に記載の情報処理装置。
前記音声出力制御部は、前記ユーザとの距離がより近い前記他の機器を、前記音声出力機器に決定する
請求項８に記載の情報処理装置。
前記音声出力制御部は、前記ユーザからみた前記騒音源との角度差がより大きい前記他の機器を、前記音声出力機器に決定する
請求項８に記載の情報処理装置。
ユーザに向けて音声出力可能な機器において取得された画像と所定の騒音源からの騒音とに基づいて、前記ユーザの位置での前記機器からの音声の聞き取り難さを示す情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記機器と前記騒音源との角度差、および、前記機器と前記ユーザとの距離それぞれを表すパラメータ、並びに、それらを用いて算出される聞き取り難さスコアの少なくともいずれかを出力する
ステップを含む情報処理方法。
自装置において取得された画像と所定の騒音源からの騒音とに基づいて生成された、ユーザの位置での前記自装置からの音声の聞き取り難さを示す情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記自装置と前記騒音源との角度差、および、前記自装置と前記ユーザとの距離それぞれを表すパラメータ、並びに、それらを用いて算出される聞き取り難さスコアの少なくともいずれかを用いて、前記ユーザに向けて出力される音声の特性を決定するパラメータを生成することで、前記音声の出力を制御する音声出力制御部
を備える音声出力装置。
前記情報は、前記ユーザの位置での騒音レベル、前記ユーザからみた前記自装置と前記騒音源との角度差、および前記自装置と前記ユーザとの距離を用いて算出される聞き取り難さスコアである
請求項１３に記載の音声出力装置。
前記情報は、前記ユーザの位置での騒音レベル、前記ユーザからみた前記自装置と前記騒音源との角度差、および、前記自装置と前記ユーザとの距離それぞれを表すパラメータである
請求項１３に記載の音声出力装置。
自装置において取得された画像と所定の騒音源からの騒音とに基づいて生成された、ユーザの位置での前記自装置からの音声の聞き取り難さを示す情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記自装置と前記騒音源との角度差、および、前記自装置と前記ユーザとの距離それぞれを表すパラメータ、並びに、それらを用いて算出される聞き取り難さスコアの少なくともいずれかを用いて、前記ユーザに向けて出力される前記音声の特性を決定するパラメータを生成することで、前記音声の出力を制御する
ステップを含む音声出力方法。