JP2022105372A

JP2022105372A - 音声応答装置、音声応答方法および音声応答プログラム

Info

Publication number: JP2022105372A
Application number: JP2021000096A
Authority: JP
Inventors: 直樹関根; Naoki Sekine
Original assignee: Toshiba TEC Corp
Current assignee: Toshiba TEC Corp
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2022-07-14
Also published as: US20220215854A1; CN114724537A; EP4024705A1

Abstract

【課題】音声認識の精度を高めることができる音声応答装置、音声応答方法および音声応答プログラムを提供する。【解決手段】音声応答装置１は、マイク２とプロセッサ１１とスピーカ３とを有する。マイクは、音を入力する。プロセッサは、マイクにより入力した音から検知するユーザが発した声に応じた音声による応答内容を生成し、ユーザが発した声の音量としての入力音量とユーザが発した声以外の環境音の音量とに応じて応答内容を応答音声として出力するための音量を決定する。スピーカは、プロセッサが決定する音量で応答音声を出力する。【選択図】図２

Description

本発明の実施形態は、音声応答装置、音声応答方法および音声応答プログラムに関する。

ＡＩスピーカ（スマートスピーカ）などの音声対話装置（音声応答装置）は、ユーザが発した声を入力音声として入力し、入力した入力音声の内容を音声認識する。音声対話装置は、入力音声に対する音声認識の結果に応じて生成する応答内容を応答音声として出力する。一般に、音声対話装置は、入力音声の音量が大きすぎる場合、又は、入力音声の音量が小さすぎる場合、音声認識による正確な認識結果を得ることが難しくなる。音声対話装置は、出力する応答音声の音量を制御することで話者（ユーザ）が発する声の大きさをコントロールできる可能性があると考えられる。これは、話者が話し相手の声の大きさに応じて発する声の大きさをコントロールすることがあるためである。

しかし、従来の音声対話装置は、応答音声が予め設定された音量であったりユーザが指定する音量であったりするため、応答音声の音量をフレキシブルに変更することができない。また、音声対話装置は、マイクを用いて、話者の声だけでなく話者の声以外の音も集音してしまう。このため、音声対話装置は、単純に入力音声の音量に応じた応答音声の音量を設定することができたとしても音声認識の精度を向上することが難しいという問題がある。

特開平１１－０５５０５５号公報

上記した課題を解決するために、精度の高い音声応答を実現できる音声応答装置、音声応答方法および音声応答プログラムを提供する。

実施形態によれば、音声応答装置は、マイクとプロセッサとスピーカとを有する。マイクは、音を入力する。プロセッサは、マイクにより入力した音から検知するユーザが発した声に応じた音声による応答内容を生成し、ユーザが発した声の音量としての入力音量とユーザが発した声以外の環境音の音量とに応じて応答内容を応答音声として出力するための音量を決定する。スピーカは、プロセッサが決定する音量で応答音声を出力する。

図１は、実施形態に係る音声応答装置の構成例を概略的に示す図である。図２は、実施形態に係る音声応答装置における制御系の構成例を示すブロック図である。図３は、実施形態に係る音声応答装置が環境音量が閾値未満である場合に入力音量から応答音量を決定するための関数の例を示す図である。図４は、実施形態に係る音声応答装置が環境音量が閾値以上である場合に入力音量から応答音量を決定するための関数の例を示す図である。図５は、実施形態に係る音声応答装置が環境音量および入力音量に応じた関数を選択するためのテーブルの例を示す図である。図６は、実施形態に係る音声応答装置の動作例を説明するためのフローチャートである。図７は、実施形態に係る音声応答装置における応答音量の計算処理を説明するためのフローチャートである。図８は、実施形態に係る音声応答装置における応答音量の計算処理を説明するためのフローチャートである。

以下、実施形態について、図面を参照して説明する。
図１は、実施形態に係る音声応答装置１を概略的に説明するための図である。
図１に示すように、実施形態に係る音声応答装置１は、マイク２とスピーカ３とを有する。音声応答装置１は、マイク２に入力された話者の音声に応じた応答音声をスピーカ３から出力する装置である。

音声応答装置１は、例えば、ＡＩスピーカと称される音声対話装置である。また、音声応答装置１は、スマートフォン、タブレット端末、パーソナルコンピュータなどの情報処理装置であっても良い。また、音声応答装置１は、情報処理装置にマイク２およびスピーカ３の何れか一方又は両方を接続したものであっても良い。

音声応答装置１は、話者が発した声（音声）と環境音とを含む音をマイク２で集音する。音声応答装置１は、マイク２で集音した音から話者が発した声（入力音声）を検知する。音声応答装置１は、検知した入力音声に対して音声認識を実行することにより入力音声の内容（話者が発した話の内容）を認識する。音声応答装置１は、認識した入力音声の内容に応じて応答音声として発する応答内容を生成する。

さらに、本実施形態に係る音声応答装置１は、話者が発した声（入力音声）の音量と話者が発した声以外の音（環境音）の音量とを計測（計算）する。音声応答装置１は、応答音声の音量を決定するための複数の関数（又はテーブル）を保持する。応答音声の音量を決定するための複数の関数は、環境音の大きさと入力音声の大きさとの組み合わせに応じて設定される。音声応答装置１は、マイクで集音した音から計測した入力音声の音量と環境音の音量とに基づいて関数（又はテーブル）を選択する。音声応答装置１は、選択した関数に従って入力音声の音量に応じた応答音声の音量を決定する。音声応答装置は、入力音声の内容に対応して生成した応答内容を、入力音声の音量と環境音の音量とから決定した音量の応答音声としてスピーカ３から出力する。

次に、実施形態に係る音声応答装置１の構成について説明する。
図２は、実施形態に係る音声応答装置１の構成例を示すブロック図である。
図２に示すように、音声応答装置１は、プロセッサ１１、主記憶装置１２、補助記憶装置１３、音声処理回路１４、マイク２、および、スピーカ３を有する。

プロセッサ１１は、音声応答装置１全体の制御を司る。プロセッサ１１は、例えば、ＣＰＵである。プロセッサ１１は、プログラムを実行することにより後述する種々の処理を行う。例えば、プロセッサ１１は、音声応答装置１の動作制御、音声検知、音声認識、応答文の生成、入力音声の音量計測、環境音の音量計測、応答音声の音量計算および応答波形の生成などの種々の処理を行う。

主記憶装置１２は、データを記憶するメインメモリである。主記憶装置１２は、例えば、ＲＡＭ（ＲａｎｄｏｍＭｅｍｏｒｙ）などにより構成する。主記憶装置１２は、プロセッサ１１が処理中のデータを一時的に格納する。また、主記憶装置１２は、プログラムの実行に必要なデータおよびプログラムの実行結果などを格納してもよい。また、主記憶装置１２は、データを一時的に保持するためのバッファメモリとしても動作する。

例えば、主記憶装置１２は、マイクで集音した音から計算した環境音の音量を示す情報を記憶するメモリとして機能する。例えば、主記憶装置１２は、マイク２で集音した音を音声処理回路１４で処理することで得られた音声のデータを記憶する。さらに、主記憶装置１２は、マイクで集音した音に含まれる話者が発した声（入力音声）の音量の計算結果を記憶するようにしても良い。また、主記憶装置１２は、入力音声の音量および環境音の音量に応じて決定した応答音声の音量を示す情報を記憶するようにしても良い。

補助記憶装置１３は、データを記憶するストレージである。補助記憶装置１３は、ＲＯＭ（リードオンリーメモリ）などの書き換え不可の不揮発性メモリ、および、書き換え可能な不揮発性メモリなどを含む。書き換え可能な不揮発性メモリとしては、例えば、ＨＤＤ（ハードディスクドライブ）、ＳＳＤ（ソリッドステートドライブ）、ＥＥＰＲＯＭ（登録商標）あるいはフラッシュＲＯＭなどで構成される。

補助記憶装置１３は、プロセッサ１１が実行するプログラムおよび制御データなどを記憶する。例えば、補助記憶装置１３は、入力音声に応じた応答音声を出力するための音声応答プログラムを記憶する。音声応答プログラムは、音声検知、音声認識、意図解析、応答文の生成、入力音量の計算、環境音量の計算、応答音量の計算および応答波形の生成などの後述するような種々の処理を行うプログラムを含む。なお、後述するプロセッサ１１がプログラムを実行することで実施される処理の一部又は全部は、処理回路などのハードウエアによって実行するようにしても良い。

また、図２に示す例において、補助記憶装置１３は、環境音の音量（環境音量）を加味して入力音声の音量（入力音量）に応じた応答音声の音量を決定するための関数を選択するための関数テーブル１３ａを記憶する。関数テーブル１３ａについては、後で詳細に説明するものとする。

マイク２は、音を集音（取得）する。マイク２は、例えば、集音した音をアナログ信号（アナログ波形）として入力し、入力された音のアナログ信号を音声処理回路１４へ出力する。
音声処理回路１４は、マイク２が集音した音のアナログ信号を入力し、入力した音のアナログ信号をデジタルデータとしての音データを出力する。音声処理回路１４は、アナログ波形をデジタル化するＡＤコンバータなどを有する。
なお、マイク２は、音声応答装置１に接続される外部機器であっても良い。マイク２を外部機器とする場合、音声処理回路１４は、マイク２を接続する音声入力用のインターフェースを備えるものとすれば良い。

スピーカ３は、音声を出力する。スピーカ３は、プロセッサ１１から供給される応答波形に基づく応答音声を発する。スピーカ３は、プロセッサ１１によって音量が制御される。例えば、スピーカ３は、プロセッサ１１が応答音声の音量に応じて振幅を調整した応答波形に基づく応答音声を発する。
なお、スピーカ３は、音声応答装置１に接続される外部機器であっても良い。スピーカ３を外部機器とする場合、音声応答装置１は、スピーカ３に出力すべき音の波形を示す信号を出力するインターフェースを備えるものとすれば良い。

次に、実施形態に係る音声応答装置１が応答音声の音量（応答音量）を決定するための関数について説明する。
音声応答装置１は、話者が発した声を認識し、話者が発した言葉（入力文）に対する応答を音声で出力する。音声応答装置１は、話者が発した声に対する応答内容を生成するとともに、入力音声の音量（入力音量）と環境音の音量（環境音量）とに応じて選択される関数を用いて応答音量を決定する。すなわち、音声応答装置１は、入力音量から応答音量を決定するための関数として、環境音の大きさに応じた複数の関数を保持する。音声応答装置１は、複数の関数から環境音の大きさに適した関数を選択し、入力音量から応答音量を決定する。

図３および図４は、入力音声の音量（入力音量）Ｖに応じた応答音声の音量（応答音量）を決定するための関数（フィルタ）の例を示す図である。
図３は、環境音の音量（環境音量）Ｓが閾値Ｔｓ未満（ｓ＜Ｔｓ）である場合において、入力音量から応答音量を決定するための関数（第１の関数）の例を示す。また、図４は、環境音量Ｓが閾値Ｔｓ以上（Ｓ≧Ｔｓ）である場合において、入力音量から応答音量を決定するための関数（第２の関数）の例を示す。

図３に示す例において、関数ＦＡは、環境音量Ｓが閾値Ｔｓ未満（Ｓ＜Ｔｓ）である場合に入力音量から応答音量を決定するための関数である。関数ＦＡは、入力音量Ｖに対する閾値Ｔｖａ、Ｔｖｂ、Ｔｖｃ、Ｔｃｄで特性が変化する。関数ＦＡは、入力音量Ｖに対する４つの閾値Ｔｖａ、Ｔｖｂ、Ｔｖｃ、Ｔｃｄで区切られる５つの区間における関数ＦＡａ、ＦＡｂ、ＦＡｃ、ＦＡｄ、ＦＡｅからなる。

関数ＦＡａは、環境音量Ｓが閾値Ｔｓ未満（Ｓ＜Ｔｓ）で、入力音量Ｖが閾値Ｔｖａ未満（Ｖ＜Ｔｖａ）である場合に、入力音量から応答音量を決定するための関数である。関数ＦＡｂは、環境音量Ｓが閾値Ｔｓ未満（Ｓ＜Ｔｓ）で、入力音量Ｖが閾値Ｔｖａ以上閾値Ｔｖｂ未満（Ｔｖａ≦Ｖ＜Ｔｖｂ）である場合に入力音量から応答音量を決定するための関数である。

関数ＦＡｃは、環境音量Ｓが閾値Ｔｓ未満（Ｓ＜Ｔｓ）で、入力音量Ｖが閾値Ｔｖｂ以上閾値Ｔｖｃ未満（Ｔｖｂ≦Ｖ＜Ｔｖｃ）である場合に入力音量から応答音量を決定するための関数である。関数ＦＡｄは、環境音量Ｓが閾値Ｔｓ未満（Ｓ＜Ｔｓ）で、入力音量Ｖが閾値Ｔｖｃ以上閾値Ｔｖｄ未満（Ｔｖｃ≦Ｖ＜Ｔｖｄ）である場合に入力音量から応答音量を決定するための関数である。関数ＦＡｅは、環境音量Ｓが閾値Ｔｓ未満（Ｓ＜Ｔｓ）で、入力音量Ｖが閾値Ｔｖｄ以上（Ｔｖｄ≦Ｖ）である場合に入力音量から応答音量を決定するための関数である。

図４に示す例において、関数ＦＢは、環境音量Ｓが閾値Ｔｓ以上（Ｔｓ≦Ｓ）である場合に入力音量から応答音量を決定するための関数である。関数ＦＢは、入力音量Ｖに対する３つの閾値Ｔｖｉ、Ｔｖｊ、Ｔｖｋで特性が変化する。関数ＦＢは、入力音量Ｖに対する３つの閾値Ｔｖｉ、Ｔｖｊ、Ｔｖｋで区切られる４つの区間における関数ＦＢａ、ＦＢｂ、ＦＢｃ、ＦＢｄからなる。

関数ＦＢａは、環境音量Ｓが閾値Ｔｓ以上（Ｔｓ≦Ｓ）で、入力音量Ｖが閾値Ｔｖｉ未満（Ｖ＜Ｔｖｉ）である場合に入力音量から応答音量を決定するための関数である。関数ＦＢｂは、環境音量Ｓが閾値Ｔｓ以上（Ｔｓ≦Ｓ）で、入力音量Ｖが閾値Ｔｖｉ以上閾値Ｔｖｊ未満（Ｔｖｉ≦Ｖ＜Ｔｖｊ）である場合に入力音量から応答音量を決定するための関数である。

関数ＦＢｃは、環境音量Ｓが閾値Ｔｓ以上（Ｔｓ≦Ｓ）で、入力音量Ｖが閾値Ｔｖｊ以上閾値Ｔｖｋ未満（Ｔｖｊ≦Ｖ＜Ｔｖｋ）である場合に入力音量から応答音量を決定するための関数である。関数ＦＢｄは、環境音量Ｓが閾値Ｔｓ以上（Ｔｓ≦Ｓ）で、入力音量Ｖが閾値Ｔｖｋ以上（Ｔｖｋ≦Ｖ）である場合に入力音量から応答音量を決定するための関数である。

図５は、実施形態に係る音声応答装置１が環境音量および入力音量の大きさに適合する関数を選択するための関数テーブル１３ａの構成例を示す図である。
図５に示す関数テーブル１３ａは、図３および図４に示す関数から環境音量および入力音量の大きさに応じて選択する関数を示す。図５に示す関数テーブル１３ａは、例えば、図２に示すように、音声応答装置１における補助記憶装置１３に記憶される。音声応答装置１は、関数テーブル１３ａを参照することにより、環境音量Ｓと入力音量Ｖとに応じた１つの関数を選択する。音声応答装置１は、環境音量Ｓと入力音量Ｖとに応じて選択した関数を用いて入力音量から応答音量を決定する。

例えば、音声応答装置１は、Ｓ＜ＴｓかつＶ＜Ｔｖａである場合、関数ＦＡａを用いて入力音量から応答音量を決定する。音声応答装置１は、Ｓ＜ＴｓかつＴｖａ≦Ｖ＜Ｔｖｂである場合、関数ＦＡｂを用いて入力音量から応答音量を決定する。音声応答装置１は、Ｓ＜ＴｓかつＴｖｂ≦Ｖ＜Ｔｖｃである場合、関数ＦＡｃを用いて入力音量から応答音量を決定する。音声応答装置１は、Ｓ＜ＴｓかつＴｖｃ≦Ｖ＜Ｔｖｄである場合、関数ＦＡｄを用いて入力音量から応答音量を決定する。音声応答装置１は、Ｓ＜ＴｓかつＴｖｄ≦Ｖである場合、関数ＦＡｅを用いて入力音量から応答音量を決定する。

また、音声応答装置１は、Ｔｓ≦ＳかつＶ＜Ｔｖｉである場合、関数ＦＢａを用いて入力音量から応答音量を決定する。音声応答装置１は、Ｔｓ≦ＳかつＴｖｉ≦Ｖ＜Ｔｖｊである場合、関数ＦＢｂを用いて入力音量から応答音量を決定する。音声応答装置１は、Ｔｓ≦ＳかつＴｖｊ≦Ｖ＜Ｔｖｋである場合、関数ＦＢｃを用いて入力音量から応答音量を決定する。音声応答装置１は、Ｔｓ≦ＳかつＴｖｋ≦Ｖである場合、関数ＦＢｄを用いて入力音量から応答音量を決定する。

次に、実施形態に係る音声応答装置１の動作について説明する。
図６は、実施形態に係る音声応答装置１が話者（ユーザ）の声に対して応答音声を出力する処理の動作例を説明するためのフローチャートである。
音声応答装置１のプロセッサ１１は、マイク２が集音する音を入力音の音データとして入力する（ＡＣＴ１１）。マイク２は、集音する音のアナログ波形を示す信号を音声処理回路１４へ供給する。音声処理回路１４は、マイク２から入力するアナログ波形を示す信号をデジタル化する。音声処理回路１４は、デジタル化したデジタル信号を音データとしてプロセッサ１１へ供給する。プロセッサ１１は、マイク２が集音した音を音声処理回路１４によってデジタル化した入力音の音データを取得する。

入力音の音データを取得すると、プロセッサ１１は、音声検知処理によって入力音の音データにおいて話者が発した声（話者の声）が含まれるかを検知する（ＡＣＴ１２）。プロセッサ１１は、音声検知プログラムを実行することにより入力音に話者が発した声が含まれるかを検知する音声検知処理を行う。

入力音から話者の声が検知されない場合（ＡＣＴ１２、ＮＯ）、プロセッサ１１は、入力音の音データから環境音の音量（環境音量）を計算（計測）する（ＡＣＴ１３）。入力音に話者の声が検知されない場合、入力音は、話者の声を含まない環境音（話者の声以外の音）であるものとする。入力音が環境音である場合、プロセッサ１１は、入力音の音データから音量を計算する。入力音が環境音である場合、プロセッサ１１は、計算した入力音の音量を環境音量Ｓとして主記憶装置１２又は補助記憶装置１３に保存する（ＡＣＴ１４）。

本実施形態において、プロセッサ１１は、話者が声を発した時の環境音量を推定するために話者の声が含まれない期間の入力音（環境音）から計算した音量を環境音量Ｓとして保存する。このため、プロセッサ１１は、既に保存されている環境音量（過去の環境音量）を計算した環境音量Ｓで上書き保存するようにしても良い。また、プロセッサ１１は、現在から所定期間内の環境音量Ｓを保存するようにしても良い。さらに、プロセッサ１１は、現在から所定期間で計算された環境音量の平均値を環境音量Ｓとして保存するようにしても良い。

入力音において話者の声が検知された場合（ＡＣＴ１２、ＹＥＳ）、プロセッサ１１は、応答内容（応答文）を生成する処理（ＡＣＴ１５－１７）と応答音量を計算する処理（ＡＣＴ１８－１９）とを実行する。

プロセッサ１１は、応答内容を生成する処理として、音声認識処理、内容解析処理、および、応答文の生成などの処理を行う。すなわち、プロセッサ１１は、入力音に含まれる話者の声（入力音声）を認識する音声認識を行う（ＡＣＴ１５）。プロセッサ１１は、入力音から話者の声を抽出し、抽出した話者の声から話者が発した言葉（入力文）を認識する。例えば、プロセッサ１１は、予め設定した言語（単語）の発音を参照することにより、話者が発した言葉を認識する。

プロセッサ１１は、話者が発した声の音声認識結果としての入力文を得ると、音声認識結果として得られた入力文の意味を解析する意図解析処理を行う（ＡＣＴ１６）。プロセッサ１１は、意図解析処理として、入力文に含まれる単語の認識結果などに基づいて当該入力文の意味（入力文に含まれるユーザの意図）を解析する。

例えば、プロセッサ１１は、入力文が質問文であるか、要望又は希望を述べたものであるか、挨拶であるかなどを判定する。プロセッサ１１は、入力文が質問文であると判定した場合、当該入力文に含まれる質問内容を特定する。また、プロセッサ１１は、入力文が要望を述べたものであると判定した場合、当該入力文に含まれる要望の内容を特定する。また、プロセッサ１１は、入力文が挨拶であると判定した場合、当該入力文に含まれる挨拶の内容を特定する。

プロセッサ１１は、話者が発した声（入力文）の意味を解析すると、入力文に対する応答内容（応答文）を生成する（ＡＣＴ１７）。例えば、プロセッサ１１は、入力文に含まれる質問内容を特定した場合、質問内容に応じた応答文を生成する。また、プロセッサ１１は、入力文に含まれる話者の要望を特定した場合、話者の要望に沿った応答文を生成する。また、プロセッサ１１は、入力文に含まれる挨拶を特定した場合（入力文が話者からの挨拶であると理解した場合）、話者からの挨拶に対応する挨拶としての応答文を生成する。

一方、プロセッサ１１は、応答音量を計算する処理として、入力音量Ｖの計算処理および応答音量の計算処理を実行する。プロセッサ１１は、入力音において検知された話者の声（入力音声）の音量Ｖを計算する（ＡＣＴ１８）。例えば、プロセッサ１１は、入力音の音データから話者の声（入力音声）の成分を抽出し、抽出した入力音声の音量（入力音量）Ｖを計算する。

入力音量Ｖを計算すると、プロセッサ１１は、計算した入力音量Ｖと環境音量Ｓとに基づいて応答音量を計算する処理を行う（ＡＣＴ１９）。プロセッサ１１は、入力音量Ｖと環境音量Ｓとに応じて選択する関数に基づいて入力音量に対する応答音量を計算する。応答音量を計算する処理（応答音量の計算処理）については、後で詳細に説明する。

プロセッサ１１は、ＡＣＴ１７で生成した応答文とＡＣＴ１９で計算した応答音量とに基づいてスピーカ３から発する応答音声となる応答波形を生成する（ＡＣＴ２０）。例えば、プロセッサ１１は、ＡＣＴ１７で生成した応答文を応答音声として発するための応答波形を生成する。プロセッサ１１は、生成した応答音声を発するための応答波形の振幅をＡＣＴ１９で計算した応答音量に応じて調整する。応答波形を生成すると、プロセッサ１１は、生成した応答波形をスピーカ３から出力する（ＡＣＴ２１）。

次に、実施形態に係る音声応答装置１における応答音量の計算処理について詳細に説明する。
図７および図８は、実施形態に係る音声応答装置１における応答音量の計算処理を説明するためのフローチャートである。
応答音量の計算処理において、プロセッサ１１は、上述したＡＣＴ１８で計算する現在の入力音量Ｖを取得する（ＡＣＴ３１）。また、プロセッサ１１は、主記憶装置１２又は補助記憶装置１３に記憶している環境音量Ｓを取得する（ＡＣＴ３２）。

入力音量Ｖと環境音量Ｓとを取得すると、プロセッサ１１は、図５に示すような関数テーブルを参照することにより、入力音量Ｖと環境音量Ｓとに応じた関数を選択する。図７および図８に示す処理例では、プロセッサ１１は、図５に示す関数テーブル１３ａに従って関数を選択するものとする。
なお、環境音量を加味して入力音量から応答音量を決定するための関数は、図３および図４に示すものに限定されるものではなく、運用形態に応じて適宜設定できる。また、環境音量に対する閾値および入力音量に対する閾値も、図３、図４および図５に示すものに限定されるものではなく、関数に応じて適宜設定されるようにして良い。

図７および図８に示す処理例において、プロセッサ１１は、図５に示すようなテーブルを参照し、環境音量Ｓが閾値Ｔｓ未満であるか否かを判断する（ＡＣＴ３３）。
環境音量Ｓが閾値Ｔｓ未満（Ｓ＜Ｔｓ）である場合（ＡＣＴ３３、ＹＥＳ）、プロセッサ１１は、環境音量Ｓが小さい場合の関数ＦＡを適用する。図３に示す例によれば、関数ＦＡは、閾値Ｔｖａ、Ｔｖｂ、Ｔｖｃ、Ｔｖｄで区切られる５つの関数ＦＡａ、ＦＡｂ、ＦＡｃ、ＦＡｄ、ＦＡｅで構成される。プロセッサ１１は、図５に示すテーブルに基づいて、入力音量Ｖと閾値Ｔｖａ、Ｔｖｂ、Ｔｖｃ、Ｔｖｄとを比較し、関数ＦＡａ、ＦＡｂ、ＦＡｃ、ＦＡｄ、ＦＡｅから１つの関数を選択する。

すなわち、Ｓ＜Ｔｓである場合（ＡＣＴ３３、ＹＥＳ）、プロセッサ１１は、入力音量Ｖが閾値Ｔｖａ未満であるか否かを判断する（ＡＣＴ４１）。入力音量Ｖが閾値Ｔｖａ未満であると判断した場合（ＡＣＴ４１、ＹＥＳ）、プロセッサ１１は、環境音量Ｓ＜閾値Ｔｓかつ入力音量Ｖ＜閾値Ｔｖａであると特定する。Ｓ＜ＴｓかつＶ＜Ｔｖａである場合、プロセッサ１１は、関数ＦＡａを選択する（ＡＣＴ４２）。

入力音量Ｖが閾値Ｔｖａ未満でないと判断した場合（ＡＣＴ４１、ＮＯ）、プロセッサ１１は、入力音量Ｖが閾値Ｔｖｂ未満であるか否かを判断する（ＡＣＴ４３）。入力音量Ｖが閾値Ｔｖｂ未満であると判断した場合（ＡＣＴ４３、ＹＥＳ）、プロセッサ１１は、環境音量Ｓ＜閾値Ｔｓかつ閾値Ｔｖａ≦入力音量Ｖ＜閾値Ｔｖｂであると特定する。Ｓ＜ＴｓかつＴｖａ≦Ｖ＜Ｔｖｂである場合、プロセッサ１１は、関数ＦＡｂを選択する（ＡＣＴ４４）。

入力音量Ｖが閾値Ｔｖｂ未満でないと判断した場合（ＡＣＴ４３、ＮＯ）、プロセッサ１１は、入力音量Ｖが閾値Ｔｖｃ未満であるか否かを判断する（ＡＣＴ４５）。入力音量Ｖが閾値Ｔｖｃ未満であると判断した場合（ＡＣＴ４５、ＹＥＳ）、プロセッサ１１は、環境音量Ｓ＜閾値Ｔｓかつ閾値Ｔｖｂ≦入力音量Ｖ＜閾値Ｔｖｃであると特定する。Ｓ＜ＴｓかつＴｖｂ≦Ｖ＜Ｔｖｃである場合、プロセッサ１１は、関数ＦＡｃを選択する（ＡＣＴ４４）。

入力音量Ｖが閾値Ｔｖｃ未満でないと判断した場合（ＡＣＴ４５、ＮＯ）、プロセッサ１１は、入力音量Ｖが閾値Ｔｖｄ未満であるか否かを判断する（ＡＣＴ４７）。入力音量Ｖが閾値Ｔｖｄ未満であると判断した場合（ＡＣＴ４７、ＹＥＳ）、プロセッサ１１は、環境音量Ｓ＜閾値Ｔｓかつ閾値Ｔｖｃ≦入力音量Ｖ＜閾値Ｔｖｄであると特定する。Ｓ＜ＴｓかつＴｖｃ≦Ｖ＜Ｔｖｄである場合、プロセッサ１１は、関数ＦＡｄを選択する（ＡＣＴ４８）。

入力音量Ｖが閾値Ｔｖｄ未満でないと判断した場合（ＡＣＴ４７、ＮＯ）、プロセッサ１１は、入力音量Ｖが閾値Ｔｖｄ以上であるため、環境音量Ｓ＜閾値Ｔｓかつ閾値Ｔｖｄ≦入力音量Ｖであると特定する。Ｓ＜ＴｓかつＴｖｄ≦Ｖである場合、プロセッサ１１は、関数ＦＡｄを選択する（ＡＣＴ４９）。

一方、環境音量Ｓが閾値Ｔｓ未満でない場合、つまり、環境音量Ｓが閾値Ｔｓ以上である場合（ＡＣＴ３３、ＮＯ）、プロセッサ１１は、環境音量Ｓが大きい場合の関数ＦＢを適用する。図４に示す例によれば、関数ＦＢは、入力音量Ｖに対する閾値Ｔｖｉ、Ｔｖｊ、Ｔｖｋで区切られる４つの関数ＦＢａ、ＦＢｂ、ＦＢｃ、ＦＢｄで構成される。プロセッサ１１は、図５に示す関数テーブル１３ａに基づいて、入力音量Ｖと閾値Ｔｖｉ、Ｔｖｊ、Ｔｖｋとを比較し、関数ＦＢａ、ＦＢｂ、ＦＢｃ、ＦＢｄから１つの関数を選択する。

すなわち、Ｓ＜Ｔｓでない場合（ＡＣＴ３３、ＮＯ）、プロセッサ１１は、入力音量Ｖが閾値Ｔｖｉ未満であるか否かを判断する（ＡＣＴ５１）。入力音量Ｖが閾値Ｔｖｉ未満であると判断した場合（ＡＣＴ５１、ＹＥＳ）、プロセッサ１１は、環境音量Ｓ≧閾値Ｔｓかつ入力音量Ｖ＜閾値Ｔｖｉであると特定する。Ｓ≧ＴｓかつＶ＜Ｔｖｉである場合、プロセッサ１１は、関数ＦＢａを選択する（ＡＣＴ５２）。

入力音量Ｖが閾値Ｔｖｉ未満でないと判断した場合（ＡＣＴ５１、ＮＯ）、プロセッサ１１は、入力音量Ｖが閾値Ｔｖｊ未満であるか否かを判断する（ＡＣＴ５３）。入力音量Ｖが閾値Ｔｖｊ未満であると判断した場合（ＡＣＴ５３、ＹＥＳ）、プロセッサ１１は、環境音量Ｓ≧閾値Ｔｓかつ閾値Ｔｖｉ≦入力音量Ｖ＜閾値Ｔｖｊであると特定する。Ｓ≧ＴｓかつＴｖｉ≦Ｖ＜Ｔｖｊである場合、プロセッサ１１は、関数ＦＢｂを選択する（ＡＣＴ５４）。

入力音量Ｖが閾値Ｔｖｊ未満でないと判断した場合（ＡＣＴ５３、ＮＯ）、プロセッサ１１は、入力音量Ｖが閾値Ｔｖｋ未満であるか否かを判断する（ＡＣＴ５５）。入力音量Ｖが閾値Ｔｖｋ未満であると判断した場合（ＡＣＴ５５、ＹＥＳ）、プロセッサ１１は、環境音量Ｓ≧閾値Ｔｓかつ閾値Ｔｖｊ≦入力音量Ｖ＜閾値Ｔｖｋであると特定する。Ｓ＜ＴｓかつＴｖｊ≦Ｖ＜Ｔｖｋである場合、プロセッサ１１は、関数ＦＢｃを選択する（ＡＣＴ５６）。

入力音量Ｖが閾値Ｔｖｋ未満でないと判断した場合（ＡＣＴ５５、ＮＯ）、プロセッサ１１は、入力音量Ｖが閾値Ｔｖｋ以上であるため、環境音量Ｓ≧閾値Ｔｓかつ閾値Ｔｖｋ≦入力音量Ｖであると特定する。Ｓ≧ＴｓかつＴｖｋ≦Ｖである場合、プロセッサ１１は、関数ＦＢｄを選択する（ＡＣＴ５７）。

環境音量Ｓおよび入力音量Ｖに応じた関数を選択すると、プロセッサ１１は、選択した関数に基づいて応答音声を決定する（ＡＣＴ６０）。すなわち、プロセッサ１１は、選択した関数において入力音量Ｖに対応する応答音量を計算する。これにより、プロセッサ１１は、環境音量を加味して入力音量に応じた応答音量を計算することができる。

以上のように、実施形態に係る音声応答装置は、マイクに入力された音においてユーザが発した声が検知する。音声応答装置は、ユーザが発した声に対する応答音声として出力する応答内容（応答文）を生成する。さらに、音声応答装置は、ユーザが発した声の音量としての入力音量とユーザが発した声以外の環境音の音量とに応じて応答音量を計算する。音声応答装置は、計算した応答音量で応答音声をスピーカから出力する。

すなわち、実施形態に係る音声応答装置は、環境音の大きさを加味して、入力音量に応じた応答音量の応答音声を出力することができる。これにより、音声応答装置が出力する応答音声の音量に対応して、話者（ユーザ）が発する声の大きさをコントロールすることが期待できる。音声応答装置は、ユーザが発する声の大きさを音声認識に適した音量に導くことができ、精度の高い音声認識を実現できる。

また、実施形態に係る音声応答装置は、環境音量の大きさに応じて選択される複数の関数を保持する。音声応答装置は、環境音量が閾値未満である場合には第１の関数に基づいて入力音量から応答音声の音量を決定し、環境音量が閾値未満である場合には第１の関数とは異なる第２の関数に基づいて入力音量から応答音声の音量を決定する、これにより、実施形態に係る音声応答装置は、環境音の大きさに応じた応答音量を設定できる。この結果、音声応答装置は、環境音量が予め予測できないような環境であっても、ユーザが発する声の大きさを音声認識に適した音量に導くことができる。

また、実施形態に係る音声応答装置は、環境音量の大きさと入力音量の大きさとに応じて選択される複数の関数を記憶装置に記憶する。音声応答装置は、複数の関数から環境音量と入力音量とに応じて選択する１つの関数に基づいて入力音量から応答音声の音量を決定する。これにより、音声応答装置は、環境音量と入力音量とに応じて関数を選択でき、ユーザが発する声の大きさを音声認識に適した音量に導きやすくできる。

なお、上述した実施形態では、装置内のメモリにプロセッサが実行するプログラムが予め記憶されている場合で説明をした。しかし、プロセッサが実行するプログラムは、ネットワークから装置にダウンロードしても良いし、記憶媒体から装置にインストールしてもよい。記憶媒体としては、ＣＤ－ＲＯＭ等のプログラムを記憶でき、かつ装置が読み取り可能な記憶媒体であれば良い。また、予めインストールやダウンロードにより得る機能は、装置内部のＯＳ（オペレーティング・システム）等と協働して実現させるものであってもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１…音声応答装置（音声対話装置）、２…マイク、３…スピーカ、１１…プロセッサ、１２…主記憶装置、１３…補助記憶装置、１４…音声処理回路。

Claims

音を入力するマイクと、
前記マイクにより入力した音から検知するユーザが発した声に応じた音声による応答内容を生成し、前記ユーザが発した声の音量としての入力音量と前記ユーザが発した声以外の環境音の音量とに応じて前記応答内容を応答音声として出力するための音量を決定するプロセッサと、
前記プロセッサが決定する音量で前記応答音声を出力するスピーカと、
を有する音声応答装置。
前記プロセッサは、前記環境音の音量が閾値未満である場合には第１の関数に基づいて前記入力音量から前記応答音声の音量を決定し、前記環境音の音量が閾値未満である場合には前記第１の関数とは異なる第２の関数に基づいて前記入力音量から前記応答音声の音量を決定する、
請求項１に記載の音声応答装置。
さらに、環境音の音量の大きさと入力音量の大きさとに応じた複数の関数を記憶する補助記憶装置を有し、
前記プロセッサは、前記補助記憶装置に記憶されている複数の関数から前記環境音の音量と前記入力音量とに応じて選択する１つの関数に基づいて前記入力音量から前記応答音声の音量を決定する、
請求項１に記載の音声応答装置。
前記マイクにより入力した音からユーザが発した声が検知されない場合に前記マイクから入力した音の音量を前記環境音の音量を保存するメモリを有し、
前記プロセッサは、前記マイクにより入力した音からユーザが発した声を検知した場合に、前記ユーザが発した声の音量としての入力音量を計算し、前記入力音量と前記メモリに記憶した前記環境音の音量とに応じて前記応答音声の音量を決定する、
請求項１乃至３の何れか１項に記載の音声応答装置。
音声応答装置に用いる音声応答方法であって、
マイクに入力された音を取得し、
前記マイクに入力された音からユーザが発した声を検知し、
前記マイクに入力された音から検知した前記ユーザが発した声に応じた応答内容を生成し、
前記ユーザが発した声の音量と前記ユーザが発した声以外の環境音の音量とに応じて前記応答内容を音声で出力するための音量を決定し、
前記決定した音量で前記応答内容の応答音声をスピーカから出力させる、
音声応答方法。
コンピュータに、
マイクに入力された音を取得し、
前記マイクに入力された音からユーザが発した声を検知し、
前記マイクに入力された音から検知した前記ユーザが発した声に応じた応答内容を生成し、
前記ユーザが発した声の音量と前記ユーザが発した声以外の環境音の音量とに応じて前記応答内容を音声で出力するための音量を決定し、
前記決定した音量で前記応答内容の応答音声をスピーカから出力させる、
ことを実行するための音声応答プログラム。