JP6020461B2

JP6020461B2 - 音声入出力装置、ハウリング防止方法およびハウリング防止用プログラム

Info

Publication number: JP6020461B2
Application number: JP2013542824A
Authority: JP
Inventors: 剛範辻川; 聡塚田; 英司高田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2011-11-09
Filing date: 2012-10-31
Publication date: 2016-11-02
Anticipated expiration: 2032-10-31
Also published as: US20140324418A1; US9355648B2; WO2013069229A1; JPWO2013069229A1

Description

本発明は、入力した音声と、その音声を音声認識した結果とを出力する際のハウリングを防止する音声入出力装置、ハウリング防止方法およびハウリング防止用プログラムに関する。

ヘッドセットマイクロフォンのように、マイクロフォンなどの音声入力装置とヘッドフォンなどの音声出力装置とを備える音声入出力装置が知られている。他にも、音声入力装置から入力される音声を認識してテキスト化し、認識結果のテキストを音声に変換して音声出力装置から出力する音声によるデータ入力装置が知られている。利用者は、認識結果のテキストを変換した音声（以下、合成音声と記す。）を確認することで、自身の発声した音声が適切に認識されているか否かを判断することができる。

すなわち、上述するデータ入力装置を用いて入力音声を確認（以下、モニタと記すこともある。）する場合、データ入力装置は、合成音声だけでなく、入力音声も音声出力装置に出力する。

図１０は、データ入力装置の一例を示す説明図である。図１０に示す例では、利用者が発声した音声がマイクロフォン７１に入力されると、その音声がスピーカ７２から出力される。このとき、利用者が発声した音声は、同時に音声認識／合成装置７３に入力され、音声認識および音声合成処理を行って作成された合成音声が、同様にスピーカ７２から出力される。

音声入力装置からの入力音声を音声出力装置でモニタする一つの理由は、音声入力装置から音声が入力できていることを確認するためである。その他の理由として、周囲の音が大きい環境で音声を発する際、いわゆるＬｏｍｂａｒｄ効果による音声認識率の低下を防ぐことが挙げられる。また、音声出力装置にヘッドフォンを用いる場合、耳が塞がり、周囲の音が聞こえなくなる場合がある。そのような場合でも、音声入力装置からの入力音声を音声出力装置（ヘッドフォン）に出力することで、周囲の音を聞くことが可能になる。

なお、一般に、音声入力装置に入力される音声が出力されるタイミングと、合成音声が出力されるタイミングには、ずれが生じる。これは、合成音声を作成する際の音声認識に一定の処理時間がかかるからである。そのため、利用者は、音声を発してから一定時間の経過後、合成音声を聞くことになる。

音声入力装置と音声出力装置がセットになった音声入出力装置では、ハウリングを防止するために、音声の入力レベルと出力レベルとのバランスを調整する必要がある。そのため、これらのレベルを調整する方法が各種知られている。

特許文献１には、歌唱音声を入力するために用いられるマイクロフォンの調整を行う機能を備えたカラオケ装置が記載されている。特許文献１に記載されたカラオケ装置では、マイク音量やエフェクトを調整する際に、歌唱者の音声をＰＣＭ（Pulse Code Modulation ）により変換し、変換したデータを音声として録音しておく。そして、このように録音された音声を繰り返し再生しながら歌唱者がマイク音量を調整し、その音声を再度録音することで、利用者が何度も発声する必要がなくなる。

特許文献２には、複数のスピーカから出力される各音声を自動的に調節してハウリングを起きにくくするカラオケ装置が記載されている。特許文献２に記載されたカラオケ装置は、予め定められたスピーカ位置と指定されたマイク位置との関係に応じて、マイク入力音声信号レベルを下げたり、各スピーカから出力する際のミキシングレベルを下げたりすることでハウリングの発生を防止する。

特許４３６０２１２号公報特許２９５８９３０号公報

上述するデータ入力装置では、入力音声をモニタするために、音声出力装置から入力音声を出力させることがある。しかし、カラオケ装置の場合と同様、音声出力装置から音声入力装置に音が漏れ込んだ場合、ハウリングが発生することがある。具体的には、音声出力装置から音声入力装置に音が漏れ込み、その漏れ込んだ音がさらに増幅されて音声出力装置から出力されると、ハウリングが発生することがある。

ハウリングを防ぐ最も簡単な方法は、音声入力装置および音声出力装置の音量を下げればよい。しかし、音声入力装置の音量を下げてしまうと、音声認識の精度が低下するおそれがある。一方、音声出力装置の音量を下げてしまうと、合成音声が聞き取りづらくなってしまうおそれがある。

特許文献１に記載されたカラオケ装置の場合、ハウリングが発生したことを利用者が検知し、利用者がその都度音量を調整する必要がある。すなわち、特許文献１に記載されたカラオケ装置を利用する場合、ハウリングが発生しないように利用者がその都度音量を調整しなければならないため、ハウリングを容易に防止できないという問題がある。

また、特許文献２に記載されたカラオケ装置のように、音量レベルを下げることでハウリングを防止することは可能である。しかし、上述するように、入力レベルを下げてしまうと、音声認識の精度を低下させてしまう恐れがあり、また、出力レベルを下げてしまうと、出力される合成音声が聞き取りづらくなってしまうという問題がある。

そこで、本発明は、入力音声を音声認識した結果を入力音声と共にモニタする場合に、入力音声の音声認識精度の低下を抑制し、かつ入力音声を音声認識した結果出力される合成音声が聞き取りづらくなることを抑制しつつ、ハウリングを容易に防止できる音声入出力装置、ハウリング防止方法およびハウリング防止用プログラムを提供することを目的とする。

本発明による音声入出力装置は、入力装置に入力される入力音声の音量を調整する入力音量調整手段と、入力音量調整手段により調整された音量の入力音声を、音声認識に用いられる音声である音声認識用音声と、入力音声のモニタに用いられる音声であるモニタ用音声とに分割する音声分割手段と、モニタ用音声の音量を調整するモニタ音量調整手段と、音声認識用音声を音声認識した結果作成された情報から合成される音声である合成音声と、モニタ音量調整手段によって音量調整されたモニタ音声とを合成した音声である出力音声の音量を調整して出力装置に出力させる出力音量調整手段と、入力音声の音量に対する出力音声の音量の増幅率が１を超えないようにモニタ音声の音量を調整する指示をモニタ音量調整手段に行う制御手段とを備えたことを特徴とする。

本発明によるハウリング防止方法は、入力装置に入力される入力音声の音量を調整し、調整された音量の入力音声を、音声認識に用いられる音声である音声認識用音声と、入力音声のモニタに用いられる音声であるモニタ用音声とに分割し、モニタ用音声の音量を調整し、音声認識用音声を音声認識した結果作成された情報から合成される音声である合成音声と、音量調整されたモニタ音声とを合成した音声である出力音声の音量を調整して出力装置に出力させ、入力音声の音量に対する出力音声の音量の増幅率が１を超えないようにモニタ音声の音量を調整することを特徴とする。

本発明によるハウリング防止用プログラムは、コンピュータに、入力装置に入力される入力音声の音量を調整する入力音量調整処理、入力音量調整処理で調整された音量の入力音声を、音声認識に用いられる音声である音声認識用音声と、入力音声のモニタに用いられる音声であるモニタ用音声とに分割する音声分割処理、モニタ用音声の音量を調整するモニタ音量調整処理、音声認識用音声を音声認識した結果作成された情報から合成される音声である合成音声と、モニタ音量調整処理で音量調整されたモニタ音声とを合成した音声である出力音声の音量を調整して出力装置に出力させる出力音量調整処理、および、入力音声の音量に対する出力音声の音量の増幅率が１を超えないようにモニタ音声の音量の調整を行う制御処理を実行させることを特徴とする。

本発明によれば、入力音声を音声認識した結果を入力音声と共にモニタする場合に、入力音声の音声認識精度の低下を抑制し、かつ入力音声を音声認識した結果出力される合成音声が聞き取りづらくなることを抑制しつつ、ハウリングを容易に防止できる。

本発明による音声入出力装置の第１の実施形態の構成例を示すブロック図である。音量の増幅率の関係を示す説明図である。第１の実施形態の音声入出力装置の動作例を示すフローチャートである。本発明による音声入出力装置の第２の実施形態の構成例を示すブロック図である。本発明による音声入出力装置の第３の実施形態の構成例を示すブロック図である。本発明による音声入出力装置の第４の実施形態の構成例を示すブロック図である。音声入出力装置の実施例を示す説明図である。実施例の音声入出力装置を含む音声認識システムの例を示す説明図である。本発明による音声入出力装置の最小構成の例を示すブロック図である。データ入力装置の一例を示す説明図である。

以下、本発明の実施形態を図面を参照して説明する。

実施形態１．
図１は、本発明による音声入出力装置の第１の実施形態の構成例を示すブロック図である。本実施形態の音声入出力装置１０は、入力音量調整部１１と、モニタ用音量調整部１２と、出力音量調整部１３と、制御部１４と、入力音声分割部１５と、入力部１６と、出力部１７とを備えている。

また、音声入出力装置１０は、音声認識部１８および音声合成部１９と通信を行う。音声入出力装置１０と、音声認識部１８および音声合成部１９との通信は、無線通信であってもよく、有線通信であってもよい。また、音声入出力装置１０が、音声認識部１８と音声合成部１９とを備えていてもよい。本実施形態では、音声認識部１８および音声合成部１９は、音声入出力装置１０とは別の装置に設けられているものとする。

入力部１６は、利用者の音声や、周囲の音を入力する入力装置である。入力部１６は、例えば、マイクロフォンにより実現される。入力部１６は、入力された音声を、入力音量調整部１１に入力する。入力部１６は、入力された音声を表すアナログ信号をそのまま入力音量調整部１１に入力してもよい。また、入力部１６は、アナログ信号で表わされる音声をＡ／Ｄ（Analog／Digital ）変換し、変換後のデジタル信号を入力音量調整部１１に入力してもよい。

入力音量調整部１１は、入力部１６に入力された音声の音量を調整する。入力音量調整部１１は、音量の指定に用いられる操作パネルなどの音量指定部（図示せず）を含み、音量指定部に対する利用者の操作に応じて入力音量を調整する。

例えば、入力音声がデジタル信号に変換されている場合、入力音量調整部１１は、デジタル信号が示す値を増減させることで音量を調整してもよい。また、入力部１６から入力された音声がアナログ信号であった場合、入力音量調整部１１は、入力された音声をＡ／Ｄ変換する際に音量の調整を行ってもよい。なお、音量を調整する方法は広く知られているため、詳細な説明は省略する。入力音量調整部１１は、調整した音量の入力音声を入力音声分割部１５に入力する。

入力音声分割部１５は、入力音量調整部１１が調整した音量の入力音声を、音声認識部１８が音声認識処理に用いる音声（以下、音声認識用音声と記す）と、入力音声のモニタに用いられる音声（以下、モニタ音声）とに分割する。具体的には、入力音声分割部１５は、入力音量調整部１１から入力された入力音声を示すデジタルデータを複製し、複製したデジタルデータを音声認識部１８およびモニタ用音量調整部１２にそれぞれ入力する。

なお、入力音声分割部１５は、利用者からモニタ機能の有無を示す指示を受け付けるようにしてもよい。例えば、利用者から「モニタ機能有り」を示す指示を受け付けた場合に、入力音声分割部１５は、入力音声をモニタ用音量調整部１２に入力するようにしてもよい。一方、利用者から「モニタ機能なし」を示す指示を受け付けた場合に、入力音声分割部１５は、入力音声をモニタ用音量調整部１２に入力しないようにしてもよい。

また、本実施形態では、入力音量調整部１１が音量調整後の入力音声を入力音声分割部１５に入力し、入力音声分割部１５が音声認識部１８およびモニタ用音量調整部１２にそれぞれ入力音声を入力する場合について説明する。なお、入力音量調整部１１が入力音声分割部１５の機能を備えていてもよい。すなわち、入力音量調整部１１が、音声認識部１８およびモニタ用音量調整部１２にそれぞれ入力音声を入力してもよい。

モニタ用音量調整部１２は、入力音量調整部１１と同様、入力音声分割部１５から入力されたモニタ音声の音量を調整する。すなわち、モニタ用音量調整部１２は、利用者による指示に応じてモニタ音声の音量を調整してもよい。また、モニタ用音量調整部１２は、後述する制御部１４の指示に応じて、モニタ音声の音量を調整する。なお、利用者による音量調整の指示と、制御部１４による音量調整の指示の両方あった場合、モニタ用音量調整部１２は、制御部１４による指示を優先する。モニタ用音量調整部１２は、調整した音量のモニタ音声を出力音量調整部１３に入力する。

音声認識部１８は、入力音声分割部１５から入力された音声に基づいて音声認識処理を行う。そして、音声認識部１８は、音声認識結果を音声合成部１９に入力する。音声認識部１８は、一般的な方法を用いて音声認識処理を行う。例えば、音声認識部１８は、音声認識結果をテキスト化し、作成したテキストを音声合成部１９に入力してもよい。ここでは、音声認識処理の詳細な説明は省略する。

音声合成部１９は、音声認識部１８から入力される音声認識結果から合成音声を生成する。そして、音声合成部１９は、生成した合成音声を出力音量調整部１３に入力する。音声合成部１９は、一般的な方法を用いて音声合成処理を行う。ここでは、音声合成処理の詳細な説明は省略する。

出力音量調整部１３は、入力音量調整部１１と同様、音声合成部１９から入力された合成音声と、モニタ用音量調整部１２から入力されたモニタ音声を合わせた音声（以下、出力音声と記す。）の音量を調整する。すなわち、出力音量調整部１３は、音量の指定に用いられる操作パネルなどの音量指定部（図示せず）を含み、音量指定部に対する利用者の操作に応じて出力音量を調整する。

出力音量調整部１３は、音量調整後の出力音声を出力部１７に入力する。出力音量調整部１３は、出力音声をＤ／Ａ変換し、変換後のアナログ信号を出力部１７に入力してもよい。また、出力音量調整部１３は、音量調整後の出力音声を示すデジタル信号をそのまま出力部１７に入力してもよい。ただし、その場合は出力部１７にＤ／Ａ変換器が含まれる。

出力部１７は、出力音量調整部１３から入力された出力音声を出力する。出力部１７は、例えば、スピーカにより実現される。

制御部１４は、モニタ用音量調整部１２にモニタ音声の音量調整を指示する。具体的には、制御部１４は、入力部１６に入力される入力音声の音量に対し、出力部１７が出力する出力音声の音量の増幅率が１を超えないようにモニタ音声の音量を調整する指示をモニタ用音量調整部１２に行う。

ハウリングは、出力された音声が増幅されることにより発生する。すなわち、入力音声の音量に対する出力音声の音量の増幅率が１を超えなければハウリングを防止できる。そこで、音量の増幅率が１を超えないように制御することで、ハウリングを防止できる。

具体的には、制御部１４は、入力音量調整部１１、モニタ用音量調整部１２および出力音量調整部１３から、各調整部において音量の増減させる割合（増幅率）を示す情報（以下、音量情報と記すこともある。）を受け取る。そして、制御部１４は、受け取った各調整部の増幅率に基づいて、入力音声の音量に対する出力音声の音量の増幅率が１を超えないように、モニタ用音量調整部１２の増幅率を調整する。

図２は、音量の増幅率の関係を示す説明図である。ここで、入力音量調整部１１で調整される増幅率をＣ_１、モニタ用音量調整部１２で調整される増幅率をＣ_２、出力音量調整部１３で調整される増幅率をＣ_３とする。また、入力音量調整部１１に入力される音声の音量をｉ_０、入力音量調整部１１から出力されてモニタ用音量調整部１２に入力される音声の音量をｉ_１、モニタ用音量調整部１２から出力されて出力音量調整部１３に入力される音声の音量をｉ_２、出力音量調整部１３から出力される音量をｉ_３とする。

また、出力部１７から出力された音声に対し、入力部１６に入力される音声の増幅率をＣ_４とする。増幅率Ｃ_４は、出力部１７（スピーカ）の特性や、出力部１７（スピーカ）から入力部１６（マイクロフォン）までの伝達特性、入力部１６（マイクロフォン）の特定などにより決定される。増幅率Ｃ_４には、実測した値を使用してもよいが、出力部１７から出力された音が入力部１６に漏れ込む間に増幅回路が存在しない場合、エネルギーは減衰するため、増幅率Ｃ_４の最大値は１と仮定できる。

この場合、ｉ_１＝Ｃ_１ｉ_０，ｉ_２＝Ｃ_２ｉ_１＝Ｃ_１Ｃ_２ｉ_０，ｉ_３＝Ｃ_３ｉ_２＝Ｃ_１Ｃ_２Ｃ_３ｉ_０，ｉ_４＝Ｃ_４ｉ_３＜ｉ_３が成り立つ。ここで、ｉ_０＞ｉ_４を満たす必要があることから、ｉ_０＞ｉ_３＝Ｃ_１Ｃ_２Ｃ_３ｉ_０、すなわち、Ｃ_１Ｃ_２Ｃ_３＜１を満たせばよい。したがって、制御部１４は、Ｃ_２＜（１／Ｃ_１Ｃ_３）の条件を満たすように、モニタ用音量調整部１２の増幅率を調整すればよい。

具体的には、Ｃ_２＜（１／Ｃ_１Ｃ_３）を満たす間は、モニタ用音量調整部１２は、利用者による音量調整の指示に従って増幅率を調整すればよい。一方、Ｃ_２＜（１／Ｃ_１Ｃ_３）を満たさない増幅率Ｃ_２が指示された場合、制御部１４は、Ｃ_２＜（１／Ｃ_１Ｃ_３）を増幅率にするよう、モニタ用音量調整部１２に指示する。

入力音量調整部１１と、モニタ用音量調整部１２と、出力音量調整部１３と、制御部１４とは、プログラム（音声入出力用プログラム）に従って動作するコンピュータのＣＰＵによって実現される。例えば、プログラムは、音声入出力装置１０の記憶部（図示せず）に記憶され、ＣＰＵは、そのプログラムを読み込み、プログラムに従って、入力音量調整部１１、モニタ用音量調整部１２、出力音量調整部１３および制御部１４として動作してもよい。

また、入力音量調整部１１と、モニタ用音量調整部１２と、出力音量調整部１３と、制御部１４とは、それぞれが専用のハードウェアで実現されていてもよい。具体的には、入力音量調整部１１と、モニタ用音量調整部１２と、出力音量調整部１３とは、それぞれ、音量の指定に用いられる操作パネルなどの音量指定部（図示せず）を含んでいてもよい。

次に、本実施形態の音声入出力装置の動作を説明する。図３は、本実施形態の音声入出力装置の動作例を示すフローチャートである。

利用者が入力部１６に音声を入力すると（ステップＳ１）、入力部１６は、入力音声を入力音量調整部１１に入力する（ステップＳ２）。入力音量調整部１１は、入力音声を利用者によって指定された音量に調整する（ステップＳ３）。入力音声分割部１５は、入力音量調整部１１が調整した音量の入力音声を、音声認識用音声とモニタ音声とに分割する（ステップＳ４）。そして、入力音声分割部１５は、音声認識用音声を音声認識部１８に送信し、モニタ音声をモニタ用音量調整部１２に入力する。このとき、入力音声分割部１５は、音声認識用音声を音声認識部１８に無線送信してもよい。

音声認識部１８は、受信した入力音声の音声認識を行う（ステップＳ２１）。そして、音声合成部１９は、音声認識部１８による音声認識結果から合成音声を生成し（ステップＳ２２）、生成した合成音声を出力音量調整部１３に入力する（ステップＳ２３）。

一方、モニタ用音量調整部１２は、利用者によって、モニタ音声の音量が指定されている場合、指定された音量にモニタ音声を調整する（ステップＳ５）。

さらに、制御部１４は、入力部１６に入力される入力音声の音量に対し、出力部１７が出力する出力音声の音量の増幅率が１を超えているか否かを判断する（ステップＳ６）。増幅率が１を超えている場合（ステップＳ６におけるＹＥＳ）、制御部１４は、増幅率が１を超えないようにモニタ音声の音量を調整する指示をモニタ用音量調整部１２に行う（ステップＳ７）。この場合、モニタ用音量調整部１２は、制御部１４による指示に応じて、モニタ音声の音量を調整し（ステップＳ８）、音量調整後のモニタ音声を出力音量調整部１３に入力する（ステップＳ９）。

一方、増幅率が１を超えていない場合（ステップＳ５におけるＮＯ）、制御部１４は、モニタ用音量調整部１２に対する指示を行わない。すなわち、モニタ用音量調整部１２は、利用者により指定された音量のモニタ音声を出力音量調整部１３に入力する（ステップＳ９）。

出力音量調整部１３は、合成音声とモニタ音声とを合わせた出力音声の音量を、利用者によって指定された音量に調整する（ステップＳ１０）。出力音量調整部１３は、音量調整後の出力音声を出力部１７に入力する。出力部１７は、音量調整後の出力音声を出力する（ステップＳ１１）。

以上のように、本実施形態によれば、入力音量調整部１１が、入力部１６に入力される入力音声の音量を調整し、入力音声分割部１５が、調整された音量の入力音声を、音声認識用音声とモニタ用音声とに分割する。また、モニタ用音量調整部１２が、モニタ用音声の音量を調整し、出力音量調整部１３が、合成音声と音量調整されたモニタ音声とを合成した出力音声の音量を調整して出力部１７に出力させる。そして、制御部１４が、入力音声の音量に対する出力音声の音量の増幅率が１を超えないようにモニタ音声の音量を調整する。

よって、入力音声を音声認識した結果を入力音声と共にモニタする場合に、入力音声の音声認識精度の低下を抑制し、かつ入力音声を音声認識した結果出力される合成音声が聞き取りづらくなることを抑制しつつ、ハウリングを容易に防止できる。

実施形態２．
図４は、本発明による音声入出力装置の第２の実施形態の構成例を示すブロック図である。なお、第１の実施形態と同様の構成については、図１と同一の符号を付し、説明を省略する。

本実施形態の音声入出力装置２０は、２つ以上の入力部１６（入力部１６ａ，ｂ）、各入力部１６に対応する入力音量調整部１１（入力音量調整部１１ａ，ｂ）および各入力音量調整部１１に対応するモニタ用音量調整部１２（モニタ用音量調整部１２ａ，ｂ）を備える点において第１の実施形態における音声入出力装置１０と異なる。それ以外については、第１の実施形態と同様である。

なお、図４には、入力部１６、入力音量調整部１１およびモニタ用音量調整部１２をそれぞれ２つ例示しているが、入力部１６、入力音量調整部１１およびモニタ用音量調整部１２の数は２つに限定されず、３つ以上であってもよい。

また、図４には、入力部１６ごとにモニタ用音量調整部１２を備える場合を例示しているが、入力音声ごとに分割されたモニタ用音声の音量を調整できれば、モニタ用音量調整部１２は、１つであってもよい。

本実施形態においても、入力音声の音量に対する出力音声の音量の増幅率が１を超えなければハウリングを防止できる。したがって、入力音声の音量は、入力部１６ごとに考慮すればよい。すなわち、制御部１４は、各入力音声の音量に対する出力音声の音量の増幅率が１を超えないようにモニタ音声の音量の調整指示をモニタ用音量調整部１２に対して行う。

ここで、入力音量調整部１１ａ，ｂで調整される増幅率をそれぞれＣ_１ａ，Ｃ_１ｂ、モニタ用音量調整部１２ａ，ｂで調整される増幅率をそれぞれＣ_２ａ，Ｃ_２ｂ、出力音量調整部１３で調整される増幅率をＣ_３とする。また、入力音量調整部１１ａ，ｂに入力される音声の音量をそれぞれｉ_０ａ，ｉ_０ｂ、入力音量調整部１１ａ，ｂから出力されてモニタ用音量調整部１２に入力される音声の音量をそれぞれｉ_１ａ，ｉ_１ｂ、モニタ用音量調整部１２ａ，ｂから出力されて出力音量調整部１３に入力される音声の音量をそれぞれｉ_２ａ，ｉ_２ｂ、出力音量調整部１３から出力される音量をｉ_３とする。

また、出力部１７から出力された音声が、入力部１６ａ，ｂにそれぞれ音量ｉ_３で入力されるものとする。すなわち、出力部１７から出力された音声に対し、入力部１６に入力される音声の増幅率を１と仮定する。この場合、ｉ_０ａ＞ｉ_３およびｉ_０ｂ＞ｉ_３を満たす必要がある。第１の実施形態と同様に整理すると、以下の式が得られる。

（１−Ｃ_１ａＣ_２ａＣ_３）（１−Ｃ_１ｂＣ_２ｂＣ_３）＞（Ｃ_１ａＣ_２ａＣ_３）（Ｃ_１ｂＣ_２ｂＣ_３）
すなわち、
（Ｃ_１ａＣ_２ａ＋Ｃ_１ｂＣ_２ｂ）Ｃ_３＜１

したがって、制御部１４は、上記式を満たすように、モニタ用音量調整部１２ａ，ｂの増幅率を調整すればよい。

また、本実施形態においても、入力音声分割部１５が、利用者からモニタ機能の有無を示す指示を受け付けるようにしてもよい。例えば、利用者から入力部１６に対応する入力音声分割部１５に対して「モニタ機能有り」を示す指示を受け付けた場合に、その入力音声分割部１５は、対応する入力部１６に入力される入力音声をモニタ用音量調整部１２に入力するようにしてもよい。一方、利用者から入力部１６に対応する入力音声分割部１５に対して「モニタ機能なし」を示す指示を受け付けた場合に、その入力音声分割部１５は、対応する入力部１６に入力される入力音声をモニタ用音量調整部１２に入力しないようにしてもよい。

また、本実施形態では、入力部１６ごとに入力音声分割部１５を備えている場合について説明しているが、入力音声分割部１５は１つであってもよい。この場合、入力音声分割部１５は、モニタする音声が入力される入力部１６を指定するスイッチを備え、そのスイッチで指定された入力部１６に入力される音声のみをモニタ用音量調整部１２に入力するようにしてもよい。

すなわち、本実施形態では、複数の入力部１６（マイクロフォン）が存在する場合、入力部１６を選択してモニタ音声を出力するようにしてもよい。なお、入力部１６が１つ選択された場合は、第１の実施形態と同様になる。

以上のように、本実施形態では、複数の入力音量調整部１１が、各入力部１６に入力される入力音声の音量を調整する。また、モニタ用音量調整部１２が、入力音声ごとに分割されたモニタ用音声の音量を調整する。そして、制御部１４が、各入力音声の音量に対する出力音声の音量の増幅率が１を超えないようにモニタ音声の音量調整の指示をモニタ用音量調整部１２に行う。よって、第１の実施形態の効果に加え、複数の入力装置から入力される複数の入力音声を利用して処理を行う場合にも、ハウリングを防止できる。

実施形態３．
図５は、本発明による音声入出力装置の第３の実施形態の構成例を示すブロック図である。なお、第１の実施形態と同様の構成については、図１と同一の符号を付し、説明を省略する。

本実施形態の音声入出力装置３０は、２つ以上の出力部１７（出力部１７ｃ，１７ｄ）、各出力部１７に対応する出力音量調整部１３（出力音量調整部１３ｃ，ｄ）および各出力音量調整部１３に対応するモニタ用音量調整部１２（モニタ用音量調整部１２ｃ，ｄ）を備える点において第１の実施形態における音声入出力装置１０と異なる。それ以外については、第１の実施形態と同様である。

なお、図５には、出力部１７、出力音量調整部１３およびモニタ用音量調整部１２をそれぞれ２つ例示しているが、出力部１７、出力音量調整部１３およびモニタ用音量調整部１２の数は２つに限定されず、３つ以上であってもよい。

また、図５には、出力部１７ごとにモニタ用音量調整部１２を備える場合を例示しているが、出力部１７ごとにモニタ用音声の音量を調整できれば、モニタ用音量調整部１２は、１つであってもよい。

本実施形態において、入力音声の音量に対し、各出力部１７から出力される出力音声の合計音量の増幅率が１を超えなければハウリングを防止できる。したがって、入力音声の音量は、出力部１７から出力される音声の音量の合計を考慮すればよい。すなわち、制御部１４は、入力音声の音量に対し、各出力部１７から出力される出力音声の音量の合計の増幅率が１を超えないようにモニタ音声の音量の調整指示をモニタ用音量調整部１２に対して行う。

ここで、入力音量調整部１１で調整される増幅率をＣ_１、モニタ用音量調整部１２ｃ，ｄで調整される増幅率をそれぞれＣ_２ｃ，Ｃ_２ｄ、出力音量調整部１３ｃ，ｄで調整される増幅率をそれぞれＣ_３ｃ，Ｃ_３ｄとする。また、入力音量調整部１１に入力される音声の音量をｉ_０、入力音量調整部１１から出力されてモニタ用音量調整部１２ｃ，ｄに入力される音声の音量をｉ_１、モニタ用音量調整部１２ｃ，ｄから出力されて出力音量調整部１３ｃ，ｄに入力される音声の音量をそれぞれｉ_２ｃ，ｉ_２ｄ、出力音量調整部１３ｃ，ｄから出力される音量をそれぞれｉ_３ｃ，ｉ_３ｄとする。

また、出力部１７ｃ，ｄから出力された音声が、入力部１６に音量ｉ_３ｃ＋ｉ_３ｄで入力されるものとする。すなわち、出力部１７ｃ，ｄから出力された音声に対し、入力部１６に入力される音声の増幅率を１と仮定する。この場合、ｉ_０＞ｉ_３ｃ＋ｉ_３ｄを満たす必要がある。第１の実施形態と同様に整理すると、以下の式が得られる。

Ｃ_１（Ｃ_２ｃＣ_３ｃ＋Ｃ_２ｄＣ_３ｄ）＜１

したがって、制御部１４は、上記式を満たすように、モニタ用音量調整部１２ｃ，ｄの増幅率を調整すればよい。

また、本実施形態では、各出力音量調整部１３が各出力部１７への音声の出力有無を示す指示を受け付けるようにしてもよい。例えば、利用者から出力部１７に対応する出力音量調整部１３に対して「音声出力有り」を示す指示を受け付けた場合に、その出力音量調整部１３は、対応する出力部１７に合成音声を出力するようにしてもよい。一方、利用者から出力部１７に対応する出力音量調整部１３に対して「音声出力無し」を示す指示を受け付けた場合に、その出力音量調整部１３は、対応する出力部１７に合成音声を出力しないようにしてもよい。

以上のように、本実施形態によれば、複数の出力音量調整部１３が、各出力部１７から出力される出力音声の音量を調整する。また、モニタ用音量調整部１２が、出力部１７ごとにモニタ用音声の音量を調整する。そして、制御部１４が、入力音声の音量に対し、各出力部１７から出力される出力音声の合計音量の増幅率が１を超えないようにモニタ音声の音量調整の指示をモニタ用音量調整部１２に行う。よって、第１の実施形態の効果に加え、複数の出力部から音声を出力する場合にも、ハウリングを防止できる。

実施形態４．
図６は、本発明による音声入出力装置の第４の実施形態の構成例を示すブロック図である。なお、第１〜３の実施形態と同様の構成については、図１、図４または図５と同一の符号を付し、説明を省略する。

本実施形態の音声入出力装置４０は、制御部１４と、２つ以上の入力部１６（入力部１６ａ，ｂ）と、各入力部１６に対応する入力音量調整部１１（入力音量調整部１１ａ，ｂ）と、各入力音量調整部１１に対応するモニタ用音量調整部１２（モニタ用音量調整部１２ａ，ｂ）と、２つ以上の出力部１７（出力部１７ｃ，１７ｄ）と、各出力部１７に対応する出力音量調整部１３（出力音量調整部１３ｃ，ｄ）と、各出力音量調整部１３に対応するモニタ用音量調整部１２（モニタ用音量調整部１２ｃ，ｄ）を備えている。

複数の入力部１６に対して音声が入力される場合の処理は、第２の実施形態と同様である。また、複数の出力部１７から音声が出力される場合の処理は、第３の実施形態と同様である

また、本実施形態では、音声を入力する入力部１６と、合成音声を出力する出力部１７の組を選択してモニタ音声を出力するようにしてもよい。例えば、各入力音声分割部１５が、利用者からモニタ機能の有無を示す指示を受け付けるとともに、各出力音量調整部１３が各出力部１７への音声の出力有無を示す指示を受け付けることで、音声を入力する入力部１６と、合成音声を出力する出力部１７の組を選択してもよい。

このとき、モニタ用音量調整部１２は、選択された入力部１６に入力される入力音声ごとに分割されたモニタ用音声、および、選択された出力部１７ごとにモニタ用音声の音量を調整してもよい。そして、制御部１４は、選択された各入力部１６に入力される入力音声の音量に対し、選択された出力部１７から出力される出力音声の合計音量の増幅率が１を超えないようにモニタ音声の音量を調整する指示をモニタ用音量調整部１２に行ってもよい。この場合、複数の入力音声を利用して処理が行われる場合であって、かつ、複数の出力部から音声を出力する場合にも、ハウリングを防止できる。

以下、具体的な実施例により本発明を説明するが、本発明の範囲は以下に説明する内容に限定されない。

図７は、本実施例の音声入出力装置の例を示す説明図である。本実施例の音声入出力装置５０は、入力部と出力部とが一つの筐体に収まっている。具体的には、音声入出力装置５０は、入力部として２つのマイクロフォン５６ａ，５６ｂと、出力部として１つのスピーカ５７とを備えている。２つのマイクロフォン５６ａ，５６ｂのうち、１つのマイクロフォン５６ａは、利用者の口元に配置され、もう１つのマイクロフォン５６ｂは、利用者の耳元に配置される。また、スピーカ５７も利用者の耳元に配置される。

また、音声認識および音声合成を行う音声認識装置６０が存在し、音声入出力装置５０は、マイクロフォン５６ａ，５６ｂに入力された音を無線通信で音声認識装置６０に送信する。また、音声入出力装置５０は、無線通信で受信した合成音声を音声認識装置６０から受信する。

マイクロフォン５６ａは、特に利用者の音声の入力に用いられ、マイクロフォン５６ｂは、周囲の雑音の入力に用いられる。音声認識装置６０は、マイクロフォン５６ｂに入力された周囲の雑音を、マイクロフォン５６ａに含まれる音から除去することで、利用者の音声を抽出する機能を有する。また、音声認識装置６０は、利用者の音声を認識して合成音声を生成する機能を有する。このように、２つの音源から利用者の音声を抽出し、抽出した音声を認識して合成音声を生成する方法は広く知られているため、ここでは説明を省略する。

図８は、本実施例の音声入出力装置を含む音声認識システムの例を示す説明図である。マイクロフォン５６ａには、入力音量調整部５１ａが接続され、入力音量調整部５１ａには、入力音声分割部５５ａが接続される。入力音声分割部５５ａは、マイクロフォン５６ａに入力された音声を分割し、音声認識装置６０とモニタ用音量調整部５２ａにそれぞれ入力音声を送信する。音声認識装置６０は、音声認識した結果の合成音声を出力音量調整部５３に無線送信する。また、モニタ用音量調整部５２ａは、モニタ音声を出力音量調整部５３に送信する。

同様に、マイクロフォン５６ｂには、入力音量調整部５１ｂが接続され、入力音量調整部５１ｂには、入力音声分割部５５ｂが接続される。入力音声分割部５５ｂは、マイクロフォン５６ｂに入力された音声を分割し、音声認識装置６０とモニタ用音量調整部５２ｂにそれぞれ入力音声を送信する。音声認識装置６０は、音声認識した結果の合成音声を出力音量調整部５３に無線送信する。また、モニタ用音量調整部５２ｂは、モニタ音声を出力音量調整部５３に送信する。

出力音量調整部５３は、調整後の出力音声をスピーカ５７に入力する。そして、スピーカ５７は、出力音声を出力する。このとき、制御部５４は、モニタ用音量調整部５２ａ，５２ｂを制御する。

具体的には、制御部５４は、マイクロフォン５６ａに入力される入力音声の音量よりもスピーカ５７が出力する出力音声の音量の方が大きい場合、出力音声の音量が入力音声の音量以下になるようにモニタ音声の音量を調整する指示をモニタ用音量調整部５２ａに行う。

同様に、制御部５４は、マイクロフォン５６ｂに入力される入力音声の音量に対するスピーカ５７が出力する出力音声の音量の増幅率が１を超える場合、増幅率が１を超えないようにモニタ音声の音量を調整する指示をモニタ用音量調整部５２ｂに行う。

本実施例では、周囲の雑音を取得するためのマイクロフォン５６ｂとスピーカ５７とが利用者の耳元に近接して配置されている。このような場合、スピーカ５７から出力される音がマイクロフォン５６ｂにそのまま入力されやすく、ハウリングを起こしやすい。しかし、本実施例では、マイクロフォンに入力される入力音声の音量に対するスピーカが出力する出力音声の音量の増幅率が１を超える場合、増幅率が１を超えないようにモニタ音声の音量を調整するため、ハウリングが発生することを抑制できる。

次に、本発明の最小構成例を説明する。図９は、本発明による音声入出力装置の最小構成の例を示すブロック図である。本発明による音声入出力装置は、入力装置（例えば、入力部１６、マイクロフォン）に入力される入力音声の音量を調整する入力音量調整手段８１（例えば、入力音量調整部１１）と、入力音量調整手段８１により調整された音量の入力音声を、音声認識に用いられる音声である音声認識用音声と、入力音声のモニタに用いられる音声であるモニタ用音声とに分割する音声分割手段８２（例えば、入力音声分割部１５）と、モニタ用音声の音量を調整するモニタ音量調整手段８３（例えば、モニタ用音量調整部１２）と、音声認識用音声を音声認識した結果作成された情報から合成される音声である合成音声と、モニタ音量調整手段８３によって音量調整されたモニタ音声とを合成した音声である出力音声の音量を調整して出力装置（例えば、出力部１７、スピーカ）に出力させる出力音量調整手段８４（例えば、出力音量調整部１３）と、入力音声の音量に対する出力音声の音量の増幅率が１を超えないようにモニタ音声の音量を調整する指示をモニタ音量調整手段８３に行う制御手段８５（例えば、制御部１４）とを備えている。

そのような構成により、入力音声を音声認識した結果を入力音声と共にモニタする場合に、入力音声の音声認識精度の低下を抑制し、かつ入力音声を音声認識した結果出力される合成音声が聞き取りづらくなることを抑制しつつ、ハウリングを容易に防止できる。

また、音声入出力装置は、２以上の入力装置ごとに設けられ、その入力装置ごとに入力される各入力音声の音量を調整する２以上の入力音量調整手段（例えば、入力音量調整部１１ａ，ｂ）を備えていてもよい。そして、モニタ音量調整手段８３が、入力音声ごとに分割されたモニタ用音声の音量を調整し、制御手段８５が、各入力音声の音量に対する出力音声の音量の増幅率が１を超えないようにモニタ音声の音量を調整する指示をモニタ音量調整手段８３に行ってもよい。

そのような構成により、複数の入力装置から入力される複数の入力音声を利用して処理を行う場合にも、ハウリングを防止できる。

また、音声入出力装置は、２以上の出力装置ごとに設けられ、その出力装置ごとに出力される各出力音声の音量を調整する２以上の出力音量調整手段（例えば、出力音量調整部１３ｃ，ｄ）を備えていてもよい。そして、モニタ音量調整手段８３が、出力装置ごとにモニタ用音声の音量を調整し、制御手段８５が、入力音声の音量に対し、各出力装置から出力される出力音声の合計音量の増幅率が１を超えないようにモニタ音声の音量を調整する指示をモニタ音量調整手段に行ってもよい。

そのような構成により、複数の出力部から音声を出力する場合にも、ハウリングを防止できる。

また、音声入出力装置は、入力音声の入力を受け付ける入力装置と合成音声を出力させる出力装置の組を選択する選択手段（例えば、入力音声分割部１５，出力音量調整部１３）を備えていてもよい。そして、モニタ音量調整手段８３が、選択された入力装置に入力される入力音声ごとに分割されたモニタ用音声、および、選択された出力装置ごとにモニタ用音声の音量を調整してもよい。また、制御手段８５が、選択された各入力装置に入力される入力音声の音量に対し、選択された出力装置から出力される出力音声の合計音量の増幅率が１を超えないようにモニタ音声の音量を調整する指示をモニタ音量調整手段８３に行ってもよい。

そのような構成により、複数の入力音声を利用して処理が行われる場合であって、かつ、複数の出力部から音声を出力する場合にも、ハウリングを防止できる。

また、音声分割手段８２は、音声認識用音声を無線を用いて音声認識装置に送信し、出力音量調整手段８４は、無線を介して送信される合成音声を受信してもよい。

また、音声入出力装置は、音声認識用音声に基づいて音声認識を行う音声認識手段（例えば、音声認識部１８）と、音声認識手段による音声認識の結果から合成音声を作成し、作成した合成音声を出力音量調整手段８４に入力する音声合成手段（例えば、音声合成部１９）とを備えていてもよい。この場合、音声入出力装置は、音声認識装置としての役割を果たす。

また、入力装置としてのマイクロフォンと、出力装置としてのスピーカとが１つの筐体に収納されていてもよい。

以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２０１１年１１月９日に出願された日本特許出願２０１１−２４５６１５を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明は、入力した音声と、その音声を音声認識した結果とを出力する際のハウリングを防止する音声入出力装置に好適に適用される。

１０，２０，３０，４０，５０音声入出力装置
１１，１１ａ，１１ｂ入力音量調整部
１２，１２ａ，１２ｂ，１２ｃ，１２ｄモニタ用音量調整部
１３，１３ｃ，１３ｄ出力音量調整部
１４制御部
１５，１５ａ，１５ｂ入力音声分割部
１６，１６ａ，１６ｂ入力部
１７，１７ｃ，１７ｄ出力部
１８音声認識部
１９音声合成部

Claims

入力装置に入力される入力音声の音量を調整する入力音量調整手段と、
前記入力音量調整手段により調整された音量の入力音声を、音声認識に用いられる音声である音声認識用音声と、前記入力音声のモニタに用いられる音声であるモニタ用音声とに分割する音声分割手段と、
前記モニタ用音声の音量を調整するモニタ音量調整手段と、
前記音声認識用音声を音声認識した結果作成された情報から合成される音声である合成音声と、前記モニタ音量調整手段によって音量調整されたモニタ音声とを合成した音声である出力音声の音量を調整して出力装置に出力させる出力音量調整手段と、
前記入力音声の音量に対する前記出力音声の音量の増幅率が１を超えないように前記モニタ音声の音量を調整する指示を前記モニタ音量調整手段に行う制御手段とを備えた
ことを特徴とする音声入出力装置。
２以上の入力装置ごとに設けられ、当該入力装置ごとに入力される各入力音声の音量を調整する２以上の入力音量調整手段を備え、
モニタ音量調整手段は、入力音声ごとに分割されたモニタ用音声の音量を調整し、
制御手段は、前記各入力音声の音量に対する出力音声の音量の増幅率が１を超えないようにモニタ音声の音量を調整する指示を前記モニタ音量調整手段に行う
請求項１記載の音声入出力装置。
２以上の出力装置ごとに設けられ、当該出力装置ごとに出力される各出力音声の音量を調整する２以上の出力音量調整手段を備え、
モニタ音量調整手段は、前記出力装置ごとにモニタ用音声の音量を調整し、
制御手段は、入力音声の音量に対し、前記各出力装置から出力される出力音声の合計音量の増幅率が１を超えないようにモニタ音声の音量を調整する指示を前記モニタ音量調整手段に行う
請求項１または請求項２記載の音声入出力装置。
入力音声の入力を受け付ける入力装置と合成音声を出力させる出力装置の組を選択する選択手段を備え、
モニタ音量調整手段は、選択された入力装置に入力される入力音声ごとに分割されたモニタ用音声、および、選択された出力装置ごとにモニタ用音声の音量を調整し
制御手段は、前記選択された各入力装置に入力される入力音声の音量に対し、選択された出力装置から出力される出力音声の合計音量の増幅率が１を超えないようにモニタ音声の音量を調整する指示を前記モニタ音量調整手段に行う
請求項２または請求項３記載の音声入出力装置。
音声分割手段は、音声認識用音声を無線を用いて音声認識装置に送信し、
出力音量調整手段は、無線を介して送信される合成音声を受信する
請求項１から請求項４のうちのいずれか１項に記載の音声入出力装置。
音声認識用音声に基づいて音声認識を行う音声認識手段と、
前記音声認識手段による音声認識の結果から合成音声を作成し、作成した合成音声を出力音量調整手段に入力する音声合成手段とを備えた
請求項１から請求項４のうちのいずれか１項に記載の音声入出力装置。
入力装置としてのマイクロフォンと、出力装置としてのスピーカとが１つの筐体に収納されている
請求項１から請求項６のうちのいずれか１項に記載の音声入出力装置。
入力装置に入力される入力音声の音量を調整し、
調整された音量の入力音声を、音声認識に用いられる音声である音声認識用音声と、前記入力音声のモニタに用いられる音声であるモニタ用音声とに分割し、
前記モニタ用音声の音量を調整し、
前記音声認識用音声を音声認識した結果作成された情報から合成される音声である合成音声と、音量調整された前記モニタ音声とを合成した音声である出力音声の音量を調整して出力装置に出力させ、
前記入力音声の音量に対する前記出力音声の音量の増幅率が１を超えないように前記モニタ音声の音量を調整する
ことを特徴とするハウリング防止方法。
コンピュータに、
入力装置に入力される入力音声の音量を調整する入力音量調整処理、
前記入力音量調整処理で調整された音量の入力音声を、音声認識に用いられる音声である音声認識用音声と、前記入力音声のモニタに用いられる音声であるモニタ用音声とに分割する音声分割処理、
前記モニタ用音声の音量を調整するモニタ音量調整処理、
前記音声認識用音声を音声認識した結果作成された情報から合成される音声である合成音声と、前記モニタ音量調整処理で音量調整されたモニタ音声とを合成した音声である出力音声の音量を調整して出力装置に出力させる出力音量調整処理、および、
前記入力音声の音量に対する前記出力音声の音量の増幅率が１を超えないように前記モニタ音声の音量の調整を行う制御処理
を実行させるためのハウリング防止用プログラム。