JP2012022127A

JP2012022127A - 音声認識装置

Info

Publication number: JP2012022127A
Application number: JP2010159600A
Authority: JP
Inventors: Yamato Suzuki; 大和鈴木; Nozomu Saito; 望齊藤; Toru Marumoto; 徹丸本
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2010-07-14
Filing date: 2010-07-14
Publication date: 2012-02-02
Anticipated expiration: 2030-07-14
Also published as: JP5457293B2

Abstract

【課題】現在の騒音状況に適した入力ゲインを設定することができる「音声認識装置」を提供する。
【解決手段】第１騒音振幅分布検出部１１と第２騒音振幅分布検出部１２は、音声認識エンジン７が音声認識処理中に発声音声を検出している時間区間である発声音声区間以外の時間区間において、騒音の振幅分布ｇｂ（ｎ）を繰り返し算出する。音声振幅分布検出部１４は、発声音声区間の発声音声の平均の振幅分布ｆ（ｎ）を算出する。入力ゲイン制御部１０は、音声認識処理開始時に、最後に算出された騒音の振幅分布と、発声音声の平均の振幅分布の双方を考慮し、音声認識エンジン７に入力する入力音声データのレンジが、音声認識エンジン７の規格レンジに対して適正なレンジを持つように入力アンプ５の入力ゲインＧを制御する。
【選択図】図１

Description

本発明は、音声認識装置において音声信号の入力ゲインを制御する技術に関するものである。

音声認識装置において音声信号の入力ゲインを制御する技術としては、過去の音声認識の成功率に応じて入力ゲインを調整する技術や（特許文献１）、過去の音声認識において認識対象とした時間区間における音声信号レベルに応じて入力ゲインを設定する技術（特許文献２）が知られている。

特許第２９７５８０８号公報特許第３５９４３５６号公報

たとえば、自動車内などの周辺の音響環境が刻々と変化する状況で音声認識装置を使用する場合、音声信号に含まれる騒音レベルも刻々と変化する。
したがって、上述のように、過去の音声認識の成功率や過去の音声区間における音声信号レベルなどの、過去の音声認識実行時の状況にのみ基づいて入力ゲインを調整したのでは、必ずしも、現在の騒音状況に適した入力ゲインを設定することはできない。
そこで、本発明は、音声信号の入力ゲインとして、より現在の騒音状況に適した入力ゲインを設定することができる音声認識装置を提供することを課題とする。

前記課題達成のために、本発明は、音声認識を行う音声認識装置を、マイクと、マイクから出力される入力音声信号を増幅する入力アンプと、前記入力アンプで増幅された信号を、入力音声データに変換するＡＤ変換器と、音声認識実行指示に応答して、前記ＡＤ変換器の出力する入力音声データを対象とする音声認識処理を行う音声認識エンジンと、騒音レベル検出部と、発話音声レベル検出部と、前記入力アンプのゲインを制御する入力ゲイン制御部とを含めて構成したものである。ここで、前記音声認識エンジンにおいて、前記音声認識処理において、前記入力音声データにユーザの発話音声が含まれる時間区間を発話音声区間として検出すると共に、検出した発話音声区間の入力音声データに含まれる発話音声の内容を識別し、前記騒音レベル検出部は、前記発話音声区間以外の時間区間、または、前記音声認識処理を行っていない時間区間において、前記入力音声信号に含まれる騒音のレベルを、前記入力音声データに基づいて繰り返し算出し、前記発話音声レベル検出部は、前記音声認識処理の各回において検出された各発話音声区間の前記入力音声信号に含まれる発話音声の平均的なレベルを、前記入力音声データに基づいて算出し、前記入力ゲイン制御部は、前記音声認識処理の各回の開始時に、前記騒音レベル検出部によって最後に算出された騒音のレベルと、発話音声レベル検出部によって検出されている発話音声の平均的なレベルとより、当該回の前記音声認識処理で検出される発話音声区間の前記入力音声信号のレベルを推定し、推定した前記入力音声信号のレベルを前記入力アンプで増幅したレベルが、前記音声認識エンジンに適合したレベルとなるように、前記入力アンプのゲインを設定するものである。

このような音声認識装置によれば、騒音レベル検出部において騒音のレベルを繰り返し実行し、音声認識処理の開始時に、最後に検出された騒音のレベル、従って、直近の時点における騒音のレベルと、前回以前の音声認識処理実行時の発話音声の平均的なレベルとに基づいて入力音声信号のレベルを推定し、推定した前記入力音声信号のレベルを前記入力アンプで増幅したレベルが、前記音声認識エンジンに適合したレベルとなるように入力アンプのゲインを設定する。

そして、直近の時点における騒音のレベルは、現在の騒音状況における騒音のレベルと近似していることが期待できる。よって、このような音声認識装置によれば、音声認識処理の開始時に、より現在の騒音状況に適したゲインを入力アンプに設定することができるようになる。

ここで、以上のような音声認識装置は、前記入力ゲイン制御部において、前記音声認識処理が行われていない時間区間中、前記入力アンプのゲインを、前記入力音声信号のレベルが取り得る最大レベルを前記入力アンプで増幅したレベルが、前記ＡＤ変換器の入力レンジを越えないように予め定めた所定の値に設定するように構成することも、前記音声認識処理が行われていない時間区間における騒音のレベルの適正な算出を担保する上で好ましい。

また、以上の音声認識装置が、オーディオデータが表すオーディオ音を出力するオーディオ機器と共に用いられる場合には、音声認識装置に、前記音声認識処理が行われている期間中、前記オーディオ機器のオーディオ音の出力を抑止する出力抑止部を設け、前記騒音レベル検出部において、前記音声認識処理を行っていない時間区間において、前記入力音声信号に含まれる騒音のレベルを、前記入力音声データと前記オーディオデータとに基づいて算出するようにしてもよい。

ここで、以上の音声認識装置は、より具体的には、前記騒音レベル検出部において、前記騒音のレベルとして騒音の振幅分布を算出し、前記発話音声レベル検出部において、前記発話音声の平均的なレベルとして、前記発話音声の平均的な振幅分布を算出し、前記入力ゲイン制御部において、前記入力音声信号のレベルとして、前記入力音声信号の振幅分布を推定するものとしてもよい。

また、この場合には、前記入力ゲイン制御部において、前記推定した入力音声信号の振幅分布が示す振幅の分布範囲のダイナミックレンジが、前記音声認識エンジンの入力レンジのダイナミックレンジ以下である場合には、前記推定した入力音声信号の振幅分布が示す振幅の分布範囲の中心の振幅値を前記入力アンプで増幅した後の振幅値が、前記音声認識エンジンの入力レンジの中心の振幅値となるように、前記入力アンプのゲインを設定することが好ましい。

また、この場合には、前記入力ゲイン制御部において、前記推定した入力音声信号の振幅分布における振幅の分布範囲のダイナミックレンジが、前記音声認識エンジンの入力レンジのダイナミックレンジを越える場合には、前記推定した入力音声信号の振幅分布における振幅の分布範囲のうちの、前記音声認識エンジンの入力レンジのダイナミックレンジと同じダイナミックレンジとなる範囲部分であって、当該範囲分布内の度数の合計が最大となる部分範囲を選定し、選定した部分範囲を前記入力アンプで増幅した後の範囲が、前記音声認識エンジンの入力レンジと一致するように、前記入力アンプのゲインを設定することが好ましい。

以上のように、本発明によれば、音声信号の入力ゲインとして、より現在の騒音状況に適した入力ゲインを設定することができる音声認識装置を提供することができる。

本発明の実施形態に係る音声認識システムの構成を示すブロック図である。本発明の実施形態に係る音声認識システムの動作を示すタイミングチャートである。本発明の実施形態に係る入力ゲイン制御処理を示すフローチャートである。本発明の実施形態に係る入力ゲイン制御処理の処理例を示す図である。

以下、本発明の実施形態について説明する。
図１に、本実施形態に係る音声認識システムの構成を示す。
図示するように音声認識システムは、図示を省略したオーディオ機器から出力されるオーディオデータをアナログオーディオ信号にＤＡ変換するＤＡ変換器１、オーディオ信号を出力ゲインＳｐＧで増幅する出力アンプ２、オーディオアンプの出力するオーディオ信号が表す音をスピーカ出力音として出力するスピーカ３、マイク４、マイク４でピックアップした音声を表す入力音声信号を入力ゲインＧで増幅する入力アンプ５、入力アンプ５で増幅された入力音声信号を入力音声データにデジタル変換するＡＤ変換器６、ＡＤ変換器６で変換された入力音声データに対して音声認識処理を実行する音声認識エンジン７、トークスイッチ８、出力アンプ２の出力ゲインＳｐＧを制御する出力ゲイン制御部９、入力アンプ５のゲインＧを制御する入力ゲイン制御部１０とを備えている。

このような構成において、音声認識エンジン７は、ユーザのトークスイッチ８の押し下げが発生すると、音声認識処理を開始する。音声認識処理では、入力音声データに、ユーザの発話音声が含まれる区間である発話音声区間の検出と、発話音声区間中の入力音声データに対する音声認識（ユーザの発話内容の識別）を行う。また、音声認識エンジン７は、ユーザのトークスイッチ８の押し下げ時点から発話音声区間の終了時点までオンとなる音声認識中信号Ｒｏｎを出力すると共に、音声認識処理の終了後に、音声認識処理中で検出した発話音声区間の時間位置を表す発話音声区間データＳｏｎを出力する。

そして、出力ゲイン制御部９は、音声認識中信号Ｒｏｎがオフである期間中は、出力アンプ２の出力ゲインＳｐＧをオーディオ機器から出力されるボリューム信号Ｖｏｌに従って制御し、音声認識中信号Ｒｏｎがオンである期間中は、出力アンプ２の出力ゲインＳｐＧを０として、スピーカ出力音の発生を抑止する。

さて、ここで、マイク４が出力する入力音声信号には、その成分として、スピーカ３から出力されるスピーカ出力音ａと、騒音ｂと、ユーザの発話音声ｓが含まれる。
そして、入力ゲイン制御部１０は、騒音ｂの振幅分布を算出する第１騒音振幅分布検出部１１と、騒音ｂの振幅分布ｇｂ（ｎ）を算出する第２騒音振幅分布検出部１２と、騒音ｂの最新の振幅分布ｇｂ（ｎ）を格納する騒音振幅分布レジスタ１３と、発話音声ｓの平均の振幅分布ｆ（ｎ）を検出する音声振幅分布検出部１４と、発話音声ｓの平均の音声振幅分布ｆ（ｎ）を格納する音声振幅分布レジスタ１５と、畳込演算器１６と、ゲイン制御部１７とを備えている。なお、振幅分布Ｚ（ｎ）におけるｎは、振幅分布Ｚ（ｎ）が、振幅値（ｄＢ）をｎ個の振幅値の階級に離散化して振幅分布を表したものであることを表している。

ここで、第１騒音振幅分布検出部１１、第２騒音振幅分布検出部１２、音声振幅分布検出部１４の振幅分布の算出のタイミングについて図２を用いて説明する。
ここで、図２では、マイク４が出力する入力音声信号をｘとして、音声認識エンジン７が出力する発話音声区間データＳｏｎで表される発話音声区間をＳｏｎＤとして示す。
図示するように、トークスイッチ８の押し下げが発生するまでの時間区間中、マイク４が出力する入力音声信号ｘには、その成分として、スピーカ出力音ａと騒音ｂとが含まれる。
第１騒音振幅分布検出部１１は、この入力音声信号ｘに成分としてスピーカ出力音ａと騒音ｂとが含まれる時間区間である、音声認識中信号Ｒｏｎがオフである期間を算出実行期間として、算出実行期間中、騒音ｂの振幅分布ｇｂ（ｎ）の算出を行う。ここで、この第１騒音振幅分布検出部１１における騒音ｂの振幅分布ｇｂ（ｎ）の算出法の詳細については後述する。

次に、トークスイッチ８の押し下げが発生し、音声認識中信号Ｒｏｎがオンとなると、スピーカ出力音が抑止されるので、音声認識中信号Ｒｏｎがオンとなってから、音声認識中信号Ｒｏｎがオフとなるまでの間の、発話音声区間Ｓｏｎで表される発話音声区間ＳｏｎＤ以外の期間中は、マイク４が出力する入力音声信号ｘには、その成分として、騒音ｂのみが含まれることとなる。

第２騒音振幅分布検出部１２は、この入力音声信号ｘに成分として騒音ｂのみが含まれる時間区間である、音声認識中信号Ｒｏｎがオンである期間中の、発話音声区間データＳｏｎで表される発話音声区間ＳｏｎＤ以外の期間を算出実行期間として、算出実行期間中、騒音ｂの振幅分布ｇｂ（ｎ）の算出を行う。ここで、第２騒音振幅分布検出部１２の騒音ｂの振幅分布ｇｂ（ｎ）の算出法の詳細については後述する。

次に、発話音声区間ＳｏｎＤは、ユーザが発話を行っている時間区間であるので、マイク４が出力する入力音声信号ｘには、その成分として、騒音ｂと発話音声ｓとが含まれることになる。
音声振幅分布検出部１４は、音声認識中信号Ｒｏｎがオンである期間を算出実行期間とする。そして、入力音声信号ｘに成分として騒音ｂのみが含まれる時間区間である、発話音声区間データＳｏｎで表される発話音声区間ＳｏｎＤ以外の算出実行期間中の時間区間の入力音声信号ｘと、入力音声信号ｘに成分として騒音ｂと発話音声ｓとが含まれる時間区間である、算出実行期間中の発話音声区間データＳｏｎで表される発話音声区間ＳｏｎＤ中の入力音声信号ｘとを用いて発話音声ｓの平均の振幅分布ｆ（ｎ）の算出を実行する。ここで、この音声振幅分布検出部１４における発話音声ｓの平均の振幅分布ｆ（ｎ）の算出法の詳細については後述する。

さて、第１騒音振幅分布検出部１１と、第２騒音分布検出部は、前述した算出実行期間中、一定の単位時間区間の入力音声信号ｘを用いた振幅分布ｇｂ（ｎ）の算出を繰り返し行い、騒音ｂの振幅分布ｇｂ（ｎ）を算出する度に、算出した振幅分布ｇｂ（ｎ）によって、騒音振幅分布レジスタ１３の内容を更新する。なお、算出実行期間が、前述した単位時間区間に満たない場合、当該算出実行期間中には、振幅分布ｇｂ（ｎ）の算出は行われず、騒音振幅分布レジスタ１３の内容の更新も行われないこととなる。

したがって、騒音振幅分布レジスタ１３に格納される騒音ｂの振幅分布ｇｂ（ｎ）は、常に、第１騒音振幅分布検出部１１と第２騒音分布検出部で算出された騒音ｂの振幅分布ｇｂ（ｎ）のうちの、最後に算出された最新の騒音ｂの振幅分布となる。
次に、音声振幅分布検出部１４における発話音声ｓの平均の振幅分布ｆ（ｎ）の算出は、音声認識処理の実行の度に行われ、音声振幅分布検出部１４は、発話音声ｓの平均の振幅分布ｆ（ｎ）の算出の度に、算出した振幅分布ｆ（ｎ）で音声振幅分布レジスタ１５の内容を更新する。したがって、音声認識処理の実行開始時に、音声振幅レジスタには、前回の音声認識処理の実行時に算出された発話音声ｓの平均の振幅分布ｆ（ｎ）が格納されていることになる。

次に、畳込演算器１６は、騒音振幅分布レジスタ１３に格納されている騒音ｂの振幅分布ｇｂ（ｎ）と、音声振幅レジスタに格納されている発話音声ｓの平均の振幅分布ｆ（ｎ）との畳み込み演算を式１に従って行い、マイク４からの入力音声信号の振幅分布ｈ（ｎ）を算出する。なお、式１中において、Ｓｍａｘは発話音声ｓの最大値の階級の番号、Ｂｍａｘは騒音ｂの最大値の階級の番号である。

次に、入力ゲイン制御部１０は、図３に示す入力ゲイン制御処理によって、入力アンプ５の入力ゲインＧ（ｄＢ）を制御する。
いま、音声認識エンジン７で適正に処理可能な入力音声データのレンジを規格レンジＲとして、規格レンジがＲｍｉｎからＲｍａｘまでの範囲であるものとする。また、規格レンジのダイナミックレンジＲｍａｘ/Ｒｍｉｎを、音声認識エンジン７のダイナミックレンジの規格値Ｄと呼ぶこととする。

さて、図３に示すように、入力ゲイン制御処理では、まず、入力アンプ５の入力ゲインＧを予め定めた最小ゲインＧｍｉｎに設定し（ステップ３０２）、音声認識エンジン７から出力される音声認識中信号Ｒｏｎが１となって音声認識処理が開始されるのを待つ（ステップ３０４）。
次に、音声認識中信号Ｒｏｎがオンとなって音声認識処理が開始されたならば（ステップ３０４）、畳込演算器１６から出力されているマイク４からの入力音声信号の振幅分布ｈ（ｎ）が示す振幅分布の最大値（度数が存在する振幅の最大値）をＨｍａｘ、振幅分布ｈ（ｎ）が示す振幅分布の最小値（度数が存在する振幅の最小値）をＨｍｉｎとして（ステップ３０６）、振幅分布ｈ（ｎ）が表すマイク４からの入力音声信号のダイナミックレンジＨｍａｘ/Ｈｍｉｎが、音声認識エンジン７のダイナミックレンジの規格値Ｄ以下であるかどうかを調べる（ステップ３０８）。

そして、入力音声信号のダイナミックレンジＨｍａｘ/Ｈｍｉｎが、音声認識エンジン７のダイナミックレンジの規格値Ｄ以下であれば（ステップ３０８）、入力音声信号のレンジの中心Ｈｍｉｄ=（Ｈｍａｘ+Ｈｍｉｎ）/２と、音声認識エンジン７の入力音声データの規格レンジの中心Ｒｍｉｄ=（Ｒｍａｘ+Ｒｍｉｎ）/２とを求める（ステップ３１０）。

また、次に、入力アンプ５の入力ゲインＧを、Ｒｍｉｄ/Ｈｍｉｄに設定する（ステップ３１２）。
この結果、音声認識エンジン７の規格レンジのダイナミックレンジが、入力音声データのダイナミックレンジ以上である場合には、次のように入力アンプ５の入力ゲインＧが設定されることになる。
すなわち、いま、図４ａ１に示すように、振幅分布ｈ（ｎ）の中心Ｈｍｉｄが、音声認識エンジン７の規格レンジＲの中心Ｒｍｉｄからずれた位置にあるものとする。ここで、振幅分布ｈ（ｎ）は、振幅分布ｈ（ｎ）と等しい振幅分布を持つ入力音声信号を、入力アンプ５で入力音声信号を増幅せずにＡＤ変換した場合に音声認識エンジン７に入力する入力音声データの振幅分布に一致する。

そして、このような場合に、ステップ３１２の入力ゲインＧの設定によれば、図４ａ２に示すように、振幅分布ｈ（ｎ）と等しい振幅分布を持つ入力音声信号を、ステップ３１２で設定した入力ゲインＧで増幅してＡＤ変換した入力音声データの振幅分布ｈｉｎ（ｎ）、すなわち、ステップ３１２で入力ゲインＧを上述のように設定した場合の音声認識エンジン７に入力する入力音声データの振幅分布ｈｉｎ（ｎ）は、その中心が、音声認識エンジン７の規格レンジＲの中心Ｒｍｉｄに一致したものとなる。また、音声認識処理時に実際にマイク４がピックアップした入力音声信号は、振幅分布ｈ（ｎ）と近似した振幅分布を持つことが期待できる。

よって、このような入力ゲインＧの設定によれば、音声認識エンジン７に入力する入力音声データの振幅分布ｈｉｎ（ｎ）の全体が、音声認識エンジン７の規格レンジＲ内の、規格レンジＲの中央部分に収まるようになる。ここで、一般的に、音声認識エンジン７は、音声認識エンジン７の規格レンジＲ内の中央部分に振幅分布を持つ入力音声データに対して精度良く音声認識を行うことができる。

さて、図３に戻り、ステップ３１２で入力ゲインＧを設定したならば音声認識エンジン７から出力される音声認識中信号Ｒｏｎがオフとなって音声認識処理が終了するのを待って（ステップ３１４）、ステップ３０２からの処理に戻る。
一方、力音声信号のダイナミックレンジＨｍａｘ/Ｈｍｉｎが、音声認識エンジン７のダイナミックレンジの規格値Ｄを越えていれば（ステップ３０８）、ダイナミックレンジＭＤ=Ｍｍａｘ/Ｍｍｉｎが音声認識エンジン７の規格レンジＤと等しくなるレンジであって、かつ、入力音声信号の振幅分布ｈ（ｎ）上で当該レンジ中に含まれる度数（当該レンジ中に含まれる振幅値の出現頻度の総数）が最大となるレンジＭを算出する（ステップ３１６）。但し、ＭｍｉｎはレンジＭの最小値、ＭｍａｘはレンジＭの最大値を表す。

また、次に、入力アンプ５の入力ゲインＧを、Ｒｍｉｎ/Ｍｍｉｎに設定する（ステップ３１８）。
この結果、音声認識エンジン７の規格レンジのダイナミックレンジが、入力音声データのダイナミックレンジ未満である場合には、次のように入力アンプ５の入力ゲインＧが設定されることになる。
すなわち、いま、図４ｂ１に示すように、振幅分布ｈ（ｎ）が、音声認識エンジン７の規格レンジＲ内にその端部分が含まれるように存在しているものとする。ここで、振幅分布ｈ（ｎ）は、振幅分布ｈ（ｎ）と等しい振幅分布を持つ入力音声信号を、入力アンプ５で入力音声信号を増幅せずにＡＤ変換した場合に音声認識エンジン７に入力する入力音声データの振幅分布に一致する。

そして、このような場合に、ステップ３１８の入力ゲインＧの設定によれば、図４ｂ２に示すように、振幅分布ｈ（ｎ）と等しい振幅分布を持つ入力音声信号を、ステップ３１８で設定した入力ゲインＧで増幅してＡＤ変換した入力音声データの振幅分布ｈｉｎ（ｎ）、すなわち、ステップ３１８で上述のように入力ゲインＧを設定した場合の音声認識エンジン７に入力する入力音声データの振幅分布ｈｉｎ（ｎ）は、音声認識エンジン７の規格レンジＲ内の振幅値の度数（出現確率）が最大になるものとなる。また、音声認識処理時に実際にマイク４がピックアップした入力音声信号は、振幅分布ｈ（ｎ）と近似した振幅分布を持つことが期待できる。

よって、このような入力ゲインＧの設定によれば、音声認識エンジン７に入力する入力音声データは、度数（出現確率）の大きい振幅値の範囲、すなわち、主要と思われる振幅値の範囲が、音声認識エンジン７の規格レンジＲ内に収まるようになり、これにより、音声認識エンジン７で良好に音声認識を行えるようになる。

さて、図３に戻り、ステップ３１８で入力ゲインＧを設定したならば、音声認識エンジン７から出力される音声認識中信号Ｒｏｎがオフとなって音声認識処理が終了するのを待って（ステップ３１４）、ステップ３０２からの処理に戻る。
以上、入力ゲイン制御処理について説明した。
なお、以上の、ステップ３０２で入力ゲインＧを最小ゲインＧｍｉｎに設定するのは、音声認識処理が行われていない期間中に、入力アンプ５の増幅によって入力音声信号が飽和してしまって、当該期間中に騒音振幅分布ｇｂ（ｎ）を算出する第１騒音振幅分布検出部１１において適正に騒音振幅分布ｇｂ（ｎ）を算出できなくなってしまうことを抑制するためである。また、最小ゲインＧｍｉｎは、たとえば、マイク４で歪まずにピックアップ可能な最大の大きさの音声が、入力音声データとして表現可能な最大値に、ＡＤ変換器６で変換されることとなる値とする。

次に、上述した音声振幅分布検出部１４の発話音声ｓの平均の振幅分布ｆ（ｎ）の算出法、第１騒音振幅分布検出部１１の騒音ｂの振幅分布ｇｂ（ｎ）の算出法、第２騒音振幅分布検出部１２の騒音ｂの振幅分布ｇｂ（ｎ）の算出法について説明する。
まず、音声振幅分布検出部１４の発話音声ｓの平均の振幅分布ｆ（ｎ）の算出法について説明する。
発声された発話音声ｓの振幅分布ｆ（ｓ）は、スーパーガウス分布となることが知られており、発話音声ｓの振幅分布がスーパーガウス分布となると仮定すると、式２によって、発話音声ｓの振幅分布は表すことができる。

ここで、式２中のα、βは、発話音声ｓの平均μｓと分散σｓと、式３の関係を持つ。

また、平均μｓと分散σｓは、発話音声ｓのパワー（二乗平均）Ｐｓと式４の関係を持つ。

よって、式２中のα、βと発話音声ｓのパワーＰｓとの関係は式５で表すことができる。

ここで、発声された発話音声ｓの振幅分布のピークは０付近に現れ、この場合、下記参考文献などに示されているようにαはほぼ１とすることができる。
参考文献：T.Lotter and P.Vary, “Noise reduction by joint maximum a posteriori spectral amplitude and phase estimation with super-gaussian speech modeling",Proc. EUSIPCO-04(Vienna,Austria), pp.1447-60,Sep.2004.
そして、α=１とすると、βとパワーＰｓとの関係は式６で表すことができ、βが求まれば式１の発話音声ｓの振幅分布ｆ（ｓ）を算出することができる。

そこで、音声振幅分布検出部１４は、算出実行期間毎に発話音声ｓのパワーＰｓｅを求め、保存する。ここで、算出実行期間の発話音声ｓのパワーＰｓｅの算出は次のように行う。
すなわち、ＡＤ変換器６がＡＤ変換した入力音声データのゲインを、当該入力音声データの生成時に用いた入力アンプ５の入力ゲインＧの逆数で表せるゲイン／Ｇでゲイン調整した入力音声データを対象入力音声データとする。ここで、対象入力音声データは、入力アンプ５で増幅される前の入力音声信号ｘの値を表すものとなる。

そして、音声振幅分布検出部１４は、算出実行期間中、対象入力音声データを求めて保存すると共に、保存しておいた対象入力音声データを用いて、以下のように発話音声ｓのパワーＰｓｅを算出し、保存する。
すなわち、算出実行期間中の、発話音声区間データＳｏｎで表される発話音声区間以外の期間には、入力音声信号ｘに成分として騒音ｂのみが含まれる時間区間となるので、この時間区間の対象入力音声データのパワーをパワーＰｂとして算出する。また、入力音声信号ｘに成分として騒音ｂと発話音声ｓとが含まれる発話音声区間の対象入力音声データのパワーをパワーＰｂ+ｓとして算出する。そして、パワーＰｂ+ｓからパワーＰｂを減算することにより発話音声ｓのパワーＰｓｅを算出し、保存する。

そして、各回の発話音声ｓのパワーＰｓｅの算出と保存が完了時に、それまでに保存された発話音声ｓのパワーＰｓｅの平均を、式６のパワーＰｓとしてβを求め、求めたβから、発話音声ｓの振幅分布ｆ（ｓ）を算出する。そして、振幅分布ｆ（ｓ）を離散化し、発話音声ｓの平均の振幅分布ｆ（ｎ）とする。

次に、第１騒音振幅分布検出部１１の騒音ｂの振幅分布ｇｂ（ｎ）の算出法について説明する。
まず、第１騒音振幅分布検出部１１の算出実行期間中は、入力音声信号ｘに成分としてスピーカ出力音ａと騒音ｂとが含まれる。
したがって、入力音声信号ｘの振幅分布ｇｃ（ｎ）は、スピーカ出力音ａの振幅分布ｇａ（ｎ）と騒音ｂの振幅分布ｇｂ（ｎ）との、式７、８に示す畳み込み演算によって表すことができる。

なお、式８中において、Ａｍａｘはスピーカ出力音ａの最大値の階級の番号、Ｂｍａｘは騒音ｂの最大値の階級の番号である。
そして、式９のように、騒音ｂの振幅分布ｇｂ（ｎ）を行列表記したＷと、行列表記したスピーカ出力音ａの振幅分布ｇａ（ｎ）を定める。

そして、この場合には、式７、８より、式１０で示す誤差ｅの単位時間区間の平均自乗誤差Ｊを最小とするＷが、Ｗの真値であることが分かる。なお、Ｅ[Ｘ]は、Ｘの単位時間区間の平均値を表すものとする。

そして、平均自乗誤差Ｊを最小とするＷは、平均自乗誤差ＪをＷで偏微分した値が０となるＷとして、式１１のように求まる。

そして、平均自乗誤差Ｊを最小とするＷより騒音ｂの振幅分布ｇｂ（ｎ）が定まることとなる。
そこで、第１騒音振幅分布検出部１１は、ＡＤ変換器６がＡＤ変換した入力音声データのゲインを、当該入力音声データの生成時に用いた入力アンプ５の入力ゲインＧの逆数で表せるゲイン／Ｇでゲイン調整した入力音声データを対象入力音声データとして、第１騒音振幅分布検出部１１は、算出実行期間中、対象入力音声データを求めて保存すると共に、ＤＡ変換器１に入力するオーディオデータを保存する。
そして、算出実行期間中、単位時間区間毎に、以下のようにして騒音ｂの振幅分布ｇｂ（ｎ）を、保存した対象入力音声データとオーディオデータを用いて算出する。
すなわち、ＤＡ変換器１の入力からマイク４の出力までの伝達関数Ｈを、出力アンプ２の出力ゲインＳｐＧを参照して算出し、ＤＡ変換器１に入力するオーディオデータに算出した伝達関数Ｈを施したオーディオデータの単位時間区間の振幅分布関数をスピーカ出力音ａの振幅分布ｇａ（ｎ）として算出する。伝達関数Ｈは、たとえば、予め求めておいた、出力アンプ２で増幅を行わなかった場合の、ＤＡ変換器１の入力からマイク４の出力までの伝達関数に、出力アンプ２の出力ゲインＳｐＧを乗じることにより求める。または、伝達関数Ｈは、適応フィルタなどを用いて対象入力音声データとオーディオデータからリアルタイムに求めるようにすることもできる。

また、単位時間区間の対象入力音声データの振幅分布を入力音声信号ｘの振幅分布ｇｃ（ｎ）として算出する。

そして、単位時間中に以上のように算出した振幅分布ｇａ（ｎ）と振幅分布ｇｃ（ｎ）より、式１１に従って、騒音ｂの振幅分布ｇｂ（ｎ）を算出する。
次に、第２騒音振幅分布検出部１２の騒音ｂの振幅分布ｇｂ（ｎ）の算出法について説明する。
ＡＤ変換器６がＡＤ変換した入力音声データのゲインを、当該入力音声データの生成時に用いた入力アンプ５の入力ゲインＧの逆数で表せるゲイン／Ｇでゲイン調整した入力音声データを対象入力音声データとして、第２騒音振幅分布検出部１２は、算出実行期間中、対象入力音声データを求めて保存すると共に、保存しておいた対象入力音声データを用いて、単位時間区間毎に、以下のように騒音ｂの振幅分布ｇｂ（ｎ）を算出する。
すなわち、第２騒音振幅分布検出部１２の算出実行期間中、入力音声信号ｘには、成分として騒音ｂのみが含まれる。そこで、第２騒音振幅分布検出部１２は、単位時間区間の対象入力音声データの振幅分布をそのまま騒音ｂの振幅分布ｇｂ（ｎ）として算出する。

以上、本発明の実施形態について説明した。
以上のように本実施形態によれば、第１騒音振幅分布検出部１１と第２振幅分布検出部によって、発話音声区間以外の時間区間において、騒音の振幅分布ｇｂ（ｎ）の算出を繰り返し実行し、音声認識処理の開始時に、最後に検出された騒音の振幅分布ｇｂ（ｎ）、すなわち、直近の時点における騒音の振幅分布ｇｂ（ｎ）と、前回以前の音声認識処理実行時の発話音声の平均的な振幅分布ｆ（ｎ）とに基づいて入力音声信号の振幅分布ｈ（ｎ）を推定し、推定した前記入力音声信号の振幅分布ｈ（ｎ）を前記入力アンプ５で増幅した振幅分布ｈｉｎ（ｎ）が、前記音声認識エンジン７に適合したレベルとなるように入力アンプ５の入力ゲインＧを設定する。

そして、直近の時点における騒音の振幅分布ｇｂ（ｎ）は、現在の騒音状況における騒音の振幅分布ｇｂ（ｎ）と近似していることが期待できる。よって、このような音声認識装置によれば、音声認識処理の開始時に、より現在の騒音状況に適した入力ゲインＧを入力アンプ５に設定することができるようになる。

ところで、以上の実施形態では、振幅分布に基づいて入力アンプ５の入力ゲインＧを設定するようにしたが、これは振幅分布に代えて音声のレベルを表す他の特性値Ｚ（Ｚは、たとえば、振幅のピーク値の分布や最大振幅値や平均振幅等）に基づいて入力アンプ５の入力ゲインＧを設定するようにすることもできる。

すなわち、この場合には、第１騒音振幅分布検出部１１と第２振幅分布検出部とにおいて、騒音の振幅分布ｇｂ（ｎ）に代えて騒音の特性値Ｚを算出し、音声振幅分布検出部１４において発話音声の平均的な特性値Ｚを算出し、入力ゲイン制御部１０において最後に算出された騒音の特性値Ｚと、発話音声の平均的な特性値Ｚとに基づいて、入力音声信号の特性値Ｚを推定し、推定した入力音声信号の特性Ｚに基づいて、特性値Ｚとする特性値の種類に応じて予め定めた規則に従って、入力アンプ５の入力ゲインＧを、入力音声信号を入力ゲインＧで増幅してＡＤ変換した入力音声データの振幅レンジが、音声認識エンジン７の規格レンジＲに適合するように設定する。

１…ＤＡ変換器、２…出力アンプ、３…スピーカ、４…マイク、５…入力アンプ、６…ＡＤ変換器、７…音声認識エンジン、８…トークスイッチ、９…出力ゲイン制御部、１０…入力ゲイン制御部、１１…第１騒音振幅分布検出部、１２…第２騒音振幅分布検出部、１３…騒音振幅分布レジスタ、１４…音声振幅分布検出部、１５…音声振幅分布レジスタ、１６…畳込演算器、１７…ゲイン制御部。

Claims

音声認識を行う音声認識装置であって、
マイクと、
マイクから出力される入力音声信号を増幅する入力アンプと、
前記入力アンプで増幅された信号を、入力音声データに変換するＡＤ変換器と、
音声認識実行指示に応答して、前記ＡＤ変換器の出力する入力音声データを対象とする音声認識処理を行う音声認識エンジンと、
騒音レベル検出部と、
発話音声レベル検出部と、
前記入力アンプのゲインを制御する入力ゲイン制御部とを有し、
前記音声認識エンジンは、前記音声認識処理において、前記入力音声データにユーザの発話音声が含まれる時間区間を発話音声区間として検出すると共に、検出した発話音声区間の入力音声データに含まれる発話音声の内容を識別し、
前記騒音レベル検出部は、前記発話音声区間以外の時間区間、または、前記音声認識処理を行っていない時間区間において、前記入力音声信号に含まれる騒音のレベルを、前記入力音声データに基づいて繰り返し算出し、
前記発話音声レベル検出部は、前記音声認識処理の各回において検出された各発話音声区間の前記入力音声信号に含まれる発話音声の平均的なレベルを、前記入力音声データに基づいて算出し、
前記入力ゲイン制御部は、前記音声認識処理の各回の開始時に、前記騒音レベル検出部によって最後に算出された騒音のレベルと、発話音声レベル検出部によって検出されている発話音声の平均的なレベルとより、当該回の前記音声認識処理で検出される発話音声区間の前記入力音声信号のレベルを推定し、推定した前記入力音声信号のレベルを前記入力アンプで増幅したレベルが、前記音声認識エンジンに適合したレベルとなるように、前記入力アンプのゲインを設定することを特徴とする音声認識装置。
請求項１記載の音声認識装置であって、
前記入力ゲイン制御部は、前記音声認識処理が行われていない時間区間中、前記入力アンプのゲインを、前記入力音声信号のレベルが取り得る最大レベルを前記入力アンプで増幅したレベルが、前記ＡＤ変換器の入力レンジを越えないように予め定めた所定の値に設定することを特徴とする音声認識装置。
請求項１または２記載の音声認識装置であって、
オーディオデータが表すオーディオ音を出力するオーディオ機器と、
前記音声認識処理が行われている期間中、前記オーディオ機器のオーディオ音の出力を抑止する出力抑止部とを備え、
前記騒音レベル検出部は、前記音声認識処理を行っていない時間区間において、前記入力音声信号に含まれる騒音のレベルを、前記入力音声データと前記オーディオデータとに基づいて算出することを特徴とする音声認識装置。
請求項１、２または３記載の音声認識装置であって、
前記騒音レベル検出部は、前記騒音のレベルとして騒音の振幅分布を算出し、
前記発話音声レベル検出部は、前記発話音声の平均的なレベルとして、前記発話音声の平均的な振幅分布を算出し、
前記入力ゲイン制御部は、前記入力音声信号のレベルとして、前記入力音声信号の振幅分布を推定することを特徴とする音声認識装置。
請求項４記載の音声認識装置であって、
前記入力ゲイン制御部は、前記推定した入力音声信号の振幅分布が示す振幅の分布範囲のダイナミックレンジが、前記音声認識エンジンの入力レンジのダイナミックレンジ以下である場合には、前記推定した入力音声信号の振幅分布が示す振幅の分布範囲の中心の振幅値を前記入力アンプで増幅した後の振幅値が、前記音声認識エンジンの入力レンジの中心の振幅値となるように、前記入力アンプのゲインを設定することを特徴とする音声認識装置。
請求項４または５記載の音声認識装置であって、
前記入力ゲイン制御部は、前記推定した入力音声信号の振幅分布における振幅の分布範囲のダイナミックレンジが、前記音声認識エンジンの入力レンジのダイナミックレンジを越える場合には、前記推定した入力音声信号の振幅分布における振幅の分布範囲のうちの、前記音声認識エンジンの入力レンジのダイナミックレンジと同じダイナミックレンジとなる範囲部分であって、当該範囲分布内の度数の合計が最大となる部分範囲を選定し、選定した部分範囲を前記入力アンプで増幅した後の範囲が、前記音声認識エンジンの入力レンジと一致するように、前記入力アンプのゲインを設定することを特徴とする音声認識装置。