JP2004317776A

JP2004317776A - 音響特性校正装置、方法およびプログラム並びにそのプログラムを記録した記録媒体

Info

Publication number: JP2004317776A
Application number: JP2003111394A
Authority: JP
Inventors: Toshio Akaha; 俊夫赤羽
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2003-04-16
Filing date: 2003-04-16
Publication date: 2004-11-11

Abstract

【課題】組み込み型の音声認識装置に好ましく適用でき、入力音響特性を補正して音声認識性能を改善できる音響特性校正装置を提供すること。
【解決手段】基準信号を入力して音声分析の基準となる基準データとする基準信号入力手段１０１を備える。基準信号と同一源の、音声入力手段を通して得られた対象データを入力する対象データ入力手段１０５を備える。基準データと対象データのサンプリング周波数および位相を同期させる同期手段１０２を備える。同期された基準データと対象データをそれぞれ周波数スペクトルを表す基準音響パラメータと対象音響パラメータへ変換する音響分析手段１０３を備える。基準音響パラメータと対象音響パラメータとの間の平均的な差を校正データとして求める校正データ生成手段１０４を備える。また、校正データを出力する校正データ出力手段１０５を備える。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
この発明は音響特性校正装置に関し、より詳しくは、音声認識装置の認識性能を向上させるために、入力音響特性を校正するための校正データを生成する装置に関する。
【０００２】
なお、音声認識装置は、典型的には、汎用コンピュータや携帯電話や小型の情報端末（ＰＤＡ（パーソナル・デジタル・アシスタンツ）など）などで音声認識プログラムを実行する要素によって構成される。
【０００３】
【従来の技術】
音声認識技術においては、一般に音声を短時間に区切った各時刻における周波数スペクトル形状を表現する音響パラメータを用いて、音素や単語、文といった単位で入力音声を認識する。さらに不特定話者の音声を認識する場合は、多数の話者の音声データをもとに、各音素や各単語の持つ音響パラメータの時間的変化を予め統計的に求めておき、認識装置を製造する時点で組みこんでおく。これらの統計データを一般に音響モデルと呼ぶ。音響パラメータは、マイクロホンやオートゲインコントロールアンプ、アナログデジタル変換装置（Ａ／Ｄコンバータ）などの持つ入力音響特性によって影響される。統計量を求めるために多数の話者の音声を収録した時の入力音響特性を基準音響特性と呼ぶことにする。高い認識精度を得るためには、統計量を求める時に使用した入力系の特性と認識装置の入力系の特性とはほぼ同一である必要がある。
【０００４】
しかし、音声認識装置が携帯電話や小型の情報端末などに組み込まれている場合は、サイズや形状、コストの制約があるため、基準音響特性と同じ入力音響特性を持たせることはできない。逆にこのような機器毎に多数の話者の音声を収録し、統計を求める方法は製造コストが大きくなるため現実的ではない。そのため、認識装置の音響特性と基準音響特性の差を予め求めておき、統計量を求めるための多数の話者の音声をこの特性差を使って認識装置の音響特性に変換して統計を求めることが考えられる。これにより、機器のコストは大幅に削減される。また逆に、認識装置に入力した音声をこの特性差を用いて基準音響特性に近づけることも可能である。この場合は統計学習が不要になるため、開発期間を短縮できる。
【０００５】
音響特性を測定するには、一般に白色雑音やスイープ信号などの基準信号をスピーカで再生してマイクロホンに入力すればよいが、音声認識装置のようにマイクロホンから数ｃｍから数十ｃｍ程度の近距離で人間が発声する場合は、口による音声の放射特性の影響が無視できないため、スピーカから基準信号を出力する方法では正確な音響特性が求められない。人が発声した音声を基準の入力系と認識装置の入力系とでそれぞれ収録し、それら２つの入力系の間の特性差を求める方法が最も簡単で正確に特性差を得る方法である。
【０００６】
従来、基準マイクロホンと認識用マイクロホンを同時に同期して音声収録することにより、マイクロホン間の周波数特性差を求め、周波数特性を補正する方式が知られている（例えば、特許文献１参照。）。
【０００７】
【特許文献１】
特開平１０−１０５１９１号公報
【０００８】
【発明が解決しようとする課題】
しかしながら、上述の特許文献１の方式では、次の▲１▼〜▲５▼のような問題がある。
【０００９】
▲１▼ 組み込み型では使えない
特許文献１の方式は、汎用コンピュータのように任意のマイクロホンを２つ同時に接続できる装置においては実現可能であるが、一般的な携帯電話や小型の情報端末など、２つのマイクロホンを同時に接続して音声入力できないような機器では利用できない。つまり、そのような機器に音声認識装置が組み込まれている態様（これを「組み込み型」と呼ぶ。）では、現実問題として使えない。
【００１０】
▲２▼ 必要なのはマイクロホンの特性だけではない
入力音響特性には、単にマイクロホンの周波数特性だけでなく、マイクアンプの特性や、オートゲインコントロールの有無、Ａ／Ｄコンバータの特性、機器内の雑音の特性などの要素が影響する。このため、これらの要素を総合的に加味して取り込まれた音声データの特性を比較する必要がある。
【００１１】
▲３▼ サンプリング周波数が異なる
組み込み型の音声認識装置の場合は、汎用コンピュータに比して計算能力や音声入力部の性能が制限されるため、音響モデル作成時に学習した音声データのサンプリング周波数よりも、一般に低いサンプリング周波数を用いる。このため、サンプリング周波数を統一した後でなければ音響特性の比較ができない。
【００１２】
▲４▼ 同期がとれない
基準マイクロホンと認識用マイクロホンとで同じ入力を同時に収録することは可能であるが、録音開始や終了を全く同期させることはできない。さらに、サンプリング周波数は回路構成によって限定されるため、仕様上のサンプリング周波数と実際の装置のサンプリング周波数は微妙に異なる場合がある。従って仕様上のサンプリング周波数の比に従ってサンプリング変換を行ったとしても、完全に同じサンプリング周波数になるとは限らず、サンプリング周波数の異なるデータの同期をとることはできない。
【００１３】
同期がとれないまま周波数特性を計測した場合、入力信号が定常の場合は長時間スペクトルから平均的な特性差を得ることができるが、音声信号のように時間的に特性が変化する信号の場合は、特性の差が正確に求められない。
【００１４】
▲５▼ 雑音特性が異なる
組み込み型の場合は、汎用コンピュータとはＡ／Ｄ変換のビット数も異なり、回路に混入する雑音のスペクトルやパワーも大きく異なる。従って、基準信号がない区間や基準信号のパワーが非常に小さい区間（これらを「無音区間」と呼ぶ。）を含んだままで校正データを求めると、無音区間での雑音特性の差の影響により、校正データが誤りを含んだものとなる。無音区間では、データに含まれる基準信号よりも、校正装置内部や認識装置内部の雑音のほうが大きいため、データはマイクロホン入力に対する音響特性を反映しないからである。
【００１５】
そこで、この発明の課題は、組み込み型の音声認識装置に好ましく適用でき、入力音響特性を補正して音声認識性能を改善できる音響特性校正装置、方法およびプログラムを提供することにある。
【００１６】
また、この発明の課題は、そのようなプログラムを記録した記録媒体を提供することにある。
【００１７】
【課題を解決するための手段】
上記課題を解決するため、この発明の音響特性校正装置は、
基準信号を入力して音声分析の基準となる基準データとする基準信号入力手段と、
上記基準信号と同一源の、音声入力手段を通して得られた対象データを入力する対象データ入力手段と、
上記基準信号入力手段からの基準データと上記対象データ入力手段からの対象データのサンプリング周波数および位相を同期させる同期手段と、
上記同期手段によって同期された基準データと対象データをそれぞれ周波数スペクトルを表す基準音響パラメータと対象音響パラメータへ変換する音響分析手段と、
上記音響分析手段により変換された基準音響パラメータと対象音響パラメータとの間の平均的な差を校正データとして求める校正データ生成手段と、
上記校正データ生成手段によって求められた校正データを出力する校正データ出力手段と、を備える。
【００１８】
ここで、基準となるマイクロホンを通して音声が入力されて、上記「基準信号」が得られる。例えば、この音響特性校正装置がパーソナルコンピュータなどの汎用コンピュータの要素を用いて構成される場合は、基準となるマイクロホンが汎用コンピュータに接続されて、その基準となるマイクロホンを通して音声が入力される。
【００１９】
「音声入力手段」は、音声認識装置（又はそれが組み込まれた機器）（以下、適宜「認識装置」と略称する。）の構成要素をなす。認識装置のマイクロホンを通して上記音声と同じ音声が入力されて、上記基準信号と同一源の対象データが得られる。
【００２０】
本発明の音響特性校正装置は次のような作用効果を奏する。操作者が例えば基準信号として数秒から数十秒の音声を発声して、この音響特性校正装置と認識装置とで同時に音声入力を行う。基準信号入力手段は、基準となるマイクロホンを通して基準信号を入力して音声分析の基準となる基準データとする。収録と同時に、あるいは収録が終了した後に、認識装置のマイクロホンを通して入力された対象データが音響特性校正装置に転送される。対象データ入力手段は、校正対象となる対象データを入力する。同期手段は、例えばサンプリング変換を行って、上記基準信号入力手段からの基準データと上記対象データ入力手段からの対象データのサンプリング周波数および位相を同期させる。音響分析手段は、上記同期手段によって同期された基準データと対象データをそれぞれ周波数スペクトルを表す基準音響パラメータと対象音響パラメータへ変換する。校正データ生成手段は、上記音響分析手段により変換された基準音響パラメータと対象音響パラメータとの間の平均的な差を校正データとして求める。このようにして、携帯電話や小型の情報端末のような組み込み型の音声認識装置の入力音響特性を補正するための校正データを、簡単な操作で短時間に生成することができる。校正データ出力手段は、上記校正データ生成手段によって求められた校正データを出力する。この校正データは、例えばケーブルを通して又は記録媒体に記録された態様で、認識装置に転送される。認識装置では、次回からの認識動作時に、統計処理を行うことなく、この校正データを用いて入力音響特性を補正することによって、高い認識率を得ることができる。
【００２１】
このように、この音響特性校正装置によれば、組み込み型の音声認識装置の入力音響特性を補正して音声認識性能を改善できる。しかも、認識装置は、統計学習が不要になるため、開発期間が短く、低コストになる。
【００２２】
一実施形態の音響特性校正装置では、上記同期手段は、
上記基準データのサンプリング周波数を上記対象データのサンプリング周波数へ仕様上の変換比に基づいて周波数変換して、上記基準データと対象データとを粗く同期させ、
上記粗く同期した基準データと対象データとの間の時間的なずれに基づいて、上記二つのサンプリング周波数の間の正確な変換比を求め、
上記正確な変換比に基づいて上記基準データのサンプリング周波数を上記対象データのサンプリング周波数へ周波数変換して、上記基準データと対象データとを同期させること特徴とする。
【００２３】
上記基準データのサンプリング周波数と上記対象データのサンプリング周波数とは、それぞれ仕様から既知であるものとする。
【００２４】
また、「粗く同期」させるとは、「正確な変換比」に基づいて正確に「同期」させる場合と区別するための相対的な表現であり、粗さの程度を問わない。
【００２５】
同様に、「正確な変換比」とは、「仕様上の変換比」と区別するための表現であり、正確さの程度を問わない。
【００２６】
この一実施形態の音響特性校正装置では、上記同期手段は、まず、上記基準データのサンプリング周波数を上記対象データのサンプリング周波数へ仕様上の変換比に基づいて周波数変換して、上記基準データと対象データとを粗く同期させる。続いて、上記粗く同期した基準データと対象データとの間の時間的なずれに基づいて、上記二つのサンプリング周波数の間の正確な変換比を求める。そして、上記正確な変換比に基づいて、上記基準データのサンプリング周波数を上記対象データのサンプリング周波数へ周波数変換して、上記基準データと対象データとを同期させる。これにより、上記基準データと対象データとを正確に同期させることができる。このように正確に同期がとれるので、正確な校正データが生成される。
【００２７】
なお、上記粗く同期した基準データと対象データとの間の時間的なずれは、例えば基準データと対象データとをそれぞれ同じサンプル数を含むフレーム（期間）で分割して、対応するフレーム同士で両データ間の相関をとることによって求められる。ただし、フレームの長さは、上記基準データと対象データとの間の時間のずれの最大値よりも長いことが必要である。
【００２８】
一実施形態の音響特性校正装置では、
上記音響分析手段は、上記同期手段によって同期された基準データと対象データを、それぞれフレーム毎に基準音響パラメータと対象音響パラメータへ変換し、
上記校正データ生成手段は、上記フレーム毎の基準音響パラメータと対象音響パラメータとの間の差を、複数のフレームにわたって上記基準データの状態に応じた重みを付けて平均して、上記校正データとすることを特徴とする。
【００２９】
ここで、上記基準データの「状態」とは、例えば基準データのパワーが小さい無音状態や、基準データのパワーが大きい音声状態を指す。
【００３０】
既述のように、無音区間を含んだままで校正データを求めると、無音区間での雑音特性の差の影響により、校正データが誤りを含んだものとなる。そこで、この一実施形態の音響特性校正装置では、上記音響分析手段は、上記同期手段によって同期された基準データと対象データを、それぞれフレーム毎に基準音響パラメータと対象音響パラメータへ変換する。そして、上記校正データ生成手段は、上記フレーム毎の基準音響パラメータと対象音響パラメータとの間の差を、複数のフレームにわたって上記基準データの状態に応じた重みを付けて平均して、上記校正データとする。これにより、上記基準データの状態に応じた校正データが生成される。例えば無音区間では基準データのパワーが小さいので、それに対応した校正データが生成される一方、音声区間では基準データのパワーが大きいので、それに対応した校正データが生成される。この結果、認識装置では、校正装置内部や認識装置内部の雑音特性の影響をあまり受けずに、音響特性の校正を行うことができる。したがって、さらに高い認識率を得ることができる。
【００３１】
また、この発明の音響特性校正方法は、
基準信号を入力して音声分析の基準となる基準データとする基準信号入力ステップと、
上記基準信号と同一源の、音声入力手段を通して得られた対象データを入力する対象データ入力ステップと、
上記基準信号入力手段からの基準データと上記対象データ入力手段からの対象データのサンプリング周波数および位相を同期させる同期ステップと、
上記同期された基準データと対象データをそれぞれ周波数スペクトルを表す基準音響パラメータと対象音響パラメータへ変換する音響分析ステップと、
上記基準音響パラメータと対象音響パラメータとの間の平均的な差を校正データとして求める校正データ生成ステップと、
上記校正データを出力する校正データ出力ステップと、
を有する。
【００３２】
この発明の音響特性校正方法を実行すれば、上述の音響特性校正装置の作用効果と同じ作用効果を奏することができる。
【００３３】
また、この発明の音響特性校正プログラムは、
基準信号を入力して音声分析の基準となる基準データとする基準信号入力ステップと、
上記基準信号と同一源の、音声入力手段を通して得られた対象データを入力する対象データ入力ステップと、
上記基準信号入力手段からの基準データと上記対象データ入力手段からの対象データのサンプリング周波数および位相を同期させる同期ステップと、
上記同期された基準データと対象データをそれぞれ周波数スペクトルを表す基準音響パラメータと対象音響パラメータへ変換する音響分析ステップと、
上記基準音響パラメータと対象音響パラメータとの間の平均的な差を校正データとして求める校正データ生成ステップと、
上記校正データを出力する校正データ出力ステップと、
をコンピュータに実行させるための音響特性校正プログラムである。
【００３４】
この発明の音響特性校正プログラムをコンピュータに実行させれば、上述の音響特性校正装置の作用効果と同じ作用効果を奏する。
【００３５】
また、この発明の記録媒体は、
基準信号を入力して音声分析の基準となる基準データとする基準信号入力ステップと、
上記基準信号と同一源の、音声入力手段を通して得られた対象データを入力する対象データ入力ステップと、
上記基準信号入力手段からの基準データと上記対象データ入力手段からの対象データのサンプリング周波数および位相を同期させる同期ステップと、
上記同期された基準データと対象データをそれぞれ周波数スペクトルを表す基準音響パラメータと対象音響パラメータへ変換する音響分析ステップと、
上記基準音響パラメータと対象音響パラメータとの間の平均的な差を校正データとして求める校正データ生成ステップと、
上記校正データを出力する校正データ出力ステップと、
をコンピュータに実行させるための音響特性校正プログラムを記録したコンピュータ読み取り可能な記録媒体である。
【００３６】
この記録媒体に記録した音響特性校正プログラムをコンピュータに実行させれば、上述の音響特性校正装置の作用効果と同じ作用効果を奏する。
【００３７】
この記録媒体は、パーソナルコンピュータなどの汎用コンピュータに着脱可能な形態、例えばリムーバブルディスクの形態をとるのが望ましい。そのようにした場合、例えばパーソナルコンピュータに上記記録媒体を装着して上記音響特性校正プログラムを読み取らせることにより、上記音響特性校正装置を構成することができる。この結果、一般ユーザでも、組み込み型音声認識装置の音響特性を校正することが容易になり、マイクロホンを変えたり、設置方法を変えたりが自由に行えるようになる。
【００３８】
一実施形態の音響特性校正装置では、上記同期手段は、上記正確な変換比に基づいて上記基準データと対象データとを同期させる処理を所定のフレーム毎に行うこと特徴とする。
【００３９】
この一実施形態の音響特性校正装置では、上記同期手段は、上記正確な変換比に基づいて上記基準データと対象データとを同期させる処理を所定のフレーム毎に行う。したがって、上記基準データのサンプリング周波数や上記対象データのサンプリング周波数が時間的に揺らいだとしても、その揺らぎに対して動的に追従することができ、上記基準データと対象データとを正確に同期させることができる。
【００４０】
一実施形態の音響特性校正装置では、上記基準データの状態は基準データのパワーの大小であることを特徴とする。
【００４１】
この一実施形態の音響特性校正装置では、上記校正データ生成手段によって、上記基準データのパワーの大小に応じた校正データが生成される。例えば無音区間では基準データのパワーが小さいので、それに対応した校正データが生成される一方、音声区間では基準データのパワーが大きいので、それに対応した校正データが生成される。この結果、認識装置では、校正装置内部や認識装置内部の雑音特性の影響をあまり受けずに、音響特性の校正を行うことができる。したがって、さらに高い認識率を得ることができる。
【００４２】
【発明の実施の形態】
以下、この発明を図示の実施の形態により詳細に説明する。
【００４３】
図８は音声認識装置８００のブロック構成を示し、図１はその音声認識装置８００の入力音響特性を校正するための一実施形態の音響特性校正装置１００のブロック構成を示している。以下では、認識装置８００、校正装置１００というように適宜略称する。
【００４４】
図８に示す認識装置８００は、一般的な音声認識装置が備える音声入力手段８０１、音響分析手段８０２、音響特性補正手段８０３、音響モデル８０６、言語モデル８０７および照合手段８０５に加えて、対象データ出力手段８０８および校正データ記憶手段８０４を備えている。
【００４５】
音声入力手段８０１はマイクロホンなどから入力した音声信号を増幅し、Ａ／Ｄ変換器を使ってデジタルデータとする。
【００４６】
音響分析手段８０２は、音声データを、音声を短時間に区切った各時刻における周波数スペクトル形状を表現する音響パラメータへ変換する。この例では、音響パラメータの種類として、一般的なＬＰＣ（線形予測）ケプストラム係数や、メル周波数ケプストラム係数を用いている。
【００４７】
音響特性補正手段８０３は、校正データ記憶部８０４に記憶された校正データを認識対象の音響パラメータに加算することで、認識対象の音響パラメータを、基準音響特性（統計量を求めるために多数の話者の音声を収録した時の入力音響特性）の音響パラメータにより近いものへ変換する。
【００４８】
照合手段８０５は、音響モデル８０６と言語モデル８０７を参照しながら入力の音響パラメータ時系列に最も近い認識結果を検索して、出力する。
【００４９】
対象データ出力手段８０８は、音声入力手段８０１でデジタルに変換されたデータを校正装置１００へ転送するために、ケーブル接続またはメモリーカードのような外部記憶装置へ出力する手段である。校正データを単に使うだけであれば対象データ出力手段８０８は必ずしも必要ではない。
【００５０】
校正データ記憶部８０４は、校正装置１００が出力した校正データを記憶し、保持する。
【００５１】
図１に示す校正装置１００は、基準信号入力手段１０１、対象データ入力手段１０５、同期手段１０２、音響分析手段１０３、校正データ生成手段１０４および校正データ出力手段１０６を備えている。
【００５２】
基準信号入力手段１０１は、この校正装置１００に外部から接続された基準マイクの音声信号を入力し、基準となるマイクアンプで増幅し、基準となるＡ／Ｄ変換器で基準データとなるデジタルデータへ変換する。ここで基準マイク、基準マイクアンプ、基準Ａ／Ｄ変換器としては、認識装置８００に使用される統計的音響モデルを学習する際に使用した音声データを収録したものと同じ特性であることが望ましいが、必ずしも同じ装置である必要はない。条件としては、校正対象となる認識装置８００が使用している音声帯域内の特性が十分に近ければよく、一般にパーソナルコンピュータで使用されている高品位の入力機器の程度であれば、基準信号入力手段として利用できる。
【００５３】
対象データ入力手段１０５は、認識装置８００で入力した校正対象となるデータを校正装置１００に取り込むための手段であり、認識装置８００の仕様に応じて、ケーブル接続や、赤外線通信で転送するか、あるいはメモリーカードなどの外部記憶装置を介して取り込むことができればよい。対象データは、スピーカから出た基準信号または話者が発声した音声を、基準信号入力手段１０１で入力するとともに認識装置８００の音声入力手段８０１を用いて入力したものである必要がある。ただし、必ずしも録音の開始や終了が全く同時である必要はなく、後で述べる同期手段で同期を取ることができる程度に１秒以内というような範囲のずれであれば許容できる。従って録音の開始と終了を操作者あるいは発声者が手動で切り替えてもよい。言いかえれば、認識装置８００に特別な同期手段を設ける必要はなく、基準データと対象データとが同一源のものであれば良い。
【００５４】
なお、校正のために入力する基準信号は、スピーカで再生するよりも、人が直接発声するほうが口による放射特性の影響も特性差に含めることができるので望ましい。ただし、音声帯域が十分含まれた信号であれば特に限定するものではない。
【００５５】
同期手段１０２は、概して言うと、基準信号入力手段１０１からの基準データと対象データ入力手段１０５からの対象データのサンプリング周波数および位相を同期させる。基準データを対象データと同じ周波数に変換するほうが、校正データの生成に適しているため、ここでは基準データを対象データの周波数に変換して同期を取る例を示す。
【００５６】
この同期手段１０２は、具体的には図２に示すように、第１のサンプリング変換部２０１、相関演算部２０２、周波数ずれ検出部２０３、第２のサンプリング変換部２０４および同期部２０５によって構成される。
【００５７】
まず、第１のサンプリング変換部２０１は、基準データのサンプリング周波数を対象データのサンプリング周波数へ仕様上の変換比に基づいて周波数変換する。基準データの仕様上のサンプリング周波数をＦｒとし、対象データの仕様上のサンプリング周波数をＦｔとすると、仕様上の変換比は、
Ｆｔ／Ｆｒ …（１）
で表される。ただし、この第１のサンプリング変換部２０１による周波数変換は粗く同期を行うに過ぎず、実際には僅かにずれることがある。何故ならＡ／Ｄ変換装置に与えるクロックは高周波数の水晶発振子の信号を分周して得るため、任意の周波数が得られるわけではない。例えばサンプリング周波数が仕様上はコンパクトディスクの４分の１の標準的な１１０２５Ｈｚであっても、実際には１１００５Ｈｚであるという場合もあり得る。この場合、１００秒の基準信号を使ったときに０．２秒程度のずれが生じる。仮にこのような基準データと対象データとの間の時間的なずれが解消されなければ、基準データと対象データとの間の特性差が誤差を含んだものになる。
【００５８】
そこで、上述の時間的なずれを解消するために、まず相関演算部２０２は、粗く同期した基準データと対象データとをそれぞれ同じサンプル数を含むフレーム（期間）で分割して、対応するフレーム同士で両データの相関をとる。ただし、フレームの長さは、上記時間的なずれの想定される最大値よりも十分に長く設定しておく。例えば、
フレームの長さをＬ（サンプル）、
フレームの更新周期をＭ（秒）、
フレーム（ｎ）での基準データをＸｎ（ｉ）、
対象データをＹｎ（ｉ）とすると、
基準データと対象データとの間の相関は次式（２）で求められる。
【００５９】
【数１】

ただし、−Ｌ／２＜ｔ＜Ｌ／２である。
【００６０】
周波数ずれ検出部２０３は、各フレームの相関Ｒｎ（ｔ）が最大となるようなｔを次式（３）によって求める
【００６１】
【数２】

【００６２】
次にＴ（ｎ）（ｎ＝１，．．．，Ｎ）に対して、一次回帰係数ｂを求めることで、フレーム毎のサンプルずれの推移を求める。ここではフレームｎでのずれを表す一次回帰直線を次式（４）
【数３】

で表して、誤差最小となるような定数ａとｂを回帰分析によって求める。
【００６３】
そして、この求めた定数ａを用いて、次式（５）によって、上記二つのサンプリング周波数の間の正確な変換比を求める。
【００６４】
（Ｆｔ−ａ／Ｍ）／Ｆｒ …（５）
ここで、Ｍはフレームのシフト量をサンプルで表した数字である。
【００６５】
次に、第２のサンプリング変換部２０４は、この正確な変換比を用いて、基準データのサンプリング周波数を対象データのサンプリング周波数へ再度周波数変換して、基準データの周波数と対象データの周波数とを正確に一致させる。
【００６６】
そして、同期部２０５は、正確に周波数を一致させた基準データと対象データの全体または一部の相互相関を求め、最も相関の強くなる時間ずれを検出し、その値に応じて基準データをずらすか、あるいは対象データをずらして、上記基準データと対象データとを正確に同期させる。
【００６７】
さらに、同期部２０５は、この基準データと対象データとを正確に同期させる処理を、分析のための１０ｍｓから２０ｍｓといった短時間のフレーム毎に行う。これにより、基準データのサンプリング周波数や対象データのサンプリング周波数が時間的に揺らいだとしても、その揺らぎに対して動的に追従することができ、基準データと対象データとを正確に同期させることができる。これにより、認識装置８００のサンプリング周波数に揺らぎがあり、サンプリング周波数の精度があまり高くない場合であっても、後述する校正データ生成手段１０４において基準データと対象データとの間の特性差をより正確に求めることができる。
【００６８】
このようにして、同期手段１０２は、基準データと対象データのサンプリング周波数および位相を同期させる。
【００６９】
図１中に示す音響分析手段１０３は、同期手段１０２によって同期された基準データと対象データを、１０ｍｓから２０ｍｓといった短時間のフレーム毎に、それぞれ周波数スペクトルを表す基準音響パラメータと対象音響パラメータへ変換する。これらの音響パラメータの種類としては、対数スペクトルや、周波数軸をメル周波数に変換したメル対数スペクトルの各周波数毎のゲイン、あるいはＬＰＣ（線形予測）ケプストラム係数や、メル周波数ケプストラム係数などが挙げられる。ケプストラム係数は、対数スペクトルの形状を線形変換したものと等価なため、これらの差を求めることは、入力装置の周波数特性の比を求めることに等しい。音響パラメータとして対数スペクトルとケプストラム係数とのいずれに変換しても同じ効果が得られるが、認識装置８００が用いるのと同じ音響分析方法を用いて音響パラメータに変換するのが最も効率がよい。従って、この例では、ＬＰＣケプストラム係数やメル周波数ケプストラム係数を用いるものとする。
【００７０】
校正データ生成手段１０４は、音響分析手段１０３により変換された基準音響パラメータと対象音響パラメータとの間の平均的な差を、上記各フレーム毎に校正データとして求める。ただし、基準信号がない区間や基準信号のパワーが非常に小さい区間（これらを「無音区間」と呼ぶ。）では、データに含まれる基準信号よりも、校正装置１００内部や認識装置８００内部の雑音のほうが大きいため、無音区間のデータやパラメータはマイクロホン入力に対する音響特性を反映しない。そこで、校正データを求める際に、基準信号の状態、この例では基準信号のパワーの大小に応じた重みをつけて平均処理を行う。例えば、
フレームｎの基準データのパワーをＰｎデシベル（ｄＢ）、
フレームｎのパラメータ差の重みをＷｎ、
フレームｎの基準データのパラメータベクトルをＺｎ（ｋ）、
フレームｎの対象データのパラメータベクトルをＵｎ（ｋ）、
フレーム数をＮとすると、
校正データＡ（ｋ）は次式（６）によって求められる。
【００７１】
【数４】

ここで、重みＷｎを
Ｗｎ＝Ｐｎ …（７）
とすると、入力の大きいところに重みを置いた平均となる。
【００７２】
なお、これ以外にも、対象データのパワーを使用することもできるし、無音部分のパワーをＱｎとして、別途求めておき、
Ｗｎ＝Ｍｉｎ（Ｍａｘ（Ｐｎ−Ｑｎ，０），１０） …（８）
とすることで、雑音部分の影響を除くことができる。
【００７３】
また逆に、
Ｗｎ＝Ｍｉｎ（Ｍａｘ（Ｑｎ−Ｐｎ），０），１０） …（９）
とすることで、雑音部分だけの校正データを求めることもできる。雑音部分だけの校正データは、認識装置８００において、入力の小さい時に使用される。これにより、雑音区間での特性を適切に補正することができる。
【００７４】
この校正データ生成手段１０４は、具体的には図３に示すように、差分演算部３０２、重み計算部３０１および重み付き平均部３０３によって構成される。
【００７５】
差分演算部３０２は、入力された基準パラメータ系列Ｚｎと対象パラメータ系列Ｕｎとから、差分（Ｚｎ−Ｕｎ）を求める。これと並行して、重み計算部３０１は、基準データのパラメータに含まれるパワーの情報Ｐｎを用いて重みＷｎを求める。そして、重み付き平均部３０３は、上述の式（６）（７）にしたがって重み付き平均を計算して校正データＡ（ｋ）を求める。
【００７６】
図１中に示す校正データ出力手段１０５は、校正データ生成手段１０４によって求められた校正データＡ（ｋ）を出力する。この校正データＡ（ｋ）は、ケーブル接続またはメモリーカードなどの外部記憶装置を介して、認識装置８００へ転送される。
【００７７】
認識装置８００は、校正データＡ（ｋ）を図８中に示す校正データ記憶部８０４に格納する。そして、既述のように、音響特性補正手段８０３が、校正データ記憶部８０４に記憶された校正データを認識対象の音響パラメータに加算することで、認識対象の音響パラメータを基準音響特性の音響パラメータにより近いものへ変換する。したがって、認識装置８００では統計処理を行うことなく、この校正データＡ（ｋ）を用いて入力音響特性を補正することによって、高い認識率を得ることができる。
【００７８】
認識装置８００では、校正データを用いて入力音響特性を補正する代わりに、音声認識を実行するのに先だって、予め認識装置８００内部の音響モデルの各パラメータに対して、逆符号に適用することにより、同様の補正効果を得る事ができる。この場合、認識時には入力の音響特性を補正する必要がないため、認識処理が少しだけ軽減される。また、予め音響モデルを変更する処理は認識装置で行うかわりに、認識装置外のコンピュータなどでオフラインに処理してから認識装置に転送しても構わない。
【００７９】
また、音響特性補正手段８０３が入力音声のパワーに応じて校正データＡ（ｋ）を適用することによって、入力音響特性をさらに正確に補正することができる。例えば無音区間でのパワーに比べて入力音声のパワーが或る閾値を超えた時は音声と判断して音声区間での校正データを適用し、入力音声のパワーがその閾値以下である場合は無音と判断して無音区間での校正データを適用する。これにより、入力音響特性をさらに正確に補正することができる。さらに、入力音声のパワーに応じて、音声区間での校正データと無音区間での校正データとを徐々に切り替えて適用することも、効果がある。
【００８０】
上記の処理を音響モデルに適用するには、音響モデルが雑音のモデルと音声のモデルに内部的に分離可能な場合、雑音モデルには無音区間の校正データを、音声モデルには音声区間の校正データを、それぞれ逆符号で適用する事により近似的に処理できる。また、音響モデルの学習データが利用でき、再学習が可能であれば、音響モデル学習用音声データに対して、音声データのパワーに応じた校正データを逆符号で適用し、擬似的に認識装置の特性を持たせた学習音声データを作成し、この音声データ用いて音響モデルを再学習する事で、より高精度の音響モデルを作成する事ができる。
【００８１】
図７は、上述の音声認識装置８００をＰＤＡ７０２の要素で組み込み型として構成し、音響特性校正装置１００をパーソナルコンピュータ７０４の要素で構成した実施形態を示している。
【００８２】
この例では、音声認識装置８００は、ＰＤＡ７０２にインストールされた市販の録音プログラム及び音声認識プログラムによって実現される。ＰＤＡ７０２はその本体に図示しないマイクロホン（内蔵マイク）を備えている。
【００８３】
音響特性校正装置１００は、パーソナルコンピュータ７０４上で動作する音響特性校正プログラムによって実現される。音響特性校正プログラムは、この例では記録媒体としてのフロッピーディスク７０５に記憶されている。記録媒体は、フロッピーディスクに限られるものではなく、内蔵ディスクや、コンパクトディスクなどであっても良い。
【００８４】
パーソナルコンピュータ７０４には基準マイク７０１が接続されている。この例ではパーソナルコンピュータ７０４に内蔵されたマイクアンプやＡ／Ｄ変換器はサンプリング周波数や、周波数特性、歪み特性、ノイズ特性などに関して十分な性能を持っていることを前提としているが、それらの性能が不充分な場合は、十分な性能を持つマイクアンプとＡ／Ｄ変換器をパーソナルコンピュータ７０４の外部に接続してもよい。
【００８５】
操作者は、パーソナルコンピュータ７０４の音響特性校正プログラムおよびＰＤＡ７０２の録音プログラムを操作するとともに、基準マイク７０１とＰＤＡ７０２の内蔵マイクに向かって単語あるいは文章を発声し、パーソナルコンピュータ７０４とＰＤＡ７０２とでほぼ同時に録音を行う。
【００８６】
録音を行った後、操作者はメモリーカード７０３を使用してＰＤＡ７０２からパーソナルコンピュータ７０４へ録音データを転送し、パーソナルコンピュータ７０４において、音響特性校正プログラムによる校正データ生成のための処理を開始する。校正データが生成されると、操作者はメモリーカード７０３を使用してパーソナルコンピュータ７０４からＰＤＡ７０２へその校正データを転送する。
【００８７】
その後は、ＰＤＡ７０２において、その校正データを使用して音響特性を補正しながら、音声認識が実行される。
【００８８】
図４は上述の音響特性校正プログラムの流れを示している。この音響特性校正プログラムは次のようにして処理を実行する。
【００８９】
まずＳ１０１において、音声入力インタフェースから基準信号を取り出して、音声分析の基準となる基準データとする（基準信号入力ステップ）。
【００９０】
次にＳ１０２において、通信インタフェースあるいは外部記憶インタフェースから、上記基準信号と同一源の対象データを取り出す（対象データ入力ステップ）。
【００９１】
次にＳ１０３では、基準データをサンプリング変換して、基準データと対象データのサンプリング周波数および位相を同期させる（同期ステップ）。
【００９２】
Ｓ１０４では、同期された基準データと対象データをそれぞれ音響分析する（音響分析ステップ）。これにより、基準データと対象データを、短時間のフレーム毎に、それぞれ周波数スペクトルを表す基準音響パラメータと対象音響パラメータへ変換する。
【００９３】
Ｓ１０５では、上記基準音響パラメータと対象音響パラメータとの間の平均的な差を、各フレーム毎に校正データとして求める（校正データ生成ステップ）。
【００９４】
Ｓ１０６では、求められた校正データを、通信インタフェースあるいは外部記憶インタフェースを介して出力する（校正データ出力ステップ）。
【００９５】
図５は同期ステップ（図４中のＳ１０３）の詳細な流れを示している。
【００９６】
Ｓ２０１では、基準データのサンプリング周波数を対象データのサンプリング周波数へ仕様上の変換比に基づいて周波数変換（サンプリング変換）して、基準データと対象データとを粗く同期させる。
【００９７】
Ｓ２０２では、各フレームで基準データと対象データの相関を求める。
【００９８】
Ｓ２０３では、各フレームの相関のピークを求め、一次回帰係数ａを求める。これにより、上記二つのサンプリング周波数の間の正確な変換比を求める。
【００９９】
Ｓ２０４では、その正確な変換比に基づいて基準データのサンプリング周波数を対象データのサンプリング周波数へを再度サンプリング変換する。
【０１００】
Ｓ２０５では、基準データと対象データとの相関を用いて、周波数および位相の観点から、基準データと対象データの全体の同期をとる。
【０１０１】
図６は校正データ生成ステップ（図４中のＳ１０５）の詳細な流れを示している。
【０１０２】
Ｓ３０１では、ｉ番目のフレームに含まれた基準音響パラメータと対象音響パラメータを入力する。
【０１０３】
Ｓ３０２では、ステップＳ３０１で入力した基準音響パラメータと対象音響パラメータとの間の差を求める。
【０１０４】
Ｓ３０３では、ステップＳ３０２で求めた基準音響パラメータと対象音響パラメータとの間の差にパワーを考慮した重みをつけて、累積加算するとともに、重みの総和を累積加算する。
【０１０５】
Ｓ３０４では、残りのデータ有無を判断して、データがまだ続く場合は次のフレームの処理を行う一方、残りのデータが無くなった場合は次のステップＳ３０５へ進む。
【０１０６】
Ｓ３０５では、累積加算したパラメータの重み付き和を、重みの総和で割ることにより、校正データを求める。
【０１０７】
【発明の効果】
以上より明らかなように、この発明の音響特性校正装置、方法およびプログラムは、組み込み型の音声認識装置に好ましく適用でき、入力音響特性を補正して音声認識性能を改善できる。
【０１０８】
また、この発明の記録媒体に記録した音響特性校正プログラムをコンピュータに実行させれば、同じ作用効果を奏することができる。
【図面の簡単な説明】
【図１】この発明の一実施形態の音響特性校正装置のブロック構成を示す図である。
【図２】上記音響特性校正装置の同期手段の具体的な構成を示す図である。
【図３】上記音響特性校正装置の校正データ生成手段の具体的な構成を示す図である。
【図４】この発明の一実施形態の音響特性校正プログラムの流れを示す図である。
【図５】上記音響特性校正プログラムにおける同期ステップの詳細な流れを示す図である。
【図６】上記音響特性校正プログラムにおける校正データ生成ステップの詳細な流れを示す図である。
【図７】音声認識装置をＰＤＡの要素で組み込み型として構成し、音響特性校正装置をパーソナルコンピュータの要素で構成した実施形態を示す図である。
【図８】図１の音響特性校正装置を適用すべき音声認識装置のブロック構成を示す図である。
【符号の説明】
１００音声特性校正装置
１０１基準信号入力手段
１０２同期手段
１０３音響分析手段
１０４校正データ生成手段
１０５対象データ入力手段
１０６校正データ出力手段
７０１基準マイク
７０２ＰＤＡ（認識装置）
７０３メモリーカード
７０５外部記憶装置
８００パーソナルコンピュータ

Claims

基準信号を入力して音声分析の基準となる基準データとする基準信号入力手段と、
上記基準信号と同一源の、音声入力手段を通して得られた対象データを入力する対象データ入力手段と、
上記基準信号入力手段からの基準データと上記対象データ入力手段からの対象データのサンプリング周波数および位相を同期させる同期手段と、
上記同期手段によって同期された基準データと対象データをそれぞれ周波数スペクトルを表す基準音響パラメータと対象音響パラメータへ変換する音響分析手段と、
上記音響分析手段により変換された基準音響パラメータと対象音響パラメータとの間の平均的な差を校正データとして求める校正データ生成手段と、
上記校正データ生成手段によって求められた校正データを出力する校正データ出力手段と、を備えた音響特性校正装置。
請求項１に記載の音響特性校正装置において、
上記同期手段は、
上記基準データのサンプリング周波数を上記対象データのサンプリング周波数へ仕様上の変換比に基づいて周波数変換して、上記基準データと対象データとを粗く同期させ、
上記粗く同期した基準データと対象データとの間の時間的なずれに基づいて、上記二つのサンプリング周波数の間の正確な変換比を求め、
上記正確な変換比に基づいて上記基準データのサンプリング周波数を上記対象データのサンプリング周波数へ周波数変換して、上記基準データと対象データとを同期させること特徴とする音響特性校正装置。
請求項１に記載の音響特性校正装置において、
上記音響分析手段は、上記同期手段によって同期された基準データと対象データを、それぞれフレーム毎に基準音響パラメータと対象音響パラメータへ変換し、
上記校正データ生成手段は、上記フレーム毎の基準音響パラメータと対象音響パラメータとの間の差を、複数のフレームにわたって上記基準データの状態に応じた重みを付けて平均して、上記校正データとすることを特徴とする音響特性校正装置。
基準信号を入力して音声分析の基準となる基準データとする基準信号入力ステップと、
上記基準信号と同一源の、音声入力手段を通して得られた対象データを入力する対象データ入力ステップと、
上記基準信号入力手段からの基準データと上記対象データ入力手段からの対象データのサンプリング周波数および位相を同期させる同期ステップと、
上記同期された基準データと対象データをそれぞれ周波数スペクトルを表す基準音響パラメータと対象音響パラメータへ変換する音響分析ステップと、
上記基準音響パラメータと対象音響パラメータとの間の平均的な差を校正データとして求める校正データ生成ステップと、
上記校正データを出力する校正データ出力ステップと、
を有する音響特性校正方法。
基準信号を入力して音声分析の基準となる基準データとする基準信号入力ステップと、
上記基準信号と同一源の、音声入力手段を通して得られた対象データを入力する対象データ入力ステップと、
上記基準信号入力手段からの基準データと上記対象データ入力手段からの対象データのサンプリング周波数および位相を同期させる同期ステップと、
上記同期された基準データと対象データをそれぞれ周波数スペクトルを表す基準音響パラメータと対象音響パラメータへ変換する音響分析ステップと、
上記基準音響パラメータと対象音響パラメータとの間の平均的な差を校正データとして求める校正データ生成ステップと、
上記校正データを出力する校正データ出力ステップと、
をコンピュータに実行させるための音響特性校正プログラム。
基準信号を入力して音声分析の基準となる基準データとする基準信号入力ステップと、
上記基準信号と同一源の、音声入力手段を通して得られた対象データを入力する対象データ入力ステップと、
上記基準信号入力手段からの基準データと上記対象データ入力手段からの対象データのサンプリング周波数および位相を同期させる同期ステップと、
上記同期された基準データと対象データをそれぞれ周波数スペクトルを表す基準音響パラメータと対象音響パラメータへ変換する音響分析ステップと、
上記基準音響パラメータと対象音響パラメータとの間の平均的な差を校正データとして求める校正データ生成ステップと、
上記校正データを出力する校正データ出力ステップと、
をコンピュータに実行させるための音響特性校正プログラムを記録したコンピュータ読み取り可能な記録媒体。
請求項２に記載の音響特性校正装置において、
上記同期手段は、上記正確な変換比に基づいて上記基準データと対象データとを同期させる処理を所定のフレーム毎に行うこと特徴とする音響特性校正装置。
請求項３に記載の音響特性校正装置において、
上記基準データの状態は基準データのパワーの大小であることを特徴とする音響特性校正装置。