JP2004317776A - 音響特性校正装置、方法およびプログラム並びにそのプログラムを記録した記録媒体 - Google Patents

音響特性校正装置、方法およびプログラム並びにそのプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP2004317776A
JP2004317776A JP2003111394A JP2003111394A JP2004317776A JP 2004317776 A JP2004317776 A JP 2004317776A JP 2003111394 A JP2003111394 A JP 2003111394A JP 2003111394 A JP2003111394 A JP 2003111394A JP 2004317776 A JP2004317776 A JP 2004317776A
Authority
JP
Japan
Prior art keywords
data
acoustic
target
calibration
target data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003111394A
Other languages
English (en)
Inventor
Toshio Akaha
俊夫 赤羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2003111394A priority Critical patent/JP2004317776A/ja
Publication of JP2004317776A publication Critical patent/JP2004317776A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】組み込み型の音声認識装置に好ましく適用でき、入力音響特性を補正して音声認識性能を改善できる音響特性校正装置を提供すること。
【解決手段】基準信号を入力して音声分析の基準となる基準データとする基準信号入力手段101を備える。基準信号と同一源の、音声入力手段を通して得られた対象データを入力する対象データ入力手段105を備える。基準データと対象データのサンプリング周波数および位相を同期させる同期手段102を備える。同期された基準データと対象データをそれぞれ周波数スペクトルを表す基準音響パラメータと対象音響パラメータへ変換する音響分析手段103を備える。基準音響パラメータと対象音響パラメータとの間の平均的な差を校正データとして求める校正データ生成手段104を備える。また、校正データを出力する校正データ出力手段105を備える。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
この発明は音響特性校正装置に関し、より詳しくは、音声認識装置の認識性能を向上させるために、入力音響特性を校正するための校正データを生成する装置に関する。
【0002】
なお、音声認識装置は、典型的には、汎用コンピュータや携帯電話や小型の情報端末(PDA(パーソナル・デジタル・アシスタンツ)など)などで音声認識プログラムを実行する要素によって構成される。
【0003】
【従来の技術】
音声認識技術においては、一般に音声を短時間に区切った各時刻における周波数スペクトル形状を表現する音響パラメータを用いて、音素や単語、文といった単位で入力音声を認識する。さらに不特定話者の音声を認識する場合は、多数の話者の音声データをもとに、各音素や各単語の持つ音響パラメータの時間的変化を予め統計的に求めておき、認識装置を製造する時点で組みこんでおく。これらの統計データを一般に音響モデルと呼ぶ。音響パラメータは、マイクロホンやオートゲインコントロールアンプ、アナログデジタル変換装置(A/Dコンバータ)などの持つ入力音響特性によって影響される。統計量を求めるために多数の話者の音声を収録した時の入力音響特性を基準音響特性と呼ぶことにする。高い認識精度を得るためには、統計量を求める時に使用した入力系の特性と認識装置の入力系の特性とはほぼ同一である必要がある。
【0004】
しかし、音声認識装置が携帯電話や小型の情報端末などに組み込まれている場合は、サイズや形状、コストの制約があるため、基準音響特性と同じ入力音響特性を持たせることはできない。逆にこのような機器毎に多数の話者の音声を収録し、統計を求める方法は製造コストが大きくなるため現実的ではない。そのため、認識装置の音響特性と基準音響特性の差を予め求めておき、統計量を求めるための多数の話者の音声をこの特性差を使って認識装置の音響特性に変換して統計を求めることが考えられる。これにより、機器のコストは大幅に削減される。また逆に、認識装置に入力した音声をこの特性差を用いて基準音響特性に近づけることも可能である。この場合は統計学習が不要になるため、開発期間を短縮できる。
【0005】
音響特性を測定するには、一般に白色雑音やスイープ信号などの基準信号をスピーカで再生してマイクロホンに入力すればよいが、音声認識装置のようにマイクロホンから数cmから数十cm程度の近距離で人間が発声する場合は、口による音声の放射特性の影響が無視できないため、スピーカから基準信号を出力する方法では正確な音響特性が求められない。人が発声した音声を基準の入力系と認識装置の入力系とでそれぞれ収録し、それら2つの入力系の間の特性差を求める方法が最も簡単で正確に特性差を得る方法である。
【0006】
従来、基準マイクロホンと認識用マイクロホンを同時に同期して音声収録することにより、マイクロホン間の周波数特性差を求め、周波数特性を補正する方式が知られている(例えば、特許文献1参照。)。
【0007】
【特許文献1】
特開平10−105191号公報
【0008】
【発明が解決しようとする課題】
しかしながら、上述の特許文献1の方式では、次の▲1▼〜▲5▼のような問題がある。
【0009】
▲1▼ 組み込み型では使えない
特許文献1の方式は、汎用コンピュータのように任意のマイクロホンを2つ同時に接続できる装置においては実現可能であるが、一般的な携帯電話や小型の情報端末など、2つのマイクロホンを同時に接続して音声入力できないような機器では利用できない。つまり、そのような機器に音声認識装置が組み込まれている態様(これを「組み込み型」と呼ぶ。)では、現実問題として使えない。
【0010】
▲2▼ 必要なのはマイクロホンの特性だけではない
入力音響特性には、単にマイクロホンの周波数特性だけでなく、マイクアンプの特性や、オートゲインコントロールの有無、A/Dコンバータの特性、機器内の雑音の特性などの要素が影響する。このため、これらの要素を総合的に加味して取り込まれた音声データの特性を比較する必要がある。
【0011】
▲3▼ サンプリング周波数が異なる
組み込み型の音声認識装置の場合は、汎用コンピュータに比して計算能力や音声入力部の性能が制限されるため、音響モデル作成時に学習した音声データのサンプリング周波数よりも、一般に低いサンプリング周波数を用いる。このため、サンプリング周波数を統一した後でなければ音響特性の比較ができない。
【0012】
▲4▼ 同期がとれない
基準マイクロホンと認識用マイクロホンとで同じ入力を同時に収録することは可能であるが、録音開始や終了を全く同期させることはできない。さらに、サンプリング周波数は回路構成によって限定されるため、仕様上のサンプリング周波数と実際の装置のサンプリング周波数は微妙に異なる場合がある。従って仕様上のサンプリング周波数の比に従ってサンプリング変換を行ったとしても、完全に同じサンプリング周波数になるとは限らず、サンプリング周波数の異なるデータの同期をとることはできない。
【0013】
同期がとれないまま周波数特性を計測した場合、入力信号が定常の場合は長時間スペクトルから平均的な特性差を得ることができるが、音声信号のように時間的に特性が変化する信号の場合は、特性の差が正確に求められない。
【0014】
▲5▼ 雑音特性が異なる
組み込み型の場合は、汎用コンピュータとはA/D変換のビット数も異なり、回路に混入する雑音のスペクトルやパワーも大きく異なる。従って、基準信号がない区間や基準信号のパワーが非常に小さい区間(これらを「無音区間」と呼ぶ。)を含んだままで校正データを求めると、無音区間での雑音特性の差の影響により、校正データが誤りを含んだものとなる。無音区間では、データに含まれる基準信号よりも、校正装置内部や認識装置内部の雑音のほうが大きいため、データはマイクロホン入力に対する音響特性を反映しないからである。
【0015】
そこで、この発明の課題は、組み込み型の音声認識装置に好ましく適用でき、入力音響特性を補正して音声認識性能を改善できる音響特性校正装置、方法およびプログラムを提供することにある。
【0016】
また、この発明の課題は、そのようなプログラムを記録した記録媒体を提供することにある。
【0017】
【課題を解決するための手段】
上記課題を解決するため、この発明の音響特性校正装置は、
基準信号を入力して音声分析の基準となる基準データとする基準信号入力手段と、
上記基準信号と同一源の、音声入力手段を通して得られた対象データを入力する対象データ入力手段と、
上記基準信号入力手段からの基準データと上記対象データ入力手段からの対象データのサンプリング周波数および位相を同期させる同期手段と、
上記同期手段によって同期された基準データと対象データをそれぞれ周波数スペクトルを表す基準音響パラメータと対象音響パラメータへ変換する音響分析手段と、
上記音響分析手段により変換された基準音響パラメータと対象音響パラメータとの間の平均的な差を校正データとして求める校正データ生成手段と、
上記校正データ生成手段によって求められた校正データを出力する校正データ出力手段と、を備える。
【0018】
ここで、基準となるマイクロホンを通して音声が入力されて、上記「基準信号」が得られる。例えば、この音響特性校正装置がパーソナルコンピュータなどの汎用コンピュータの要素を用いて構成される場合は、基準となるマイクロホンが汎用コンピュータに接続されて、その基準となるマイクロホンを通して音声が入力される。
【0019】
「音声入力手段」は、音声認識装置(又はそれが組み込まれた機器)(以下、適宜「認識装置」と略称する。)の構成要素をなす。認識装置のマイクロホンを通して上記音声と同じ音声が入力されて、上記基準信号と同一源の対象データが得られる。
【0020】
本発明の音響特性校正装置は次のような作用効果を奏する。操作者が例えば基準信号として数秒から数十秒の音声を発声して、この音響特性校正装置と認識装置とで同時に音声入力を行う。基準信号入力手段は、基準となるマイクロホンを通して基準信号を入力して音声分析の基準となる基準データとする。収録と同時に、あるいは収録が終了した後に、認識装置のマイクロホンを通して入力された対象データが音響特性校正装置に転送される。対象データ入力手段は、校正対象となる対象データを入力する。同期手段は、例えばサンプリング変換を行って、上記基準信号入力手段からの基準データと上記対象データ入力手段からの対象データのサンプリング周波数および位相を同期させる。音響分析手段は、上記同期手段によって同期された基準データと対象データをそれぞれ周波数スペクトルを表す基準音響パラメータと対象音響パラメータへ変換する。校正データ生成手段は、上記音響分析手段により変換された基準音響パラメータと対象音響パラメータとの間の平均的な差を校正データとして求める。このようにして、携帯電話や小型の情報端末のような組み込み型の音声認識装置の入力音響特性を補正するための校正データを、簡単な操作で短時間に生成することができる。校正データ出力手段は、上記校正データ生成手段によって求められた校正データを出力する。この校正データは、例えばケーブルを通して又は記録媒体に記録された態様で、認識装置に転送される。認識装置では、次回からの認識動作時に、統計処理を行うことなく、この校正データを用いて入力音響特性を補正することによって、高い認識率を得ることができる。
【0021】
このように、この音響特性校正装置によれば、組み込み型の音声認識装置の入力音響特性を補正して音声認識性能を改善できる。しかも、認識装置は、統計学習が不要になるため、開発期間が短く、低コストになる。
【0022】
一実施形態の音響特性校正装置では、上記同期手段は、
上記基準データのサンプリング周波数を上記対象データのサンプリング周波数へ仕様上の変換比に基づいて周波数変換して、上記基準データと対象データとを粗く同期させ、
上記粗く同期した基準データと対象データとの間の時間的なずれに基づいて、上記二つのサンプリング周波数の間の正確な変換比を求め、
上記正確な変換比に基づいて上記基準データのサンプリング周波数を上記対象データのサンプリング周波数へ周波数変換して、上記基準データと対象データとを同期させること特徴とする。
【0023】
上記基準データのサンプリング周波数と上記対象データのサンプリング周波数とは、それぞれ仕様から既知であるものとする。
【0024】
また、「粗く同期」させるとは、「正確な変換比」に基づいて正確に「同期」させる場合と区別するための相対的な表現であり、粗さの程度を問わない。
【0025】
同様に、「正確な変換比」とは、「仕様上の変換比」と区別するための表現であり、正確さの程度を問わない。
【0026】
この一実施形態の音響特性校正装置では、上記同期手段は、まず、上記基準データのサンプリング周波数を上記対象データのサンプリング周波数へ仕様上の変換比に基づいて周波数変換して、上記基準データと対象データとを粗く同期させる。続いて、上記粗く同期した基準データと対象データとの間の時間的なずれに基づいて、上記二つのサンプリング周波数の間の正確な変換比を求める。そして、上記正確な変換比に基づいて、上記基準データのサンプリング周波数を上記対象データのサンプリング周波数へ周波数変換して、上記基準データと対象データとを同期させる。これにより、上記基準データと対象データとを正確に同期させることができる。このように正確に同期がとれるので、正確な校正データが生成される。
【0027】
なお、上記粗く同期した基準データと対象データとの間の時間的なずれは、例えば基準データと対象データとをそれぞれ同じサンプル数を含むフレーム(期間)で分割して、対応するフレーム同士で両データ間の相関をとることによって求められる。ただし、フレームの長さは、上記基準データと対象データとの間の時間のずれの最大値よりも長いことが必要である。
【0028】
一実施形態の音響特性校正装置では、
上記音響分析手段は、上記同期手段によって同期された基準データと対象データを、それぞれフレーム毎に基準音響パラメータと対象音響パラメータへ変換し、
上記校正データ生成手段は、上記フレーム毎の基準音響パラメータと対象音響パラメータとの間の差を、複数のフレームにわたって上記基準データの状態に応じた重みを付けて平均して、上記校正データとすることを特徴とする。
【0029】
ここで、上記基準データの「状態」とは、例えば基準データのパワーが小さい無音状態や、基準データのパワーが大きい音声状態を指す。
【0030】
既述のように、無音区間を含んだままで校正データを求めると、無音区間での雑音特性の差の影響により、校正データが誤りを含んだものとなる。そこで、この一実施形態の音響特性校正装置では、上記音響分析手段は、上記同期手段によって同期された基準データと対象データを、それぞれフレーム毎に基準音響パラメータと対象音響パラメータへ変換する。そして、上記校正データ生成手段は、上記フレーム毎の基準音響パラメータと対象音響パラメータとの間の差を、複数のフレームにわたって上記基準データの状態に応じた重みを付けて平均して、上記校正データとする。これにより、上記基準データの状態に応じた校正データが生成される。例えば無音区間では基準データのパワーが小さいので、それに対応した校正データが生成される一方、音声区間では基準データのパワーが大きいので、それに対応した校正データが生成される。この結果、認識装置では、校正装置内部や認識装置内部の雑音特性の影響をあまり受けずに、音響特性の校正を行うことができる。したがって、さらに高い認識率を得ることができる。
【0031】
また、この発明の音響特性校正方法は、
基準信号を入力して音声分析の基準となる基準データとする基準信号入力ステップと、
上記基準信号と同一源の、音声入力手段を通して得られた対象データを入力する対象データ入力ステップと、
上記基準信号入力手段からの基準データと上記対象データ入力手段からの対象データのサンプリング周波数および位相を同期させる同期ステップと、
上記同期された基準データと対象データをそれぞれ周波数スペクトルを表す基準音響パラメータと対象音響パラメータへ変換する音響分析ステップと、
上記基準音響パラメータと対象音響パラメータとの間の平均的な差を校正データとして求める校正データ生成ステップと、
上記校正データを出力する校正データ出力ステップと、
を有する。
【0032】
この発明の音響特性校正方法を実行すれば、上述の音響特性校正装置の作用効果と同じ作用効果を奏することができる。
【0033】
また、この発明の音響特性校正プログラムは、
基準信号を入力して音声分析の基準となる基準データとする基準信号入力ステップと、
上記基準信号と同一源の、音声入力手段を通して得られた対象データを入力する対象データ入力ステップと、
上記基準信号入力手段からの基準データと上記対象データ入力手段からの対象データのサンプリング周波数および位相を同期させる同期ステップと、
上記同期された基準データと対象データをそれぞれ周波数スペクトルを表す基準音響パラメータと対象音響パラメータへ変換する音響分析ステップと、
上記基準音響パラメータと対象音響パラメータとの間の平均的な差を校正データとして求める校正データ生成ステップと、
上記校正データを出力する校正データ出力ステップと、
をコンピュータに実行させるための音響特性校正プログラムである。
【0034】
この発明の音響特性校正プログラムをコンピュータに実行させれば、上述の音響特性校正装置の作用効果と同じ作用効果を奏する。
【0035】
また、この発明の記録媒体は、
基準信号を入力して音声分析の基準となる基準データとする基準信号入力ステップと、
上記基準信号と同一源の、音声入力手段を通して得られた対象データを入力する対象データ入力ステップと、
上記基準信号入力手段からの基準データと上記対象データ入力手段からの対象データのサンプリング周波数および位相を同期させる同期ステップと、
上記同期された基準データと対象データをそれぞれ周波数スペクトルを表す基準音響パラメータと対象音響パラメータへ変換する音響分析ステップと、
上記基準音響パラメータと対象音響パラメータとの間の平均的な差を校正データとして求める校正データ生成ステップと、
上記校正データを出力する校正データ出力ステップと、
をコンピュータに実行させるための音響特性校正プログラムを記録したコンピュータ読み取り可能な記録媒体である。
【0036】
この記録媒体に記録した音響特性校正プログラムをコンピュータに実行させれば、上述の音響特性校正装置の作用効果と同じ作用効果を奏する。
【0037】
この記録媒体は、パーソナルコンピュータなどの汎用コンピュータに着脱可能な形態、例えばリムーバブルディスクの形態をとるのが望ましい。そのようにした場合、例えばパーソナルコンピュータに上記記録媒体を装着して上記音響特性校正プログラムを読み取らせることにより、上記音響特性校正装置を構成することができる。この結果、一般ユーザでも、組み込み型音声認識装置の音響特性を校正することが容易になり、マイクロホンを変えたり、設置方法を変えたりが自由に行えるようになる。
【0038】
一実施形態の音響特性校正装置では、上記同期手段は、上記正確な変換比に基づいて上記基準データと対象データとを同期させる処理を所定のフレーム毎に行うこと特徴とする。
【0039】
この一実施形態の音響特性校正装置では、上記同期手段は、上記正確な変換比に基づいて上記基準データと対象データとを同期させる処理を所定のフレーム毎に行う。したがって、上記基準データのサンプリング周波数や上記対象データのサンプリング周波数が時間的に揺らいだとしても、その揺らぎに対して動的に追従することができ、上記基準データと対象データとを正確に同期させることができる。
【0040】
一実施形態の音響特性校正装置では、上記基準データの状態は基準データのパワーの大小であることを特徴とする。
【0041】
この一実施形態の音響特性校正装置では、上記校正データ生成手段によって、上記基準データのパワーの大小に応じた校正データが生成される。例えば無音区間では基準データのパワーが小さいので、それに対応した校正データが生成される一方、音声区間では基準データのパワーが大きいので、それに対応した校正データが生成される。この結果、認識装置では、校正装置内部や認識装置内部の雑音特性の影響をあまり受けずに、音響特性の校正を行うことができる。したがって、さらに高い認識率を得ることができる。
【0042】
【発明の実施の形態】
以下、この発明を図示の実施の形態により詳細に説明する。
【0043】
図8は音声認識装置800のブロック構成を示し、図1はその音声認識装置800の入力音響特性を校正するための一実施形態の音響特性校正装置100のブロック構成を示している。以下では、認識装置800、校正装置100というように適宜略称する。
【0044】
図8に示す認識装置800は、一般的な音声認識装置が備える音声入力手段801、音響分析手段802、音響特性補正手段803、音響モデル806、言語モデル807および照合手段805に加えて、対象データ出力手段808および校正データ記憶手段804を備えている。
【0045】
音声入力手段801はマイクロホンなどから入力した音声信号を増幅し、A/D変換器を使ってデジタルデータとする。
【0046】
音響分析手段802は、音声データを、音声を短時間に区切った各時刻における周波数スペクトル形状を表現する音響パラメータへ変換する。この例では、音響パラメータの種類として、一般的なLPC(線形予測)ケプストラム係数や、メル周波数ケプストラム係数を用いている。
【0047】
音響特性補正手段803は、校正データ記憶部804に記憶された校正データを認識対象の音響パラメータに加算することで、認識対象の音響パラメータを、基準音響特性(統計量を求めるために多数の話者の音声を収録した時の入力音響特性)の音響パラメータにより近いものへ変換する。
【0048】
照合手段805は、音響モデル806と言語モデル807を参照しながら入力の音響パラメータ時系列に最も近い認識結果を検索して、出力する。
【0049】
対象データ出力手段808は、音声入力手段801でデジタルに変換されたデータを校正装置100へ転送するために、ケーブル接続またはメモリーカードのような外部記憶装置へ出力する手段である。校正データを単に使うだけであれば対象データ出力手段808は必ずしも必要ではない。
【0050】
校正データ記憶部804は、校正装置100が出力した校正データを記憶し、保持する。
【0051】
図1に示す校正装置100は、基準信号入力手段101、対象データ入力手段105、同期手段102、音響分析手段103、校正データ生成手段104および校正データ出力手段106を備えている。
【0052】
基準信号入力手段101は、この校正装置100に外部から接続された基準マイクの音声信号を入力し、基準となるマイクアンプで増幅し、基準となるA/D変換器で基準データとなるデジタルデータへ変換する。ここで基準マイク、基準マイクアンプ、基準A/D変換器としては、認識装置800に使用される統計的音響モデルを学習する際に使用した音声データを収録したものと同じ特性であることが望ましいが、必ずしも同じ装置である必要はない。条件としては、校正対象となる認識装置800が使用している音声帯域内の特性が十分に近ければよく、一般にパーソナルコンピュータで使用されている高品位の入力機器の程度であれば、基準信号入力手段として利用できる。
【0053】
対象データ入力手段105は、認識装置800で入力した校正対象となるデータを校正装置100に取り込むための手段であり、認識装置800の仕様に応じて、ケーブル接続や、赤外線通信で転送するか、あるいはメモリーカードなどの外部記憶装置を介して取り込むことができればよい。対象データは、スピーカから出た基準信号または話者が発声した音声を、基準信号入力手段101で入力するとともに認識装置800の音声入力手段801を用いて入力したものである必要がある。ただし、必ずしも録音の開始や終了が全く同時である必要はなく、後で述べる同期手段で同期を取ることができる程度に1秒以内というような範囲のずれであれば許容できる。従って録音の開始と終了を操作者あるいは発声者が手動で切り替えてもよい。言いかえれば、認識装置800に特別な同期手段を設ける必要はなく、基準データと対象データとが同一源のものであれば良い。
【0054】
なお、校正のために入力する基準信号は、スピーカで再生するよりも、人が直接発声するほうが口による放射特性の影響も特性差に含めることができるので望ましい。ただし、音声帯域が十分含まれた信号であれば特に限定するものではない。
【0055】
同期手段102は、概して言うと、基準信号入力手段101からの基準データと対象データ入力手段105からの対象データのサンプリング周波数および位相を同期させる。基準データを対象データと同じ周波数に変換するほうが、校正データの生成に適しているため、ここでは基準データを対象データの周波数に変換して同期を取る例を示す。
【0056】
この同期手段102は、具体的には図2に示すように、第1のサンプリング変換部201、相関演算部202、周波数ずれ検出部203、第2のサンプリング変換部204および同期部205によって構成される。
【0057】
まず、第1のサンプリング変換部201は、基準データのサンプリング周波数を対象データのサンプリング周波数へ仕様上の変換比に基づいて周波数変換する。基準データの仕様上のサンプリング周波数をFrとし、対象データの仕様上のサンプリング周波数をFtとすると、仕様上の変換比は、
Ft/Fr …(1)
で表される。ただし、この第1のサンプリング変換部201による周波数変換は粗く同期を行うに過ぎず、実際には僅かにずれることがある。何故ならA/D変換装置に与えるクロックは高周波数の水晶発振子の信号を分周して得るため、任意の周波数が得られるわけではない。例えばサンプリング周波数が仕様上はコンパクトディスクの4分の1の標準的な11025Hzであっても、実際には11005Hzであるという場合もあり得る。この場合、100秒の基準信号を使ったときに0.2秒程度のずれが生じる。仮にこのような基準データと対象データとの間の時間的なずれが解消されなければ、基準データと対象データとの間の特性差が誤差を含んだものになる。
【0058】
そこで、上述の時間的なずれを解消するために、まず相関演算部202は、粗く同期した基準データと対象データとをそれぞれ同じサンプル数を含むフレーム(期間)で分割して、対応するフレーム同士で両データの相関をとる。ただし、フレームの長さは、上記時間的なずれの想定される最大値よりも十分に長く設定しておく。例えば、
フレームの長さをL(サンプル)、
フレームの更新周期をM(秒)、
フレーム(n)での基準データをXn(i)、
対象データをYn(i)とすると、
基準データと対象データとの間の相関は次式(2)で求められる。
【0059】
【数1】
Figure 2004317776
ただし、−L/2<t<L/2である。
【0060】
周波数ずれ検出部203は、各フレームの相関Rn(t)が最大となるようなtを次式(3)によって求める
【0061】
【数2】
Figure 2004317776
【0062】
次にT(n)(n=1,...,N)に対して、一次回帰係数bを求めることで、フレーム毎のサンプルずれの推移を求める。ここではフレームnでのずれを表す一次回帰直線を次式(4)
【数3】
Figure 2004317776
で表して、誤差最小となるような定数aとbを回帰分析によって求める。
【0063】
そして、この求めた定数aを用いて、次式(5)によって、上記二つのサンプリング周波数の間の正確な変換比を求める。
【0064】
(Ft−a/M)/Fr …(5)
ここで、Mはフレームのシフト量をサンプルで表した数字である。
【0065】
次に、第2のサンプリング変換部204は、この正確な変換比を用いて、基準データのサンプリング周波数を対象データのサンプリング周波数へ再度周波数変換して、基準データの周波数と対象データの周波数とを正確に一致させる。
【0066】
そして、同期部205は、正確に周波数を一致させた基準データと対象データの全体または一部の相互相関を求め、最も相関の強くなる時間ずれを検出し、その値に応じて基準データをずらすか、あるいは対象データをずらして、上記基準データと対象データとを正確に同期させる。
【0067】
さらに、同期部205は、この基準データと対象データとを正確に同期させる処理を、分析のための10msから20msといった短時間のフレーム毎に行う。これにより、基準データのサンプリング周波数や対象データのサンプリング周波数が時間的に揺らいだとしても、その揺らぎに対して動的に追従することができ、基準データと対象データとを正確に同期させることができる。これにより、認識装置800のサンプリング周波数に揺らぎがあり、サンプリング周波数の精度があまり高くない場合であっても、後述する校正データ生成手段104において基準データと対象データとの間の特性差をより正確に求めることができる。
【0068】
このようにして、同期手段102は、基準データと対象データのサンプリング周波数および位相を同期させる。
【0069】
図1中に示す音響分析手段103は、同期手段102によって同期された基準データと対象データを、10msから20msといった短時間のフレーム毎に、それぞれ周波数スペクトルを表す基準音響パラメータと対象音響パラメータへ変換する。これらの音響パラメータの種類としては、対数スペクトルや、周波数軸をメル周波数に変換したメル対数スペクトルの各周波数毎のゲイン、あるいはLPC(線形予測)ケプストラム係数や、メル周波数ケプストラム係数などが挙げられる。ケプストラム係数は、対数スペクトルの形状を線形変換したものと等価なため、これらの差を求めることは、入力装置の周波数特性の比を求めることに等しい。音響パラメータとして対数スペクトルとケプストラム係数とのいずれに変換しても同じ効果が得られるが、認識装置800が用いるのと同じ音響分析方法を用いて音響パラメータに変換するのが最も効率がよい。従って、この例では、LPCケプストラム係数やメル周波数ケプストラム係数を用いるものとする。
【0070】
校正データ生成手段104は、音響分析手段103により変換された基準音響パラメータと対象音響パラメータとの間の平均的な差を、上記各フレーム毎に校正データとして求める。ただし、基準信号がない区間や基準信号のパワーが非常に小さい区間(これらを「無音区間」と呼ぶ。)では、データに含まれる基準信号よりも、校正装置100内部や認識装置800内部の雑音のほうが大きいため、無音区間のデータやパラメータはマイクロホン入力に対する音響特性を反映しない。そこで、校正データを求める際に、基準信号の状態、この例では基準信号のパワーの大小に応じた重みをつけて平均処理を行う。例えば、
フレームnの基準データのパワーをPnデシベル(dB)、
フレームnのパラメータ差の重みをWn、
フレームnの基準データのパラメータベクトルをZn(k)、
フレームnの対象データのパラメータベクトルをUn(k)、
フレーム数をNとすると、
校正データA(k)は次式(6)によって求められる。
【0071】
【数4】
Figure 2004317776
ここで、重みWnを
Wn=Pn …(7)
とすると、入力の大きいところに重みを置いた平均となる。
【0072】
なお、これ以外にも、対象データのパワーを使用することもできるし、無音部分のパワーをQnとして、別途求めておき、
Wn=Min(Max(Pn−Qn,0),10) …(8)
とすることで、雑音部分の影響を除くことができる。
【0073】
また逆に、
Wn=Min(Max(Qn−Pn),0),10) …(9)
とすることで、雑音部分だけの校正データを求めることもできる。雑音部分だけの校正データは、認識装置800において、入力の小さい時に使用される。これにより、雑音区間での特性を適切に補正することができる。
【0074】
この校正データ生成手段104は、具体的には図3に示すように、差分演算部302、重み計算部301および重み付き平均部303によって構成される。
【0075】
差分演算部302は、入力された基準パラメータ系列Znと対象パラメータ系列Unとから、差分(Zn−Un)を求める。これと並行して、重み計算部301は、基準データのパラメータに含まれるパワーの情報Pnを用いて重みWnを求める。そして、重み付き平均部303は、上述の式(6)(7)にしたがって重み付き平均を計算して校正データA(k)を求める。
【0076】
図1中に示す校正データ出力手段105は、校正データ生成手段104によって求められた校正データA(k)を出力する。この校正データA(k)は、ケーブル接続またはメモリーカードなどの外部記憶装置を介して、認識装置800へ転送される。
【0077】
認識装置800は、校正データA(k)を図8中に示す校正データ記憶部804に格納する。そして、既述のように、音響特性補正手段803が、校正データ記憶部804に記憶された校正データを認識対象の音響パラメータに加算することで、認識対象の音響パラメータを基準音響特性の音響パラメータにより近いものへ変換する。したがって、認識装置800では統計処理を行うことなく、この校正データA(k)を用いて入力音響特性を補正することによって、高い認識率を得ることができる。
【0078】
認識装置800では、校正データを用いて入力音響特性を補正する代わりに、音声認識を実行するのに先だって、予め認識装置800内部の音響モデルの各パラメータに対して、逆符号に適用することにより、同様の補正効果を得る事ができる。この場合、認識時には入力の音響特性を補正する必要がないため、認識処理が少しだけ軽減される。また、予め音響モデルを変更する処理は認識装置で行うかわりに、認識装置外のコンピュータなどでオフラインに処理してから認識装置に転送しても構わない。
【0079】
また、音響特性補正手段803が入力音声のパワーに応じて校正データA(k)を適用することによって、入力音響特性をさらに正確に補正することができる。例えば無音区間でのパワーに比べて入力音声のパワーが或る閾値を超えた時は音声と判断して音声区間での校正データを適用し、入力音声のパワーがその閾値以下である場合は無音と判断して無音区間での校正データを適用する。これにより、入力音響特性をさらに正確に補正することができる。さらに、入力音声のパワーに応じて、音声区間での校正データと無音区間での校正データとを徐々に切り替えて適用することも、効果がある。
【0080】
上記の処理を音響モデルに適用するには、音響モデルが雑音のモデルと音声のモデルに内部的に分離可能な場合、雑音モデルには無音区間の校正データを、音声モデルには音声区間の校正データを、それぞれ逆符号で適用する事により近似的に処理できる。また、音響モデルの学習データが利用でき、再学習が可能であれば、音響モデル学習用音声データに対して、音声データのパワーに応じた校正データを逆符号で適用し、擬似的に認識装置の特性を持たせた学習音声データを作成し、この音声データ用いて音響モデルを再学習する事で、より高精度の音響モデルを作成する事ができる。
【0081】
図7は、上述の音声認識装置800をPDA702の要素で組み込み型として構成し、音響特性校正装置100をパーソナルコンピュータ704の要素で構成した実施形態を示している。
【0082】
この例では、音声認識装置800は、PDA702にインストールされた市販の録音プログラム及び音声認識プログラムによって実現される。PDA702はその本体に図示しないマイクロホン(内蔵マイク)を備えている。
【0083】
音響特性校正装置100は、パーソナルコンピュータ704上で動作する音響特性校正プログラムによって実現される。音響特性校正プログラムは、この例では記録媒体としてのフロッピーディスク705に記憶されている。記録媒体は、フロッピーディスクに限られるものではなく、内蔵ディスクや、コンパクトディスクなどであっても良い。
【0084】
パーソナルコンピュータ704には基準マイク701が接続されている。この例ではパーソナルコンピュータ704に内蔵されたマイクアンプやA/D変換器はサンプリング周波数や、周波数特性、歪み特性、ノイズ特性などに関して十分な性能を持っていることを前提としているが、それらの性能が不充分な場合は、十分な性能を持つマイクアンプとA/D変換器をパーソナルコンピュータ704の外部に接続してもよい。
【0085】
操作者は、パーソナルコンピュータ704の音響特性校正プログラムおよびPDA702の録音プログラムを操作するとともに、基準マイク701とPDA702の内蔵マイクに向かって単語あるいは文章を発声し、パーソナルコンピュータ704とPDA702とでほぼ同時に録音を行う。
【0086】
録音を行った後、操作者はメモリーカード703を使用してPDA702からパーソナルコンピュータ704へ録音データを転送し、パーソナルコンピュータ704において、音響特性校正プログラムによる校正データ生成のための処理を開始する。校正データが生成されると、操作者はメモリーカード703を使用してパーソナルコンピュータ704からPDA702へその校正データを転送する。
【0087】
その後は、PDA702において、その校正データを使用して音響特性を補正しながら、音声認識が実行される。
【0088】
図4は上述の音響特性校正プログラムの流れを示している。この音響特性校正プログラムは次のようにして処理を実行する。
【0089】
まずS101において、音声入力インタフェースから基準信号を取り出して、音声分析の基準となる基準データとする(基準信号入力ステップ)。
【0090】
次にS102において、通信インタフェースあるいは外部記憶インタフェースから、上記基準信号と同一源の対象データを取り出す(対象データ入力ステップ)。
【0091】
次にS103では、基準データをサンプリング変換して、基準データと対象データのサンプリング周波数および位相を同期させる(同期ステップ)。
【0092】
S104では、同期された基準データと対象データをそれぞれ音響分析する(音響分析ステップ)。これにより、基準データと対象データを、短時間のフレーム毎に、それぞれ周波数スペクトルを表す基準音響パラメータと対象音響パラメータへ変換する。
【0093】
S105では、上記基準音響パラメータと対象音響パラメータとの間の平均的な差を、各フレーム毎に校正データとして求める(校正データ生成ステップ)。
【0094】
S106では、求められた校正データを、通信インタフェースあるいは外部記憶インタフェースを介して出力する(校正データ出力ステップ)。
【0095】
図5は同期ステップ(図4中のS103)の詳細な流れを示している。
【0096】
S201では、基準データのサンプリング周波数を対象データのサンプリング周波数へ仕様上の変換比に基づいて周波数変換(サンプリング変換)して、基準データと対象データとを粗く同期させる。
【0097】
S202では、各フレームで基準データと対象データの相関を求める。
【0098】
S203では、各フレームの相関のピークを求め、一次回帰係数aを求める。これにより、上記二つのサンプリング周波数の間の正確な変換比を求める。
【0099】
S204では、その正確な変換比に基づいて基準データのサンプリング周波数を対象データのサンプリング周波数へを再度サンプリング変換する。
【0100】
S205では、基準データと対象データとの相関を用いて、周波数および位相の観点から、基準データと対象データの全体の同期をとる。
【0101】
図6は校正データ生成ステップ(図4中のS105)の詳細な流れを示している。
【0102】
S301では、i番目のフレームに含まれた基準音響パラメータと対象音響パラメータを入力する。
【0103】
S302では、ステップS301で入力した基準音響パラメータと対象音響パラメータとの間の差を求める。
【0104】
S303では、ステップS302で求めた基準音響パラメータと対象音響パラメータとの間の差にパワーを考慮した重みをつけて、累積加算するとともに、重みの総和を累積加算する。
【0105】
S304では、残りのデータ有無を判断して、データがまだ続く場合は次のフレームの処理を行う一方、残りのデータが無くなった場合は次のステップS305へ進む。
【0106】
S305では、累積加算したパラメータの重み付き和を、重みの総和で割ることにより、校正データを求める。
【0107】
【発明の効果】
以上より明らかなように、この発明の音響特性校正装置、方法およびプログラムは、組み込み型の音声認識装置に好ましく適用でき、入力音響特性を補正して音声認識性能を改善できる。
【0108】
また、この発明の記録媒体に記録した音響特性校正プログラムをコンピュータに実行させれば、同じ作用効果を奏することができる。
【図面の簡単な説明】
【図1】この発明の一実施形態の音響特性校正装置のブロック構成を示す図である。
【図2】上記音響特性校正装置の同期手段の具体的な構成を示す図である。
【図3】上記音響特性校正装置の校正データ生成手段の具体的な構成を示す図である。
【図4】この発明の一実施形態の音響特性校正プログラムの流れを示す図である。
【図5】上記音響特性校正プログラムにおける同期ステップの詳細な流れを示す図である。
【図6】上記音響特性校正プログラムにおける校正データ生成ステップの詳細な流れを示す図である。
【図7】音声認識装置をPDAの要素で組み込み型として構成し、音響特性校正装置をパーソナルコンピュータの要素で構成した実施形態を示す図である。
【図8】図1の音響特性校正装置を適用すべき音声認識装置のブロック構成を示す図である。
【符号の説明】
100 音声特性校正装置
101 基準信号入力手段
102 同期手段
103 音響分析手段
104 校正データ生成手段
105 対象データ入力手段
106 校正データ出力手段
701 基準マイク
702 PDA(認識装置)
703 メモリーカード
705 外部記憶装置
800 パーソナルコンピュータ

Claims (8)

  1. 基準信号を入力して音声分析の基準となる基準データとする基準信号入力手段と、
    上記基準信号と同一源の、音声入力手段を通して得られた対象データを入力する対象データ入力手段と、
    上記基準信号入力手段からの基準データと上記対象データ入力手段からの対象データのサンプリング周波数および位相を同期させる同期手段と、
    上記同期手段によって同期された基準データと対象データをそれぞれ周波数スペクトルを表す基準音響パラメータと対象音響パラメータへ変換する音響分析手段と、
    上記音響分析手段により変換された基準音響パラメータと対象音響パラメータとの間の平均的な差を校正データとして求める校正データ生成手段と、
    上記校正データ生成手段によって求められた校正データを出力する校正データ出力手段と、を備えた音響特性校正装置。
  2. 請求項1に記載の音響特性校正装置において、
    上記同期手段は、
    上記基準データのサンプリング周波数を上記対象データのサンプリング周波数へ仕様上の変換比に基づいて周波数変換して、上記基準データと対象データとを粗く同期させ、
    上記粗く同期した基準データと対象データとの間の時間的なずれに基づいて、上記二つのサンプリング周波数の間の正確な変換比を求め、
    上記正確な変換比に基づいて上記基準データのサンプリング周波数を上記対象データのサンプリング周波数へ周波数変換して、上記基準データと対象データとを同期させること特徴とする音響特性校正装置。
  3. 請求項1に記載の音響特性校正装置において、
    上記音響分析手段は、上記同期手段によって同期された基準データと対象データを、それぞれフレーム毎に基準音響パラメータと対象音響パラメータへ変換し、
    上記校正データ生成手段は、上記フレーム毎の基準音響パラメータと対象音響パラメータとの間の差を、複数のフレームにわたって上記基準データの状態に応じた重みを付けて平均して、上記校正データとすることを特徴とする音響特性校正装置。
  4. 基準信号を入力して音声分析の基準となる基準データとする基準信号入力ステップと、
    上記基準信号と同一源の、音声入力手段を通して得られた対象データを入力する対象データ入力ステップと、
    上記基準信号入力手段からの基準データと上記対象データ入力手段からの対象データのサンプリング周波数および位相を同期させる同期ステップと、
    上記同期された基準データと対象データをそれぞれ周波数スペクトルを表す基準音響パラメータと対象音響パラメータへ変換する音響分析ステップと、
    上記基準音響パラメータと対象音響パラメータとの間の平均的な差を校正データとして求める校正データ生成ステップと、
    上記校正データを出力する校正データ出力ステップと、
    を有する音響特性校正方法。
  5. 基準信号を入力して音声分析の基準となる基準データとする基準信号入力ステップと、
    上記基準信号と同一源の、音声入力手段を通して得られた対象データを入力する対象データ入力ステップと、
    上記基準信号入力手段からの基準データと上記対象データ入力手段からの対象データのサンプリング周波数および位相を同期させる同期ステップと、
    上記同期された基準データと対象データをそれぞれ周波数スペクトルを表す基準音響パラメータと対象音響パラメータへ変換する音響分析ステップと、
    上記基準音響パラメータと対象音響パラメータとの間の平均的な差を校正データとして求める校正データ生成ステップと、
    上記校正データを出力する校正データ出力ステップと、
    をコンピュータに実行させるための音響特性校正プログラム。
  6. 基準信号を入力して音声分析の基準となる基準データとする基準信号入力ステップと、
    上記基準信号と同一源の、音声入力手段を通して得られた対象データを入力する対象データ入力ステップと、
    上記基準信号入力手段からの基準データと上記対象データ入力手段からの対象データのサンプリング周波数および位相を同期させる同期ステップと、
    上記同期された基準データと対象データをそれぞれ周波数スペクトルを表す基準音響パラメータと対象音響パラメータへ変換する音響分析ステップと、
    上記基準音響パラメータと対象音響パラメータとの間の平均的な差を校正データとして求める校正データ生成ステップと、
    上記校正データを出力する校正データ出力ステップと、
    をコンピュータに実行させるための音響特性校正プログラムを記録したコンピュータ読み取り可能な記録媒体。
  7. 請求項2に記載の音響特性校正装置において、
    上記同期手段は、上記正確な変換比に基づいて上記基準データと対象データとを同期させる処理を所定のフレーム毎に行うこと特徴とする音響特性校正装置。
  8. 請求項3に記載の音響特性校正装置において、
    上記基準データの状態は基準データのパワーの大小であることを特徴とする音響特性校正装置。
JP2003111394A 2003-04-16 2003-04-16 音響特性校正装置、方法およびプログラム並びにそのプログラムを記録した記録媒体 Pending JP2004317776A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003111394A JP2004317776A (ja) 2003-04-16 2003-04-16 音響特性校正装置、方法およびプログラム並びにそのプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003111394A JP2004317776A (ja) 2003-04-16 2003-04-16 音響特性校正装置、方法およびプログラム並びにそのプログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2004317776A true JP2004317776A (ja) 2004-11-11

Family

ID=33471961

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003111394A Pending JP2004317776A (ja) 2003-04-16 2003-04-16 音響特性校正装置、方法およびプログラム並びにそのプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2004317776A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020353A (ja) * 2007-07-12 2009-01-29 Yamaha Corp 音響モデル処理装置およびプログラム
JP2011035506A (ja) * 2009-07-30 2011-02-17 Nittobo Acoustic Engineering Co Ltd 音響測定方法及びシステム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020353A (ja) * 2007-07-12 2009-01-29 Yamaha Corp 音響モデル処理装置およびプログラム
JP2011035506A (ja) * 2009-07-30 2011-02-17 Nittobo Acoustic Engineering Co Ltd 音響測定方法及びシステム

Similar Documents

Publication Publication Date Title
US10032461B2 (en) Method and apparatus for generating a speech signal
JP6374028B2 (ja) 音声プロファイルの管理および発話信号の生成
Li et al. DNN-based speech bandwidth expansion and its application to adding high-frequency missing features for automatic speech recognition of narrowband speech.
EP1887831A2 (en) Method, apparatus and program for estimating the direction of a sound source
US10229701B2 (en) Server-side ASR adaptation to speaker, device and noise condition via non-ASR audio transmission
KR20080036897A (ko) 음성 끝점을 검출하기 위한 장치 및 방법
JP2003532162A (ja) 雑音に影響された音声の認識のためのロバストなパラメータ
WO2013132348A2 (en) Formant based speech reconstruction from noisy signals
JP2002268698A (ja) 音声認識装置と標準パターン作成装置及び方法並びにプログラム
JP4858663B2 (ja) 音声認識方法及び音声認識装置
US8868418B2 (en) Receiver intelligibility enhancement system
JP2004317776A (ja) 音響特性校正装置、方法およびプログラム並びにそのプログラムを記録した記録媒体
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP2013537325A (ja) ピッチサイクルエネルギーを判断し、励起信号をスケーリングすること
US20220406295A1 (en) Multi-encoder end-to-end automatic speech recognition (asr) for joint modeling of multiple input devices
Shinozaki et al. Hidden mode HMM using bayesian network for modeling speaking rate fluctuation
Zheng et al. Bandwidth extension WaveNet for bone-conducted speech enhancement
GB2580655A (en) Reducing a noise level of an audio signal of a hearing system
JP4632831B2 (ja) 音声認識方法および音声認識装置
KR100855592B1 (ko) 발성자 거리 특성에 강인한 음성인식 장치 및 그 방법
JP2001356793A (ja) 音声認識装置、及び音声認識方法
JP2003076393A (ja) 騒音環境下における音声推定方法および音声認識方法
KR20070072793A (ko) 오디오 신호용 잡음제거 방법 및 장치
KR100647291B1 (ko) 음성의 특징을 이용한 음성 다이얼링 장치 및 방법
Borský et al. The optimization of PLP feature extraction for LVCSR recognition of MP3 data