JP5230103B2

JP5230103B2 - 自動音声認識器のためのトレーニングデータを生成する方法およびシステム

Info

Publication number: JP5230103B2
Application number: JP2006553731A
Authority: JP
Inventors: フィッシャー，アレクサンダー; ディータービップス，ロルフ
Original assignee: ニュアンスコミュニケーションズ，インコーポレイテッド
Priority date: 2004-02-18
Filing date: 2005-02-10
Publication date: 2013-07-10
Anticipated expiration: 2025-02-10
Also published as: CN101014997B; WO2005083677A3; CN101014997A; WO2005083677A2; JP2007523374A; EP1719114A2; US8438026B2; US20080215322A1

Description

本発明は、一般には特定のサンプリング周波数で動作する自動音声認識器のためのトレーニングデータを生成する方法およびシステムに関する。さらに、本発明は自動音声認識システムをトレーニングする方法ならびにトレーニングデータを生成する方法において使用するコードブックを生成する方法およびシステムに関する

自動音声認識器は制御インターフェース、自動車ナビゲーションシステム、対話システムなど、音声入力が識別されて解釈されるさまざまな用途に使われている。一般に、そのような自動音声認識器（ASR: automatic speech recogniser）のユーザーはマイクに向かってしゃべり、そのアナログ音声入力は、該入力アナログ信号をウィンドウ化およびサンプリングする、すなわち該アナログ信号の振幅を連続的なレートで測定して一組の離散的なサンプル値を与える通常の技術によってデジタル形式に変換される。信号がサンプリングされるレートのことをサンプリングレートまたはサンプリング周波数という。結果として得られる離散的な標本値のシーケンスは、アナログ信号の時間領域の記述を与える。入力信号のこの時間領域の記述は、たとえばサンプリングされた入力信号に対して高速フーリエ変換を実行することによって周波数領域の記述に変換され、入力信号についての特徴を抽出するためにさまざまな処理ステップが実行される。特徴はしばしば特徴ベクトルの形である。これらの特徴を、以下では「モデル」と呼ぶテンプレートまたはその他のモデルと比較し、最も適切な一致を見出すことによって、ASRは音声入力を解析して、ユーザーが何を言ったか、その結果としてどの行動が実行されるべきかを判別することができる。

自動音声認識器によって使われるモデルは通例、トレーニングデータを使って計算される。トレーニングデータは一般に単語、文または会話全体といった発話の集合である。トレーニングデータは自動音声認識器のフロントエンド、すなわち最初の処理段に入力され、自動音声認識器のためのモデルを計算するために処理される。自動音声認識器が動作の間、入力音声を正しく識別して理解する成功率を上げるため、自動音声認識器のトレーニングのためには訛り（アクセント）やイントネーションの異なる複数の話者を採用して、できるだけ幅広い発話の選択肢を与えるのが通例である。自動音声認識器のトレーニングのためにより多くの発話が利用できるほど、パフォーマンスもよくなる。自動音声認識器の動作が意図されている条件と似た音響条件のもとでトレーニングデータが録音されれば、さらにいいパフォーマンスも得られる。どんなアナログ信号も異なる周波数の多くの成分正弦波の合成と見なすことができる。サンプリング周波数は、標本値についての所望の品質に従って選ばれる。サンプリングレートが高ほど、サンプリングされた信号には高い周波数成分が含まれる。ナイキストによれば、サンプリング周波数は少なくとも所望の最高周波数成分の周波数の二倍でなければならない。サンプリングレートの半分より低いいかなる成分周波数もサンプリングにおいて失われるからである。したがって、入力音声のサンプリングレートを高くすることは、高周波数帯域における追加的情報のため音声認識が改善されるので、自動音声認識器にとって有益である。たとえば、自動車内で動作する自動音声認識器は、サンプリングレートを上げれば著しくパフォーマンスが向上しうる。より高いサンプリングレートで動作するそのような自動音声認識器をトレーニングするためには、まずこのサンプリングレートで取得されたトレーニング用オーディオデータを集めることが必要になる。

自動音声認識器のためのトレーニングデータはできるだけ幅広い多様性の発話、たとえば単独の単語、文全体あるいは会話全体さえをもカバーすべきである。理想的には、話される言葉は訛りや明瞭度品質の異なる複数の話者を起源とする。したがって、音声認識器の堅牢なパフォーマンスのための必要な数のモデルを計算するために十分な生データを集めるためには、多くの人物が多数の試験単語を、典型的な自動車の騒々しい環境を反映する現実的な条件のもとで録音することが必要になる。適切な多様性のある発話の集合があれば、トレーニングデータは、実際の作業条件のもとでの発話の信頼できる認識ができる、自動音声認識器の堅牢な動作を保証できる。しかし、より高いサンプリング周波数で動作する自動音声認識器、たとえば自動車用途の自動音声認識器のためのトレーニングオーディオデータはすぐ手にはいるものではない。騒々しい自動車の車内のような不利な環境においてデータを収集することは非常に時間がかかり、したがって実用にならないほど高価である。さらに、自動音声認識器の各機種は独自の特定フォーマットの特徴モデルの形のトレーニングデータを要求する。特定機種のASR用のフォーマットのトレーニングデータは、別の機種のASRについては全く不適切であることもありうるのである。

したがって、本発明は、任意の自動音声認識器のためのトレーニングデータを生成する簡単かつ安価な方法およびシステムを提供することを目的としている。

この目的のため、本発明は、自動音声認識器――ある特定の第一のサンプリング周波数のために構築されている――のためのトレーニングデータを、前記第一のサンプリング周波数よりも低いある第二の周波数でサンプリングされたオーディオデータからスペクトル特性を導出し、該スペクトル特性の帯域幅を帯域幅拡張情報を取得することで拡張し、帯域幅拡張されたスペクトル特性を処理して必要とされるトレーニングデータを与える、ことによって生成する方法を提供する。

信号のスペクトルとは、信号中のエネルギーがさまざまな周波数成分にわたって分布している様子をいう。スペクトルのさまざまな特性が周波数領域で信号を記述するために使用できる。これらの特徴は、以下では「スペクトル特性」または「スペクトル表現」と呼ばれ、いくつかの方法で計算できる。

この方法の内在的な利点は、トレーニングデータを生成するために使われるトレーニングオーディオデータは、ほかの異なる用途のためにすでに利用可能になっているデータであってもよく、そのトレーニングデータのために必要とされるよりも低い周波数でサンプリングされていてもよいということである。したがって、たとえば、利用可能になっている電話オーディオデータのデータベースを実装することもできる。そのようなデータベースはすでに利用可能であり、一般には非常に大きく、典型的には多様な話者の集合からの幅広い多様性の話された単語および／または文全体をカバーしているからである。電話用途のためには4kHzの帯域幅で一般に十分なので、オーディオ電話データは通例8kHzでサンプリングされる。本発明による方法では、この8kHzのデータを、パフォーマンス品質上の理由で11kHzまたはそれ以上という比較的高い周波数で動作することのある自動車用自動音声認識のトレーニングのために使用することができる。

ある特定の第一のサンプリング周波数で動作する自動音声認識器のためのトレーニングデータを生成する適切なシステムは、前記第一のサンプリング周波数よりも低いある第二の周波数でサンプリングされたオーディオデータからスペクトル特性を導出するコンバータと、該スペクトル特性のための帯域幅拡張情報を取得する取得ユニットと、帯域幅拡張されたスペクトル特性を処理して必要とされるトレーニングデータを与える処理モジュールとを有する。

本発明によれば、より低いサンプリング周波数で利用可能になっているデータのスペクトル特性の帯域幅は、入力がより高いサンプリング周波数でサンプリングされたかのように見えるように拡張される。帯域幅拡張情報は適切な形で、それが保存されている適切なソースから取得されることができる。ここで、そのようなソースは一般に「コードブック」と呼ばれる。したがって、コードブックはある形でのテンプレートまたは統計的混合モデルの集まりであり、同じ形の他のデータがこれと比較される。データの形は一般に非常に複雑で、たとえば典型的なASRのための特徴ベクトルはしばしば非常に大きな数nのn次元ベクトルなどであり、そのデータのテンプレートとの比較はしばしば「最良一致」を見出すことに関わる。自動音声認識器のためのトレーニングデータを生成するのに使われるこのコードブックは、自動音声認識器のその後の諸段において使われうる別の種類のコードブックと混同しないようにする必要がある。その別の種類のコードブックはここでは関係ない。

帯域幅拡張されたスペクトル特性は次いで次のステップで処理されて、自動音声認識器のその後の諸段で必要とされる形でトレーニングデータが与られる。

これを実現するため、帯域幅拡張を許容するための好適なコードブックが必要とされる。したがって、そのようなコードブックを生成する方法およびシステムを提供することが本発明のさらなる目的である。

本発明によれば、上述したシステムで使うコードブック――より低いサンプリング周波数でサンプリングされたオーディオデータのスペクトル特性の帯域幅をより高いサンプリング周波数のスペクトル特性に拡張するための項目を含む――の生成は、コードブックの各項目のためのいくつかのステップを有している。第一のステップでは、第一のサンプリング周波数でサンプリングされたオーディオデータからスペクトル特性の第一の組が導出される。次いで前記オーディオデータに対して第二のサンプリング周波数へのサンプリングレート変換が実行され、対応するスペクトル特性の第二の組が導出される。よって、第一および第二のスペクトル特性の組は、いずれも同じオーディオ標本値を異なるサンプリング周波数で記述したものである。前記スペクトル特性の第二の組についてコードブック項目が計算され、スペクトル特性の第一の組からの追加的な高周波情報を用いて増強される。次いでその項目はコードブック内に保存される。

第二のサンプリング周波数でサンプリングされたオーディオデータのスペクトル特性の組の帯域幅を該第二のサンプリング周波数より高い第一のサンプリング周波数のスペクトル特性の組に拡張するためのコードブックを生成するための適切な装置は、第一のサンプリング周波数でサンプリングされたオーディオデータからスペクトル特性の第一の組を導出するコンバータと、そのオーディオデータに第二のサンプリング周波数へのサンプリングレート変換を実行して第二のサンプリング周波数での対応するスペクトル特性の第二の組を導出するためのモジュールと、第二のスペクトル特性の組に基づいてコードブックのための項目を生成して対応するスペクトル特性の第一の組からの追加的な高周波情報を用いて該コードブック項目を増強するコードブック項目生成器とを有する。

付属の請求項および下記の記述は本発明の特に有利な実施形態および特徴を開示する。

ASRのためのトレーニングデータ生成とコードブック生成のいずれの場合でも、まずオーディオデータに対して時間／周波数領域変換を実行して周波数領域係数の組を与えることによってオーディオデータがスペクトル特性の組に変換される。より高いサンプリング周波数からより低いサンプリング周波数へのダウンサンプリングのステップが必要とされる場合には、ダウンサンプリングはすでにウィンドウ化され、サンプリングされた入力オーディオデータに対して直接実行されてもよいし、あるいはオーディオデータの時間‐周波数領域変換のあとに実行されてもよい。あるいはまた、ダウンサンプリング効果は、オーディオデータに適切な低域通過フィルタを用いて上の周波数を切るフィルタ処理をすることによって達成することもできる。

時間／周波数領域変換は好ましくは高速フーリエ変換（FFT: Fast Fourier Transform）である。この変換は、サンプリングされた信号の離散フーリエ変換（Discrete Fourier Transform）を高速かつ効率的に得ることができる。DFTまたはFFTによって決定される係数は、オーディオ信号の各周波数成分の振幅を表し、オーディオ信号のスペクトルを記述する。別の種類の時間／周波数領域変換、たとえば離散コサイン変換（DCT: Discrete Cosine Transform）も必要に応じて同じように実装することができる。

時間／周波数領域変換から得られる係数はスペクトル特性として使用できる。しかし、その使用はコードブック生成でより多くの努力が必要になることを含意するので、通例は後段での労を省くためにさらなる処理ステップを実行しておく。たとえば、時間／周波数領域変換の出力をフィルタバンクを用いてフィルタ処理してフィルタバンクパワー値の組を得る。

そのようなフィルタバンクの一つの利点は、結果として得られるスペクトル記述が必要とするデータが著しく少なくなり、望むなら周波数軸をゆがめたり曲げたりすることもできることである。

人間の蝸牛のパフォーマンスを模倣するため、周波数スペクトル計算後に周波数軸のゆがみを実行することが一般的である。蝸牛中での音の解析はバーク（Bark）スケールまたはメル（mel）スケールとして知られる非線形な周波数スケールで行われる。このスケールは約1000Hzまでは近似的に線形で、その後は近似的に対数的になる。本発明のある具体的な好ましい実施形態では、フィルタバンク中のフィルタは周波数軸の所望のゆがみを達成するよう構成される。

こうしてフィルタバンクの出力パワー値はスペクトル特性として使用されうる。

スペクトル特性は、対数スペクトル係数の組を与えるさらなる処理ステップにおいてフィルタバンクパワー値の対数を計算することによって得ることもできる。周波数軸のゆがみがメルスケールに従うフィルタバンクにおいて実施される場合には、結果として得られる係数はメル周波数係数と呼ぶことができる。そのような対数周波数係数はしばしば自動音声認識器のようなシステムで使用する特徴ベクトル生成の基礎である。対数スペクトル係数は別の、同じように好適な技法を使って計算することもできる。

本発明の特に好ましい実施形態では、対数スペクトル係数が、自動音声認識器のためのトレーニングデータを生成するシステムで使う帯域幅拡張コードブックの項目を生成するためのスペクトル特性として使われる。対数スペクトル係数に対してDCTを実行することにより、該係数は対数ケプストラム係数に変換できる。これは音声の識別および理解といった自動音声認識器のさらなる処理ステップにおける適用にとりわけ好適である。

自動音声認識器をトレーニングするためのある適切な方法においては、より低い周波数でサンプリングされ、コードブックから取得された帯域幅拡張情報を用いて増強されたオーディオデータを使って、より高いサンプリング周波数で得られたように見えるトレーニングデータを与えることで必要とされるトレーニングデータを生成することで十分である。しかしながら、より低い周波数でサンプリングされたトレーニングデータは、要求される周波数でサンプリングされたトレーニングデータと一緒に使用されることもできる。

前記のより低い周波数でサンプリングされたオーディオデータからトレーニングデータを生成するのに使われるコードブックは、前記のより高い周波数でサンプリングされた高品質オーディオデータの比較的小さなセットを使うことにより構築される。スペクトル特性の第一および第二の組がそれぞれ前記のより高い周波数におけるオーディオデータ、前記のより低い周波数にダウンサンプリングされたオーディオデータのために計算される。こうして、スペクトル特性の第一および第二の組はいずれも実効的に同じ入力オーディオデータ標本値を記述する。しかし、第一の組は第二の組には存在しない追加的な高周波情報を含んでいる。したがって、スペクトル特性の第二の組について計算されたコードブック項目はスペクトル特性の対応する第一の組を使って増強されることができる。

本発明のある実施形態では、各コードブック項目はスペクトル特性の第一および第二の組両方からの情報を、好ましくは両方の組が互いに関連付けられつつも別個のままであるような仕方で保存されている形で有してもよい。

ある代替的な実施形態では、各コードブック項目はスペクトル特性の第二の組からの情報を、スペクトル特性の第一の組から抽出される追加的な帯域幅拡張情報とともに有しうる。

コードブック構築に使われる前記のより高い周波数でのオーディオデータの品質によっては、背景ノイズのようなある種の望まれないスペクトル成分を除去することによってオーディオデータのスペクトルを修正することが必要となることがある。この目的のため、平均スペクトルがスペクトル特性の第二の組のために連続的に計算されうる。この平均スペクトルは次いで、コードブック項目を計算する前にオーディオデータのスペクトル特性から引かれることができる。このようにして、比較的「きれいな」データがコードブック構築に使われる。

同様に、前記のより低い周波数でサンプリングされて自動音声認識器のためのトレーニングデータを生成するのに使われるオーディオデータも望ましくないノイズまたはチャネル効果を除去するためにスペクトル修正を必要とするかもしれない。オーディオデータ中に存在するそのようなスペクトル特徴は、トレーニングデータに組み込まれたときにマイナスの効果をもつことがあり、好ましくはオーディオデータから連続的に平均スペクトルを計算してその平均スペクトルをオーディオデータのスペクトル特性から引くことによって、コードブックから帯域幅拡張情報を取得する前に除去される。これにより、自動音声認識器のために生成されるトレーニングデータには実質的に望ましくないノイズやチャネル効果がないことが保証される。

自動音声認識器のためのトレーニングデータは自動音声認識器が動作することを意図されている環境の典型的なオーディオ品質を現実的に反映すべきであるので、好適な背景ノイズ情報またはその他の同様のスペクトル特徴を追加または挿入することが望ましいことがある。この目的のため、帯域幅拡張されたスペクトル特性のスペクトルは、そのスペクトル属性を変更するよう任意的な処理ステップで調整されうる。計算上の簡単さという理由のため、そのような処理ステップは好ましくは線形領域で実行される。これは、スペクトル特性が対数の形であった場合には逆対数を計算するステップを必要とすることがありうる。次いで、オーディオデータのスペクトルは必要とされる特徴を追加することによって修正されうる。次いで必要に応じてスペクトルの対数が再び計算されてスペクトルを対数領域に戻す。

本発明のその他の目的および特徴は、付属の図面とともに考慮される以下の詳細な記述から明らかとなるであろう。しかし、図面は単に解説の目的のためにデザインされたものであり、本発明の範囲の定義とするものでないことは理解しておくものとする。

図１は、自動音声認識器の典型的なフロントエンドにおける諸段を示す簡略化した表現で、入力アナログオーディオ信号Aを処理して、音声認識におけるのちの段で使うためのオーディオ信号の特徴ベクトルVを生成することに関わるものである。音声とノイズ両方の成分を含みうるアナログオーディオ信号Aはまずサンプリング周波数ｆでウィンドウ化およびサンプリングされて、デジタルオーディオ標本値の組を与える。高速フーリエ変換（FFT）がデジタル信号の各組について実行され、対応するフーリエ係数の組を与える。それらが今度はフィルタバンクに転送される。フィルタバンク中では、複数のフィルタが非線形な仕方でバークスケールまたはメルスケールに従って構成される。ここで信号のさまざまな周波数成分のエネルギーが計算され、フィルタバンクエネルギー値の組が与えられる。対数ユニットにおいて該フィルタバンクエネルギー値について対数が計算され、対数フィルタバンク係数の組が与えられる。チャネル効果を正規化する（normalise）ためにその対数フィルタバンク係数に対して長項正規化（LTN: Long Term Normalisation）が実行される。LTN出力は次いで、対数スペクトル係数に離散コサイン変換（DCT）を実行することによってさらに処理され、特徴ベクトルV、この場合はケプストラム係数が与えられる。この図には示されていない自動音声認識器のさらなる諸段では、特徴ベクトルVが音声認識および音声理解のために使われる。

図２は、サンプリング周波数f_Hのために構築され、より低い周波数f_Lでサンプリングされるデータを使ってトレーニングされるべき自動音声認識器のためのトレーニングデータを生成するための図３に基づくシステムにおいて使用するためのコードブック（codebook）６を生成するためのシステムを示している。すでに前記のより高い周波数f_HでサンプリングされているオーディオデータDC_Hは、図１で述べた自動音声認識器のフロントエンドにところどころ似ているモジュール９によって処理される。同時に、前記オーディオデータは同様のモジュール１０によって処理される。モジュール９および１０はそれぞれ図４および図５において詳細に見ることができる。

図４は、アナログ信号を要求されるサンプリング周波数ｆでウィンドウ化およびサンプリングすることによって得られた入力オーディオデータ３０からスペクトル特性３４を抽出のために構築されたモジュール９を示している。標本値３０はブロック４１で処理されてFFT係数３１が計算され、次いでフィルタバンクユニット４２でフィルタ処理されてフィルタバンクパワー値３２が与えられ、対数ブロック４３でその対数スペクトル値３３が計算される。ブロック４４で長項正規化が対数スペクトル値３３に対して実行され、スペクトル特性３４の組が与えられる。

図５における処理ステップのシーケンスは本質的には図４のものと同じであるが、入力オーディオデータ３０をダウンサンプリングブロック４６でダウンサンプリングしてより低いサンプリング周波数f_Lでの標本値を与える追加的なステップがある。オーディオデータDC_Hについて計算され、ブロック９および１０から出力されたスペクトル特性（spectral characteristics）、すなわちそれぞれSC_HおよびSC_Lは、同じ入力標本値を使って計算されているが、SC_HはSC_Lには存在しない、より高い周波数情報を含んでいる。

任意的なユニット２０では、チャネルまたは加法的ノイズ特性は、帯域幅拡張されたデータを生成するのに使われるオーディオデータD_L（図３）の特性から無視できる程度にしか違わない場合には、正規化されることができる。このユニット２０は、チャネル正規化または加法的ノイズ補償のためのいかなる好適な手段を有していてもよい。たとえば図２では、平均スペクトル計算ブロック１７において対数スペクトル特性SC_Lについて対数平均スペクトル１８が計算されて、平均減算ブロック１９において対数スペクトル特性SC_Lから差し引かれる。ブロック１０および２０はいずれも、処理ステップの重複を避けるために適宜マージすることができる。たとえば、追加的なノイズ／チャネル補償が線形スペクトル領域（対数を計算する前）での処理を要求する場合である。この任意的なユニット２０は、スペクトル表現SC_Lにおいて示されるオーディオデータDC_Hのチャネルおよびノイズ特性の低周波部分がオーディオデータD_Lの特性に十分近い場合には省略されることができる。そうでない場合には、オーディオデータD_Hに存在するチャネルおよびノイズ効果を除去または正規化するためにユニット２０が使われる。

コードブック項目生成ユニット１１において、コードブック６のコードブック項目１２がスペクトル特性SC_Lの組について計算される。これらの項目１２は、スペクトル特性SC_Hの対応する組に存在する、より高い周波数成分を使うことによって増強または拡張され、コードブック６に保存される。よって、集成されるコードブック６は、実際にはより高い周波数f_Hでサンプリングされたオーディオデータを使ったf_Lでサンプリングされたオーディオデータのための項目を有しており、こうしなければダウンサンプリングにおいて失われるはずのより高い周波数の情報の一部または全部を含む。

このコードブックが、サンプリング周波数f_Hで動作するよう構築されている自動音声認識器２（f_H）のためのトレーニングデータの生成にどのように使えるのかは図３から見て取れる。自動音声認識器２（f_H）をトレーニングするための入力オーディオデータD_Lはより低い周波数f_Lで利用可能である。入力オーディオデータD_Lはまず、図１ですでに述べた自動音声認識器のフロントエンドにところどころ似たモジュール３において処理されて、スペクトル特性S_Lの組を与える。モジュール３は、図２で述べたコードブック生成プロセスにおいてオーディオデータを処理するのに使われるモジュール９と同一の仕方で構築されている。このことは、より高いサンプリング周波数でのオーディオデータが両方の場合で同じ仕方で処理されることを示す。

任意的なユニット１６は図２におけるユニット２０に対応するものを表している。このユニット１６もユニット２０に対応するチャネル正規化または加法的ノイズ補償のためのいかなる好適な手段を有していてもよい。したがって、この例では平均スペクトル計算ブロック１３において対数スペクトル特性S_Lについての対数平均スペクトル１４が計算され、平均減算ブロック１５において対数スペクトル特性S_Lから減算される。この任意的なユニット１６は、オーディオデータD_Lのチャネルおよびノイズ特性がコードブック６をトレーニングするのに使われたオーディオデータDC_Hの特性に十分似ている場合には省略できる。そうでない場合には、ASRトレーニングデータ生成システム１のユニット１６および図２のコードブック生成システム５のユニット２０はそれぞれ、オーディオデータD_LおよびDC_Hのチャネルおよびノイズ特性を正規化するために使われる。そのようなステップの理由は、コードブック探索のプロセスがチャネルにおけるミスマッチおよび／またはコードブックのトレーニングと使用との間の背景ノイズによって悪影響を受けないことを保証することである。

スペクトル特性S_Lの各組の帯域幅は今、コードブック６から帯域幅拡張情報（bandwidth extending information）I_BEを取得することによってより高い周波数成分を含むよう拡張される。この帯域幅拡張情報I_BEは、スペクトル特性S_Lの組に最もよく一致するコードブック６の項目またはテンプレートから取ることができる。あるいは重み付けされた補間（後述）を介して全項目から計算される。

スペクトル特性をコードブック中のテンプレートと突き合わせるプロセスは、コードブックが構築されている仕方に大きく依存する。

最も一般的なバージョンでは、コードブックにおいて、ある特定のサンプリング周波数でサンプリングされた入力データから得られたスペクトル特性の確率分布をモデル化するために「統計的混合モデル」が使用される。混合モデルとは、単峰確率密度関数の重み付き和である。最も有名で最も扱いが簡単な単峰関数はガウス分布である。和をとるときの重みは、混合分布の各個別単峰分布（モード）についての先験的確率を表す。帯域幅拡張の目的で、混合モデルの各モードは関連付けられた出力ベクトルを有している。各入力ベクトルに対して、混合の各モードの確率密度値が計算され、それから各モードの確率が導出できる。出力ベクトル（入力またはより高い周波数帯からの追加的部分の帯域幅拡張されたバージョン）は、各モードに付属する出力ベクトルの重み付き和によって計算される。ここで、前記の計算された確率が重みの役割をする（重み付き補間）。

コードブックとテンプレートの他の種類の突き合わせ方法（「コードブック探索」）は上述した混合モデルの特別な場合または近似であると見なすことができる。たとえば：
１．ガウス混合モデル。これは各モードについてガウス分布を使用する。
２．単位行列を共分散行列としてガウス型を使用。これらは手段によってのみ表現される。確率密度計算は入力ベクトルと平均との間の「距離」を計算することになる。
３．各入力ベクトルについて計算された確率を、最高確率のモード（「最も近いモード」）について1.0、その他すべてについて0.0と設定することによって近似する。

ここで、出力ベクトルは、スペクトル特性S_Lを置換または拡張（extend）してより高い周波数f_Hでのサンプリングによって得られたかのように見えるスペクトル特性S_L,Eの組を与えるために使われる帯域幅拡張情報I_BEに対応する。

最終処理モジュール７では、ブロック２３で対数スペクトルに対して離散コサイン変換が実行され、自動音声処理器２によって要求される特徴ベクトルまたはトレーニングデータD_Tが与えられる。トレーニングデータD_Tは自動音声処理器２の次の諸段に直接転送されることができるし、のちの使用のためにデータベース２１に保存されることもできる。

自動音声認識器２が動作する環境を反映するため、スペクトル特性S_L,Eは任意的なブロック８でしかるべく集成されることができる。この任意的なブロック８はここではDCTの前に置かれた最終処理モジュール７の一部として示されている。たとえば、自動車の車内の騒々しい環境を反映するためにスペクトルにノイズを加えることができる。この種の動作は線形スペクトル領域で実行されるべきなので、逆対数がまずスペクトル特性S_L,Eについて計算されてからノイズスペクトルが加えられ、再びスペクトル特性S_L,Eの対数が計算される。

本発明は、好ましい実施形態およびその変形の形で開示されてきたが、本発明の範囲から外れることなく追加的な修正および変形をなしうることは理解されるであろう。入力オーディオの属性を記述するのに使われるスペクトル特性はFFT係数、フィルタバンクパワー値、対数スペクトル係数またはその他いかなる適切なスペクトル記述（ウェーブレットなどのような）であるとしてもよい。帯域幅拡張が実行されるべき点はその実施に最も適合するように選ぶことができる。同様に、LTN、DCTまたはその他の処理段が他の段に対して置かれる順列は、その実施の要求に適合するように選ぶことができる。

明確のため、本出願を通じて単数形の使用は複数の存在を排除しないこと、「有する」が他のステップまたは要素を排除しないことも理解されるものとする。「ユニット」または「モジュール」は、明示的に単一の実体として記載されているのでない限り、いくつかのブロックまたはデバイスからなることもある。記述されているユニット、モジュール、ブロックおよびデバイスは当業者によって、ハードウェアの形で、および／またはソフトウェアモジュールを実装することによって実現されうる。「スペクトル」の語は「ケプストラム」をも意味することがある。これはバークスケールまたはメルスケールに従ってゆがめたあとの対数スペクトルのFFTまたはDCT変換のことをいう。

自動音声認識器のフロントエンドにおける通例の処理ステップを示すブロック図である。本発明のある実施形態に基づく、コードブックを生成するシステムのブロック図である。本発明のある実施形態に基づく、自動音声認識器のためのトレーニングデータを生成するシステムのブロック図である。図２および図３によって記述されたシステムのためのスペクトル特性を導出するためのモジュールにおける処理ステップを示すブロック図である。図２によって記述されたシステムのためのスペクトル特性を導出するためのモジュールにおける処理ステップを示すブロック図である。

Claims

ある特定の第一のサンプリング周波数で動作するための自動音声認識器のためのトレーニングデータを生成する方法であって：
・前記第一のサンプリング周波数よりも低いある第二の周波数でサンプリングされたオーディオデータからスペクトル特性を導出し、
・前記スペクトル特性の帯域幅を、前記第二の周波数のデータに対応する帯域幅拡張情報を与える単一のコードブックから帯域幅拡張情報を取得することで拡張し、
・帯域幅拡張されたスペクトル特性を処理して必要とされるトレーニングデータを与える、
ステップを有し、
前記コードブックの各項目は：
・前記第一のサンプリング周波数でサンプリングされたオーディオデータからスペクトル特性の第一の組を導出し、
・前記オーディオデータに対して第二のサンプリング周波数へのサンプリングレート変換を実行し、対応するスペクトル特性の第二の組を導出し、
・前記スペクトル特性の第二の組からの情報を、前記スペクトル特性の第一の組から抽出された追加的な帯域幅拡張情報とともに含むコードブック項目を生成することによって生成される、
ことを特徴とする方法。
オーディオデータのスペクトル特性の組への変換が、オーディオデータのFFTを計算してフーリエ係数の組を与え、FFTの出力をフィルタバンクでフィルタ処理してフィルタバンクパワー値の組を与えることを含むことを特徴とする、請求項１記載の方法。
請求項２記載の方法であって、オーディオデータのスペクトル特性の組への変換が、FFT係数またはフィルタバンクパワー値を処理して対数スペクトル係数を与えることを含むことを特徴とする方法。
請求項１ないし３のうちいずれか一項記載の方法であって、帯域幅拡張されたスペクトル特性の処理が、オーディオデータの信号属性を調整するために該スペクトルを変更するステップを有することを特徴とする方法。
請求項４記載の方法であって、オーディオデータの信号属性を調整するために前記スペクトルを変更するステップが線形領域において実行されることを特徴とする方法。
請求項１ないし５のうちいずれか一項記載の方法であって、オーディオデータからのスペクトル特性の導出に続いて、該スペクトル特性から平均スペクトルを差し引くステップがあることを特徴とする方法。
自動音声認識システムをトレーニングする方法であって、トレーニングに使用されるデータが少なくとも部分的に請求項１ないし６のうちいずれか一項記載の方法を使って生成されることを特徴とする方法。
ある第二のサンプリング周波数でサンプリングされたオーディオデータのスペクトル特性の帯域幅を該第二のサンプリング周波数よりも高いある第一のサンプリング周波数のスペクトル特性に拡張するための単一のコードブックを生成する方法であって、コードブックの各項目について：
・前記第一のサンプリング周波数でサンプリングされたオーディオデータからスペクトル特性の第一の組を導出し、
・前記オーディオデータに対して第二のサンプリング周波数へのサンプリングレート変換を実行し、対応するスペクトル特性の第二の組を導出し、
・前記スペクトル特性の第二の組からの情報を前記スペクトル特性の第一の組から抽出された追加的な帯域幅拡張情報とともに含むコードブック項目を生成する、
ステップを含むことを特徴とする方法。
請求項８記載の方法であって、コードブック項目を増強することが、前記第二のサンプリング周波数より高い周波数に関係する、対応するスペクトル特性の第一の組から情報を抽出し、この情報をコードブック中の前記コードブック項目に付属させることを含むことを特徴とする方法。
請求項８または９記載の方法であって、スペクトル特性の第二の組の導出に続いて、背景ノイズ削減および／またはチャネル正規化ステップがあることを特徴とする方法。
請求項１０記載の方法であって、前記スペクトル特性が対数スペクトル表現を有しており、前記チャネル正規化が前記対数スペクトル特性から平均対数スペクトルを差し引くことによって実行されることを特徴とする方法。
請求項１０記載の方法であって、前記スペクトル特性が線形スペクトル表現を有しており、前記背景ノイズ削減が前記線形スペクトル特性から背景ノイズスペクトルを差し引くことによって実行されることを特徴とする方法。
ある特定の第一のサンプリング周波数で動作する自動音声認識器のためのトレーニングデータを生成するシステムであって：
・前記第一のサンプリング周波数よりも低いある第二の周波数でサンプリングされたオーディオデータからスペクトル特性を導出するコンバータと、
・前記スペクトル特性のための帯域幅拡張情報を、前記第二の周波数のデータに対応する帯域幅拡張情報を与える単一のコードブックから取得する取得ユニットと、
・帯域幅拡張されたスペクトル特性を処理して必要とされるトレーニングデータを与える処理モジュール、
とを有し、
前記コードブックの各項目は：
・前記第一のサンプリング周波数でサンプリングされたオーディオデータからスペクトル特性の第一の組を導出し、
・前記オーディオデータに対して第二のサンプリング周波数へのサンプリングレート変換を実行し、対応するスペクトル特性の第二の組を導出し、
・前記スペクトル特性の第二の組からの情報を、前記スペクトル特性の第一の組から抽出された追加的な帯域幅拡張情報とともに含むコードブック項目を生成することによって生成される、
ことを特徴とするシステム。
ある第二のサンプリング周波数でサンプリングされたオーディオデータのスペクトル特性の組の帯域幅を該第二のサンプリング周波数よりも高いある第一のサンプリング周波数のスペクトル特性の組に拡張するための単一のコードブックを生成するシステムであって：
・第一のサンプリング周波数でサンプリングされたオーディオデータからスペクトル特性の第一の組を導出するコンバータと、
・前記オーディオデータに対して第二のサンプリング周波数へのサンプリングレート変換を実行し、前記第二のサンプリング周波数について対応するスペクトル特性の第二の組を導出するモジュールと、
・スペクトル特性の第二の組からの情報を前記スペクトル特性の第一の組から抽出された追加的な帯域幅拡張情報とともに含むコードブック項目を生成するコードブック項目生成器、
とを有することを特徴とするシステム。