JP4943335B2

JP4943335B2 - 話者に依存しない堅牢な音声認識システム

Info

Publication number: JP4943335B2
Application number: JP2007531910A
Authority: JP
Inventors: ディーテルゲレル
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-09-23
Filing date: 2005-09-13
Publication date: 2012-05-30
Anticipated expiration: 2025-09-13
Also published as: EP1794746A2; CN101027716A; CN101027716B; JP2008513825A; US20080208578A1; WO2006033044A3; WO2006033044A2

Description

本発明は、音声認識システムの分野に関し、特に限定するものではなく、変化する環境条件に対する音声認識システムの堅牢な適合に関する。

音声認識システムは、話された口述を記述されたテキストに書き起こす。会話からテキストを生成する処理は、通常、音声信号を受信するステップ、音声解析の事前処理をするステップ、音声解析を実行するステップ、解析された信号を認識するステップ、認識されたテキストを出力するステップに分けられることができる。

音声信号を受信するステップは、例えばマイクといった何らかの記録手段を用いて提供される。信号解析ステップにおいて、受信された音声信号は、通常、大体数ミリ秒の範囲における時間間隔を覆う時間窓に分割される。高速フーリエ変換(FFT)を用いて、時間窓のパワースペクトルが計算される。更に、通常三角形状カーネル(triangle shaped kernel)を備える平滑化関数がそのパワースペクトルに適用され、その関数が特徴ベクトルを生成する。特徴ベクトルの一つの要素は、会話の内容にとって特徴的であり、理想的には音声認識目的に適しているパワースペクトルのはっきりした部分を表す。更に、対数関数が特徴ベクトルのすべての要素に適用され、結果として、対数スペクトル領域の特徴ベクトルを生じさせる。信号解析ステップは更に、例えば、ケプストラム変換を適用するステップ又は特徴ベクトルに導関数又は回帰デルタ(regression deltas)を追加するステップといった追加的なステップと共に環境適合を有することができる。

認識ステップにおいては、解析された信号が、語彙に割り当てられるトレーニング音声シーケンスから得られる基準信号と比較される。更に、認識されたテキストが最後のステップで出力される前に、文法規則が適用され、内容依存命令が実行されることができる。

環境適合は、信号解析手順における重要なステップである。特に、トレーニングされた音声基準は高い信号対ノイズ比(SNR)で記録されているが、システムが後に適用される環境が、例えば、高速運転中の車といったノイズの多い環境であるとき、音声認識処理の性能及び信頼性は、かなり影響を受ける場合がある。なぜなら、トレーニングされた基準音声信号と認識されなければならない記録された音声信号とは、バックグラウンドノイズが異なるレベルであることを特徴とし、従って、異なるSNRであることを特徴とするからである。トレーニング手順中及び音声認識システムの適用中の信号対ノイズ比の変動は、環境的なミスマッチの１つの例示にすぎない。一般に環境条件間でのミスマッチは、様々なバックグラウンドノイズのレベル、様々な入力音声レベル、様々な会話速度、及び異なる話者が原因でもたらされることができる。原理上は、トレーニング手順と適用又は認識手順との間の環境的なミスマッチは、音声認識の性能をかなり劣化させる場合がある。

話者非依存の音声認識の概念は、自動音声認識を多用途にする一般的な手法を提供する。ここで、事前にトレーニングされた音声基準が、非常に多様な異なる話者及び異なる環境条件に対して記録される。前もってトレーニング手順を行うことなく自動音声認識システムをユーザが直接適用することを、斯かる話者非依存な音声認識基準が可能にする。

しかしながら、話者非依存の音声認識に対して主に意図される斯かる用途もまた追加的なトレーニングを必要とする場合がある。特に、例えば、ユーザがシステムに挿入したい独特な名前といったユーザ特有の表現をシステムが認識しなければならないときである。通常、ユーザ又は話者依存表現をユーザが自動音声認識システムに入力する環境条件は、後における通常の認識条件とは異なる。ここで、トレーニングされた音声基準は、２つの分離した部分を特徴とすることができる。１つは、話者非依存の基準を表し、１つは、話者依存の基準を表すものである。話者依存の基準は通常、単一のユーザ及び単一の環境条件を示すに過ぎないので、音声認識手順の一般的な性能は、かなり劣化する場合がある。

話者依存の言葉は、認識条件がトレーニング条件に対応するときにのみ正確に識別されることができる。更に、話者依存の言葉に対するトレーニング条件と自動音声認識システムが使用される条件との間のミスマッチが話者に依存しない言葉の認識にも悪い影響を与えることがある。

一般に、話者依存の言葉を話者に依存しない語彙ワードのセットに組み込む様々な手法が存在する。例えば、話者依存の語彙ワードが様々な環境条件下、例えば静かな停止中の車内及び高速運転中の車内でトレーニングされることができる。これは、より堅牢な音声認識を提供することができるが、非常に多数のトレーニング手順を必要とし、従ってエンドユーザには受け入れがたいものである。

別の手法は、例えば、ノイズの多い(noisy)観測が与えられることを前提として、クリーンな(clean:ノイズのない、少ない)音声特徴ベクトルの推定を取得する方法を開示する米国特許第6,633,842号により与えられる。この方法は、２つのガウシアン混合分布を利用する。そこでは、第１の分布はクリーンにされた音声に関してオフラインでトレーニングされ、第２の分布は幾つかのノイズサンプルを用いて第１の分布から得られる。この方法は、クリーンな音声特徴ベクトルの推定を、観測されたノイズの多いベクトルを前提として、クリーンな音声の条件付期待値(conditional expectancy)として与える。この方法は、ノイズの多い観測及び確率密度関数からのクリーンな特徴ベクトルの推定を用いる。

原理的には、これは性能を改善するが、ノイズサンプルが提供され、そしてクリーンにされた音声に結合されなければならず、それにより本質的にかなりの計算と記憶容量とを必要とする。

そこで本発明は、話者に依存する基準データを明示的に格納することなく様々な環境条件に対して適切に認識されることができる音声認識システムへ話者に依存する語彙ワードを組み込む方法を提供することを目的とする。

本発明は、話者依存表現の会話例を用いて、話者非依存の音声認識システムをトレーニングする方法を提供する。話者非依存の音声認識システムは、様々なトレーニング条件に対する語彙を表す混合確率密度(mixture density)のセットを与えるデータベースを持つ。話者非依存の音声認識システムをトレーニングする本発明の方法は、話者依存表現の特徴ベクトルの少なくとも第１のシーケンスを生成するステップと、その特徴ベクトルの少なくとも第１のシーケンスに対する最小距離を特徴とする混合確率密度のセットでの混合確率密度のシーケンスを決定するステップとを有する。

最後に、話者依存表現が混合確率密度のシーケンスに割り当てられる。こうして、本発明は、様々なトレーニング条件に対する語彙を表す混合確率密度の話者非依存なセットにおける混合確率密度又は混合確率密度のシーケンスに、話者依存表現を割り当てることを提供する。特に、混合確率密度を話者依存表現へ割り当てることは、混合確率密度と、話者依存表現を表す特徴ベクトルの少なくとも第１のシーケンスとの間の割り当てに関して行われる。

この割り当ては、好ましくは、特徴ベクトルに基づく割り当て手順で行われる。従って、特徴ベクトルのシーケンスでの各特徴ベクトルに対して、最良マッチ混合確率密度、すなわち、特徴ベクトルに対する最小の距離又はスコアを提供する混合確率密度が選択される。すると、例えば選択された混合確率密度へのポインタを用いて、各特徴ベクトルが、その最良マッチ混合確率密度に別々に割り当てられる。こうして、特徴ベクトルのシーケンスは、ポインタのセットを用いて表されることができる。ポインタはそれぞれ、特徴ベクトルから対応する混合確率密度を示す。

結果として、話者依存表現が話者非依存なトレーニングデータの混合確率密度により表されることができる。こうして、話者に依存する基準データは、音声認識システムに明示的に格納される必要がない。ここで、話者に特有な表現と、混合確率密度の最良マッチシーケンス、つまり、特徴ベクトルの少なくとも第１のシーケンスでの特徴ベクトルに対する最小距離又はスコアを特徴とするそうした混合確率密度との間の割り当てだけが、話者非依存の音声認識システムのデータベースに既に存在する混合確率密度へのポインタのセットを特定することにより行われる。こうして、話者非依存の音声認識システムが、話者依存表現に対する専用の記憶容量を提供する必要性なしに、非常に多様な話者依存表現にまで拡張されることができる。その代わり、話者依存表現を十分に表す話者依存の混合分布(mixture)が決定される。

本発明の好ましい実施形態によれば、話者非依存の音声認識システムをトレーニングする方法は、話者依存表現の特徴ベクトルの少なくとも第２のシーケンスを生成するステップを更に有する。この特徴ベクトルの少なくとも第２のシーケンスは、特徴ベクトルの第１のシーケンスとは異なる環境条件にマッチするよう構成される。こうして、特徴ベクトルのこの第２のシーケンスは、話者依存表現が記録され、特徴ベクトルの第１のシーケンスに反映される環境条件とは異なる環境条件を人工的に表す。その特徴ベクトルの少なくとも第２のシーケンスは、通常、特徴ベクトルの第１のシーケンスに基づき、又は記録された話者依存表現に直接基づき、生成される。例えば、特徴ベクトルのこの第２のシーケンスは、異なる信号対ノイズ比を持つ特徴ベクトルの第１のシーケンスに対応する。特徴ベクトルのこの第２のシーケンスは、例えば、所定の信号対ノイズ比、目標の信号対ノイズ比の生成を提供するノイズ及びチャネル適合モジュールを用いて、生成されることができる。

特徴ベクトルの第１のシーケンスからの人工的な特徴ベクトル又は人工的な特徴ベクトルのシーケンスの生成は、決してノイズ及びチャネル適合、並びに単一の人工的な特徴ベクトル又は人工的な特徴ベクトルの単一のシーケンスのみの生成には限定されない。例えば、特徴ベクトルの第１のシーケンスに基づき、特徴ベクトルシーケンスの全体のセットが、人工的に生成されることができる。そのセットのそれぞれは、異なる目標の信号対ノイズ比を表す。

本発明の追加的な好ましい実施形態によれば、特徴ベクトルの少なくとも第２のシーケンスの生成は、話者依存表現の音声間隔に対応する特徴ベクトルの第１のシーケンスでの特徴ベクトルのセットに基づかれる。こうして、人工的な特徴ベクトルの生成は、記録された話者依存表現の音声フレームに対応する特徴ベクトルの第１のシーケンスにおける特徴ベクトルに関してのみ行われる。これは通常、話者に依存するトレーニング発声の音声部分がどのフレームで開始及び終了するかを決定する端点検出手順により行われる。こうして、無音を表すトレーニング発声のフレームが、人工的な特徴ベクトルの生成に関して捨てられる。従って、人工的な特徴ベクトルの生成に対する計算面でのオーバーヘッドが、効率的に削減されることができる。更に、音声を表す特徴ベクトルの第１のシーケンスでの特徴ベクトルを抽出することにより、特徴ベクトルの少なくとも第１のシーケンスを話者非依存な混合確率密度へ割り当てることについての一般的な信頼性及び性能も強化されることができる。

本発明の追加的な好ましい実施形態によれば、特徴ベクトルの少なくとも第２のシーケンスが、ノイズ適合手順を用いて生成されることができる。

特に、２ステップノイズ適合手順を使用することにより、低いSNRを特徴とする音声の一節に対して、一般的な音声認識の性能が典型的には強化される。

第１のステップにおいては、様々な特徴ベクトルが、もともと得られた特徴ベクトルに基づき生成される。生成される特徴ベクトルはそれぞれ、異なる信号対ノイズ比を特徴とする。従って、異なるノイズレベルが、もとの特徴ベクトルに関して重畳される。第２のステップにおいては、異なるノイズレベルを特徴とする様々な人工的な特徴ベクトルが、最終的に同じ目標の信号対ノイズ比を持つ様々な人工的な特徴ベクトルをもたらすノイズ削減(de-noising)手順の支配を受ける。ノイズ汚染(noise contamination)と後続するノイズ削減との斯かる２ステップ過程を用いて、様々な人工的な特徴ベクトルが、格納された基準データと効果的に結合され、比較される。また、人工的な特徴ベクトルは、スペクトル減算(spectrum subtraction)に基づき生成されることもできる。それは、より複雑であり、前述されたノイズ汚染とノイズ削減との２ステップ手順より高いレベルの計算資源を必要とする。

本発明の追加的な好ましい実施形態によれば、特徴ベクトルの少なくとも第２のシーケンスは、音声速度適合手順及び／又は動的時間ラッピング手順を用いて生成される。こうして、特徴ベクトルの少なくとも第２のシーケンスは、特徴ベクトルの第１のシーケンスとは異なる会話速度を持つ、特徴ベクトルの人工的なシーケンスを表す。こうして、話者依存表現が、様々なレベルの会話速度に適合されることができる。そこで、その会話が異なるスペクトル構成を持ち、異なる会話速度を特徴とする、非常に多様な話者がエミュレート(emulate)されることもできる。

更に、特徴ベクトルのその少なくとも第２のシーケンスは、様々な異なる記録チャネルを表すことができる。それにより、様々なマイクを適用するが故に起こり得る様々な異なる技術的な記録の可能性をシミュレートする。更に、話者、ノイズレベル及びノイズタイプに依存する非線形歪みを表すLombard効果に関して、特徴ベクトルの記録された第１のシーケンスに基づく特徴ベクトルの少なくとも第２のシーケンスの人工的な生成が行われることができる。

本発明の追加的な好ましい実施形態によれば、特徴ベクトルの少なくとも第１のシーケンスは話者依存表現の隠れマルコフモデル(HMM)の状態のシーケンスに対応する。更に、話者依存表現は、HMM状態により表わされ、混合確率密度を対応するHMM状態に割り当てることにより、決定される混合確率密度が、話者依存表現に割り当てられる。通常、特徴ベクトルの第１のシーケンスは、線形マッピングを用いてHMM状態にマップされる(mapped:対応付けられる)。HMM状態と特徴ベクトルシーケンスとの間のこのマッピングは、更に人工的な特徴ベクトルの生成に利用されることができる。特に、線形整列(alignment)手順における特定のHMM状態にマップされるフレームからそうした特徴ベクトルのみを生成すれば十分である。こうして、人工的な特徴ベクトルの生成が、効率的に削減されることができる。

本発明の追加的な好ましい実施形態によれば、特徴ベクトルの少なくとも第１のシーケンスにおける特徴ベクトルに対する最小距離を持つ混合確率密度の決定は、ビタビ近似を効果的に利用する。このビタビ近似は、確率に対する和の代わりに、特徴ベクトルの少なくとも第１のセットにおける特徴ベクトルが、その混合分布を構成する確率密度のセットでの１つの構成確率密度を用いて生成されることができる最大確率を提供する。すると、このHMM状態に属する人工的に生成される特徴ベクトルのセットが、対応する特徴ベクトルの最大確率の幾何平均を有するこの混合分布により生成されることができる平均確率の計算を利用して、HMM状態を表す混合確率密度の決定が行われることができる。更に、混合確率密度に対する最小距離は、それ自身の確率を用いる代わりに確率の負の対数表現を用いて効率的に決定されることができる。

本発明の追加的な好ましい実施形態によれば、話者依存表現を混合確率密度のシーケンスに割り当てることは、混合確率密度のシーケンスにおける混合確率密度へのポインタのセットを格納することを有する。混合確率密度のセットは、本質的に音声認識システムに格納された話者非依存の基準データにより提供される。ここで、ユーザが特定した表現に対して、追加的な記憶容量が提供されなければならないことはない。HMM状態の系列により表わされる話者依存表現と、これらのHMM状態に対する最小距離又はスコアを特徴とする混合確率密度のシーケンスとの間の割り当てだけが、格納されなければならない。話者依存の基準データを明示的に格納する代わりにポインタの形式で割り当てを格納することにより、音声認識システムの記憶容量の必要性が効率的に削減されることができる。

別の側面において、本発明は、種々のトレーニング条件に対する語彙を表す混合確率密度のセットを提供するデータベースを持つ話者非依存の音声認識システムを提供する。話者非依存の音声認識システムは、ユーザにより提供される話者依存表現へと拡張可能である。話者非依存の音声認識システムは、ユーザにより提供される話者依存表現を記録する手段、話者依存表現の特徴ベクトルの少なくとも第１のシーケンスを生成する手段、特徴ベクトルの少なくとも第１のシーケンスに対する最小距離を持つ混合確率密度のシーケンスを決定する処理手段、話者依存表現と決定された混合確率密度のシーケンスとの間の割り当てを格納する記憶手段とを有する。

更に別の側面において、本発明は、話者依存表現を備える話者非依存の音声認識システムをトレーニングするコンピュータプログラムを提供する。音声認識システムは、様々なトレーニング条件に対する語彙を表す混合確率密度のセットを提供するデータベースを持つ。本発明のコンピュータプログラムは、話者依存表現の特徴ベクトルの少なくとも第１のシーケンスを生成し、その特徴ベクトルの少なくとも第１のシーケンスに対する最小距離を持つ混合確率密度のシーケンスを決定し、話者依存表現を混合確率密度のシーケンスに割り当てるよう動作するプログラム手段を有する。

なお、請求項における参照符号は、本発明の範囲を限定するものと解釈されるべきでないことに留意されたい。

以下、本発明の好ましい実施形態が、図面を参照して一層詳細に説明されることになる。

図１は、音声認識システムのフローチャートを概略的に示す。第１のステップ１００において、例えば従来のマイクのようなある種の記録デバイスを用いて会話がシステムに入力される。次のステップ１０２において、記録された信号が、以下のステップを実行することにより解析される：それは、記録された信号をフレーム化された時間窓に分割するステップ、出力密度計算(power density computation)を実行するステップ、対数スペクトル領域における特徴ベクトルを生成するステップ、環境適合を行うステップ、及びオプションで追加的なステップを実行するステップとである。

信号解析１０２の第１のステップにおいて、記録された音声信号は、異なった時間間隔を覆う時間窓に分割される。それから、各時間窓に対するパワースペクトルが高速フーリエ変換(FFT)を用いて計算される。パワースペクトルに基づき、特徴ベクトルは、その会話の内容にとって特徴的であるスペクトルの最も重要な周波数部分を表すものとなる(descriptive)。信号解析１０２の次のステップにおいて、記録された信号とシステムに格納されたトレーニング音声から抽出された基準信号との間のミスマッチを減らすため、本発明による環境適合が行われる。

ケプストラム変換といった、更に追加的なステップがオプションで実行されることができる。次のステップ１０４において、トレーニングデータに基づく特徴ベクトルと、実際の信号解析プラス環境適合に基づく特徴ベクトルとの間の比較に基づき、音声認識が行われる。音声認識ステップ１０４への入力として、トレーニングされた音声基準の形式でトレーニングデータがステップ１０６により与えられる。すると認識されたテキストは、ステップ１０８で出力される。認識されたテキストの出力は、種々の異なる方法で行われることができる。例えば、ある種のグラフィカル・ユーザ・インタフェースにテキストを表示したり、ある種の記憶媒体にテキストを格納したり、又はある種の印刷デバイスを用いて単にテキストを印刷したりすることで行われる。

図２は、音声認識システム２００のブロック図を示す。ここで、音声認識システム２００の要素は、図１のステップ１０２で実行される信号解析をサポートし、事前にトレーニングされた基準データに話者に依存する語彙ワードを割り当てるものとして排他的に機能する。図２のブロック図に示されるように、会話２０２が音声認識システム２００に入力される。会話２０２は、音声認識システム２００の語彙又は事前にトレーニングされた音声基準により覆われることのない話者依存表現又はフレーズに対応する。更に、音声認識システム２００は、特徴ベクトルモジュール２０４、データベース２０６、処理モジュール２０８、割り当て格納モジュール２１０、端点検出モジュール２１６、及び人工特徴ベクトルモジュール２１８を持つ。

特徴ベクトルモジュール２０４は、入力された会話２０２から特徴ベクトルのシーケンスを生成するものとして機能する。データベース２０６は、混合分布２１２、２１４を格納する記憶容量を提供する。混合分布はそれぞれ、話者非依存な特徴ベクトル、つまり、様々な話者及びトレーニングデータの様々な環境条件を表す特徴ベクトルを表すのに使用されることができる重み付きスペクトル密度を提供する。端点決定モジュール２１６は、与えられる会話２０２の音声間隔に対応する特徴ベクトルモジュール２０４により生成される特徴ベクトルのシーケンスにおけるそうした特徴ベクトルを識別するものとして機能する。ここで、端点決定モジュール２１６は、無音又は会話の中断に対応する記録された音声信号のフレームを捨てるものとして機能する。

人工特徴ベクトル生成モジュール２１８は、特徴ベクトルモジュール２０４又は端点決定モジュール２１６のいずれかからの、特徴ベクトル又は特徴ベクトルシーケンスの受信に応じて、人工的な特徴ベクトルの生成を提供する。好ましくは、人工特徴ベクトルモジュール２１８は、与えられる音声２０２の音声間隔に対応する特徴ベクトルに対する様々な人工的な特徴ベクトルを提供する。人工特徴ベクトル生成モジュール２１８により生成される人工特徴ベクトルは、処理モジュール２０８に与えられる。処理モジュール２０８は、複数の人工的に生成された特徴ベクトルを解析し、データベース２０６に格納された基準データとの比較を行う。

処理モジュール２０８は、特徴ベクトルモジュール２０４により生成された特徴ベクトルのシーケンスでの１つの特徴ベクトルに対して、又は人工特徴ベクトル生成モジュール２１８により提供される様々な人工的に生成された特徴ベクトルに対して、最小距離又は最小スコアを持つ混合分布２１２、２１４の混合確率密度の決定を提供する。従って最もマッチする話者非依存の混合確率密度の決定は、会話２０２についてもともと生成された特徴ベクトルに基づき、又は人工的に生成された特徴ベクトルに基づき、行われることができる。

こうして、会話２０２として提供される話者に依存する語彙ワードは、話者非依存な混合確率密度のシーケンスに割り当てられ、話者に依存する基準データの明示的な格納は省略されることができる。与えられた特徴ベクトルシーケンスに対する最小のスコアを特徴とする混合確率密度のセットの種々の混合確率密度を決定したことで、この種々の確率密度に特徴ベクトルシーケンスを割り当てることが可能になる。こうした割り当ては、通常割り当て格納モジュール２１０を用いて格納される。話者非依存の音声認識システムの従来の話者依存の適合に比べると、割り当て格納モジュールは、混合確率密度とHMM状態の話者依存のシーケンスとの間のポインタを格納しさえすればよい。こうして、話者依存の適合に対する記憶要求はかなり削減されることができる。

更に、データベース２０６により提供される話者非依存の基準データに話者依存のフレーズ又は表現を割り当てることで、本質的に環境適合が実行される。特徴ベクトルモジュール２０４により生成される特徴ベクトルシーケンスに割り当てられる混合分布２１２、２１４の混合確率密度のシーケンスは、本質的に、例えば異なる話者、異なる信号対ノイズ比、異なる会話速度及び異なる記録チャネル特性といった様々な環境条件を表す。

更に、人工特徴ベクトルモジュール２１８を用いて人工特徴ベクトルのセットを生成することにより、たとえ話者依存表現が特定の環境条件で記録されたとしても、様々な異なる環境条件がシミュレートされ生成されることができる。複数の人工特徴ベクトルと人工特徴ベクトルシーケンスとを組み合わせることにより、変化する環境条件に対する音声認識処理の性能が効率的に強化されることができる。更に、人工特徴ベクトルモジュール２１８を用いて与えられる、様々な人工的に生成された特徴ベクトルに基づき、混合確率密度２１２、２１４と話者依存表現との間の割り当てが実行されることもできる。

図３は、様々な人工特徴ベクトルを生成するフローチャートを示す。第１のステップ３００において、特徴ベクトルシーケンスは、入力された会話２０２に基づき生成される。ステップ３００のこの特徴ベクトルの生成は、通常、特徴ベクトルモジュール２０４を用いて行われるか、又は端点決定モジュール２１６と組み合わせて行われる。端点決定が行われるか否かに基づき、ステップ３００で生成される特徴ベクトルシーケンスは、入力された会話２０２全体を示すか、入力された会話２０２の音声間隔を表すかのいずれかである。

ステップ３００で与えられる特徴ベクトルシーケンスは、様々な後続ステップ３０２、３０４、３０６、３０８及び３１６により並列に処理される。ステップ３０２において、特徴ベクトルのもとのシーケンスに基づき、第１の目標の信号対ノイズ比へ導く第1の人工的なノイズを重畳させることにより、ノイズ及びチャネル適合が行われる。例えば、ステップ３０２において、5 dBの第１の信号対ノイズ比が適用される。同様にして、第２の目標の信号対ノイズ比を持つ第２の人工特徴ベクトルがステップ３０４で生成されることができる。例えば、この第２の目標SNRは10 dBである。同じようにステップ３０６及び３０８は、例えば15 dB及び30 dBの信号対ノイズ比の人工特徴ベクトルをそれぞれ生成することができる。その方法は、ステップ３０２、...、３０８により異なる人工特徴ベクトルを４つだけ生成することに限定されるものではない。説明では４つの人工的な特徴ベクトルのセットが生成されるが、これは想定される複数の実施例の１つにすぎない。こうして、本発明は、１つの人工特徴ベクトルのみが生成されるとき、十分な改善をすでに提供することができる。

しかしながら、ステップ３０２から３０８が実行された後、ステップ３１０、３１２、３１４の第２のセットが適用されることができる。ステップ３１０は、ステップ３０２の後に実行され、ステップ３１２は、ステップ３０４の後に実行され、そしてステップ３１４は、ステップ３０６の後に実行される。ステップ３１０、３１２、３１４のそれぞれ１つは、共通の目標の信号対ノイズ比を持つ人工特徴ベクトルを生成するものとして機能する。例えば、３つのステップ３１０、３１２、３１４は、30 dBの目標の信号対ノイズ比を生成するものとして機能する。こうして、ステップ３００で生成される初期の特徴ベクトルシーケンスの単一の特徴ベクトルが、４つの異なる特徴ベクトルに変換される。特徴ベクトルはそれぞれ、同じ目標の信号対ノイズ比を持つ。特に、例えばステップ３０２において人工的なノイズを重畳させ、続いて生成された人工特徴ベクトルのノイズを削減する２ステップ手順が、特に入射(incident)音声信号の無音経過に対する好適な信号コントラストを得ることを可能にする。更に、ステップ３１０、３１２、３１４及び３０８で生成される、結果として生じる４つの特徴ベクトルは、続いて、人工的に生成された様々な特徴ベクトルが結合されるステップ３１８で効率的に結合されることができる。

人工特徴ベクトルの生成に加えて、隠れマルコフモデル状態に対する整列がステップ３１６で実行される。ステップ３１６で行われるこの整列は、好ましくは、基準ワードと元々提供された特徴ベクトルのシーケンスとの間の線形整列である。所与のHMM状態に対するこの整列に基づき、ステップ３２０ではマッピングが行われることができる。このマッピングは、ステップ３１８で与えられる特徴ベクトルの組み合わせにHMM状態を効率的に割り当てる。こうして、様々な環境条件を表す種々の特徴ベクトルが話者依存表現を表すHMM状態のシーケンスの所与のHMM状態にマップされることができる。マッピング手順の詳細は、図４を用いて説明される。

ステップ３１６で行われる整列と、ステップ３２０で行われるマッピングとは、好ましくは、図２の処理モジュール２０８で実行される。ステップ３０２からステップ３１４を通して行われる様々な人工特徴ベクトルの生成は通常、人工特徴ベクトルモジュール２１８を用いて行われる。人工特徴ベクトル生成は、ステップ３０２及びステップ３１０で実現される連続的な特徴ベクトル生成により示されるような２ステップ処理に限定されるものではないことに留意されたい。また、ステップ３０２、３０４、３０６及び３０８で生成される特徴ベクトルが、ステップ３１８で直接に結合されることもできる。更に、人工特徴ベクトル生成は、ノイズ及びチャネル適合に限定されるものでもない。通常、人工特徴ベクトル生成は、Lombard効果、会話速度適合、動的時間ラッピング等に関して対応するように適用されることができる。

図４は、最初の特徴ベクトルシーケンスに対する、又は特徴ベクトルシーケンスの人工的に生成されたセットのセットに対する最小距離又は最小スコアを持つ話者非依存の基準データの混合確率密度のシーケンスを決定するフローチャートを示す。ここで、最初のステップ４００において、話者依存表現のHMM状態に属する人工的な特徴ベクトルのセット(i=1...n) も生成される。続くステップ４０２において、特徴ベクトルV_iが混合分布m_jの確率密度d_j,mで生成されることができる確率P_j,m,iが決定される。インデックスmは、混合分布jの確率密度mを表す。ここで、特徴ベクトルのセットの各特徴ベクトルに対して、その特徴ベクトルが混合分布の確率密度で表されることができるよう、確率が決定される。例えば、この確率は、

で表わされることができ、ここで、Cは特徴ベクトル要素cの分散にのみ依存する定数であり、abs{}は絶対値処理を表す。

その後、ステップ４０４において、特徴ベクトルV_iが混合分布m_jで生成されることができる確率P_j,iが計算される。こうして、特徴ベクトルが異なる混合分布により生成されることができる確率が決定される。好ましくは、このP_j,iの計算は、ビタビ近似の適用を含む。こうして、混合分布m_jのすべての確率密度d_mの最大確率が計算される。この計算は、

のようにして行われることができる。ここで、w_j,mは、混合分布jにおけるm番目の確率密度の重みを表す。ビタビ近似を用いて、確率に関する総和が回避されることができ、最大化処理max{...}により置き換えられることができる。結果として、

となる。

続くステップ４０６において、HMM状態sに属する人工的な特徴ベクトルのセットが混合分布m_jで生成されることができる確率P_jが決定される。こうして、この計算はデータベース２０６に格納されるすべての混合分布２１２、２１４に対して実行される。従って、対応する数式は、

と等価であり、ここでiは1からnまでのインデックスを表す。特徴ベクトルのこのシーケンスは、特徴ベクトルのシーケンスの単一の最初に得られる特徴ベクトルの人工的なセットを参照することに留意されたい。ガウシアン及び／又はラプラシアン統計量を使用することにより、確率の負の対数表現を用いることが有利である。こうして、指数性(exponentiation)が効果的に回避され、上述された式における積が、和に変換され、最大化手順は、最小化手順に変換される。そこで、距離d_s,j又はスコアとも呼ばれる斯かる表現が、

により得られることができる。

後続するステップ４０８において、この最小化手順は、計算されたd_s,jのセットに基づき実行される。すると、最もマッチする混合分布m_j'は、最小スコア又は距離に対応する。従って、それが、話者依存表現の特徴ベクトルを表すデータベース２０６により与えられるすべての混合分布の最良の選択である。

ステップ４０８において最良のマッチング混合分布m_j'を決定した後、この最良の混合分布m_j'は、ステップ４１０において話者依存表現のHMM状態に割り当てられる。ステップ４１０で行われる割り当ては、ステップ４１２を用いて格納される。そこでは、ユーザ依存の表現のHMM状態と最良の混合分布m_j'との間のポインタが割り当て格納モジュール２１０を用いて格納される。

音声認識手順のフローチャートを示す図である。音声認識システムのブロック図を示す図である。人工特徴ベクトルのセットを生成するフローチャートを示す図である。与えられる特徴ベクトルのシーケンスに対する最小スコアを特徴とする確率密度を決定するフローチャートを示す図である。

Claims

話者依存語句を備える話者非依存の音声認識システムをトレーニングする方法において、前記音声認識システムが、様々なトレーニング条件に対する語彙を表す混合確率密度のセットを提供するデータベースを持っており、
−前記話者依存語句の特徴ベクトルの少なくとも第１のシーケンスを生成するステップと、
−前記特徴ベクトルの少なくとも第１のシーケンスにおける前記特徴ベクトルに対する最小距離を持つ混合確率密度のシーケンスを決定するステップと、
−前記話者依存語句を前記混合確率密度のシーケンスに割り当てるステップと、
−前記話者依存語句の特徴ベクトルの少なくとも第２のシーケンスを前記第１のシーケンスから生成するステップとを有し、前記特徴ベクトルの少なくとも第２のシーケンスが、前記特徴ベクトルの第１のシーケンスとは異なる環境条件にマッチするよう構成される、方法。
前記特徴ベクトルの少なくとも第２のシーケンスの生成するステップが、前記話者依存語句の無音区間に対応する前記特徴ベクトルの第１のシーケンスにおける特徴ベクトルのセットに基づかれる、請求項１に記載の方法。
前記特徴ベクトルの少なくとも第２のシーケンスが、ノイズ適合手順を用いて生成される、請求項１に記載の方法。
前記特徴ベクトルの少なくとも第２のシーケンスが、会話速度適合手順及び／又は動的時間ラッピング手順を用いて生成される、請求項１に記載の方法。
前記特徴ベクトルの少なくとも第１のシーケンスが、前記話者依存語句の隠れマルコフモデルの状態に対応する、請求項１に記載の方法。
前記混合確率密度のシーケンスを決定するステップが、ビタビ近似を利用して、前記特徴ベクトルの少なくとも第１のセットにおける特徴ベクトルが前記混合確率密度のセットにおける混合確率密度を用いて生成されることができる最大確率を与える、請求項１に記載の方法。
前記話者依存語句を前記混合確率密度に割り当てるステップが、前記混合確率密度のシーケンスを指し示すポインタのセットを格納するステップを有する、請求項１に記載の方法。
様々なトレーニング条件に対する語彙を表す混合確率密度のセットを提供するデータベースを持つ話者非依存の音声認識システムであって、該話者非依存の音声認識システムが、話者依存語句にまで拡張可能であって、
−ユーザにより与えられる話者依存語句を記録する手段と、
−前記話者依存語句の特徴ベクトルの少なくとも第１のシーケンスを生成する手段と、
−前記特徴ベクトルの少なくとも第１のシーケンスにおける前記特徴ベクトルに対する最小距離を持つ混合確率密度のシーケンスを決定する処理手段と、
−前記話者依存語句と前記混合確率密度のシーケンスとの間の割り当てを格納する記憶手段と、
−前記話者依存語句の特徴ベクトルの少なくとも第２のシーケンスを前記第１のシーケンスから生成する手段とを有し、前記特徴ベクトルの少なくとも第２のシーケンスが、異なる記録条件をシミュレートするよう構成される、話者非依存の音声認識システム。
話者依存語句を備える話者非依存の音声認識システムをトレーニングするコンピュータプログラムであって、前記音声認識システムが、様々なトレーニング条件に対する語彙を表す混合確率密度のセットを提供するデータベースを持っており、該コンピュータプログラムは、
−前記話者依存語句の特徴ベクトルの少なくとも第１のシーケンスを生成し、
−前記特徴ベクトルの少なくとも第１のシーケンスにおける前記特徴ベクトルに対する最小距離を持つ混合確率密度のシーケンスを決定し、
−前記話者依存語句を前記混合確率密度のシーケンスに割り当て、
−前記話者依存語句の特徴ベクトルの少なくとも第２のシーケンスを前記第１のシーケンスから生成するよう動作可能であり、前記特徴ベクトルの少なくとも第２のシーケンスが、異なる記録条件をシミュレートするよう構成される、コンピュータプログラム。