JP2005157350A

JP2005157350A - 区分的線形近似を用いた連続値声道共鳴追跡の方法および装置

Info

Publication number: JP2005157350A
Application number: JP2004329652A
Authority: JP
Inventors: Alejandro Acero; アセロアレサンドロ; Hagai Attias; アティアスハガイ; Leo J Lee; ジェイリレオ; Li Deng; リデン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2003-11-26
Filing date: 2004-11-12
Publication date: 2005-06-16
Also published as: DE602004007223D1; KR20050050533A; DE602004007223T2; EP1536411B1; ATE365960T1; CN1624765A; EP1536411A1; US20050114134A1

Abstract

【課題】区分的線形近似を用いた連続値声道共鳴追跡の方法および装置を提供する。
【解決手段】方法および装置は、音声信号中の、周波数と帯域幅の両方を含む声道共鳴成分を追跡する。それらの成分は、過去の声道共鳴ベクトルに対して線形であり、現在の声道共鳴ベクトルを予測する状態方程式を定義することによって追跡される。現在の声道共鳴ベクトルに対して線形であり、観測ベクトルの少なくとも１つの成分を予測する観測方程式も定義される。状態方程式、観測方程式、および観測ベクトルのシーケンスを用い、カルマンフィルタアルゴリズムによって声道共鳴ベクトルのシーケンスが識別される。一実施形態によれば、観測方程式は、非線形関数への区分的線形近似に基づいて定義される。線形近似のパラメータは、声道共鳴ベクトルの粗推定値から決定される、事前定義された領域に基づいて選択される。
【選択図】図５

Description

本発明は音声認識システムに関し、詳細には、音声中の声道共鳴を利用する音声認識システムに関する。

人間の音声では、音声信号の最初の３つないし４つ共振周波数に大量の情報が含まれる。具体的には、話者が母音を発しているとき、それらの共振の周波数（およびより狭い範囲では帯域幅）は、どの母音が発せられているかを示す。

そうした共振周波数および帯域幅は、しばしば、一括してフォルマントと呼ばれる。通常は有声である鳴音の発話時には、フォルマントは、音声信号の周波数表現におけるスペクトル卓立として見出すことができる。しかし、非鳴音の発話時には、フォルマントは、直接にスペクトル卓立としては見出すことができない。このため、「フォルマント」という用語は、時には、音声の鳴音部分だけに適用されるものと解釈されることがある。混乱を避けるために、一部の研究者は、「声道共鳴」という句を用いて、鳴音と非鳴音両方の発話時に発生するフォルマントを呼ぶ。両方とも、その共振は、声道の口腔部分だけに関連する。

フォルマントを検出するために、従来技術のシステムは、音声信号のフレームのスペクトル内容を解析した。フォルマントは任意の周波数であり得るため、従来技術では、最尤フォルマント値を識別する前にサーチ空間を限定しようとする。従来技術の一部のシステムでは、可能なフォルマントのサーチ空間は、フレームのスペクトル内容におけるピークを識別することによって縮小される。通常これは、音声信号のフレームのスペクトル内容を表す多項式を見出そうとする線形予測符号化（ＬＰＣ）を用いて行われる。この多項式の根のそれぞれは、その信号中の可能な共振周波数、すなわち、可能なフォルマントを表す。したがって、ＬＰＣを用いると、サーチ空間は、ＬＰＣ多項式の根を形成する周波数にまで縮小される。

従来技術の他のフォルマント追跡システムでは、サーチ空間は、フレームのスペクトル内容を、専門家によってフォルマントが識別されているスペクトルテンプレートのセットと比較することによって縮小される。次いで、最も近い「ｎ」個のテンプレートが選択され、それらを用いてそのフレームでのフォルマントが計算される。したがって、これらのシステムは、サーチ空間を、最も近いテンプレートに関連付けられたフォルマントにまで縮小する。

本発明と同じ発明者によって開発された従来技術の一システムは、入力信号のフレームごとに同じである、一貫したサーチ空間を使用した。サーチ空間中の各フォルマントセットは、１つの特徴ベクトルにマップされた。次いで、特徴ベクトルのそれぞれが、どのフォルマントセットが最尤であるか判定するためのモデルに適用された。

このシステムはうまく働くが、計算上は高くつく。というのは、このシステムは、通常、メル周波数ケプストラム係数周波数ベクトルを利用し、それらのベクトルは、マップされるフォルマントセット内のフォルマントすべてに基づく複素フィルタへの周波数のセットの適用後に、フォルマントを特徴ベクトルにマップするためにウィンドウ処理ステップと離散コサイン変換ステップを行うことを必要とするからである。この計算は、実行時に実施するには時間がかかり過ぎ、そのため、フォルマントセットのすべてが実行時前にマップされ、マップされた特徴ベクトルが大きな表に格納される必要があった。これは理想的であるとはいえない。というのは、マップされた特徴ベクトルのすべてを格納するためには相当量のメモリを必要とするからである。

本発明者らによって開発された別のシステムでは、離散的声道共鳴ベクトルのセットがコードブックに格納される。離散ベクトルのそれぞれは、それが入力特徴ベクトルと比較されて、どの離散ベクトルが入力音声信号を最もよく表すか決定される、シミュレートされた特徴ベクトルに変換される。このシステムは理想的であるとはいえない。というのは、それが、声道共鳴ベクトルの連続値を決定するのではなく、離散的声道共鳴符号語のうちの１つを選択するからである。

方法および装置は、音声信号中の声道共鳴成分を追跡する。それらの成分は、過去の声道共鳴ベクトルに対して線形であり、現在の声道共鳴ベクトルを予測する状態方程式を定義することによって追跡される。現在の声道共鳴ベクトルに対して線形であり、観測ベクトルの少なくとも１つの成分を予測する観測方程式も定義される。状態方程式、観測方程式、および観測ベクトルのシーケンスを用いて、声道共鳴ベクトルのシーケンスが識別される。一実施形態によれば、観測方程式は、非線形関数への線形近似に基づいて定義される。線形近似のパラメータは、声道共鳴ベクトルの推定値に基づいて選択される。

図１に、本発明が実装され得る適当な計算処理システム環境１００の一例を示す。計算処理システム環境１００は、適当な計算処理環境の一例に過ぎず、本発明の使用または機能の範囲に関するどんな限定を示唆するためのものでもない。また、計算処理環境１００は、例示的な動作環境１００に示す構成要素の任意の１つまたは組合せに関連するどんな依存性または要件も持つものであると解釈すべきではない。

本発明は、他の多数の汎用または専用計算処理システム環境または構成と共に動作可能である。本発明と共に使用するのに適し得る公知の計算処理システム、環境、および／または構成の例には、それだけに限らないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップ機器、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家庭用電化製品、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、電話技術システム、前述のシステムまたは機器のいずれかを含む分散計算処理環境などが含まれる。

本発明は、コンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的状況で記述され得る。一般に、プログラムモジュールには、個々のタスクを実行し、あるいは個々の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本発明は、タスクが、通信ネットワークを介してリンクされたリモート処理機器によって実行される分散計算処理環境で実施されるように設計される。分散計算処理環境では、プログラムモジュールは、メモリ記憶装置を含む、ローカルとリモート両方のコンピュータ記憶媒体に配置される。

図１を参照すると、本発明を実装する例示的なシステムは、コンピュータ１１０の形の汎用計算処理機器を含む。コンピュータ１１０の構成要素には、それだけに限らないが、処理装置１２０、システムメモリ１３０、および、システムメモリを含む様々な構成要素を処理装置１２０に結合するシステムバス１２１が含まれ得る。システムバス１２１は、様々なバスアーキテクチャのいずれかを用いた、メモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含むいくつかの種類のバス構造のいずれでもよい。例をあげると、それだけに限らないが、そうしたアーキテクチャには、ＩＳＡ（Industry Standard Architecture）バス、ＭＣＡ（Micro Channel Architecture）バス、拡張ＩＳＡ（ＥＩＳＡ）バス、ＶＥＳＡ（Video Electronics Standards Association）ローカルバス、およびメザニンバスとも呼ばれるＰＣＩ（Peripheral Component Interconnect）バスが含まれる。

コンピュータ１１０は、通常、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ１１０からアクセスすることができる任意の使用可能な媒体とすることができ、それには揮発性と不揮発性、リムーバブルと固定の両方の媒体が含まれる。例をあげると、それだけに限らないが、コンピュータ可読媒体にはコンピュータ記憶媒体および通信媒体が含まれ得る。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュールまたはその他のデータなどの情報の記憶のための任意の方法または技術において実装される、揮発性と不揮発性、リムーバブルと固定の両方の媒体が含まれる。コンピュータ記憶媒体には、それだけに限らないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリその他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）その他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶その他の磁気記憶機器、あるいは所望の情報を記憶するのに使用することができ、コンピュータ１１０からアクセスすることのできる他の任意の媒体が含まれる。通信媒体は、通常、コンピュータ可読命令、データ構造、プログラムモジュールまたはその他のデータを、搬送波またはその他の搬送機構などの被変調データ信号として実施し、任意の情報送達媒体を含む。「被変調データ信号」という用語は、情報をその信号中に符号化するような方式でその特徴のうちの１つまたは複数が設定または変更された信号を意味する。例をあげると、それだけに限らないが、通信媒体には、有線ネットワークや直接配線接続などの有線媒体、音響、ＲＦ、赤外線、その他の無線媒体などの無線媒体が含まれる。上記のいずれかの組合せをも、コンピュータ可読媒体の範囲内に含むべきである。

システムメモリ１３０は、読取り専用メモリ（ＲＯＭ）１３１やランダムアクセスメモリ（ＲＡＭ）１３２などの揮発性および／または不揮発性メモリの形でコンピュータ記憶媒体を含む。起動時などに、コンピュータ１１０内の要素間の情報転送を支援する基本ルーチンを含む基本入出力システム（ＢＩＯＳ）１３３は、通常、ＲＯＭ１３１に記憶される。ＲＡＭ１３２は、通常、処理装置１２０から直ちにアクセス可能な、かつ／またはそれによって現在処理されているデータおよび／またはプログラムモジュールを含む。例をあげると、それだけに限らないが、図１には、オペレーティングシステム１３４、アプリケーションプログラム１３５、その他のプログラムモジュール１３６、およびプログラムデータ１３７が示されている。

コンピュータ１１０は、他のリムーバブル／固定の、揮発性／不揮発性コンピュータ記憶媒体も含み得る。例をあげると、それだけに限らないが、図１には、固定の不揮発性磁気媒体との間で読取りまたは書込みを行うハードディスクドライブ１４１、リムーバブル不揮発性磁気ディスク１５２との間で読取りまたは書込みを行う磁気ディスクドライブ１５１、ＣＤ−ＲＯＭその他の光媒体などのリムーバブル不揮発性光ディスク１５６との間で読取りまたは書込みを行う光ディスクドライブ１５５が示されている。例示的な動作環境で使用され得る他のリムーバブル／固定の、揮発性／不揮発性記憶媒体には、それだけに限らないが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、固体ＲＡＭ、固体ＲＯＭなどが含まれる。ハードディスクドライブ１４１は、通常、インターフェース１４０などの固定のメモリインターフェースを介してシステムバス１２１に接続され、磁気ディスクドライブ１５１はおよび光ディスクドライブ１５５は、通常、インターフェース１５０などのリムーバブルメモリインターフェースによってシステムバス１２１に接続される。

図１に示す前述のドライブおよびそれに関連するコンピュータ記憶媒体は、コンピュータ１１０にコンピュータ可読命令、データ構造、プログラムモジュールおよびその他のデータの記憶を提供する。図１では、例えば、ハードディスクドライブ１４１は、オペレーティングシステム１４４、アプリケーションプログラム１４５、その他のプログラムモジュール１４６、およびプログラムデータ１４７を記憶するものとして示されている。これらの構成要素は、オペレーティングシステム１３４、アプリケーションプログラム１３５、その他のプログラムモジュール１３６、およびプログラムデータ１３７を同じものでも、異なるものでもよい。オペレーティングシステム１４４、アプリケーションプログラム１４５、その他のプログラムモジュール１４６、およびプログラムデータ１４７には、少なくとも、それらが異なるコピーであることを示すために、本明細書では異なる番号を付する。

ユーザは、キーボード１６２、マイク１６３、マウス、トラックボール、タッチパッドなどのポインティング機器１６１といった入力機器を介してコンピュータ１１０にコマンドおよび情報を入力することができる。その他の入力機器（図示せず）には、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナなどが含まれ得る。上記その他の入力機器は、しばしば、システムバスに結合されたユーザ入力インターフェース１６０を介して処理装置１２０に接続されるが、パラレルポート、ゲームポート、ユニバーサルシリアルバス（ＵＳＢ）など他のインターフェースおよびバス構造によっても接続され得る。システムバス１２１には、ビデオインターフェース１９０などのインターフェースを介して、モニタ１９１または他の種類のディスプレイ機器も接続される。コンピュータは、モニタ以外に、スピーカ１９７や印刷装置１９６など他の周辺出力機器を含むこともでき、それらは出力周辺インターフェース１９５を介して接続され得る。

コンピュータ１１０は、リモートコンピュータ１８０など、１つまたは複数のリモートコンピュータへの論理接続を用いたネットワーク化環境で動作する。リモートコンピュータ１８０は、パーソナルコンピュータ、ハンドヘルド機器、サーバ、ルータ、ネットワークＰＣ、ピアデバイスやその他の一般のネットワークノードとすることができ、通常は、コンピュータ１１０に関連して前述した諸要素の多くまたはすべてを含む。図１に示す論理接続には、ローカルエリアネットワーク（ＬＡＮ）１７１および広域ネットワーク（ＷＡＮ）１７３が含まれるが、他のネットワークも含まれ得る。そうしたネットワーク環境は、オフィス、企業規模のコンピュータネットワーク、イントラネットおよびインターネットではよく見られるものである。

ＬＡＮネットワーク環境で使用されるときには、コンピュータ１１０は、ネットワークインターフェースまたはアダプタ１７０を介してＬＡＮ１７１に接続される。ＷＡＮネットワーク環境で使用されるときには、コンピュータ１１０は、通常、インターネットなどのＷＡＮ１７３を介して通信を確立するためのモデム１７２またはその他の手段を含む。モデム１７２は、内蔵とすることも外付けとすることもでき、ユーザ入力インターフェース１６０、またはその他の適当な機構を介してシステムバス１２１に接続され得る。ネットワーク化環境では、コンピュータ１１０に関連して示したプログラムモジュール、あるいはその一部は、リモートメモリ記憶装置に記憶され得る。例として、それだけに限らないが、図１に、リモートコンピュータ１８０上にあるものとしてリモートアプリケーションプログラム１８５を示す。図示のネットワーク接続は例示的なものであり、コンピュータ間で通信リンクを確立する他の手段も使用され得ることが理解されるであろう。

図２は、人間の音声の一部の周波数スペクトルのグラフである。図２では、周波数を横軸２００に沿って示し、周波数成分の大きさを縦軸２０２に沿って示す。図２のグラフには、鳴音の人間の音声が、第１のフォルマント２０４、第２のフォルマント２０６、第３のフォルマント２０８、第４のフォルマント２１０などの共振またはフォルマントを含むことが示されている。各フォルマントは、その中心周波数Ｆおよび帯域幅Ｂで記述される。

本発明は、鳴音と非鳴音との両方の音声において、連続したフォルマント周波数および帯域幅の範囲にわたって音声信号中のフォルマント周波数および帯域幅を識別する方法を提供する。したがって、本発明は、声道共鳴周波数および帯域幅を追跡することができる。

このために、本発明は、隠れた声道共鳴周波数および帯域幅を、それぞれが観測結果を生成する隠れた状態のシーケンスとしてモデル化する。具体的な一実施形態では、隠れた声道共鳴周波数および帯域幅は、状態方程式
ｘ_ｔ＝Φｘ_ｔ−１＋（Ｉ−Φ）Ｔ＋ｗ_ｔ式１
および観測方程式
ｏ_ｔ＝Ｃ（ｘ_ｔ）＋ｖ_ｔ式２
を用いてモデル化され、式中、ｘ_ｔはｘ_ｔ＝｛ｆ_１，ｂ_１，ｆ_２，ｂ_２，ｆ_３，ｂ_３，ｆ_４，ｂ_４｝からなる、時間ｔにおける隠れた声道共鳴ベクトルであり、ｘ_ｔ−１は以前の時間ｔ−１における隠れた声道共鳴ベクトルであり、Φはシステム行列であり、Ｉは識別情報行列であり、Ｔは声道共鳴周波数および帯域幅での目標ベクトルであり、ｗ_ｔは状態方程式における雑音であり、ｏ_ｔは観測されたベクトルであり、Ｃ（ｘ_ｔ）は隠れた声道共鳴ベクトルから観測ベクトルへのマッピング関数であり、ｖ_ｔは観測における雑音である。一実施形態によれば、Φは、経験的に求められている、各エントリが０．７から０．９の間の値を有する対角行列であり、Ｔはベクトルであり、一実施形態では、
（５００１５００２５００３５００２００３００４００４００）^Ｔ
の値を有する。この実施形態によれば、雑音パラメータｗ_ｔおよびｖ_ｔは、ゼロ平均ベクトルと対角共分散行列を用いたランダムガウスサンプルによって求められる値を有する。この実施形態におけるこれらの行列の対角要素は、ｗ_ｔは１０から３０，０００までの値、ｖ_ｔは０．８から７８までの値を有する。

一実施形態によれば、観測されるベクトルは、ベクトルの各成分がＬＰＣ次数を表す、線形予測符号化ケプストラム（ＬＰＣケプストラム）である。その結果、マッピング関数Ｃ（ｘ_ｔ）は、解析的非線形関数によって正確に求めることができる。フレームｔでのベクトル値関数Ｃ（ｘ_ｔ）のｎ番目の成分は、

であり、式中、Ｃ_ｎ（ｘ_ｔ）はＮ次のＬＰＣケプストラム特徴ベクトルにおけるｎ番目の要素であり、Ｋは声道共鳴（ＶＴＲ）周波数の数であり、ｆ_ｋ（ｔ）はフレームｔでのｋ番目のＶＴＲ周波数であり、ｂ_ｋ（ｔ）はフレームｔでのｋ番目のＶＴＲ帯域幅であり、ｆ_ｓはサンプリング周波数であり、これは、多くの実施形態では８ｋＨｚとされ、他の実施形態では１６ｋＨｚとされることもある。Ｃ_０要素はｌｏｇＧに等しく設定され、Ｇは利得である。

観測ベクトルのシーケンスから隠れた声道共鳴ベクトルのシーケンスを識別するために、本発明はカルマンフィルタを使用する。カルマンフィルタは、式１および式２で表される線形動的システムにおける連続値の隠れた声道共鳴ベクトルの最適推定値を求めることのできる再帰的技法を提供する。そのようなカルマンフィルタは当分野では公知である。

カルマンフィルタは、式１および式２の右辺が、隠れた声道共鳴ベクトルに対して線形であることを必要とする。しかし、式３のマッピング関数は、声道共鳴ベクトルに対して非線形である。これに対処するために、本発明は、式３中の指数項および余弦項の代わりに、区分的線形近似を用いる。一実施形態によれば、指数項は５つの線形領域で表され、余弦項は１０の線形領域で表される。

図３に、式３の指数項への区分的線形近似の一例を示す。指数の値を縦軸３００に沿って示し、ｋ番目のＶＴＲ帯域幅での帯域幅ｂ_ｋの値を、横軸３０２に沿って示す。図３では、５つの線形区分３０４、３０６、３０８、３１０、３１２を使用して指数グラフ３１４が近似されている。以下の表に、線形区分のそれぞれがカバーする指数値の範囲を示す。

図４に、式３中の余弦項への区分的線形近似の一例を示す。余弦関数の値を縦軸４００に沿って示し、ｋ番目のＶＴＲ周波数での周波数ｆ_ｋの値を横軸４０２に沿って示す。図４には、この余弦関数の１サイクルだけを示すが、この余弦関数のサイクルごとに同じ区分的線形近似が使用され得ることを、当分野の技術者は理解するであろう。図４の実施形態によれば、余弦関数４２４は、１０の線形区分４０４、４０６、４０８、４１０、４１２、４１４、４１６、４１８、４２０、４２２によって近似される。以下の表２に、完全なサイクルが０Ｈｚから８０００Ｈｚまでの周波数をカバーするものと想定して、各線形区分によってカバーされる余弦値の不均一な範囲を示す。

これらの線形近似を用いると、式３は以下のように書き換えられる。

式中、α_ｋｘは傾きであり、β_ｋｘは指数項を近似する線形区分の切片であり、γ_ｋｘは傾きであり、δ_ｋｘは余弦項を近似する線形区分の切片である。非線形関数を近似するために使用される線形区分は、表１および表２によるｘ_ｔの値によって判断される領域に基づいて選択されるため、４つの項すべてがｘ_ｔに依存することに留意されたい。

式４のマッピング関数の形は、二次の項のために、ｘ_ｔに関して依然として線形ではない。本発明の一実施形態によれば、この項の増分部分が無視され、結果としてｘ_ｔからＣ_ｎ（ｘ_ｔ）への線形方程式になる。

この形では、表１および表２に例示する区分の領域に基づいてパラメータが固定される間は、観測されたＬＰＣ特徴ベクトルｏ_１：Ｔのシーケンスから連続値状態ｘ_１：Ｔのシーケンスを得るためにカルマンフィルタが直接適用される。

図５に、線形近似を選択し、カルマンフィルタでその近似を用い、式１、式２、式４によって連続値状態のシーケンスを識別するが、式４の二次の項の増分部分は無視する方法の一般的な流れ図を示す。図６および図７に、図５の方法で使用される構成要素の構成図を示す。

図５のステップ５００では、表に格納される声道共鳴（ＶＴＲ）コードブックが、可能なＶＴＲ周波数および帯域幅を量子化して量子化値のセットを形成し、次いで、それらの量子化値の異なる組合せでのエントリを形成することによって構築される。したがって、結果として生じるコードブックは、ＶＴＲ周波数および帯域幅のベクトルであるエントリを含む。例えば、コードブックが４つのＶＴＲに対するエントリを含む場合には、コードブック内のｉ番目のエントリｘ［ｉ］は［Ｆ_１ｉ，Ｂ_１ｉ，Ｆ_２ｉ，Ｂ_２ｉ，Ｆ_３ｉ，Ｂ_３ｉ，Ｆ_４ｉ，Ｂ_４ｉ］というベクトルになるはずであり、その場合、Ｆ_１ｉ，Ｆ_２ｉ，Ｆ_３ｉ，Ｆ_４ｉは第１、第２、第３、第４のＶＴＲの周波数であり、Ｂ_１ｉ，Ｂ_２ｉ，Ｂ_３ｉ，Ｂ_４ｉは、第１、第２、第３、第４のＶＴＲの帯域幅である。以下の説明では、コードブックへの指標ｉは、その指標で格納された値ｘ［ｉ］と同義で使用される。以下でこの指標を単独で使用するときには、その指標で格納された値を表すものとする。

一実施形態によれば、フォルマントおよび帯域幅は、以下の表３のエントリに従って量子化される。表中、最小（Ｈｚ）とは周波数または帯域幅のヘルツ単位での最小値であり、最大（Ｈｚ）とは、ヘルツ単位の最大値であり、「量子化数」は量子化状態の数である。周波数および帯域幅では、最小から最大までの範囲を量子化状態の数で割って各量子化状態間の分離が与えられる。例えば、表３の帯域幅Ｂ_１では、２６０Ｈｚの範囲を５つの量子化状態で均一に割って、各状態がその他の状態から６５Ｈｚずつ隔てられる（すなわち、４０、１０５、１７０、２３５、３００）。

表３の量子化状態の数は、合計で１億組を超える、異なるＶＴＲセットを生じるはずである。しかし、Ｆ_１＜Ｆ_２＜Ｆ_３＜Ｆ_４という制約があるために、コードブックには、実際上は、それよりも少ない数のＶＴＲセットしかない。

コードブックが形成された後、ステップ５０２で、コードブック中のエントリを用いて、残余ランダム変数を記述するパラメータに学習させる。残余ランダム変数は、観測学習特徴ベクトルのセットとシミュレートされた特徴ベクトルのセットとの間の差である。式で表すと以下のとおりである。
ｖ_ｔ＝ｏ_ｔ−Ｓ（ｘ_ｔ［ｉ］）式５
式中、ｖ_ｔは残余であり、ｏ_ｔは時間ｔにおける観測された学習特徴ベクトルであり、Ｓ（ｘ_ｔ［ｉ］）はシミュレートされた特徴ベクトルである。

図６に示すように、シミュレートされた特徴ベクトルＳ（ｘ_ｔ［ｉ］）６１０は、必要なときに、ＶＴＲコードブック６００内のＶＴＲのセットｘ_ｔ［ｉ］をＬＰＣケプストラム計算器６０２に適用することによって構築され、そこでは以下の計算が実施される。

式中、Ｓ_ｎ（ｘ_ｔ［ｉ］）はｎ次のＬＰＣケプストラム特徴ベクトルにおけるｎ番目の要素であり、ＫはＶＴＲの数であり、ｆ_ｋはｋ番目のＶＴＲ周波数であり、ｂ_ｋはｋ番目のＶＴＲ帯域幅であり、ｆ_ｓはサンプリング周波数であり、これは多くの実施形態では８ｋＨｚである。Ｓ_０要素は、ｌｏｇＧに等しく設定され、Ｇは利得である。

残余モデルの学習に使用される観測された学習特徴ベクトルｏ_ｔを生成するために、人間の話者６１２が音響信号を生成し、それがマイク６１６によって検出され、マイク６１６は相加性雑音６１４も検出する。マイク６１６は、音響信号をアナログ電気信号に変換し、それがアナログ／デジタル（Ａ／Ｄ）変換器６１８に提供される。アナログ信号はＡ／Ｄ変換器６１８によってサンプリング周波数ｆ_ｓでサンプリングされ、結果として生じたサンプルがデジタル値に変換される。一実施形態では、Ａ／Ｄ変換器６１８は、アナログ信号を８ｋＨｚ、１サンプル当たり１６ビットでサンプリングし、毎秒１６キロバイトの音声データを作成する。別の実施形態では、Ａ／Ｄ変換器６１８は、アナログ信号を１６ｋＨｚでサンプリングする。デジタルサンプルは、フレームコンストラクタ６２０に提供され、そこでサンプルがフレームにグループ化される。一実施形態によれば、フレームコンストラクタ６２０は、１０ミリ秒ごとに、２５ミリ秒分のデータを含む新規フレームを作成する。

データのフレームは、ＬＰＣケプストラム特徴抽出器６２２に提供され、そこで、高速フーリエ変換（ＦＦＴ）６２４を用いて信号を周波数ドメインに変換し、次いで、ＬＰＣ係数システム６２６を用いて音声信号のフレームのスペクトル内容を表す多項式を識別する。ＬＰＣ係数は、再帰呼出６２８を用いてＬＰＣケプストラム係数に変換される。再帰呼出の出力は、学習音声信号を表す学習特徴ベクトルのセット６３０である。

シミュレートされた特徴ベクトル６１０および学習特徴ベクトル６３０は、残余学習器６３２に提供され、そこで残余ｖ_ｔでのパラメータを学習する。

一実施形態によれば、ｖ_ｔは平均値ｈ、精度Ｄの単一ガウス形であり、その場合ｈは特徴ベクトルの成分ごとに別々の平均値を持つベクトルであり、Ｄは特徴ベクトルの成分ごとに別々の値を持つ対角精度行列である。

これらのパラメータには、本発明の一実施形態によれば、期待最大化（ＥＭ）アルゴリズムを用いて学習が行われる。このアルゴリズムのＥステップでは、事後確率

が決まる。一実施形態によれば、この事後確率は、

と定義される順方向／逆方向の再帰法を用いて決められる。式中、ρ_ｔ（ｉ）およびσ_ｔ（ｉ）は以下のように再帰的に求められる。

本発明の一態様によれば、遷移確率ｐ（ｘ_ｔ［ｉ］｜ｘ_ｔ−１［ｊ］）およびｐ（ｘ_ｔ［ｉ］｜ｘ_ｔ＋１［ｊ］）は、上記の式１を用いて決められるが、それを便宜上ここで、コードブック指標表記を用いて以下のように繰り返す。

ｘ_ｔ［ｉ］＝Φｘ_ｔ−１［ｉ］＋（Ｉ−Φ）Ｔ＋ｗ_ｔ式１０
式中、ｘ_ｔ［ｉ］はフレームｔにおけるＶＴＲの値であり、ｘ_ｔ−１［ｊ］は以前のフレームｔ−１におけるＶＴＲの値であり、Φはレートであり、Ｔはフレームｔに関連付けられたＶＴＲでの目標であり、ｗ_ｔはフレームｔにおける雑音であって、これは、一実施形態では、精度行列Ｂを有するゼロ平均ガウス形であると想定される。

この動的モデルを使用すると、遷移確率を、以下のガウス関数として記述することができる。

ｐ（ｘ_ｔ［ｉ］｜ｘ_ｔ−１［ｊ］）＝Ｎ（ｘ_ｔ［ｉ］；Φｘ_ｔ−１［ｉ］＋（Ｉ−Φ）Ｔ，Ｂ）式１１
ｐ（ｘ_ｔ［ｉ］｜ｘ_ｔ＋１［ｊ］）＝Ｎ（ｘ_ｔ＋１［ｉ］；Φｘ_ｔ［ｉ］＋（Ｉ−Φ）Ｔ，Ｂ）式１２
代替として、事後確率

は、ベクトルのシーケンスではなく、現在の観測ベクトルだけに確率を依存させて、事後確率が、

となるようにすることによって推定することができ、これは

として計算され得る。式中、

は、ＥＭアルゴリズムの以前の反復から決められた、あるいはこれが最初の反復である場合には、最初に設定された残余の精度である。

事後確率

を識別するためにＥステップが実施された後で、

を用いて、残余の平均値ｈおよび分散Ｄ^−１（精度行列の逆行列）の各対角要素ｄ^−１を決めるために、Ｍステップが実施される。式中、Ｎは学習発話内のフレーム数であり、ＩはＶＴＲでの量子化組合せ数であり、ｏ_ｔは時間ｔにおける観測された観測特徴ベクトルであり、Ｓ（ｘ_ｔ［ｉ］）はＶＴＲｘ_ｔ［ｉ］でのシミュレートされた特徴ベクトルである。

残余学習器６３２は、ＥステップおよびＭステップを反復することにより平均値および分散を何度も更新し、その都度以前の反復からの平均値および分散を使用する。平均値および分散が安定値に到達した後、それらは残余パラメータ６３４として記憶される。

残余パラメータ６３４が構築されると、それらを図５のステップ５０４で使用して、入力音声信号中のＶＴＲベクトルを識別することができる。ＶＴＲベクトルを識別するシステムの構成図を図７に示す。

図７では、スピーカ７１２によって音声信号が生成される。音声信号および相加性雑音７１４は、マイク７１６、Ａ／Ｄ変換器７１８、フレームコンストラクタ７２０、ならびに、ＦＦＴ７２４、ＬＰＣシステム７２６、および再帰呼出７２８からなる特徴抽出器７２２によって特徴ベクトル７３０のストリームに変換される。マイク７１６、Ａ／Ｄ変換器７１８、フレームコンストラクタ７２０、および特徴抽出器７２２は、図６のマイク６１６、Ａ／Ｄ変換器６１８、フレームコンストラクタ６２０、特徴抽出器６２２と同様に動作することに留意されたい。

特徴ベクトル７３０のストリームは、残余パラメータ６３４およびシミュレートされた特徴ベクトル６１０と共にＶＴＲ追跡器７３２に提供される。ＶＴＲ追跡器７３２は、動的プログラミングを用いて最尤ＶＴＲベクトル７３４のシーケンスを識別する。具体的には、トレリスダイアグラム中の各ノードが以下の最適部分スコアを有する、ビタビ復号法を利用する。

最適原理に基づき、以下のビタビ再帰法を用いてｔ＋１の処理段階における最適部分尤度を計算することができる。

式１８では、「遷移」確率ｐ（ｘ_ｔ＋１［ｉ］＝ｘ［ｉ］｜ｘ_ｔ［ｉ］＝ｘ［ｉ’］）が前記の状態方程式１０を用いて計算され、以下のガウス分布が生成される。
ｐ（ｘ_ｔ＋１［ｉ］＝ｘ［ｉ］｜ｘ_ｔ［ｉ］＝ｘ［ｉ’］）＝Ｎ（ｘ_ｔ＋１［ｉ］；Φｘ_ｔ［ｉ’］＋（Ｉ−Φ）Ｔ，Ｂ）式１９
式中、Φｘ_ｔ［ｉ］＋（Ｉ−Φ）Ｔは分布の平均値であり、Ｂは分布の精度である。

式１８の観測確率ｐ（ｏ_ｔ＋１｜ｘ_ｔ＋１［ｉ］＝ｘ［ｉ］）は、ガウス形として扱われ、観測方程式５と残余パラメータｈおよびＤとから以下のように計算される。
ｐ（ｏ_ｔ＋１｜ｘ_ｔ＋１［ｉ］＝ｘ［ｉ］）＝Ｎ（ｏ_ｔ＋１；Ｓ（ｘ_ｔ＋１［ｉ］＋ｈ，Ｄ）式２０
式２０内の最適量子化指標ｉ’のバックトラッキングによって、初期のＶＴＲシーケンス７３４が提供される。

実施すべき計算回数を減らすために、厳密なビタビサーチではなく、プルーニングビームサーチが実施され得る。一実施形態では、フレームごとに１つの指標だけが識別される、極端な形のプルーニングが用いられる。

ステップ５０４で初期のＶＴＲシーケンス７３４が識別された後で、初期のＶＴＲは線形パラメータ推定器７３６に提供され、これが、ステップ５０６で、前述の式４の線形近似でのパラメータを選択する。具体的には、フレームごとに、そのフレームでの初期のＶＴＲベクトルを用いて、各声道共鳴指標ｋおよびＬＰＣ次数ｎごとに、線形パラメータα_ｋｘ、β_ｋｘ、γ_ｋｘ、およびδ_ｋｘの値を決める。

一実施形態によれば、ＬＰＣ次数ｎに対する線形パラメータα_ｋｘおよびβ_ｋｘの値は、初期のＶＴＲベクトルの帯域幅ｂ_ｋを指数項

に適用し、指数を評価することによって決められる。次いで、その指数の値をまたぐ図３の線形区分が選択され、それによってその線形区分を定義する線形パラメータα_ｋｘおよびβ_ｋｘが選択される。これらのパラメータのそれぞれは、帯域幅ｂ_ｋに関連付けられたベクトル成分を除くあらゆるベクトル成分についてゼロの値を有するベクトルであることに留意されたい。

一実施形態によれば、ＬＰＣ次数ｎについての線形パラメータγ_ｋｘおよびδ_ｋｘの値は、初期のＶＴＲベクトルの周波数ｆ_ｋを余弦項

に適用し、余弦項を評価することによって決められる。次いで、その余弦の値をまたぐ図４の線形区分が選択され、それによってその線形区分を定義する線形パラメータγ_ｋｘおよびδ_ｋｘが選択される。これらのパラメータのそれぞれは、周波数ｆ_ｋに関連付けられたベクトル成分を除くあらゆるベクトル成分についてゼロの値を有するベクトルであることに留意されたい。

ステップ５０８で、フレームごとの線形パラメータが式４に適用される。式４における二次の項の増分部分を無視して、式４が式２で用いられる。次いで、式１および式２は、
カルマンフィルタ７３８に提供され、そこで、フレームごとのＶＴＲベクトル７３４が再推定される。ステップ５１０では、次に実施すべき反復があるかどうか判定する。次の反復がある場合には、ステップ５０６に戻り、そこで新しいＶＴＲベクトルから線形パラメータが再推定される。次いで、新しい線形パラメータは、式４を介して式２に適用され、ステップ５０８において式１および式２をカルマンフィルタ７３８内で用いて、ＶＴＲベクトルが再推定される。ステップ５０６、５０８、および５１０は、ステップ５１０において、それ以上の反復は不要であると判定されるまで反復される。その時点で、プロセスは、ステップ５１２で終了し、ＶＴＲベクトル７３４の最後の推定が、その入力信号での声道共鳴周波数および帯域幅のシーケンスとして使用される。

カルマンフィルタ７３８は、声道共鳴ベクトルの連続値を提供することに留意されたい。したがって、結果として生じる声道共鳴周波数および帯域幅のシーケンスは、ＶＴＲコードブック６００中に見出される離散値に限定されるものではない。

以上、本発明を具体的な実施形態を参照して説明したが、本発明の精神および範囲を逸脱することなく形式および内容上の変更を加え得ることを、当業者は理解するであろう。

本発明の実施形態が実施され得る一般的な計算処理環境を示す構成図である。音声信号の振幅スペクトルを示すグラフである。指数関数への区分的線形近似を示す図である。正弦波関数への区分的線形近似を示す図である。本発明による方法を示す流れ図である。残余モデルの学習のための学習システムを示す構成図である。本発明の一実施形態によるフォルマント追跡システムを示す構成図である。

符号の説明

１００計算処理環境
１１０コンピュータ
１２１システムバス
１４１ハードディスクドライブ
１５１磁気ディスクドライブ
１５２リムーバブル不揮発性磁気ディスク
１５５光ディスクドライブ
１５６リムーバブル不揮発性光ディスク
２００周波数
２０２周波数成分の大きさ
３００指数の値
３０２帯域幅ｂ_ｋの値
４００余弦関数の値
４０２周波数ｆ_ｋの値

Claims

音声信号中の声道共鳴周波数追跡の方法であって、
過去の声道共鳴ベクトルに対して線形であり、現在の声道共鳴ベクトルを予測する状態方程式を定義するステップと、
現在の声道共鳴ベクトルに対して線形であり、観測ベクトルの少なくとも１つの成分を予測する観測方程式を定義するステップと、
前記状態方程式、前記観測方程式、および観測ベクトルのシーケンスを使用して、それぞれが少なくとも１つの声道共鳴周波数を含む声道共鳴ベクトルのシーケンスを識別するステップと
を備えたことを特徴とする方法。
前記状態方程式、前記観測方程式、および前記観測ベクトルのシーケンスを使用して声道共鳴ベクトルのシーケンスを識別するステップは、前記状態方程式、前記観測方程式、および前記観測ベクトルのシーケンスをカルマンフィルタに適用するステップを含むことを特徴とする請求項１に記載の方法。
声道共鳴ベクトルを識別するステップは、連続した値のセットから声道共鳴ベクトルを識別するステップを含むことを特徴とする請求項１に記載の方法。
前記観測方程式を定義するステップは、前記声道共鳴ベクトルに対して非線形である関数への線形近似を定義するステップを含むことを特徴とする請求項１に記載の方法。
前記観測方程式を定義するステップは、前記声道共鳴ベクトルに対してそれぞれ非線形である２つの関数の積への線形近似を定義するステップをさらに含むことを特徴とする請求項４に記載の方法。
前記声道共鳴ベクトルに対して非線形である前記関数の１つは、前記声道共鳴ベクトルの帯域幅成分に対して非線形である指数関数であることを特徴とする請求項５に記載の方法。
前記声道共鳴ベクトルに対して非線形である前記関数の１つは、前記声道共鳴ベクトルの周波数成分に対して非線形である正弦波関数であることを特徴とする請求項５に記載の方法。
線形近似を定義するステップは、合わせて前記非線形関数への区分的線形近似を形成する線形近似のセットから線形近似を選択するステップを含むことを特徴とする請求項４に記載の方法。
線形近似を定義するステップは、非線形関数値を生成するために声道共鳴ベクトルの推定値に基づいて前記非線形関数を評価するステップと、前記非線形関数値を使用して前記線形近似でのパラメータを選択するステップとを含むことを特徴とする請求項４に記載の方法。
線形近似を定義するステップは、前記非線形関数値を用いて、合わせて前記非線形関数への区分的線形近似を形成する線形近似のセットから線形近似を選択するステップをさらに含むことを特徴とする請求項９に記載の方法。
前記識別された声道共鳴ベクトルを用いて前記観測方程式を再定義するステップと、
前記再定義された観測方程式、前記状態方程式、および前記観測ベクトルを用いて新しい声道共鳴ベクトルのシーケンスを識別するステップと
をさらに備えたことを特徴とする請求項１に記載の方法。
前記観測方程式を再定義するステップは、識別された声道共鳴ベクトルを用いて、声道共鳴ベクトルに対して非線形である関数への少なくとも１つの線形近似でのパラメータを選択するステップを含むことを特徴とする請求項１１に記載の方法。
識別された声道共鳴ベクトルを用いてパラメータを選択するステップは、前記声道共鳴ベクトルを用いて非線形関数値を生成する前記非線形関数を評価するステップと、前記非線形関数値を用いて少なくとも１つの線形近似でのパラメータを選択するステップとを含むことを特徴とする請求項１２に記載の方法。
少なくとも１つの声道共鳴成分の推定値を用いて、前記声道共鳴成分に対して非線形である関数への線形近似を選択するステップと、
前記線形近似を用いて観測方程式を定義するステップと、
前記観測方程式および少なくとも１つの観測されたベクトルを用いて前記声道共鳴成分を再推定するステップと
を備えたステップを実施するためのコンピュータ実行可能命令を有することを特徴とするコンピュータ可読媒体。
線形近似を選択するステップは、前記非線形関数の区分的線形近似を形成する線形近似のセットから１つの線形近似を選択するステップを含むことを特徴とする請求項１４に記載のコンピュータ可読媒体。
線形近似を選択するステップは、前記声道共鳴成分を前記非線形関数に適用して関数値を形成するステップと、前記関数値に基づいて前記線形近似を選択するステップとを含むことを特徴とする請求項１４に記載のコンピュータ可読媒体。
前記声道共鳴成分の値を再推定するステップは、前記声道共鳴成分に対して線形である状態方程式を用いるステップをさらに含むことを特徴とする請求項１４に記載のコンピュータ可読媒体。
前記声道共鳴成分の値を再推定するステップは、前記状態方程式、前記観測方程式および前記少なくとも１つの観測されたベクトルをカルマンフィルタに適用するステップをさらに含むことを特徴とする請求項１７に記載のコンピュータ可読媒体。
前記声道共鳴成分に対して非線形である第２の関数への第２の線形近似を選択するステップと、前記第２の線形近似を用いて前記観測方程式を定義するステップとをさらに備えたことを特徴とする請求項１４に記載のコンピュータ可読媒体。
前記非線形関数は、指数関数を含むことを特徴とする請求項１４に記載のコンピュータ可読媒体。
前記非線形関数は、正弦波関数を含むことを特徴とする請求項１４に記載のコンピュータ可読媒体。
前記声道共鳴成分は、連続値であることを特徴とする請求項１４に記載のコンピュータ可読媒体。