JP2005157350A - 区分的線形近似を用いた連続値声道共鳴追跡の方法および装置 - Google Patents
区分的線形近似を用いた連続値声道共鳴追跡の方法および装置 Download PDFInfo
- Publication number
- JP2005157350A JP2005157350A JP2004329652A JP2004329652A JP2005157350A JP 2005157350 A JP2005157350 A JP 2005157350A JP 2004329652 A JP2004329652 A JP 2004329652A JP 2004329652 A JP2004329652 A JP 2004329652A JP 2005157350 A JP2005157350 A JP 2005157350A
- Authority
- JP
- Japan
- Prior art keywords
- vocal tract
- tract resonance
- vector
- linear
- linear approximation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001755 vocal effect Effects 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 title claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 108
- 238000012886 linear function Methods 0.000 claims abstract 2
- 230000006870 function Effects 0.000 claims description 40
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 7
- 238000013139 quantization Methods 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 238000013507 mapping Methods 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- CDFKCKUONRRKJD-UHFFFAOYSA-N 1-(3-chlorophenoxy)-3-[2-[[3-(3-chlorophenoxy)-2-hydroxypropyl]amino]ethylamino]propan-2-ol;methanesulfonic acid Chemical compound CS(O)(=O)=O.CS(O)(=O)=O.C=1C=CC(Cl)=CC=1OCC(O)CNCCNCC(O)COC1=CC=CC(Cl)=C1 CDFKCKUONRRKJD-UHFFFAOYSA-N 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 230000005428 wave function Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Complex Calculations (AREA)
- Image Processing (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
- Radar Systems Or Details Thereof (AREA)
Abstract
【課題】 区分的線形近似を用いた連続値声道共鳴追跡の方法および装置を提供する。
【解決手段】 方法および装置は、音声信号中の、周波数と帯域幅の両方を含む声道共鳴成分を追跡する。それらの成分は、過去の声道共鳴ベクトルに対して線形であり、現在の声道共鳴ベクトルを予測する状態方程式を定義することによって追跡される。現在の声道共鳴ベクトルに対して線形であり、観測ベクトルの少なくとも1つの成分を予測する観測方程式も定義される。状態方程式、観測方程式、および観測ベクトルのシーケンスを用い、カルマンフィルタアルゴリズムによって声道共鳴ベクトルのシーケンスが識別される。一実施形態によれば、観測方程式は、非線形関数への区分的線形近似に基づいて定義される。線形近似のパラメータは、声道共鳴ベクトルの粗推定値から決定される、事前定義された領域に基づいて選択される。
【選択図】 図5
【解決手段】 方法および装置は、音声信号中の、周波数と帯域幅の両方を含む声道共鳴成分を追跡する。それらの成分は、過去の声道共鳴ベクトルに対して線形であり、現在の声道共鳴ベクトルを予測する状態方程式を定義することによって追跡される。現在の声道共鳴ベクトルに対して線形であり、観測ベクトルの少なくとも1つの成分を予測する観測方程式も定義される。状態方程式、観測方程式、および観測ベクトルのシーケンスを用い、カルマンフィルタアルゴリズムによって声道共鳴ベクトルのシーケンスが識別される。一実施形態によれば、観測方程式は、非線形関数への区分的線形近似に基づいて定義される。線形近似のパラメータは、声道共鳴ベクトルの粗推定値から決定される、事前定義された領域に基づいて選択される。
【選択図】 図5
Description
本発明は音声認識システムに関し、詳細には、音声中の声道共鳴を利用する音声認識システムに関する。
人間の音声では、音声信号の最初の3つないし4つ共振周波数に大量の情報が含まれる。具体的には、話者が母音を発しているとき、それらの共振の周波数(およびより狭い範囲では帯域幅)は、どの母音が発せられているかを示す。
そうした共振周波数および帯域幅は、しばしば、一括してフォルマントと呼ばれる。通常は有声である鳴音の発話時には、フォルマントは、音声信号の周波数表現におけるスペクトル卓立として見出すことができる。しかし、非鳴音の発話時には、フォルマントは、直接にスペクトル卓立としては見出すことができない。このため、「フォルマント」という用語は、時には、音声の鳴音部分だけに適用されるものと解釈されることがある。混乱を避けるために、一部の研究者は、「声道共鳴」という句を用いて、鳴音と非鳴音両方の発話時に発生するフォルマントを呼ぶ。両方とも、その共振は、声道の口腔部分だけに関連する。
フォルマントを検出するために、従来技術のシステムは、音声信号のフレームのスペクトル内容を解析した。フォルマントは任意の周波数であり得るため、従来技術では、最尤フォルマント値を識別する前にサーチ空間を限定しようとする。従来技術の一部のシステムでは、可能なフォルマントのサーチ空間は、フレームのスペクトル内容におけるピークを識別することによって縮小される。通常これは、音声信号のフレームのスペクトル内容を表す多項式を見出そうとする線形予測符号化(LPC)を用いて行われる。この多項式の根のそれぞれは、その信号中の可能な共振周波数、すなわち、可能なフォルマントを表す。したがって、LPCを用いると、サーチ空間は、LPC多項式の根を形成する周波数にまで縮小される。
従来技術の他のフォルマント追跡システムでは、サーチ空間は、フレームのスペクトル内容を、専門家によってフォルマントが識別されているスペクトルテンプレートのセットと比較することによって縮小される。次いで、最も近い「n」個のテンプレートが選択され、それらを用いてそのフレームでのフォルマントが計算される。したがって、これらのシステムは、サーチ空間を、最も近いテンプレートに関連付けられたフォルマントにまで縮小する。
本発明と同じ発明者によって開発された従来技術の一システムは、入力信号のフレームごとに同じである、一貫したサーチ空間を使用した。サーチ空間中の各フォルマントセットは、1つの特徴ベクトルにマップされた。次いで、特徴ベクトルのそれぞれが、どのフォルマントセットが最尤であるか判定するためのモデルに適用された。
このシステムはうまく働くが、計算上は高くつく。というのは、このシステムは、通常、メル周波数ケプストラム係数周波数ベクトルを利用し、それらのベクトルは、マップされるフォルマントセット内のフォルマントすべてに基づく複素フィルタへの周波数のセットの適用後に、フォルマントを特徴ベクトルにマップするためにウィンドウ処理ステップと離散コサイン変換ステップを行うことを必要とするからである。この計算は、実行時に実施するには時間がかかり過ぎ、そのため、フォルマントセットのすべてが実行時前にマップされ、マップされた特徴ベクトルが大きな表に格納される必要があった。これは理想的であるとはいえない。というのは、マップされた特徴ベクトルのすべてを格納するためには相当量のメモリを必要とするからである。
本発明者らによって開発された別のシステムでは、離散的声道共鳴ベクトルのセットがコードブックに格納される。離散ベクトルのそれぞれは、それが入力特徴ベクトルと比較されて、どの離散ベクトルが入力音声信号を最もよく表すか決定される、シミュレートされた特徴ベクトルに変換される。このシステムは理想的であるとはいえない。というのは、それが、声道共鳴ベクトルの連続値を決定するのではなく、離散的声道共鳴符号語のうちの1つを選択するからである。
方法および装置は、音声信号中の声道共鳴成分を追跡する。それらの成分は、過去の声道共鳴ベクトルに対して線形であり、現在の声道共鳴ベクトルを予測する状態方程式を定義することによって追跡される。現在の声道共鳴ベクトルに対して線形であり、観測ベクトルの少なくとも1つの成分を予測する観測方程式も定義される。状態方程式、観測方程式、および観測ベクトルのシーケンスを用いて、声道共鳴ベクトルのシーケンスが識別される。一実施形態によれば、観測方程式は、非線形関数への線形近似に基づいて定義される。線形近似のパラメータは、声道共鳴ベクトルの推定値に基づいて選択される。
図1に、本発明が実装され得る適当な計算処理システム環境100の一例を示す。計算処理システム環境100は、適当な計算処理環境の一例に過ぎず、本発明の使用または機能の範囲に関するどんな限定を示唆するためのものでもない。また、計算処理環境100は、例示的な動作環境100に示す構成要素の任意の1つまたは組合せに関連するどんな依存性または要件も持つものであると解釈すべきではない。
本発明は、他の多数の汎用または専用計算処理システム環境または構成と共に動作可能である。本発明と共に使用するのに適し得る公知の計算処理システム、環境、および/または構成の例には、それだけに限らないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップ機器、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、電話技術システム、前述のシステムまたは機器のいずれかを含む分散計算処理環境などが含まれる。
本発明は、コンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的状況で記述され得る。一般に、プログラムモジュールには、個々のタスクを実行し、あるいは個々の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本発明は、タスクが、通信ネットワークを介してリンクされたリモート処理機器によって実行される分散計算処理環境で実施されるように設計される。分散計算処理環境では、プログラムモジュールは、メモリ記憶装置を含む、ローカルとリモート両方のコンピュータ記憶媒体に配置される。
図1を参照すると、本発明を実装する例示的なシステムは、コンピュータ110の形の汎用計算処理機器を含む。コンピュータ110の構成要素には、それだけに限らないが、処理装置120、システムメモリ130、および、システムメモリを含む様々な構成要素を処理装置120に結合するシステムバス121が含まれ得る。システムバス121は、様々なバスアーキテクチャのいずれかを用いた、メモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含むいくつかの種類のバス構造のいずれでもよい。例をあげると、それだけに限らないが、そうしたアーキテクチャには、ISA(Industry Standard Architecture)バス、MCA(Micro Channel Architecture)バス、拡張ISA(EISA)バス、VESA(Video Electronics Standards Association)ローカルバス、およびメザニンバスとも呼ばれるPCI(Peripheral Component Interconnect)バスが含まれる。
コンピュータ110は、通常、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ110からアクセスすることができる任意の使用可能な媒体とすることができ、それには揮発性と不揮発性、リムーバブルと固定の両方の媒体が含まれる。 例をあげると、それだけに限らないが、コンピュータ可読媒体にはコンピュータ記憶媒体および通信媒体が含まれ得る。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュールまたはその他のデータなどの情報の記憶のための任意の方法または技術において実装される、揮発性と不揮発性、リムーバブルと固定の両方の媒体が含まれる。コンピュータ記憶媒体には、それだけに限らないが、RAM、ROM、EEPROM、フラッシュメモリその他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)その他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶その他の磁気記憶機器、あるいは所望の情報を記憶するのに使用することができ、コンピュータ110からアクセスすることのできる他の任意の媒体が含まれる。通信媒体は、通常、コンピュータ可読命令、データ構造、プログラムモジュールまたはその他のデータを、搬送波またはその他の搬送機構などの被変調データ信号として実施し、任意の情報送達媒体を含む。「被変調データ信号」という用語は、情報をその信号中に符号化するような方式でその特徴のうちの1つまたは複数が設定または変更された信号を意味する。例をあげると、それだけに限らないが、通信媒体には、有線ネットワークや直接配線接続などの有線媒体、音響、RF、赤外線、その他の無線媒体などの無線媒体が含まれる。上記のいずれかの組合せをも、コンピュータ可読媒体の範囲内に含むべきである。
システムメモリ130は、読取り専用メモリ(ROM)131やランダムアクセスメモリ(RAM)132などの揮発性および/または不揮発性メモリの形でコンピュータ記憶媒体を含む。起動時などに、コンピュータ110内の要素間の情報転送を支援する基本ルーチンを含む基本入出力システム(BIOS)133は、通常、ROM131に記憶される。RAM132は、通常、処理装置120から直ちにアクセス可能な、かつ/またはそれによって現在処理されているデータおよび/またはプログラムモジュールを含む。例をあげると、それだけに限らないが、図1には、オペレーティングシステム134、アプリケーションプログラム135、その他のプログラムモジュール136、およびプログラムデータ137が示されている。
コンピュータ110は、他のリムーバブル/固定の、揮発性/不揮発性コンピュータ記憶媒体も含み得る。例をあげると、それだけに限らないが、図1には、固定の不揮発性磁気媒体との間で読取りまたは書込みを行うハードディスクドライブ141、リムーバブル不揮発性磁気ディスク152との間で読取りまたは書込みを行う磁気ディスクドライブ151、CD−ROMその他の光媒体などのリムーバブル不揮発性光ディスク156との間で読取りまたは書込みを行う光ディスクドライブ155が示されている。例示的な動作環境で使用され得る他のリムーバブル/固定の、揮発性/不揮発性記憶媒体には、それだけに限らないが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、固体RAM、固体ROMなどが含まれる。ハードディスクドライブ141は、通常、インターフェース140などの固定のメモリインターフェースを介してシステムバス121に接続され、磁気ディスクドライブ151はおよび光ディスクドライブ155は、通常、インターフェース150などのリムーバブルメモリインターフェースによってシステムバス121に接続される。
図1に示す前述のドライブおよびそれに関連するコンピュータ記憶媒体は、コンピュータ110にコンピュータ可読命令、データ構造、プログラムモジュールおよびその他のデータの記憶を提供する。図1では、例えば、ハードディスクドライブ141は、オペレーティングシステム144、アプリケーションプログラム145、その他のプログラムモジュール146、およびプログラムデータ147を記憶するものとして示されている。これらの構成要素は、オペレーティングシステム134、アプリケーションプログラム135、その他のプログラムモジュール136、およびプログラムデータ137を同じものでも、異なるものでもよい。オペレーティングシステム144、アプリケーションプログラム145、その他のプログラムモジュール146、およびプログラムデータ147には、少なくとも、それらが異なるコピーであることを示すために、本明細書では異なる番号を付する。
ユーザは、キーボード162、マイク163、マウス、トラックボール、タッチパッドなどのポインティング機器161といった入力機器を介してコンピュータ110にコマンドおよび情報を入力することができる。その他の入力機器(図示せず)には、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナなどが含まれ得る。上記その他の入力機器は、しばしば、システムバスに結合されたユーザ入力インターフェース160を介して処理装置120に接続されるが、パラレルポート、ゲームポート、ユニバーサルシリアルバス(USB)など他のインターフェースおよびバス構造によっても接続され得る。システムバス121には、ビデオインターフェース190などのインターフェースを介して、モニタ191または他の種類のディスプレイ機器も接続される。コンピュータは、モニタ以外に、スピーカ197や印刷装置196など他の周辺出力機器を含むこともでき、それらは出力周辺インターフェース195を介して接続され得る。
コンピュータ110は、リモートコンピュータ180など、1つまたは複数のリモートコンピュータへの論理接続を用いたネットワーク化環境で動作する。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルド機器、サーバ、ルータ、ネットワークPC、ピアデバイスやその他の一般のネットワークノードとすることができ、通常は、コンピュータ110に関連して前述した諸要素の多くまたはすべてを含む。図1に示す論理接続には、ローカルエリアネットワーク(LAN)171および広域ネットワーク(WAN)173が含まれるが、他のネットワークも含まれ得る。そうしたネットワーク環境は、オフィス、企業規模のコンピュータネットワーク、イントラネットおよびインターネットではよく見られるものである。
LANネットワーク環境で使用されるときには、コンピュータ110は、ネットワークインターフェースまたはアダプタ170を介してLAN171に接続される。WANネットワーク環境で使用されるときには、コンピュータ110は、通常、インターネットなどのWAN173を介して通信を確立するためのモデム172またはその他の手段を含む。 モデム172は、内蔵とすることも外付けとすることもでき、ユーザ入力インターフェース160、またはその他の適当な機構を介してシステムバス121に接続され得る。ネットワーク化環境では、コンピュータ110に関連して示したプログラムモジュール、あるいはその一部は、リモートメモリ記憶装置に記憶され得る。例として、それだけに限らないが、図1に、リモートコンピュータ180上にあるものとしてリモートアプリケーションプログラム185を示す。図示のネットワーク接続は例示的なものであり、コンピュータ間で通信リンクを確立する他の手段も使用され得ることが理解されるであろう。
図2は、人間の音声の一部の周波数スペクトルのグラフである。図2では、周波数を横軸200に沿って示し、周波数成分の大きさを縦軸202に沿って示す。図2のグラフには、鳴音の人間の音声が、第1のフォルマント204、第2のフォルマント206、第3のフォルマント208、第4のフォルマント210などの共振またはフォルマントを含むことが示されている。各フォルマントは、その中心周波数Fおよび帯域幅Bで記述される。
本発明は、鳴音と非鳴音との両方の音声において、連続したフォルマント周波数および帯域幅の範囲にわたって音声信号中のフォルマント周波数および帯域幅を識別する方法を提供する。したがって、本発明は、声道共鳴周波数および帯域幅を追跡することができる。
このために、本発明は、隠れた声道共鳴周波数および帯域幅を、それぞれが観測結果を生成する隠れた状態のシーケンスとしてモデル化する。具体的な一実施形態では、隠れた声道共鳴周波数および帯域幅は、状態方程式
xt=Φxt−1+(I−Φ)T+wt 式1
および観測方程式
ot=C(xt)+vt 式2
を用いてモデル化され、式中、xtはxt={f1,b1,f2,b2,f3,b3,f4,b4}からなる、時間tにおける隠れた声道共鳴ベクトルであり、xt−1は以前の時間t−1における隠れた声道共鳴ベクトルであり、Φはシステム行列であり、Iは識別情報行列であり、Tは声道共鳴周波数および帯域幅での目標ベクトルであり、wtは状態方程式における雑音であり、otは観測されたベクトルであり、C(xt)は隠れた声道共鳴ベクトルから観測ベクトルへのマッピング関数であり、vtは観測における雑音である。一実施形態によれば、Φは、経験的に求められている、各エントリが0.7から0.9の間の値を有する対角行列であり、Tはベクトルであり、一実施形態では、
(500 1500 2500 3500 200 300 400 400)T
の値を有する。この実施形態によれば、雑音パラメータwtおよびvtは、ゼロ平均ベクトルと対角共分散行列を用いたランダムガウスサンプルによって求められる値を有する。 この実施形態におけるこれらの行列の対角要素は、wtは10から30,000までの値、vtは0.8から78までの値を有する。
xt=Φxt−1+(I−Φ)T+wt 式1
および観測方程式
ot=C(xt)+vt 式2
を用いてモデル化され、式中、xtはxt={f1,b1,f2,b2,f3,b3,f4,b4}からなる、時間tにおける隠れた声道共鳴ベクトルであり、xt−1は以前の時間t−1における隠れた声道共鳴ベクトルであり、Φはシステム行列であり、Iは識別情報行列であり、Tは声道共鳴周波数および帯域幅での目標ベクトルであり、wtは状態方程式における雑音であり、otは観測されたベクトルであり、C(xt)は隠れた声道共鳴ベクトルから観測ベクトルへのマッピング関数であり、vtは観測における雑音である。一実施形態によれば、Φは、経験的に求められている、各エントリが0.7から0.9の間の値を有する対角行列であり、Tはベクトルであり、一実施形態では、
(500 1500 2500 3500 200 300 400 400)T
の値を有する。この実施形態によれば、雑音パラメータwtおよびvtは、ゼロ平均ベクトルと対角共分散行列を用いたランダムガウスサンプルによって求められる値を有する。 この実施形態におけるこれらの行列の対角要素は、wtは10から30,000までの値、vtは0.8から78までの値を有する。
一実施形態によれば、観測されるベクトルは、ベクトルの各成分がLPC次数を表す、線形予測符号化ケプストラム(LPCケプストラム)である。その結果、マッピング関数C(xt)は、解析的非線形関数によって正確に求めることができる。フレームtでのベクトル値関数C(xt)のn番目の成分は、
であり、式中、Cn(xt)はN次のLPCケプストラム特徴ベクトルにおけるn番目の要素であり、Kは声道共鳴(VTR)周波数の数であり、fk(t)はフレームtでのk番目のVTR周波数であり、bk(t)はフレームtでのk番目のVTR帯域幅であり、fsはサンプリング周波数であり、これは、多くの実施形態では8kHzとされ、他の実施形態では16kHzとされることもある。C0要素はlogGに等しく設定され、Gは利得である。
観測ベクトルのシーケンスから隠れた声道共鳴ベクトルのシーケンスを識別するために、本発明はカルマンフィルタを使用する。カルマンフィルタは、式1および式2で表される線形動的システムにおける連続値の隠れた声道共鳴ベクトルの最適推定値を求めることのできる再帰的技法を提供する。そのようなカルマンフィルタは当分野では公知である。
カルマンフィルタは、式1および式2の右辺が、隠れた声道共鳴ベクトルに対して線形であることを必要とする。しかし、式3のマッピング関数は、声道共鳴ベクトルに対して非線形である。これに対処するために、本発明は、式3中の指数項および余弦項の代わりに、区分的線形近似を用いる。一実施形態によれば、指数項は5つの線形領域で表され、余弦項は10の線形領域で表される。
図3に、式3の指数項への区分的線形近似の一例を示す。指数の値を縦軸300に沿って示し、k番目のVTR帯域幅での帯域幅bkの値を、横軸302に沿って示す。図3では、5つの線形区分304、306、308、310、312を使用して指数グラフ314が近似されている。以下の表に、線形区分のそれぞれがカバーする指数値の範囲を示す。
図4に、式3中の余弦項への区分的線形近似の一例を示す。余弦関数の値を縦軸400に沿って示し、k番目のVTR周波数での周波数fkの値を横軸402に沿って示す。図4には、この余弦関数の1サイクルだけを示すが、この余弦関数のサイクルごとに同じ区分的線形近似が使用され得ることを、当分野の技術者は理解するであろう。図4の実施形態によれば、余弦関数424は、10の線形区分404、406、408、410、412、414、416、418、420、422によって近似される。以下の表2に、完全なサイクルが0Hzから8000Hzまでの周波数をカバーするものと想定して、各線形区分によってカバーされる余弦値の不均一な範囲を示す。
これらの線形近似を用いると、式3は以下のように書き換えられる。
式中、αkxは傾きであり、βkxは指数項を近似する線形区分の切片であり、γkxは傾きであり、δkxは余弦項を近似する線形区分の切片である。非線形関数を近似するために使用される線形区分は、表1および表2によるxtの値によって判断される領域に基づいて選択されるため、4つの項すべてがxtに依存することに留意されたい。
式4のマッピング関数の形は、二次の項のために、xtに関して依然として線形ではない。本発明の一実施形態によれば、この項の増分部分が無視され、結果としてxtからCn(xt)への線形方程式になる。
この形では、表1および表2に例示する区分の領域に基づいてパラメータが固定される間は、観測されたLPC特徴ベクトルo1:Tのシーケンスから連続値状態x1:Tのシーケンスを得るためにカルマンフィルタが直接適用される。
図5に、線形近似を選択し、カルマンフィルタでその近似を用い、式1、式2、式4によって連続値状態のシーケンスを識別するが、式4の二次の項の増分部分は無視する方法の一般的な流れ図を示す。図6および図7に、図5の方法で使用される構成要素の構成図を示す。
図5のステップ500では、表に格納される声道共鳴(VTR)コードブックが、可能なVTR周波数および帯域幅を量子化して量子化値のセットを形成し、次いで、それらの量子化値の異なる組合せでのエントリを形成することによって構築される。したがって、結果として生じるコードブックは、VTR周波数および帯域幅のベクトルであるエントリを含む。例えば、コードブックが4つのVTRに対するエントリを含む場合には、コードブック内のi番目のエントリx[i]は[F1i,B1i,F2i,B2i,F3i,B3i,F4i,B4i]というベクトルになるはずであり、その場合、F1i,F2i,F3i,F4iは第1、第2、第3、第4のVTRの周波数であり、B1i,B2i,B3i,B4iは、第1、第2、第3、第4のVTRの帯域幅である。以下の説明では、コードブックへの指標iは、その指標で格納された値x[i]と同義で使用される。以下でこの指標を単独で使用するときには、その指標で格納された値を表すものとする。
一実施形態によれば、フォルマントおよび帯域幅は、以下の表3のエントリに従って量子化される。表中、最小(Hz)とは周波数または帯域幅のヘルツ単位での最小値であり、最大(Hz)とは、ヘルツ単位の最大値であり、「量子化数」は量子化状態の数である。周波数および帯域幅では、最小から最大までの範囲を量子化状態の数で割って各量子化状態間の分離が与えられる。例えば、表3の帯域幅B1では、260Hzの範囲を5つの量子化状態で均一に割って、各状態がその他の状態から65Hzずつ隔てられる(すなわち、40、105、170、235、300)。
表3の量子化状態の数は、合計で1億組を超える、異なるVTRセットを生じるはずである。しかし、F1<F2<F3<F4という制約があるために、コードブックには、実際上は、それよりも少ない数のVTRセットしかない。
コードブックが形成された後、ステップ502で、コードブック中のエントリを用いて、残余ランダム変数を記述するパラメータに学習させる。残余ランダム変数は、観測学習特徴ベクトルのセットとシミュレートされた特徴ベクトルのセットとの間の差である。式で表すと以下のとおりである。
vt=ot−S(xt[i]) 式5
式中、vtは残余であり、otは時間tにおける観測された学習特徴ベクトルであり、S(xt[i])はシミュレートされた特徴ベクトルである。
vt=ot−S(xt[i]) 式5
式中、vtは残余であり、otは時間tにおける観測された学習特徴ベクトルであり、S(xt[i])はシミュレートされた特徴ベクトルである。
図6に示すように、シミュレートされた特徴ベクトルS(xt[i])610は、必要なときに、VTRコードブック600内のVTRのセットxt[i]をLPCケプストラム計算器602に適用することによって構築され、そこでは以下の計算が実施される。
式中、Sn(xt[i])はn次のLPCケプストラム特徴ベクトルにおけるn番目の要素であり、KはVTRの数であり、fkはk番目のVTR周波数であり、bkはk番目のVTR帯域幅であり、fsはサンプリング周波数であり、これは多くの実施形態では8kHzである。S0要素は、logGに等しく設定され、Gは利得である。
残余モデルの学習に使用される観測された学習特徴ベクトルotを生成するために、人間の話者612が音響信号を生成し、それがマイク616によって検出され、マイク616は相加性雑音614も検出する。マイク616は、音響信号をアナログ電気信号に変換し、それがアナログ/デジタル(A/D)変換器618に提供される。アナログ信号はA/D変換器618によってサンプリング周波数fsでサンプリングされ、結果として生じたサンプルがデジタル値に変換される。一実施形態では、A/D変換器618は、アナログ信号を8kHz、1サンプル当たり16ビットでサンプリングし、毎秒16キロバイトの音声データを作成する。別の実施形態では、A/D変換器618は、アナログ信号を16kHzでサンプリングする。デジタルサンプルは、フレームコンストラクタ620に提供され、そこでサンプルがフレームにグループ化される。一実施形態によれば、フレームコンストラクタ620は、10ミリ秒ごとに、25ミリ秒分のデータを含む新規フレームを作成する。
データのフレームは、LPCケプストラム特徴抽出器622に提供され、そこで、高速フーリエ変換(FFT)624を用いて信号を周波数ドメインに変換し、次いで、LPC係数システム626を用いて音声信号のフレームのスペクトル内容を表す多項式を識別する。LPC係数は、再帰呼出628を用いてLPCケプストラム係数に変換される。再帰呼出の出力は、学習音声信号を表す学習特徴ベクトルのセット630である。
シミュレートされた特徴ベクトル610および学習特徴ベクトル630は、残余学習器632に提供され、そこで残余vtでのパラメータを学習する。
一実施形態によれば、vtは平均値h、精度Dの単一ガウス形であり、その場合hは特徴ベクトルの成分ごとに別々の平均値を持つベクトルであり、Dは特徴ベクトルの成分ごとに別々の値を持つ対角精度行列である。
これらのパラメータには、本発明の一実施形態によれば、期待最大化(EM)アルゴリズムを用いて学習が行われる。このアルゴリズムのEステップでは、事後確率
が決まる。一実施形態によれば、この事後確率は、
と定義される順方向/逆方向の再帰法を用いて決められる。式中、ρt(i)およびσt(i)は以下のように再帰的に求められる。
本発明の一態様によれば、遷移確率p(xt[i]|xt−1[j])およびp(xt[i]|xt+1[j])は、上記の式1を用いて決められるが、それを便宜上ここで、コードブック指標表記を用いて以下のように繰り返す。
xt[i]=Φxt−1[i]+(I−Φ)T+wt 式10
式中、xt[i]はフレームtにおけるVTRの値であり、xt−1[j]は以前のフレームt−1におけるVTRの値であり、Φはレートであり、Tはフレームtに関連付けられたVTRでの目標であり、wtはフレームtにおける雑音であって、これは、一実施形態では、精度行列Bを有するゼロ平均ガウス形であると想定される。
式中、xt[i]はフレームtにおけるVTRの値であり、xt−1[j]は以前のフレームt−1におけるVTRの値であり、Φはレートであり、Tはフレームtに関連付けられたVTRでの目標であり、wtはフレームtにおける雑音であって、これは、一実施形態では、精度行列Bを有するゼロ平均ガウス形であると想定される。
この動的モデルを使用すると、遷移確率を、以下のガウス関数として記述することができる。
p(xt[i]|xt−1[j])=N(xt[i];Φxt−1[i]+(I−Φ)T,B) 式11
p(xt[i]|xt+1[j])=N(xt+1[i];Φxt[i]+(I−Φ)T,B) 式12
代替として、事後確率
p(xt[i]|xt+1[j])=N(xt+1[i];Φxt[i]+(I−Φ)T,B) 式12
代替として、事後確率
は、ベクトルのシーケンスではなく、現在の観測ベクトルだけに確率を依存させて、事後確率が、
となるようにすることによって推定することができ、これは
として計算され得る。式中、
は、EMアルゴリズムの以前の反復から決められた、あるいはこれが最初の反復である場合には、最初に設定された残余の精度である。
事後確率
を識別するためにEステップが実施された後で、
を用いて、残余の平均値hおよび分散D−1(精度行列の逆行列)の各対角要素d−1を決めるために、Mステップが実施される。式中、Nは学習発話内のフレーム数であり、IはVTRでの量子化組合せ数であり、otは時間tにおける観測された観測特徴ベクトルであり、S(xt[i])はVTRxt[i]でのシミュレートされた特徴ベクトルである。
残余学習器632は、EステップおよびMステップを反復することにより平均値および分散を何度も更新し、その都度以前の反復からの平均値および分散を使用する。平均値および分散が安定値に到達した後、それらは残余パラメータ634として記憶される。
残余パラメータ634が構築されると、それらを図5のステップ504で使用して、入力音声信号中のVTRベクトルを識別することができる。VTRベクトルを識別するシステムの構成図を図7に示す。
図7では、スピーカ712によって音声信号が生成される。音声信号および相加性雑音714は、マイク716、A/D変換器718、フレームコンストラクタ720、ならびに、FFT724、LPCシステム726、および再帰呼出728からなる特徴抽出器722によって特徴ベクトル730のストリームに変換される。マイク716、A/D変換器718、フレームコンストラクタ720、および特徴抽出器722は、図6のマイク616、A/D変換器618、フレームコンストラクタ620、特徴抽出器622と同様に動作することに留意されたい。
特徴ベクトル730のストリームは、残余パラメータ634およびシミュレートされた特徴ベクトル610と共にVTR追跡器732に提供される。VTR追跡器732は、動的プログラミングを用いて最尤VTRベクトル734のシーケンスを識別する。具体的には、トレリスダイアグラム中の各ノードが以下の最適部分スコアを有する、ビタビ復号法を利用する。
最適原理に基づき、以下のビタビ再帰法を用いてt+1の処理段階における最適部分尤度を計算することができる。
式18では、「遷移」確率p(xt+1[i]=x[i]|xt[i]=x[i’])が前記の状態方程式10を用いて計算され、以下のガウス分布が生成される。
p(xt+1[i]=x[i]|xt[i]=x[i’])=N(xt+1[i];Φxt[i’]+(I−Φ)T,B) 式19
式中、Φxt[i]+(I−Φ)Tは分布の平均値であり、Bは分布の精度である。
p(xt+1[i]=x[i]|xt[i]=x[i’])=N(xt+1[i];Φxt[i’]+(I−Φ)T,B) 式19
式中、Φxt[i]+(I−Φ)Tは分布の平均値であり、Bは分布の精度である。
式18の観測確率p(ot+1|xt+1[i]=x[i])は、ガウス形として扱われ、観測方程式5と残余パラメータhおよびDとから以下のように計算される。
p(ot+1|xt+1[i]=x[i])=N(ot+1;S(xt+1[i]+h,D) 式20
式20内の最適量子化指標i’のバックトラッキングによって、初期のVTRシーケンス734が提供される。
p(ot+1|xt+1[i]=x[i])=N(ot+1;S(xt+1[i]+h,D) 式20
式20内の最適量子化指標i’のバックトラッキングによって、初期のVTRシーケンス734が提供される。
実施すべき計算回数を減らすために、厳密なビタビサーチではなく、プルーニングビームサーチが実施され得る。一実施形態では、フレームごとに1つの指標だけが識別される、極端な形のプルーニングが用いられる。
ステップ504で初期のVTRシーケンス734が識別された後で、初期のVTRは線形パラメータ推定器736に提供され、これが、ステップ506で、前述の式4の線形近似でのパラメータを選択する。具体的には、フレームごとに、そのフレームでの初期のVTRベクトルを用いて、各声道共鳴指標kおよびLPC次数nごとに、線形パラメータαkx、βkx、γkx、およびδkxの値を決める。
一実施形態によれば、LPC次数nに対する線形パラメータαkxおよびβkxの値は、初期のVTRベクトルの帯域幅bkを指数項
に適用し、指数を評価することによって決められる。次いで、その指数の値をまたぐ図3の線形区分が選択され、それによってその線形区分を定義する線形パラメータαkxおよびβkxが選択される。これらのパラメータのそれぞれは、帯域幅bkに関連付けられたベクトル成分を除くあらゆるベクトル成分についてゼロの値を有するベクトルであることに留意されたい。
一実施形態によれば、LPC次数nについての線形パラメータγkxおよびδkxの値は、初期のVTRベクトルの周波数fkを余弦項
に適用し、余弦項を評価することによって決められる。次いで、その余弦の値をまたぐ図4の線形区分が選択され、それによってその線形区分を定義する線形パラメータγkxおよびδkxが選択される。これらのパラメータのそれぞれは、周波数fkに関連付けられたベクトル成分を除くあらゆるベクトル成分についてゼロの値を有するベクトルであることに留意されたい。
ステップ508で、フレームごとの線形パラメータが式4に適用される。式4における二次の項の増分部分を無視して、式4が式2で用いられる。次いで、式1および式2は、
カルマンフィルタ738に提供され、そこで、フレームごとのVTRベクトル734が再推定される。ステップ510では、次に実施すべき反復があるかどうか判定する。次の反復がある場合には、ステップ506に戻り、そこで新しいVTRベクトルから線形パラメータが再推定される。次いで、新しい線形パラメータは、式4を介して式2に適用され、ステップ508において式1および式2をカルマンフィルタ738内で用いて、VTRベクトルが再推定される。ステップ506、508、および510は、ステップ510において、それ以上の反復は不要であると判定されるまで反復される。その時点で、プロセスは、ステップ512で終了し、VTRベクトル734の最後の推定が、その入力信号での声道共鳴周波数および帯域幅のシーケンスとして使用される。
カルマンフィルタ738に提供され、そこで、フレームごとのVTRベクトル734が再推定される。ステップ510では、次に実施すべき反復があるかどうか判定する。次の反復がある場合には、ステップ506に戻り、そこで新しいVTRベクトルから線形パラメータが再推定される。次いで、新しい線形パラメータは、式4を介して式2に適用され、ステップ508において式1および式2をカルマンフィルタ738内で用いて、VTRベクトルが再推定される。ステップ506、508、および510は、ステップ510において、それ以上の反復は不要であると判定されるまで反復される。その時点で、プロセスは、ステップ512で終了し、VTRベクトル734の最後の推定が、その入力信号での声道共鳴周波数および帯域幅のシーケンスとして使用される。
カルマンフィルタ738は、声道共鳴ベクトルの連続値を提供することに留意されたい。したがって、結果として生じる声道共鳴周波数および帯域幅のシーケンスは、VTRコードブック600中に見出される離散値に限定されるものではない。
以上、本発明を具体的な実施形態を参照して説明したが、本発明の精神および範囲を逸脱することなく形式および内容上の変更を加え得ることを、当業者は理解するであろう。
100 計算処理環境
110 コンピュータ
121 システムバス
141 ハードディスクドライブ
151 磁気ディスクドライブ
152 リムーバブル不揮発性磁気ディスク
155 光ディスクドライブ
156 リムーバブル不揮発性光ディスク
200 周波数
202 周波数成分の大きさ
300 指数の値
302 帯域幅bkの値
400 余弦関数の値
402 周波数fkの値
110 コンピュータ
121 システムバス
141 ハードディスクドライブ
151 磁気ディスクドライブ
152 リムーバブル不揮発性磁気ディスク
155 光ディスクドライブ
156 リムーバブル不揮発性光ディスク
200 周波数
202 周波数成分の大きさ
300 指数の値
302 帯域幅bkの値
400 余弦関数の値
402 周波数fkの値
Claims (22)
- 音声信号中の声道共鳴周波数追跡の方法であって、
過去の声道共鳴ベクトルに対して線形であり、現在の声道共鳴ベクトルを予測する状態方程式を定義するステップと、
現在の声道共鳴ベクトルに対して線形であり、観測ベクトルの少なくとも1つの成分を予測する観測方程式を定義するステップと、
前記状態方程式、前記観測方程式、および観測ベクトルのシーケンスを使用して、それぞれが少なくとも1つの声道共鳴周波数を含む声道共鳴ベクトルのシーケンスを識別するステップと
を備えたことを特徴とする方法。 - 前記状態方程式、前記観測方程式、および前記観測ベクトルのシーケンスを使用して声道共鳴ベクトルのシーケンスを識別するステップは、前記状態方程式、前記観測方程式、および前記観測ベクトルのシーケンスをカルマンフィルタに適用するステップを含むことを特徴とする請求項1に記載の方法。
- 声道共鳴ベクトルを識別するステップは、連続した値のセットから声道共鳴ベクトルを識別するステップを含むことを特徴とする請求項1に記載の方法。
- 前記観測方程式を定義するステップは、前記声道共鳴ベクトルに対して非線形である関数への線形近似を定義するステップを含むことを特徴とする請求項1に記載の方法。
- 前記観測方程式を定義するステップは、前記声道共鳴ベクトルに対してそれぞれ非線形である2つの関数の積への線形近似を定義するステップをさらに含むことを特徴とする請求項4に記載の方法。
- 前記声道共鳴ベクトルに対して非線形である前記関数の1つは、前記声道共鳴ベクトルの帯域幅成分に対して非線形である指数関数であることを特徴とする請求項5に記載の方法。
- 前記声道共鳴ベクトルに対して非線形である前記関数の1つは、前記声道共鳴ベクトルの周波数成分に対して非線形である正弦波関数であることを特徴とする請求項5に記載の方法。
- 線形近似を定義するステップは、合わせて前記非線形関数への区分的線形近似を形成する線形近似のセットから線形近似を選択するステップを含むことを特徴とする請求項4に記載の方法。
- 線形近似を定義するステップは、非線形関数値を生成するために声道共鳴ベクトルの推定値に基づいて前記非線形関数を評価するステップと、前記非線形関数値を使用して前記線形近似でのパラメータを選択するステップとを含むことを特徴とする請求項4に記載の方法。
- 線形近似を定義するステップは、前記非線形関数値を用いて、合わせて前記非線形関数への区分的線形近似を形成する線形近似のセットから線形近似を選択するステップをさらに含むことを特徴とする請求項9に記載の方法。
- 前記識別された声道共鳴ベクトルを用いて前記観測方程式を再定義するステップと、
前記再定義された観測方程式、前記状態方程式、および前記観測ベクトルを用いて新しい声道共鳴ベクトルのシーケンスを識別するステップと
をさらに備えたことを特徴とする請求項1に記載の方法。 - 前記観測方程式を再定義するステップは、識別された声道共鳴ベクトルを用いて、声道共鳴ベクトルに対して非線形である関数への少なくとも1つの線形近似でのパラメータを選択するステップを含むことを特徴とする請求項11に記載の方法。
- 識別された声道共鳴ベクトルを用いてパラメータを選択するステップは、前記声道共鳴ベクトルを用いて非線形関数値を生成する前記非線形関数を評価するステップと、前記非線形関数値を用いて少なくとも1つの線形近似でのパラメータを選択するステップとを含むことを特徴とする請求項12に記載の方法。
- 少なくとも1つの声道共鳴成分の推定値を用いて、前記声道共鳴成分に対して非線形である関数への線形近似を選択するステップと、
前記線形近似を用いて観測方程式を定義するステップと、
前記観測方程式および少なくとも1つの観測されたベクトルを用いて前記声道共鳴成分を再推定するステップと
を備えたステップを実施するためのコンピュータ実行可能命令を有することを特徴とするコンピュータ可読媒体。 - 線形近似を選択するステップは、前記非線形関数の区分的線形近似を形成する線形近似のセットから1つの線形近似を選択するステップを含むことを特徴とする請求項14に記載のコンピュータ可読媒体。
- 線形近似を選択するステップは、前記声道共鳴成分を前記非線形関数に適用して関数値を形成するステップと、前記関数値に基づいて前記線形近似を選択するステップとを含むことを特徴とする請求項14に記載のコンピュータ可読媒体。
- 前記声道共鳴成分の値を再推定するステップは、前記声道共鳴成分に対して線形である状態方程式を用いるステップをさらに含むことを特徴とする請求項14に記載のコンピュータ可読媒体。
- 前記声道共鳴成分の値を再推定するステップは、前記状態方程式、前記観測方程式および前記少なくとも1つの観測されたベクトルをカルマンフィルタに適用するステップをさらに含むことを特徴とする請求項17に記載のコンピュータ可読媒体。
- 前記声道共鳴成分に対して非線形である第2の関数への第2の線形近似を選択するステップと、前記第2の線形近似を用いて前記観測方程式を定義するステップとをさらに備えたことを特徴とする請求項14に記載のコンピュータ可読媒体。
- 前記非線形関数は、指数関数を含むことを特徴とする請求項14に記載のコンピュータ可読媒体。
- 前記非線形関数は、正弦波関数を含むことを特徴とする請求項14に記載のコンピュータ可読媒体。
- 前記声道共鳴成分は、連続値であることを特徴とする請求項14に記載のコンピュータ可読媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/723,995 US20050114134A1 (en) | 2003-11-26 | 2003-11-26 | Method and apparatus for continuous valued vocal tract resonance tracking using piecewise linear approximations |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005157350A true JP2005157350A (ja) | 2005-06-16 |
JP2005157350A5 JP2005157350A5 (ja) | 2007-12-27 |
Family
ID=34465720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004329652A Pending JP2005157350A (ja) | 2003-11-26 | 2004-11-12 | 区分的線形近似を用いた連続値声道共鳴追跡の方法および装置 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20050114134A1 (ja) |
EP (1) | EP1536411B1 (ja) |
JP (1) | JP2005157350A (ja) |
KR (1) | KR20050050533A (ja) |
CN (1) | CN1624765A (ja) |
AT (1) | ATE365960T1 (ja) |
DE (1) | DE602004007223T2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003042648A1 (fr) * | 2001-11-16 | 2003-05-22 | Matsushita Electric Industrial Co., Ltd. | Codeur de signal vocal, decodeur de signal vocal, procede de codage de signal vocal et procede de decodage de signal vocal |
US7079342B1 (en) * | 2004-07-26 | 2006-07-18 | Marvell International Ltd. | Method and apparatus for asymmetry correction in magnetic recording channels |
US7653535B2 (en) * | 2005-12-15 | 2010-01-26 | Microsoft Corporation | Learning statistically characterized resonance targets in a hidden trajectory model |
CN101281744B (zh) * | 2007-04-04 | 2011-07-06 | 纽昂斯通讯公司 | 语音分析方法和装置以及语音合成方法和装置 |
US8164845B1 (en) | 2007-08-08 | 2012-04-24 | Marvell International Ltd. | Method and apparatus for asymmetry correction in magnetic recording channels |
US20100145687A1 (en) * | 2008-12-04 | 2010-06-10 | Microsoft Corporation | Removing noise from speech |
CN101693371B (zh) * | 2009-09-30 | 2011-08-24 | 深圳先进技术研究院 | 跟踪音乐节拍跳舞的机器人 |
US10466967B2 (en) | 2016-07-29 | 2019-11-05 | Qualcomm Incorporated | System and method for piecewise linear approximation |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0271325A (ja) * | 1987-12-16 | 1990-03-09 | Matsushita Electric Ind Co Ltd | Hmm作成装置及びそれを用いた尤度計算装置、時系列パターン認識装置 |
JPH03181999A (ja) * | 1989-12-12 | 1991-08-07 | Matsushita Electric Ind Co Ltd | Hmm装置 |
JPH10111862A (ja) * | 1996-08-13 | 1998-04-28 | Fujitsu Ltd | 再帰型ニューラルネットワークに基づく時系列解析装置および方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4790016A (en) * | 1985-11-14 | 1988-12-06 | Gte Laboratories Incorporated | Adaptive method and apparatus for coding speech |
JP2969862B2 (ja) * | 1989-10-04 | 1999-11-02 | 松下電器産業株式会社 | 音声認識装置 |
US5148488A (en) * | 1989-11-17 | 1992-09-15 | Nynex Corporation | Method and filter for enhancing a noisy speech signal |
EP0772925B1 (en) * | 1995-05-03 | 2004-07-14 | Sony Corporation | Non-linearly quantizing an information signal |
US6505152B1 (en) * | 1999-09-03 | 2003-01-07 | Microsoft Corporation | Method and apparatus for using formant models in speech systems |
US6567777B1 (en) * | 2000-08-02 | 2003-05-20 | Motorola, Inc. | Efficient magnitude spectrum approximation |
-
2003
- 2003-11-26 US US10/723,995 patent/US20050114134A1/en not_active Abandoned
-
2004
- 2004-10-26 EP EP04025456A patent/EP1536411B1/en not_active Expired - Lifetime
- 2004-10-26 DE DE602004007223T patent/DE602004007223T2/de not_active Expired - Lifetime
- 2004-10-26 AT AT04025456T patent/ATE365960T1/de not_active IP Right Cessation
- 2004-11-03 KR KR1020040088819A patent/KR20050050533A/ko not_active Application Discontinuation
- 2004-11-12 JP JP2004329652A patent/JP2005157350A/ja active Pending
- 2004-11-26 CN CNA2004100956562A patent/CN1624765A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0271325A (ja) * | 1987-12-16 | 1990-03-09 | Matsushita Electric Ind Co Ltd | Hmm作成装置及びそれを用いた尤度計算装置、時系列パターン認識装置 |
JPH03181999A (ja) * | 1989-12-12 | 1991-08-07 | Matsushita Electric Ind Co Ltd | Hmm装置 |
JPH10111862A (ja) * | 1996-08-13 | 1998-04-28 | Fujitsu Ltd | 再帰型ニューラルネットワークに基づく時系列解析装置および方法 |
Also Published As
Publication number | Publication date |
---|---|
DE602004007223D1 (de) | 2007-08-09 |
KR20050050533A (ko) | 2005-05-31 |
DE602004007223T2 (de) | 2007-10-11 |
EP1536411B1 (en) | 2007-06-27 |
ATE365960T1 (de) | 2007-07-15 |
CN1624765A (zh) | 2005-06-08 |
EP1536411A1 (en) | 2005-06-01 |
US20050114134A1 (en) | 2005-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7409346B2 (en) | Two-stage implementation for phonetic recognition using a bi-directional target-filtering model of speech coarticulation and reduction | |
Milner et al. | Speech reconstruction from mel-frequency cepstral coefficients using a source-filter model | |
EP1693826B1 (en) | Vocal tract resonance tracking using a nonlinear predictor | |
EP1465154B1 (en) | Method of speech recognition using variational inference with switching state space models | |
US7617104B2 (en) | Method of speech recognition using hidden trajectory Hidden Markov Models | |
KR101026632B1 (ko) | 포먼트 트랙킹 방법 및 컴퓨터 판독가능 기록 매체 | |
US6944590B2 (en) | Method of iterative noise estimation in a recursive framework | |
JP2005208648A (ja) | スイッチング状態空間モデルによるマルチモーダル的変分推論を使用して音声を認識する方法 | |
US7565284B2 (en) | Acoustic models with structured hidden dynamics with integration over many possible hidden trajectories | |
WO2015025788A1 (ja) | 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法 | |
US7680663B2 (en) | Using a discretized, higher order representation of hidden dynamic variables for speech recognition | |
JP2005157350A (ja) | 区分的線形近似を用いた連続値声道共鳴追跡の方法および装置 | |
Motlıcek | Feature extraction in speech coding and recognition | |
Roma et al. | Improving single-network single-channel separation of musical audio with convolutional layers | |
US7346510B2 (en) | Method of speech recognition using variables representing dynamic aspects of speech | |
Vlaj et al. | Voice activity detection algorithm using nonlinear spectral weights, hangover and hangbefore criteria | |
US7475011B2 (en) | Greedy algorithm for identifying values for vocal tract resonance vectors | |
WO2020162238A1 (ja) | 音声認識装置、音声認識方法、プログラム | |
JP3866171B2 (ja) | 音素決定方法、その装置及びプログラム | |
JP2008216659A (ja) | 音声認識装置および音声認識プログラム | |
JPH10232694A (ja) | 音声認識装置および音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071112 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101001 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110301 |