JP3654831B2 - 自動音声認識のための特徴量抽出方法 - Google Patents
自動音声認識のための特徴量抽出方法 Download PDFInfo
- Publication number
- JP3654831B2 JP3654831B2 JP2000357217A JP2000357217A JP3654831B2 JP 3654831 B2 JP3654831 B2 JP 3654831B2 JP 2000357217 A JP2000357217 A JP 2000357217A JP 2000357217 A JP2000357217 A JP 2000357217A JP 3654831 B2 JP3654831 B2 JP 3654831B2
- Authority
- JP
- Japan
- Prior art keywords
- extraction method
- feature
- speech recognition
- automatic speech
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000605 extraction Methods 0.000 title claims description 51
- 230000005236 sound signal Effects 0.000 claims description 12
- 230000006835 compression Effects 0.000 claims description 5
- 238000007906 compression Methods 0.000 claims description 5
- 238000000034 method Methods 0.000 description 16
- 238000000354 decomposition reaction Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 11
- 238000001914 filtration Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000005070 sampling Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003679 aging effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000010349 pulsation Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Auxiliary Devices For Music (AREA)
Description
【発明の属する技術分野】
この発明は、自動音声認識のための特徴量抽出方法に関する。さらに詳しくは、種々のクラスの音について最適化された認識のための特徴を抽出するためのウエーブレットに基づいた方法に関する。
【0002】
【従来の技術】
音声信号分析では、まず、その音声信号を特徴づける有用な情報を表す特徴量を抽出する。通常、特徴量の抽出は以下のようにして行われる。所定のフレーム長の窓を時間軸上にオーバーラップさせて移動し窓幅分の音声信号を切り出し、切り出した音声信号に高速フーリエ変換(FFT)を施す。得られたスペクトルの対数にフーリエ(逆)変換を施し、高次の項(高ケフレンシー部)を切り捨てることによってケプストラム係数の有限の集合を抽出する。このようにして得られたケプストラム係数を用いて隠れマルコフモデルなどの音声モデルを作成することができる。
【0003】
【発明が解決しようとする課題】
上述のFFTを用いた音声信号分析では、時間−周波数分解能は一定である。音声信号分析では、時間−周波数平面上に非直線的に分布する音声情報をよりよく抽出するために、複数の異なった時間−周波数分解能を使用できることが望ましい。例えば、比較的速く変化する摩擦音あるいは他の子音については高い時間分解能で、比較的遅く変化する母音については低い時間分解能で分析できることが望ましい。ところが現在の技術ではこれを達成することは困難である。各々が特定の音の特徴に対応して設計された一組の認識装置を用意して各認識装置を並列に使用することによって達成できるが、これでは装置の規模が大きくなる。
【0004】
【課題を解決するための手段】
この発明による自動音声認識のための特徴量抽出方法では、音声信号を1組のウエーブレットを用いて分解し、特定のクラスの音声の識別力を高めるためのウエーブレット基底を定義かつ選択し、上記1組のウエーブレットに上記基底を適用して音声信号から抽出された特徴量を表す複数の展開係数を生成する。
【0005】
好ましくは、上記特徴量抽出方法ではさらに、1組のウエーブレットを展開係数として表し、次いで、当該係数を非相関にし圧縮する。
【0006】
好ましくは、上記音声信号は、サンプリングされデジタル形式で表される。
【0007】
好ましくは、上記1組のウエーブレットはツリー構成を有する。
【0008】
好ましくは、上記ツリー構成は、基本処理ブロックの連鎖によって得られる2分木構成である。
【0009】
好ましくは、上記基本処理ブロックは、ハイパスフィルタリング処理と、ローパスフィルタリング処理と、当該ハイパスおよびローパスフィルタリング処理に続くダウンサンプリング処理とを行うものである。
【0010】
好ましくは、上記ツリー構成は、各々が展開係数を与える複数の葉ノードを定義する。
【0011】
好ましくは、上記ツリー構成は、根ノードを定義し、上記特徴量抽出方法ではさらに、根ノードに音声信号を連続的に与える。
【0012】
好ましくは、上記ツリー構成は、所定のクラスの音の識別力を最大にすべく選択された複数の葉ノードを定義する。
【0013】
好ましくは、上記特徴量抽出方法ではさらに、展開係数を窓時間にわたって積分する。
【0014】
好ましくは、上記特徴量抽出方法ではさらに、展開係数に対して非線型演算を施す。
【0015】
好ましくは、上記非線型演算は、展開係数の圧縮を含む。
【0016】
好ましくは、上記1組のウエーブレットは、複数のノードを有するデータ構造に組織化される。
【0017】
好ましくは、上記特徴量抽出方法ではさらに、各ノードについて平均振幅を計算する。
【0018】
好ましくは、上記特徴量抽出方法ではさらに、複数のノードのうちの選択したノードに対して離散コサイン変換(DCT)を施すことによってケプストラム係数を求める。
【0019】
好ましくは、上記特徴量抽出方法ではさらに、複数のノードの各々についてエネルギーを示す値を計算し計算した値が所定のしきい値よりも小さいときはそのノードを切り捨てることによって上記複数のノードのうち一部を選択する。
【0020】
好ましくは、上記エネルギーを示す値は圧縮されたエネルギーである。
【0021】
好ましくは、上記特徴量抽出方法ではさらに、複数のノードのうち第1のノードの識別力を計算し、さらに第1のノードから派生する子ノードの識別力を計算し、子ノードの識別力の和が第1のノードの識別力よりも小さいとき当該子ノードを切り捨てることによって複数のノードのうち一部を選択する。
【0022】
好ましくは、上記特徴量抽出方法において、第1のクラスの音を表すための第1の複数の展開係数を生成し、第2のクラスの音を表すための第2の複数の展開係数を生成し、音声認識に使用するための第1および第2の特殊化されたモデルの集合を第1および第2の複数の展開係数を使用して作成する。
【0023】
好ましくは、上記第1および第2のモデルの集合はマルチパス構成において使用され、第1のモデルの集合が認識結果とともにまず使用され、次いで第2のモデルの集合が使用されて処理される。
【0024】
好ましくは、上記第1および第2のモデルの集合はともに、第1および第2のクラスの音に対応する認識結果を与えるために使用される。
【0025】
好ましくは、上記第1のクラスの音は広いクラスの音の間での第1のレベルの識別に対応し、上記第2のクラスの音は狭いクラスの音の間での第2のレベルの識別に対応する。
【0026】
上記抽出方法では、種々のクラスに属する音の広い範囲にわたる取り合わせをカバーする1つの分析技術を提供するウエーブレット技術が用いられる。この発明におけるウエーブレット技術を用いることによって、1つの認識装置だけで認識装置を構成することができ、その認識装置では、独特の特徴量抽出処理によって種々のクラスの音について最適化された音声モデル使用することができる。このように、この発明に従った認識装置は、認識分析処理の複雑さを増大させることなく、種々のクラスの音について最適化される。
【0027】
【発明の実施の形態】
以下、この発明の実施の形態を図面を参照して詳しく説明する。なお、図中同一または相当部分には同一符号を付しその説明は繰り返さない。
【0028】
この発明の実施の形態による局部的な特徴量抽出システムでは、音声波形のウエーブレット分解を使用する。ウエーブレット分解により、音声情報を時間的および周波数的に局在する関数として表す方法が得られる。このように、ウエーブレット分解は従来のフーリエ級数分解と異なる。従来のフーリエ分析においては、正弦波および余弦波は周波数的には局在するが時間的および空間的には無限に続く。したがって、例えば、短いパルスが有するゆっくりと減衰する係数を、FFTを使用して測定し表すことは困難である。そのようなパルスを表すためには、フーリエ級数は相殺に強く依存しなければならない。関数の性質を係数の性質に関連づけるすべてのフーリエ分析では、無限に続く正弦波関数のために困難になっている。
【0029】
ベクトル空間Sが与えられ、その空間S内に張られたベクトル(e1,・・・,en:ei∈S)がベクトル空間Sの基底であるとする。i≠jのときeiがejと線形独立であれば、その基底は完備であるという。また、線形代数により、スカラー積<x,y>:S→R(Rは実数の集合)が定義されると、すべてのベクトルx(x∈S)は基底に分解することができる(基底を構成することができる)。ベクトルxは以下に示す[数1]によって表される。
【0030】
【数1】
【0031】
ここで、<ei,x>eiは、eiに沿ったベクトルの要素である。集合(<ei,x>ei:i=1,・・・,n)は、基底(e1,・・・,en)上へのベクトルの射影である。
【0032】
以下の[数2]に示すようなスカラー積が定義されるとき、関数(その結果、信号も)は、ひとつのベクトル空間である。
【0033】
【数2】
【0034】
ここで、f,gは関数または信号である。数学的には、関数および信号は同じ対象についての二つの名前である。また、g*は、gの随伴行列(adjoint)である。このことは、関数空間のための基底を構成することができ、そのような基底に関数を射影することができ、後述の[数3]および[数4]を使用して信号を再構成することができることを意味する。
【0035】
特に、ウエーブレット基底は、基本ウエーブレット(mother wavelet)と呼ばれる基本関数W(x)を時間軸上で平行移動[W(x)→W(x+b)]または/および伸縮[W(x)→W(ax)]して構成される。基本ウエーブレットがいくつかの基本的な性質を満足させると、基本ウエーブレットを時間軸上で平行移動または/および伸縮することによって関数空間の基底を得ることができる。
【0036】
その目的は、関数とくに時間的および周波数的に局在した関数を表すための新しい方法である。フーリエ級数と比べた場合、正弦波および余弦波は周波数的には完全に局在しているが時間的あるいは空間的には無限に続いている。
【0037】
この実施の形態では、ウエーブレットを利用して時間と周波数の両方の分析を可能とする。ウエーブレット分解を実現する方法は多数存在するけれども、この実施の形態では、再帰アルゴリズムを使用する。再帰アルゴリズムとは、ローパスフィルタおよびハイパスフィルタにより再帰的に信号の低域を分割していくものである。代わりに反復処理を使用することができる。
【0038】
図1は、ウエーブレット分解がどのようにして行われるかを示す図である。図1に示すように、複数のローパスフィルタ12およびハイパスフィルタ10が縦続的ツリー構造に配置されている。ツリーの各ノードには、ハイパスフィルタ10とこれに対応するローパスフィルタ12とで構成される要素ブロック(基本処理ブロック)が含まれている。各フィルタの後段にはダウンサンプリング処理手段14が設けられており、無駄のない信号表現が得られる。原信号はノード16(根ノード)に入力される。逆の操作を行うことによってサブ信号から原信号が完全に再構成される。
【0039】
このシステムでは、階層的な時間−周波数分割分析(hierarchialtime−frequency resolusion analysis)によって最適化された方法で局所的な特徴量が抽出される。この分析は、ウエーブレット分解ツリー18を不均衡な方法で分解することによって達成される。これに関連して、ツリーの底の方にあるノード20は、ツリーの上の方にあるノード22よりも細かく周波数分割されている。
【0040】
図2は、分解結果を時間−周波数平面上に示す図である。図2に示したツリーの底にあたる最も低い周波数(0〜1kHz)においては最も高い周波数分解能が必要とされ、7段のフィルタリング・ダウンサンプリングを経てサブ信号が得られる。これに対応する16kHzでサンプリングされた信号に対するウエーブレット長は24msであり周波数分解能は125Hzである。これに対して、図2に示したツリーの上にあたる最も高い周波数(6KHz以上)においては音声情報はより悪くより詳細でなくなり、3段のフィルタリング・ダウンサンプリングを経てサブ信号が得られる。これに対応するウエーブレット長は3msであり周波数分解能は1kHzである。
【0041】
図3は、この実施の形態による特徴量抽出システムを示す図である。まず、音声信号30がウエーブレットパケット変換部32に供給される。ウエーブレットパケット変換部32において、音声信号30は図1に関して説明したような非平衡な方法で分解される。音声信号30の処理は、縦続したフィルタ・バンクに信号を与えることによって、連続した基底上で実行可能である。ウエーブレット変換結果は範囲が限られている(local support)ため、生の信号(raw signal)に対して直接処理を施すことができる。すなわち、通常のFFT処理において必要とされる窓技術(window techniques)を適用する必要がない。
【0042】
この実施の形態では、フィルタ出力の脈動を最小化するために理想的なローパスフィルタ(またはハイパスフィルタ)の周波数応答を長さ15のカイサー窓(Kaiser window)とともに巻き込んで(connvolve)設計されたフィルタを使用する。通過帯域と遮断帯域との間の急峻な移り変わりを得ることが目的である。したがって、フィルタのオーバーラップを最小にすることが必要とされる。これにより、フィルタ・バンクの出力における相関が弱められる。このようにローパスフィルタを計算した後、離散ディラック関数(the discrete Dirac function)に対するインパルス応答の和を用いてハイパスフィルタが決定される。
【0043】
図3において、変換部32の出力は、時間−周波数分割された形で34に表される。これは図2において詳細に示されている。
【0044】
ローパスフィルタの出力は、ダウンサンプリング後に直接使用することができる。一方、ハイパスフィルタの出力に対しては、グレイ・コード効果(Graycode effect)といわれるエリアシング効果を逆転させるためのさらなる処理が施される。図4はエリアシングの概略を示す図である。ローパスフィルタリングおよびダウンサンプリングによって周波数ゼロからナイキスト周波数までのレンジの周波数が得られる。これは図4の40に示される。これと対照的に、ハイパスフィルタリングおよびダウンサンプリングの後にゼロ周波数からナイキスト周波数までの周波数レンジに残るスペクトルは、フィルタリングされた信号の高帯域スペクトルの鏡像である。高域の高域を抽出するために(2つのハイパスフィルタを1つそしてまた1つと適用する)ハイパスフィルタの出力の低域を取ることが必要である。この結果、ハイパスフィルタリング処理の後に、ハイパスフィルタとローパスフィルタとの不必要な逆転処理が生じる。
【0045】
補償するために、ハイパスフィルタリング段階より下のすべてのフィルタリング段階において、別のハイパスフィルタリング段階が行われるまで、反転操作を行う。二つの連続したエリアシング効果が結合されるとお互いを打ち消される。図4において、逆転された高域は42に示されている。
【0046】
エリアシングが修正されると、葉(leaf)のフィルタの出力は図3のブロック36に示したような積分処理によって平滑化される。各サブバンドlに対してこのシステムでは、対応するサブ信号xl(n)についての平均振幅(∝=1のとき)または平均エネルギー(∝=2のとき)を計算する。平均振幅(∝=1のとき)または平均エネルギー(∝=2のとき)は以下の[数3]におけるelで表される。
【0047】
【数3】
【0048】
上記平均は、各サブバンドに対して同じ数Nの係数について計算される。ツリー構造を下っていく各ステップでサンプルレートは2で割られるため、図2に示すような階層的な時間分解能が保存される。より大きな平均の窓(averaging window)のサイズ(最も低いサブバンドに対応する)は、窓幅(window size)と呼ばれる。平均の窓(averaging window)はフレームレートでフレームサイズだけシフトされサブバンドの振幅が得られる。平均化されたサブ信号のサンプルの数Nは、最も高いサブバンドについて調整されるため、平均の窓時間の拡張は決して1フレームより小さくならない。
【0049】
次に、ブロック37に示すように、圧縮操作が施される。施される圧縮操作のタイプは音声信号の性質に依存する。ノイズのない鮮明な音声(clean speech)に対しては、非線型対数演算(non−linear log operation)が施される。ノイズを含んだ音声(noise corrupted speech)に対しては、累乗根圧縮演算(root compression operation)が施される。これらの演算はいずれもelに対して非線型演算を適用する。上述の対数演算がより好ましいけれども他の非線型演算を適用してもよい。
【0050】
ブロック38において離散コサイン変換(DCT)が施されてケプストラム係数が抽出される。離散コサイン変換は以下の数4で示される。
【0051】
【数4】
【0052】
この結果、サブバンドの特徴量の集合39が得られる。サブバンドの特徴量の集合39は、隠れマルコフモデルなどの音声モデルを構成する際に原音声信号30を表すために使用することができる。
【0053】
サブバンド分析によって多くの自由度が与えられる。フィルタ・バンクのツリーにおけるいずれのノードを選択してもある特定の音に対する時間−周波数分割が与えられる。すなわち、葉のノードだけを使用してウエーブレット分解をするという必要はない。葉のノードと中間のノードとのいずれの組合せを使用することができる。ある特定のクラスの音(摩擦音・破裂音・子音・母音など)に対して使用するノードを選択することによって、これら種々のクラスの音に対する最適の結果が局所的な特徴量抽出システムによって与えられることになる。
【0054】
与えられたクラスの音に対してどのノードの組合せが最もよく機能するかを見出す処理は、以下に示すような反復処理である。
【0055】
図5を参照して、与えられたクラスの音に対する最適なツリー構成をラベリングされたデータ100上で選択する処理が行われる。最初のステップ102では、ラベリングされたデータから関連するクラスの音が抽出される。もしツリーが摩擦音に対して最適化されていれるときは、ラベリングされた訓練データ(training data)から摩擦音を表すすべての音素が抽出される。そしてステップ104において、ウエーブレットツリーが上述のようにして計算される。ツリーが計算された後、次のステップにおいて、考慮中のクラスの音を最もよくマッチさせるためにはどのようにツリーを切り捨てればよいかが決定される。図に示した処理では再帰的あるいは反復的な方法で各ノードの検査が行われる。
【0056】
次いでステップ106において、ツリーの各ノードについて、正規化されたエネルギーが計算される。このエネルギー(または、エネルギーが変換されたもの)は、すべてのノードに対するすべてのエネルギーの和が1に等しくなるように適当なスケールで正規化される。ステップ108におけるテストで現在のノードに対するエネルギーが所定のしきい値を下回っているときは、ツリー・プルーニング(tree−pruning)アルゴリズムによってそのノードおよびそのノードのすべての子が切り捨てられる。それ以外のときは、ステップ110において、そのノードは、適当な距離計算を用いての識別力(discriminative power)の計算によってさらに調べられる。その後、ステップ112において、上記ノード(親ノード)のすべての子ノードについて同様に識別力(discriminative power)の計算が行われる。
【0057】
親ノードと子ノードについて識別力(discriminative power)が計算されると、ステップ114において、親ノードの識別力(discriminative power)と子ノードの識別力(discriminative power)の和とが比較される。ステップ116において、子ノードの和のほうが親ノードよりも大きいときは子ノードはそのツリーに含められる。それ以外のときはステップ118において、子ノードおよびそれら子ノードから派生するすべての子がツリーから切り捨てられる。
【0058】
各ノードについて、上述したテストが行われまたは切り捨てられたノードの子であるために切り捨てられるまで、図5に示す処理が行われる。その結果、考慮中のクラスの音に対して最適に余分なものが取り除かれたウエーブレットツリーが得られる。この方法でひとつのツリーが構成された後、このシステムでは、他のクラスの音に対する別のツリーを続けて構成することができる(異なった切り捨て方で)。
【0059】
あるグループの音の間での識別のために種々のツリーを最適化することができる。それらツリーはある大きなツリーからすべて抽出されるので、ひとつの分解だけが必要とされ、最適なサブツリーに対応するノードは所望の特徴量を計算するために使用される。
【0060】
特殊化された隠れマルコフモデルをこれら特殊化された特徴量の各々に基づいて作成することができる。たとえば、母音を子音から識別する一組の特殊化されたモデルが、そのような音の間で高い識別を得るように最適化された特殊化された特徴量から構成される。
【0061】
粗い分割から細かい分割にわたるモデリングの分割よって、マルチパスの認識パラダイム(multi−pass recognition paradigm)において、幅広いクラスの認識(たとえば、母音に対する子音のように)をまず行い、次いであるクラス内での特定の音の認識を行うことができる。発話についての情報を与える一連の広く細かい音を生成するために、すべてのモデル(細かい分割と粗い分割との両方)を、シングルパスのシステム(one−pass system)において一緒に使用することができる。
【0062】
【発明の効果】
この発明による特徴量抽出方法を用いることによって、1つの認識装置だけで認識装置を構成することができ、その認識装置では、独特の特徴量抽出処理によって種々のクラスの音について最適化された音声モデル使用することができる。このように、この発明による特徴量抽出方法を用いた認識装置は、認識分析処理の複雑さを増大させることなく、種々のクラスの音について最適化される。
【図面の簡単な説明】
【図1】ウエーブレット分解がどのようにして行われるかを示す図である。
【図2】分解結果を時間−周波数平面上に示す図である。
【図3】サブバンドの特徴量の抽出を実現する手段のブロック図である。
【図4】ハイパスフィルタのエィアシング効果を制御する技術を示す図である。
【図5】特定のクラスの音に対して最適なウエーブレットツリーを選択する処理を示すフローチャートである。
【符号の説明】
10 ハイパスフィルタ
12 ローパスフィルタ
14 ダウンサンプリング処理手段
30 音声信号
32 ウエーブレットパケット変換部
Claims (15)
- 音声信号を1組のウエーブレットを用いて分解し、
前記1組のウェーブレットは、1つの根ノードと複数の葉ノードとを有するツリー構成に組織化されており、前記音声信号は前記ツリー構成の根ノードに連続的に与えられ、
前記分解された音声信号に関して特定のクラスの音声の識別力を最大化することによってウェーブレット基底を定義し、
前記1組のウエーブレットに前記ウェーブレット基底を適用して前記音声信号から抽出された特徴量を表す複数の展開係数を生成する
ことを特徴とする自動音声認識のための特徴量抽出方法。 - 請求項1に記載の特徴量抽出方法において、
前記1組のウエーブレットを展開係数として表し、次いで、前記係数を非相関にし圧縮する
ことを特徴とする自動音声認識のための特徴量抽出方法。 - 請求項1に記載の特徴量抽出方法において、
前記展開係数を窓時間にわたって積分する
ことを特徴とする自動音声認識のための特徴量抽出方法。 - 請求項1に記載の特徴量抽出方法において、
前記展開係数に対して非線型演算を施す
ことを特徴とする自動音声認識のための特徴量抽出方法。 - 請求項4に記載の特徴量抽出方法において、
前記非線型演算は、前記展開係数の圧縮を含む
ことを特徴とする自動音声認識のための特徴量抽出方法。 - 請求項1に記載の特徴量抽出方法において、
前記1組のウエーブレットは、複数のノードを有するデータ構造に組織化される
ことを特徴とする自動音声認識のための特徴量抽出方法。 - 請求項6に記載の自動音声認識のための特徴量抽出方法において、
各ノードについて平均振幅を計算する
ことを特徴とする自動音声認識のための特徴量抽出方法。 - 請求項6に記載の特徴量抽出方法において、
前記複数のノードのうちの選択したノードに対して離散コサイン変換(DCT)を施すことによてケプストラム係数を求める
ことを特徴とする自動音声認識のための特徴量抽出方法。 - 請求項6に記載の特徴量抽出方法において、
前記複数のノードの各々についてエネルギーを示す値を計算し計算した値が所定のしきい値よりも小さいときはそのノードを切り捨てることによって前記複数のノードのうち一部を選択する
ことを特徴とする自動音声認識のための特徴量抽出方法。 - 請求項9に記載の特徴量抽出方法において、
前記エネルギーを示す値は圧縮されたエネルギーである
ことを特徴とする自動音声認識のための特徴量抽出方法。 - 請求項1に記載の特徴量抽出方法において、
前記複数のノードのうち第1のノードの識別力を計算し、さらに前記第1のノードから派生する子ノードの識別力を計算し、前記子ノードの識別力の和が前記第1のノードの識別力よりも小さいとき前記子ノードを切り捨てることによって前記複数のノードのうち一部を選択する
ことを特徴とする自動音声認識のための特徴量抽出方法。 - 請求項1に記載の特徴量抽出方法において、
第1のクラスの音を表すための第1の複数の展開係数を生成し、第2のクラスの音を表すための第2の複数の展開係数を生成し、音声認識に使用するための第1および第2の特殊化されたモデルの集合を前記第1および第2の複数の展開係数を使用して作成する
ことを特徴とする自動音声認識のための特徴量抽出方法。 - 請求項12に記載の特徴量抽出方法において、
前記第1および第2のモデルの集合はマルチパス構成において使用され、前記第1のモデルの集合が認識結果とともにまず使用され、次いで前記第2のモデルの集合が使用されて処理される
ことを特徴とする自動音声認識のための特徴量抽出方法。 - 請求項12に記載の特徴量抽出方法において、
前記第1および第2のモデルの集合はともに、前記第1および第2のクラスの音に対応する認識結果を与えるために使用される
ことを特徴とする自動音声認識のための特徴量抽出方法。 - 請求項12に記載の特徴量抽出方法において、
前記第1のクラスの音は広いクラスの音の間での第1のレベルの識別に対応し、前記第2のクラスの音は狭いクラスの音の間での第2のレベルの識別に対応する
ことを特徴とする自動音声認識のための特徴量抽出方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/449053 | 1999-11-24 | ||
US09/449,053 US6513004B1 (en) | 1999-11-24 | 1999-11-24 | Optimized local feature extraction for automatic speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001184083A JP2001184083A (ja) | 2001-07-06 |
JP3654831B2 true JP3654831B2 (ja) | 2005-06-02 |
Family
ID=23782687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000357217A Expired - Lifetime JP3654831B2 (ja) | 1999-11-24 | 2000-11-24 | 自動音声認識のための特徴量抽出方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US6513004B1 (ja) |
EP (1) | EP1103951B1 (ja) |
JP (1) | JP3654831B2 (ja) |
CN (1) | CN1152367C (ja) |
DE (1) | DE60018886T2 (ja) |
ES (1) | ES2240019T3 (ja) |
TW (1) | TW546630B (ja) |
Families Citing this family (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7076315B1 (en) | 2000-03-24 | 2006-07-11 | Audience, Inc. | Efficient computation of log-frequency-scale digital filter cascade |
US7337114B2 (en) * | 2001-03-29 | 2008-02-26 | International Business Machines Corporation | Speech recognition using discriminant features |
US6678656B2 (en) * | 2002-01-30 | 2004-01-13 | Motorola, Inc. | Noise reduced speech recognition parameters |
US20050228518A1 (en) * | 2002-02-13 | 2005-10-13 | Applied Neurosystems Corporation | Filter set for frequency analysis |
KR100436305B1 (ko) * | 2002-03-22 | 2004-06-23 | 전명근 | 웨이블렛변환을 이용한 외부노이즈에 강인한 화자식별 |
ITTO20020306A1 (it) * | 2002-04-09 | 2003-10-09 | Loquendo Spa | Metodo per l'estrazione di caratteristiche di un segnale vocale e relativo sistema di riconoscimento vocale. |
US7940844B2 (en) | 2002-06-18 | 2011-05-10 | Qualcomm Incorporated | Video encoding and decoding techniques |
TW564375B (en) * | 2002-09-17 | 2003-12-01 | Ind Tech Res Inst | Amplitude phase shift information embedding and detecting method based on phase features |
CN1312656C (zh) * | 2002-09-24 | 2007-04-25 | 松下电器产业株式会社 | 说话人标准化方法及用该方法的语音识别装置 |
US7343284B1 (en) | 2003-07-17 | 2008-03-11 | Nortel Networks Limited | Method and system for speech processing for enhancement and detection |
JP4649859B2 (ja) * | 2004-03-25 | 2011-03-16 | ソニー株式会社 | 信号処理装置および方法、記録媒体、並びにプログラム |
GB0426347D0 (en) * | 2004-12-01 | 2005-01-05 | Ibm | Methods, apparatus and computer programs for automatic speech recognition |
US7729909B2 (en) * | 2005-03-04 | 2010-06-01 | Panasonic Corporation | Block-diagonal covariance joint subspace tying and model compensation for noise robust automatic speech recognition |
US7729908B2 (en) * | 2005-03-04 | 2010-06-01 | Panasonic Corporation | Joint signal and model based noise matching noise robustness method for automatic speech recognition |
US9042461B2 (en) | 2005-03-10 | 2015-05-26 | Qualcomm Incorporated | Efficient employment of digital upsampling using IFFT in OFDM systems for simpler analog filtering |
JP4760179B2 (ja) * | 2005-07-15 | 2011-08-31 | ヤマハ株式会社 | 音声特徴量算出装置およびプログラム |
US8345890B2 (en) | 2006-01-05 | 2013-01-01 | Audience, Inc. | System and method for utilizing inter-microphone level differences for speech enhancement |
US8194880B2 (en) | 2006-01-30 | 2012-06-05 | Audience, Inc. | System and method for utilizing omni-directional microphones for speech enhancement |
US9185487B2 (en) | 2006-01-30 | 2015-11-10 | Audience, Inc. | System and method for providing noise suppression utilizing null processing noise subtraction |
US8744844B2 (en) | 2007-07-06 | 2014-06-03 | Audience, Inc. | System and method for adaptive intelligent noise suppression |
US8204252B1 (en) | 2006-10-10 | 2012-06-19 | Audience, Inc. | System and method for providing close microphone adaptive array processing |
KR100655953B1 (ko) | 2006-02-06 | 2006-12-11 | 한양대학교 산학협력단 | 웨이블릿 패킷 변환을 이용한 음성 처리 시스템 및 그 방법 |
US8150065B2 (en) * | 2006-05-25 | 2012-04-03 | Audience, Inc. | System and method for processing an audio signal |
US8949120B1 (en) | 2006-05-25 | 2015-02-03 | Audience, Inc. | Adaptive noise cancelation |
US8204253B1 (en) | 2008-06-30 | 2012-06-19 | Audience, Inc. | Self calibration of audio device |
US8934641B2 (en) * | 2006-05-25 | 2015-01-13 | Audience, Inc. | Systems and methods for reconstructing decomposed audio signals |
US8849231B1 (en) | 2007-08-08 | 2014-09-30 | Audience, Inc. | System and method for adaptive power control |
KR100798056B1 (ko) | 2006-10-24 | 2008-01-28 | 한양대학교 산학협력단 | 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법 |
KR100789084B1 (ko) | 2006-11-21 | 2007-12-26 | 한양대학교 산학협력단 | 웨이블릿 패킷 영역에서 비선형 구조의 과중 이득에 의한음질 개선 방법 |
KR20080053739A (ko) * | 2006-12-11 | 2008-06-16 | 삼성전자주식회사 | 적응적으로 윈도우 크기를 적용하는 부호화 장치 및 방법 |
US8259926B1 (en) | 2007-02-23 | 2012-09-04 | Audience, Inc. | System and method for 2-channel and 3-channel acoustic echo cancellation |
US8189766B1 (en) | 2007-07-26 | 2012-05-29 | Audience, Inc. | System and method for blind subband acoustic echo cancellation postfiltering |
US8631060B2 (en) | 2007-12-13 | 2014-01-14 | Qualcomm Incorporated | Fast algorithms for computation of 5-point DCT-II, DCT-IV, and DST-IV, and architectures |
US8180064B1 (en) | 2007-12-21 | 2012-05-15 | Audience, Inc. | System and method for providing voice equalization |
US8143620B1 (en) | 2007-12-21 | 2012-03-27 | Audience, Inc. | System and method for adaptive classification of audio sources |
US8194882B2 (en) | 2008-02-29 | 2012-06-05 | Audience, Inc. | System and method for providing single microphone noise suppression fallback |
US8355511B2 (en) | 2008-03-18 | 2013-01-15 | Audience, Inc. | System and method for envelope-based acoustic echo cancellation |
US8521530B1 (en) | 2008-06-30 | 2013-08-27 | Audience, Inc. | System and method for enhancing a monaural audio signal |
US8774423B1 (en) | 2008-06-30 | 2014-07-08 | Audience, Inc. | System and method for controlling adaptivity of signal modification using a phantom coefficient |
WO2010088461A1 (en) * | 2009-01-29 | 2010-08-05 | Thales-Raytheon Systems Company Llc | Method and system for data stream identification by evaluation of the most efficient path through a transformation tree |
US8359195B2 (en) * | 2009-03-26 | 2013-01-22 | LI Creative Technologies, Inc. | Method and apparatus for processing audio and speech signals |
CN101996628A (zh) * | 2009-08-21 | 2011-03-30 | 索尼株式会社 | 提取语音信号的韵律特征的方法和装置 |
WO2011037587A1 (en) * | 2009-09-28 | 2011-03-31 | Nuance Communications, Inc. | Downsampling schemes in a hierarchical neural network structure for phoneme recognition |
US9008329B1 (en) | 2010-01-26 | 2015-04-14 | Audience, Inc. | Noise reduction using multi-feature cluster tracker |
US8423516B2 (en) | 2010-09-15 | 2013-04-16 | International Business Machines Corporation | Speculative execution in a real-time data environment |
GB201203717D0 (en) | 2012-03-02 | 2012-04-18 | Speir Hunter Ltd | Fault detection for pipelines |
US9640194B1 (en) | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
DE112015003945T5 (de) | 2014-08-28 | 2017-05-11 | Knowles Electronics, Llc | Mehrquellen-Rauschunterdrückung |
CN108535636A (zh) * | 2018-05-16 | 2018-09-14 | 武汉大学 | 一种模拟电路基于参数随机分布邻近嵌入胜者为王的故障特征提取方法 |
CN110174281B (zh) * | 2019-06-05 | 2021-08-13 | 北京博识创智科技发展有限公司 | 一种机电设备故障诊断方法及系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4805219A (en) * | 1987-04-03 | 1989-02-14 | Dragon Systems, Inc. | Method for speech recognition |
US5321776A (en) * | 1992-02-26 | 1994-06-14 | General Electric Company | Data compression system including successive approximation quantizer |
US5715367A (en) * | 1995-01-23 | 1998-02-03 | Dragon Systems, Inc. | Apparatuses and methods for developing and using models for speech recognition |
DE69619097T2 (de) * | 1995-10-18 | 2002-09-05 | Koninkl Philips Electronics Nv | Bereichbasiertes strukturkodierungs- und dekodierungsverfahren sowie zugehörige systeme |
US5926791A (en) * | 1995-10-26 | 1999-07-20 | Sony Corporation | Recursively splitting the low-frequency band with successively fewer filter taps in methods and apparatuses for sub-band encoding, decoding, and encoding and decoding |
US5852806A (en) * | 1996-03-19 | 1998-12-22 | Lucent Technologies Inc. | Switched filterbank for use in audio signal coding |
US6026359A (en) | 1996-09-20 | 2000-02-15 | Nippon Telegraph And Telephone Corporation | Scheme for model adaptation in pattern recognition based on Taylor expansion |
US6058205A (en) * | 1997-01-09 | 2000-05-02 | International Business Machines Corporation | System and method for partitioning the feature space of a classifier in a pattern classification system |
JPH11191153A (ja) * | 1997-12-26 | 1999-07-13 | Ricoh Co Ltd | ウェーブレット変換係数の符号化方法 |
-
1999
- 1999-11-24 US US09/449,053 patent/US6513004B1/en not_active Expired - Lifetime
-
2000
- 2000-11-22 DE DE60018886T patent/DE60018886T2/de not_active Expired - Lifetime
- 2000-11-22 EP EP00310385A patent/EP1103951B1/en not_active Expired - Lifetime
- 2000-11-22 ES ES00310385T patent/ES2240019T3/es not_active Expired - Lifetime
- 2000-11-24 CN CNB001283316A patent/CN1152367C/zh not_active Expired - Lifetime
- 2000-11-24 JP JP2000357217A patent/JP3654831B2/ja not_active Expired - Lifetime
-
2001
- 2001-02-01 TW TW089124931A patent/TW546630B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
JP2001184083A (ja) | 2001-07-06 |
US6513004B1 (en) | 2003-01-28 |
EP1103951A2 (en) | 2001-05-30 |
EP1103951B1 (en) | 2005-03-23 |
CN1299127A (zh) | 2001-06-13 |
CN1152367C (zh) | 2004-06-02 |
DE60018886T2 (de) | 2006-02-09 |
TW546630B (en) | 2003-08-11 |
DE60018886D1 (de) | 2005-04-28 |
ES2240019T3 (es) | 2005-10-16 |
EP1103951A3 (en) | 2001-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3654831B2 (ja) | 自動音声認識のための特徴量抽出方法 | |
Gokhale et al. | Time domain signal analysis using wavelet packet decomposition approach | |
Seok et al. | Speech enhancement with reduction of noise components in the wavelet domain | |
JP3475446B2 (ja) | 符号化方法 | |
JP2001356791A (ja) | 変換行列を用いた自動音声認識の雑音適応化方法 | |
JPH07271394A (ja) | 確実な電話音声認識のための信号バイアスの除去 | |
Villanueva-Luna et al. | De-noising audio signals using MATLAB wavelets toolbox | |
Litvin et al. | Single-channel source separation of audio signals using bark scale wavelet packet decomposition | |
Nakamura et al. | Time-domain audio source separation with neural networks based on multiresolution analysis | |
Krishnan et al. | Features of wavelet packet decomposition and discrete wavelet transform for malayalam speech recognition | |
JP2779325B2 (ja) | ボコーダーにおける前処理の相関関係式を用いたピッチ検索時間短縮方法 | |
Brahim | Denoising and enhancement speech signal using wavelet | |
JP3297751B2 (ja) | データ数変換方法、符号化装置及び復号化装置 | |
JPH0573093A (ja) | 信号特徴点の抽出方法 | |
Farooq et al. | Mel-scaled wavelet filter based features for noisy unvoiced phoneme recognition | |
CN113571074A (zh) | 基于多波段结构时域音频分离网络的语音增强方法及装置 | |
Karam | A comprehensive approach for speech related multimedia applications | |
JPH0651800A (ja) | データ数変換方法 | |
Karam | Various speech processing techniques for speech compression and recognition | |
JP3731575B2 (ja) | 符号化装置及び復号装置 | |
Kotnik et al. | The usage of wavelet packet transformation in automatic noisy speech recognition systems | |
CN113611321B (zh) | 一种语音增强方法及系统 | |
Manfredi et al. | SVD-based portable device for real-time hoarse voice denoising | |
Park | Speech compression using ARMA model and wavelet transform | |
Abou-Loukh et al. | Isolated Word Speech Recognition Using Mixed Transform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041102 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050208 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050301 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 3654831 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080311 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090311 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100311 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110311 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110311 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120311 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130311 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130311 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140311 Year of fee payment: 9 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |