JP3654831B2 - 自動音声認識のための特徴量抽出方法 - Google Patents

自動音声認識のための特徴量抽出方法 Download PDF

Info

Publication number
JP3654831B2
JP3654831B2 JP2000357217A JP2000357217A JP3654831B2 JP 3654831 B2 JP3654831 B2 JP 3654831B2 JP 2000357217 A JP2000357217 A JP 2000357217A JP 2000357217 A JP2000357217 A JP 2000357217A JP 3654831 B2 JP3654831 B2 JP 3654831B2
Authority
JP
Japan
Prior art keywords
extraction method
feature
speech recognition
automatic speech
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000357217A
Other languages
English (en)
Other versions
JP2001184083A (ja
Inventor
リガツィオ ルカ
クリズ ダヴィド
アップルバウム テッド
ジュンカ ジャン−クロード
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Publication of JP2001184083A publication Critical patent/JP2001184083A/ja
Application granted granted Critical
Publication of JP3654831B2 publication Critical patent/JP3654831B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Auxiliary Devices For Music (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、自動音声認識のための特徴量抽出方法に関する。さらに詳しくは、種々のクラスの音について最適化された認識のための特徴を抽出するためのウエーブレットに基づいた方法に関する。
【0002】
【従来の技術】
音声信号分析では、まず、その音声信号を特徴づける有用な情報を表す特徴量を抽出する。通常、特徴量の抽出は以下のようにして行われる。所定のフレーム長の窓を時間軸上にオーバーラップさせて移動し窓幅分の音声信号を切り出し、切り出した音声信号に高速フーリエ変換(FFT)を施す。得られたスペクトルの対数にフーリエ(逆)変換を施し、高次の項(高ケフレンシー部)を切り捨てることによってケプストラム係数の有限の集合を抽出する。このようにして得られたケプストラム係数を用いて隠れマルコフモデルなどの音声モデルを作成することができる。
【0003】
【発明が解決しようとする課題】
上述のFFTを用いた音声信号分析では、時間−周波数分解能は一定である。音声信号分析では、時間−周波数平面上に非直線的に分布する音声情報をよりよく抽出するために、複数の異なった時間−周波数分解能を使用できることが望ましい。例えば、比較的速く変化する摩擦音あるいは他の子音については高い時間分解能で、比較的遅く変化する母音については低い時間分解能で分析できることが望ましい。ところが現在の技術ではこれを達成することは困難である。各々が特定の音の特徴に対応して設計された一組の認識装置を用意して各認識装置を並列に使用することによって達成できるが、これでは装置の規模が大きくなる。
【0004】
【課題を解決するための手段】
この発明による自動音声認識のための特徴量抽出方法では、音声信号を1組のウエーブレットを用いて分解し、特定のクラスの音声の識別力を高めるためのウエーブレット基底を定義かつ選択し、上記1組のウエーブレットに上記基底を適用して音声信号から抽出された特徴量を表す複数の展開係数を生成する。
【0005】
好ましくは、上記特徴量抽出方法ではさらに、1組のウエーブレットを展開係数として表し、次いで、当該係数を非相関にし圧縮する。
【0006】
好ましくは、上記音声信号は、サンプリングされデジタル形式で表される。
【0007】
好ましくは、上記1組のウエーブレットはツリー構成を有する。
【0008】
好ましくは、上記ツリー構成は、基本処理ブロックの連鎖によって得られる2分木構成である。
【0009】
好ましくは、上記基本処理ブロックは、ハイパスフィルタリング処理と、ローパスフィルタリング処理と、当該ハイパスおよびローパスフィルタリング処理に続くダウンサンプリング処理とを行うものである。
【0010】
好ましくは、上記ツリー構成は、各々が展開係数を与える複数の葉ノードを定義する。
【0011】
好ましくは、上記ツリー構成は、根ノードを定義し、上記特徴量抽出方法ではさらに、根ノードに音声信号を連続的に与える。
【0012】
好ましくは、上記ツリー構成は、所定のクラスの音の識別力を最大にすべく選択された複数の葉ノードを定義する。
【0013】
好ましくは、上記特徴量抽出方法ではさらに、展開係数を窓時間にわたって積分する。
【0014】
好ましくは、上記特徴量抽出方法ではさらに、展開係数に対して非線型演算を施す。
【0015】
好ましくは、上記非線型演算は、展開係数の圧縮を含む。
【0016】
好ましくは、上記1組のウエーブレットは、複数のノードを有するデータ構造に組織化される。
【0017】
好ましくは、上記特徴量抽出方法ではさらに、各ノードについて平均振幅を計算する。
【0018】
好ましくは、上記特徴量抽出方法ではさらに、複数のノードのうちの選択したノードに対して離散コサイン変換(DCT)を施すことによってケプストラム係数を求める。
【0019】
好ましくは、上記特徴量抽出方法ではさらに、複数のノードの各々についてエネルギーを示す値を計算し計算した値が所定のしきい値よりも小さいときはそのノードを切り捨てることによって上記複数のノードのうち一部を選択する。
【0020】
好ましくは、上記エネルギーを示す値は圧縮されたエネルギーである。
【0021】
好ましくは、上記特徴量抽出方法ではさらに、複数のノードのうち第1のノードの識別力を計算し、さらに第1のノードから派生する子ノードの識別力を計算し、子ノードの識別力の和が第1のノードの識別力よりも小さいとき当該子ノードを切り捨てることによって複数のノードのうち一部を選択する。
【0022】
好ましくは、上記特徴量抽出方法において、第1のクラスの音を表すための第1の複数の展開係数を生成し、第2のクラスの音を表すための第2の複数の展開係数を生成し、音声認識に使用するための第1および第2の特殊化されたモデルの集合を第1および第2の複数の展開係数を使用して作成する。
【0023】
好ましくは、上記第1および第2のモデルの集合はマルチパス構成において使用され、第1のモデルの集合が認識結果とともにまず使用され、次いで第2のモデルの集合が使用されて処理される。
【0024】
好ましくは、上記第1および第2のモデルの集合はともに、第1および第2のクラスの音に対応する認識結果を与えるために使用される。
【0025】
好ましくは、上記第1のクラスの音は広いクラスの音の間での第1のレベルの識別に対応し、上記第2のクラスの音は狭いクラスの音の間での第2のレベルの識別に対応する。
【0026】
上記抽出方法では、種々のクラスに属する音の広い範囲にわたる取り合わせをカバーする1つの分析技術を提供するウエーブレット技術が用いられる。この発明におけるウエーブレット技術を用いることによって、1つの認識装置だけで認識装置を構成することができ、その認識装置では、独特の特徴量抽出処理によって種々のクラスの音について最適化された音声モデル使用することができる。このように、この発明に従った認識装置は、認識分析処理の複雑さを増大させることなく、種々のクラスの音について最適化される。
【0027】
【発明の実施の形態】
以下、この発明の実施の形態を図面を参照して詳しく説明する。なお、図中同一または相当部分には同一符号を付しその説明は繰り返さない。
【0028】
この発明の実施の形態による局部的な特徴量抽出システムでは、音声波形のウエーブレット分解を使用する。ウエーブレット分解により、音声情報を時間的および周波数的に局在する関数として表す方法が得られる。このように、ウエーブレット分解は従来のフーリエ級数分解と異なる。従来のフーリエ分析においては、正弦波および余弦波は周波数的には局在するが時間的および空間的には無限に続く。したがって、例えば、短いパルスが有するゆっくりと減衰する係数を、FFTを使用して測定し表すことは困難である。そのようなパルスを表すためには、フーリエ級数は相殺に強く依存しなければならない。関数の性質を係数の性質に関連づけるすべてのフーリエ分析では、無限に続く正弦波関数のために困難になっている。
【0029】
ベクトル空間Sが与えられ、その空間S内に張られたベクトル(e1,・・・,en:ei∈S)がベクトル空間Sの基底であるとする。i≠jのときeiがejと線形独立であれば、その基底は完備であるという。また、線形代数により、スカラー積<x,y>:S→R(Rは実数の集合)が定義されると、すべてのベクトルx(x∈S)は基底に分解することができる(基底を構成することができる)。ベクトルxは以下に示す[数1]によって表される。
【0030】
【数1】
Figure 0003654831
【0031】
ここで、<ei,x>eiは、eiに沿ったベクトルの要素である。集合(<ei,x>ei:i=1,・・・,n)は、基底(e1,・・・,en)上へのベクトルの射影である。
【0032】
以下の[数2]に示すようなスカラー積が定義されるとき、関数(その結果、信号も)は、ひとつのベクトル空間である。
【0033】
【数2】
Figure 0003654831
【0034】
ここで、f,gは関数または信号である。数学的には、関数および信号は同じ対象についての二つの名前である。また、g*は、gの随伴行列(adjoint)である。このことは、関数空間のための基底を構成することができ、そのような基底に関数を射影することができ、後述の[数3]および[数4]を使用して信号を再構成することができることを意味する。
【0035】
特に、ウエーブレット基底は、基本ウエーブレット(mother wavelet)と呼ばれる基本関数W(x)を時間軸上で平行移動[W(x)→W(x+b)]または/および伸縮[W(x)→W(ax)]して構成される。基本ウエーブレットがいくつかの基本的な性質を満足させると、基本ウエーブレットを時間軸上で平行移動または/および伸縮することによって関数空間の基底を得ることができる。
【0036】
その目的は、関数とくに時間的および周波数的に局在した関数を表すための新しい方法である。フーリエ級数と比べた場合、正弦波および余弦波は周波数的には完全に局在しているが時間的あるいは空間的には無限に続いている。
【0037】
この実施の形態では、ウエーブレットを利用して時間と周波数の両方の分析を可能とする。ウエーブレット分解を実現する方法は多数存在するけれども、この実施の形態では、再帰アルゴリズムを使用する。再帰アルゴリズムとは、ローパスフィルタおよびハイパスフィルタにより再帰的に信号の低域を分割していくものである。代わりに反復処理を使用することができる。
【0038】
図1は、ウエーブレット分解がどのようにして行われるかを示す図である。図1に示すように、複数のローパスフィルタ12およびハイパスフィルタ10が縦続的ツリー構造に配置されている。ツリーの各ノードには、ハイパスフィルタ10とこれに対応するローパスフィルタ12とで構成される要素ブロック(基本処理ブロック)が含まれている。各フィルタの後段にはダウンサンプリング処理手段14が設けられており、無駄のない信号表現が得られる。原信号はノード16(根ノード)に入力される。逆の操作を行うことによってサブ信号から原信号が完全に再構成される。
【0039】
このシステムでは、階層的な時間−周波数分割分析(hierarchialtime−frequency resolusion analysis)によって最適化された方法で局所的な特徴量が抽出される。この分析は、ウエーブレット分解ツリー18を不均衡な方法で分解することによって達成される。これに関連して、ツリーの底の方にあるノード20は、ツリーの上の方にあるノード22よりも細かく周波数分割されている。
【0040】
図2は、分解結果を時間−周波数平面上に示す図である。図2に示したツリーの底にあたる最も低い周波数(0〜1kHz)においては最も高い周波数分解能が必要とされ、7段のフィルタリング・ダウンサンプリングを経てサブ信号が得られる。これに対応する16kHzでサンプリングされた信号に対するウエーブレット長は24msであり周波数分解能は125Hzである。これに対して、図2に示したツリーの上にあたる最も高い周波数(6KHz以上)においては音声情報はより悪くより詳細でなくなり、3段のフィルタリング・ダウンサンプリングを経てサブ信号が得られる。これに対応するウエーブレット長は3msであり周波数分解能は1kHzである。
【0041】
図3は、この実施の形態による特徴量抽出システムを示す図である。まず、音声信号30がウエーブレットパケット変換部32に供給される。ウエーブレットパケット変換部32において、音声信号30は図1に関して説明したような非平衡な方法で分解される。音声信号30の処理は、縦続したフィルタ・バンクに信号を与えることによって、連続した基底上で実行可能である。ウエーブレット変換結果は範囲が限られている(local support)ため、生の信号(raw signal)に対して直接処理を施すことができる。すなわち、通常のFFT処理において必要とされる窓技術(window techniques)を適用する必要がない。
【0042】
この実施の形態では、フィルタ出力の脈動を最小化するために理想的なローパスフィルタ(またはハイパスフィルタ)の周波数応答を長さ15のカイサー窓(Kaiser window)とともに巻き込んで(connvolve)設計されたフィルタを使用する。通過帯域と遮断帯域との間の急峻な移り変わりを得ることが目的である。したがって、フィルタのオーバーラップを最小にすることが必要とされる。これにより、フィルタ・バンクの出力における相関が弱められる。このようにローパスフィルタを計算した後、離散ディラック関数(the discrete Dirac function)に対するインパルス応答の和を用いてハイパスフィルタが決定される。
【0043】
図3において、変換部32の出力は、時間−周波数分割された形で34に表される。これは図2において詳細に示されている。
【0044】
ローパスフィルタの出力は、ダウンサンプリング後に直接使用することができる。一方、ハイパスフィルタの出力に対しては、グレイ・コード効果(Graycode effect)といわれるエリアシング効果を逆転させるためのさらなる処理が施される。図4はエリアシングの概略を示す図である。ローパスフィルタリングおよびダウンサンプリングによって周波数ゼロからナイキスト周波数までのレンジの周波数が得られる。これは図4の40に示される。これと対照的に、ハイパスフィルタリングおよびダウンサンプリングの後にゼロ周波数からナイキスト周波数までの周波数レンジに残るスペクトルは、フィルタリングされた信号の高帯域スペクトルの鏡像である。高域の高域を抽出するために(2つのハイパスフィルタを1つそしてまた1つと適用する)ハイパスフィルタの出力の低域を取ることが必要である。この結果、ハイパスフィルタリング処理の後に、ハイパスフィルタとローパスフィルタとの不必要な逆転処理が生じる。
【0045】
補償するために、ハイパスフィルタリング段階より下のすべてのフィルタリング段階において、別のハイパスフィルタリング段階が行われるまで、反転操作を行う。二つの連続したエリアシング効果が結合されるとお互いを打ち消される。図4において、逆転された高域は42に示されている。
【0046】
エリアシングが修正されると、葉(leaf)のフィルタの出力は図3のブロック36に示したような積分処理によって平滑化される。各サブバンドlに対してこのシステムでは、対応するサブ信号xl(n)についての平均振幅(∝=1のとき)または平均エネルギー(∝=2のとき)を計算する。平均振幅(∝=1のとき)または平均エネルギー(∝=2のとき)は以下の[数3]におけるelで表される。
【0047】
【数3】
Figure 0003654831
【0048】
上記平均は、各サブバンドに対して同じ数Nの係数について計算される。ツリー構造を下っていく各ステップでサンプルレートは2で割られるため、図2に示すような階層的な時間分解能が保存される。より大きな平均の窓(averaging window)のサイズ(最も低いサブバンドに対応する)は、窓幅(window size)と呼ばれる。平均の窓(averaging window)はフレームレートでフレームサイズだけシフトされサブバンドの振幅が得られる。平均化されたサブ信号のサンプルの数Nは、最も高いサブバンドについて調整されるため、平均の窓時間の拡張は決して1フレームより小さくならない。
【0049】
次に、ブロック37に示すように、圧縮操作が施される。施される圧縮操作のタイプは音声信号の性質に依存する。ノイズのない鮮明な音声(clean speech)に対しては、非線型対数演算(non−linear log operation)が施される。ノイズを含んだ音声(noise corrupted speech)に対しては、累乗根圧縮演算(root compression operation)が施される。これらの演算はいずれもelに対して非線型演算を適用する。上述の対数演算がより好ましいけれども他の非線型演算を適用してもよい。
【0050】
ブロック38において離散コサイン変換(DCT)が施されてケプストラム係数が抽出される。離散コサイン変換は以下の数4で示される。
【0051】
【数4】
Figure 0003654831
【0052】
この結果、サブバンドの特徴量の集合39が得られる。サブバンドの特徴量の集合39は、隠れマルコフモデルなどの音声モデルを構成する際に原音声信号30を表すために使用することができる。
【0053】
サブバンド分析によって多くの自由度が与えられる。フィルタ・バンクのツリーにおけるいずれのノードを選択してもある特定の音に対する時間−周波数分割が与えられる。すなわち、葉のノードだけを使用してウエーブレット分解をするという必要はない。葉のノードと中間のノードとのいずれの組合せを使用することができる。ある特定のクラスの音(摩擦音・破裂音・子音・母音など)に対して使用するノードを選択することによって、これら種々のクラスの音に対する最適の結果が局所的な特徴量抽出システムによって与えられることになる。
【0054】
与えられたクラスの音に対してどのノードの組合せが最もよく機能するかを見出す処理は、以下に示すような反復処理である。
【0055】
図5を参照して、与えられたクラスの音に対する最適なツリー構成をラベリングされたデータ100上で選択する処理が行われる。最初のステップ102では、ラベリングされたデータから関連するクラスの音が抽出される。もしツリーが摩擦音に対して最適化されていれるときは、ラベリングされた訓練データ(training data)から摩擦音を表すすべての音素が抽出される。そしてステップ104において、ウエーブレットツリーが上述のようにして計算される。ツリーが計算された後、次のステップにおいて、考慮中のクラスの音を最もよくマッチさせるためにはどのようにツリーを切り捨てればよいかが決定される。図に示した処理では再帰的あるいは反復的な方法で各ノードの検査が行われる。
【0056】
次いでステップ106において、ツリーの各ノードについて、正規化されたエネルギーが計算される。このエネルギー(または、エネルギーが変換されたもの)は、すべてのノードに対するすべてのエネルギーの和が1に等しくなるように適当なスケールで正規化される。ステップ108におけるテストで現在のノードに対するエネルギーが所定のしきい値を下回っているときは、ツリー・プルーニング(tree−pruning)アルゴリズムによってそのノードおよびそのノードのすべての子が切り捨てられる。それ以外のときは、ステップ110において、そのノードは、適当な距離計算を用いての識別力(discriminative power)の計算によってさらに調べられる。その後、ステップ112において、上記ノード(親ノード)のすべての子ノードについて同様に識別力(discriminative power)の計算が行われる。
【0057】
親ノードと子ノードについて識別力(discriminative power)が計算されると、ステップ114において、親ノードの識別力(discriminative power)と子ノードの識別力(discriminative power)の和とが比較される。ステップ116において、子ノードの和のほうが親ノードよりも大きいときは子ノードはそのツリーに含められる。それ以外のときはステップ118において、子ノードおよびそれら子ノードから派生するすべての子がツリーから切り捨てられる。
【0058】
各ノードについて、上述したテストが行われまたは切り捨てられたノードの子であるために切り捨てられるまで、図5に示す処理が行われる。その結果、考慮中のクラスの音に対して最適に余分なものが取り除かれたウエーブレットツリーが得られる。この方法でひとつのツリーが構成された後、このシステムでは、他のクラスの音に対する別のツリーを続けて構成することができる(異なった切り捨て方で)。
【0059】
あるグループの音の間での識別のために種々のツリーを最適化することができる。それらツリーはある大きなツリーからすべて抽出されるので、ひとつの分解だけが必要とされ、最適なサブツリーに対応するノードは所望の特徴量を計算するために使用される。
【0060】
特殊化された隠れマルコフモデルをこれら特殊化された特徴量の各々に基づいて作成することができる。たとえば、母音を子音から識別する一組の特殊化されたモデルが、そのような音の間で高い識別を得るように最適化された特殊化された特徴量から構成される。
【0061】
粗い分割から細かい分割にわたるモデリングの分割よって、マルチパスの認識パラダイム(multi−pass recognition paradigm)において、幅広いクラスの認識(たとえば、母音に対する子音のように)をまず行い、次いであるクラス内での特定の音の認識を行うことができる。発話についての情報を与える一連の広く細かい音を生成するために、すべてのモデル(細かい分割と粗い分割との両方)を、シングルパスのシステム(one−pass system)において一緒に使用することができる。
【0062】
【発明の効果】
この発明による特徴量抽出方法を用いることによって、1つの認識装置だけで認識装置を構成することができ、その認識装置では、独特の特徴量抽出処理によって種々のクラスの音について最適化された音声モデル使用することができる。このように、この発明による特徴量抽出方法を用いた認識装置は、認識分析処理の複雑さを増大させることなく、種々のクラスの音について最適化される。
【図面の簡単な説明】
【図1】ウエーブレット分解がどのようにして行われるかを示す図である。
【図2】分解結果を時間−周波数平面上に示す図である。
【図3】サブバンドの特徴量の抽出を実現する手段のブロック図である。
【図4】ハイパスフィルタのエィアシング効果を制御する技術を示す図である。
【図5】特定のクラスの音に対して最適なウエーブレットツリーを選択する処理を示すフローチャートである。
【符号の説明】
10 ハイパスフィルタ
12 ローパスフィルタ
14 ダウンサンプリング処理手段
30 音声信号
32 ウエーブレットパケット変換部

Claims (15)

  1. 音声信号を1組のウエーブレットを用いて分解し、
    前記1組のウェーブレットは、1つの根ノードと複数の葉ノードとを有するツリー構成に組織化されており、前記音声信号は前記ツリー構成の根ノードに連続的に与えられ、
    前記分解された音声信号に関して特定のクラスの音声の識別力を最大化することによってウェーブレット基底を定義し
    前記1組のウエーブレットに前記ウェーブレット基底を適用して前記音声信号から抽出された特徴量を表す複数の展開係数を生成する
    ことを特徴とする自動音声認識のための特徴量抽出方法。
  2. 請求項1に記載の特徴量抽出方法において、
    前記1組のウエーブレットを展開係数として表し、次いで、前記係数を非相関にし圧縮する
    ことを特徴とする自動音声認識のための特徴量抽出方法。
  3. 請求項1に記載の特徴量抽出方法において、
    前記展開係数を窓時間にわたって積分する
    ことを特徴とする自動音声認識のための特徴量抽出方法。
  4. 請求項1に記載の特徴量抽出方法において、
    前記展開係数に対して非線型演算を施す
    ことを特徴とする自動音声認識のための特徴量抽出方法。
  5. 請求項4に記載の特徴量抽出方法において、
    前記非線型演算は、前記展開係数の圧縮を含む
    ことを特徴とする自動音声認識のための特徴量抽出方法。
  6. 請求項1に記載の特徴量抽出方法において、
    前記1組のウエーブレットは、複数のノードを有するデータ構造に組織化される
    ことを特徴とする自動音声認識のための特徴量抽出方法。
  7. 請求項6に記載の自動音声認識のための特徴量抽出方法において、
    各ノードについて平均振幅を計算する
    ことを特徴とする自動音声認識のための特徴量抽出方法。
  8. 請求項6に記載の特徴量抽出方法において、
    前記複数のノードのうちの選択したノードに対して離散コサイン変換(DCT)を施すことによてケプストラム係数を求める
    ことを特徴とする自動音声認識のための特徴量抽出方法。
  9. 請求項6に記載の特徴量抽出方法において、
    前記複数のノードの各々についてエネルギーを示す値を計算し計算した値が所定のしきい値よりも小さいときはそのノードを切り捨てることによって前記複数のノードのうち一部を選択する
    ことを特徴とする自動音声認識のための特徴量抽出方法。
  10. 請求項9に記載の特徴量抽出方法において、
    前記エネルギーを示す値は圧縮されたエネルギーである
    ことを特徴とする自動音声認識のための特徴量抽出方法。
  11. 請求項1に記載の特徴量抽出方法において、
    前記複数のノードのうち第1のノードの識別力を計算し、さらに前記第1のノードから派生する子ノードの識別力を計算し、前記子ノードの識別力の和が前記第1のノードの識別力よりも小さいとき前記子ノードを切り捨てることによって前記複数のノードのうち一部を選択する
    ことを特徴とする自動音声認識のための特徴量抽出方法。
  12. 請求項1に記載の特徴量抽出方法において、
    第1のクラスの音を表すための第1の複数の展開係数を生成し、第2のクラスの音を表すための第2の複数の展開係数を生成し、音声認識に使用するための第1および第2の特殊化されたモデルの集合を前記第1および第2の複数の展開係数を使用して作成する
    ことを特徴とする自動音声認識のための特徴量抽出方法。
  13. 請求項12に記載の特徴量抽出方法において、
    前記第1および第2のモデルの集合はマルチパス構成において使用され、前記第1のモデルの集合が認識結果とともにまず使用され、次いで前記第2のモデルの集合が使用されて処理される
    ことを特徴とする自動音声認識のための特徴量抽出方法。
  14. 請求項12に記載の特徴量抽出方法において、
    前記第1および第2のモデルの集合はともに、前記第1および第2のクラスの音に対応する認識結果を与えるために使用される
    ことを特徴とする自動音声認識のための特徴量抽出方法。
  15. 請求項12に記載の特徴量抽出方法において、
    前記第1のクラスの音は広いクラスの音の間での第1のレベルの識別に対応し、前記第2のクラスの音は狭いクラスの音の間での第2のレベルの識別に対応する
    ことを特徴とする自動音声認識のための特徴量抽出方法。
JP2000357217A 1999-11-24 2000-11-24 自動音声認識のための特徴量抽出方法 Expired - Lifetime JP3654831B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/449053 1999-11-24
US09/449,053 US6513004B1 (en) 1999-11-24 1999-11-24 Optimized local feature extraction for automatic speech recognition

Publications (2)

Publication Number Publication Date
JP2001184083A JP2001184083A (ja) 2001-07-06
JP3654831B2 true JP3654831B2 (ja) 2005-06-02

Family

ID=23782687

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000357217A Expired - Lifetime JP3654831B2 (ja) 1999-11-24 2000-11-24 自動音声認識のための特徴量抽出方法

Country Status (7)

Country Link
US (1) US6513004B1 (ja)
EP (1) EP1103951B1 (ja)
JP (1) JP3654831B2 (ja)
CN (1) CN1152367C (ja)
DE (1) DE60018886T2 (ja)
ES (1) ES2240019T3 (ja)
TW (1) TW546630B (ja)

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7076315B1 (en) 2000-03-24 2006-07-11 Audience, Inc. Efficient computation of log-frequency-scale digital filter cascade
US7337114B2 (en) * 2001-03-29 2008-02-26 International Business Machines Corporation Speech recognition using discriminant features
US6678656B2 (en) * 2002-01-30 2004-01-13 Motorola, Inc. Noise reduced speech recognition parameters
US20050228518A1 (en) * 2002-02-13 2005-10-13 Applied Neurosystems Corporation Filter set for frequency analysis
KR100436305B1 (ko) * 2002-03-22 2004-06-23 전명근 웨이블렛변환을 이용한 외부노이즈에 강인한 화자식별
ITTO20020306A1 (it) * 2002-04-09 2003-10-09 Loquendo Spa Metodo per l'estrazione di caratteristiche di un segnale vocale e relativo sistema di riconoscimento vocale.
US7940844B2 (en) 2002-06-18 2011-05-10 Qualcomm Incorporated Video encoding and decoding techniques
TW564375B (en) * 2002-09-17 2003-12-01 Ind Tech Res Inst Amplitude phase shift information embedding and detecting method based on phase features
CN1312656C (zh) * 2002-09-24 2007-04-25 松下电器产业株式会社 说话人标准化方法及用该方法的语音识别装置
US7343284B1 (en) 2003-07-17 2008-03-11 Nortel Networks Limited Method and system for speech processing for enhancement and detection
JP4649859B2 (ja) * 2004-03-25 2011-03-16 ソニー株式会社 信号処理装置および方法、記録媒体、並びにプログラム
GB0426347D0 (en) * 2004-12-01 2005-01-05 Ibm Methods, apparatus and computer programs for automatic speech recognition
US7729909B2 (en) * 2005-03-04 2010-06-01 Panasonic Corporation Block-diagonal covariance joint subspace tying and model compensation for noise robust automatic speech recognition
US7729908B2 (en) * 2005-03-04 2010-06-01 Panasonic Corporation Joint signal and model based noise matching noise robustness method for automatic speech recognition
US9042461B2 (en) 2005-03-10 2015-05-26 Qualcomm Incorporated Efficient employment of digital upsampling using IFFT in OFDM systems for simpler analog filtering
JP4760179B2 (ja) * 2005-07-15 2011-08-31 ヤマハ株式会社 音声特徴量算出装置およびプログラム
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US8194880B2 (en) 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
US9185487B2 (en) 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US8744844B2 (en) 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
US8204252B1 (en) 2006-10-10 2012-06-19 Audience, Inc. System and method for providing close microphone adaptive array processing
KR100655953B1 (ko) 2006-02-06 2006-12-11 한양대학교 산학협력단 웨이블릿 패킷 변환을 이용한 음성 처리 시스템 및 그 방법
US8150065B2 (en) * 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8204253B1 (en) 2008-06-30 2012-06-19 Audience, Inc. Self calibration of audio device
US8934641B2 (en) * 2006-05-25 2015-01-13 Audience, Inc. Systems and methods for reconstructing decomposed audio signals
US8849231B1 (en) 2007-08-08 2014-09-30 Audience, Inc. System and method for adaptive power control
KR100798056B1 (ko) 2006-10-24 2008-01-28 한양대학교 산학협력단 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법
KR100789084B1 (ko) 2006-11-21 2007-12-26 한양대학교 산학협력단 웨이블릿 패킷 영역에서 비선형 구조의 과중 이득에 의한음질 개선 방법
KR20080053739A (ko) * 2006-12-11 2008-06-16 삼성전자주식회사 적응적으로 윈도우 크기를 적용하는 부호화 장치 및 방법
US8259926B1 (en) 2007-02-23 2012-09-04 Audience, Inc. System and method for 2-channel and 3-channel acoustic echo cancellation
US8189766B1 (en) 2007-07-26 2012-05-29 Audience, Inc. System and method for blind subband acoustic echo cancellation postfiltering
US8631060B2 (en) 2007-12-13 2014-01-14 Qualcomm Incorporated Fast algorithms for computation of 5-point DCT-II, DCT-IV, and DST-IV, and architectures
US8180064B1 (en) 2007-12-21 2012-05-15 Audience, Inc. System and method for providing voice equalization
US8143620B1 (en) 2007-12-21 2012-03-27 Audience, Inc. System and method for adaptive classification of audio sources
US8194882B2 (en) 2008-02-29 2012-06-05 Audience, Inc. System and method for providing single microphone noise suppression fallback
US8355511B2 (en) 2008-03-18 2013-01-15 Audience, Inc. System and method for envelope-based acoustic echo cancellation
US8521530B1 (en) 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
US8774423B1 (en) 2008-06-30 2014-07-08 Audience, Inc. System and method for controlling adaptivity of signal modification using a phantom coefficient
WO2010088461A1 (en) * 2009-01-29 2010-08-05 Thales-Raytheon Systems Company Llc Method and system for data stream identification by evaluation of the most efficient path through a transformation tree
US8359195B2 (en) * 2009-03-26 2013-01-22 LI Creative Technologies, Inc. Method and apparatus for processing audio and speech signals
CN101996628A (zh) * 2009-08-21 2011-03-30 索尼株式会社 提取语音信号的韵律特征的方法和装置
WO2011037587A1 (en) * 2009-09-28 2011-03-31 Nuance Communications, Inc. Downsampling schemes in a hierarchical neural network structure for phoneme recognition
US9008329B1 (en) 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US8423516B2 (en) 2010-09-15 2013-04-16 International Business Machines Corporation Speculative execution in a real-time data environment
GB201203717D0 (en) 2012-03-02 2012-04-18 Speir Hunter Ltd Fault detection for pipelines
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
CN108535636A (zh) * 2018-05-16 2018-09-14 武汉大学 一种模拟电路基于参数随机分布邻近嵌入胜者为王的故障特征提取方法
CN110174281B (zh) * 2019-06-05 2021-08-13 北京博识创智科技发展有限公司 一种机电设备故障诊断方法及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4805219A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech recognition
US5321776A (en) * 1992-02-26 1994-06-14 General Electric Company Data compression system including successive approximation quantizer
US5715367A (en) * 1995-01-23 1998-02-03 Dragon Systems, Inc. Apparatuses and methods for developing and using models for speech recognition
DE69619097T2 (de) * 1995-10-18 2002-09-05 Koninkl Philips Electronics Nv Bereichbasiertes strukturkodierungs- und dekodierungsverfahren sowie zugehörige systeme
US5926791A (en) * 1995-10-26 1999-07-20 Sony Corporation Recursively splitting the low-frequency band with successively fewer filter taps in methods and apparatuses for sub-band encoding, decoding, and encoding and decoding
US5852806A (en) * 1996-03-19 1998-12-22 Lucent Technologies Inc. Switched filterbank for use in audio signal coding
US6026359A (en) 1996-09-20 2000-02-15 Nippon Telegraph And Telephone Corporation Scheme for model adaptation in pattern recognition based on Taylor expansion
US6058205A (en) * 1997-01-09 2000-05-02 International Business Machines Corporation System and method for partitioning the feature space of a classifier in a pattern classification system
JPH11191153A (ja) * 1997-12-26 1999-07-13 Ricoh Co Ltd ウェーブレット変換係数の符号化方法

Also Published As

Publication number Publication date
JP2001184083A (ja) 2001-07-06
US6513004B1 (en) 2003-01-28
EP1103951A2 (en) 2001-05-30
EP1103951B1 (en) 2005-03-23
CN1299127A (zh) 2001-06-13
CN1152367C (zh) 2004-06-02
DE60018886T2 (de) 2006-02-09
TW546630B (en) 2003-08-11
DE60018886D1 (de) 2005-04-28
ES2240019T3 (es) 2005-10-16
EP1103951A3 (en) 2001-09-26

Similar Documents

Publication Publication Date Title
JP3654831B2 (ja) 自動音声認識のための特徴量抽出方法
Gokhale et al. Time domain signal analysis using wavelet packet decomposition approach
Seok et al. Speech enhancement with reduction of noise components in the wavelet domain
JP3475446B2 (ja) 符号化方法
JP2001356791A (ja) 変換行列を用いた自動音声認識の雑音適応化方法
JPH07271394A (ja) 確実な電話音声認識のための信号バイアスの除去
Villanueva-Luna et al. De-noising audio signals using MATLAB wavelets toolbox
Litvin et al. Single-channel source separation of audio signals using bark scale wavelet packet decomposition
Nakamura et al. Time-domain audio source separation with neural networks based on multiresolution analysis
Krishnan et al. Features of wavelet packet decomposition and discrete wavelet transform for malayalam speech recognition
JP2779325B2 (ja) ボコーダーにおける前処理の相関関係式を用いたピッチ検索時間短縮方法
Brahim Denoising and enhancement speech signal using wavelet
JP3297751B2 (ja) データ数変換方法、符号化装置及び復号化装置
JPH0573093A (ja) 信号特徴点の抽出方法
Farooq et al. Mel-scaled wavelet filter based features for noisy unvoiced phoneme recognition
CN113571074A (zh) 基于多波段结构时域音频分离网络的语音增强方法及装置
Karam A comprehensive approach for speech related multimedia applications
JPH0651800A (ja) データ数変換方法
Karam Various speech processing techniques for speech compression and recognition
JP3731575B2 (ja) 符号化装置及び復号装置
Kotnik et al. The usage of wavelet packet transformation in automatic noisy speech recognition systems
CN113611321B (zh) 一种语音增强方法及系统
Manfredi et al. SVD-based portable device for real-time hoarse voice denoising
Park Speech compression using ARMA model and wavelet transform
Abou-Loukh et al. Isolated Word Speech Recognition Using Mixed Transform

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050301

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 3654831

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080311

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090311

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100311

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110311

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110311

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120311

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130311

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130311

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140311

Year of fee payment: 9

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term