JP3810608B2 - 音声レコグナイザーのためのトレーニング方法 - Google Patents

音声レコグナイザーのためのトレーニング方法 Download PDF

Info

Publication number
JP3810608B2
JP3810608B2 JP2000067094A JP2000067094A JP3810608B2 JP 3810608 B2 JP3810608 B2 JP 3810608B2 JP 2000067094 A JP2000067094 A JP 2000067094A JP 2000067094 A JP2000067094 A JP 2000067094A JP 3810608 B2 JP3810608 B2 JP 3810608B2
Authority
JP
Japan
Prior art keywords
output
feature vector
subband
fourier transform
mel filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000067094A
Other languages
English (en)
Other versions
JP2000267692A (ja
Inventor
チェンガルバラヤン ラシナベル
Original Assignee
ルーセント テクノロジーズ インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ルーセント テクノロジーズ インコーポレーテッド filed Critical ルーセント テクノロジーズ インコーポレーテッド
Publication of JP2000267692A publication Critical patent/JP2000267692A/ja
Application granted granted Critical
Publication of JP3810608B2 publication Critical patent/JP3810608B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識に関し、特に、隠れマルコフモデル(HMM)ベースの音声認識の方法および装置に関する。
【0002】
【従来の技術】
典型的な連続音声認識は、フロントエンド特徴解析ステージからなり、その後で特徴(フィーチャー)パターン分類を行う。これら2つの間のインターフェースである特徴ベクトル(feature vector)は、その後の分類に関連する音声信号の全ての情報を理想的には含み、音響環境における変化による関連しないバリエーションの影響を受けず、同時に、分類に関する演算上要求を最小化するために低いディメンションとなっている。
【0003】
理想的な音声認識の近似として幾つかの種類の特徴ベクトルが提案されてきた。これは、文献、J. W. Picone, "Signal Modeling Techniques in Speech recognition", Proceedings of the IEEE, Vol. 81, No. 9, 1993, pp. 1215-1247に記載されている。多くの音声認識において、線形予測(LP:linear predictive)解析によって得たケプストラル(cepstral)パラメータを伝統的に用いている。これは、LP解析がスムースなスペクトル、ピッチハーモニックスがないこと、スペクトルピークをよくモデル化できることによる。
【0004】
他方、Melベースのケプストラルパラメータはスペクトルをメルの間隔でサンプリングすることによって人間の聴覚系の認知特性の利点を享受する。論理的に、LP解析とメルフィルタバンク解析の両方の利点を組み合わせると、理論的には、多くのケプストラル特徴が改善するはずである。
【0005】
この事は幾つかの方法により行うことができる。例えば、LPパラメータの対数量スペクトルを計算し、周波数がメルスケールに対応するように周波数をワープさせる。ケプストラムを計算する前に双一次変換(bilinear transformation:メービウス変換)によってLPスペクトルをワープすることによって興味深い音声認識結果が報告された。これは、文献、M. Rahim and B. H. Juang, "Signal Bias Removal by Maximum Likelihood Estimation for Robust Telephone Speech Recognition", IEEE Transactions on Speech and Audio Processing, Vol. 4, No. 1, 1996, pp. 19-30のようにワープを用いないのとは対照的である。他の周波数ワープ技術が幾つか提案されている。例えば、H. W. Strube, "Linear Prediction on a Warped Frequency Scale", Journal of Acoustical Society of America, Vol. 68, No. 41980, pp. 1071-1076では、時間領域においてオールパスフィルタリングを用いるメルに似たスペクトルワーク方法が提案されている。
【0006】
別のアプローチにおいて、LP解析の後に、信号にメルフィルターバンク解析を適用して、メル線形予測ケプストラル(mel-lpc)特徴として呼ばれるものを与える(文献、M. Rahim and B. H. Juang, "Signal Bias Removal by Maximum Likelihood Estimation for Robust Telephone Speech Recognition", IEEE Transactions on Speech and Audio Processing, Vol. 4, No. 1, 1996, pp. 19-30を参照)。メル-lpc特徴の計算は文献、H. Hermansky, "Perceptual Linear Prediction (PLP) analysis of Speech", Journal of Acoustical Society of America, Vol. 87, No.4, 1990, pp.1738-1752 により説明されている聴覚線形予測(PLP:Perceptual Linear Predictive)係数にある意味で似ている。これら両方の技術は、LP解析の前にメルフィルタバンクを適用する。しかし、メル-lpcは聴覚重み付け(perceptual weighting)ないし振幅圧縮を用いない高次LP解析を用いる。上の全ての技術は、音声品質を改善するために音声信号のスペクトルを「認知的(perceptual)(聴覚)」にモデル化し、全バンド(whole band)アプローチにて音声解析、合成、認識をより有効に表現することを試みている。
【0007】
近年に、サブバンドベースの特徴抽出技術の研究がなされている。例えば、文献、H. Bourlard and S. Dupont, "Subband-Based Speech Recognition", Proc. ICASSP, 1997, pp. 1251-1254 のものである。文献、P. McCourt, S. Vaseghi and N. Harte, "Multi-Resolution Cepstral Features for Phoneme Recognition Across Speech Subbands", Proc. ICASSP, 1998, pp. 557-560 、S. Okawa, E. Bocchieri and A. Potamianos, "Multi-Band Speech Recognition in Noisy Environments", Proc. ICASSP, 1998, pp. 641-644 、S. Tibrewala and H.Hermansky, "Subband Based Recognition of Noisy Speech", Proc. ICASSP, 1997, pp. 1255-1258 のものである。文献、P. McCourt, S. Vaseghi and N. Harte, "Multi-Resolution Cepstral Features for Phoneme Recognition Across Speech Subbands", Proc. ICASSP, 1998, pp. 557-560は、複数の分解能(multiple resolution)レベルを用いても更に有利にならないことを示している。また、サブバンドからの自己後退スペクトル(auto-regressive spectral)評価がフルバンド自己後退スペクトル評価よりも堅牢で効率的であることを最近の理論的および実験的な結果が示している。すなわち、文献、S. Rao and W. A. Pearlman, "Analysis of Linear Prediction, Coding and Spectral Estimation from Subbands", IEEE Transactions on Information Theory, Vol. 42, 1996, pp. 1160-1178である。
【0008】
【発明が解決しようとする課題】
上記各文献に記載されているように、音声認識において更に改善する必要がある。本発明は、線形予測解析とサブバンド解析の両方の利点を有する音声認識を提供することを目的とする。
【0009】
【課題を解決するための手段】
手短に言うと、本発明により、入力音声の周波数スペクトルから得たメルワープしたサブバンドベースの自己相関関数の数からプレディクターが計算されるような予測解析のアプローチを提供することによって音声リコグナイザーを改善する。また、サブバンドデコンポジションとその後のケプストラル解析のレベルを、ピラミット状の分解能レベルから特徴が選択されるように増やされる。統計的パラメータが評価される大きなディメンション空間を定めて、各マルチ分解能サブバンドからLPケプストラル特徴の連結に基づいて特徴ベクトルを拡張するように形成する。
【0010】
好ましい実施態様において、隠れマルコフモデル(HMM:hidden Markov model)の状態を特徴づけるために連続的密度ミクスチャを用いるHMMに基づくレコクナイザの方法および装置を提供する。サブバンドデコンポジションの異なる分解能を用いて、単一の固定音声バンドデコンポジションを用いることによる制限を有効に緩和し、ストリングエラーの数の減らすことができるようなマルチ分解能特徴を用いて更に利点を発揮することができる。
【0011】
別の実施態様において、マルチ分解能メル-lpc特徴を用いて音声レコグナイザーを提供して改善することができる。
【0012】
図1は、サブバンドのレベルを2つ有する階層的サブバンド線形予測音声レコグナイザー100のブロック図である。第1レベルは標準的な音声バンド幅であり、例えば、0〜4000Hzである。第2レベルは2つのサイドバンドを有し0〜2000Hzと2000〜4000Hzである。これらバンド幅は、階層的サブバンドベースの線形予測ケプストラル(HSLPC)特徴の抽出プロセス102にて適用される。本発明に従うプロセス102により抽出した幾つかのHSLPC特徴によって音声認識を改善することができる。音声レコグナイザーにとって通常のように、まず音声モデルを構築するようにレコグナイザーがトレーニングされそのトレーニングの後に音声モデルが入力音声を認識するために用いられる。まず音声レコグナイザー100が信号コンディショニング(整形)した最小ストリングエラーレートトレーニング(signal conditioned minimum string error rate training)によってトレーニングされる。
【0013】
本発明は、分類のためのより分別可能な特徴を提供するために相関を用いることの調査をすることがその創造の要因の一部となった。一般的に特徴が分別可能であるほど良いレコグナイザーを提供するという認識があるが、一般的な認識が相関を用いて特徴を分別できることを特に指摘したりせず相関を用いてより分別可能な特徴を得るような特定の態様を提供したりしていない。
【0014】
図1は、音声のフレームに対して階層的メル-lpc特徴を計算するプロセス全体を示す。HSLPC特徴抽出プロセス102を信号コンディショニング160と分別トレーニングプロセス170と共に用いて、音声レコグナイザー100に対してトレーニングをし、音声レコグナイザー100によって音声入力を認識させる。このトレーニングプロセスをまず以下に説明する。
【0015】
音声レコグナイザー100は、米国特許出願第09/32902(1998年3月2日出願、発明者:Chengalvarayan、"Speaker Adaptation Using Discriminative Linear Regression On Time-Varying Mean Parameters In Trended HMM")の図1に示したようなデジタルプロセッサプラットフォームで動作するプロセスである。このデジタルプロセッサプラットフォームは、本発明の音声レコグナイザー100が必要とするプロセスを提供するためにリプログラムできる。
【0016】
まず、HSLPC特徴抽出プロセス102は、破線ブロックで示した。HSLPC特徴抽出プロセス102は入力の時変音声を処理する。この処理は、プレエンファシス、音声のフレームへのブロッキング、フレームウィンドーイング、フーリエ変換を含む。これら特定の機能は、高速フーリエ変換(FFT:fast Fourier transform)104により提供される。高速フーリエ変換104は入力音声時間関数を周波数(パワー)スペクトルに変換する。
【0017】
次は、メルフィルタバンク110、120である。フィルタ110、120の中央周波数は音声レコグナイザー100から1000Hzまで線形スケールで等しく離間し、1000Hzより上では対数スケーリングで等しく離間する。1000Hzより上では各中央周波数では前のフィルタの中央周波数よりも1.1倍である。各フィルタの大きさ対周波数応答(magnitude frequency response)は、中央周波数における単位元(unity)に等しい周波数領域における三角形型を有し、2つの隣接フィルタの中央周波数にて0へと線形的に減る。各フレームの周波数領域スペクトルはMの三角形メルフィルタバンクの集合を通って処理される。このMは、音声レコグナイザー100に対しては24にセットされる。
【0018】
第2に、逆離散的フーリエ変換(IDFT:inverse discrete Fourier transforms)112、122、123を用いて自己相関解析を行う。これらIDFTは、Qの自己相関係数を得るために平滑化パワースペクトルに(対数操作無しで)与えられる。ここで、Qはレベル1では10にセットされる。レベル2では、低い方の半分と高い方の半分のサブバンド(0〜2kHzと2〜4kHz)に対して8にセットされる。図1は、分解能レベル1、2に対する各サブバンドにおける動作の流れを示す。2より大きい分解能レベルは、2と3を考えることができる。(図1、2は、便利な例として選択したのみであり、本発明の範囲を制限するように意図したものではない。)
【0019】
第3に、線形予測ケプストラル解析プロセス116、126、127によりケプストラル解析を行う。各自己相関セットをまずLP係数に変換する。これは、文献、L. R. Rabiner and Biing-Hwang Juang, "Fundamentals of Speech Recognition", Prentice Hall, New Jersey, 1993, pp. 115-117 により知られるDurbinの回帰アルゴリズムを用いることができる。そして、標準的なLPからケプストラムへの回帰アルゴリズムを用いてケプストラムパラメータへと変換する。このlpc解析プロセスはユニット116、126、127により各レベルに対して繰り返す。例えば、レベル1および2に対して、各サブバンドに対して繰り返す。
【0020】
このlpcプロセスは全てのレベルからの所定の必要とされるケプストラル特徴の数が得られるまで繰り返される。全ての利用からケプストラル特徴の数を得ると、マルチレベルサブバンド特徴がユニット150にて単一の拡張特徴ベクトルを形成するように連結される。この連結したケプストラルベクトルの最終的なディメンションは、好ましい態様にて12にセットされる。
【0021】
好ましい態様において、以下の3つの種類の特徴セットを調べる。
(12、0、0)は、レベル1から12の特徴、より低いサブバンドから0、より高いサブバンドから0を意味する。
(0、6、6)は、レベル2から12の特徴(より低いサブバンドから6の特徴、より低い特徴およびより高いサブバンドから6の特徴レベル1から0の特徴を意味する)
(6、3、3)は、レベル1から6の特徴、レベル2から6の特徴(より低いサブバンドから3の特徴、より高いサブバンドから3の特徴)を意味する。
【0022】
音声の各フレームに対して、プロセス102により与えられる12のHSLPC特徴に加えて、各入力特徴ベクトルは12のHSLPC特徴(エネルギー)を越えて拡張し、1次および2次導関数を含む。全体ではこれにより文献、B. H.Juang, W. Chou and C. H. Lee, "Minimum classification error rate methodsfor speech recognition," IEEE Transactionson Speechand AudioProcessing,Vol. 5, No.3, pp.257-265,1997、米国特許出願第09/032902におけるものと似たような39ディメンションの特徴ベクトルを得る。しかし、本発明は39の特徴ベクトルのうち12にてサブバンド情報を用いるという観点においてこれらの文献とは異なる。
【0023】
レコグナイザーをトレーニングしテストするために、従来知られている音声認識と同様に、好ましい態様において大規模で複雑なコネクテッドディジット(CD:connected digit)データベースを用いる。このCDデータベースべースは、多様な発声者に対応するために音声レコグナイザーとしては優れている。用いたCDデータベースは、幾つかの独立なデータ収集努力、現場トライヤル、生サービス導入の際に集めたデータベースの集積である。このCDデータベースは、英語のデジット、1〜9、0、Oを含む。このCDデータベースの範囲は、用意したデジットストリングのリストを発呼者が読むものから顧客がクレジットカード口座に関して実際に情報にアクセスするために認識システムを用いるものにまで及ぶ。
【0024】
これらデータは、多様な電話ハンドセットを用いて有線ネットワークチャネルを介して集められる。デジットストリングの長さの範囲は1〜16デジットである。一般的なようにCDデータベースを2つのセットトレーニングセットとテストセットとに分けた。このトレーニングセットには、多様なネットワークチャネル、マイクロホン、方言地域(dialect region)からの読み取り(read)および自然的(spontaneous)両方のデジット入力を含む。
【0025】
トレーニングにおいて、階層的信号バイアス除去(HSBR)プロセス162は異なる入力状態を有する信号からバイアスを除去する。HSBRプロセス162の結果は最小ストリングエラー/一般化確率的ディセント(MSE/GPD:minimum string error/generalized probabalistic decent)トレーニングおよび認識プロセス172へと転送される。トレーニングの間プロセス162、プロセス172はメモリー174内にHMMを構築する。メモリー174におけるHMMはトレーニング中メモリー164におけるHMMコードブックを構築するのに用いられる。
【0026】
続くテストセットは、マッチした環境状態とマッチしない環境状態からデータストリングを含むように設計された。トレーニングおよびテストセットにおける全ての記録は、有効デジットのストリングであり、トレーニングおよびテストに対してそれぞれ合計で7461ストリングと13114ストリングあった。このトレーニングおよびテストは、上記米国特許出願第09/071214に記載されたものと同様なものであった。
【0027】
特徴解析に続いて、各特徴ベクトルがHMMレコグナイザーへとわたされる。これは、コンテキスト依存ヘッドボディテールモデル(context-dependent head-body-tail model)を用いてレフトトゥライト連続的混合密度(left-to-right continuous mixture density)HMMのセットによりボキャブラリーにおける各ワードをモデル化する。各信号は多くの電話条件および異なるトランスデュサー装置の下で記録される。その後に作られた各HSLPC特徴ベクトルをバイアス除去プロセスを用いてチャネル歪みの影響を減らす。好ましくは、ケプストラル平均減算バイアス除去(CMSBR)プロセスを用いる。代わりに、階層的信号バイアス除去(HSBR)プロセスを用いることができる。HSBRに類似するプロセスは、文献、M. Rahim and B. H. Juang, "Signal Bias Removal by Maximum Likelihood Estimation for Robust Telephone Speech Recognition", IEEE Transactions on Speech and Audio Processing, Vol. 4, No. 1, 1996, pp. 19-30に記載されている。本発明の別の態様においては、バイアスリムーバー162はグランド特徴ベクトルの一部(例えば、特定の1もしくは複数のレベルに対応する特徴)に対応してHSBRを用い、そのグランド特徴ベクトルの残りの部分(例えば、残りのレベルに対応する特徴)に対してCMSBRを用いる。
【0028】
ボキャブラリーにおける各ワードは、ヘッドセグメント、ボディセグメント、テールセグメントへと分けられる。ワードをまたがる同時調音(inter-word co-articulation)をモデル化するため前および後のコンテキストに従って各ワードは複数のヘッドおよび複数のテールを有する1つのボディからなる。本発明の好ましい態様において、全体で276のコンテキスト依存サブワードモデルを全ての可能性のあるワードをまたがる同時調音をモデル化される。
【0029】
ヘッドとテープのモデルの両方は3つの状態で表されるが、ボディのモデルは4つの状態で表され、それぞれが4つの混合成分を有する。沈黙(silence)は32の混合成分を有する1つの状態モデルでモデル化される。この構成により、全体で、276のモデル化で、837状態、3376混合成分となる。トレーニングには、モデルの全てのパラメーターを全て更新することを含む。これには、平均、分散(variance)、混合原因からなり、最尤評価(MLE:maximum-likelihood estimation)、その後に最小ストリングエラーの3つのエポックを用い、更に、一般化確率的ディセント(MSE:minimum string error/GPD:generalized probabilistic decent)の3つのエポックのトレーニングを用いて、パラメーターの評価を更に改良する。
【0030】
このトレーニングは、上記米国特許出願第09/071214に記載されているものと類似している。異なる点は、HSLPC特徴ベクトルがHSLPC特徴抽出プロセス102により作られることである。大きさが4のBRコードブックがHMMの平均ベクトルから抽出され、各トレーニング発声(utterance)は、MSE/GPDトレーニングで用いられる前にHSBRを適用することにより信号調整される。音声レコグナイザー開発のトレーニング部分において、競争ストリングモデルの数は4にセットされステップの長さは1にセットされる。入力デジット(digit)ストリングの長さはトレーニング時とテスト時の両方で知らないものと想定した。
【0031】
トレーニングの後に、3つの種類のHMM(HSLPC_{12、0、0}、HSLPC_{0、6、6}HSLPC_{6、3、3})と2つの種類トレーニング(MLとMSE)を用いてコネクテッドデジットレコグナイザー100を評価するために幾つかのグループのテストを実行した。これらのテストは実際の動作とほぼ同様に行った。テストと実際の動作において、HSLPC特徴抽出ユニット102による処理はトレーニングにおけるものと同じであった。バイアス除去プロセス162は、トレーニングが終了することとHMMとBRコードブックとステージにおいてトレーニングと変わるべきでないことを除いて、トレーニングと基本的には同様であった。実際のテストと実際の音声認識のために、バイアス除去プロセス162の出力はデコーダプロセス180に送られる。また、デコーダプロセス180はHMMをHMM記憶装置174からグランド特徴ベクトルと、いずれのバイアスをも除去された後のトレーニング時に構築されたレコグナイザーボキャブラリーのHMMとを比較する。このデコーダプロセスは、上記米国特許出願第09/071214に記載されたものと非常に類似している。
【0032】
したの第1表にはレコグナイザー100の全体の性能を6つの異なる構成で特徴種類の関数としてのストリングの正確性と共にまとめて示した。例えば、第1表、セットHSLPC_{6、3、3}は6メル-lpc特徴が第1分解能から取られ、3メル-lpc特徴がより低い分解能からと取られ、3つを第2の分解能レベルの上側バンドから取られることを示している。正規化したフレームエネルギーがマルチ分解能と共に含まれ、全てのケースにおいて供給された特徴をデルタおよびデルターデルタトラジェクトリー特徴と共に結果が示す。
【0033】
第1表は4つの重要な結果を示している。第1に、MSEトレーニングはMLEトレーニングよりも優れ、MSEベースのレコグナイザーはMLEベースのレコグナイザーに対して全ての種類の音声モデルにわたって全般的に平均して55%のストリングエラーレート削減を達成している。第2に、フルバンド幅ケプストラルHSLPC_{12、0、0}に比べて、サブバンドケプストラル特徴を単独で用いた性能(HSLPC_{6、3、3})に何らかの改善を観測することができた。第3に、第1の第3行で示したようにマルチ分解能特徴セットが用いられた場合に認識性能が更に改善したことを観測することができた。最後に、第1票で得られた最良の結果は、第1の分解能特徴セットを単独の場合(HSLPC_{12、0、0})と比べてエラーレートを15%削減して両方の分解能レベル(HSLPC_{6、3、3})からの特徴を用いて得られた。
【0034】
第1表から本発明に従ってマルチ分解能メル-lpc特徴が単一分解能メル-lpc特徴と比べて電話コネクテッドデジットデータベースの認識を改善することを署名することができたことは重要である。第1表の結果は、文献、P. McCourt, S. Vaseghi and N. Harte, "Multi-Resolution Cepstral Features for Phoneme Recognition Across Speech Subbands", Proc. ICASSP, 1998, pp. 557-560により報告された以前の結果と比較すると対照的である。この文献では、両方の分解能レベルを用いても更に利益を得ることができないことと見ている。
【0035】
Figure 0003810608
【0036】
この第1表は、上で説明したように、HSLPC特徴種類の関数としてMLおよびMSEトレーニング方法を用いた未知の長さのグラマーに基づいたコネクテッドデジット認識タスクに対するストリング精度レートを表している。
【0037】
本発明に従うトレーニングされた音声レコグナイザーに対して行ったテストが実際に使用される音声入力と非常に近いことは重要である。従って、音声レコグナイザー100のテスト結果に類似する結果が合理的に期待される。
【0038】
図2において、音声レコグナイザー200を示してあり、これはレベル3の音声レコグナイザーを有する図1に示したレコグナイザーと類似している。音声レコグナイザー200は、音声レコグナイザー100と比べ、メルフィルタ230、IDFT232、233、234、235、クォードlpcアナライザー(quad lpc analyzer)236、237、238、239サブバンドを更に有する。IDFT232−235に対しては、各サブバンドクォードランド(quadrant)(0-1 kHz、 1-2 kHz、 2-3 kHz、 3-4 kHz)に対してQは6にセットされる。より高いレベルが加えられたならば同様にセットされる。ユニット250はマルチレベルサブバンド特徴を連結し、ユニット150と同様に単一の拡張特徴ベクトルを形成する。連結したケプストラルベクトルの最終的なディメンションは少なくとも12である。ただし、テストがより高い数がよいことを示すことはある。
【0039】
このように、認識を改善するためにサブバンドからケプストラル特徴を抽出する音声レコグナイザーについて説明した。多くの変更が可能であり、より広い音声入力バンド4000Hzよりも大きいものや異なる大きさのサブバンドベースのレコグナイザーの1つの変数として、バンドの数や抽出サブバンド境界でコンポジッションを用いることができる。
【図面の簡単な説明】
【図1】本発明に従って第1および第2のサブバンドに対する音声レコグナイサの方法および装置のブロック図。
【図2】本発明に従って第1、第2、第3のサブバンドに対する音声レコグナイサの方法および装置のブロック図。
【符号の説明】
100 音声レコグナイザー
102 HSLPC特徴抽出プロセス
104 高速フーリエ変換
150、250 グランド特徴ベクトルを形成するように個々の特徴が追加される
160 信号コンディショニング
162 バイアス除去プロセス
170 区別的トレーニング

Claims (14)

  1. 音声レコグナイザーにおいて使用される方法であって、
    (A)時間変動するバンド制限された音声入力発声を受信するステップ、
    (B)高速フーリエ変換プロセスを用いて前記発声を周波数領域スペクトルに変換するステップ、
    (C)前記周波数領域スペクトルを複数のメルフィルタバンクに転送するステップであって、該複数のメルフィルタバンクの少なくとも1つが、前記周波数スペクトルをフィルタリングする複数のサブバンドを有している、ステップ
    (D)逆離散的フーリエ変換プロセスを用いて前記複数のメルフィルタバンクの各出力を変換するステップであって、該変換によって、該メルフィルタバンク各々からの時間変動する音声出力、及びそれに加えて各メルフィルタバンクの各サブバンドに対する時間変動する音声出力を得る、ステップ
    (E)対応する線形予測ケプストラル解析を用いて各逆離散的フーリエ変換プロセスの時間変動する出力それぞれの各出力を解析するステップであって、これにより、各逆離散的フーリエ変換出力に対応する個々の特徴ベクトル出力を作るステップ、
    (F)グランド特徴ベクトルを形成するように前記個々の特徴ベクトルを追加するステップ、及び
    (G)前記グランド特徴ベクトルを整えバイアスリムーバを用いて前記グランド特徴ベクトルのいずれのバイアスをも除去するステップ、
    からなる方法。
  2. 前記ステップ(D)がプリエンファサイズするステップ、音声をフレームへとブロック分割するステップ、フレームウィンドウするステップ、及びフーリエ変換するステップを含む請求項1記載の方法。
  3. 前記メルフィルタバンクは、100〜1000Hzでは線形スケーリングで1000Hzより上では対数スケーリングで等しく離間するようにフィルタ中央周波数を有することを特徴とする請求項1記載の方法。
  4. 1000Hzより上では各中央周波数は前のフィルタの中央周波数よりも1.1倍であることを特徴とする請求項3記載の方法。
  5. 各フィルタの大きさ周波数応答は中央周波数における単位元と等しく、いずれの隣接フィルタの周波数にて線形に0へと減るように周波数領域にて形状を有することを特徴とする請求項4記載の方法。
  6. 各フレームに対する周波数領域スペクトルは、Mの三角形メルフィルタバンクのセットを通してわたされることを特徴とする請求項5記載の方法。
  7. 前記逆離散的フーリエ変換は、前記周波数スペクトルを平滑化し複数の自己相関係数を得るように適用されることを特徴とする請求項1記載の方法。
  8. 前記複数の自己相関係数は第1の分解能レベル(レベル1)では10であり第2の分解能レベル(レベル2)では8であることを特徴とする請求項7記載の方法。
  9. 前記グランド特徴ベクトルの最終的なディメンションは、12個のケプストラル特徴にセットされることを特徴とする請求項1記載の方法。
  10. 前記12個のケプストラル特徴のうちの6個の特徴が低い方のサブバンドから取られ、6個の特徴が高い方のサブバンドから取られるものである請求項9記載の方法。
  11. 前記12個のケプストラル特徴のうちの6個の特徴がレベル1から取られ、3個の特徴がレベル2の低い方のサブバンドから取られ、3個の特徴がレベル2の高い方のサブバンドから取られるものである請求項9記載の方法。
  12. 前記グランド特徴ベクトルは、レベル1のサブバンドから少なくとも1個の特徴を有し、レベル2のサブバンドから少なくとも1個の特徴を有し、レベル3のサブバンドから少なくとも1個の特徴を有することを特徴とする請求項1記載の方法。
  13. 音声レコグナイザーであって、
    (A)時間変動するバンド制限された音声入力発声を受信する手段、
    (B)高速フーリエ変換プロセスを用いて前記発声を周波数領域スペクトルに変換する手段、
    (C)前記周波数領域スペクトルを複数のメルフィルタバンクに転送する手段であって、該複数のメルフィルタバンクの少なくとも1つは、前記周波数スペクトルをフィルタリングする複数のサブバンドを有する、手段
    (D)逆離散的フーリエ変換プロセスを用いて前記複数のメルフィルタバンクの各出力を変換して、該メルフィルタバンク各々からの時間変動する音声出力、及びそれに加えて各メルフィルタバンクの各サブバンドに対する時間変動する音声出力を得る手段
    (E)対応する線形予測ケプストラル解析を用いて各逆離散的フーリエ変換プロセスの時間変動する出力それぞれの各出力を解析して、各逆離散的フーリエ変換出力に対応する個々の特徴ベクトル出力を作る手段、
    (F)グランド特徴ベクトルを形成するように前記個々の特徴ベクトルを追加する手段、
    (G)前記グランド特徴ベクトルを整えバイアスリムーバを用いて前記グランド特徴ベクトルのいずれのバイアスをも除去する手段、及び
    (H)バイアスを除去した後に前記グランド特徴ベクトルをデコードする手段
    からなる音声レコグナイザー。
  14. 音声認識方法であって、
    (A)時間変動するバンド制限された音声入力発声を受信するステップ、
    (B)高速フーリエ変換プロセスを用いて前記発声を周波数領域スペクトルに変換するステップ、
    (C)前記周波数領域スペクトルを複数のメルフィルタバンクに転送するステップであって、該複数のメルフィルタバンクの少なくとも1つが、前記周波数スペクトルをフィルタリングする複数のサブバンドを有している、ステップ
    (D)逆離散的フーリエ変換プロセスを用いて前記複数のメルフィルタバンクの各出力を変換するステップであって、該変換によって、該メルフィルタバンク各々からの時間変動する音声出力、及びそれに加えて各メルフィルタバンクの各サブバンドに対する時間変動する音声出力を得る、ステップ
    (E)対応する線形予測ケプストラル解析を用いて各逆離散的フーリエ変換プロセスの時間変動する出力それぞれの各出力を解析するステップであって、これにより、各逆離散的フーリエ変換出力に対応する個々の特徴ベクトル出力を作るステップ、
    (F)グランド特徴ベクトルを形成するように前記個々の特徴ベクトルを追加するステップ、
    (G)前記グランド特徴ベクトルを整えバイアスリムーバを用いて前記グランド特徴ベクトルのいずれのバイアスをも除去するステップ、及び
    (H)バイアスを除去した後に前記グランド特徴ベクトルをデコードするステップ
    からなる音声認識方法。
JP2000067094A 1999-03-12 2000-03-10 音声レコグナイザーのためのトレーニング方法 Expired - Fee Related JP3810608B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/266,958 US6292776B1 (en) 1999-03-12 1999-03-12 Hierarchial subband linear predictive cepstral features for HMM-based speech recognition
US09/266958 1999-03-12

Publications (2)

Publication Number Publication Date
JP2000267692A JP2000267692A (ja) 2000-09-29
JP3810608B2 true JP3810608B2 (ja) 2006-08-16

Family

ID=23016697

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000067094A Expired - Fee Related JP3810608B2 (ja) 1999-03-12 2000-03-10 音声レコグナイザーのためのトレーニング方法

Country Status (5)

Country Link
US (1) US6292776B1 (ja)
EP (1) EP1041540B1 (ja)
JP (1) JP3810608B2 (ja)
CA (1) CA2299051C (ja)
DE (1) DE60000074T2 (ja)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI19992350A (fi) * 1999-10-29 2001-04-30 Nokia Mobile Phones Ltd Parannettu puheentunnistus
US20020065649A1 (en) * 2000-08-25 2002-05-30 Yoon Kim Mel-frequency linear prediction speech recognition apparatus and method
US6754626B2 (en) * 2001-03-01 2004-06-22 International Business Machines Corporation Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context
JP3564501B2 (ja) 2001-03-22 2004-09-15 学校法人明治大学 乳幼児の音声解析システム
US7623114B2 (en) 2001-10-09 2009-11-24 Immersion Corporation Haptic feedback sensations based on audio output from computer devices
US6703550B2 (en) * 2001-10-10 2004-03-09 Immersion Corporation Sound data output and manipulation using haptic feedback
AU2003280516A1 (en) * 2002-07-01 2004-01-19 The Regents Of The University Of California Digital processing of video images
JP4517163B2 (ja) * 2004-03-12 2010-08-04 株式会社国際電気通信基礎技術研究所 周波数特性等化装置
US7765333B2 (en) 2004-07-15 2010-07-27 Immersion Corporation System and method for ordering haptic effects
US20060017691A1 (en) 2004-07-23 2006-01-26 Juan Manuel Cruz-Hernandez System and method for controlling audio output associated with haptic effects
CN1296887C (zh) * 2004-09-29 2007-01-24 上海交通大学 用于嵌入式自动语音识别系统的训练方法
US7676362B2 (en) * 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
US8280730B2 (en) 2005-05-25 2012-10-02 Motorola Mobility Llc Method and apparatus of increasing speech intelligibility in noisy environments
US20070055519A1 (en) * 2005-09-02 2007-03-08 Microsoft Corporation Robust bandwith extension of narrowband signals
US8700791B2 (en) 2005-10-19 2014-04-15 Immersion Corporation Synchronization of haptic effect data in a media transport stream
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
DE102006014507B4 (de) * 2006-03-19 2009-05-07 Technische Universität Dresden Verfahren und Vorrichtung zur Klassifikation und Beurteilung von Musikinstrumenten gleicher Instrumentengruppen
US7979146B2 (en) 2006-04-13 2011-07-12 Immersion Corporation System and method for automatically producing haptic events from a digital audio signal
US8000825B2 (en) * 2006-04-13 2011-08-16 Immersion Corporation System and method for automatically producing haptic events from a digital audio file
US8378964B2 (en) 2006-04-13 2013-02-19 Immersion Corporation System and method for automatically producing haptic events from a digital audio signal
US20070250311A1 (en) * 2006-04-25 2007-10-25 Glen Shires Method and apparatus for automatic adjustment of play speed of audio data
US20080003550A1 (en) * 2006-06-30 2008-01-03 George Betsis Systems and method for recognizing meanings in sounds made by infants
US7873209B2 (en) 2007-01-31 2011-01-18 Microsoft Corporation Segment-discriminating minimum classification error pattern recognition
JP4762176B2 (ja) * 2007-03-05 2011-08-31 日本放送協会 音声認識装置および音声認識プログラム
EP2122489B1 (en) 2007-03-09 2012-06-06 Srs Labs, Inc. Frequency-warped audio equalizer
US9019087B2 (en) 2007-10-16 2015-04-28 Immersion Corporation Synchronization of haptic effect data in a media stream
DE102007056221B4 (de) 2007-11-27 2009-07-09 Siemens Ag Österreich Verfahren zur Spracherkennung
CN101546556B (zh) * 2008-03-28 2011-03-23 展讯通信(上海)有限公司 用于音频内容识别的分类系统
JP5499030B2 (ja) * 2008-08-11 2014-05-21 イマージョン コーポレーション 音楽ゲームのための触覚的に使用可能にしたゲーム周辺機器
US8200489B1 (en) * 2009-01-29 2012-06-12 The United States Of America As Represented By The Secretary Of The Navy Multi-resolution hidden markov model using class specific features
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8788256B2 (en) 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
KR101008264B1 (ko) 2009-02-27 2011-01-13 전자부품연구원 선형예측계수 차수 선택방법 및 이를 이용한 신호처리장치
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
CN101944359B (zh) * 2010-07-23 2012-04-25 杭州网豆数字技术有限公司 一种面向特定人群的语音识别方法
US8639508B2 (en) * 2011-02-14 2014-01-28 General Motors Llc User-specific confidence thresholds for speech recognition
US8719019B2 (en) * 2011-04-25 2014-05-06 Microsoft Corporation Speaker identification
CN102254554B (zh) * 2011-07-18 2012-08-08 中国科学院自动化研究所 一种对普通话重音进行层次化建模和预测的方法
WO2013124862A1 (en) * 2012-02-21 2013-08-29 Tata Consultancy Services Limited Modified mel filter bank structure using spectral characteristics for sound analysis
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
PL403724A1 (pl) * 2013-05-01 2014-11-10 Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie System rozpoznawania mowy i sposób wykorzystania dynamicznych modeli i sieci Bayesa
WO2016172363A1 (en) * 2015-04-24 2016-10-27 Cyber Resonance Corporation Methods and systems for performing signal analysis to identify content types

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5271088A (en) * 1991-05-13 1993-12-14 Itt Corporation Automated sorting of voice messages through speaker spotting
US5590242A (en) * 1994-03-24 1996-12-31 Lucent Technologies Inc. Signal bias removal for robust telephone speech recognition
US5749066A (en) * 1995-04-24 1998-05-05 Ericsson Messaging Systems Inc. Method and apparatus for developing a neural network for phoneme recognition
US5806022A (en) * 1995-12-20 1998-09-08 At&T Corp. Method and system for performing speech recognition
US5765124A (en) * 1995-12-29 1998-06-09 Lucent Technologies Inc. Time-varying feature space preprocessing procedure for telephone based speech recognition
FR2748342B1 (fr) * 1996-05-06 1998-07-17 France Telecom Procede et dispositif de filtrage par egalisation d'un signal de parole, mettant en oeuvre un modele statistique de ce signal
US6064958A (en) * 1996-09-20 2000-05-16 Nippon Telegraph And Telephone Corporation Pattern recognition scheme using probabilistic models based on mixtures distribution of discrete distribution
US5930753A (en) * 1997-03-20 1999-07-27 At&T Corp Combining frequency warping and spectral shaping in HMM based speech recognition
FR2766604B1 (fr) * 1997-07-22 1999-10-01 France Telecom Procede et dispositif d'egalisation aveugle des effets d'un canal de transmission sur un signal de parole numerique
US6112175A (en) * 1998-03-02 2000-08-29 Lucent Technologies Inc. Speaker adaptation using discriminative linear regression on time-varying mean parameters in trended HMM

Also Published As

Publication number Publication date
EP1041540A1 (en) 2000-10-04
DE60000074T2 (de) 2002-08-29
CA2299051A1 (en) 2000-09-12
DE60000074D1 (de) 2002-03-28
JP2000267692A (ja) 2000-09-29
EP1041540B1 (en) 2002-02-20
US6292776B1 (en) 2001-09-18
CA2299051C (en) 2004-04-13

Similar Documents

Publication Publication Date Title
JP3810608B2 (ja) 音声レコグナイザーのためのトレーニング方法
Nadeu et al. Time and frequency filtering of filter-bank energies for robust HMM speech recognition
Vergin et al. Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition
JP4218982B2 (ja) 音声処理
JP3364904B2 (ja) 自動音声認識方法及び装置
Yapanel et al. A new perspective on feature extraction for robust in-vehicle speech recognition.
JPH07271394A (ja) 確実な電話音声認識のための信号バイアスの除去
US5666466A (en) Method and apparatus for speaker recognition using selected spectral information
Dharanipragada et al. Robust feature extraction for continuous speech recognition using the MVDR spectrum estimation method
JPH08123484A (ja) 信号合成方法および信号合成装置
Hai et al. Improved linear predictive coding method for speech recognition
Shah et al. Robust voiced/unvoiced classification using novel features and Gaussian mixture model
JP2002268698A (ja) 音声認識装置と標準パターン作成装置及び方法並びにプログラム
Hung et al. Robust speech recognition via enhancing the complex-valued acoustic spectrum in modulation domain
Chavan et al. Speech recognition in noisy environment, issues and challenges: A review
Ananthakrishna et al. Kannada word recognition system using HTK
Makhijani et al. Speech enhancement using pitch detection approach for noisy environment
Liu et al. A modulation feature set for robust automatic speech recognition in additive noise and reverberation
Singh et al. A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters
Chengalvarayan Hierarchical subband linear predictive cepstral (HSLPC) features for HMM-based speech recognition
Mishra et al. Comparative wavelet, PLP, and LPC speech recognition techniques on the Hindi speech digits database
Kim et al. A speech feature based on bark frequency warping-the non-uniform linear prediction (nlp) cepstrum
JP3866171B2 (ja) 音素決定方法、その装置及びプログラム
Alhanjouri et al. Robust speaker identification using denoised wave atom and GMM
Moreno Speech recognition in telephone environments

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060501

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060524

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees