JP3754614B2 - 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体 - Google Patents
話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体 Download PDFInfo
- Publication number
- JP3754614B2 JP3754614B2 JP2000385212A JP2000385212A JP3754614B2 JP 3754614 B2 JP3754614 B2 JP 3754614B2 JP 2000385212 A JP2000385212 A JP 2000385212A JP 2000385212 A JP2000385212 A JP 2000385212A JP 3754614 B2 JP3754614 B2 JP 3754614B2
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- speaker
- function
- speech
- expansion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
この発明は、標準話者の音声スペクトルに対する入力音声スペクトルの周波数軸の線形伸縮関数を話者特徴として抽出する話者特徴抽出装置および話者特徴抽出方法、その抽出方法を用いた音声認識装置,音声合成装置、並びに、話者特徴抽出処理プログラムを記録したプログラム記録媒体に関する。
【0002】
【従来の技術】
従来より、隠れマルコフモデル(Hidden Markov Model:以下、HMMと言う)を用いた音声認識方法の開発が近年盛んに行われている。このHMMは、大量の音声データから得られる音声の統計的特徴を確率的にモデル化したものであり、このHMMを用いた音声認識方法の詳細は、中川聖一著「確率モデルによる音声認識」(電子情報通信学会)に詳しい。このHMMに基づく話者適応や話者正規化に関する研究が行われている。ところが、通常の話者正規化技術や話者適応技術においては発声データの内容や量に依存するので、少量の発声データからでは安定した性能向上が非常に難しい。そこで、声道長を用いた話者適応や話者正規化の手法が注目されており、特に声道長に基づく話者正規化が盛んに研究されて効果が出ている。声道長は音声のスペクトルの大まかな特徴を表すパラメータであり、声道長の差は話者間の主な変動要因である。また、声道長は従来の話者適応法に比べて1個のパラメータあるいは極めて少ないパラメータで音声の特徴を表現できることから、声道長にはより少量の学習データで効率良く正規化できるというメリットがある。
【0003】
ところで、標準話者の音声パターンに対する入力話者の音声サンプルの尤度を最大にするという基準(最尤推定)で、上記音声サンプルにおける周波数軸の線形伸縮係数α(声道長正規化係数)を求める方法(ML-VTLN法: Maximum Likelihood Vocal Tract Length Normalization)がある。そして、この声道長正規化係数αを用いて入力話者の音声サンプルの周波数軸を線形伸縮することで話者正規化を行う技術が提案されている(例えば、AT&T Bell Labs. Li Lee, Richard C.Rose,“Speaker Normalization using Efficient Frequency Warping Procedures”, pp.353-356 ICASSP96 (1996))。また、特開平11‐327592号公報においては、声道を前室と後室との2つの室に分け、入力音声のフォルマント周波数を用いて各室に対応した2つの周波数軸線形伸縮係数αを求め、この2つの周波数軸線形伸縮係数αを用いて話者正規化する技術が開示されている。
【0004】
尚、上記話者適応は標準となる音響モデルを入力話者に対して適応(つまり正規化)させる技術であり、話者正規化とは表裏一体の関係にある。
【0005】
さらに、音声合成における声質変換に関する従来技術として、音声認識の話者適応技術を用いてスペクトルの写像を行なう方法が提案されている。例えば、ベクトル量子化(VQ)コードブックマッピング法をベースとした話者適応技術を用いる方法(特開平1‐97997号公報)や、VFS(Vector Field Smoothing)法をベースとした話者適応技術を用いる方法(橋本誠,樋口宣男:“話者選択と移動ベクトル場平滑化を用いた声質変換のためのスペクトル写像”,信学技報,SP95‐1,p.p.1‐8,May 1995)等がある。
【0006】
【発明が解決しようとする課題】
しかしながら、上記従来の声道長に基づく話者適応や話者正規化には、以下のような問題がある。すなわち、声道長に基づく話者適応や話者正規化は極めて少ないパラメータ数で音声の特徴を表現できるとは言うものの、声道長の抽出は発声データの内容や量に大きく左右され易い。したがって、必ずしも少ない学習サンプルから安定して声道長を抽出できるとは限らない。その結果、声道長に基づいて話者正規化や話者適応や話者クラスタリングを行うような音声認識装置においては、性能劣化を招くという問題がある。
【0007】
上記声道長正規化係数αを求める方法としては、上述したように、学習サンプル全体を対象として最尤推定するML-VTLN法が提案されている。この方法においては、発話の仕方や発話内容によってスペクトルの概形が変動するので、学習サンプルによって最適な声道長正規化係数αが異なってしまう場合が生ずる。つまり、異なる周波数軸伸縮関数で局所的に最適となるため、声道長正規化係数αの頻度分布に複数のピークが生じてしまうという多峰性の問題が発生し、真の声道長正規化関数が安定して推定できないことになる。
【0008】
また、声道長の伸縮(周波数軸のワーピング)を線形関数やそれに類似した関数で表現しており、一般に全音素区間に対して周波数ワープを学習・作用するようにしている。そのために、声道長正規化係数αを用いて話者正規化を行う方法においては、声道長の差の影響を受け難い音素や無音部まで学習および正規化してしまうという問題もある。
【0009】
すなわち、上記従来の声道長正規化係数の推定方法では、正確な声道長正規化係数が推定できなかったり、入力音声サンプルを必要以上に変形してしまったりするために、話者正規化に適用した場合には、認識性能の低下を招くことになるのである。
【0010】
さらに、上記特開平11‐327592号公報の正規化方法においては、2つのサンプルから直接声道パラメータを求めるようにしているが、声道パラメータを得るために入力音声のフォルマント周波数を用いている。ところが、一般的にフォルマント周波数を全自動で求めることは困難であり、上記特開平11‐327592号公報に開示された線形伸縮係数を用いた話者正規化方法では、実時間性に欠けるという問題がある。
【0011】
また、上記話者適応においては少ない発声データから音響モデルを精度良く適応できないために、誤り率を半減させるためには数十単語以上の発声データが必要となり、学習話者に負担を強いることになるという問題がある。さらに、音響モデルの適応に声道長伸縮関数を用いる場合には、上述した話者正規化の場合と同様の問題が発生する。また、音声合成における声質変換の場合にも、同様に少ない発声データからは精度良く声質が得られないという問題がある。
【0012】
そこで、この発明の目的は、少ない発声データから発声データの内容に依存せずに安定して話者特徴を抽出できる話者特徴抽出装置および話者特徴抽出方法、その抽出方法を用いた音声認識装置,音声合成装置、並びに、話者特徴抽出処理プログラムを記録したプログラム記録媒体を提供することにある。
【0013】
【課題を解決するための手段】
上記目的を達成するため、第1の発明は、入力話者の音声から,標準話者の音声スペクトルに対して上記入力話者の音声スペクトルの周波数軸を伸縮する際の周波数伸縮関数を話者特徴として抽出する話者特徴抽出装置において、所定の音声単位毎に,上記標準話者の音響モデルに対して,上記入力話者の音声サンプルの尤度あるいは音響モデルを上記入力話者の音声サンプルに話者適応させた話者適応音響モデルの尤度を最大にするという基準に従って,上記周波数伸縮関数を最尤推定し,この推定された上記周波数伸縮関数の集合の頻度分布を求める頻度計測手段と、上記頻度分布に基づいて,最大頻度を有する周波数伸縮関数を話者特徴として抽出するモード抽出手段を備え、上記モード抽出手段は、上記最大頻度を有する周波数伸縮関数が複数存在する場合には、上記頻度分布を混合ガウス分布で表現した場合における当該複数の周波数伸縮関数が属している分布の分散が大きい方の周波数伸縮関数をもって話者特徴とする機能を有していることを特徴としている。
【0014】
上記構成によれば、頻度計測手段によって、所定の音声単位毎に、上記周波数伸縮関数の最尤推定が行われ、この推定された周波数伸縮関数の集合の頻度分布が求められる。そして、モード抽出手段によって、最大頻度を有する周波数伸縮関数が話者特徴として抽出される。したがって、上記周波数伸縮関数の頻度分布に複数のピークが存在しても、正確な周波数伸縮関数が安定して抽出される。
【0015】
さらに、上記モード抽出手段によって、上記最大頻度を有する周波数伸縮関数が複数存在する場合には、属している分布の分散が大きい方の周波数伸縮関数が抽出される。こうして、より多くの周波数伸縮関数の集団を代表する周波数伸縮関数が話者特徴として抽出される。
【0016】
また、上記第1の発明の話者特徴抽出装置は、上記モード抽出手段を、上記標準話者の特徴を表す周波数伸縮関数に近い方の周波数伸縮関数をもって話者特徴とする機能を組み合せて、上記話者特徴を抽出るように成すことが望ましい。
【0017】
上記構成によれば、上記最大頻度を有する複数の周波数伸縮関数が属している分布の分散の大きさが同程度である場合には、より標準話者の周波数伸縮関数に近い方の周波数伸縮関数が、話者特徴として抽出される。
【0018】
また、第2の発明は、標準話者の音声スペクトルに対して入力話者の音声スペクトルの周波数軸を伸縮する際の周波数伸縮関数を用いて入力話者の音声スペクトルの周波数軸を伸縮することによって上記入力話者の音声を正規化する正規化手段を有する音声認識装置において、上記正規化手段は、上記第1の発明の話者特徴抽出装置と、上記話者特徴抽出装置によって抽出された周波数伸縮関数を用いて,上記入力話者の音声スペクトルの周波数軸を伸縮する周波数ワープ手段で構成されていることを特徴としている。
【0019】
上記構成によれば、周波数ワープ手段によって、上記第1の発明の話者特徴抽出装置で抽出された話者の特徴をより的確に表す正確な周波数伸縮関数を用いて話者正規化が行われる。したがって、発声データの内容に依存せずに安定して話者正規化が行われて、高い精度で認識結果が得られる。
【0020】
また、第3の発明は、入力話者の音声スペクトルに対して標準話者の音声スペクトルの周波数軸を伸縮する際の周波数伸縮関数を用いて音声のスペクトルの周波数軸を伸縮することによって音響モデルを入力話者に話者適応させる話者適応手段を有する音声認識装置において、上記話者適応手段は、上記第1の発明の話者特徴抽出装置と、上記話者特徴抽出装置によって抽出された周波数伸縮関数の逆関数を用いて,上記音響モデルの周波数軸を伸縮する周波数ワープ手段で構成されていることを特徴としている。
【0021】
上記構成によれば、周波数ワープ手段によって、上記第1の発明の話者特徴抽出装置で抽出された話者の特徴をより的確に表す正確な周波数伸縮関数の逆関数を用いて、話者適応が行われる。したがって、発声データの内容に依存せずに安定して話者適応が行われて、高い精度で認識結果が得られる。
【0022】
また、第4の発明は、入力話者の音声スペクトルに対して標準話者の音声スペクトルの周波数軸を伸縮する際の周波数伸縮関数を用いて音声のスペクトルの周波数軸を伸縮することによって,標準話者の音声素片を接続して成る合成音声の声質を発話者の声質に変換する声質変換手段を有する音声合成装置において、上記声質変換手段は、上記第1の発明の話者特徴抽出装置と、上記話者特徴抽出装置によって抽出された周波数伸縮関数の逆関数を用いて,上記音声素片の周波数軸を伸縮する周波数ワープ手段で構成されていることを特徴としている。
【0023】
上記構成によれば、周波数ワープ手段によって、上記第1の発明の話者特徴抽出装置で抽出された話者の特徴をより的確に表す正確な周波数伸縮関数の逆関数を用いて、声質変換が行われる。したがって、発声データの内容に依存せずに安定して声質変換が行われて、より入力話者の声質に近い合成音声が得られる。
【0024】
また、第5の発明は、入力話者の音声から,標準話者の音声スペクトルに対して上記入力話者の音声スペクトルの周波数軸を伸縮する際の周波数伸縮関数を話者特徴として抽出する話者特徴抽出方法において、所定の音声単位毎に,上記標準話者の音響モデルに対して,上記入力話者の音声サンプルの尤度あるいは音響モデルを上記入力話者の音声サンプルに話者適応させた話者適応音響モデルの尤度を最大にするという基準に従って,上記周波数伸縮関数を最尤推定し、この推定された上記周波数伸縮関数の集合の頻度分布を求め、上記頻度分布に基づいて,最大頻度を有する周波数伸縮関数を話者特徴として抽出するに際して、上記最大頻度を有する周波数伸縮関数を話者特徴として抽出する場合に、上記最大頻度を有する周波数伸縮関数が複数存在する場合には、上記頻度分布を混合ガウス分布で表現した場合における当該複数の周波数伸縮関数が属している分布の分散が大きい方の周波数伸縮関数をもって話者特徴とすることを特徴としている。
【0025】
上記構成によれば、所定の音声単位毎に最尤推定された周波数伸縮関数の集合の頻度分布に基づいて、最大頻度を有する周波数伸縮関数が話者特徴として抽出される。したがって、上記周波数伸縮関数の頻度分布に複数のピークが存在しても、正確な周波数伸縮関数が安定して抽出される。
【0026】
さらに、上記最大頻度を有する周波数伸縮関数が複数存在する場合には、属している分布の分散が大きい方の周波数伸縮関数が抽出される。こうして、より多くの周波数伸縮関数の集団を代表する周波数伸縮関数が話者特徴として抽出される。
【0027】
また、第6の発明のプログラム記録媒体は、コンピュータを、上記第1の発明における頻度計測手段およびモード抽出手段として機能させる話者特徴抽出処理プログラムが記録されたことを特徴としている。
【0028】
上記構成によれば、上記第1の発明の場合と同様に、上記周波数伸縮関数の頻度分布に複数のピークが存在する場合でも、正確な周波数伸縮関数が安定して抽出される。さらに、最大頻度を有する周波数伸縮関数が複数存在する場合には、より多くの周波数伸縮関数 の集団を代表する周波数伸縮関数が話者特徴として抽出される。
【0029】
【発明の実施の形態】
以下、この発明を図示の実施の形態により詳細に説明する。
<第1実施の形態>
図1は、本実施の形態の音声認識装置におけるブロック図である。尚、この音声認識装置は、話者正規化方式を用いた音声認識装置であり、上記HMMに代表される音響モデルをベースとしている。
【0030】
音声入力部1において、マイクから入力された音声はディジタル波形に変換されて音響分析部2に入力される。音響分析部2は、入力されたディジタル波形を短い時間間隔(フレーム)毎に周波数分析し、スペクトルを表す音響パラメータのベクトル系列に変換する。ここで、上記周波数分析としては、MFCC(メル周波数FFT(高速フーリエ変換)ケプストラム)やLPC(線形予測分析)メルケプストラム等のスペクトルを効率よく表現できる音響パラメータを抽出できる分析方法が用いられる。こうして得られた音響パラメータ系列は、話者正規化部3を構成する周波数ワープ部4に送出される。
【0031】
上記話者正規化部3は、上記周波数ワープ部4と周波数ワープ関数推定部5とから概略構成される。そして、周波数ワープ関数推定部5は、学習時には、音響分析部2からの音響パラメータ系列と単語列入力部6から入力された学習用単語の音素列とに基づいて、音素境界情報および周波数ワーピング関数を推定して周波数ワープ部4に送出する。また、認識時には、音響分析部2からの音響パラメータ系列と上記学習時に推定された周波数ワーピング関数とに基づいて音素境界情報を推定し、この推定された音素境界情報を上記周波数ワーピング関数と共に周波数ワープ部4に送出する。尚、周波数ワープ関数推定部5の構成と動作については後に詳述する。
【0032】
そうすると、上記周波数ワープ部4は、上記周波数ワーピング関数および音素境界情報を用いて、入力音声の音響パラメータ系列を周波数ワープ(話者正規化)し、周波数ワープ後の音響パラメータ系列を尤度演算部7に送出するのである。そして、尤度演算部7では、周波数ワープされた音響パラメータ系列に対して、不特定話者音響モデル格納部8に格納された不特定話者モデル(HMM)を作用させて、各音韻の状態毎に尤度を算出する。そして、得られた尤度系列を照合部9に送出する。
【0033】
上記照合部9は、上記尤度演算部7からの尤度系列に対して、辞書格納部10に登録された総ての言語モデル(単語)との照合を行ない、各単語のスコアを算出する。そして、上位のスコアを呈する単語を認識候補(認識結果)として出力部11から出力するのである。
【0034】
以下、上記周波数ワープ関数推定部5の構成と動作について詳細に詳述する。図2に、上記周波数ワープ関数推定部5における学習時に機能する部分の構成を示す。さらに、図3には、周波数ワープ関数推定部5における認識時に機能する部分の構成を示す。先ず、図2に従って、学習時について説明する。
【0035】
音素境界推定部15は、全話者音響モデル格納部12に格納された混合数1以上の全話者音響モデル(HMM)を用いて、ビタビアルゴリズムによって音素境界情報を求める。その際に、教師あり学習時には、音素境界推定部15には、単語列入力部6からの音素列と音響分析部2からの音響パラメータ系列(学習データ)とが入力される。そうすると、音素境界推定部15は、入力音響パラメータ系列に入力音素列を適用させて、上記全話者音響モデルを用いたビタビアルゴリズムによって音素境界情報を求める。これに対して、教師なし学習時には、音素境界推定部15には、音響分析部2からの音響パラメータ系列(学習データ)のみが入力される。そうすると、音素境界推定部15は、入力音響パラメータ系列に言語モデル格納部13に格納された弱い文法の言語モデルを適用させて、全話者音響モデルを用いたビタビアルゴリズムによって音素境界情報を求めるのである。そして、こうして得られた音素境界情報は頻度計測部16および周波数ワープ部4に送出される。
【0036】
尚、上記「弱い文法」とは、対象言語の音素または音節の接続に関する制約条件のみを表現するネットワーク(有限状態オートマトン)のことである。例えば、日本語の場合には、/k/と/i/とは接続するが、/s/と/k/は接続しないというような制約条件である。また、上記音素境界情報とはこの音素境界情報によって分離される音素のラベル情報をも含む概念であり、上記ビタビアルゴリズムによって求まる。
【0037】
上記頻度計測部16は、入力された音素境界情報に従って、全話者音響モデル格納部17に格納された混合数1の全話者モデル(HMM)を用いて、後に詳述する方法によって、音響モデルの状態や入力サンプル等の音声単位毎に周波数ワーピング関数fの係数αを最尤推定する。さらに、α軸に関する頻度の分布を表す分布関数H(α)を求める。そして、得られた分布関数H(α)をモード抽出部18に送出する。
【0038】
上記モード抽出部18は、後述するようにして、上記分布関数H(α)の中から最大頻度を与える最適係数α(つまり周波数ワーピング関数f)を推定する。そして、推定された周波数ワーピング関数fを関数格納部19に格納すると共に、周波数ワープ部4に送出するのである。
【0039】
次に、図3に従って、認識時について説明する。尚、図3における全話者音響モデル格納部12,言語モデル格納部13,音素境界推定部15および関数格納部19は、図2において学習時に使用される全話者音響モデル格納部12,言語モデル格納部13,音素境界推定部15および関数格納部19と同じものである。
【0040】
事前ワープ部20は、上記学習時に推定されて関数格納部19に格納された周波数ワーピング関数fを用いて、認識対象の音響パラメータ系列を周波数ワープする。以下、この場合の周波数ワープを、後に周波数ワープ部4によって行われる周波数ワープに対して「事前ワープ」と言うことにする。こうして、事前ワープが行われた音響パラメータ系列が音素境界推定部15に送出される。
【0041】
そうすると、上記音素境界推定部15は、事前ワープが行われた音響パラメータ系列に弱い文法の言語モデルを適用させて、全話者音響モデルを用いたビタビアルゴリズムによって音素境界情報を求めるのである。その場合、認識対象の音響パラメータ系列は、学習時に抽出された話者特徴としての周波数ワーピング関数fを用いて事前ワープされている。したがって、より話者の声道長に即した音素境界情報を求めることができるのである。そして、得られた音素境界情報が、関数格納部19に格納されている周波数ワーピング関数fと共に周波数ワープ部4に送出される。
【0042】
そうすると、上記周波数ワープ部4においては、上記推定された周波数ワーピング関数fによって、上記学習時には、入力された学習用の音響パラメータ系列が周波数ワープされる。一方、上記認識時には、入力された認識用の学習音響パラメータ系列が周波数ワープされるのである。
【0043】
すなわち、本実施の形態においては、上記学習時における周波数ワープ関数推定部5による係数αの最尤推定を、全音声単位に関して行うのではなく個々の音声単位毎に行い、その最大頻度を呈する係数αを推定することによって、正確な周波数ワーピング関数fを安定して推定するのである。また、上記学習時に頻度計測部16と周波数ワープ部4とによって入力音響パラメータ系列に周波数ワーピング関数fを適用する場合、および、認識時に周波数ワープ部4によって入力音響パラメータ系列に周波数ワーピング関数fを適用する場合には、後に詳述するように、表1の分類表に従って、上記音素境界情報に基づいて、周波数ワープ(正規化)の対象とする音素区間を限定するのである。こうすることによって高精度認識を行う音声認識装置を構築することができるのである。
【0044】
ところで、上記周波数ワープ関数推定部5における上記周波数ワーピング関数fの推定方法には、以下に述べる二通りの推定方法がある。
(A)標準話者の音響モデルを入力音声データに話者適応させた適応モデルを用いる。
(B)入力音声データを直接用いる。
そして、この二通りの推定方法を、入力音声データの量や質に応じて使い分けるのである。ここで、音声データの質とは尤度の上昇具合であり、周波数ワープ関数推定部5は、上記二通りの推定方法による尤度の上昇具合を見計らって、上昇の大きい推定方法を採用するのである。長いエンロール期間を許容できる音声認識装置の場合には、このような推定処理も可能となる。尚、長いエンロール期間を許容できない場合には、予め何れかの推定方法に固定しておけばよい。
【0045】
上記推定方法(A)は、入力音声データが少ない場合に有効である。また、推定方法(B)は、入力音声データが多い場合に有効であり、入力音声データから直接求めるために、精密な推定が可能となる。但し、入力音声データが少ない場合には、当該推定をエンロールモードで行う際に、入力音声データに無い音素環境における上記係数の推定や平滑化が問題になる。
【0046】
また、上記推定方法(A),(B)の各々に関して、使用する音響モデルは、全話者モデルの場合と、話者クラスタ別に作成された混合数が1の音響モデルの場合との二通りがある。音声認識装置の記憶容量が少ない場合には前者を採用する。一方、記憶容量が多い場合は音響モデル群を各話者クラスタ別に格納できるので後者を採用する。後者の場合には、入力音声データに基づいて最適な話者クラスタを選択し、この選択話者クラスタに属する音響モデルを使用することになる。すなわち、図1に示す音声認識装置は、全話者モデルを用いた推定方法(B)によって上記係数の推定を行うのである。
【0047】
ここで、上記話者クラスタ別に作成された音響モデルとは、ある基準で全学習話者をクラスタリングしておき、複数の話者クラスタ毎に学習によって作成された音響モデルのことである。ここでは、上記クラスタリングの基準として、各話者の声道情報を用いる。尚、周波数ワープ関数推定部5が使用する際には、適切な話者クラスタの音響モデルを選択して用いることになる。
【0048】
次に、上記周波数ワープ関数推定部5が学習時に使用する全話者モデルと、尤度演算部7が上記尤度演算時に使用する不特定話者モデルの作成方法について説明する。上記全話者モデルは、総ての学習話者の音声データを用いて学習した音響モデルである。通常、周波数ワーピング関数fの最尤推定に使用する場合には混合数を1に設定する。これに対して、不特定話者モデルは、通常学習話者の音声データをそのまま用いて学習した音響モデルである。しかしながら、本実施の形態のように話者正規化を行う音声認識装置においては、尤度演算部7に入力される音響パラメータ系列は、周波数ワープ部4によって既に正規化されている。したがって、不特定話者モデルも、学習話者の音声データを以下に述べる正規化と同様の手順で正規化した正規化学習データを用いた学習によって作成するのである。その場合、不特定話者に対応させるために、通常では、混合数は1以上に設定される。
【0049】
次に、上記周波数ワープ関数推定部5によって行われる周波数ワーピング関数fの推定について説明する。先ず、周波数ワープピング関数fの定義について説明する。周波数ワープピング関数f(周波数伸縮関数または単に伸縮関数と言う場合もある)の周波数軸は声道の長さを直接反映しているので声道長伸縮関数とも言う。周波数ワーピング関数fは、推定の容易さを考慮して、通常はできるだけ少ないパラメータ数で表現される。本実施の形態においては、周波数ワーピング関数fを、以下のようなパラメータが1個からなる区分線形関数であると定義する。
【0050】
周波数ワーピング関数f():
・x≦min(ω/α,ω)では、f(x)=αx
(ω≒4kHz) (0.88<α<1.13)
・min(ω/α,ω)<xでは、
α>1のとき f(x)→(ω/α,ω)と(fs/2,fs/2)とを結ぶ直線
α≦1のとき f(x)→(ω,αω)と(fs/2,fs/2)とを結ぶ直線
ここで、α:周波数ワーピング関数f()の係数
fs:サンプリング周波数
尚、上記サンプリング周波数fsは、本実施の形態においては8kHz以上を仮定している。すなわち、fs=12kHzの場合には、(fs/2,fs/2)は(6kHz,6kHz)となるのである。また、係数αの定義域「0.88<α<1.13」は飽くまでも一例であり、子供まで含めると「0.7<α<1.13」となる。α>1である場合における上述のような折れ線で表される周波数ワーピング関数f(x)を図4に示す。すなわち、周波数ワーピング関数f()の推定とは係数αを推定することである。
【0051】
また、複数のパラメータを有する周波数ワーピング関数f(x)の場合でも、以下に述べる1個のパラメータαを有する周波数ワーピング関数f(x)の場合と同様にして、パラメータ空間の総ての座標における尤度を算出して頻度を計測することによって、音響パラメータ系列に適合した係数を推定することができる。
【0052】
上記周波数ワープ関数推定部5における上記周波数ワーピング関数fの推定方法が上記推定方法(A)である場合には、標準話者の音響モデルを入力音声データに話者適応させた適応モデルを用いて、以下の手順によって2つの音響モデルの状態間の尤度を求めて推定するのである。
【0053】
尚、その場合における上記適応モデルは、例えば、音響モデルの各状態が予め設定された正規化対象の音素区間に属しているか否かを判別し、属している状態に関して、上記音響モデルを入力音声データに話者適応させる話者適応モデル作成手段によって作成すればよい。
【0054】
ここで、標準モデル(全話者音響モデル格納部17に格納された全話者モデルに相当)と入力モデル(上記適応モデルに相当)との2つの音響モデルの対応する状態間の尤度を、標準モデルの出力確率密度関数ri()に、入力モデルの出力確率密度関数bi()の平均値ベクトルμ→ iを上記周波数ワーピング関数f()で周波数ワープして得られたベクトルμ→ i fを代入したときの値と定義する。上記各出力確率密度関数は多次元ガウス分布であって、平均値ベクトルと分散ベクトルから成っている。
【0055】
そして、上記正規化対象の出力確率密度関数集合Ωにおける第i番目の状態間の尤度ri(μ→ i f)に基づいて、状態iにおける周波数ワーピング関数f()の最適係数α^iは、式(1)に示すように尤度ri(μ→ i f)を最大にする係数として推定されるのである。
ここで、 Ω:正規化対象の出力確率密度関数集合のインデックス
ri():標準モデルの第i番目の出力確率密度関数
f():αを係数とする周波数ワーピング関数
μ→ i f:入力モデルにおける第i番目の出力確率密度関数bi()の 平均値ベクトルμ→ iをf()で周波数ワープしたベクトル
尚、上記正規化対象の出力確率密度関数集合Ωは、後述する正規化対象の音素区間に属する音素に関する音響モデルの出力確率密度関数の集合である。
【0056】
上記音響分析部2による音響分析で得られる音響パラメータや上記音響モデルの出力確率密度関数の引数は、通常MFCCやLPCケプストラムである。これらの音響パラメータの各次元はケプストラムと呼ばれる物理量であって、周波数ではない。そこで、上記周波数ワープ処理を行なう際には、学習データである音響パラメータからスペクトルへの変換C-1(ケプストラムの場合は逆cos変換)を行なって周波数次元に変換する。そして、周波数ワープ処理終了後は、逆変換C(ケプストラムの場合はcos変換)を行なって元の音響パラメータ次元に戻すのである。すなわち、μ→ i f=C(f(C-1(μi)))となる。ここで、C-1,Cは、音響パラメータからスペクトルへの変換とその逆変換である。
【0057】
次に、上記式(1)によって求められた{α^i}(i∈Ω)に関して、α軸に関する頻度の分布を求め、この頻度分布を表す関数をh(α)とおく。そして、上述のごとく正規化対象の出力確率密度関数集合Ωの状態i毎に最尤推定して得られた係数α^iのうちモード(並数,最頻値)を与える係数α^を、上記周波数ワーピング関数f()の最適係数として式(2)によって推定するのである。
【0058】
図5に、上記係数αの頻度分布を表す分布関数h(α)の一例を示す。このような多峰性を有する場合、すなわち複数のピークが存在する場合には、従来法によれば2つのピークの中間に最適係数α^が求まる。これに対し、本実施の形態によれば、頻度が高い方のピークを呈するに係数αが最適係数α^として求まるのである。尚、図中、棒グラフは係数αを0.01きざみで観測した場合の頻度分布h(α)であり、破線はその包絡線である。サンプル数が少ない場合はこの包絡線を分布関数h(α)として差し支えない。
【0059】
ここで、図6に例示するように、上記分布関数h(α)の最大値を与えるαが複数個存在する場合がある。このような場合における最適係数α^の推定は、「係数αが属する分布の分散が大きいこと」および「標準話者に近いこと」の2つの基準を組み合わせて行う。図6においては、モードα1に属する分布は、分散が小さく、モードα2に比べて標準値の1.0から離れており、係数αの推定誤りによるゴミと考えられる。
【0060】
今、2つの値α1,α2で最大値h(α)が与えられたとする。つまり、h(α1)=h(α2)=h(α^)となる場合である。係数αが属する分布(すなわち、各αkを平均値とするガウス分布)の分散は、分布関数h(α)を混合ガウス分布(αk,σk 2)で表現することによって与えられる。混合ガウス分布の推定には、HMMの学習方法であるBaum-Welchアルゴリズムが用いられる。ここで、混合数は最大値を与える個数であり、図6の例の場合は「2」である。尚、αkは平均値であり、σk 2は分散であり、図6の場合はk=1,2である。
【0061】
こうした場合、α1を平均値とする分布のα2を平均値とする分布に対する分散の小ささの度合いは、例えば式(3)で表される。
s(1,2)=σ2 2−σ1 2 …(3)
また、標準話者の係数αはα=1であるから、αkの標準話者への近さは例えば式(4)で表される。
dk=|αk−1| …(4)
そして、通常は、式(3)におけるs(1,2)の値に基づいて最適係数α^を選択する。そして、s(1,2)の値が非常に小さく、両者の分散が同程度と見なされる場合には、式(4)におけるdkの値に基づいて最適係数α^を選択するのである。
【0062】
または、以下のようにして最適係数α^を選択してもよい。すなわち、αk1のαk2に対するスコアg(k1,k2)を式(5)で定義する。そして、このスコアの値をα1とα2とについて求め、小さい方を最適係数α^として選択するのである。
g(k1,k2)=λ*s(k1,k2)+(1−λ)*dk1 …(5)
ここで、λはシミュレーション実験に基づいて与えられる重み係数で あり、[0,1]の間、例えば0.7等に設定される。
【0063】
このように、本実施の形態においては、従来のように、全状態に関して係数αを最尤推定するのではなく、個々の状態i毎に最尤推定して最大頻度を呈する係数αを求めるのである。こうすることによって、各状態i毎の係数αiの集合における頻度分布に複数のピークが存在する場合でも、正確な周波数ワーピング関数f()を安定して推定できるのである。また、その際における各状態i毎の係数αの最尤推定を、上記正規化対象の音素区間に属する音素に関してのみ行うことによって、少ない音声データによって、精度良く周波数ワーピング関数f()を推定できるのである。
【0064】
一方、上記周波数ワープ関数推定部5における上記周波数ワーピング関数fの推定方法が上記推定方法(B)である場合には、音響分析部2からの入力音響パラメータ系列を直接用いて、以下の手順によって周波数ワーピング関数f()の最適係数αを推定する。尚、上述したごとく、図1に示す音声認識装置における周波数ワープ関数推定部5には、上記推定方法(B)が適用されている。したがって、以下の推定手順を行うことになる。ここで、入力音声サンプルXjのインデックスjの全集合をΨとおく。
【0065】
(1)αに初期値を代入する。ここで、Xj={x→ j(t)}(t=1,2,…,Tj)であり、「x→ j(t)」は時刻(フレーム)tにおける音響パラメータベクトル、Tjは音響パラメータ系列Xjにおける最終時刻(最終フレーム)である。
【0066】
(2)上記入力音響パラメータ系列Xjにαを係数とする周波数ワーピング関数f()を作用させることによって周波数ワープを行う。そして、ビタビアルゴリズムを用いて、上記周波数ワープが行われた入力音響パラメータ系列Xj fの標準モデル(全話者音響モデル格納部17に格納された全話者モデルに相当)に対する累積尤度P(Xj f|Wj)を求める。ここで、Wjは入力音響パラメータ系列Xj fの音素列である。
【0067】
(3)係数αを、定義域「0.88<α<1.13」内において、例えば0.02きざみで移動させながら、上記(2)の処理を繰り返して累積尤度Pを求める。
【0068】
(4) 上記累積尤度Pを最大とするαjを求め、これをα~jとおく。すなわち、α~jは、式(6)によって表される。
上記(1)〜(4)の処理を総ての入力音声サンプル{Xj}(j∈Ψ)に対して実行して、各サンプルXj毎の最適係数にα~jを求める。以上の手順(1)から手順(4)までの処理は、頻度計測部16によって行われる。
【0069】
(5) 上記求められたα~jを係数とする周波数ワーピング関数f~j()を用いて、ビタビアルゴリズムによって、各サンプル毎に音素境界情報が求められる。そして、全入力音声サンプル{Xj}(j∈Ψ)のうち、各サンプル毎の音素境界情報に基づく正規化対象となる音素区間の音響パラメータ系列の集合を{X- j}とおく。この手順(5)による音素境界情報算出処理は音素境界推定部15で行われる。
【0070】
(6) 上記正規化対象となる音素区間の音響パラメータ系列の集合{X- j}に関して、上記音素境界情報に基づく正規化対象の音素区間毎に、ビタビアルゴリズムによって累積尤度P(X- j f|Wj)を求める。そして、式(7)によって、最適係数α^jが求め直される。
【0071】
(7) 全サンプルの正規化対象音素区間における{α^j}に関して頻度分布を求め、頻度分布を表す分布関数をH(α)とおく。そして、上述した推定方法(A)の場合と同様に、係数α^jのうちモード(並数,最頻値)を与える係数α^を、上記周波数ワーピング関数f()の最適係数として式(8)によって推定するのである。
上記手順(6)とこの手順(7)における頻度分布の算出とは頻度計測部16によって行われる。また、手順(7)における上記モードを与える係数α^の抽出はモード抽出部18によって行われる。
【0072】
尚、上記頻度分布に同一値のピークが複数の存在する場合には、上記推定方法(A)において述べた方法と同様の方法によって最適係数を推定する。
【0073】
このように、上記推定方法(B)の場合には、個々のサンプルj毎に係数αjを最尤推定し、最大頻度を呈するαを最適係数として求めることによって、各サンプルj毎の係数αjの集合における頻度分布に複数のピークが存在する場合でも正確な周波数ワーピング関数f()を安定して推定できるのである。また、その際における各サンプルj毎の係数αjの最尤推定を、上記正規化対象の音素区間に属する音素に関してのみ行うことによって、少ない音声データによって、精度良く周波数ワーピング関数f()を推定できるのである。
【0074】
尚、上記周波数ワーピング関数f()推定処理における音素境界推定部15と頻度計測部16とモード抽出部18との処理の区分は、上述に限定されるものではない。例えば、手順(2)および手順(6)におけるビタビ演算を、音素境界推定部15で行うようにしても差し支えない。
【0075】
次に、上記学習時には頻度計測部16と周波数ワープ部4とで、認識時には周波数ワープ部4で周波数ワープを行う際に、頻度計測部16および周波数ワープ部4によって行われる上記音素境界情報に基づく対象音素区間の限定について説明する。
【0076】
上述したように、学習時および認識時においては、周波数ワープ関数推定部5の音素境界推定部15によって、入力話者の音響パラメータ系列あるいはこの入力音響パラメータ系列に基づく適応モデルに、発話内容の音素列や言語モデル格納部13に格納された弱い文法の言語モデルを適用させて、全話者音響モデル格納部12に格納された全話者モデルや話者クラスタにクラスタリングされた全話者モデルから選択されたものを用いたビタビアルゴリズムによって音素境界情報を求め、頻度計測部16(学習時)および周波数ワープ部4(学習時,認識時)に送出するようにしている。
【0077】
そうすると、上記頻度計測部16および周波数ワープ部4は、上記周波数ワープ関数推定部5からの音素境界情報に基づいて、入力音声データのうち周波数ワープ処理の対象とする音素区間を制御するのである。本実施の形態においては、音素を表1に示す5種類に分類する。
表1
【0078】
そして、この分類に基づいて、以下のような区別に従って、上記頻度計測部16は学習時の周波数ワープを制御し、周波数ワープ部4は学習時および認識時の正規化を制御するのである。
・学習時…分類[d]
・認識時…分類[c],分類[d],分類[e],(分類[b])
但し、認識時には、分類[b]を含めてもよい。発音の仕方によっては、音素「イ」も音素「ウ」と同様に狭母音なのでフォルマント周波数が大きく変動する場合がある。したがって分類[e]に音素「イ」を含め、分類[d]から音素「イ」を除いてもよい。
【0079】
尚、上記周波数ワープ部4による正規化処理対象の音素区間制御方法は、周波数ワープ関数推定部5の音素境界推定部15が用いる全話者モデルの規模に応じて二通りある。
・全話者音響モデル格納部12の容量に余裕があるために、全話者モデルの規模を非常に 大きくできる場合には、分類[b]の調音点が歯茎より前に位置する子音を分離可能な音 素境界情報を精度良く推定できるので、分類[c],分類[d],分類[e]のみを正規化対象 区間とする。
・全話者モデルの規模をある程度大きくできる場合には、分類[b]を分離可能な音素境界 情報を推定できないために上述のごとく分類[b]を入れて、分類[b],分類[c],分類 [d],分類[e]を正規化対象区間とする。つまり、無音区間の みを正規化対象の音素 から外すのである。
【0080】
上述したように、本実施の形態における音声認識装置は、高精度認識を行うために周波数ワープ部4において周波数ワープの対象とする音素区間を限定するようにしている。しかしながら、計算資源(処理能力)に余裕がないシステムに搭載する場合には、全話者モデルの規模を大きくできないため精度良く音素境界情報を推定することができない。そのような場合には、周波数ワープ部4を常に動作させて、全音素区間を対象に周波数ワープを行っても差し支えない。このように精度良く音素境界情報を推定できない場合でも、分類[d]の声道長の影響を直接受ける母音は推定できる。したがって、周波数ワープ関数推定部5の頻度計測部16によって推定された周波数ワーピング関数f()は、音素境界推定部15からの音素境界情報に基づいて声道長の影響を直接受ける分類[d]の母音のみから得られていることになる。したがって、周波数ワープ部4による周波数ワープの際に声道長の影響を受け難い音素区間と無音区間とが不必要に変形されることを防止するという効果は得ることができるのである。
【0081】
最後に、上記周波数ワープ関数推定部5の音素境界推定部15が、学習時および認識時に用いる言語モデルについて説明する。表2に、各動作モード時における周波数ワープ関数推定部5が用いる言語モデルの切換状況を示す。
表2
【0082】
表2において、通常の認識処理時における言語モデル「なし」とは、上述のごとく全音素区間を正規化対象とするために正規化対象制御用の音素境界情報を推定する必要がなく、ビタビアルゴリズムを動作させないために言語モデルを使用しないという意味である。また、学習モードにおける「教師あり」とは、上述したように、音素境界情報の推定時にビタビアルゴリズムを行う際に発話内容の音素列を使用することであり、単語列入力部6から入力される音素列そのものが言語モデルとなる。これに対して、「教師なし」とは、発話内容の音素列を使用しないものであり、言語モデル格納部13に格納された弱い文法の言語モデルを使用するのである。
【0083】
尚、上記弱い文法の言語モデルに代えて、認識結果を使用することも可能である。この場合、照合部9からの出力である認識結果を発話内容の音素列(言語モデル)として使用するのである。つまり、一度認識処理を行ってから再び学習モード時における周波数ワープ関数推定部5の処理動作に戻るのである。その場合には、図1に破線で示すように、出力部11からの認識単語列を一種の教師音素列として単語列入力部6に入力する。但し、発話内容に規制が無いので照合部9用の言語モデルを、音素境界推定部15でのビタビ演算に流用してよいかどうかという問題はある。
【0084】
以上、上記HMMに代表される音響モデルを用いた音声認識装置について述べてきたが、音声波形または音声パラメータ系列を標準パターンとして登録しておくタイプの音声認識装置においても、入力音声データを直接用いる推定方法(B)の場合と同様の手法によってサンプル毎の頻度を観測することによって、本実施の形態における話者正規化方法を適用することができる。尚、その場合には、尤度の代わりにスペクトル間の距離尺度を用いることになる。処理手順は以下の通りである。
【0085】
(1)αに初期値を代入する。入力音響パラメータ系列をXj={x→ j(t)}(t=1,2,…,Tj)とおく。また、それに対応する標準パターンの音響パラメータ系列をRj={r→ j(t)}(t=1,2,…,T'j)とおく。なお、「x→ j(t)」,「r→ j(t)」は時刻(フレーム)tにおける音響パラメータベクトル、jは各パターン(上記標準パターンに対応)のインデックス、「Tj」,「T'j」は音響パラメータ系列Xj,Rjにおける最終時刻(最終フレーム)である。
【0086】
(2)上記入力音響パラメータ系列Xjに、αを係数とする周波数ワーピング関数f()を作用させて周波数ワープを行う。そして、周波数ワープの結果をXj fとおく。
【0087】
(3)上記周波数ワープ後の入力音響パラメータ系列Xj fと標準パターンの音響パラメータ系列Rjとの累積距離d(Xj f,Rj)を、DPマッチングによって求める。尚、上記DPマッチングにおいては、距離尺度としてケプストラム距離等のスペクトル間距離を用いる。
【0088】
(4)係数αを、定義域「0.88<α<1.13」内において、例えば0.02きざみで移動させながら、上記(2)と(3)との処理とを繰り返して累積尤度dを求める。
【0089】
(5) 上記累積尤度dを最小とするαjを求め、これをα~jとおく。すなわち、α~jは、式(9)によって表される。
上記(1)〜(5)の処理を総ての入力音声サンプル{Xj}(j∈Ψ)に対して実行して、各サンプルXj毎の最適係数にα~jを求める。
【0090】
(6) 上記求められた総てのα~jに関して頻度分布を求め、この頻度分布を表す分布関数をH(α)とおく。そして、上述した推定方法(A),(B)の場合と同様に、係数α~jのうち上記モードを与える係数α^を上記周波数ワーピング関数f()の最適係数として式(10)によって推定するのである。
【0091】
ここで、上記頻度分布に同一値のピークが複数の存在する場合には、上記推定方法(A)において述べた方法と同様の方法によって最適係数を推定する。
【0092】
尚、サブワードHMMとは異なり、本例における上記標準パターンに音素情報は含まれていない。その場合には、音素等による正規化対象区間の制御は困難であるため導入はしない。その代わり、学習時には、一つのサンプルが単母音や特に表1における分類[d]に相当する母音で成る学習データを入力させるようにすることによって、正規化対象区間の制御を行えばよい。
【0093】
上述したように、本実施の形態においては、上記音素境界推定部15,頻度計測部16およびモード抽出部18を有する周波数関数推定部5を備えている。そして、音素境界推定部15は、学習時には、音響分析部2からの入力音響パラメータ系列に、教師ありの場合には単語列入力部6からの音素列(言語モデル)を適用させる一方、教師なしの場合には言語モデル格納部13に格納された弱い文法の言語モデルを適用させて、全話者音響モデル格納部12に格納された全話者音響モデルを用いたビタビアルゴリズムによって音素境界情報を求める。
【0094】
そうすると、上記頻度計測部16は、各サンプルj毎に、上記周波数ワーピング関数f()の係数αを定義域において所定値ずつ増加させながら入力音響パラメータ系列Xjの周波数ワープを行う。そして、周波数ワープが行われた入力音響パラメータ系列Xj fのうち、上記音素境界情報に基づいて上記表1に従って上述のように設定された正規化対象区間の音響パラメータ系列のみに関して、全話者音響モデル格納部17に格納された全話者モデルに対する累積尤度Pを最大にする係数α^jを最尤推定する。そして、各サンプルj毎の{α^j}に関する頻度分布を表す分布関数H(α)を求める。
【0095】
さらに、上記モード抽出部18によって、係数α^jのうち最頻値を与える係数α^が周波数ワーピング関数f()の最適係数として推定され、この最適係数α^を係数とする周波数ワーピング関数f()を関数格納部19に格納するのである。
【0096】
これに対して、認識時には、上記音素境界推定部15によって、上記教師なし学習時と同様に弱い文法の言語モデルを適用させて、ビタビアルゴリズムによって音素境界情報を求めるのである。
【0097】
こうして、上記周波数関数推定部5によって、推定された周波数ワーピング関数f()と音素境界情報とが周波数ワープ部4に送出される。そして、周波数ワープ部4によって、上記音素境界情報に基づいて正規化対象となる音素区間が上記表1に従って学習時および認識時に応じて上述のように制御され、その制御結果に従って、当該認識対象の入力音響パラメータ系列が周波数ワープされるのである。
【0098】
したがって、本実施の形態によれば、話者と標準話者との声道長の差を表わす声道長正規化係数αを係数とする周波数ワーピング関数f()を用いて、頻度計測部16および周波数ワープ部4によって入力音響パラメータ系列を周波数ワープ(正規化)するに際して、周波数ワープの対象となる音素区間を制御することができる。その結果、声道長の差の影響を受け難い音素や無音部を正規化対象外とすることによって、声道長の差の影響を受け難い音素や無音部まで学習および正規化されてしまうことを防止できる。
【0099】
さらに、上記学習時における周波数ワープ関数推定部5による係数αの最尤推定を、全サンプル(推定方法(A)の場合には状態)に関して行うのではなく個々のサンプル(または状態)毎に行い、その頻度分布における最大頻度を呈する係数αをもって周波数ワーピング関数fの最適係数としている。したがって、上記頻度分布に複数のピークが存在する場合でも、正確な周波数ワーピング関数fを安定して推定できるのである。
【0100】
すなわち、本実施の形態においては、少ない発声データから安定して話者特徴を抽出し、その抽出結果を用いて精度よく話者正規化することによって、高い認識性能を得ることができるのである。
【0101】
また、上記実施の形態においては、上記係数αの分布関数h(α)に最大値を与えるαがα1とα2との2個存在する場合には、α1を平均値とする分布のα2を平均値とする分布に対する分散の小ささの度合いを式(3)で求め、αkの標準話者への近さを式(4)で求める。そして、「係数αが属する分布の分散が大きいこと」および「標準話者に近いこと」の2つの基準を組み合わせて、上記最適係数αの推定を行うようにしている。したがって、同一最大ピーク値が複数存在するような分布関数h(α)が得られた場合でも、安定して上記最適係数αを推定することができるのである。
【0102】
また、上記周波数ワープ部4による正規化対象となる音素区間の制御は、上記表1の音素分類に従って、学習時には分類[d](「ウ」を除く母音)を正規化対象音素区間とする。さらに、 認識時には分類[c](調音点が歯茎より後に位置する子音,半母音),分類[d],分類[e](母音「ウ」,撥音),(分類[b](調音点が歯茎より前に位置する子音))を正規化対象音素区間とするようにしている。こうして、学習時および認識時における非正規化音素区間を、有音無音の別および調音点の位置に従って設定することによって、声道長の影響を受け難い音素区間と無音区間とが学習および正規化されることを、確実に防止することができるのである。
【0103】
<第2実施の形態>
図7は、本実施の形態の音声認識装置におけるブロック図である。尚、この音声認識装置は、話者適応方式を用いた音声認識装置である。音声入力部21,音響分析部22,単語列入力部26,尤度演算部27,照合部29,辞書格納部30および出力部31は、図1に示す上記第1実施の形態における音声入力部1,音響分析部2,単語列入力部6,尤度演算部7,照合部9,辞書格納部10および出力部11と同様である。また、周波数ワープ関数推定部24,全話者音響モデル格納部32,言語モデル格納部33および不特定話者音響モデル格納部34は、図1に示す周波数ワープ関数推定部5,全話者音響モデル格納部12,言語モデル格納部13および不特定話者音響モデル格納部8と同様である。尚、周波数ワープ関数推定部24,全話者音響モデル格納部32,言語モデル格納部33および不特定話者音響モデル格納部34は、周波数ワープ部25と共に、話者適応部23を構成している。
【0104】
上記話者適応部23の周波数ワープ関数推定部24は、上記第1実施の形態の場合と同様にして、学習音響パラメータ系列に発話内容の音素列または弱い文法の言語モデルを適用して、全話者モデルを用いたビタビアルゴリズムを行って、音素境界情報および周波数ワーピング関数f()を推定する。そうすると、周波数ワープ部25は、この推定された周波数ワーピング関数f()の逆関数を用いて、不特定話者音響モデル格納部34に格納された不特定話者モデルを周波数ワープする。その場合、上記周波数ワープに際しては、上記音素境界情報に基づいて、上記表1における分類[b],分類[c],分類[d],分類[e]に該当する音素の状態に対してのみ変換を行うことによって行う。そして、それ以外の状態は変換しないのである。但し、声道長の影響を受け難い分類[b]に該当する音素の状態は、変換しない場合もある。こうして周波数ワープされた不特定話者音響モデルを、話者適応モデル(HMM)として話者適応音響モデル格納部28に格納するのである。
【0105】
こうして学習が終了すると、認識時には、上記尤度演算部27によって、音響分析部22からの入力音声の音響パラメータ系列に対して、話者適応音響モデル格納部28に格納された話者適応モデルを作用させて、上述した尤度演算処理を行なうのである。
【0106】
このように、本実施の形態においては、学習時に、上記周波数ワープ関数推定部24によって、学習音響パラメータ系列に基づいて上記音素境界情報および周波数ワーピング関数f()を推定する。そして、周波数ワープ部25によって、上記推定された周波数ワーピング関数f()の逆関数を用いて、分類[c],分類[d],分類[e](,分類[b])に該当する音素の不特定話者モデルを周波数ワープすることによって、不特定話者モデルを話者適応させるようにしている。
【0107】
したがって、本実施の形態によれば、上記不特定話者モデルを話者適応させる際における非正規化音素区間を、無音区間と長音点が歯茎より前に位置する子音とに設定することができる。その結果、声道長の影響を受け難い音素区間と無音区間とが不必要に変形されることを確実に防止することができるのである。
【0108】
さらに、上記学習時における周波数ワーピング関数f()の推定に際して係数αの最尤推定を個々の状態やサンプル毎に行い、その最大頻度を呈する係数αをもって周波数ワーピング関数fの最適係数としている。したがって、各状態やサンプル毎の係数αの集合における頻度分布に複数のピークが存在する場合でも、正確な周波数ワーピング関数fを安定して推定することができる。
【0109】
すなわち、本実施の形態によれば、少ない発声データから安定して話者特徴を抽出し、その抽出結果を用いて精度よく話者適応を行うことによって、高い認識性能を得ることができるのである。
【0110】
尚、本実施の形態における上記話者適応音響モデル格納部28に格納する話者適応モデルの与え方には、上述の与え方の以外に、話者クラスタを用いる方法を採用してもよい。そして、この二通りの与え方を、音声認識装置の規模や入力音声データの量や質に応じて使い分けるのである。ここで、音声データの質とは尤度の上昇具合であり、話者適応部23は、上記二通りの与え方による尤度の上昇具合を見計らって、上昇の大きい推定方法を採用するのである。長いエンロール期間が許容できる音声認識装置の場合には、このような推定処理も可能となる。尚、上記話者クラスタを用いる方法においては、学習音声データに対する尤度が最大値になる話者クラスタの音響モデルを選択する。そして、この選択された音響モデルを話者適応モデルとして話者適応音響モデル格納部28に格納するのである。
【0111】
また、上述した二つの与え方の何れかによって得られた話者適応モデルを初期モデルとして、上記MLLR方やVFS法等の既存の話者適応技術を用いて話者適応を行って新たに話者適応モデルを生成し、これを尤度演算部で用いるようにしても差し支えない。
【0112】
<第3実施の形態>
図8は、本実施の形態のテキスト音声合成装置におけるブロック図である。なお、このテキスト音声合成装置は、声質変換方式を用いたテキスト音声合成装置である。テキスト解析部41は、単語とそのアクセント型とが格納されたアクセント辞書42を用い、入力テキストに対して形態素解析および係り受け解析を行って音素文字列とアクセント情報とを生成して韻律生成部43に送出する。韻律生成部43は、韻律制御テーブル44を参照して、継続時間長やピッチやパワーの韻律情報を生成して、音素文字列と共に音声素片選択部45に送出する。そうすると、音声素片選択部45は、音声素片辞書46から音素環境や韻律環境に最適な音声素片を選択し、音声素片情報を生成する。そして、この生成された音声素片情報を周波数ワープ部48に出力する一方、上記韻律情報を音声素片合成部47に出力する。
【0113】
一方、周波数ワープ関数推定部49は、声質変換のターゲット話者の入力音声波形を基に、第1,第2実施の形態の場合と同様にして、上記音素境界情報および周波数ワーピング関数f()を推定する。そうすると、周波数ワープ部48は、音声素片選択部45からの音声素片情報に含まれた音素境界情報に基づいて音質変換対象となる音素区間を上記表1に従って上述のように選択する。そして、その選択結果に従って、当該音質変換対象の音声素片情報である音響パラメータ系列を、上記推定された周波数ワーピング関数f()の逆関数を用いて周波数ワープし、周波数ワープ後の音声素片情報を音声素片合成部47に送出する。最後に、音声素片合成部47は、周波数ワープ部48からの周波数ワープ後の音声素片情報(音声素片の音響パラメータ系列)と音声素片選択部45からの韻律情報とを用いて、音声波形を生成しスピーカ50から音声出力するのである。
【0114】
上述のように、本実施の形態においては、テキスト音声合成を行うに際して、上記周波数ワープ関数推定部49によって、声質変換のターゲット話者における入力音声の音響パラメータ系列から上記音素境界情報および周波数ワーピング関数f()を推定する。そして、周波数ワープ部48によって、上記音声素片情報に含まれた音素境界情報に基づいて音質変換対象となる音素区間を制御し、上記推定周波数ワーピング関数f()の逆関数を用いて、テキストに基づいて選択された音声素片の音質変換対象となる音響パラメータ系列を周波数ワープすることによって、声質変換を行うようにしている。
【0115】
したがって、本実施の形態によれば、テキストに基づいて選択された音声素片をターゲット話者の音質に変換する際における非声質変換音素区間を、無音区間と長音点が歯茎より前に位置する子音とに設定することができる。その結果、声道長の影響を受け難い音素区間と無音区間とが不必要に変形されることを確実に防止することができるのである。
【0116】
さらに、上記学習時における周波数ワーピング関数f()の推定に際して係数αの最尤推定を個々の状態やサンプル毎に行い、その最大頻度を呈する係数αをもって周波数ワーピング関数fの最適係数としている。したがって、各状態やサンプル毎の係数αの集合における頻度分布に複数のピークが存在する場合でも、正確な周波数ワーピング関数fを安定して推定することができる。
【0117】
すなわち、本実施の形態によれば、少ない発声データから安定して話者特徴を抽出し、その抽出結果を用いて精度よく声質変換を行うことによって正しく音質変換を行うことができるのである。
【0118】
本実施の形態はスペクトル包絡の変換であり、声質の適応におおいに効果がある。しかしながら、話者間の声の特徴差は声質だけでなはく韻律が大きく寄与する。したがって、本実施の形態に対して韻律の適応技術を併用しても構わない。
【0119】
尚、上述した各実施の形態においては、上記周波数ワープ部4,25,48において音響パラメータ系列を周波数ワープする場合に、音声素片選択部45からの音声素片情報に含まれた音素境界情報に基づいて周波数ワープの対象となる音素区間を制御するようにしている。しかしながら、この発明においては、必ずしもその必要はなく、総ての音素区間に対して周波数ワープを行っても構わない。その場合であっても、周波数ワープ関数推定部5,24,49によって推定された周波数ワーピング関数f()は、上記音素境界推定部15からの音素境界情報に基づいて声道長の影響を直接受ける分類[d]の母音のみから推定されている。したがって、周波数ワープ部4,25,48による周波数ワープの際に声道長の影響を受け難い音素区間と無音区間とが不必要に変形されることを防止するという効果は得ることができるのである。
【0120】
また、上述した各実施の形態においては、上記周波数ワーピング関数f()で成る話者特徴を用いて話者正規化または話者適応を行う音声認識装置、および、上記周波数ワーピング関数f()で成る話者特徴を用いて声質変換を行う音声合成装置について説明している。しかしながら、この発明は、上記周波数ワーピング関数f()を話者特徴として抽出する話者特徴抽出装置にも適用されるものである。
【0121】
ところで、その場合の話者特徴抽出装置における上記頻度計測手段およびモード抽出手段としての機能は、プログラム記録媒体に記録された話者特徴抽出処理プログラムによって実現される。上記プログラム記録媒体は、ROM(リード・オンリ・メモリ)でなるプログラムメディアである。あるいは、外部補助記憶装置に装着されて読み出されるプログラムメディアであってもよい。尚、何れの場合においても、上記プログラムメディアから話者特徴抽出処理プログラムを読み出すプログラム読み出し手段は、上記プログラムメディアに直接アクセスして読み出す構成を有していてもよいし、RAM(ランダム・アクセス・メモリ)に設けられたプログラム記憶エリア(図示せず)にダウンロードして、上記プログラム記憶エリアにアクセスして読み出す構成を有していてもよい。尚、上記プログラムメディアからRAMの上記プログラム記憶エリアにダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。
【0122】
ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピーディスク,ハードディスク等の磁気ディスクやCD(コンパクトディスク)‐ROM,MO(光磁気)ディスク,MD(ミニディスク),DVD(ディジタルビデオディスク)等の光ディスクのディスク系、IC(集積回路)カードや光カード等のカード系、マスクROM,EPROM(紫外線消去型ROM),EEPROM(電気的消去型ROM),フラッシュROM等の半導体メモリ系を含めた、固定的にプログラムを坦持する媒体である。
【0123】
また、上記各実施の形態における音声認識装置,音声合成装置および話者特徴抽出装置は、モデムを備えてインターネットを含む通信ネットワークと接続可能な構成を有していれば、上記プログラムメディアは、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。または、別の記録媒体からインストールされるものとする。
【0124】
尚、上記記録媒体に記録されるものはプログラムのみに限定されるものではなく、データも記録することが可能である。
【0125】
【発明の効果】
以上より明らかなように、第1の発明の話者特徴抽出装置は、頻度計測手段によって、所定の音声単位毎に周波数伸縮関数を最尤推定して頻度分布を求め、モード抽出手段によって最大頻度を有する周波数伸縮関数を話者特徴として抽出するので、上記周波数伸縮関数の頻度分布に複数のピークが存在する場合でも、正確な周波数伸縮関数を安定して抽出することができる。したがって、この発明によれば、発声データの内容に依存せずに安定して話者特徴を抽出できる。
【0126】
さらに、上記モード抽出手段は、上記最大頻度を有する周波数伸縮関数が複数存在する場合には、上記頻度分布を混合ガウス分布で表現した場合における当該複数の周波数伸縮関数が属している分布の分散が大きい方の周波数伸縮関数をもって話者特徴とする機能を有しているので、より多くの周波数伸縮関数の集団を代表する周波数伸縮関数を話者特徴として抽出することができる。
【0127】
また、上記第1の発明の話者特徴抽出装置は、上記モード抽出手段を、上記標準話者の特徴を表す周波数伸縮関数に近い方の周波数伸縮関数をもって話者特徴とする機能を組み合せて、上記話者特徴を抽出るように成せば、上記最大頻度を有する複数の周波数伸縮関数が属している分布の分散の大きさが同程度である場合でも、より適切な周波数伸縮関数を話者特徴として抽出することができる。
【0128】
また、第2の発明の音声認識装置は、正規化手段を、上記第1の発明の話者特徴抽出装置と、上記話者特徴抽出装置によって抽出された周波数伸縮関数を用いて入力話者の音声スペクトルの周波数軸を伸縮する周波数ワープ手段で構成したので、話者の特徴をより的確に表す正確な周波数伸縮関数を用いて話者正規化を行うことができる。したがって、発声データの内容に依存せずに安定して話者正規化を行って高い精度で認識結果を得ることができる。
【0129】
また、第3の発明の音声認識装置は、話者適応手段を、上記第1の発明の話者特徴抽出装置と、上記話者特徴抽出装置で抽出された周波数伸縮関数の逆関数を用いて音響モデルの周波数軸を伸縮する周波数ワープ手段で構成したので、話者の特徴をより的確に表す正確な周波数伸縮関数を用いて話者適応を行うことができる。したがって、発声データの内容に依存せずに安定して話者適応を行って高い精度で認識結果を得ることができる。
【0130】
また、第4の発明の音声合成装置は、声質変換手段を、上記第1の発明の話者特徴抽出装置と、上記話者特徴抽出装置によって抽出された周波数伸縮関数の逆関数を用いて標準話者の音声素片の周波数軸を伸縮する周波数ワープ手段で構成したので、話者の特徴をより的確に表す正確な周波数伸縮関数を用いて声質変換を行うことができる。したがって、発声データの内容に依存せずに安定して声質変換を行って、より入力話者の声質に近い合成音声を得ることができる。
【0131】
また、第5の発明の話者特徴抽出方法は、所定の音声単位毎に周波数伸縮関数を最尤推定し、この推定された上記周波数伸縮関数の集合の頻度分布を求め、最大頻度を有する周波数伸縮関数を話者特徴として抽出するので、上記周波数伸縮関数の頻度分布に複数のピークが存在する場合でも、正確な周波数伸縮関数を安定して抽出することができる。したがって、この発明によれば、発声データの内容に依存せずに安定して話者特徴を抽出できる。
【0132】
さらに、上記最大頻度を有する周波数伸縮関数が複数存在する場合には、上記頻度分布を混合ガウス分布で表現した場合における当該複数の周波数伸縮関数が属している分布の分散が大きい方の周波数伸縮関数をもって話者特徴とするので、より多くの周波数伸縮関数の集団を代表する周波数伸縮関数を話者特徴として抽出することができる。
【0133】
また、第6の発明のプログラム記録媒体は、コンピュータを、上記第1の発明における頻度計測手段およびモード抽出手段として機能させる話者特徴抽出処理プログラムが記録されているので、上記第1の発明の場合と同様に、上記周波数伸縮関数の頻度分布に複数のピークが存在する場合でも、正確な周波数伸縮関数を安定して抽出することができる。したがって、発声データの内容に依存せずに安定して話者特徴を抽出できる。さらに、最大頻度を有する周波数伸縮関数が複数存在する場合には、より多くの周波数伸縮関数の集団を代表する周波数伸縮関数を話者特徴として抽出することができる。
【図面の簡単な説明】
【図1】 この発明の話者正規化方式を用いた音声認識装置におけるブロック図である。
【図2】 図1における周波数ワープ関数推定部の学習時に機能する部分の詳細なブロック図である。
【図3】 図1における周波数ワープ関数推定部の認識時に機能する部分の詳細なブロック図である。
【図4】 周波数ワーピング関数の一例を示す図である。
【図5】 分布関数h(α)の一例を示す図である。
【図6】 最大値を与えるαが複数個存在する分布関数h(α)を示す図である。
【図7】 図1とは異なる話者適応方式を用いた音声認識装置におけるブロック図である。
【図8】 この発明の音声合成装置のブロック図である。
【符号の説明】
1,21…音声入力部、
2,22…音響分析部、
3…話者正規化部、
4,25,48…周波数ワープ部、
5,24,49…周波数ワープ関数推定部、
6,26…単語列入力部、
7,27…尤度演算部、
8,34…不特定話者音響モデル格納部、
9,29…照合部、
10,30…辞書格納部、
11,31…出力部、
12,17,32…全話者音響モデル格納部、
13,33…言語モデル格納部、
15…音素境界推定部、
16…頻度計測部、
18…モード抽出部、
19…関数格納部、
20…事前ワープ部、
23…話者適応部、
28…話者適応音響モデル格納部、
41…テキスト解析部、
43…韻律生成部、
45…音声素片選択部、
47…音声素片合成部、
50…スピーカ。
Claims (7)
- 入力話者の音声から、標準話者の音声スペクトルに対して上記入力話者の音声スペクトルの周波数軸を伸縮する際の周波数伸縮関数を話者特徴として抽出する話者特徴抽出装置において、
所定の音声単位毎に、上記標準話者の音響モデルに対して、上記入力話者の音声サンプルの尤度あるいは音響モデルを上記入力話者の音声サンプルに話者適応させた話者適応音響モデルの尤度を最大にするという基準に従って、上記周波数伸縮関数を最尤推定し、この推定された上記周波数伸縮関数の集合の頻度分布を求める頻度計測手段と、
上記頻度分布に基づいて、最大頻度を有する周波数伸縮関数を話者特徴として抽出するモード抽出手段を
備え、
上記モード抽出手段は、上記最大頻度を有する周波数伸縮関数が複数存在する場合には、上記頻度分布を混合ガウス分布で表現した場合における当該複数の周波数伸縮関数が属している分布の分散が大きい方の周波数伸縮関数をもって話者特徴とする機能を有している
ことを特徴とする話者特徴抽出装置。 - 請求項1に記載の話者特徴抽出装置において、
上記モード抽出手段は、上記標準話者の特徴を表す周波数伸縮関数に近い方の周波数伸縮関数をもって話者特徴とする機能を組み合せて、上記話者特徴を抽出するようになっていることを特徴とする話者特徴抽出装置。 - 標準話者の音声スペクトルに対して入力話者の音声スペクトルの周波数軸を伸縮する際の周波数伸縮関数を用いて入力話者の音声スペクトルの周波数軸を伸縮することによって上記入力話者の音声を正規化する正規化手段を有する音声認識装置において、
上記正規化手段は、
請求項1あるいは請求項2に記載の話者特徴抽出装置と、
上記話者特徴抽出装置によって抽出された周波数伸縮関数を用いて、上記入力話者の音声スペクトルの周波数軸を伸縮する周波数ワープ手段で構成されていることを特徴とする音声認識装置。 - 入力話者の音声スペクトルに対して標準話者の音声スペクトルの周波数軸を伸縮する際の周波数伸縮関数を用いて音声のスペクトルの周波数軸を伸縮することによって音響モデルを入力話者に話者適応させる話者適応手段を有する音声認識装置において、
上記話者適応手段は、
請求項1あるいは請求項2に記載の話者特徴抽出装置と、
上記話者特徴抽出装置によって抽出された周波数伸縮関数の逆関数を用いて、上記音響モデルの周波数軸を伸縮する周波数ワープ手段で構成されていることを特徴とする音声認識装置。 - 入力話者の音声スペクトルに対して標準話者の音声スペクトルの周波数軸を伸縮する際の周波数伸縮関数を用いて音声のスペクトルの周波数軸を伸縮することによって、標準話者の音声素片を接続して成る合成音声の声質を発話者の声質に変換する声質変換手段を有する音声合成装置において、
上記声質変換手段は、
請求項1あるいは請求項2に記載の話者特徴抽出装置と、
上記話者特徴抽出装置によって抽出された周波数伸縮関数の逆関数を用いて、上記音声素片の周波数軸を伸縮する周波数ワープ手段で構成されていることを特徴とする音声合成装置。 - 入力話者の音声から、標準話者の音声スペクトルに対して上記入力話者の音声スペクトルの周波数軸を伸縮する際の周波数伸縮関数を話者特徴として抽出する話者特徴抽出方法において、
所定の音声単位毎に、上記標準話者の音響モデルに対して、上記入力話者の音声サンプルの尤度あるいは音響モデルを上記入力話者の音声サンプルに話者適応させた話者適応音響モデルの尤度を最大にするという基準に従って、上記周波数伸縮関数を最尤推定し、
この推定された上記周波数伸縮関数の集合の頻度分布を求め、
上記頻度分布に基づいて、最大頻度を有する周波数伸縮関数を話者特徴として抽出するに際して、
上記最大頻度を有する周波数伸縮関数を話者特徴として抽出する場合に、上記最大頻度を有する周波数伸縮関数が複数存在する場合には、上記頻度分布を混合ガウス分布で表現した場合における当該複数の周波数伸縮関数が属している分布の分散が大きい方の周波数伸縮関数をもって話者特徴とする
ことを特徴とする話者特徴抽出方法。 - コンピュータを、
請求項1における上記頻度計測手段およびモード抽出手段
として機能させる話者特徴抽出処理プログラムが記録されたことを特徴とするコンピュータ読出し可能なプログラム記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000385212A JP3754614B2 (ja) | 2000-12-19 | 2000-12-19 | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000385212A JP3754614B2 (ja) | 2000-12-19 | 2000-12-19 | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002189492A JP2002189492A (ja) | 2002-07-05 |
JP3754614B2 true JP3754614B2 (ja) | 2006-03-15 |
Family
ID=18852521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000385212A Expired - Fee Related JP3754614B2 (ja) | 2000-12-19 | 2000-12-19 | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3754614B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11763834B2 (en) * | 2017-07-19 | 2023-09-19 | Nippon Telegraph And Telephone Corporation | Mask calculation device, cluster weight learning device, mask calculation neural network learning device, mask calculation method, cluster weight learning method, and mask calculation neural network learning method |
-
2000
- 2000-12-19 JP JP2000385212A patent/JP3754614B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002189492A (ja) | 2002-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
JP4176169B2 (ja) | 言語合成のためのランタイムアコースティックユニット選択方法及び装置 | |
O'shaughnessy | Interacting with computers by voice: automatic speech recognition and synthesis | |
KR100612840B1 (ko) | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 | |
JP4274962B2 (ja) | 音声認識システム | |
US5682501A (en) | Speech synthesis system | |
KR101014086B1 (ko) | 음성 처리 장치 및 방법, 및 기록 매체 | |
Stuttle | A Gaussian mixture model spectral representation for speech recognition | |
Williams | Knowing what you don't know: roles for confidence measures in automatic speech recognition | |
JP3919475B2 (ja) | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体 | |
WO2015025788A1 (ja) | 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法 | |
JP3646060B2 (ja) | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体 | |
JP3754613B2 (ja) | 話者特徴推定装置および話者特徴推定方法、クラスタモデル作成装置、音声認識装置、音声合成装置、並びに、プログラム記録媒体 | |
Fung et al. | Pronunciation modeling of Mandarin casual speech | |
JP3754614B2 (ja) | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体 | |
Lachhab et al. | A preliminary study on improving the recognition of esophageal speech using a hybrid system based on statistical voice conversion | |
Hain | Hidden model sequence models for automatic speech recognition | |
Takaki et al. | Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012 | |
Shahnawazuddin et al. | A fast adaptation approach for enhanced automatic recognition of children’s speech with mismatched acoustic models | |
JP2002189491A (ja) | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体 | |
Hashimoto et al. | Overview of NIT HMMbased speech synthesis system for Blizzard Challenge 2011 | |
JP2003255980A (ja) | 音響モデル作成方法、音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体 | |
JP3589508B2 (ja) | 話者適応音声認識方法および話者適応音声認識装置 | |
Phan et al. | Extracting MFCC, F0 feature in Vietnamese HMM-based speech synthesis | |
Blackburn et al. | Enhanced speech recognition using an articulatory production model trained on X-ray data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050404 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20051213 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20051216 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091222 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091222 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101222 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |