JP3919475B2 - 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体 - Google Patents

話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体 Download PDF

Info

Publication number
JP3919475B2
JP3919475B2 JP2001209503A JP2001209503A JP3919475B2 JP 3919475 B2 JP3919475 B2 JP 3919475B2 JP 2001209503 A JP2001209503 A JP 2001209503A JP 2001209503 A JP2001209503 A JP 2001209503A JP 3919475 B2 JP3919475 B2 JP 3919475B2
Authority
JP
Japan
Prior art keywords
speaker
cluster
learning
acoustic model
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001209503A
Other languages
English (en)
Other versions
JP2003022088A (ja
Inventor
耕市 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2001209503A priority Critical patent/JP3919475B2/ja
Publication of JP2003022088A publication Critical patent/JP2003022088A/ja
Application granted granted Critical
Publication of JP3919475B2 publication Critical patent/JP3919475B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
この発明は、標準話者の音声スペクトルに対する入力音声スペクトルの周波数軸の線形伸縮係数を話者特徴として抽出する話者特徴抽出装置および話者特徴抽出方法、その抽出方法を用いた音声認識装置,音声合成装置、並びに、話者特徴抽出処理プログラムを記録したプログラム記録媒体に関する。
【0002】
【従来の技術】
従来より、隠れマルコフモデル(Hidden Markov Model:以下、HMMと言う)を用いた音声認識方法の開発が盛んに行われている。このHMMは、大量の音声データから得られる音声の統計的特徴を確率的にモデル化したものであり、このHMMを用いた音声認識方法の詳細は、中川聖一著「確率モデルによる音声認識」(電子情報通信学会)に詳しい。このHMMに基づく話者照合や話者適応や話者正規化に関する研究が行われている。通常、話者正規化や話者適応技術は、音声データの内容や量に依存するため、少量の発声データからでは安定した性能向上が難しい。そこで、声道長を用いた手法が注目されており、特に声道長に基づく話者正規化が盛んに研究されて効果が出ている。
【0003】
上記声道長は、音声のスペクトルの大まかな特徴を表わすパラメータである。そして、上記声道長の差は話者間の主な変動要因であり、声道長は従来の話者適応法に比べて1個のパラメータあるいは極めて少ないパラメータで音声の特徴を表現できることから、声道長にはより少量の学習データで効率良く正規化できるというメリットがある。
【0004】
ところで、標準話者の音声パターンに対する入力話者の音声サンプルの尤度を最大にするという基準(最尤推定)に従って、上記音声サンプルにおける周波数軸の線形伸縮係数α(声道長正規化係数)を求める(ML‐VTLN法:Maximum Likelihood Vocal Tract Length Normalization)。そして、この声道長伸縮係数αを用いて、入力話者の音声サンプルの周波数軸を線形伸縮して話者正規化を行う技術が提案されている(例えば、AT&T Bell Labs. Li Lee, Richard C.Rose,“Speaker Normalization using Efficient Frequency Warping Procedures”, pp.353-356 ICASSP96 (1996))。また、特開平11‐327592号公報においては、声道を前室と後室との2つの室に分け、入力音声のフォルマント周波数を用いて、各室に対応した2つの周波数軸線形伸縮係数αを用いて話者正規化する技術が開示されている。
【0005】
尚、上記話者適応は標準となる音響モデルを入力話者に対して適応(つまり正規化)させる技術であり、話者正規化とは表裏一体の関係にある。
【0006】
また、話者クラスタリングを用いた音声認識方法がある。この音声認識方法においては、学習話者間の距離を定義して学習話者をクラスタリングしておき、クラスタ毎にそのクラスタに属する学習話者群の音声データを用いて音響モデルを作成する。そして、認識時には、入力音声に最適なクラスタを選択し、そのクラスタの音響モデルを用いて認識処理を行うのである。その場合における学習話者間の距離として上記声道長の周波数軸線形伸縮係数を用いる音声認識装置が提案されている(特開平11‐175090号公報)。この公報においては、声道を前室と後室との2つの室に分け、各室に対応した2つの周波数軸線形伸縮係数を用いて学習話者をクラスタリングするようにしている。
【0007】
また、声道長の非線形な伸縮関数を導入してその係数αでクラスタリングする方法や、GMM(ガウシアン混合モデル)を用いて話者クラスタリングする方法が提案されている(佐藤他「GMMによる音響モデル用学習データの自動選択」日本音響学会春季研究発表会講演番号2‐8‐3 2000年3月)。上記GMMは1状態の混合ガウス分布で表現される音響モデルであり、発話内容に因らずに入力音声に声質の近いGMMが大きい値を出力するように設計されている。元々は話者照合における話者モデルとして提案された手法である。
【0008】
【発明が解決しようとする課題】
しかしながら、上記従来の声道長に基づく話者適応や話者正規化には、以下のような問題がある。すなわち、声道長伸縮関数の求め方として学習サンプル全体を対象として最尤推定する方法(ML‐VTLN法)等が提案されている。このような声道長に基づく話者適応や話者正規化は極めて少ないパラメータ数で表現できるとは言うものの、声道長の抽出は発声データの内容や量に大きく左右されるために、少ない学習サンプルから必ずしも安定して声道長を抽出できるとは限らない。したがって、声道長に基づいて話者正規化や話者適応や話者クラスタリングを行う音声認識装置においては、性能劣化を招くと言う問題がある。
【0009】
実際の声道長はMRI(磁気共鳴画像診断装置)で測定しなければ分からないため、現時点においては直ちに真の声道長を知るのは困難な状況にある。上記特開平11‐327592号公報および特開平11‐175090号公報では、声道パラメータを得るために入力音声のフォルマント周波数を用いている。しかしながら、一般的にフォルマント周波数を全自動で求めることは困難であり、上記特開平11‐327592号公報に開示された線形伸縮係数を用いた話者正規化方法や上記特開平11‐175090号公報に開示された線形伸縮係数を用いた音声認識装置では、実時間性に欠けるという問題がある。
【0010】
また、上記特開平11‐175090号公報のごとく、話者クラスタリングを用いた音声認識のアプローチも盛んに試みられているが、大きな性能改善は達成できていない。不特定話者(SI)音響モデル(すなわち男女共通の音響モデル)をベースラインとすると、男女別(GD)音響モデルは最もシンプルながら性能向上量が最も大きい。しかしながら、話者クラスタによって更なる細分化(クラスタ化)を行っても効果は薄いという報告がなされており、その場合における単語誤り率(WER: Word Error Rate)の削減は10%〜20%程度に留まっている。これは、話者間の距離を定義する適当な尺度がないために上手くクラスタリングできなかったり、クラスタを増やすと1つのクラスタ当りの学習話者数が少なくなってロバスト性に欠けたりするためである。
【0011】
さらに、何れの音響モデルの場合も、各話者クラスタの境界領域では学習サンプルが希薄だったり段差ができたりしているため上手く学習されていない。したがって、入力話者が各クラスタの境界付近に位置する場合には、認識率が劣化するという問題(所謂、hard decision問題)が生ずることになる。尚、個々の学習話者の音響モデル間の距離でクラスタリングを行った場合は、クラスタを木構造にし、入力話者が二つのクラスタの境界付近に位置する場合は上記2つのクラスタの上位ノードのクラスタの音響モデルを採用する方法もある。しかしながら、この方法の場合には、二つのクラスタの境界付近に位置する入力話者に対しては上位ノードの音響モデルを使用するためによりブロードな音響モデルとなってしまい、高い認識率は得にくいのである。
【0012】
ところで、上記ML‐VTLN法に基づいて話者をクラスタリングする場合には、以下のような問題がある。
・真の声道長伸縮係数αの値を求めるのは困難である。上記真の声道長伸縮係数α値を求めるには各話者についてMRI装置で実測しなければならない。しかしながら、既に構築済みの学習用音声データベースがあり、直ちにはそのデータベースを活用するしかない場合や、上記MRI装置を利用し難い環境下にある場合には、音声波形から声道長伸縮係数αの値を自動推定する必要がある。したがって、自動推定する限りにおいてはどうしても推定誤差の問題が付きまとうことになる。
・例え、上記MRI装置で測定した実測値をもってしても、発声の仕方の影響があるために、適切な声道長伸縮係数αの値が得られるとは限らない。
【0013】
一方、上記GMMに基づいて話者をクラスタリングする場合には、一般に以下のような課題がある。
・初期値をランダムにして全自動でクラスタリングし、その後はHMMの学習アルゴリズムに頼っている。しかしながら、音声データは多数の要因が絡み合って複雑な構造を成しているために、このような方法の場合には、音声の微細な特徴を捉えてクラスタリングする危険性がある。
・上記GMM間の距離の物理的意味が不明である。つまり、距離の大小が音響的に何に対応しているのかが分からないために、周波数伸縮による話者正規化は適用できない。
・クラスタ化による学習データの減少を補う目的で近傍クラスタの学習データを編入させる場合に上記GMM間の距離を用いると、話者の特徴空間上、様々な方向に位置する話者データを編入するになる。その結果、ぼやけた分布になってしまい、精密な話者特徴を抽出できなくなる。したがって、このようにしてできたGMMを基に学習されたHMMに対しても精度の劣化を招くと言う問題がある。
【0014】
以上のごとく、上記話者適応(話者正規化)においては少ない発声データから音響モデルを精度良く適応できないため、誤り率を半減させるためには数十単語以上の発声データが必要となり、学習話者に負担を強いることになるという問題がある。また、音声合成における声質変換の場合にも、同様に少ない発声データからは精度良く声質が得られないという問題がある。
【0015】
そこで、この発明の目的は、より少ない発声データから精度良く話者特徴を抽出できる話者特徴抽出装置および話者特徴抽出方法、その抽出方法を用いた音声認識装置、並びに、話者特徴抽出処理プログラムを記録したプログラム記録媒体を提供することにある。
【0016】
【課題を解決するための手段】
上記目的を達成するため、第1の発明は、
入力話者の音声に基づいて,標準話者の音声と上記入力話者の音声との関係を表わすパラメータを話者特徴として抽出する話者特徴抽出装置において、
各学習話者に関して、上記標準話者に対する声道長の伸縮係数αを所定の方法によって予め求め、この求められた伸縮係数αの値に基づいて上記学習話者をクラスタリングする学習話者クラスタリング手段と、
上記クラスタリングされた各クラスタに属する話者集合毎に、学習によってGMMを生成する音響モデル生成手段と、
上記生成されたGMMの群を格納する音響モデル格納部と、
上記学習話者クラスタリング手段によってクラスタリングされた各クラスタのうちの注目クラスタに隣接する隣接クラスタに属する学習話者の音声サンプル、または、上記注目クラスタと上記伸縮係数α値の差が所定値以内の近傍クラスタに属する学習話者の音声サンプルに対して、上記注目クラスタと隣接クラスタまたは近傍クラスタとの上記伸縮係数α値に基づいて周波数伸縮を行うことによって、上記注目クラスタに属する音声サンプルを生成し、この生成された音声サンプルを上記注目クラスタに編入して当該クラスタの音 声サンプル数を豊富化する操作を、上記学習話者クラスタリング手段によってクラスタリングされた総てのクラスタについて実行する音声サンプル豊富化手段
を備えて、
上記音響モデル生成手段は、上記音声サンプル豊富化手段によって音声サンプル数が豊富化された後の各クラスタ毎に、上記GMMを生成するようになってい
ことを特徴としている。
【0017】
上記構成によれば、学習話者をクラスタリングするに際して、先ず、各学習話者を標準話者に対する声道長の伸縮係数αに基づいてクラスタリングし、各クラスタに属する話者集合毎にGMMを生成するようにしている。こうして、各クラスタの初期値として声道長という大局的な特徴を明示的に与えることによって、各クラスタ間の距離の物理的意味が明確になり、効率よくクラスタリングが行われる。
【0018】
たがって、上述のようにして得られた話者クラスタ毎にGMMが格納された音響モデル格納部を用いて、入力話者の音声サンプルに対して最大尤度を呈するGMMを選択することによって、発話内容に因らずに精度良く入力話者の特徴が抽出される。
【0019】
さらに、上記学習話者のクラスタリングに際して、ある注目クラスタの隣接クラスタまたは近傍クラスタに属する話者の音声サンプルに対して周波数伸縮が行われ、上記注目クラスタに属する音声サンプルが生成されて注目クラスタに編入される。こうして、学習データ不足が補われて、少ない発声データからでも各クラスタの音響モデルが精密に構築される。
【0020】
また、1実施例では、
上記第1の発明の話者特徴抽出装置において、
上記注目クラスタに属する音声サンプルを生成する際に、上記音声サンプル豊富化手段が上記学習話者の音声サンプルに対して周波数伸縮を行う音声区間を、有音・無音の別および調音点に基づいて限定するようにしている。
【0021】
この実施例によれば、上記音声サンプル豊富化手段によって、上記隣接クラスタや近傍クラスタの音声サンプルから注目クラスタに属する音声サンプルを生成する際に、上記音声サンプルに対して周波数伸縮を行う音声区間が有音・無音の別および調音点に基づいて限定される。したがって、声道長の差の影響を受け難い音素や無音部を上記周波数軸伸縮の対象外にして、声道長の差の影響を受け難い音素や無音部まで変形されることが防止される。
【0022】
また、1実施例では、
上記第1の発明の話者特徴抽出装置において、
上記生成されたGMMの夫々に対する上記学習話者の音声サンプルの尤度を算出し、その尤度に基づいて上記学習話者を再クラスタリングする再クラスタリング手段をさらに備えて、
上記再クラスタリング手段によって上記学習話者を再クラスタリングする場合に、上記再クラスタリングの対象となる対象学習話者が再クラスタリングの前に属していたクラスタの伸縮係数αと再クラスタリング後に属するクラスタの伸縮係数αとが所定値以上離れている場合には、当該対象学習話者を上記再クラスタリングの対象から外すようになっている。
【0023】
この実施例によれば、再クラスタリングの対象となる学習話者が再クラスタリングの前後に属しているクラスタの伸縮係数αが所定値以上離れている場合は、当該対象学習話者を上記再クラスタリングの対象から外すことによって、声道長伸縮係数αが極端に異なる話者同士が同じクラスタに属することが防止される。
【0024】
また、1実施例では、
上記第1の発明の話者特徴抽出装置において、
上記生成されたGMMの夫々に対する上記学習話者の音声サンプルの尤度を算出し、その尤度に基づいて上記学習話者を再クラスタリングする再クラスタリング手段と、
上記音響モデル生成手段と再クラスタリング手段とを制御して、所定の条件を満たすまで、上記GMMの生成と上記学習話者の再クラスタリングとを繰り返すループ学習手段と、
上記ループ学習手段によって最終的にクラスタリングされた各クラスタに属する学習話者を更にクラスタリングしてサブクラスタを生成し、上記各サブクラスタに属する話者集合毎に学習によってGMMを生成するサブクラスタ生成手段
を備えて、
上記音響モデル格納部は、上記サブクラスタ生成手段によって生成されたGMMの群を、各サブクラスタの伸縮係数αに対応付けて格納するようになっている。
【0025】
この実施例によれば、上記ループ学習手段によって最終的にクラスタリングされた各クラスタがさらにクラスタリングされてサブクラスタが生成される。このサブクラスタは声道長以外の要因にも対応することができ、より精密な話者特徴が抽出される。
【0026】
た、第2の発明は、
音響モデルとしてHMMを用い、入力話者の音声に基づいて抽出された標準話者の音声と上記入力話者の音声との関係を表わすパラメータを話者特徴として上記入力話者の音声を認識する音声認識装置であって、
上記第1の発明の話者特徴抽出装置と、
上記話者特徴抽出装置の音響モデル格納部に格納された各GMMによって表わされる話者クラスタに属する話者集合毎に、学習によって生成されたHMMの群を格納するHMM格納部と、
上記話者特徴抽出装置によって選択されたクラスタに基づいて、上記HMM格納部に格納されている上記選択されたクラスタに対応するクラスタのHMMを音声認識用の音響モデルとして切り換え選出する切換部
を備えたことを特徴としている。
【0027】
上記構成によれば、上記第1の発明の話者特徴抽出装置の音響モデル格納部における話者クラスタ毎に生成されたHMMの群が格納されたHMM格納部から、切換部によって、上記話者特徴抽出装置で選択された話者クラスタのHMMが音声認識用の音響モデルとして切り換え選出される。こうして、発話内容に拘らずに少ない音声データで、上記入力話者の特徴を精度良く表わすHMMを用いて、入力話者の音声が正確に認識される。
【0028】
また、第3の発明は、
音響モデルとしてHMMを用い、入力話者の音声に基づいて抽出された標準話者の音声と上記入力話者の音声との関係を表すパラメータを話者特徴として上記入力話者の音声を認識する音声認識装置であって、
上記第1の発明に係る音響モデル格納部に格納された各GMMによって表わされる話者クラスタに属する話者集合毎に、学習によって生成されたHMMの群を格納するHMM格納部と、
上記HMM格納部に格納されたHMMの夫々に対する入力話者の音声サンプルの尤度を算出し、最大の尤度を呈するHMMを音声認識用の音響モデルとして切り換え選出する切換部
を備えたことを特徴としている。
【0029】
上記構成によれば、上記第1の発明に係る音響モデル格納部の話者クラスタ毎に生成されたHMMの群が格納されたHMM格納部を用いて、切換部によって、最大の尤度を呈するHMMが音声認識用の音響モデルとして切り換え選出される。こうして、発話内容に拘らずに少ない音声データで、上記入力話者の特徴を精度良く表わすHMMを用いて、入力話者の音声が正確に認識される。
【0030】
また、第4の発明は、
声道長の伸縮関数αを用いて入力音声のスペクトルの周波数軸を伸縮することによって入力話者の音響特徴量を標準話者の音響特徴量に正規化する話者正規化手段を有する音声認識装置において、
上記話者正規化手段は、
入力話者の音声に基づいて、標準話者の音声と上記入力話者の音声との関係を表わすパラメータを話者特徴として抽出する話者特徴抽出装置において、
各学習話者に関して、上記標準話者に対する声道長の伸縮係数αを所定の方法によって予め求め、この求められた伸縮係数αの値に基づいて上記学習話者をクラスタリングする学習話者クラスタリング手段と、
上記クラスタリングされた各クラスタに属する話者集合毎に、学習によってGMMを生成する音響モデル生成手段と、
上記生成されたGMMの夫々に対する上記学習話者の音声サンプルの尤度を算出し、その尤度に基づいて上記学習話者を再クラスタリングする再クラスタリング手段と、
上記音響モデル生成手段と再クラスタリング手段とを制御して、所定の条件を満たすまで、上記GMMの生成と上記学習話者の再クラスタリングとを繰り返すループ学習手段と、
上記ループ学習手段によって最終的に生成されたGMMの群を格納する音響モデル格納部と、
上記音響モデル格納部に格納されたGMMの夫々に対する入力話者の音声サンプルの尤度を算出し、最大の尤度を呈するGMMを入力話者が属するクラスタの情報として選択する話者クラスタ選択部を備えて、
上記入力話者の特徴として上記最大の尤度を呈するGMMを抽出することを特徴とする話者特徴抽出装置と、
上記入力話者の音声サンプルに基づいて、上記話者特徴抽出装置によって選択されたGMMに対応する声道長の伸縮係数αを用いて、上記入力音声のスペクトルの周波数軸を伸縮する周波数ワープ手段
で構成されていることを特徴としている。
【0031】
上記構成によれば、入力話者の音声サンプルに基づいて上記話者特徴抽出装置によって選択されたGMMに対応する声道長の伸縮係数αを用いて、周波数ワープ手段によって上記入力音声のスペクトルの周波数軸が伸縮されて、上記入力話者の音響特徴量が標準話者の音響特徴量に正規化される。こうして、発話内容に拘らずに少ない音声データで、上記入力話者の特徴を精度良く表わす声道長の伸縮係数αを用いて、より標準話者の音響特徴量に近づくように話者正規化が行われる。その結果、高い音声認識率が得られる。
【0032】
また、第5の発明は、
声道長の伸縮関数αを用いて入力音声のスペクトルの周波数軸を伸縮することによって入力話者の音響特徴量を標準話者の音響特徴量に正規化する話者正規化手段を有する音声認識装置において、
上記話者正規化手段は、
入力話者の音声に基づいて、標準話者の音声と上記入力話者の音声との関係を表わすパラメータを話者特徴として抽出する話者特徴抽出装置において、
上記標準話者に対する声道長の伸縮係数αの値に基づいて学習話者をクラスタリングし、各クラスタに属する話者集合毎にGMMを生成し、この生成されたGMMの夫々に対する上記学習話者の音声サンプルの尤度に基づいて上記学習話者を再クラスタリングし、上記GMMの生成と上記学習話者の再クラスタリングとを所定の条件を満たすまで繰り返して最終的に生成されたGMMの群が格納された音響モデル格納部と、
上記音響モデル格納部に格納されたGMMの夫々に対する入力話者の音声サンプルの尤度を算出し、最大の尤度を呈するGMMを入力話者が属するクラスタの情報として選択する話者クラスタ選択部を備えて、
上記入力話者の特徴として上記最大の尤度を呈するGMMを抽出することを特徴とする話者特徴抽出装置と、
上記入力話者の音声サンプルに基づいて、上記話者特徴抽出装置によって選択されたGMMに対応する声道長の伸縮係数αを用いて、上記入力音声のスペクトルの周波数軸を伸縮する周波数ワープ手段
で構成されていることを特徴としている。
【0033】
上記構成によれば、入力話者の音声サンプルに基づいて上記話者特徴抽出装置によって選択されたGMMに対応する声道長の伸縮係数αを用いて、周波数ワープ手段によって上記入力音声のスペクトルの周波数軸が伸縮されて、上記入力話者の音響特徴量が標準話者の音響特徴量に正規化される。こうして、発話内容に拘らずに少ない音声データで、上記入力話者の特徴を精度良く表わす声道長の伸縮係数αを用いて、より標準話者の音響特徴量に近づくように話者正規化が行われる。その結果、高い音声認識率が得られる。
【0034】
また、第6の発明は、
声道長の伸縮関数αを用いて音声のスペクトルの周波数軸を伸縮することによって、音響モデルを入力話者に話者適応させる話者適応手段を有する音声認識装置において、
上記話者適応手段は、
入力話者の音声に基づいて、標準話者の音声と上記入力話者の音声との関係を表わすパラメータを話者特徴として抽出する話者特徴抽出装置において、
各学習話者に関して、上記標準話者に対する声道長の伸縮係数αを所定の方法によって予め求め、この求められた伸縮係数αの値に基づいて上記学習話者をクラスタリングする学習話者クラスタリング手段と、
上記クラスタリングされた各クラスタに属する話者集合毎に、学習によってGMMを生成する音響モデル生成手段と、
上記生成されたGMMの夫々に対する上記学習話者の音声サンプルの尤度を算出し、その尤度に基づいて上記学習話者を再クラスタリングする再クラスタリング手段と、
上記音響モデル生成手段と再クラスタリング手段とを制御して、所定の条件を満たすまで、上記GMMの生成と上記学習話者の再クラスタリングとを繰り返すループ学習手段と、
上記ループ学習手段によって最終的に生成されたGMMの群を格納する音響モデル格納部と、
上記音響モデル格納部に格納されたGMMの夫々に対する入力話者の音声サンプルの尤度を算出し、最大の尤度を呈するGMMを入力話者が属するクラスタの情報として選択する話者クラスタ選択部を備えて、
上記入力話者の特徴として上記最大の尤度を呈するGMMを抽出することを特徴とする話者特徴抽出装置と、
上記入力話者の音声サンプルに基づいて、上記話者特徴抽出装置によって選択されたGMMに対応する声道長の伸縮係数αの逆数を用いて、上記音響モデルのスペクトルの周波数軸を伸縮する周波数ワープ手段
で構成されていることを特徴としている。
【0035】
上記構成によれば、入力話者の音声サンプルに基づいて、上記話者特徴抽出装置によって選択されたGMMに対応する声道長の伸縮係数αの逆数を用いて、周波数ワープ手段によって音響モデルのスペクトルの周波数軸が伸縮されて上記音響モデルが入力話者に話者適応される。こうして、発話内容に拘らずに少ない音声データで、上記入力話者の特徴を精度良く表わす声道長の伸縮係数αの逆数を用いて、より入力話者の音響特徴量に近づくように話者適応が行われる。その結果、高い音声認識率が得られる。
【0036】
また、第7の発明は、
声道長の伸縮関数αを用いて音声のスペクトルの周波数軸を伸縮することによって、音響モデルを入力話者に話者適応させる話者適応手段を有する音声認識装置において、
上記話者適応手段は、
入力話者の音声に基づいて、標準話者の音声と上記入力話者の音声との関係を表わすパラメータを話者特徴として抽出する話者特徴抽出装置において、
上記標準話者に対する声道長の伸縮係数αの値に基づいて学習話者をクラスタリングし、各クラスタに属する話者集合毎にGMMを生成し、この生成されたGMMの夫々に対する上記学習話者の音声サンプルの尤度に基づいて上記学習話者を再クラスタリングし、上記GMMの生成と上記学習話者の再クラスタリングとを所定の条件を満たすまで繰り返して最終的に生成されたGMMの群が格納された音響モデル格納部と、
上記音響モデル格納部に格納されたGMMの夫々に対する入力話者の音声サンプルの尤度を算出し、最大の尤度を呈するGMMを入力話者が属するクラスタの情報として選択する話者クラスタ選択部を備えて、
上記入力話者の特徴として上記最大の尤度を呈するGMMを抽出することを特徴とする話者特徴抽出装置と、
上記入力話者の音声サンプルに基づいて、上記話者特徴抽出装置によって選択されたGMMに対応する声道長の伸縮係数αの逆数を用いて、上記音響モデルのスペクトルの周波数軸を伸縮する周波数ワープ手段
で構成されていることを特徴としている。
【0037】
上記構成によれば、入力話者の音声サンプルに基づいて、上記話者特徴抽出装置によって選択されたGMMに対応する声道長の伸縮係数αの逆数を用いて、周波数ワープ手段によって音響モデルのスペクトルの周波数軸が伸縮されて上記音響モデルが入力話者に話者適応される。こうして、発話内容に拘らずに少ない音声データで、上記入力話者の特徴を精度良く表わす声道長の伸縮係数αの逆数を用いて、より入力話者の音響特徴量に近づくように話者適応が行われる。その結果、高い音声認識率が得られる。
【0038】
また、第8の発明は、
入力話者の音声に基づいて、標準話者の音声と上記入力話者の音声との関係を表すパラメータを話者特徴として抽出する話者特徴抽出方法であって、
各学習話者に関して、学習話者クラスタリング手段によって、上記標準話者に対する声道長の伸縮係数αを所定の方法によって予め求め、この求められた伸縮係数αの値に基づいて上記学習話者をクラスタリングし、
音響モデル生成手段によって、上記クラスタリングされた各クラスタに属する話者集合毎に、学習によってGMMを生成し、
上記生成されたGMMの群を音響モデル格納部に格納し、
音声サンプル豊富化手段によって、上記クラスタリングされた各クラスタのうちの注目クラスタに隣接する隣接クラスタに属する学習話者の音声サンプル、または、上記注目クラスタと上記伸縮係数α値の差が所定値以内の近傍クラスタに属する学習話者の音声サンプルに対して、上記注目クラスタと隣接クラスタまたは近傍クラスタとの上記伸縮係数α値に基づいて周波数伸縮を行うことによって、上記注目クラスタに属する音声サンプルを生成し、この生成された音声サンプルを上記注目クラスタに編入して当該クラスタの音声 サンプル数を豊富化する操作を、上記学習話者クラスタリング手段によってクラスタリングされた総てのクラスタについて実行し、
上記音響モデル生成手段は、上記音声サンプル数が豊富化された後の各クラスタ毎に、上記GMMを生成するようになっている
ことを特徴としている。
【0039】
上記構成によれば、上記第1の発明の場合と同様に、学習話者をクラスタリングする際に、各クラスタの初期値として声道長という大局的な特徴を明示的に与えることによって、各クラスタ間の距離の物理的意味が明確になり、効率よくクラスタリングが行われる。
【0040】
たがって、上述のようにして得られた話者クラスタ毎にGMMが格納された音響モデル格納部を用いて、入力話者の音声サンプルに対して最大尤度を呈するGMMを選択することによって、発話内容に因らずに精度良く入力話者の特徴が抽出される。
【0041】
さらに、上記学習話者のクラスタリングに際して、ある注目クラスタの隣接クラスタまたは近傍クラスタに属する話者の音声サンプルに対して周波数伸縮が行われ、上記注目クラスタに属する音声サンプルが生成されて注目クラスタに編入される。こうして、学習データ不足が補われて、少ない発声データからでも各クラスタの音響モデルが精密に構築される。
【0042】
また、第9の発明のプログラム記録媒体は、
コンピュータを、
上記第1の発明に係る学習話者クラスタリング手段,音響モデル生成手 , 響モデル格納部および音声サンプル豊富化手段
として機能させる話者特徴抽出処理プログラムが記録されていることを特徴としている。
【0043】
上記構成によれば、上記第1の発明の場合と同様に、発話内容に因らずに話者の特徴を良く表わす話者クラスタ毎にGMMが格納された音響モデル格納部を用いて、入力話者の音声サンプルに対して最大尤度を呈するGMMを選択することによって、発話内容に因らずに精度良く入力話者の特徴が抽出される。
【0044】
さらに、上記学習話者のクラスタリングに際して、ある注目クラスタの隣接クラスタまたは近傍クラスタに属する話者の音声サンプルに対して周波数伸縮が行われ、上記注目クラスタに属する音声サンプルが生成されて注目クラスタに編入される。こうして、学習データ不足が補われて、少ない発声データからでも各クラスタの音響モデルが精密に構築される。
【0045】
【発明の実施の形態】
以下、この発明を図示の実施の形態により詳細に説明する。
<第1実施の形態>
図1は、本実施の形態の音声認識装置におけるブロック図である。尚、この音声認識装置は、話者クラスタリング方式を用いた音声認識装置である。音声入力部1において、マイクから入力された音声はディジタル波形に変換されて音響分析部2に入力される。音響分析部2は、入力されたディジタル波形を短い時間間隔(フレーム)毎に周波数分析し、スペクトルを表す音響パラメータのベクトル系列に変換する。ここで、上記周波数分析には、MFCC(メル周波数FFT(高速フーリエ変換)ケプストラム)やLPC(線形予測分析)メルケプストラム等のスペクトルを効率よく表現できる方法が用いられる。こうして得られた音響パラメータ系列は、話者クラスタ選択部3及び尤度(音韻類似度)演算部4に送出される。
【0046】
上記話者クラスタ選択部3は、GMM格納部6と共に話者特徴抽出部11を構成し、以下のようにして話者特徴としてのクラスタ情報を生成する。すなわち、話者クラスタ選択部3は、入力された音響パラメータ系列にGMM格納部6に話者クラスタ別に格納されたn個のGMMの夫々を作用させて尤度を算出する。そして、算出されたn個の尤度のうちの最大値を与えるGMMのインデックス(i)(i=1,2,…,n)を、その入力話者に適合した話者クラスタ情報として出力する。ここで、上記GMMは、1状態からなる混合ガウス分布で表現される。
【0047】
切換部5は、話者クラスタ音響モデル格納部7に話者クラスタ別に格納された音響モデル(本実施の形態ではHMMを使用)の中から、話者クラスタ選択部3からのクラスタ情報に適合する話者クラスタの音響モデルを切り換え選択して尤度演算部4に送出する。そうすると、尤度演算部4は、音響分析部2からの入力音声の音響パラメータベクトルに対して切換部5からの音響モデルを作用させて、各音韻の状態毎に尤度を算出する。そして、得られた尤度系列を照合部8に送出する。
【0048】
上記照合部8は、上記尤度演算部4からの尤度系列に対して、言語モデル格納部9に登録された総ての言語モデル(単語)との照合を行ない、各単語のスコアを算出する。そして、上位のスコアを呈する単語を認識候補(認識結果)として出力部10から出力するのである。
【0049】
ここで、上記話者クラスタ選択の方法には、以下の[a]および[b]に示す2通りの方法がある。本実施の形態においては[a]の方法を用いている。
[a] GMM格納部6の利用
[b] 話者クラスタ音響モデル格納部7の利用
【0050】
上記[a]の方法は、各話者クラスタに対して1つのGMMを作成しておく。そして、入力音声に対して各GMMを作用させてGMM毎の尤度を算出し、最も大きい尤度を算出したGMMに対応する話者クラスタを選択するのである。その場合、入力音声の正解音素列をユーザが教える必要がなく、教師なしでクラスタが選択できる。すなわち、エンロールモードがないシステムにおいて有効なのである。
【0051】
また、上記[b]の方法は、上記話者クラスタの音響モデル自身の尤度を用いる方法である。入力音声に対して教師語彙が与えられ、各話者クラスタにおける教師語彙の音響モデルを用いて認識処理を行って、話者クラスタ毎の尤度を算出する。そして、最も大きい尤度を呈する話者クラスタを選択するのである。この選択方法は、エンロールモードにおいて入力音声の正解音素列をユーザが教えるという教師あり学習を基本としている。認識処理と同じ高精度な音響モデルを用いるので計算量は多くなるが、エンロールによって正確なクラスタ選択が可能となる。
【0052】
ここで、本実施の形態における話者クラスタ音響モデル格納部7は、学習話者のクラスタ数nに応じて、第1音響モデル格納部7a,第2音響モデル格納部7b,…,第n音響モデル格納部7nのn個の音響モデル格納部で構成されている。ここで、各音響モデル格納部7a〜7nに格納される各音響モデルは、混合ガウス分布型のHMMである。この発明においては、生理的な特徴の変動に対処可能にすることを目的としており、話者性の大局的な安定要因である声道長を初期値としたGMMをクラスタリング対象にするのである。
【0053】
尚、生理的な特徴の変動要因としては、上記声道長以外にも鼻腔,副鼻腔,声帯等の多くの要因があり、それらが絡み合って複雑な特徴を成している。したがって、個々の要因を数理的に扱うのは得策ではない。そこで、本実施の形態においては、各要因の複雑な特徴を混合ガウス分布型HMM(音響モデル)や、同一クラスタ内での複数のGMMによるサブクラスタで表現するのである。
【0054】
以下、上記GMM格納部6に格納されるGMM群の作成方法について詳細に説明する。本実施の形態におけるGMM群の作成方法は、下記の処理手順によって行われる。これらの処理はGMM学習部12によって、学習データ格納部13に格納された学習話者の音声データを用いて行われる。尚、記憶領域や処理量が膨大になるために、予めオフライン処理によって作成されている。作成されたGMM群は、通常はROM(リード・オンリ・メモリ)やフラッシュメモリやハードディスク等で構成されるGMM格納部6に格納される。尚、学習データ格納部13に格納された全学習話者の集合を男女別に2分割してもよい。その湯合には、男性用話者クラスタと女性用話者クラスタとの合計2種類のGMM群が生成されることになる。
【0055】
(1) 夫々の学習話者の音声データに所定の方法によって声道長伸縮係数αを与え、声道長伸縮係数αの値に応じて学習話者をN個にクラスタリングしておく。尚、GMMの初期モデルの混合数はMとする。
(2) あるクラスタCに隣接するクラスタに属する音声データ、または、あるクラスタCとの声道長伸縮係数αの値の差が所定値δ以内であるクラスタに属する音声データに対して、ある特定の区間を対象とした周波数伸縮を行うことによって上記クラスタCに属する音声データを生成する。そして、この生成された音声データをクラスタCに編入する。こうして、クラスタCの音声データを豊富化するのである。この豊富化処理を総てのクラスタについて行う。
(3) GMMパラメータを各クラスタ内の音声データからML(最尤)アルゴリズムにより推定することによって、各クラスタのGMMを作成する。
(4) 作成されたGMMに対する各学習話者の音声データのフレーム平均尤度を算出する。
(5) ある話者の音声データに対して最も高いフレーム平均尤度を与えるGMMのクラスタに、その話者を移動させる(編入する)。但し、そのクラスタの声道長伸縮係数α値に比べて、声道長伸縮係数α値が所定値ε以上離れている話者については、そのクラスタには編入しない。
(6) 移動させる話者がなくなるか、予め設定した最大の繰り返し回数になるまで(3)〜(5)の処理を繰り返す。
(7) 混合数を1つ増加して(3)〜(6)の処理を行う。
(8) 所望の混合数になるまで(3)〜(7)の処理を繰り返す。
(9) (1)〜(8)で得られた学習話者のクラスタ結果を基に、サブクラスタ化したGMMを作成する(オプション)。
【0056】
尚、上記GMM群の作成処理手順(1)における各学習話者に対する声道長伸縮係数αの付与は、ML‐VTLN法や、広母音の第2フォルマントの存在領域以下の領域を部分的に補正した非線形周波数ワーピング関数を用いたML法等によって与えられる。尚、声道長伸縮係数αの推定に際しては、後述する音声区間の分類を用いてもよい。また、MRI装置を利用できる等、各学習話者の声道長を実測できる環境にある場合には、実測されたαを用いてもよい。さらに、クラスタ数Nと混合数の初期値Mとは、学習データ量や声道長伸縮係数αの信頼性に依存するが、例えばN=12,M=20等とする。N=12とは、α軸上の区間(0.88,1.12)を0.02刻みに分割することに相当する。また、各クラスタの境界をオーバーラップするような分割を許してもよい。
【0057】
また、上記GMM群の作成処理手順(2)における音声データの変換の際には、線形周波数伸縮関数や、広母音の第2フォルマントの存在領域以下の領域を部分的に補正した折れ線周波数伸縮関数を用いる。以下、(2)の処理内容について詳しく述べる。あるクラスタCに隣接するクラスタ、または、あるクラスタCとの声道長伸縮係数αの値の差が所定値δ以内であるクラスタに属する話者の音声データに対して、声道長伸縮係数α値に基づいて周波数伸縮を行うことによって、クラスタCに属する音声データを生成するのである。例えば、α=1.05のクラスタDに属する音声データに基づいてα=1.03のクラスタCに属する音声データを生成する際には、周波数を0.98だけ伸縮する。そして、生成された学習話者の音声データをクラスタCに編入するのである。尚、生成前の音声データは元のクラスタDに属したままにしておく。但し、学習話者数および1話者当りのデータ量が多量にある場合は、この処理は省略しても差し支えない。逆に、学習話者数や1話者当りのデータ量が少ない場合には、上記所定値δを大きめ(例えばδ=0.05)に設定して編入させるデータを増やす。
【0058】
上記GMM群の作成処理手順(2)における音声データの変換の際に、周波数伸縮を行う対象となる音声区間の分類については後述する。尚、伸縮量が非常に小さい場合には全区間を周波数伸縮対象としてもよい。
【0059】
上記GMM群の作成処理手順(5)において、上記所定値εの値は、(1)で与えられた声道長伸縮係数αの信頼度に依存する。上記MRI装置によって実測した場合のように声道長伸縮係数αの信頼度が高い場合は移動を禁止してもよいし、所定値εを小さい値に設定してもよい(例えばε=0.02)。逆に、声道長伸縮係数αの信頼度が低い場合には、所定値εの値を大きくする(例えばε=0.04)。ところで、上記移動の際に、通常は周波数伸縮(αの値を書き換えることに相当)を行わない。但し、所定値εの値を大きめに設定した場合には周波数伸縮を行ってもよい。
【0060】
上記GMM群の作成処理手順(9)におけるサブクラスタ化はオプションであり、処理方法は後述する。
【0061】
次に、上記GMM群の作成処理手順(1)における声道長伸縮係数αの推定や、(2)における周波数伸縮の際に、対象とする音声区間の分類について説明する。上述の例において、クラスタDに属している音声データをクラスクCに変換すると言うことはクラスタCに正規化していることを意味しているので、ここでは、(2)の周波数伸縮を単に正規化と呼ぶことにする。先ず、入力話者の音声データに、不特定話者用音響モデルまたは選択された話者クラスタ音響モデルまたは特定話者音響モデルから選択されたものを用いたビタビアルゴリズムによって、音素境界情報を求めておく。
【0062】
次に、その境界情報に基づいて、上記音声データのうち推定/正規化処理の対象となる区間を制御するのである。本実施の形態においては、この推定/正規化処理の対象となる区間を、表1に示す5種類に分類する。
表1
Figure 0003919475
【0063】
そして、この分類に基づいて、以下のような区別に従って、推定/正規化時におけるGMM学習部12の処理を制御するのである。
・上記GMM群の作成処理手順(1)における
声道長伸縮係数αの初期値推定時…分類[d]
・上記GMM群の作成処理手順(2)における
正規化時…分類[c],分類[d],分類[e],(分類[b])
但し、上記正規化時には分類[b]を含めてもよい。発音の仕方によっては、音素「イ」も音素「ウ」と同様に狭母音なのでフォルマント周波数が大きく変動する場合がある。したがって、分類[e]に音素「イ」を含め、分類[d]から音素「イ」を除いてもよい。
【0064】
次に、上記GMM群の作成処理手順(9)におけるサブクラスタの作成方法について説明する。サブクラスタの作成は、上記GMM群の作成処理手順(1)〜(8)によって得られた総てのクラスタに対して、下記の処理手順を繰り返すことによって行う。
【0065】
A)クラスタ内の学習話者をランダムにL個に分割する。すなわち、L個のサブクラスタを与えるのである。但し、GMM初期モデルの混合数は1とする。
B)GMMパラメータを各サブクラスタ内の音声データからMLアルゴリズムにより推定することによって、各サブクラスタのGMMを作成する。
C)作成されたGMMに対する各学習話者の音声データのフレーム平均尤度を算出する。
D)ある話者の音声データに対して最も高いフレーム平均尤度を与えるGMMのサブクラスタに、その話者を移動させる。
E)移動させる話者がなくなるか、予め設定した最大の繰り返し回数になるまでB)〜D)の処理を繰り返す。
F)混合数を1つ増加してB)〜E)の処理を行う。
G)所望の混合数になるまでB)〜F)の処理を繰り返す。
【0066】
上記サブクラスタの作成処理手順A)におけるサブクラスタ数Lの値は、クラスタ内の学習話者数及び1話者当りのデータ量に依存するが、通常2〜10の間に設定する。クラスタによってサブクラスタ数Lの値を変えてもよい。例えば、分布の中心であるα=1.0付近のクラスタは話者数が多いためL=5とする。一方、分布の周辺であるα=0.9付近やα=1.1付近のクラスタは話者数が少ないためL=2等にするのである。また、上記サブクラスタの作成処理手順G)における所望の混合数も、サブクラスタ内の学習話者数および1話者当りのデータ量に依存させてもよい。
【0067】
尚、本実施の形態における話者クラスタリングの場合や第2実施の形態における話者正規化の場合でのαは、入力音声から標準音声への正規化係数である。これに対して、第3実施の形態における話者適応の場合でのαは、標準音声から入力音声への写像係数である。このように、両者は裏表の関係であるため、αの値は逆数の関係になる。
【0068】
次に、上記話者クラスタ音響モデル格納部7に格納されるHMM群の作成方法について説明する。上記GMM作成時においてクラスタリングされた話者クラスタ毎にMLアルゴリズムを用いて学習することによって、混合ガウス分布型のHMMが作成される。尚、上記GMM群の作成処理手順(9)においてサブクラスタ化が行われている場合には、サブクラスタ毎に、同様の手法によって混合ガウス分布型のHMMが作成される。これらの処理はHMM学習部14で行われるのであるが、記憶領域や処理量が膨大になるため予めオフライン処理によって作成されている。そして、作成されたHMM群は、通常はROMやフラッシュメモリやハードディスク等で構成される話者クラスタ音響モデル格納部7に格納される。
【0069】
上記構成において、入力音声の認識時には以下のように動作する。先ず、話者クラスタ選択部3によって、上述のようにして最適な話者クラスタが選択され、クラスタ情報(i)が切換部5に送出される。次に、尤度演算部4によって、上記切換部5で切り換え選択された話者クラスタの音響モデルを用いて尤度演算が行われ、得られた尤度系列が照合部8に送出される。そして、照合部8によって、ビタビサーチ等の探索アルゴリズムが用いられて言語モデル格納部9の言語モデルとの照合が行われ、各単語のスコアが算出される。尚、本実施の形態においては、照合部8による照合処理の前段処理が訴求点であるから、照合部8に関する詳細な説明は省略する。
【0070】
上述したように、上記GMMは1状態の混合ガウス分布で表現される音響モデルであって、発話内容に因らずに入力音声に声質の近いGMMが大きい値を出力するように設計されており、話者の特徴を表わすには好適である。ところが、GMM間の距離の物理的意味が不明であるため、GMM間の距離でクラスタ化を行った場合にはぼやけた分布になってしまい、精密な話者特徴を抽出できないという問題がある。
【0071】
そこで、本実施の形態においては、GMM学習部12で学習話者をクラスタリングするに際して、先ず、学習データ格納部13に格納された各学習話者の音声データに、声道長正規化手法によって求められた声道長伸縮(正規化)係数αの値を与える。そして、この声道長伸縮係数αに基づいて学習話者をクラスタリングし、各クラスタに属する話者集合毎に所定の学習方法によって1状態の混合ガウス分布型音響モデルであるGMMを生成する。そして、次に、このGMM群を用いてループ学習を行って、学習話者をクラスタリングし直すのである。
【0072】
音声データは多数な要因がからみあって複雑な構造を成しているので、GMM間の距離でクラスタ化を行った場合には音声の微細な特徴を捉えてクラスタリングしてしまう危険性がある。そこで、上述のように、声道長という大局的な特徴を明示的に与えることによって、距離の物理的意味が明確になって、以後の学習をスムーズに実行でき、より効率よくクラスタリングできるのである。さらに、各クラスタのGMMを生成し、このGMM群を用いて学習話者をクラスタリングし直すようにしている。したがって、発話内容に因らずに話者の特徴を良く表わすクラスタを得ることができ、声道長伸縮係数αの抽出誤りも修復できるのである。
【0073】
また、上記学習話者のクラスタリングに際して、あるクラスタCとの声道長伸縮係数αの差がδ以内である近傍のクラスタDに属する話者の音声データに基づいて、声道長正規化手法によって上記クラスタCに属する音声データを生成するようにしている。したがって、話者をクラスタリングする際における学習データ不足を補うことができ、各話者クラスタの音響モデルを精密に構築できるのである。このことは、音声認識時におけるクラスタの選択(声道長の推定)をより正確に且つ安定して行うことができ、認識率の向上につながる。また、分布の周辺に位置する話者の認識率を向上させることができる。
【0074】
また、上述のようにして上記声道長に基づいて求められた1つの話者クラスタを複数のサブクラスタに分割し、夫々のサブクラスタのGMMを生成してこれを話者特徴とする。こうして、生成されたサブクラスタは声道長以外の要因にも対応することができるので、上記サブクラスタを用いることによってより精密な話者特徴を抽出することができるのである。
【0075】
したがって、上述のようにしてクラスタリングされた話者クラスタ毎に作成されたHMM群を用いて入力音声を認識することによって、高い認識率を得ることができるのである。
【0076】
尚、上記実施の形態においては、上記話者クラスタ選択部3によって最適な話者クラスタを一つ選択するようにしているが、最適な話者クラスタを含む上位複数の話者クラスタを選択するようにしてもよい。例えば、尤度の上位からk個の話者クラスタを選択するとする。そうすると、切換部5によって切り換え選択されたk個の音響モデルの夫々に関して、尤度演算部4によって尤度演算が行われて、照合部8にk個の尤度系列が送られることになる。したがって、照合部8では、夫々の尤度系列に関して照合処理が行なわれ、最も大きい尤度を呈する単語/単語列が認識結果となるのである。
【0077】
また、音声認識装置のハードウェア規模が大きく、計算量が許すのであれば、話者クラスタ選択部3による話者クラスタ選択を行なわず、尤度演算部において総ての話者クラスタの音響モデルを用いて尤度演算処理を実行するようにしてもよい。この場合、各音響モデルを適用して得られた尤度が最大値を呈する単語/単語列が認識結果となる。
【0078】
<第2実施の形態>
図2は、本実施の形態の音声認識装置におけるブロック図である。尚、この音声認識装置は、話者正規化方式を用いた音声認識装置であり、話者正規化部26を有している。音声入力部21,音響分析部22,尤度演算部24,照合部28,言語モデル格納部29および出力部30は、図1に示す上記第1実施の形態における音声入力部1,音響分析部2,尤度演算部4,照合部8,辞書格納部9および出力部10と同様である。
【0079】
上記話者正規化部26は、話者特徴抽出部25と周波数ワープ部23とから構成される。話者特徴抽出部25は、図1に示す上記第1実施の形態における話者特徴抽出部11と同様であり、入力された音響パラメータ系列に対して最大値を与えるGMMのクラスタ情報をGMM格納部(図示せず)から抽出して話者特徴とする。そして、得られたクラスタ情報から周波数伸縮係数αを得、周波数ワープ部23に送出する。
【0080】
そうすると、上記周波数ワープ部23は、この周波数伸縮係数αを係数とする線形周波数ワーピング関数を用いて、入力音声の音声パラメータ系列を周波数ワープ(話者正規化)し、周波数ワープ後の音響パラメータ系列を尤度演算部24に送出するのである。そして、上記尤度演算部24では、周波数ワープされた音響パラメータ系列に対して、正規化不特定話者音響モデル格納部27に格納された不特定話者モデル(HMM)を作用させて、各音韻の状態毎に尤度を算出するのである。
【0081】
ここで、上記正規化不特定話者音響モデル格納部27に格納される不特定話者モデルは、総ての学習話者を周波数伸縮によってα=1となるように正規化してから通常のHMM学習を行って作成される。尚、学習話者が多量に存在する場合には、全学習話者のうち、α=1の話者およびその周辺の話者を正規化して学習の対象としてもよい。
【0082】
上記第1実施の形態におけるGMM群作成時における話者クラスタリングの場合と同様に、音声認識時における話者正規化部26による話者正規化と、正規化不特定話者音響モデル格納部27に格納される不特定話者モデルの学習との場合にも、表1に示す推定/正規化処理の対象となる音素の分類に従って、以下のように正規化対象とする音声区間を限定してもよい。
・音声認識時における話者正規化時…[c],[d],[e],([b])
・不特定話者モデルの学習時…[c],[d],[e],([b])
【0083】
上述のように、本実施の形態においては、上記話者正規化部26によって入力話者を正規化する際に、話者特徴抽出部25によって、上記第1実施の形態における話者特徴抽出部11の場合と同様にして、GMM格納部に各話者クラスタ毎に格納されたGMMを入力音響パラメータ系列に作用させて、最大尤度を与えるGMMのインデックス(係数α)をクラスタ情報として求める。そして、周波数ワープ部23によって、上記クラスタ情報(係数α)を係数とする線形周波数ワーピング関数を用いて入力音声の音響パラメータ系列を周波数ワープすることによって、話者正規化するようにしている。
【0084】
その場合、上記話者特徴抽出部25が用いるGMM格納部には、上記第1実施の形態におけるGMM格納部6の場合と同様に、各学習話者の音声データを声道長伸縮係数αに基づいてクラスタリングし、あるクラスタCの近傍のクラスタDに属する話者の音声データに基づいて上記クラスタCに属する音声データを生成し、各クラスタのGMMを用いて学習話者をクラスタリングし直したものが格納されている。したがって、話者特徴抽出部25は、少ない学習データから、発話内容に因らずに話者の特徴を良く表わすクラスタ情報を得ることができる。その結果、高い認識率を得ることができるのである。
【0085】
<第3実施の形態>
図3は、本実施の形態の音声認識装置におけるブロック図である。尚、この音声認識装置は、話者適応方式を用いた音声認識装置であり、話者適応部36を有している。音声入力部31,音響分析部32,尤度演算部37,照合部39,言語モデル格納部40および出力部41は、図1に示す上記第1実施の形態における音声入力部1,音響分析部2,尤度演算部4,照合部8,言語モデル格納部9および出力部10と同様である。また、話者特徴抽出部33は、図2に示す上記第2実施の形態における話者特徴抽出部25と同様である。
【0086】
上記話者適応部36は、上記話者特徴抽出部33と周波数ワープ部34とから構成される。話者特徴抽出部33は、上記第2実施の形態の場合と同様にして、入力された音響パラメータ系列に対して最大値を与えるGMMのクラスタ情報をGMM格納部(図示せず)から抽出して話者特徴とする。そして、得られたクラスタ情報から周波数伸縮係数αを得、周波数ワープ部34に送出する。
【0087】
そうすると、上記周波数ワープ部34は、この得られた周波数伸縮係数αの逆数を係数とする線形周波数ワーピング関数を用いて、正規化不特定話者音響モデル格納部35に格納された不特定話者モデルを周波数ワープする。その場合の周波数ワープに際しては、上記第1実施の形態におけるGMM群作成時における話者クラスタリングの場合と同様に、表1に示す正規化処理の対象となる音素の分類に従って、以下のように適応化対象とする音声区間を限定するのである。
・音声認識時における周波数ワープ時…[b],[c],[d],[e]
但し、声道長の影響を受け難い[b]は変換しなくてもよい。
【0088】
こうして周波数ワープされた不特定話者音響モデルは、話者適応モデル(HMM)として話者適応音響モデル格納部38に格納される。そうすると、尤度演算部37は、音響分析部32からの入力音声の音響パラメータ系列に対して、話者適応音響モデル格納部38に格納された話者適応モデルを作用させて、上述した尤度演算処理を行なうのである。
【0089】
その場合、上記話者特徴抽出部33が用いるGMM格納部には、上記第1実施の形態におけるGMM格納部6の場合と同様に、各学習話者の音声データを声道長伸縮係数αに基づいてクラスタリングし、あるクラスタCの近傍のクラスタDに属する話者の音声データに基づいて上記クラスタCに属する音声データを生成し、各クラスタのGMMを用いて学習話者をクラスタリングし直したものが格納されている。したがって、話者特徴抽出部33は、少ない学習データから、発話内容に因らずに話者の特徴を良く表わすクラスタ情報を得ることができる。その結果、高い認識率を得ることができるのである。
【0090】
尚、本実施の形態における上記話者適応音響モデル格納部38に格納する話者適応モデルの与え方には、上述の与え方の以外に、話者クラスタを用いる方法を採用してもよい。そして、この二通りの与え方を、音声認識装置の規模や入力音声データの量や質に応じて使い分けるのである。ここで、音声データの質とは尤度の上昇具合であり、話者特徴抽出部33は、上記二通りの与え方による尤度の上昇具合を見計らって、上昇の大きい方法を採用するのである。長いエンロール期間が許容できる音声認識装置の場合には、このような推定処理も可能となる。尚、上記話者クラスタを用いる方法においては、教師語彙を与える上記第1実施の形態における選択法[b]に基づいて話者クラスタを選択する。そして、選択された話者クラスタの音響モデルを話者適応モデルとして話者適応音響モデル格納部38に格納するのである。
【0091】
尚、上述した各実施の形態においては、各学習話者の音声データを声道長伸縮係数αに基づいてクラスタリングし、各クラスタのGMMを用いて学習話者をクラスタリングし直したGMM格納部を搭載した音声認識装置、および、上記クラスタリングしたGMMで成る話者特徴を用いて話者正規化あるいは話者適応を行う音声認識装置について説明している。しかしながら、この発明は、上記クラスタリングされたGMMの何れかを話者特徴として抽出する話者特徴抽出装置にも適用されるものである。
【0092】
ところで、上記第1実施の形態における話者クラスタ選択部3,GMM格納部6およびGMM学習部12による上記話者特徴抽出装置としての機能は、プログラム記録媒体に記録された話者特徴抽出処理プログラムによって実現される。上記プログラム記録媒体は、ROMでなるプログラムメディアである。または、外部補助記憶装置に装着されて読み出されるプログラムメディアであってもよい。尚、何れの場合においても、上記プログラムメディアから話者特徴抽出処理プログラムを読み出すプログラム読み出し手段は、上記プログラムメディアに直接アクセスして読み出す構成を有していてもよいし、RAM(ランダム・アクセス・メモリ)に設けられたプログラム記憶エリア(図示せず)にダウンロードして、上記プログラム記憶エリアにアクセスして読み出す構成を有していてもよい。尚、上記プログラムメディアからRAMのプログラム記憶エリアにダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。
【0093】
ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピーディスク,ハードディスク等の磁気ディスクやCD(コンパクトディスク)‐ROM,MO(光磁気)ディスク,MD(ミニディスク),DVD(ディジタルビデオディスク)等の光ディスクのディスク系、IC(集積回路)カードや光カード等のカード系、マスクROM,EPROM(紫外線消去型ROM),EEPROM(電気的消去型ROM),フラッシュROM等の半導体メモリ系を含めた、固定的にプログラムを坦持する媒体である。
【0094】
また、上記各実施の形態における音声認識装置,音声合成装置および話者特徴抽出装置は、モデムを備えてインターネットを含む通信ネットワークと接続可能な構成を有していれば、上記プログラムメディアは、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。または、別の記録媒体からインストールされるものとする。
【0095】
尚、上記記録媒体に記録されるものはプログラムのみに限定されるものではなく、データも記録することが可能である。
【0096】
【発明の効果】
以上より明らかなように、第1の発明の話者特徴抽出装置は、学習話者をクラスタリングするに際して、先ず、学習話者クラスタリング手段によって、各学習話者を標準話者に対する声道長の伸縮係数αに基づいてクラスタリングし、音響モデル生成手段によって、各クラスタに属する話者集合毎にGMMを生成するので、各クラスタの初期値として声道長という大局的な特徴を明示的に与えて、効率よくクラスタリングを行うことができる。さらに、得られたGMMが格納された音響モデル格納部を用いて、入力話者の音声サンプルに対して最大尤度を呈するGMMを選択することによって、発話内容に因らずに精度良く入力話者の特徴を抽出することができる。
【0097】
さらに、上記学習話者のクラスタリングに際して、音声サンプル豊富化手段によって、ある注目クラスタの隣接クラスタまたは近傍クラスタに属する話者の音声サンプルに対して周波数伸縮を行い、上記注目クラスタに属する音声サンプルを生成して編入するので、学習データ不足を補って、少ない発声データからでも各クラスタの音響モデルを精密に構築できる。したがって、少ない発声データでより精度良く入力話者の特徴を抽出できる。
【0098】
また、1実施例の話者特徴抽出装置は、上記音声サンプル豊富化手段によって上記学習話者の音声サンプルに対して周波数伸縮を行う音声区間を、有音・無音の別および調音点に基づいて限定するので、声道長の差の影響を受け難い音素や無音部を上記周波数軸伸縮の対象外にして、声道長の差の影響を受け難い音素や無音部まで変形されることを防止できる。
【0099】
また、1実施例の話者特徴抽出装置は、再クラスタリング手段によって上記学習話者を再クラスタリングする場合に、上記再クラスタリングの対象となる対象学習話者が再クラスタリングの前後に属しているクラスタの伸縮係数αが所定値以上離れている場合には、当該対象学習話者を上記再クラスタリングの対象から外すので、声道長伸縮係数αが極端に異なる話者同士が同じクラスタに属することを防止できる。
【0100】
また、1実施例の話者特徴抽出装置は、再クラスタリング手段によって、上記GMM群を用いて学習話者を再クラスタリングし、ループ学習手段によって、所定の条件を満たすまで上記GMMの生成と学習話者の再クラスタリングとを繰り返し、サブクラスタ生成手段によって、上記ループ学習手段によって最終的にクラスタリングされた各クラスタに属する学習話者を更にクラスタリングしてサブクラスタを生成し、上記各サブクラスタに属する話者集合毎にGMMを生成し、上記音響モデル格納部は、上記サブクラスタ生成手段によって生成されたGMMの群を、各サブクラスタの伸縮係数αに対応付けて格納するので、このサブクラスタによって声道長以外の要因にも対応することができ、より精密な話者特徴を抽出できる。
【0101】
た、第2の発明の音声認識装置は、上記第1の発明の話者特徴抽出装置の音響モデル格納部における話者クラスタ毎に生成されたHMMの群が格納されたHMM格納部から、切換部によって、上記話者特徴抽出装置で選択された話者クラスタのHMMを音声認識用の音響モデルとして切り換え選出するので、発話内容に拘らずに少ない音声データで、上記入力話者の特徴を精度良く表わすHMMを用いて、入力話者の音声を正確に認識することができる。
【0102】
また、第3の発明の音声認識装置は、上記第1の発明に係る音響モデル格納部における話者クラスタ毎に生成されたHMMの群が格納されたHMM格納部を用いて、切換部によって、最大の尤度を呈するHMMを音声認識用の音響モデルとして切り換え選出するので、発話内容に拘らずに少ない音声データで、上記入力話者の特徴を精度良く表わすHMMを用いて、入力話者の音声を正確に認識することができる。
【0103】
また、第4の発明の音声認識装置は、話者正規化手段を、学習話者クラスタリング手段によって、各学習話者を標準話者に対する声道長の伸縮係数αに基づいてクラスタリングし、音響モデル生成手段によって、各クラスタに属する話者集合毎にGMMを生成し、再クラスタリング手段によって、上記生成されたGMMの夫々に対する上記学習話者の音声 サンプルの尤度に基づいて上記学習話者を再クラスタリングし、ループ学習手段によって、所定の条件を満たすまで上記GMMの生成と上記学習話者の再クラスタリングとを繰り返し、音響モデル格納部に、最終的に生成されたGMMの群を格納し、話者クラスタ選択部によって、上記格納されたGMMのうち最大の尤度を呈するGMMを入力話者が属するクラスタの情報として選択して、上記入力話者の特徴として上記最大の尤度を呈するGMMを抽出する話者特徴抽出装置と、入力話者の音声サンプルに基づいて上記話者特徴抽出装置によって選択されたGMMに対応する声道長の伸縮係数αを用いて、上記入力音声のスペクトルの周波数軸を伸縮する周波数ワープ手段で構成したので、発話内容に拘らずに少ない音声データで、上記入力話者の特徴を精度良く表わす声道長の伸縮係数αを用いて、より標準話者の音響特徴量に近づくように話者正規化を行うことができる。したがって、高い音声認識率を得ることができる。
【0104】
また、第5の発明の音声認識装置は、話者正規化手段を、標準話者に対する声道長の伸縮係数αに基づいて学習話者をクラスタリングし、各クラスタ毎のGMMの生成とそのGMM群を用いた学習話者の再クラスタリングとを所定の条件を満たすまで繰り返し、最終的に生成されたGMM群を話者クラスタ毎に格納した音響モデル格納部を用いて、話者クラスタ選択部によって、入力話者の音声サンプルに対して最大尤度を呈するGMMを選択して入力話者の特徴とする話者特徴抽出装置と、入力話者の音声サンプルに基づいて上記話者特徴抽出装置によって選択されたGMMに対応する声道長の伸縮係数αを用いて、上記入力音声のスペクトルの周波数軸を伸縮する周波数ワープ手段で構成したので、発話内容に拘らずに少ない音声データで、上記入力話者の特徴を精度良く表わす声道長の伸縮係数αを用いて、より標準話者の音響特徴量に近づくように話者正規化を行うことができる。したがって、高い音声認識率を得ることができる。
【0105】
また、第6の発明の音声認識装置は、話者適応手段を、学習話者クラスタリング手段によって、各学習話者を標準話者に対する声道長の伸縮係数αに基づいてクラスタリングし、音響モデル生成手段によって、各クラスタに属する話者集合毎にGMMを生成し、再クラスタリング手段によって、上記生成されたGMMの夫々に対する上記学習話者の音声サンプルの尤度に基づいて上記学習話者を再クラスタリングし、ループ学習手段によって、所定の条件を満たすまで上記GMMの生成と上記学習話者の再クラスタリングとを繰り返し、音響モデル格納部に、最終的に生成されたGMMの群を格納し、話者クラスタ選択部によって、上記格納されたGMMのうち最大の尤度を呈するGMMを入力話者が属するクラスタの情報として選択して、上記入力話者の特徴として上記最大の尤度を呈するGMMを抽出する話者特徴抽出装置と、入力話者の音声サンプルに基づいて上記話者特徴抽出装置によって選択されたGMMに対応する声道長の伸縮係数αの逆数を用いて、音響モデルのスペクトルの周波数軸を伸縮する周波数ワープ手段で構成したので、発話内容に拘らずに少ない音声データで、上記入力話者の特徴を精度良く表わす声道長の伸縮係数αの逆数を用いて、より入力話者の音響特徴量に近づくように話者適応を行うことができる。したがって、高い音声認識率を得ることができる。
【0106】
また、第7の発明の音声認識装置は、話者適応手段を、標準話者に対する声道長の伸縮係数αに基づいて学習話者をクラスタリングし、各クラスタ毎のGMMの生成とそのGMM群を用いた学習話者の再クラスタリングとを所定の条件を満たすまで繰り返し、最終的に生成されたGMM群を話者クラスタ毎に格納した音響モデル格納部を用いて、話者クラスタ選択部によって、入力話者の音声サンプルに対して最大尤度を呈するGMMを選択して入力話者の特徴とする話者特徴抽出装置と、入力話者の音声サンプルに基づいて上記話者特徴抽出装置によって選択されたGMMに対応する声道長の伸縮係数αの逆数を用いて、音響モデルのスペクトルの周波数軸を伸縮する周波数ワープ手段で構成したので、発話内容に拘らずに少ない音声データで、上記入力話者の特徴を精度良く表わす声道長の伸縮係数αの逆数を用いて、より入力話者の音響特徴量に近づくように話者適応を行うことが できる。したがって、高い音声認識率を得ることができる。
【0107】
また、第8の発明の話者特徴抽出方法は、学習話者クラスタリング手段によって、各学習話者を標準話者に対する声道長の伸縮係数αに基づいてクラスタリングし、音響モデル生成手段によって、各クラスタに属する話者集合毎にGMMを生成するので、各クラスタの初期値として声道長という大局的な特徴を明示的に与えて、効率よくクラスタリングを行うことができる。
【0108】
たがって、得られたGMMを格納した音響モデル格納部を用いて、入力話者の音声サンプルに対して最大尤度を呈するGMMを選択することによって、発話内容に因らずに精度良く入力話者の特徴を抽出することができる。
【0109】
さらに、音声サンプル豊富化手段によって、上記学習話者のクラスタリングに際して、ある注目クラスタの隣接クラスタまたは近傍クラスタに属する話者の音声サンプルに対して周波数伸縮を行い、上記注目クラスタに属する音声サンプルを生成して注目クラスタに編入するので、学習データ不足を補って、少ない発声データからでも各クラスタの音響モデルを精密に構築することができる。
【0110】
また、第9の発明のプログラム記録媒体は、コンピュータを、上記第1の発明に係る学習話者クラスタリング手段,音響モデル生成手 , 響モデル格納部および音声サンプル豊富化手段として機能させる話者特徴抽出処理プログラムを記録しているので、上記第1の発明の場合と同様に、発話内容に因らずに精度良く入力話者の特徴を抽出することができる。
【0111】
さらに、上記学習話者のクラスタリングに際して、ある注目クラスタの隣接クラスタまたは近傍クラスタに属する話者の音声サンプルに対して周波数伸縮を行い、上記注目クラスタに属する音声サンプルを生成して注目クラスタに編入するので、学習データ不足を補って、少ない発声データからでも各クラスタの音響モデルを精密に構築することができる。
【図面の簡単な説明】
【図1】 この発明の話者特徴抽出装置を搭載したクラスタリング方式による音声認識装置におけるブロック図である。
【図2】 図1とは異なる話者正規化方式による音声認識装置におけるブロック図である。
【図3】 図1および図2とは異なる話者適応方式による音声認識装置におけるブロック図である。
【符号の説明】
1,21,31…音声入力部、
2,22,32…音響分析部、
3…話者クラスタ選択部、
4,24,37…尤度(音韻類似度)演算部、
5…切換部、
6…GMM格納部、
7…話者クラスタ音響モデル格納部、
8,28,39…照合部、
9,29,40…言語モデル格納部、
10,30,41…出力部、
11,25,33…話者特徴抽出部、
12…GMM学習部、
13…学習データ格納部、
14…HMM学習部、
23,34…周波数ワープ部、
26…話者正規化部、
27,35…正規化不特定話者音響モデル格納部、
36…話者適応部、
38…話者適応音響モデル格納部。

Claims (12)

  1. 入力話者の音声に基づいて、標準話者の音声と上記入力話者の音声との関係を表わすパラメータを話者特徴として抽出する話者特徴抽出装置において、
    各学習話者に関して、上記標準話者に対する声道長の伸縮係数αを所定の方法によって予め求め、この求められた伸縮係数αの値に基づいて上記学習話者をクラスタリングする学習話者クラスタリング手段と、
    上記クラスタリングされた各クラスタに属する話者集合毎に、学習によって1状態の混合ガウス分布型音響モデルを生成する音響モデル生成手段と、
    上記生成された1状態の混合ガウス分布型音響モデルの群を格納する音響モデル格納部と、
    上記学習話者クラスタリング手段によってクラスタリングされた各クラスタのうちの注目クラスタに隣接する隣接クラスタに属する学習話者の音声サンプル、または、上記注目クラスタと上記伸縮係数α値の差が所定値以内の近傍クラスタに属する学習話者の音声サンプルに対して、上記注目クラスタと隣接クラスタまたは近傍クラスタとの上記伸縮係数α値に基づいて周波数伸縮を行うことによって、上記注目クラスタに属する音声サンプルを生成し、この生成された音声サンプルを上記注目クラスタに編入して当該クラスタの音声サンプル数を豊富化する操作を、上記学習話者クラスタリング手段によってクラスタリングされた総てのクラスタについて実行する音声サンプル豊富化手段
    を備えて、
    上記音響モデル生成手段は、上記音声サンプル豊富化手段によって音声サンプル数が豊富化された後の各クラスタ毎に、上記1状態の混合ガウス分布型音響モデルを生成するようになってい
    ことを特徴とする話者特徴抽出装置。
  2. 請求項1に記載の話者特徴抽出装置において、
    上記注目クラスタに属する音声サンプルを生成する際に、上記音声サンプル豊富化手段が上記学習話者の音声サンプルに対して周波数伸縮を行う音声区間を、有音・無音の別および調音点に基づいて限定するようにした
    ことを特徴とする話者特徴抽出装置。
  3. 請求項1に記載の話者特徴抽出装置において、
    上記生成された1状態の混合ガウス分布型音響モデルの夫々に対する上記学習話者の音声サンプルの尤度を算出し、その尤度に基づいて上記学習話者を再クラスタリングする再クラスタリング手段をさらに備えて、
    上記再クラスタリング手段によって上記学習話者を再クラスタリングする場合に、上記再クラスタリングの対象となる対象学習話者が再クラスタリングの前に属していたクラスタの伸縮係数αと再クラスタリング後に属するクラスタの伸縮係数αとが所定値以上離れている場合には、当該対象学習話者を上記再クラスタリングの対象から外すようになっている
    ことを特徴とする話者特徴抽出装置。
  4. 請求項1に記載の話者特徴抽出装置において、
    上記生成された1状態の混合ガウス分布型音響モデルの夫々に対する上記学習話者の音声サンプルの尤度を算出し、その尤度に基づいて上記学習話者を再クラスタリングする再クラスタリング手段と、
    上記音響モデル生成手段と再クラスタリング手段とを制御して、所定の条件を満たすまで、上記1状態の混合ガウス分布型音響モデルの生成と上記学習話者の再クラスタリングとを繰り返すループ学習手段と、
    上記ループ学習手段によって最終的にクラスタリングされた各クラスタに属する学習話者を更にクラスタリングしてサブクラスタを生成し、上記各サブクラスタに属する話者集 合毎に学習によって1状態の混合ガウス分布型音響モデルを生成するサブクラスタ生成手段
    を備えて、
    上記音響モデル格納部は、上記サブクラスタ生成手段によって生成された1状態の混合ガウス分布型音響モデルの群を、各サブクラスタの伸縮係数αに対応付けて格納するようになっている
    ことを特徴とする話者特徴抽出装置。
  5. 音響モデルとして隠れマルコフモデルを用い、入力話者の音声に基づいて抽出された標準話者の音声と上記入力話者の音声との関係を表わすパラメータを話者特徴として、上記入力話者の音声を認識する音声認識装置であって、
    請求項1に記載の話者特徴抽出装置と、
    上記話者特徴抽出装置の音響モデル格納部に格納された各1状態の混合ガウス分布型音響モデルによって表わされる話者クラスタに属する話者集合毎に、学習によって生成された隠れマルコフモデルの群を格納する隠れマルコフモデル格納部と、
    上記話者特徴抽出装置によって選択されたクラスタに基づいて、上記隠れマルコフモデル格納部に格納されている上記選択されたクラスタに対応するクラスタの隠れマルコフモデルを、音声認識用の音響モデルとして切り換え選出する切換部
    を備えことを特徴とする音声認識装置。
  6. 音響モデルとして隠れマルコフモデルを用い、入力話者の音声に基づいて抽出された標準話者の音声と上記入力話者の音声との関係を表わすパラメータを話者特徴として、上記入力話者の音声を認識する音声認識装置であって、
    請求項1に記載の音響モデル格納部に格納された各1状態の混合ガウス分布型音響モデルによって表わされる話者クラスタに属する話者集合毎に、学習によって生成された隠れマルコフモデルの群を格納する隠れマルコフモデル格納部と、
    上記隠れマルコフモデル格納部に格納された隠れマルコフモデルの夫々に対する入力話者の音声サンプルの尤度を算出し、最大の尤度を呈する隠れマルコフモデルを音声認識用の音響モデルとして切り換え選出する切換部
    を備えことを特徴とする音声認識装置。
  7. 声道長の伸縮関数αを用いて入力音声のスペクトルの周波数軸を伸縮することによって入力話者の音響特徴量を標準話者の音響特徴量に正規化する話者正規化手段を有する音声認識装置において、
    上記話者正規化手段は、
    入力話者の音声に基づいて、標準話者の音声と上記入力話者の音声との関係を表わすパラメータを話者特徴として抽出する話者特徴抽出装置において、
    各学習話者に関して、上記標準話者に対する声道長の伸縮係数αを所定の方法によって予め求め、この求められた伸縮係数αの値に基づいて上記学習話者をクラスタリングする学習話者クラスタリング手段と、
    上記クラスタリングされた各クラスタに属する話者集合毎に、学習によって1状態の混合ガウス分布型音響モデルを生成する音響モデル生成手段と、
    上記生成された1状態の混合ガウス分布型音響モデルの夫々に対する上記学習話者の音声サンプルの尤度を算出し、その尤度に基づいて上記学習話者を再クラスタリングする再クラスタリング手段と、
    上記音響モデル生成手段と再クラスタリング手段とを制御して、所定の条件を満たすまで、上記1状態の混合ガウス分布型音響モデルの生成と上記学習話者の再クラスタリングとを繰り返すループ学習手段と、
    上記ループ学習手段によって最終的に生成された1状態の混合ガウス分布型音響モデルの群を格納する音響モデル格納部と、
    上記音響モデル格納部に格納された1状態の混合ガウス分布型音響モデルの夫々に対する入力話者の音声サンプルの尤度を算出し、最大の尤度を呈する1状態の混合ガウス分布型音響モデルを入力話者が属するクラスタの情報として選択する話者クラスタ選択部を備 えて、
    上記入力話者の特徴として上記最大の尤度を呈する1状態の混合ガウス分布型音響モデルを抽出することを特徴とする話者特徴抽出装置と、
    上記入力話者の音声サンプルに基づいて、上記話者特徴抽出装置によって選択された1状態の混合ガウス分布型音響モデルに対応する声道長の伸縮係数αを用いて、上記入力音声のスペクトルの周波数軸を伸縮する周波数ワープ手段
    で構成されていることを特徴とする音声認識装置。
  8. 声道長の伸縮関数αを用いて入力音声のスペクトルの周波数軸を伸縮することによって入力話者の音響特徴量を標準話者の音響特徴量に正規化する話者正規化手段を有する音声認識装置において、
    上記話者正規化手段は、
    入力話者の音声に基づいて、標準話者の音声と上記入力話者の音声との関係を表わすパラメータを話者特徴として抽出する話者特徴抽出装置において、
    上記標準話者に対する声道長の伸縮係数αの値に基づいて学習話者をクラスタリングし、各クラスタに属する話者集合毎に1状態の混合ガウス分布型音響モデルを生成し、この生成された1状態の混合ガウス分布型音響モデルの夫々に対する上記学習話者の音声サンプルの尤度に基づいて上記学習話者を再クラスタリングし、上記1状態の混合ガウス分布型音響モデルの生成と上記学習話者の再クラスタリングとを所定の条件を満たすまで繰り返して最終的に生成された1状態の混合ガウス分布型音響モデルの群が格納された音響モデル格納部と、
    上記音響モデル格納部に格納された1状態の混合ガウス分布型音響モデルの夫々に対する入力話者の音声サンプルの尤度を算出し、最大の尤度を呈する1状態の混合ガウス分布型音響モデルを入力話者が属するクラスタの情報として選択する話者クラスタ選択部を備えて、
    上記入力話者の特徴として上記最大の尤度を呈する1状態の混合ガウス分布型音響モデルを抽出することを特徴とする話者特徴抽出装置と、
    上記入力話者の音声サンプルに基づいて、上記話者特徴抽出装置によって選択された1状態の混合ガウス分布型音響モデルに対応する声道長の伸縮係数αを用いて、上記入力音声のスペクトルの周波数軸を伸縮する周波数ワープ手段
    で構成されていることを特徴とする音声認識装置。
  9. 声道長の伸縮関数αを用いて音声のスペクトルの周波数軸を伸縮することによって、音響モデルを入力話者に話者適応させる話者適応手段を有する音声認識装置において、
    上記話者適応手段は、
    入力話者の音声に基づいて、標準話者の音声と上記入力話者の音声との関係を表わすパラメータを話者特徴として抽出する話者特徴抽出装置において、
    各学習話者に関して、上記標準話者に対する声道長の伸縮係数αを所定の方法によって予め求め、この求められた伸縮係数αの値に基づいて上記学習話者をクラスタリングする学習話者クラスタリング手段と、
    上記クラスタリングされた各クラスタに属する話者集合毎に、学習によって1状態の混合ガウス分布型音響モデルを生成する音響モデル生成手段と、
    上記生成された1状態の混合ガウス分布型音響モデルの夫々に対する上記学習話者の音声サンプルの尤度を算出し、その尤度に基づいて上記学習話者を再クラスタリングする再クラスタリング手段と、
    上記音響モデル生成手段と再クラスタリング手段とを制御して、所定の条件を満たすまで、上記1状態の混合ガウス分布型音響モデルの生成と上記学習話者の再クラスタリングとを繰り返すループ学習手段と、
    上記ループ学習手段によって最終的に生成された1状態の混合ガウス分布型音響モデルの群を格納する音響モデル格納部と、
    上記音響モデル格納部に格納された1状態の混合ガウス分布型音響モデルの夫々に対す る入力話者の音声サンプルの尤度を算出し、最大の尤度を呈する1状態の混合ガウス分布型音響モデルを入力話者が属するクラスタの情報として選択する話者クラスタ選択部を備えて、
    上記入力話者の特徴として上記最大の尤度を呈する1状態の混合ガウス分布型音響モデルを抽出することを特徴とする話者特徴抽出装置と、
    上記入力話者の音声サンプルに基づいて、上記話者特徴抽出装置によって選択された1状態の混合ガウス分布型音響モデルに対応する声道長の伸縮係数αの逆数を用いて、上記音響モデルのスペクトルの周波数軸を伸縮する周波数ワープ手段
    で構成されていることを特徴とする音声認識装置。
  10. 声道長の伸縮関数αを用いて音声のスペクトルの周波数軸を伸縮することによって、音響モデルを入力話者に話者適応させる話者適応手段を有する音声認識装置において、
    上記話者適応手段は、
    入力話者の音声に基づいて、標準話者の音声と上記入力話者の音声との関係を表わすパラメータを話者特徴として抽出する話者特徴抽出装置において、
    上記標準話者に対する声道長の伸縮係数αの値に基づいて学習話者をクラスタリングし、各クラスタに属する話者集合毎に1状態の混合ガウス分布型音響モデルを生成し、この生成された1状態の混合ガウス分布型音響モデルの夫々に対する上記学習話者の音声サンプルの尤度に基づいて上記学習話者を再クラスタリングし、上記1状態の混合ガウス分布型音響モデルの生成と上記学習話者の再クラスタリングとを所定の条件を満たすまで繰り返して最終的に生成された1状態の混合ガウス分布型音響モデルの群が格納された音響モデル格納部と、
    上記音響モデル格納部に格納された1状態の混合ガウス分布型音響モデルの夫々に対する入力話者の音声サンプルの尤度を算出し、最大の尤度を呈する1状態の混合ガウス分布型音響モデルを入力話者が属するクラスタの情報として選択する話者クラスタ選択部を備えて、
    上記入力話者の特徴として上記最大の尤度を呈する1状態の混合ガウス分布型音響モデルを抽出することを特徴とする話者特徴抽出装置と、
    上記入力話者の音声サンプルに基づいて、上記話者特徴抽出装置によって選択された1状態の混合ガウス分布型音響モデルに対応する声道長の伸縮係数αの逆数を用いて、上記音響モデルのスペクトルの周波数軸を伸縮する周波数ワープ手段
    で構成されていることを特徴とする音声認識装置。
  11. 入力話者の音声に基づいて、標準話者の音声と上記入力話者の音声との関係を表わすパラメータを話者特徴として抽出する話者特徴抽出方法であって、
    各学習話者に関して、学習話者クラスタリング手段によって、上記標準話者に対する声道長の伸縮係数αを所定の方法によって予め求め、この求められた伸縮係数αの値に基づいて上記学習話者をクラスタリングし、
    音響モデル生成手段によって、上記クラスタリングされた各クラスタに属する話者集合毎に、学習によって1状態の混合ガウス分布型音響モデルを生成し、
    上記生成された1状態の混合ガウス分布型音響モデルの群を音響モデル格納部に格納し、
    音声サンプル豊富化手段によって、上記クラスタリングされた各クラスタのうちの注目クラスタに隣接する隣接クラスタに属する学習話者の音声サンプル、または、上記注目クラスタと上記伸縮係数α値の差が所定値以内の近傍クラスタに属する学習話者の音声サンプルに対して、上記注目クラスタと隣接クラスタまたは近傍クラスタとの上記伸縮係数α値に基づいて周波数伸縮を行うことによって、上記注目クラスタに属する音声サンプルを生成し、この生成された音声サンプルを上記注目クラスタに編入して当該クラスタの音声サンプル数を豊富化する操作を、上記学習話者クラスタリング手段によってクラスタリングされた総てのクラスタについて実行し、
    上記音響モデル生成手段は、上記音声サンプル数が豊富化された後の各クラスタ毎に、 上記1状態の混合ガウス分布型音響モデルを生成するようになっている
    ことを特徴とする話者特徴抽出方法。
  12. コンピュータを、
    請求項1に記載の学習話者クラスタリング手段,音響モデル生成手 , 響モデル格納部および音声サンプル豊富化手段
    として機能させる話者特徴抽出処理プログラムが記録されたことを特徴とするコンピュータ読出し可能なプログラム記録媒体。
JP2001209503A 2001-07-10 2001-07-10 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体 Expired - Fee Related JP3919475B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001209503A JP3919475B2 (ja) 2001-07-10 2001-07-10 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001209503A JP3919475B2 (ja) 2001-07-10 2001-07-10 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体

Publications (2)

Publication Number Publication Date
JP2003022088A JP2003022088A (ja) 2003-01-24
JP3919475B2 true JP3919475B2 (ja) 2007-05-23

Family

ID=19045146

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001209503A Expired - Fee Related JP3919475B2 (ja) 2001-07-10 2001-07-10 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体

Country Status (1)

Country Link
JP (1) JP3919475B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7464031B2 (en) 2003-11-28 2008-12-09 International Business Machines Corporation Speech recognition utilizing multitude of speech features
JP4860962B2 (ja) * 2004-08-26 2012-01-25 旭化成株式会社 音声認識装置、音声認識方法、及び、プログラム
JP4526934B2 (ja) * 2004-11-24 2010-08-18 日本電信電話株式会社 調音運動の正規化を用いた音声合成方法および装置
JP2006171185A (ja) * 2004-12-14 2006-06-29 Asahi Kasei Corp 音声認識装置および音声認識方法
JP5418223B2 (ja) * 2007-03-26 2014-02-19 日本電気株式会社 音声分類装置、音声分類方法、および音声分類用プログラム
WO2011007497A1 (ja) 2009-07-16 2011-01-20 日本電気株式会社 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
CN107103914B (zh) * 2017-03-20 2020-06-16 南京邮电大学 一种高质量的语音转换方法
CN107301859B (zh) * 2017-06-21 2020-02-21 南京邮电大学 基于自适应高斯聚类的非平行文本条件下的语音转换方法
EP3872808A4 (en) * 2018-10-25 2021-11-03 NEC Corporation VOICE PROCESSING DEVICE, VOICE PROCESSING METHOD AND COMPUTER-READABLE RECORDING MEDIUM
CN111508505B (zh) * 2020-04-28 2023-11-03 讯飞智元信息科技有限公司 一种说话人识别方法、装置、设备及存储介质
CN112259106B (zh) * 2020-10-20 2024-06-11 网易(杭州)网络有限公司 声纹识别方法、装置、存储介质及计算机设备

Also Published As

Publication number Publication date
JP2003022088A (ja) 2003-01-24

Similar Documents

Publication Publication Date Title
KR100612840B1 (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
JP5768093B2 (ja) 音声処理システム
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
US11056100B2 (en) Acoustic information based language modeling system and method
JP2002366187A (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
Stuttle A Gaussian mixture model spectral representation for speech recognition
JP3919475B2 (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
JP4836076B2 (ja) 音声認識システム及びコンピュータプログラム
CN117043857A (zh) 用于英语发音评估的方法、设备和计算机程序产品
Sharma et al. Speech recognition in Kannada using HTK and julius: a comparative study
JP2004325635A (ja) 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
Dey et al. Mizo phone recognition system
Ons et al. A self learning vocal interface for speech-impaired users
JP3646060B2 (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体
JP3754613B2 (ja) 話者特徴推定装置および話者特徴推定方法、クラスタモデル作成装置、音声認識装置、音声合成装置、並びに、プログラム記録媒体
Bacchiani Speech recognition system design based on automatically derived units
JP3216565B2 (ja) 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体
Nguyen et al. Improving acoustic model for vietnamese large vocabulary continuous speech recognition system using deep bottleneck features
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
Huang et al. Speech-Based Interface for Visually Impaired Users
JP3754614B2 (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体
JP4571921B2 (ja) 音響モデル適応化装置、音響モデル適応化方法、音響モデル適応化プログラム及びその記録媒体
Ogawa et al. Improved Example-Based Speech Enhancement by Using Deep Neural Network Acoustic Model for Noise Robust Example Search.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060502

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060703

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070213

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100223

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110223

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120223

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120223

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130223

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees