JP4233831B2 - 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム - Google Patents

音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム Download PDF

Info

Publication number
JP4233831B2
JP4233831B2 JP2002278582A JP2002278582A JP4233831B2 JP 4233831 B2 JP4233831 B2 JP 4233831B2 JP 2002278582 A JP2002278582 A JP 2002278582A JP 2002278582 A JP2002278582 A JP 2002278582A JP 4233831 B2 JP4233831 B2 JP 4233831B2
Authority
JP
Japan
Prior art keywords
noise
speech
model
clustering
created
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002278582A
Other languages
English (en)
Other versions
JP2004117624A (ja
Inventor
志鵬 張
清太 大辻
利明 杉村
貞煕 古井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2002278582A priority Critical patent/JP4233831B2/ja
Publication of JP2004117624A publication Critical patent/JP2004117624A/ja
Application granted granted Critical
Publication of JP4233831B2 publication Critical patent/JP4233831B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は音声モデルの雑音適応化方法、及び、その方法を用いた音声認識方法、並びに、音声認識プログラムに関し、特に音声の特徴を隠れマルコフモデル(Hidden Markov Model、以下HMMと略称する)でモデル化したクリーンな音声モデルについての音声モデルの雑音適応化方法、及び、その方法を用いた音声認識方法、並びに、音声認識プログラムに関する。
【0002】
【従来の技術】
現在の自動音声認識システムは研究室条件下では良好に機能するが、実際のアプリケーションでは急激に性能を低下させる。実世界アプリケーションにおける問題点の一つは、背景に雑音や音楽を含む音声に対する認識性能の劣化が挙げられる。この雑音問題に対処するために、HMM合成法(例えば、非特許文献1参照)やneural network法(例えば、非特許文献2参照)などの種々の非線形手法が開発されている。
【0003】
【非特許文献1】
「Recognition of noisy speech bycomposition of hidden Markov models」F.Martin、et al.、Proc.Eurospeech、pp.1031−1034、1993年
【非特許文献2】
「Noise adaptation of HMMs usingneural networks」S.Furui、et al.、Proc.ISCAITRW ASR2000、pp.160−167、2000年
【0004】
【発明が解決しようとする課題】
しかしながら、上述した非特許文献1や非特許文献2に記載されている従来技術は制限がありすぎるか複雑な処理と大きな計算量とを必要とする。
本発明の目的は、雑音適応によって入力音声に対する音声モデル系列の推定をより正確に行うことができる音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラムを提供することである。
【0005】
【課題を解決するための手段】
本発明の請求項1による音声モデルの雑音適応化システムは、クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化する音声モデルの雑音適応化システムであって、雑音のクラスタリングを行うクラスタリング手段と、このクラスタリング手段のクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成手段と、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出手段と、前記音声モデル空間作成手段によって作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択手段と、この選択手段によって選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換手段とを含むことを特徴とする。このようにすることで、入力音声に対する音声モデル系列の推定をより正確に行うことができる。
【0006】
本発明の請求項2による音声モデルの雑音適応化システムは、請求項1において、前記クラスタリング手段は、各雑音の混合ガウス分布モデルを作成し、この作成した混合ガウス分布モデルを用いて各雑音間の尤度を計算して尤度行列を作成し、この作成した尤度行列に基づいて雑音のクラスタリングを行うことを特徴とする。混合ガウス分布モデルを用いて各雑音間の尤度を計算することにより、計算量を少なくすることができる。
【0007】
本発明の請求項3による音声モデルの雑音適応化システムは、請求項1又は2において、前記音声モデル空間作成手段は、木構造の各ノードに属する雑音をクリーン音声に重畳することによって、前記木構造の雑音音声モデル空間を作成することを特徴とする。こうすることにより、木構造の雑音音声モデル空間を容易に作成できる。
【0008】
本発明の請求項4による音声モデルの雑音適応化システムは、請求項1乃至3のいずれか1項において、前記音声モデル空間作成手段は、前記クラスタリング手段のクラスタリング結果に基づいて、雑音対信号比ごとに木構造の雑音音声モデル空間を作成した後、前記雑音対信号比ごとに雑音の音声モデル空間を作成することを特徴とする。木構造で雑音特性を表すことにより、木構造の上層では雑音特性の大局的な特徴、下層では局所的な特徴を表現することができる。
【0009】
本発明の請求項5による音声モデルの雑音適応化システムは、請求項1乃至4のいずれか1項において、前記選択手段は、前記パラメータ抽出手段によって抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択することを特徴とする。尤度が最大となるモデルを選択することにより、音声認識精度を高めることができる。
【0010】
本発明の請求項6による音声モデルの雑音適応化システムは、請求項5において、前記選択手段は、前記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択することを特徴とする。上層から下層に向かってたどることによって最適なモデルを選択することができる。
本発明の請求項7による音声モデルの雑音適応化システムは、請求項1乃至6のいずれか1項において、前記線形変換手段は、前記選択手段によって選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことを特徴とする。線形変換を行うことにより、尤度を最大にすることができる。
【0011】
本発明の請求項8による音声モデルの雑音適応化方法は、クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化する音声モデルの雑音適応化方法であって、雑音のクラスタリングを行うクラスタリングステップと、このクラスタリングステップによるクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成ステップと、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出ステップと、前記音声モデル空間作成ステップにおいて作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択ステップと、この選択ステップにおいて選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換ステップとを含むことを特徴とする。このようにすることで、入力音声に対する音声モデル系列の推定をより正確に行うことができる。
【0012】
本発明の請求項9による音声モデルの雑音適応化方法は、請求項8において、前記クラスタリングステップにおいては、各雑音の混合ガウス分布モデルを作成し、この作成した混合ガウス分布モデルを用いて各雑音間の尤度を計算して尤度行列を作成し、この作成した尤度行列に基づいて雑音のクラスタリングを行うことを特徴とする。混合ガウス分布モデルを用いて各雑音間の尤度を計算することにより、計算量を少なくすることができる。
【0013】
本発明の請求項10による音声モデルの雑音適応化方法は、請求項8又は9において、前記音声モデル空間作成ステップにおいては、木構造の各ノードに属する雑音をクリーン音声に重畳することによって、前記木構造の雑音音声モデル空間を作成することを特徴とする。こうすることにより、木構造の雑音音声モデル空間を容易に作成できる。
【0014】
本発明の請求項11による音声モデルの雑音適応化方法は、請求項8乃至10のいずれか1項において、前記音声モデル空間作成ステップにおいては、前記クラスタリングステップにおけるクラスタリング結果に基づいて、雑音対信号比ごとに木構造の雑音音声モデル空間を作成した後、前記雑音対信号比ごとに雑音の音声モデル空間を作成することを特徴とする。木構造で雑音特性を表すことにより、木構造の上層では雑音特性の大局的な特徴、下層では局所的な特徴を表現することができる。
【0015】
本発明の請求項12による音声モデルの雑音適応化方法は、請求項8乃至11のいずれか1項において、前記選択ステップにおいては、前記パラメータ抽出ステップにおいて抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択することを特徴とする。尤度が最大となるモデルを選択することにより、音声認識精度を高めることができる。
【0016】
本発明の請求項13による音声モデルの雑音適応化方法は、請求項12において、前記選択ステップにおいては、前記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択することを特徴とする。上層から下層に向かってたどることによって最適なモデルを選択することができる。
【0017】
本発明の請求項14による音声モデルの雑音適応化方法は、請求項8乃至13のいずれか1項において、前記線形変換ステップにおいては、前記選択ステップにおいて選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことを特徴とする。線形変換を行うことにより、尤度を最大にすることができる。本発明の請求項15による音声モデルの雑音適応化プログラムは、コンピュータを制御することにより、クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化するための音声モデルの雑音適応化プログラムであって、雑音のクラスタリングを行うクラスタリングステップと、このクラスタリングステップによるクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成ステップと、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出ステップと、前記音声モデル空間作成ステップにおいて作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択ステップと、この選択ステップにおいて選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換ステップとを含むことを特徴とする。このようにすることで、入力音声に対する音声モデル系列の推定をより正確に行うことができる。
【0018】
本発明の請求項16による音声モデルの雑音適応化プログラムは、請求項15において、前記クラスタリングステップにおいては、各雑音の混合ガウス分布モデルを作成し、この作成した混合ガウス分布モデルを用いて各雑音間の尤度を計算して尤度行列を作成し、この作成した尤度行列に基づいて雑音のクラスタリングを行うことを特徴とする。混合ガウス分布モデルを用いて各雑音間の尤度を計算することにより、計算量を少なくすることができる。
【0019】
本発明の請求項17による音声モデルの雑音適応化プログラムは、請求項15又は16において、前記音声モデル空間作成ステップにおいては、木構造の各ノードに属する雑音をクリーン音声に重畳することによって、前記木構造の雑音音声モデル空間を作成することを特徴とする。こうすることにより、木構造の雑音音声モデル空間を容易に作成できる。
【0020】
本発明の請求項18による音声モデルの雑音適応化プログラムは、請求項15乃至17のいずれか1項において、前記音声モデル空間作成ステップにおいては、前記クラスタリングステップにおけるクラスタリング結果に基づいて、雑音対信号比ごとに木構造の雑音音声モデル空間を作成した後、前記雑音対信号比ごとに雑音の音声モデル空間を作成することを特徴とする。木構造で雑音特性を表すことにより、木構造の上層では雑音特性の大局的な特徴、下層では局所的な特徴を表現することができる。
【0021】
本発明の請求項19による音声モデルの雑音適応化プログラムは、請求項15乃至18のいずれか1項において、前記選択ステップにおいては、前記パラメータ抽出ステップにおいて抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択することを特徴とする。尤度が最大となるモデルを選択することにより、音声認識精度を高めることができる。
【0022】
本発明の請求項20による音声モデルの雑音適応化プログラムは、請求項19において、前記選択ステップにおいては、前記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択することを特徴とする。上層から下層に向かってたどることによって最適なモデルを選択することができる。
【0023】
本発明の請求項21による音声モデルの雑音適応化プログラムは、請求15乃至20のいずれか1項において、前記線形変換ステップにおいては、前記選択ステップにおいて選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことを特徴とする。線形変換を行うことにより、尤度を最大にすることができる。
【0024】
要するに、本発明では、音声の特徴を隠れマルコフモデルでモデル化したクリーンな音声モデルを、認識対象となる雑音音声を用いて、その雑音環境に対する認識率を高めるように適応化する。
このため本発明では、まず雑音データベースを用いて、各雑音のモデルを学習する。そして、各雑音モデル間の距離を計算し、雑音のクラスタリングを行う。さらに、雑音のクラスタリングの結果に基づいて、木構造的に音声モデルを作成する。
【0025】
この場合、SNRでクラスタ化し、次にSNR条件ごとに木構造モデルが用意でき、木構造雑音音声モデル空間を作成しておく。特徴抽出過程で、認識対象となる入力雑音音声を分析して特徴パラメータ列を抽出し、木構造雑音音声モデル空間から最適なモデルを選択する。選択された雑音音声モデル空間から尤度がさらに最大化するように線形変換を行う。
【0026】
以上のように処理することで、入力音声に対する音声モデル系列の推定をより正確に行うことができる。
【0027】
【発明の実施の形態】
次に、図面を参照して本発明の実施の形態について説明する。なお、以下の説明において参照する各図においては、他の図と同等部分に同一符号が付されている。
本発明においては、雑音音声モデル空間を、SNR(signal−to−noise ratio)と音質とによって、木構造的に作成しておく。木構造で雑音特性を表すことにより、木構造の上層では雑音特性の大局的な特徴、下層では局所的な特徴を表現するモデルが得られる。この木構造を上から下にたどりルートからトップダン方式で最適なモデルを選択することにより、最適な雑音区分空間を選択できる。
【0028】
この処理を実現するための構成について図1を参照して説明する。同図は、本発明による雑音適応化システムの実施の一形態を示すブロック図である。同図に示されているように、本実施形態による雑音適応化システムは、木構造モデル記憶部1と、特徴抽出部2と、音声認識部3と、モデル選択判定部4と、モデル線形変換適応部5と、認識結果保存部6とを含んで構成されている。
【0029】
木構造モデル記憶部1は、雑音のクラスタリングの結果によって、雑音重畳音声HMMを二段階(SNR及び雑音性質)の木構造に作成し、保存する部分である。
特徴抽出部2は、入力された音声データを分析して特徴ベクトルに変換する分析部分である。
【0030】
音声認識部3は、特徴ベクトルの時系列に変換された上記入力音声データをViterbiアルゴリズムによって、尤度関数が最大となるモデル系列を求める部分である。
モデル選択判定部4は、木構造モデル記憶部1に記憶されているモデルの中から、尤度が最大となるように最適なモデルを選択する部分である。
【0031】
モデル線形変換適応部5は、モデル選択判定部4によって選択されるモデルで、尤度が最大化するように線形変換を行う部分である。
認識結果保存部6は、音声の認識結果を保存する部分である。
以上の構成からなる本システムの動作について、図2及び図3を参照して説明する。図2は、本システムの動作の流れに従って図1中の各部1〜6を並べ替えた機能ブロック図である。図3は本システムによる処理手順を示すフロー図である。
【0032】
この発明による雑音適応化システムを使った音声認識を実施する手順は、以下のステップS1〜S7のようになる。
ステップS1(雑音クラスタリング過程):雑音データベースを用いて、各雑音の混合ガウス分布モデル(Gaussian Mixture Model;以下GMMと略称する)をBaum−Welchアルゴリズムによって作成する。このBaum−Welchアルゴリズムは、文献「確率モデルによる音声認識」(中川聖一、電子情報通信学会、1988)に記載されている。このBaum−Welchアルゴリズムでは、適当な初期値から始めて、繰返しによって最適値に近づくというアプローチをとる。
【0033】
次に、ガウス分布モデルを用いて、各雑音間の尤度を計算し、尤度行列を作成する。この尤度行列に基づいてSPLIT法を用いて、逐次的に雑音のクラスタリングを行う。このSPLIT法は、文献「SPLIT マルチテンプレート法による不特定話者単語音声認識」(菅村 他、電子情報通信学会、pp.505−512、1982年)に記載されている。このSPLIT法では、ひずみが最大となるクラスタを順次分割する。よって、任意の数のクラスタを作成できる。クラスタさえ与えれば、完全に自動的にクラスタリングの結果が得られる。
【0034】
ステップS2(雑音重畳音声の作成):雑音データベースとクリーンな音声データベースとを用いて、雑音重畳音声データを作成する。決められたSNRに合わせて、各雑音をクリーンな音声に付加する。なお、本例では、SNR=5,10,15,20dBとする。
ステップS3(木構造音響モデルの作成):雑音のクラスタリング結果に基づいて、ステップS2で用意した雑音重畳音声を用いて、SNRごとに木構造的に音声モデルを作成する。この場合はクリーン音声モデルをベースにノードに属するあらゆる種類の雑音を重畳する音声を用いてBaum−Welchアルゴリズムによって学習する。雑音木構造で雑音特性を表すことにより、木構造の上層では雑音特性の大局的な特徴を、下層では局所的な特徴を、それぞれ表現するモデルが得られる。まずSNRでクラスタ化し、次にSNR条件ごとに木構造モデルを作成する。ここまで作成した木構造モデルを木構造モデル記憶部1に保存する。
【0035】
ステップS4(特徴量抽出過程):特徴抽出部2において、認識対象雑音音声データの特徴量を抽出する。特徴量抽出は、入力された音声データを一定フレーム毎に線形予測符号化(Linear Prediction Coding;以下LPCと略称する)分析し、ケプストラム又はΔケプストラムなどの特徴パラメータベクトルの時系列を特徴パラメータ列として得る。ケプストラムとは、フーリエ変換によって求められたパワースペクトルの対数値をさらにフーリエ変換したものである。
【0036】
ステップS5(最適モデル選択):最適モデル選択について、図4を参照して説明する。図4において、一番上のノード(root)はクリーン音声モデルを表す。その下にはSNRごとにN個のモデルがある。N個のモデルとは、モデルSNR−1〜モデルSNR−Nである。これらN個のモデルSNR−1〜モデルSNR−Nは特定SNR条件での全雑音を混合した音声から学習したモデルを表す。
【0037】
そのさらに下にある子ノードはクラスタリング結果によって、選択された一部の雑音種類を混合した音声データから学習したモデルを表す。この木構造の一番下にあるのはある特定雑音(1種類だけ)を混合した音声から学習したモデルである。木構造の上層では雑音特性の大局的な特徴、下層では局所的な特徴を表現する。
【0038】
認識するときは、まずrootのクリーン不特定モデルを用いて、ステップS4で得られた特徴パラメータ列によって、尤度を計算する。これは図1中の音声認識部3によって行われる。
次に、rootの下の各モデルを用いて、同じく音声認識部3によって尤度を計算する。以上で得られた尤度の値を用いて、モデル選択判定部4によって最適モデルを選択する。具体的に以下のように処理する。rootのクリーン不特定モデルの尤度より高いモデルを保留する。これらのSNR条件でさらに下へ各子ノードのモデルを用いて尤度を計算する。2つの子ノードモデルと親ノードの尤度を比較し、尤度最大のモデルは子ノードモデルであれば、さらに下へたどる。親ノードの方が一番高ければ、計算を停止し、この親ノードを最適なノードだと判断する。
【0039】
図4には、探索パスが実線で表されている。この計算を繰り返すと最適な空間を見つけることができる。また、各SNR条件の尤度最大となるモデルの尤度を比較し、最大となるモデルが全体の雑音音声空間での最適モデルだとする。例えば、図4中のSNR−1条件では4番ノードが尤度最大である。また、同図中のSNR−N条件では5番ノードが尤度最大である。そして、これら各SNR条件において最大のモデルの中からさらに尤度同士を比較し、選択する。
【0040】
ステップS6(線形変換):選択されるモデルについて、モデル線形変換適応部5によってさらに尤度が最大化するように線形変換(Maximum Likelihood Liner Regresion;以下MLLRと略称する)を行う。この線形変換については、文献「Mean and varianceadaptation within the MLLR framework」(M.J.F Gales et al.、Computer Speech and Language、pp.249−264、1996年)に記載されている。具体的には認識結果の音素列を用いて、線形変換の行列を尤度最大基準に基づいて推定し、HMMのガウス分布の平均値と分散値とを線形変換により適応化する。
【0041】
ステップS7(再認識):音声認識結果を出力する場合は、ステップS6で得られたモデルを用いて、音声認識部3によって再認識し、認識結果を認識結果保存部6に保存する。
以上述べたように、本発明の雑音適応化システムにおいては、認識対象となる雑音音声を用いて、不特定話者用音声モデルを適応化している。雑音重畳音声の木構造モデル空間に作成し、上から下にたどり最適なモデルを選択し、さらに尤度がさらに最大化するように線形変換を行って、適応化モデルを作成する。
【0042】
ここで、発明者は、実際に放送された多種の雑音や音楽が乗っているニュース音声について、本システムによる音声認識の効果を調べた。以下、この実験例を述べる。実験で使用した音声HMMは、tree−based clusteringにより状態共有化を行った不特定話者文脈依存音素HMMである。音響特徴量としては16次のLPCケプストラムと対数パワー、及びそれらの一次微分の計34次元を使用した。学習用クリーン音声データは、男性53名による13270発話である。モデルの総状態数は「2106」、各状態のガウス分布の混合数はすべて「4」である。
【0043】
図5には、不特定音声HMMを用いた単語正解精度(ベースライン)と、本システムにより適応化された音声HMMを用いた単語正解精度(本発明)とが示されている。同図の縦軸は単語正解精度(%)である。同図に示されている結果から、本システムによる音声認識が従来技術に比べて有効であることがわかる。この場合、ベースラインに比べ単語誤り率は26.1%低下した。
(音声モデルの雑音適応化方法)
上述した雑音適応化システムにおいては、以下のような雑音適応化方法が実現されている。すなわち、クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化する音声モデルの雑音適応化方法であり、雑音のクラスタリングを行うクラスタリングステップと、このクラスタリングステップによるクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成ステップと、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出ステップと、上記音声モデル空間作成ステップにおいて作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択ステップと、この選択ステップにおいて選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換ステップとを含む雑音適応化方法が実現されている。このようにすることで、入力音声に対する音声モデル系列の推定をより正確に行うことができる。
【0044】
また、上記クラスタリングステップにおいては、各雑音の混合ガウス分布モデルを作成し、この作成した混合ガウス分布モデルを用いて各雑音間の尤度を計算して尤度行列を作成し、この作成した尤度行列に基づいて雑音のクラスタリングを行う。混合ガウス分布モデルを用いて各雑音間の尤度を計算することにより、計算量を少なくすることができる。
【0045】
上記音声モデル空間作成ステップにおいては、木構造の各ノードに属する雑音をクリーン音声に重畳することによって、上記木構造の雑音音声モデル空間を作成する。こうすることにより、木構造の雑音音声モデル空間を容易に作成できる。
上記音声モデル空間作成ステップにおいては、上記クラスタリングステップにおけるクラスタリング結果に基づいて、雑音対信号比ごとに木構造の雑音音声モデル空間を作成した後、上記雑音対信号比ごとに雑音の音声モデル空間を作成する。木構造で雑音特性を表すことにより、木構造の上層では雑音特性の大局的な特徴、下層では局所的な特徴を表現することができる。
【0046】
上記選択ステップにおいては、上記パラメータ抽出ステップにおいて抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択する。尤度が最大となるモデルを選択することにより、音声認識精度を高めることができる。
上記選択ステップにおいては、上記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択する。上層から下層に向かってたどることによって最適なモデルを選択することができる。
【0047】
上記線形変換ステップにおいては、上記選択ステップにおいて選択されたモデルに基づいて尤度が大きくなるように線形変換を行う。線形変換を行うことにより、尤度を最大にすることができる。
(音声モデルの雑音適応化プログラム)
ところで、図3に示されている処理を実行するためのプログラムを用意し、これを用いてコンピュータを制御することにより、上記と同様の効果が得られる。このプログラムは、コンピュータを制御することにより、クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化するための音声モデルの雑音適応化プログラムであり、雑音のクラスタリングを行うクラスタリングステップと、このクラスタリングステップによるクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成ステップと、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出ステップと、上記音声モデル空間作成ステップにおいて作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択ステップと、この選択ステップにおいて選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換ステップとを含むプログラムである。このプログラムを用いることで、入力音声に対する音声モデル系列の推定をより正確に行うことができる。
【0048】
また、上記クラスタリングステップにおいては、各雑音の混合ガウス分布モデルを作成し、この作成した混合ガウス分布モデルを用いて各雑音間の尤度を計算して尤度行列を作成し、この作成した尤度行列に基づいて雑音のクラスタリングを行う。混合ガウス分布モデルを用いて各雑音間の尤度を計算することにより、計算量を少なくすることができる。
【0049】
上記音声モデル空間作成ステップにおいては、木構造の各ノードに属する雑音をクリーン音声に重畳することによって、上記木構造の雑音音声モデル空間を作成する。これにより、木構造の雑音音声モデル空間を容易に作成できる。
上記音声モデル空間作成ステップにおいては、上記クラスタリングステップにおけるクラスタリング結果に基づいて、雑音対信号比ごとに木構造の雑音音声モデル空間を作成した後、上記雑音対信号比ごとに雑音の音声モデル空間を作成する。木構造で雑音特性を表すことにより、木構造の上層では雑音特性の大局的な特徴、下層では局所的な特徴を表現することができる。
【0050】
上記選択ステップにおいては、上記パラメータ抽出ステップにおいて抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択する。尤度が最大となるモデルを選択することにより、音声認識精度を高めることができる。
上記選択ステップにおいては、上記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択する。上層から下層に向かってたどることによって最適なモデルを選択することができる。
【0051】
上記線形変換ステップにおいては、上記選択ステップにおいて選択されたモデルに基づいて尤度が大きくなるように線形変換を行う。線形変換を行うことにより、尤度を最大にすることができる。
なお、このプログラムを記録するための記録媒体には、図示されていない半導体メモリ、磁気ディスク、光ディスク等の他、種々の記録媒体を用いることができる。
【0052】
【発明の効果】
本発明の請求項1、請求項8、請求項15によれば、雑音のクラスタリングを行い、このクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成し、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出し、木構造の雑音音声モデル空間から最適なモデルを選択し、選択されたモデルについて尤度が更に大きくなるように線形変換を行うことにより、入力音声に対する音声モデル系列の推定をより正確に行うことができるという効果がある。
【0053】
本発明の請求項2、請求項9、請求項16によれば、クラスタリングの際、各雑音の混合ガウス分布モデルを作成し、この作成した混合ガウス分布モデルを用いて各雑音間の尤度を計算して尤度行列を作成し、この作成した尤度行列に基づいて雑音のクラスタリングを行うことにより、計算量を少なくすることができるという効果がある。
【0054】
本発明の請求項3、請求項10、請求項17によれば、木構造の各ノードに属する雑音をクリーン音声に重畳して、木構造の雑音音声モデル空間を作成することにより、木構造の雑音音声モデル空間を容易に作成できるという効果がある。本発明の請求項4、請求項11、請求項18によれば、クラスタリング結果に基づいて、雑音対信号比ごとに木構造の雑音音声モデル空間を作成した後、前記雑音対信号比ごとに雑音の音声モデル空間を作成し、木構造で雑音特性を表すことにより、木構造の上層では雑音特性の大局的な特徴、下層では局所的な特徴を表現することができるという効果がある。
【0055】
本発明の請求項5、請求項12、請求項19によれば、抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択することにより、音声認識精度を高めることができるという効果がある。
本発明の請求項6、請求項13、請求項20によれば、木構造の雑音音声モデル空間について、上層から下層に向かってたどってモデルを選択することによって最適なモデルを選択することができるという効果がある。
【0056】
本発明の請求項7、請求項14、請求項21によれば、選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことにより、尤度を最大にすることができるという効果がある。
【図面の簡単な説明】
【図1】本発明の実施の一形態による音声モデルの雑音適応化システムの構成を示すブロック図である。
【図2】本システムの動作の流れに従って図1中の各部を並べ替えた機能ブロック図である。
【図3】本システムによる処理手順を示すフロー図である。
【図4】木構造雑音音声モデル空間における最適モデルの選択処理を示す概念図である。
【図5】不特定音声HMMを用いた単語正解精度と、本システムにより適応化された音声HMMを用いた単語正解精度とを示す図である。
【符号の説明】
1 木構造モデル記憶部
2 特徴抽出部
3 音声認識部
4 モデル選択判定部
5 モデル線形変換適応部
6 認識結果保存部

Claims (21)

  1. クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化する音声モデルの雑音適応化システムであって、雑音のクラスタリングを行うクラスタリング手段と、このクラスタリング手段のクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成手段と、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出手段と、前記音声モデル空間作成手段によって作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択手段と、この選択手段によって選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換手段とを含むことを特徴とする音声モデルの雑音適応化システム。
  2. 前記クラスタリング手段は、各雑音の混合ガウス分布モデルを作成し、この作成した混合ガウス分布モデルを用いて各雑音間の尤度を計算して尤度行列を作成し、この作成した尤度行列に基づいて雑音のクラスタリングを行うことを特徴とする請求項1記載の雑音適応化システム。
  3. 前記音声モデル空間作成手段は、木構造の各ノードに属する雑音をクリーン音声に重畳することによって、前記木構造の雑音音声モデル空間を作成することを特徴とする請求項1又は2記載の雑音適応化システム。
  4. 前記音声モデル空間作成手段は、前記クラスタリング手段のクラスタリング結果に基づいて、雑音対信号比ごとに木構造の雑音音声モデル空間を作成した後、前記雑音対信号比ごとに雑音の音声モデル空間を作成することを特徴とする請求項1乃至3のいずれか1項に記載の雑音適応化システム。
  5. 前記選択手段は、前記パラメータ抽出手段によって抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択することを特徴とする請求項1乃至4のいずれか1項に記載の雑音適応化システム。
  6. 前記選択手段は、前記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択することを特徴とする請求項5記載の雑音適応化システム。
  7. 前記線形変換手段は、前記選択手段によって選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことを特徴とする請求項1乃至6のいずれか1項に記載の雑音適応化システム。
  8. クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化する音声モデルの雑音適応化方法であって、雑音のクラスタリングを行うクラスタリングステップと、このクラスタリングステップによるクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成ステップと、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出ステップと、前記音声モデル空間作成ステップにおいて作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択ステップと、この選択ステップにおいて選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換ステップとを含むことを特徴とする音声モデルの雑音適応化方法。
  9. 前記クラスタリングステップにおいては、各雑音の混合ガウス分布モデルを作成し、この作成した混合ガウス分布モデルを用いて各雑音間の尤度を計算して尤度行列を作成し、この作成した尤度行列に基づいて雑音のクラスタリングを行うことを特徴とする請求項8記載の雑音適応化方法。
  10. 前記音声モデル空間作成ステップにおいては、木構造の各ノードに属する雑音をクリーン音声に重畳することによって、前記木構造の雑音音声モデル空間を作成することを特徴とする請求項8又は9記載の雑音適応化方法。
  11. 前記音声モデル空間作成ステップにおいては、前記クラスタリングステップにおけるクラスタリング結果に基づいて、雑音対信号比ごとに木構造の雑音音声モデル空間を作成した後、前記雑音対信号比ごとに雑音の音声モデル空間を作成することを特徴とする請求項8乃至10のいずれか1項に記載の雑音適応化方法。
  12. 前記選択ステップにおいては、前記パラメータ抽出ステップにおいて抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択することを特徴とする請求項8乃至11のいずれか1項に記載の雑音適応方法。
  13. 前記選択ステップにおいては、前記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択することを特徴とする請求項12記載の雑音適応化方法。
  14. 前記線形変換ステップにおいては、前記選択ステップにおいて選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことを特徴とする請求項8乃至13のいずれか1項に記載の雑音適応化方法。
  15. コンピュータを制御することにより、クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化するための音声モデルの雑音適応化プログラムであって、雑音のクラスタリングを行うクラスタリングステップと、このクラスタリングステップによるクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成ステップと、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出ステップと、前記音声モデル空間作成ステップにおいて作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択ステップと、この選択ステップにおいて選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換ステップとを含むことを特徴とする音声モデルの雑音適応化プログラム。
  16. 前記クラスタリングステップにおいては、各雑音の混合ガウス分布モデルを作成し、この作成した混合ガウス分布モデルを用いて各雑音間の尤度を計算して尤度行列を作成し、この作成した尤度行列に基づいて雑音のクラスタリングを行うことを特徴とする請求項15記載の雑音適応化プログラム。
  17. 前記音声モデル空間作成ステップにおいては、木構造の各ノードに属する雑音をクリーン音声に重畳することによって、前記木構造の雑音音声モデル空間を作成することを特徴とする請求項15又は16記載の雑音適応化プログラム。
  18. 前記音声モデル空間作成ステップにおいては、前記クラスタリングステップにおけるクラスタリング結果に基づいて、雑音対信号比ごとに木構造の雑音音声モデル空間を作成した後、前記雑音対信号比ごとに雑音の音声モデル空間を作成することを特徴とする請求項15乃至17のいずれか1項に記載の雑音適応化プログラム。
  19. 前記選択ステップにおいては、前記パラメータ抽出ステップにおいて抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択することを特徴とする請求項15乃至18のいずれか1項に記載の雑音適応プログラム。
  20. 前記選択ステップにおいては、前記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択することを特徴とする請求項19記載の雑音適応化プログラム。
  21. 前記線形変換ステップにおいては、前記選択ステップにおいて選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことを特徴とする請求15乃至20のいずれか1項に記載の雑音適応化プログラム。
JP2002278582A 2002-09-25 2002-09-25 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム Expired - Fee Related JP4233831B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002278582A JP4233831B2 (ja) 2002-09-25 2002-09-25 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002278582A JP4233831B2 (ja) 2002-09-25 2002-09-25 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム

Publications (2)

Publication Number Publication Date
JP2004117624A JP2004117624A (ja) 2004-04-15
JP4233831B2 true JP4233831B2 (ja) 2009-03-04

Family

ID=32273825

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002278582A Expired - Fee Related JP4233831B2 (ja) 2002-09-25 2002-09-25 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム

Country Status (1)

Country Link
JP (1) JP4233831B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005091476A (ja) * 2003-09-12 2005-04-07 Ntt Docomo Inc 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
US9666184B2 (en) 2014-12-08 2017-05-30 Samsung Electronics Co., Ltd. Method and apparatus for training language model and recognizing speech

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006171096A (ja) * 2004-12-13 2006-06-29 Ntt Docomo Inc 連続入力音声認識装置および連続入力音声認識方法
KR100745976B1 (ko) 2005-01-12 2007-08-06 삼성전자주식회사 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치
JP4410265B2 (ja) 2007-02-19 2010-02-03 株式会社東芝 音声認識装置及び方法
JP5966689B2 (ja) * 2012-07-04 2016-08-10 日本電気株式会社 音響モデル適応装置、音響モデル適応方法および音響モデル適応プログラム
CN106971720A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种更新噪声数据库的机器人语音识别方法及装置
JP7218601B2 (ja) * 2019-02-12 2023-02-07 日本電信電話株式会社 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005091476A (ja) * 2003-09-12 2005-04-07 Ntt Docomo Inc 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
JP4548646B2 (ja) * 2003-09-12 2010-09-22 株式会社エヌ・ティ・ティ・ドコモ 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
US9666184B2 (en) 2014-12-08 2017-05-30 Samsung Electronics Co., Ltd. Method and apparatus for training language model and recognizing speech
US10332510B2 (en) 2014-12-08 2019-06-25 Samsung Electronics Co., Ltd. Method and apparatus for training language model and recognizing speech

Also Published As

Publication number Publication date
JP2004117624A (ja) 2004-04-15

Similar Documents

Publication Publication Date Title
JP4548646B2 (ja) 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
JP4033299B2 (ja) 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
CN106683677B (zh) 语音识别方法及装置
JP3926858B2 (ja) スピーカーデータのクラスタリング方法
US5655058A (en) Segmentation of audio data for indexing of conversational speech for real-time or postprocessing applications
KR101807948B1 (ko) 잔향 환경에서의 음성인식을 위한 결합 학습된 심화신경망 앙상블 기반의 음향 모델 및 이를 이용한 음성인식 방법
JPH07287592A (ja) オーディオデータセグメントのクラスタリング方法
KR20140082157A (ko) 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법
JP5713818B2 (ja) 雑音抑圧装置、方法及びプログラム
JP4233831B2 (ja) 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
JP3919475B2 (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
Wan et al. Building HMM-TTS voices on diverse data
JP4964194B2 (ja) 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体
JP5740362B2 (ja) 雑音抑圧装置、方法、及びプログラム
KR101862352B1 (ko) 음성 인식을 위한 전처리 장치, 및 이를 이용한 음성 인식 장치 및 방법
JP4705535B2 (ja) 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム
JP4839555B2 (ja) 音声標準パタン学習装置、方法および音声標準パタン学習プログラムを記録した記録媒体
Yamamoto et al. Genetic algorithm-based improvement of robot hearing capabilities in separating and recognizing simultaneous speech signals
JP2005321660A (ja) 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体
JP2000075890A (ja) ヒドン・マルコフ・モデルの学習方法及び音声認識システム
Abdelmoula et al. A Deep Learning-Based Noise-Resilient Keyword Spotting Engine for Embedded Platforms
Pandya et al. Evaluating the impact of different acoustic contexts on German speech recognition
HUANG et al. Automatic context induction for tone model integration in mandarin speech recognition
WO2021033222A1 (ja) 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム
Chang et al. Evaluation of multi-level context-dependent acoustic model for large vocabulary speaker adaptation tasks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050525

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071002

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081210

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111219

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111219

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121219

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121219

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131219

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees