JP2008058679A - 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム - Google Patents

音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム Download PDF

Info

Publication number
JP2008058679A
JP2008058679A JP2006236286A JP2006236286A JP2008058679A JP 2008058679 A JP2008058679 A JP 2008058679A JP 2006236286 A JP2006236286 A JP 2006236286A JP 2006236286 A JP2006236286 A JP 2006236286A JP 2008058679 A JP2008058679 A JP 2008058679A
Authority
JP
Japan
Prior art keywords
speech
acoustic model
phoneme
learning
statistic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006236286A
Other languages
English (en)
Other versions
JP4705535B2 (ja
Inventor
Shoe Sato
庄衛 佐藤
Toru Imai
亨 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2006236286A priority Critical patent/JP4705535B2/ja
Publication of JP2008058679A publication Critical patent/JP2008058679A/ja
Application granted granted Critical
Publication of JP4705535B2 publication Critical patent/JP4705535B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】過学習が生じることなく、蓄積音声の有効的な利用を行うことができる音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラムを提供する。
【解決手段】音響モデル作成装置1は、参照する音声である参照音声に含まれる各音素で観測される特徴量の確率密度分布を用いた参照音響モデルを使用し、当該参照音声とは異なる学習音声について、当該参照音響モデルと共通の音素環境共有構造を有する音響モデルを作成するものであって、参照音響モデル取得手段3と、学習音声取得手段5と、学習音声統計量パラメータ算出手段7と、学習音声統計量パラメータ代入手段9と、モデル作成手段11と、を備える。
【選択図】図1

Description

本発明は、音声認識に用いる音響モデルを作成する音響モデル作成装置、音響モデル作成プログラム及び作成された音響モデルを用いた音声認識装置に関する。
従来、発声された発声音声の音声認識を行う際に、事前に蓄積されている蓄積音声に含まれている各音素で観測される特徴量の確率密度分布を用いた音響モデルが一般的に使用されている。また、発声音声の音声認識を行う際に、当該発声音声の認識率の向上を図るために、例えば、同じ母音の“あ”でも前後の音素環境によって特徴が異なることを考慮して、蓄積音声を用いて、音素環境ごとに別々に学習した音素環境依存の音響モデル(以下、音素環境依存音響モデルという)を準備しておくこととしている。
しかし、この音素環境依存音響モデルは、蓄積音声の量や言語的な特性によって、想定されうる全ての音素環境において十分な統計量を得ることが難しいので、発声音声の音声認識を行うのに最適なものとならない可能性がある。そこで、従来、蓄積音声に関して、破裂音、摩擦音であるなどの音素に関する事前の情報を利用して、当該蓄積音声では未観測の音素環境を含め、複数の音素環境をクラスタリングし、このクラスタリングした複数の音素環境で1つの音素環境依存音響モデルを共有して、統計量を得ている(例えば、非特許文献1参照)。
ここで、長母音(多数の音素の一つ、以下、単に音素ともいう)“a:”(あー)の音素環境の共有構造及び音素環境分類木の例を図6(a)に示す。また、音素環境のクラスタリングに用いた事前の情報(音素環境カテゴリ)の例を図6(b)に示す。この図6(a)に示すように、音素“a:”の前(L)後(R)の音素環境別に蓄積音声での尤度を基準として、最適な音素環境カテゴリを逐次適用しながら、前後の音素環境をクラスタリングし、その後、当該音素環境の特徴量の類似度が高いクラスタを統合することで、最終的に10個のクラスタが作成されている。
この最終的に作成された10個のクラスタから得られた音素環境の共有構造を、音素“a:”の全ての音素環境の共有構造が共有することとなる。この音素環境分類木を用いた方法によると、音素環境の共有構造は、蓄積音声の量と蓄積音声中の音素環境の出現頻度によって決定されることになり、異なった蓄積音声からは、異なった共有構造の音響モデルが作成されることになる。
ところで、発声音声の音声認識を行う際、当該音声認識の結果となって出力される単語列の候補となる候補単語を探索する探索アルゴリズムでは、発声音声(入力音声)の特徴量と、候補単語との照合を効率よく行うために、木構造の単語発音辞書(音素ネットワーク)が用いられている(例えば、非特許文献2)。
ここで、図7に木構造の単語発音辞書(音素ネットワーク)の一部を示す。この図7に示したように、探索音素列を木構造にすることで、単語列で重複する音素の探索空間を減ずることが可能になるため、効率よく候補単語の探索が可能となる。さらに、音素環境の共有構造を想定すると、図8に示すように、探索空間をより小さくすることができる。
なお、この図8に示した例では、“sh−t+a”と“sh−t+e”、“m−a+sh”と“m−a+s”、“g−a”と“g−a+Q”が同一の音素環境を有している。このため、木構造の単語発音辞書(音素ネットワーク)が、さらに小さくできた例示である。
ところでまた、音声認識においては、前記したように作成される音素環境依存音響モデルを、男女別、話者別、環境別等に作成することで、音声認識の認識精度の改善が期待されている(例えば、非特許文献3)が、問題点も残っている。
以下に、話者別の音素環境依存音響モデル(単に、音響モデルともいう)を例にして、当該音響モデルが話者別に複数作成される場合の問題点を説明する。
音声認識において、話者別の複数の音響モデルを、同時に利用する場合、音素環境の共有構造が蓄積音声によって決定される従来法では、話者別に複数の木構造の単語発音辞書(音素ネットワーク)を構成して、候補単語の探索を行う必要があるため、探索アルゴリズムが煩雑になると共に、複数の音響モデルを蓄積しなければならないので、これらを蓄積しておくメモリの利用効率が低下するという問題点があった。
ここで、図9に話者別の音響モデルの例を示す。この図9は、男性用音響モデルと女性用音響モデルとの2つの音響モデルを想定した際に、木構造の単語発音辞書(以下、木構造音素ネットワークともいう)を共有できる場合(共有の木構造を持つ場合、図9(b))と、共有できない場合(共有の木構造を持たない場合、図9(a))との探索空間を示したものである。この図9(b)に示したように、木構造音素ネットワークを共有できる場合には、男女共用木構造音素ネットワーク内を探索し、参照する音響モデルのパラメータのみを変更するだけですむため、探索の効率化が期待できる。
逆に、図9(a)に示したような場合、前記したように、探索アルゴリズムが煩雑になり、メモリの利用効率が低下する問題が生じるので、従来、この問題を解決するために、次に記載する2つの方法(1)及び(2)を用いて、共有の木構造を持つ話者別の音響モデルが作成されてきた。
(1)不特定話者用の音響モデルを話者別の蓄積音声でEMアルゴリズムにより再学習する(例えば、非特許文献3、4)。
(2)不特定話者用の音響モデルを話者別の蓄積音声で適応化する(MAP推定、例えば、非特許文献5、MLLR、例えば、非特許文献6)。
Steve Young et al.,"Tree-Based Clustering",HTK books,Sec.10.5,pp.150. H.Ney,et al."Improvement in Beam Search for 10000-word Continuous Speech Recognition,"ICASSP’92 pp.9-12,1992.3 佐藤他 "2段階クラスタリングに基づく選択学習による音響モデル適応化"、電子情報通信学会論文誌D−II、Vol.85−D−II No.2、pp174−183、2002.2 Steve Young et al.,"HMM Parameter Estimation",HTK book,Chap.8,pp.114. Steve Young et al.,"Model Adaptation using MAP",HTK book,Sec.9.3,pp.139. Steve Young et al.,"Linear Transformation Estimation Formulae",HTK book,Sec9.4,pp.140.
しかしながら、従来の、共有の木構造を持つ話者別の音響モデル(1)では、話者ごとの蓄積音声の不足により、EMアルゴリズムを実行しても十分な(信頼できる)統計量(統計量パラメータ)が得られず、この結果、蓄積音声が十分に得られていない音素のクラスタにおいて、過学習が生じてしまうという問題がある。なお、実用上、不特定話者用の蓄積音声と同規模の話者ごとの蓄積音声を得ることは困難であるため、過学習によって音声認識率が低下する影響は大きいと推測される。
また、共有の木構造を持つ話者別の音響モデル(2)では、当該音響モデルを適応化する際に過学習の問題は生じないが、統計量(統計量パラメータ)の再帰的な推定が困難であるため、当該統計量はEMアルゴリズムを実行して得られるような最尤推定値にならない。つまり、実用上、適応度合を決定する適応パラメータの最適化は容易ではなく、過学習を避けるため、最適化に至らずに(浅く、弱く)適応化する場合が多い。この場合、適応用のデータが十分にあり、信頼できる統計量が得られたとしても、音響モデルには反映されにくくなる。ちなみに、適応を最適化に至るように(深く、強く)行っていくと、EMアルゴリズムに近づくこととなる。共有の木構造を持つ話者別の音響モデル(2)では、話者ごとの蓄積音声が非常に少ない場合には有効であるが、話者ごとの蓄積音声が増加に伴って、蓄積音声の有効的な利用が困難になってしまうという問題がある。
そこで、本発明では、前記した問題を解決し、過学習が生じることなく、蓄積音声の有効的な利用を行うことができる音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラムを提供することを目的とする。
前記課題を解決するため、請求項1に記載の音響モデル作成装置は、参照する音声である参照音声に含まれる各音素で観測される特徴量の確率密度分布を用いた参照音響モデルを使用し、当該参照音声とは異なる学習音声について、当該参照音響モデルと共通の音素環境共有構造を有する音響モデルを作成する音響モデル作成装置であって、参照音響モデル取得手段と、学習音声取得手段と、学習音声統計量パラメータ算出手段と、学習音声統計量パラメータ代入手段と、モデル作成手段と、を備える構成とした。
かかる構成によれば、音響モデル作成装置は、参照音響モデル取得手段によって、参照音響モデルを取得する。また、音響モデル作成装置は、学習音声取得手段によって、学習音声を取得する。また、音響モデル作成装置は、学習音声統計量パラメータ算出手段によって、学習音声取得手段で取得した学習音声について、音響モデルにおいて各音素の前後に連続する連続音素に従って各音素の音素環境を分類した音素環境分類木のノードに対応付けられる当該学習音声の音素サンプルから統計量パラメータを算出する。
そして、音響モデル作成装置は、学習音声統計量パラメータ代入手段によって、参照音響モデルにおいて各音素の前後に連続する連続音素に従って各音素の音素環境を分類した音素環境分類木のノードの中の最上位のルートノードと、このルートノードから下位へと分岐する複数のリーフノードとについて、当該リーフノードに対応付けられる統計量として、学習音声統計量パラメータ算出手段で算出した統計量パラメータを代入する。続いて、音響モデル作成装置は、モデル作成手段によって、学習音声統計量パラメータ代入手段で各リーフノードに対応付けられる統計量として代入した統計量パラメータについて、音素サンプルのサンプル数から得られた信頼度が、予め定義した基準値を満たさない場合に、当該リーフノードよりも上位のリーフノードに対応付けられる統計量パラメータを用いて新たな統計量パラメータを算出し、音響モデルを作成する。
請求項2に記載の音声認識装置は、請求項1に記載の音響モデル作成装置で作成された音響モデルを採用した音声認識手段を備えることを特徴とする。
かかる構成によれば、音声認識装置は、音響モデル作成装置で作成された音響モデルを採用しているので、話者に適応した音声認識結果を出力することができる。
請求項3に記載の音響モデル作成プログラムは、参照する音声である参照音声に含まれる各音素で観測される特徴量の確率密度分布を用いた参照音響モデルを使用し、当該参照音声とは異なる学習音声について、当該参照音響モデルと共通の音素環境共有構造を有する音響モデルを作成するために、コンピュータを、参照音響モデル取得手段、学習音声取得手段、学習音声統計量パラメータ算出手段、学習音声統計量パラメータ代入手段、モデル作成手段、として機能させる構成とした。
かかる構成によれば、参照音響モデル取得手段によって、参照音響モデルを取得し、学習音声取得手段によって、学習音声を取得する。そして、音響モデル作成プログラムは、学習音声統計量パラメータ算出手段によって、学習音声取得手段で取得した学習音声について、音響モデルにおいて各音素の前後に連続する連続音素に従って各音素の音素環境を分類した音素環境分類木のノードに対応付けられる学習音声の音素サンプルから統計量パラメータを算出し、学習音声統計量パラメータ代入手段によって、参照音響モデルにおいて前記各音素の前後に連続する連続音素に従って前記各音素の音素環境を分類した音素環境分類木のノードの中の最上位のルートノードと、このルートノードから下位へと分岐する複数のリーフノードとについて、当該リーフノードに対応付けられる統計量として、学習音声統計量パラメータ算出手段で算出した統計量パラメータを代入する。その後、音響モデル作成プログラムは、モデル作成手段によって、学習音声統計量パラメータ代入手段で各リーフノードに代入した統計量パラメータについて、音素サンプルのサンプル数から得られた信頼度が、予め定義した基準値を満たさない場合に、当該リーフノードよりも上位のリーフノードに対応付けられる統計量パラメータを用いて新たな統計量パラメータを算出し、音響モデルを作成する。
請求項1、3に記載の発明によれば、予め蓄積音声に基づいて作成されている参照音響モデルの音素環境分類木の構造を用い、学習音声について、当該音素環境分類木のノードの統計量パラメータを算出して、音響モデルを作成しているので、過学習が生じることなく、蓄積音声の有効的な利用を行うことができる。
請求項2に記載の発明によれば、過学習が生じておらず、蓄積音声が有効的に利用された音響モデルを採用しているので、効率よく、話者に適応した音声認識結果を出力することができる。
次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
(音響モデル作成装置の構成)
図1は、音響モデル作成装置のブロック図である。この図1に示すように、音響モデル作成装置1は、予め蓄積されている参照音声から求められた参照音響モデルを用い、任意の話者が発声した学習音声から音響モデルを作成するもので、参照音響モデル取得手段3と、学習音声取得手段5と、学習音声統計量パラメータ算出手段7と、学習音声統計量パラメータ代入手段9と、モデル作成手段11と、を備えている。
参照音響モデル取得手段3は、参照音声から求められた、予め蓄積されている参照音響モデルを取得するものである。参照音声は複数の不特定話者(性別、年齢、出身地等が不問)が発声したものを蓄積したもの(蓄積音声)である。参照音響モデルは、複数の音素ごとに音素環境分類木を備えて構成されている。なお、参照音響モデルは、複数の不特定話者が発声した音声に基づいて生成されたものであるので、不特定話者音響モデルと呼称することもできる。
この参照音響モデル取得手段3は、予め作成されて図示を省略した蓄積手段に蓄積されている各音素の参照音響モデル(不特定話者音響モデル)を、逐次、取得している。なお、この音響モデル作成装置1では、参照音響モデル取得手段3によって、参照音響モデルを取得する構成としているが、実際に音声認識する対象となる音声が入力されるまでに、種々の話者が発声した音声を入力して、当該装置1によって作成した音響モデルを、参照音響モデルとして用いてもよい。つまり、この参照音響モデルは、予め外部の蓄積手段に蓄積されたものを入力してもよいし、予め当該装置1が蓄積手段を備えており、この蓄積手段から読み出して用いてもよい。
音素環境分類木は、複数のノード(分岐する箇所)からなる、いわゆるツリー構造を指し、ツリー構造の根幹となるルートノードと、このルートノードから分岐する複数のリーフノードとから構成されている。ここで、具体的な音素環境分類木の例を図2に示す。
図2に示すように、音素環境分類木の例は、参照音響モデルにおける音素の一つである長母音“a:”の場合である。この図2において、音素環境分類木の「○」がノードを示しており、‘a:’がルートノードを、a:1〜a:10が当該参照音響モデルと同じ共有構造を有する音響モデルの作成に必要なリーフノードを、n0〜n11がこのリーフノードの統計量を代入できる中間ノードを示している。また、各ノードの直下に示したL:Lab.やR:‘i’は分類ラベルを示しており、L:Lab.のLは、長母音a:の前につくことを、Rは、長母音a:の後につくことを示している。
なお、中間ノードは、ルートノードからリーフノードへと分岐していく途中のノードである。この中間ノードにおいて、後記する、参照音響モデルにおける統計量パラメータの信頼度の基準(基準値)と、入力された統計量パラメータ(学習音声)の信頼度とが比較判定されることとなる。また、ここでは、中間ノードと、ルートノードおよびリーフノードとを区別しているが、中間ノードは、ルートノードの1種(下位のノードからすると1つの上位のノード)と見なすことができる(特許請求の範囲では、ルートノードおよびリーフノードのみを区別しており、中間ノードは区別していない。ただし、これらのノードは、名称が異なるだけで、再帰的に適用可能である)。
また、図2において、各中間ノードを分岐する際に、正しい場合には、「ture」の側に進むことを、正しくない場合には「false」の側に進むことを示している。
学習音声取得手段5は、音響モデルを作成する学習音声(音声認識の対象となる音声)を取得するものである。この学習音声取得手段5によって、実際に学習音声は、録音されたものが入力されてもよいし、その場で発声されたものが入力されてもよい。なお、学習音声は、複数の音声のデータ(サンプルデータ)からなり、このサンプルデータのサンプル数から信頼度を得ている。
なお、信頼度は、学習音声中の音素サンプル数、フレーム数、MDL(K.Shinoda et al.,”MDL-based context-dependent subword modeling for speech recognition”,J.Acoust.Soc.Jpn.(E),vol.21,no.2,pp.79-86,2000.)等の統計量基準を用いることができる(学習音声の収録時間(発声している時間)が増加すると、音素サンプルの分布にもよるが、信頼度は上昇する傾向にある)。ここでは、信頼度は、各ノードに対応するサンプル数と等価としている。なお、単純には、各モデルに割り当てられたフレーム数が閾値以上のときに信頼できるとして、F(“a:”)>Nとしている。
例えば、学習音声として、成年男性または成年女性の健常者が発声した音声を取得することとする。この場合、学習音声は、参照音響モデルを作成するのに用いた参照音声に比べ、データ量が少ない。つまり、特定の話者から、音声認識の対象となる音声のデータを大量に得られることは希である。このため、学習音声のみから音響モデルを作成しようとすると、統計的な処理結果である音響モデルは偏ったものとなりがちであり、過学習が発生するおそれがある。そこで、この音響モデル作成装置1では、以下の処理を施している。
なお、学習音声は、発声内容(音素列)の分かっている約10時間程度の音声データによって構成されている。このように、特定の話者の音響モデルを作成するのに、当該特定の話者が発声した10時間以上もの音声データが必要になるが、不特定話者が発声した蓄積音声は500時間程度必要であるので、この蓄積音声に比べれば、短時間ですむ。なお、この学習音声を、ある番組、例えば、毎日1時間程度放送されているニュース番組中に発声された音声データから得る場合には、当該学習音声は容易に取得できる。このような例では、番組に出演している男女別の音響モデルを作成する場合や、特定のキャスターの音響モデルを作成する場合や、番組ごとに音響モデルを作成する場合が想定される。
ちなみに、この学習音声の発声時間(データ量)が数分程度であれば、前記したMLLRを有効に活用でき、10時間程度であれば、前記したMAPを有効に活用でき、10時間から500時間(蓄積音声と同程度)程度であれば、当該装置1を有効に活用することできる。
学習音声統計量パラメータ算出手段7は、学習音声取得手段5で取得した学習音声の統計量パラメータを算出するものである。学習音声の統計量パラメータは、再帰的なEMアルゴリズムを基礎として得られる数値であり、例えば、混合ガウス分布をモデル化して得られたデータ群(数値群)である。なお、これらのデータ群(数値群)は、参照音響モデル取得手段3で取得された音素環境分類木のノードごとに(各ノードに対応して)求められるものである。
学習音声統計量パラメータ代入手段9は、学習音声統計量パラメータ算出手段7で算出した統計量パラメータを、参照音響モデル取得手段3で取得した各音素の音素環境分類木の各ノードに対応付けられる統計量として代入していくものである(ここでは、各音素の音素環境分類木の各ノードに対応付けられる統計量として、算出した統計量パラメータを当てはめていくとしています。つまり、モデル(混合ガウス分布モデル)をコピーしていく)。
モデル作成手段11は、参照音響モデルの各ノードにおける信頼度を求め、この信頼度を基準とし、学習音声統計量パラメータ代入手段9で音素環境分類木に統計量パラメータを代入することで、音響モデルを作成するものである。このモデル作成手段11では、参照音響モデルの音素環境分類木のルートノードから、末端のリーフノードに至るまで、学習音声統計量パラメータ代入手段9で当該音素環境分類木に代入した統計量パラメータについて、信頼度を満たすか否かを判定して、各ノードの統計量パラメータを決定していくことで、新たな音響モデルが作成される。
信頼度は、C(Node名)で定義しており、このC(Node名)は、学習音声中に出現する中心音素のトライフォンを音素環境分類木で分類したときに、各ノードで分類されるトライフォンの延べ総数である。この総数がN(基準値)以上(例えば20以上)であれば、音響モデルとして、当該ノードをそのまま利用可能であるとする。また、N未満であれば、当該ノードをそのまま利用不可であるとし、当該ノードの上位ノードで得られる統計量パラメータを当該ノードの統計量パラメータの代わりに用いることとしている。
つまり、信頼度が基準値を超えた場合に、学習音声統計量パラメータ算出手段7で算出された学習音声統計量パラメータがそのノードでそのまま採用され、信頼度が基準値を超えない場合にはそのノードの上位ノードの学習音声統計量パラメータがそのまま、または、何らかのマージがされて採用されることになる。
ここで、図3、図4を参照して、モデル作成手段11によって新たな音響モデルが作成される過程について説明する(適宜、図2参照)。図3は、リーフノードa:1、a:2の統計量パラメータが1つの上位ノード(中間ノードn10)によって決定される過程を示している。図4は、リーフノードa:6の統計量パラメータが複数の上位ノード(中間ノードn08、n11)によって決定される過程を示している。
図3(a)に示すように、参照音響モデルの音素環境分類木は、中間ノードn10に上位ノードn08からの統計量パラメータが入力され、当該中間ノードn10がリーフノードa:1と、リーフノードa:2とに分岐されている。
この場合、図3(b)〜図3(e)に示す過程が想定される。すなわち、図3(b)に示すように、C(a:1)>N、C(a:2)<N、C(n10)>Nの場合、中間ノードn10の統計量パラメータ(統計量)を学習して(そのまま採用して)リーフノードa:2にコピーする。また、図3(c)に示すように、C(a:1)<N、C(a:2)<N、C(n10)>Nの場合、中間ノードn10の統計量パラメータ(統計量)を学習して(そのまま採用して)、リーフノードa:1およびリーフノードa:2にコピーする。
また、図3(d)に示すように、C(a:1)<N、C(a:2)>N、C(n10)>Nの場合、中間ノードn10の統計量パラメータ(統計量)を学習して(そのまま採用して)、リーフノードa:1にコピーする。さらに、図3(e)に示すように、C(a:1)<N、C(a:2)<N、C(n10)<Nの場合、中間ノードn08の統計量パラメータ(統計量)を学習して(そのまま採用して)、中間ノードn10、リーフノードa:1およびリーフノードa:2にコピーする。
図4(a)に示すように、参照音響モデルの音素環境分類木は、リーフノードa:6に中間ノードn11と中間ノードn08とからの統計量パラメータが入力されている。この場合、図4(b)に示す過程が想定され、C(a:6)<Nの場合、中間ノードn08と中間ノードn10の統計量パラメータ(統計量)をマージして(例えば、算術平均をとって)、リーフノードa:6にコピーする。図1に戻る。
この音響モデル作成装置1によれば、参照音響モデル取得手段3によって、蓄積音声から得られた参照音響モデルにおける音素環境分類木の構造を利用しつつ、学習音声の統計量パラメータを当てはめていき、学習音声の統計量パラメータが十分にない場合には、参照音響モデルの統計量パラメータが採用されていくことになるので、過学習が生じることなく、蓄積音声の有効的な利用を行うことができる。
この音響モデル作成装置1に音声認識手段13を付加すれば音声認識装置を成すことができる。この音声認識手段13は、学習音声を発声した話者が、改めて発声した発声音声を入力とし、音響モデル作成装置1で作成された音響モデルを利用して、当該発声音声の認識し、認識した結果である音声認識結果(テキストデータ)を出力するものである。
この音声認識装置によれば、音響モデル作成装置1で作成された音響モデルを採用しているので、話者に適応した音声認識結果を出力することができる。
(音響モデル作成装置の動作)
次に、図5に示すフローチャートを参照して、音響モデル作成装置の動作を説明する(適宜、図1参照)。
まず、音響モデル作成装置1は、参照音響モデル取得手段3によって、参照音響モデルを取得する(ステップS1)。また、音響モデル作成装置1は、音響モデルを作成する対象となる話者が発声した学習音声を、学習音声取得手段5によって取得する(ステップS2)。
続いて、音響モデル作成装置1は、学習音声統計量パラメータ算出手段7によって、学習音声統計量パラメータを算出する(ステップS3)。そして、音響モデル作成装置1は、学習音声統計量パラメータ代入手段9によって、参照音響モデル取得手段3で取得した参照音響モデルのノードに、学習音声統計量パラメータ算出手段7で算出した学習音声統計量パラメータを代入する(ステップS4)。
そして、音響モデル作成装置1は、モデル作成手段11によって、各ノードの信頼度が基準値以上か否かを判定して、音響モデルを作成し、出力する(ステップS5)。
以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、音響モデル作成装置1として説明したが、当該装置1の各構成の処理を実行可能とするように、一般的または特殊なコンピュータ言語で記述した音響モデル作成プログラムとして構成することも可能である。
本発明の実施形態に係る音響モデル作成装置のブロック図である。 音素環境分類木の例を示した図である。 1つのノードから統計量パラメータが代入される過程を示した図である。 複数のノードから統計量パラメータが代入される過程を示した図である。 図1に示した音響モデル作成装置の動作を説明したフローチャートである。 音素環境分類木の例を示した図である。 従来の木構造音素ネットワークの一例を示した図である。 従来の効率化した木構造音素ネットワークの一例を示した図である。 木構造ネットワークを共有できる場合とできない場合とを示した図である。
符号の説明
1 音響モデル作成装置
3 参照音響モデル取得手段
5 学習音声取得手段
7 学習音声統計量パラメータ算出手段
9 学習音声統計量パラメータ代入手段
11 モデル作成手段
13 音声認識手段

Claims (3)

  1. 参照する音声である参照音声に含まれる各音素で観測される特徴量の確率密度分布を用いた参照音響モデルを使用し、当該参照音声とは異なる学習音声について、当該参照音響モデルと共通の音素環境共有構造を有する音響モデルを作成する音響モデル作成装置であって、
    前記参照音響モデルを取得する参照音響モデル取得手段と、
    前記学習音声を取得する学習音声取得手段と、
    この学習音声取得手段で取得した学習音声について、前記音響モデルにおいて前記各音素の前後に連続する連続音素に従って前記各音素の音素環境を分類した音素環境分類木のノードに対応付けられる当該学習音声の音素サンプルから統計量パラメータを算出する学習音声統計量パラメータ算出手段と、
    前記参照音響モデルにおいて前記各音素の前後に連続する連続音素に従って前記各音素の音素環境を分類した音素環境分類木のノードの中の最上位のルートノードと、このルートノードから下位へと分岐する複数のリーフノードとについて、当該リーフノードに対応付けられる統計量として、前記学習音声統計量パラメータ算出手段で算出した統計量パラメータを代入する学習音声統計量パラメータ代入手段と、
    この学習音声統計量パラメータ代入手段で各リーフノードに対応付けられる統計量として代入した統計量パラメータについて、前記音素サンプルのサンプル数から得られた信頼度が、予め定義した基準値を満たさない場合に、当該リーフノードよりも上位のリーフノードに対応付けられる統計量パラメータを用いて新たな統計量パラメータを算出し、前記音響モデルを作成するモデル作成手段と、
    を備えることを特徴とする音響モデル作成装置。
  2. 請求項1に記載の音響モデル作成装置で作成された音響モデルを採用した音声認識手段を備えることを特徴とする音声認識装置。
  3. 参照する音声である参照音声に含まれる各音素で観測される特徴量の確率密度分布を用いた参照音響モデルを使用し、当該参照音声とは異なる学習音声について、当該参照音響モデルと共通の音素環境共有構造を有する音響モデルを作成するために、コンピュータを、
    前記参照音響モデルを取得する参照音響モデル取得手段、
    前記学習音声を取得する学習音声取得手段、
    この学習音声取得手段で取得した学習音声について、前記音響モデルにおいて前記各音素の前後に連続する連続音素に従って前記各音素の音素環境を分類した音素環境分類木のノードに対応付けられる当該学習音声の音素サンプルから統計量パラメータを算出する学習音声統計量パラメータ算出手段、
    前記参照音響モデルにおいて前記各音素の前後に連続する連続音素に従って前記各音素の音素環境を分類した音素環境分類木のノードの中の最上位のルートノードと、このルートノードから下位へと分岐する複数のリーフノードとについて、当該リーフノードに対応付けられる統計量として、前記学習音声統計量パラメータ算出手段で算出した統計量パラメータを代入する学習音声統計量パラメータ代入手段、
    この学習音声統計量パラメータ代入手段で各リーフノードに対応付けられる統計量として代入した統計量パラメータについて、前記音素サンプルのサンプル数から得られた信頼度が、予め定義した基準値を満たさない場合に、当該リーフノードよりも上位のリーフノードに対応付けられる統計量パラメータを用いて新たな統計量パラメータを算出し、前記音響モデルを作成するモデル作成手段、
    として機能させることを特徴とする音響モデル作成プログラム。
JP2006236286A 2006-08-31 2006-08-31 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム Active JP4705535B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006236286A JP4705535B2 (ja) 2006-08-31 2006-08-31 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006236286A JP4705535B2 (ja) 2006-08-31 2006-08-31 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム

Publications (2)

Publication Number Publication Date
JP2008058679A true JP2008058679A (ja) 2008-03-13
JP4705535B2 JP4705535B2 (ja) 2011-06-22

Family

ID=39241468

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006236286A Active JP4705535B2 (ja) 2006-08-31 2006-08-31 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム

Country Status (1)

Country Link
JP (1) JP4705535B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011180596A (ja) * 2010-03-02 2011-09-15 Toshiba Corp 音声プロセッサ、音声処理方法および音声プロセッサの学習方法
JPWO2014061230A1 (ja) * 2012-10-16 2016-09-05 日本電気株式会社 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001013986A (ja) * 1999-06-29 2001-01-19 Nec Corp 音声認識用音響モデルの話者適応装置及び方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001013986A (ja) * 1999-06-29 2001-01-19 Nec Corp 音声認識用音響モデルの話者適応装置及び方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011180596A (ja) * 2010-03-02 2011-09-15 Toshiba Corp 音声プロセッサ、音声処理方法および音声プロセッサの学習方法
US9043213B2 (en) 2010-03-02 2015-05-26 Kabushiki Kaisha Toshiba Speech recognition and synthesis utilizing context dependent acoustic models containing decision trees
JPWO2014061230A1 (ja) * 2012-10-16 2016-09-05 日本電気株式会社 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム

Also Published As

Publication number Publication date
JP4705535B2 (ja) 2011-06-22

Similar Documents

Publication Publication Date Title
JP5768093B2 (ja) 音声処理システム
CN106683677B (zh) 语音识别方法及装置
US10249294B2 (en) Speech recognition system and method
JP3948747B2 (ja) ツリー構成確率密度に基づくパターン認識の方法及びシステム
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
US8731926B2 (en) Spoken term detection apparatus, method, program, and storage medium
Huijbregts et al. Unsupervised acoustic sub-word unit detection for query-by-example spoken term detection
US8494853B1 (en) Methods and systems for providing speech recognition systems based on speech recordings logs
Huijbregts Segmentation, diarization and speech transcription: surprise data unraveled
Chen et al. Strategies for Vietnamese keyword search
JP2007047818A (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
PT1564722E (pt) Identificação automática de autores de chamadas telefónicas com base em características vocais
WO2018192186A1 (zh) 语音识别方法及装置
US20070118353A1 (en) Device, method, and medium for establishing language model
Chien Online hierarchical transformation of hidden Markov models for speech recognition
Moyal et al. Phonetic search methods for large speech databases
Bhati et al. Unsupervised Speech Signal to Symbol Transformation for Zero Resource Speech Applications.
Sharma et al. Speech recognition in Kannada using HTK and julius: a comparative study
JP2004198597A (ja) 音声認識装置および文分類装置としてコンピュータを動作させるコンピュータプログラム、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラム、および記憶媒体
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
KR101424496B1 (ko) 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP4705535B2 (ja) 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム
Zhou et al. Extracting unit embeddings using sequence-to-sequence acoustic models for unit selection speech synthesis
Manjunath et al. Articulatory and excitation source features for speech recognition in read, extempore and conversation modes
Chung et al. Unsupervised discovery of structured acoustic tokens with applications to spoken term detection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081029

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110311

R150 Certificate of patent or registration of utility model

Ref document number: 4705535

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250