JP2004279466A - 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム - Google Patents
音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム Download PDFInfo
- Publication number
- JP2004279466A JP2004279466A JP2003066933A JP2003066933A JP2004279466A JP 2004279466 A JP2004279466 A JP 2004279466A JP 2003066933 A JP2003066933 A JP 2003066933A JP 2003066933 A JP2003066933 A JP 2003066933A JP 2004279466 A JP2004279466 A JP 2004279466A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- noise
- model
- clustering
- likelihood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 77
- 230000006978 adaptation Effects 0.000 title claims description 65
- 239000011159 matrix material Substances 0.000 claims abstract description 13
- 238000006243 chemical reaction Methods 0.000 claims abstract description 11
- 230000009466 transformation Effects 0.000 claims description 43
- 238000007476 Maximum Likelihood Methods 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 abstract description 18
- 230000000694 effects Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 101100366000 Caenorhabditis elegans snr-1 gene Proteins 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】雑音対信号比条件に合わせて雑音を音声に重畳することにより雑音重畳音声を作成し(ステップS1)、作成された雑音重畳音声について音声ケプストラムの平均値を差引く処理を行い(ステップS2)、各雑音重畳音声のガウス分布モデルを作成し(ステップS3)、各雑音重畳音声間の尤度を計算して尤度行列を作成することにより(ステップS4)、クラスタリング結果を得る。最適なモデルを選択し(ステップS7)、尤度が最大となるように線形変換する(ステップS8)。
【効果】雑音重畳音声に対して、クラスタリング過程とモデル学習過程とを行うので、多くの雑音データについてのクラスタリング処理、正確な音声モデル系列推定を実現できる。
【選択図】 図3
Description
【発明の属する技術分野】
本発明は音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラムに関し、特に音声の特徴を隠れマルコフモデル(Hidden Markov Model;以下HMMと略称する)によってモデル化したクリーンな音声モデルを、認識対象となる雑音音声を用いて、その雑音環境に対する認識率を高めるように適応化する音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラムに関する。
【0002】
【従来の技術】
従来の木構造区分線形変換手法として、非特許文献1がある。非特許文献1に記載されている手法に従うと、雑音のクラスタリングを行い、このクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成し、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出し、木構造の雑音音声モデル空間から最適なモデルを選択し、選択されたモデルについて尤度が更に大きくなるように線形変換を行うことにより、入力音声に対する音声モデル系列の推定をより正確に行うことができる。
【0003】
【非特許文献1】
張 志鵬 他著「区分線形変換による雑音適応化法における木構造クラスタリングの効果」日本音響学会2002年秋季発表会、pp.29−30
【0004】
【発明が解決しようとする課題】
上述した非特許文献1による雑音重畳音声モデルの作成過程においては、雑音データのみに対しクラスタリングを行い、次に雑音を音声に重畳し、雑音重畳音声モデルを学習することになる。このように処理を行う場合、クラスタリング過程の雑音においての特性とモデル学習過程においての雑音重畳音声モデル特性とに不一致が生じるという問題がある。
【0005】
本発明は上述した従来技術の欠点を解決するためになされたものであり、その第1の目的は多くの雑音データについて最適にクラスタリング処理をすることのできる音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラムを提供することである。
また、本発明の第2の目的は、上記クラスタリング結果を利用することにより、音声認識率を高めることのできる音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラムを提供することである。
【0006】
【課題を解決するための手段】
本発明の請求項1による音声モデルの雑音適応化システムは、クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化する音声モデルの雑音適応化システムであって、雑音が重畳された雑音重畳音声のクラスタリングを行うクラスタリング手段と、このクラスタリング手段のクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成手段と、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出手段と、前記音声モデル空間作成手段によって作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択手段と、この選択手段によって選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換手段とを含むことを特徴とする。このように、クラスタリング過程とモデル学習過程とを、一貫して雑音重畳音声に対して行うことによって、多くの雑音データについて最適にクラスタリング処理をすることができると共に、入力音声に対する音声モデル系列の推定をより正確に行うことができる。
【0007】
本発明の請求項2による音声モデルの雑音適応化システムは、請求項1において、前記クラスタリング手段は、雑音対信号比条件に合わせて前記雑音を音声に重畳することにより前記雑音重畳音声を作成し、作成された雑音重畳音声について音声ケプストラムの平均値を差引く処理を行い、各雑音重畳音声のガウス分布モデルを作成し、各雑音重畳音声間の尤度を計算して尤度行列を作成することにより、クラスタリング結果を得ることを特徴とする。こうすることにより、雑音重畳音声に対して、クラスタリング処理を行うことができる。
【0008】
本発明の請求項3による音声モデルの雑音適応化システムは、請求項1又は2において、前記選択手段は、前記パラメータ抽出手段によって抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択することを特徴とする。尤度が最大となるモデルを選択することにより、音声認識精度を高めることができる。
【0009】
本発明の請求項4による音声モデルの雑音適応化システムは、請求項3において、前記選択手段は、前記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択することを特徴とする。木構造の上層から下層に向かってたどることによって最適なモデルを選択することができる。
【0010】
本発明の請求項5による音声モデルの雑音適応化システムは、請求項1乃至4のいずれか1項において、前記線形変換手段は、前記選択手段によって選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことを特徴とする。線形変換を行うことにより、尤度を最大にすることができる。
【0011】
本発明の請求項6による音声モデルの雑音適応化方法は、クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化する音声モデルの雑音適応化方法であって、雑音が重畳された雑音重畳音声のクラスタリングを行うクラスタリングステップと、このクラスタリングステップによるクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成ステップと、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出ステップと、前記音声モデル空間作成ステップにおいて作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択ステップと、この選択ステップにおいて選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換ステップとを含むことを特徴とする。このように、クラスタリング過程とモデル学習過程とを、一貫して雑音重畳音声に対して行うことによって、入力音声に対する音声モデル系列の推定をより正確に行うことができる。
【0012】
本発明の請求項7による音声モデルの雑音適応化方法は、請求項6において、前記クラスタリングステップにおいては、雑音対信号比条件に合わせて前記雑音を音声に重畳することにより前記雑音重畳音声を作成し、作成された雑音重畳音声について音声ケプストラムの平均値を差引く処理を行い、各雑音重畳音声のガウス分布モデルを作成し、各雑音重畳音声間の尤度を計算して尤度行列を作成することにより、クラスタリング結果を得ることを特徴とする。こうすることにより、雑音重畳音声に対して、クラスタリング処理を行うことができる。
【0013】
本発明の請求項8による音声モデルの雑音適応化方法は、請求項6又は7において、前記選択ステップにおいては、前記パラメータ抽出ステップにおいて抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択することを特徴とする。尤度が最大となるモデルを選択することにより、音声認識精度を高めることができる。
【0014】
本発明の請求項9による音声モデルの雑音適応化方法は、請求項8において、前記選択ステップにおいては、前記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択することを特徴とする。木構造の上層から下層に向かってたどることによって最適なモデルを選択することができる。
【0015】
本発明の請求項10による音声モデルの雑音適応化方法は、請求項6乃至9のいずれか1項において、前記線形変換ステップにおいては、前記選択ステップにおいて選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことを特徴とする。線形変換を行うことにより、尤度を最大にすることができる。
【0016】
本発明の請求項11による音声認識雑音適応化プログラムは、コンピュータを制御することにより、クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化するための音声認識雑音適応化プログラムであって、雑音が重畳された雑音重畳音声のクラスタリングを行うクラスタリングステップと、このクラスタリングステップによるクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成ステップと、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出ステップと、前記音声モデル空間作成ステップにおいて作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択ステップと、この選択ステップにおいて選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換ステップとを含むことを特徴とする。このように、クラスタリング過程とモデル学習過程とを、一貫して雑音重畳音声に対して行うことによって、入力音声に対する音声モデル系列の推定をより正確に行うことができる。
【0017】
本発明の請求項12による音声認識雑音適応化プログラムは、請求項11において、前記クラスタリングステップにおいては、雑音対信号比条件に合わせて前記雑音を音声に重畳することにより前記雑音重畳音声を作成し、作成された雑音重畳音声について音声ケプストラムの平均値を差引く処理を行い、各雑音重畳音声のガウス分布モデルを作成し、各雑音重畳音声間の尤度を計算して尤度行列を作成することにより、クラスタリング結果を得ることを特徴とする。こうすることにより、雑音重畳音声に対して、クラスタリング処理を行うことができる。
【0018】
本発明の請求項13による音声認識雑音適応化プログラムは、請求項11又は12において、前記選択ステップにおいては、前記パラメータ抽出ステップにおいて抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択することを特徴とする。尤度が最大となるモデルを選択することにより、音声認識精度を高めることができる。
【0019】
本発明の請求項14による音声認識雑音適応化プログラムは、請求項13において、前記選択ステップにおいては、前記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択することを特徴とする。木構造の上層から下層に向かってたどることによって最適なモデルを選択することができる。
【0020】
本発明の請求項15による音声認識雑音適応化プログラムは、請求項11乃至14のいずれか1項において、前記線形変換ステップにおいては、前記選択ステップにおいて選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことを特徴とする。線形変換を行うことにより、尤度を最大にすることができる。
【0021】
要するに本発明では、雑音データベースを用いて、SNR条件に合わせて、クリーンな音声に雑音を重畳する(後述するステップS1)。この雑音重畳音声に対しクラスタリングを行って木構造雑音重畳音声モデル空間を構築する。雑音重畳音声モデル空間において、各木構造ノードに属する雑音をクリーンな音声に重畳し、雑音重畳音声のモデルを構築する(後述するステップS3)。雑音重畳音声の木構造モデル空間において、尤度を計算し(後述するステップS4)、上から下にたどり最適なモデルを選択する(後述するステップS7)。このように選択された適応化音声モデル系列のモデルパラメータに基づいて尤度が最大となるように線形変換を行う(後述するステップS8)。
【0022】
つまり、モデル学習過程のみならず、クラスタリング過程においても雑音重畳音声に対して処理を行う。このように、クラスタリング過程とモデル学習過程とを、一貫して雑音重畳音声に対して行うことによって、最尤の雑音重畳音声モデルを学習できる。したがって、高い認識精度を達成できる。
【0023】
【発明の実施の形態】
次に、図面を参照して本発明の実施の形態について説明する。なお、以下の説明において参照する各図においては、他の図と同等部分に同一符号が付されている。
本発明においては、雑音音声モデル空間を、雑音対信号比すなわちSNR(signal−to−noise ratio)と音質とによって、木構造的に作成しておく。木構造で雑音特性を表すことにより、木構造の上層では雑音特性の大局的な特徴、下層では局所的な特徴を表現するモデルが得られる。この木構造を上から下にたどりルートからトップダン方式で最適なモデルを選択することにより、最適な雑音区分空間を選択できる。
【0024】
そして、クラスタリング過程とモデル学習過程とを、一貫して雑音重畳音声に対して行うことによって、最尤の雑音重畳音声モデルを学習でき、認識精度を高めることができる。
(本システムの構成)
この処理を実現するための構成について図1を参照して説明する。同図は、本発明による雑音適応化システムの実施の一形態を示すブロック図である。同図に示されているように、本実施形態による雑音適応化システムは、木構造モデル記憶部1と、特徴抽出部2と、音声認識部3と、モデル選択判定部4と、モデル線形変換適応部5と、認識結果保存部6とを含んで構成されている。
【0025】
木構造モデル記憶部1は、雑音重畳音声のクラスタリングの結果によって、雑音重畳音声HMMを二段階(SNR及び雑音性質)の木構造に作成し、保存する部分である。
特徴抽出部2は、入力された音声データを分析して特徴ベクトルに変換する分析部分である。
【0026】
音声認識部3は、特徴ベクトルの時系列に変換された上記入力音声データをViterbiアルゴリズムによって、尤度関数が最大となるモデル系列を求める部分である。
モデル選択判定部4は、木構造モデル記憶部1に記憶されているモデルの中から、尤度が最大となるように最適なモデルを選択する部分である。
【0027】
モデル線形変換適応部5は、モデル選択判定部4によって選択されるモデルで、尤度が最大化するように線形変換を行う部分である。
認識結果保存部6は、音声の認識結果を保存する部分である。
(本システムの動作)
以上の構成からなる本システムの動作について、図2及び図3を参照して説明する。図2は、本システムの動作の流れに従って図1中の各部1〜6を並べ替えた機能ブロック図である。図3は本システムによる処理手順を示すフロー図である。
【0028】
本システムを使った音声認識を実施する手順は、以下のステップS1〜S9のようになる。
ステップS1(雑音が重畳された音声の作成過程):雑音データベースを用いて、SNR条件に合わせて、クリーンな音声に重畳し、雑音が重畳された音声すなわち雑音重畳音声を作成する。なお、本例では、SNR=5,10,15dBとする。
【0029】
ステップS2(雑音重畳音声の平均差引き適応過程):ステップS1で作成される雑音重畳音声に対し、CMS(Cepstral Mean Subtraction)を適用する。CMSは、音声ケプストラム(Cepstral)の平均を差引く手法である。すなわち、一定区間の音声データに対し、あらゆるフレームのケプストラムの平均値を計算し、フレームごとにこの平均値を差引く処理が行われる。ケプストラムとは、フーリエ変換によって求められたパワースペクトルの対数値をさらにフーリエ変換したものである。なお、このCMSについては、文献「Furui:Cepstral Analysis Technique For Automatic Speaker Verification,IEEE Transaction on Acoustical Speech and Signal Processing、Vol.ASSP−29,pp.254−272,1981年」に記載されている。
【0030】
ステップS3(雑音重畳音声モデルの作成過程):各雑音重畳音声の混合ガウス分布モデル(GMM)をBaum−Welchアルゴリズムによって作成する。Baum−Welchアルゴリズムでは、適当な初期値から始めて、繰り返しによって最適値に近づくというアプローチをとる。なお、このBaum−Welchアルゴリズムは、文献「中川聖一著:“確率モデルによる音声認識”、電子情報通信学会、1988」に記載されている。
【0031】
ステップS4(雑音重畳音声のクラスタリング過程):次に、ガウス分布モデルを用いて、各雑音重畳音声間の尤度を計算し、尤度行列を作成する。この尤度行列に基づいてSPLIT法を用いて、逐次的に雑音重畳音声のクラスタリングを行う。このSPLIT方法ではひずみが最大となるクラスタを順次分割する。よって任意の数のクラスタを作成できる。クラスタ数さえ与えれば、完全に自動的にクラスタリンングの結果が得られる。なお、このSPLIT法は、文献「菅村 他、音声研究会資料、S82−64,1982年」に記載されている。
【0032】
ステップS5(区分線形変換適応への適用):上記のステップS4により、雑音重畳音声の木構造クラスタリング結果が得られる。このクラスタリング結果を木構造モデル記憶部1に保存する。このクラスタリング結果は、木構造で特性を表しているので、木構造の上層では雑音重畳音声の大局的な特徴を、下層では局所的な特徴を、それぞれ表現している。
【0033】
このクラスタリング結果を、区分線形変換手法に適用する。この区分線形変換手法は、文献「張他、日本音響学会2002年秋季発表会、pp.29−30」に記載されている。具体的には以下のステップS6〜S9の処理が行われる。
ステップS6(特徴量抽出過程):特徴抽出部2において、認識対象雑音音声データの特徴量を抽出する。特徴量抽出は、入力された音声データを一定フレーム毎に線形予測符号化(Linear Prediction Coding;LPC)分析し、ケプストラム又はΔケプストラムなどの特徴パラメータベクトルの時系列を特徴パラメータ列として得る。
【0034】
ステップS7(最適モデル選択):最適モデル選択について、図4を参照して説明する。図4において、一番上のノード(root)はクリーン音声モデルを表す。その下にはSNRごとにN個のモデルがある。N個のモデルとは、モデルSNR−1〜モデルSNR−Nである。これらN個のモデルSNR−1〜モデルSNR−Nは特定SNR条件での全雑音を混合した音声から学習したモデルを表す。
【0035】
そのさらに下にある子ノードはクラスタリング結果によって、選択された一部の雑音種類を混合した音声データから学習したモデルを表す。この木構造の一番下にあるのはある特定雑音(1種類だけ)を混合した音声から学習したモデルである。木構造の上層では雑音特性の大局的な特徴、下層では局所的な特徴を表現する。
【0036】
認識するときは、まずrootのクリーン不特定モデルを用いて、ステップS4で得られた特徴パラメータ列によって、尤度を計算する。これは図1中の音声認識部3によって行われる。
次に、rootの下の各モデルを用いて、同じく音声認識部3によって尤度を計算する。以上で得られた尤度の値を用いて、モデル選択判定部4によって最適モデルを選択する。具体的に以下のように処理する。rootのクリーン不特定モデルの尤度より高いモデルを保留する。これらのSNR条件でさらに下へ各子ノードのモデルを用いて尤度を計算する。2つの子ノードモデルと親ノードの尤度を比較し、尤度最大のモデルは子ノードモデルであれば、さらに下へたどる。親ノードの方が一番高ければ、計算を停止し、この親ノードを最適なノードだと判断する。
【0037】
図4には、探索パスが実線で表されている。この計算を繰り返すと最適な空間を見つけることができる。また、各SNR条件の尤度最大となるモデルの尤度を比較し、最大となるモデルが全体の雑音音声空間での最適モデルだとする。例えば、図4中のSNR−1条件では4番ノードが尤度最大である。また、同図中のSNR−N条件では5番ノードが尤度最大である。そして、これら各SNR条件において最大のモデルの中からさらに尤度同士を比較し、選択する。
【0038】
ステップS8(線形変換):選択されるモデルについて、モデル線形変換適応部5によってさらに尤度が最大化するように線形変換(Maximum Likelihood Liner Regresion;以下MLLRと略称する)を行う。この線形変換については、文献「Mean and varianceadaptation within the MLLR framework」(M.J.F Gales et al.、Computer Speech and Language、pp.249−264、1996年)に記載されている。具体的には認識結果の音素列を用いて、線形変換の行列を尤度最大基準に基づいて推定し、HMMのガウス分布の平均値と分散値とを線形変換により適応化する。
【0039】
ステップS9(再認識):音声認識結果を出力する場合は、ステップS8で得られたモデルを用いて、音声認識部3によって再認識し、認識結果を認識結果保存部6に保存する。
(本システムの効果)
以上のように本発明では、雑音データベースを用いて、雑音を音声に重畳させる、雑音重畳音声のモデルを学習する。各雑音モデル間の距離を計算し、雑音のクラスタリングを行う。雑音のクラスタリングの結果に基づいて、木構造的に音声モデルを作成する。
【0040】
まず雑音重畳音声についてSNRでクラスタ化し、次にSNR条件ごとに木構造モデルが用意でき、木構造雑音音声モデル空間を作成しておく。特徴抽出過程で、認識対象となる入力雑音音声を分析して特徴パラメータ列を抽出し、木構造雑音音声モデル空間から最適なモデルを選択する。選ばれた雑音音声モデル空間から尤度がさらに最大化するように線形変換を行う。
【0041】
以上述べたように、本発明の雑音適応化システムにおいては、認識対象となる雑音音声を用いて、不特定話者用音声モデルを適応化している。雑音重畳音声の木構造モデル空間を作成し、上から下にたどり最適なモデルを選択し、さらに尤度がさらに最大化するように線形変換を行って、適応化モデルを作成する。
ここで、発明者は、雑音が乗っている対話音声について、本システムによる音声認識の効果を調べた。以下、この実験例を述べる。
【0042】
実験で使用した音声HMMは、tree−based clusteringにより状態共有化を行った不特定話者文脈依存音素HMMである。特徴量としては、MFCC(Mel Frequency Cepstral Coefficients)12次元、その微分12次元、対数パワーの1次微分の計25次元を利用した。「Mel Frequency」とは、人間が音を聴く感度に合わせて作られた値である。その音がどれくらい人間の耳によく聴こえるのかを表すときに良く使用される。このMFCCは以下の手順で生成される。すなわち、音声波形のデータに対し、離散フーリエ変換を行い、その値を対数表現に変換する。そして、それを逆離散フーリエ変換し、そこでできた波形を一定間隔ごとに取出したものがMFCCである。
【0043】
本システムの効果について図5を参照して説明する。同図には、不特定音声HMMを用いた単語正解精度(ベースライン)と、この発明の実施例の方法により適応化された音声HMMを用いた単語正解精度(本手法)とが示されている。同図中の縦軸は単語正解精度(%)である。同図中の横軸はSNR(dB)である。また、同図中の散点模様がベースライン、縦縞模様が本システムによる手法である。
【0044】
同図に示されている結果から、本発明による方法が従来方法に比べて有効であることがわかる。この場合、ベースラインに比べ、単語誤り率は36.1%低下した。
(音声モデルの雑音適応化方法)
上述した雑音適応化システムにおいては、以下のような雑音適応化方法が実現されている。すなわち、クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化する音声モデルの雑音適応化方法であり、雑音が重畳された雑音重畳音声のクラスタリングを行うクラスタリングステップと、このクラスタリングステップによるクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成ステップと、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出ステップと、上記音声モデル空間作成ステップにおいて作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択ステップと、この選択ステップにおいて選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換ステップとを含む雑音適応化方法が実現されている。このように、クラスタリング過程とモデル学習過程とを、一貫して雑音重畳音声に対して行うことによって、入力音声に対する音声モデル系列の推定をより正確に行うことができる。
【0045】
また、上記クラスタリングステップにおいては、雑音対信号比条件に合わせて上記雑音を音声に重畳することにより上記雑音重畳音声を作成し、作成された雑音重畳音声について音声ケプストラムの平均値を差引く処理を行い、各雑音重畳音声のガウス分布モデルを作成し、各雑音重畳音声間の尤度を計算して尤度行列を作成することにより、クラスタリング結果を得る。こうすることにより、雑音重畳音声に対して、クラスタリング処理を行うことができる。
【0046】
さらに、上記選択ステップにおいては、上記パラメータ抽出ステップにおいて抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択する。尤度が最大となるモデルを選択することにより、音声認識精度を高めることができる。
そして、上記選択ステップにおいては、上記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択する。木構造の上層から下層に向かってたどることによって最適なモデルを選択することができる。
【0047】
なお、上記線形変換ステップにおいては、上記選択ステップにおいて選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことにより、尤度を最大にすることができる。
(音声モデルの雑音適応化プログラム)
ところで、図3に示されている処理を実行するためのプログラムを用意し、これを用いてコンピュータを制御することにより、上記と同様の効果が得られる。このプログラムは、コンピュータを制御することにより、クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化するための音声認識雑音適応化プログラムであり、雑音が重畳された雑音重畳音声のクラスタリングを行うクラスタリングステップと、このクラスタリングステップによるクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成ステップと、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出ステップと、上記音声モデル空間作成ステップにおいて作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択ステップと、この選択ステップにおいて選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換ステップとを含んでいる。このように、クラスタリング過程とモデル学習過程とを、一貫して雑音重畳音声に対して行うことによって、入力音声に対する音声モデル系列の推定をより正確に行うことができる。
【0048】
また、上記クラスタリングステップにおいては、雑音対信号比条件に合わせて上記雑音を音声に重畳することにより上記雑音重畳音声を作成し、作成された雑音重畳音声について音声ケプストラムの平均値を差引く処理を行い、各雑音重畳音声のガウス分布モデルを作成し、各雑音重畳音声間の尤度を計算して尤度行列を作成することにより、クラスタリング結果を得る。こうすることにより、雑音重畳音声に対して、クラスタリング処理を行うことができる。
【0049】
さらに、上記選択ステップにおいては、上記パラメータ抽出ステップにおいて抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択する。尤度が最大となるモデルを選択することにより、音声認識精度を高めることができる。
そして、上記選択ステップにおいては、上記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択する。木構造の上層から下層に向かってたどることによって最適なモデルを選択することができる。
【0050】
なお、上記線形変換ステップにおいては、上記選択ステップにおいて選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことにより、尤度を最大にすることができる。
以上のプログラムを記録するための記録媒体には、図示されていない半導体メモリ、磁気ディスク、光ディスク等の他、種々の記録媒体を用いることができる。
【0051】
【発明の効果】
以上説明したように、本発明の請求項1、6、11によれば、クラスタリング過程とモデル学習過程とを、一貫して雑音重畳音声に対して行うことによって、多くの雑音データについて最適にクラスタリング処理をすることができると共に、入力音声に対する音声モデル系列の推定をより正確に行うことができるという効果がある。
【0052】
また、本発明の請求項2、7、12によれば、雑音対信号比条件に合わせて雑音を音声に重畳し、作成された雑音重畳音声について音声ケプストラムの平均値を差引く処理を行い、各雑音重畳音声のガウス分布モデルを作成し、各雑音重畳音声間の尤度を計算して尤度行列を作成することにより、雑音重畳音声に対して、クラスタリング処理を行うことができるという効果がある。
【0053】
本発明の請求項3、8、13によれば、抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択することにより、音声認識精度を高めることができるという効果がある。
本発明の請求項4、9、14によれば、木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択することにより、最適なモデルを選択することができるという効果がある。
【0054】
本発明の請求項5、10、15によれば、選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことにより、尤度を最大にすることができるという効果がある。
【図面の簡単な説明】
【図1】本発明の実施の一形態による音声モデルの雑音適応化システムの構成を示すブロック図である。
【図2】本システムの動作の流れに従って図1中の各部を並べ替えた機能ブロック図である。
【図3】本システムによる処理手順を示すフロー図である。
【図4】木構造雑音音声モデル空間における最適モデルの選択処理を示す概念図である。
【図5】本システムにより適応化された音声HMMを用いた単語正解精度を示す図である。
【符号の説明】
1 木構造モデル記憶部
2 特徴抽出部
3 音声認識部
4 モデル選択判定部
5 モデル線形変換適応部
6 認識結果保存部
Claims (15)
- クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化する音声モデルの雑音適応化システムであって、雑音が重畳された雑音重畳音声のクラスタリングを行うクラスタリング手段と、このクラスタリング手段のクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成手段と、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出手段と、前記音声モデル空間作成手段によって作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択手段と、この選択手段によって選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換手段とを含むことを特徴とする音声モデルの雑音適応化システム。
- 前記クラスタリング手段は、雑音対信号比条件に合わせて前記雑音を音声に重畳することにより前記雑音重畳音声を作成し、作成された雑音重畳音声について音声ケプストラムの平均値を差引く処理を行い、各雑音重畳音声のガウス分布モデルを作成し、各雑音重畳音声間の尤度を計算して尤度行列を作成することにより、クラスタリング結果を得ることを特徴とする請求項1記載の音声モデルの雑音適応化システム。
- 前記選択手段は、前記パラメータ抽出手段によって抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択することを特徴とする請求項1又は2記載の雑音適応化システム。
- 前記選択手段は、前記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択することを特徴とする請求項3記載の雑音適応化システム。
- 前記線形変換手段は、前記選択手段によって選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことを特徴とする請求項1乃至4のいずれか1項に記載の雑音適応化システム。
- クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化する音声モデルの雑音適応化方法であって、雑音が重畳された雑音重畳音声のクラスタリングを行うクラスタリングステップと、このクラスタリングステップによるクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成ステップと、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出ステップと、前記音声モデル空間作成ステップにおいて作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択ステップと、この選択ステップにおいて選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換ステップとを含むことを特徴とする音声モデルの雑音適応化方法。
- 前記クラスタリングステップにおいては、雑音対信号比条件に合わせて前記雑音を音声に重畳することにより前記雑音重畳音声を作成し、作成された雑音重畳音声について音声ケプストラムの平均値を差引く処理を行い、各雑音重畳音声のガウス分布モデルを作成し、各雑音重畳音声間の尤度を計算して尤度行列を作成することにより、クラスタリング結果を得ることを特徴とする請求項6記載の音声モデルの雑音適応化方法。
- 前記選択ステップにおいては、前記パラメータ抽出ステップにおいて抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択することを特徴とする請求項6又は7記載の音声モデルの雑音適応化方法。
- 前記選択ステップにおいては、前記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択することを特徴とする請求項8記載の音声モデルの雑音適応化方法。
- 前記線形変換ステップにおいては、前記選択ステップにおいて選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことを特徴とする請求項6乃至9のいずれか1項に記載の音声モデルの雑音適応化方法。
- コンピュータを制御することにより、クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化するための音声認識雑音適応化プログラムであって、雑音が重畳された雑音重畳音声のクラスタリングを行うクラスタリングステップと、このクラスタリングステップによるクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成ステップと、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出ステップと、前記音声モデル空間作成ステップにおいて作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択ステップと、この選択ステップにおいて選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換ステップとを含むことを特徴とする音声認識雑音適応化プログラム。
- 前記クラスタリングステップにおいては、雑音対信号比条件に合わせて前記雑音を音声に重畳することにより前記雑音重畳音声を作成し、作成された雑音重畳音声について音声ケプストラムの平均値を差引く処理を行い、各雑音重畳音声のガウス分布モデルを作成し、各雑音重畳音声間の尤度を計算して尤度行列を作成することにより、クラスタリング結果を得ることを特徴とする請求項11記載の音声認識雑音適応化プログラム。
- 前記選択ステップにおいては、前記パラメータ抽出ステップにおいて抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択することを特徴とする請求項11又は12記載の音声認識雑音適応化プログラム。
- 前記選択ステップにおいては、前記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択することを特徴とする請求項13記載の音声認識雑音適応化プログラム。
- 前記線形変換ステップにおいては、前記選択ステップにおいて選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことを特徴とする請求項11乃至14のいずれか1項に記載の音声認識雑音適応化プログラム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003066933A JP4033299B2 (ja) | 2003-03-12 | 2003-03-12 | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム |
DE602004000716T DE602004000716T2 (de) | 2003-03-12 | 2004-03-04 | Rauschadaptierungssystem für ein Sprachmodell, Verfahren zur Rauschadaptierung und Programm zur Rauschadaptierung für Spracherkennung |
EP04005069A EP1457968B1 (en) | 2003-03-12 | 2004-03-04 | Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition |
US10/796,283 US7552049B2 (en) | 2003-03-12 | 2004-03-10 | Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition |
CNB2004100284724A CN1234110C (zh) | 2003-03-12 | 2004-03-12 | 语音识别噪声自适应系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003066933A JP4033299B2 (ja) | 2003-03-12 | 2003-03-12 | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004279466A true JP2004279466A (ja) | 2004-10-07 |
JP4033299B2 JP4033299B2 (ja) | 2008-01-16 |
Family
ID=32767942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003066933A Expired - Fee Related JP4033299B2 (ja) | 2003-03-12 | 2003-03-12 | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US7552049B2 (ja) |
EP (1) | EP1457968B1 (ja) |
JP (1) | JP4033299B2 (ja) |
CN (1) | CN1234110C (ja) |
DE (1) | DE602004000716T2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005091476A (ja) * | 2003-09-12 | 2005-04-07 | Ntt Docomo Inc | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム |
JP2006171096A (ja) * | 2004-12-13 | 2006-06-29 | Ntt Docomo Inc | 連続入力音声認識装置および連続入力音声認識方法 |
KR101047104B1 (ko) | 2009-03-26 | 2011-07-07 | 고려대학교 산학협력단 | 최대 우도 선형 스펙트럴 변환을 이용한 음향 모델 적응 방법 및 그 장치, 잡음 음성 모델을 이용한 음성 인식 방법및 그 장치 |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8175877B2 (en) * | 2005-02-02 | 2012-05-08 | At&T Intellectual Property Ii, L.P. | Method and apparatus for predicting word accuracy in automatic speech recognition systems |
US7729908B2 (en) * | 2005-03-04 | 2010-06-01 | Panasonic Corporation | Joint signal and model based noise matching noise robustness method for automatic speech recognition |
GB2451371B (en) * | 2006-04-17 | 2011-02-23 | Vovision Llc | Method and systems for correcting transcribed audio files |
CN101416237B (zh) * | 2006-05-01 | 2012-05-30 | 日本电信电话株式会社 | 基于源和室内声学的概率模型的语音去混响方法和设备 |
US20080300875A1 (en) * | 2007-06-04 | 2008-12-04 | Texas Instruments Incorporated | Efficient Speech Recognition with Cluster Methods |
JP4950930B2 (ja) * | 2008-04-03 | 2012-06-13 | 株式会社東芝 | 音声/非音声を判定する装置、方法およびプログラム |
CN102237082B (zh) * | 2010-05-05 | 2015-04-01 | 三星电子株式会社 | 语音识别系统的自适应方法 |
CN102280106A (zh) * | 2010-06-12 | 2011-12-14 | 三星电子株式会社 | 用于移动通信终端的语音网络搜索方法及其装置 |
JP6024180B2 (ja) * | 2012-04-27 | 2016-11-09 | 富士通株式会社 | 音声認識装置、音声認識方法、及びプログラム |
CN103077708B (zh) * | 2012-12-27 | 2015-04-01 | 安徽科大讯飞信息科技股份有限公司 | 一种语音识别系统中拒识能力提升方法 |
CN104143329B (zh) * | 2013-08-19 | 2015-10-21 | 腾讯科技(深圳)有限公司 | 进行语音关键词检索的方法及装置 |
GB2546981B (en) * | 2016-02-02 | 2019-06-19 | Toshiba Res Europe Limited | Noise compensation in speaker-adaptive systems |
CN106409289B (zh) * | 2016-09-23 | 2019-06-28 | 合肥美的智能科技有限公司 | 语音识别的环境自适应方法、语音识别装置和家用电器 |
CN109087659A (zh) * | 2018-08-03 | 2018-12-25 | 三星电子(中国)研发中心 | 音频优化方法及设备 |
CN108933703B (zh) * | 2018-08-14 | 2020-06-02 | 西安交通大学 | 基于误差建模的环境自适应感知无线通信信道估计方法 |
CN112201270B (zh) * | 2020-10-26 | 2023-05-23 | 平安科技(深圳)有限公司 | 语音噪声的处理方法、装置、计算机设备及存储介质 |
CN112348068A (zh) * | 2020-10-28 | 2021-02-09 | 东南大学 | 一种基于降噪编码器和注意力机制的时序数据聚类方法 |
CN112652304B (zh) * | 2020-12-02 | 2022-02-01 | 北京百度网讯科技有限公司 | 智能设备的语音交互方法、装置和电子设备 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5860062A (en) * | 1996-06-21 | 1999-01-12 | Matsushita Electric Industrial Co., Ltd. | Speech recognition apparatus and speech recognition method |
US6026359A (en) * | 1996-09-20 | 2000-02-15 | Nippon Telegraph And Telephone Corporation | Scheme for model adaptation in pattern recognition based on Taylor expansion |
US6182270B1 (en) * | 1996-12-04 | 2001-01-30 | Lucent Technologies Inc. | Low-displacement rank preconditioners for simplified non-linear analysis of circuits and other devices |
US5960397A (en) * | 1997-05-27 | 1999-09-28 | At&T Corp | System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition |
US6529872B1 (en) * | 2000-04-18 | 2003-03-04 | Matsushita Electric Industrial Co., Ltd. | Method for noise adaptation in automatic speech recognition using transformed matrices |
US7089183B2 (en) * | 2000-08-02 | 2006-08-08 | Texas Instruments Incorporated | Accumulating transformations for hierarchical linear regression HMM adaptation |
JP4109063B2 (ja) * | 2002-09-18 | 2008-06-25 | パイオニア株式会社 | 音声認識装置及び音声認識方法 |
US7457745B2 (en) * | 2002-12-03 | 2008-11-25 | Hrl Laboratories, Llc | Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments |
JP4548646B2 (ja) * | 2003-09-12 | 2010-09-22 | 株式会社エヌ・ティ・ティ・ドコモ | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム |
-
2003
- 2003-03-12 JP JP2003066933A patent/JP4033299B2/ja not_active Expired - Fee Related
-
2004
- 2004-03-04 DE DE602004000716T patent/DE602004000716T2/de not_active Expired - Lifetime
- 2004-03-04 EP EP04005069A patent/EP1457968B1/en not_active Expired - Fee Related
- 2004-03-10 US US10/796,283 patent/US7552049B2/en not_active Expired - Fee Related
- 2004-03-12 CN CNB2004100284724A patent/CN1234110C/zh not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005091476A (ja) * | 2003-09-12 | 2005-04-07 | Ntt Docomo Inc | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム |
JP4548646B2 (ja) * | 2003-09-12 | 2010-09-22 | 株式会社エヌ・ティ・ティ・ドコモ | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム |
JP2006171096A (ja) * | 2004-12-13 | 2006-06-29 | Ntt Docomo Inc | 連続入力音声認識装置および連続入力音声認識方法 |
KR101047104B1 (ko) | 2009-03-26 | 2011-07-07 | 고려대학교 산학협력단 | 최대 우도 선형 스펙트럴 변환을 이용한 음향 모델 적응 방법 및 그 장치, 잡음 음성 모델을 이용한 음성 인식 방법및 그 장치 |
Also Published As
Publication number | Publication date |
---|---|
JP4033299B2 (ja) | 2008-01-16 |
CN1542737A (zh) | 2004-11-03 |
EP1457968A1 (en) | 2004-09-15 |
EP1457968B1 (en) | 2006-04-26 |
US20040204937A1 (en) | 2004-10-14 |
US7552049B2 (en) | 2009-06-23 |
DE602004000716T2 (de) | 2007-05-03 |
DE602004000716D1 (de) | 2006-06-01 |
CN1234110C (zh) | 2005-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4548646B2 (ja) | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム | |
JP4033299B2 (ja) | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム | |
US8615393B2 (en) | Noise suppressor for speech recognition | |
JPH075892A (ja) | 音声認識方法 | |
JP6305955B2 (ja) | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
JP5713818B2 (ja) | 雑音抑圧装置、方法及びプログラム | |
JP5180928B2 (ja) | 音声認識装置及び音声認識装置のマスク生成方法 | |
US11929058B2 (en) | Systems and methods for adapting human speaker embeddings in speech synthesis | |
JP4233831B2 (ja) | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム | |
Wan et al. | Building HMM-TTS voices on diverse data | |
Yanagisawa et al. | Noise robustness in HMM-TTS speaker adaptation | |
JP4464797B2 (ja) | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
WO2010109725A1 (ja) | 音声処理装置、音声処理方法、及び、音声処理プログラム | |
Kim et al. | Speech feature mapping based on switching linear dynamic system | |
WO2020100606A1 (ja) | 非言語発話検出装置、非言語発話検出方法、およびプログラム | |
Huang et al. | An SNR-incremental stochastic matching algorithm for noisy speech recognition | |
Yamamoto et al. | Genetic algorithm-based improvement of robot hearing capabilities in separating and recognizing simultaneous speech signals | |
Wan et al. | Cluster adaptive training of average voice models | |
JP2003076393A (ja) | 騒音環境下における音声推定方法および音声認識方法 | |
Ogawa et al. | Improved Example-Based Speech Enhancement by Using Deep Neural Network Acoustic Model for Noise Robust Example Search. | |
JP6553561B2 (ja) | 信号解析装置、方法、及びプログラム | |
Rose et al. | Improving robustness in frequency warping-based speaker normalization | |
Barreaud et al. | Structural state-based frame synchronous compensation. | |
Chen et al. | Speaker dependent expression predictor from text: Expressiveness and transplantation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050525 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070925 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071002 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071017 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101102 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111102 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121102 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121102 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131102 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |