JP3652753B2 - 発声変形音声認識装置及び音声認識方法 - Google Patents

発声変形音声認識装置及び音声認識方法 Download PDF

Info

Publication number
JP3652753B2
JP3652753B2 JP28063595A JP28063595A JP3652753B2 JP 3652753 B2 JP3652753 B2 JP 3652753B2 JP 28063595 A JP28063595 A JP 28063595A JP 28063595 A JP28063595 A JP 28063595A JP 3652753 B2 JP3652753 B2 JP 3652753B2
Authority
JP
Japan
Prior art keywords
speech
utterance
deformation
model
standard model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP28063595A
Other languages
English (en)
Other versions
JPH08211887A (ja
Inventor
鈴木  忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP28063595A priority Critical patent/JP3652753B2/ja
Publication of JPH08211887A publication Critical patent/JPH08211887A/ja
Application granted granted Critical
Publication of JP3652753B2 publication Critical patent/JP3652753B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C04CEMENTS; CONCRETE; ARTIFICIAL STONE; CERAMICS; REFRACTORIES
    • C04BLIME, MAGNESIA; SLAG; CEMENTS; COMPOSITIONS THEREOF, e.g. MORTARS, CONCRETE OR LIKE BUILDING MATERIALS; ARTIFICIAL STONE; CERAMICS; REFRACTORIES; TREATMENT OF NATURAL STONE
    • C04B41/00After-treatment of mortars, concrete, artificial stone or ceramics; Treatment of natural stone
    • C04B41/45Coating or impregnating, e.g. injection in masonry, partial coating of green or fired ceramics, organic coating compositions for adhering together two concrete elements
    • C04B41/52Multiple coating or impregnating multiple coating or impregnating with the same composition or with compositions only differing in the concentration of the constituents, is classified as single coating or impregnation

Landscapes

  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Ceramic Engineering (AREA)
  • Materials Engineering (AREA)
  • Structural Engineering (AREA)
  • Organic Chemistry (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、例えば環境騒音のもとでおこるような発声変形が生じた音声を対象とする音声認識装置に関するものである。
【0002】
【従来の技術】
騒音下音声認識を実現する上で、環境騒音による発声変形(ロンバード効果)は、雑音重畳による音声信号の品質劣化と並ぶ重要な問題となっている。ロンバード効果による音韻スペクトルの変形に対して、音韻や話者に依存しない補正手法がこれまでに提案されている。
【0003】
特開平4−296799号公報に示された「音声認識装置」や特開平5−6196号公報に示された「音声認識装置」では、ロンバード効果により300Hz〜1500Hz内のホルマントが大きく変動することについて、入力音声に対するホルマント周波数分析と、環境騒音レベルもしくは入力音声のレベルによって規定される周波数変動量により、ケプストラムパラメータ上で補正する手法が提案されている。
特開平4−257898号公報に示された「ロンバード音声認識方法」においても前述の帯域におけるホルマント周波数の変動に着目して、標準パタンのスペクトルと入力パタンのスペクトルのマッチングの際に、1.5kHz以下のズレをDPマッチングで補正する方法を提案している。
しかしながらこれらの手法は、ロンバード効果によるスペクトル変形の個人性や音韻依存性を考慮しておらず、また前記帯域以外の変動については、具体的補正手法を示すに至っていない。そのため、語彙数の多い認識では十分な認識率が得られないという欠点があった。
【0004】
また、ロンバード効果による発話時間の伸長は、音素や音素片、音節など様々な音声単位における継続時間の情報を認識評価尺度として利用する継続時間制御付き認識手法において、その性能劣化の原因となる。
【0005】
これに対し、スペクトル変形の様態を表現する発声変形モデルを定義し、このモデルのパラメータを大量の発声変形音声データを用いて音韻毎に学習、認識に用いる手法が、文献“高騒音下音声認識における発声変形対処法の検討”(鈴木、中島、日本音響学会平成5年度秋季研究発表会講演論文集 平成5年10月5日発行 pp.147−148)において提案されている。
【0006】
また、文献“高騒音下における発声変形音声の認識”(鈴木、中島、阿部、日本音響学会平成6年度春季研究発表会講演論文集 平成6年3月23日発行 pp.13−14)において、ロンバード効果による音素片継続時間の平均と標準偏差の変動量について、予め複数話者の平均値を求めておき、これを用いて補正を加える手法が提案されている。
【0007】
図18は、これらの手法に基づく発声変形音声認識装置の構成図の一例である。
図において、2は入力端1より入力された発声変形音声信号に対し音響分析を行い、発声変形音声特徴ベクトル時系列3を出力する音響分析手段、4は発声変形モデル学習時と発声変形音声認識時とで前記発声変形音声特徴ベクトル時系列3の出力先を変更するスイッチ、5は発声変形なし音声標準モデルメモリ6に格納されている音声標準モデル7と前記発声変形音声特徴ベクトル時系列3を用いて発声変形モデルの学習を行う発声変形モデル学習手段、9は前記発声変形モデル学習手段5の出力であるところの発声変形モデル8を記憶する発声変形モデルメモリである。
【0008】
10は音素や音素片などの音声を構成する要素の継続時間における平均と標準偏差の発声変形による平均変動量を記憶する継続時間変動量メモリ、11は前記継続時間変動量メモリ10に格納されている継続時間変動量データを用いて、前記発声変形なし音声標準モデルメモリ6上の音声標準モデル7における継続時間パラメータを変更する継続時間パラメータ変更手段、12は前記発声変形モデルメモリ9上の発声変形モデルと前記継続時間パラメータ変更手段により継続時間パラメータを変更された変形なし音声標準パタンとを用いて、前記発声変形音声特徴ベクトル時系列に対する音声認識処理を実行する発声変形音声認識手段である。13は発声変形音声認識手段からの音声認識処理の認識結果である。
【0009】
また、図19は、発声変形モデル学習手段5の構成図の一例である。
14は初期状態においては前記発声変形なし音声標準モデルメモリ6上の音声標準モデル7を読み込み保持する音声標準モデルバッファ、15は前記音声標準モデルバッファ14上の音声標準モデルを用いて、入力される発声変形音声特徴ベクトル時系列3における音声標準モデルのセグメントデータを求めるセグメントデータ作成手段、16はこのセグメントデータと前記音声標準モデルバッファ14上の音声標準モデルと前記発声変形なし音声標準モデルメモリ6上の音声標準モデル7とを用いて発声変形モデルの各パラメータを求めるパラメータ演算手段、17は前記パラメータ演算手段16の出力であるところの発声変形モデルを記憶する発声変形モデルバッファ、18aは前記発声変形モデルバッファ17上の発声変形モデルを用いて、前記音声標準モデルに対するスペクトル変形処理を施し、前記音声標準モデルバッファ14上に書き込むスペクトル変形手段である。
【0010】
また、図20は、発声変形音声認識手段12の構成図の一例である。
18bは前記発声変形モデルメモリ9に格納されている発声変形モデルを用いて、継続時間パラメータ変更手段11を介して入力される発声変形なし音声標準モデルメモリ6に格納されている音声標準モデルに対し、音韻スペクトルの変形処理を施すスペクトル変形手段である。
【0011】
19はこのスペクトル変形手段18bの出力であるところの変形音声標準モデルと継続時間パラメータ変更手段11を介して入力される前記音声標準モデルとを合成し、混合型音声標準モデルを生成する音声モデル合成手段、20はこの音声モデル合成手段19の出力であるところの混合型音声標準モデルを用いて、入力されてくる発声変形音声特徴ベクトル時系列3に対する尤度データを演算する尤度演算手段、21はこの尤度演算手段20の出力であるところの尤度データを用いて、照合処理を行い認識結果13を出力する照合手段である。
すなわち、本実施例では、スペクトル変形手段18bの出力する変形音声標準モデルと、継続時間パラメータ変更手段11を介して入力される前記音声標準モデルとから、前記発声変形音声特徴ベクトル時系列3に対する尤度を計算し、この尤度に基づく認識結果を出力する発声変形音声照合手段が、前記尤度演算手段20、照合手段21により構成されている。
【0012】
次に動作について、連続分布型音素片HMMによる離散単語認識の場合を例に取り説明を行う。
発声変形なし音声標準モデルメモリ6には、音声標準モデルとして、発声変形のない音声データを用いて学習した音素片HMMと、その継続時間パラメータであるところの音素片継続時間の平均と分散とが格納されている。認識対象語彙であるところの単語を表すモデルは、音素片HMMの連鎖により表現されている。連鎖は、発声変形なし音声標準モデルメモリ6に記憶されている。連鎖は、発声変形なし音声標準モデルメモリ6から尤度計算手段20を経て照合手段21に入力されて用いられる。
【0013】
また、継続時間変動量メモリ10には、予備学習によって得られているところの各音素片の平均継続時間と、継続時間の分布における標準偏差についての変形なし音声と発声変形音声との比を、複数話者についての平均した値が継続時間変動量データとして格納されている。
【0014】
まず、発声変形モデルの学習動作について説明する。
入力端1より入力された発声変形モデル学習用であるところのカテゴリ既知の発声変形音声信号は、音響分析手段2により音響分析され、発声変形音声特徴ベクトル時系列3に変換される。発声変形モデル学習時には、スイッチ4はa側に入れられており、該発声変形音声特徴ベクトル時系列3は発声変形モデル学習手段5に入力される。
発声変形モデル学習手段5における動作を図21の動作フロー図に沿って説明する。
【0015】
発声変形モデル学習手段5では、まず初期化処理として、学習における繰り返し処理の回数をカウントするループカウンタをステップS1において0にクリアし、ついでステップS2において前記発声変形なし音声標準モデルメモリ6上の音声標準モデル7を音声標準モデルバッファ14に読み込む。
【0016】
セグメントデータ作成手段15は、ステップS3において、前記音声標準モデルバッファ14上の音声標準モデルを用いて、カテゴリ既知の前記発声変形音声特徴ベクトル時系列3に対する各音素片のセグメントデータを、当該カテゴリの単語音声モデルとのビタビパスから求める。パラメータ演算手段16は、ステップS4において、該セグメントデータから得られる、音声標準モデル7の各音素片HMMと発声変形音声特徴ベクトル時系列3の各特徴ベクトルとの対応づけに従い、音素片HMMの平均ベクトルを表すスペクトル包絡70、発声変形音声特徴ベクトルを表すスペクトル包絡30及び音声標準モデルバッファ上の音素片HMMの平均ベクトルを表すスペクトル包絡70aを用いて、発声変形モデルの各パラメータを計算する。ループカウンタの値が0の場合には、音声標準モデル7から出力される音素片HMMの平均ベクトルを表すスペクトル包絡70と、音声標準モデルバッファ上の音素片HMMの平均ベクトルを表すスペクトル包絡70aは同じものである。得られたパラメータは、発声変形モデルバッファ17に書き込まれる。
図22に示すように、発声変形音声特徴ベクトルのスペクトル包絡30と発声変形なし音声標準モデルのスペクトル包絡70は差があり、この差をパラメータ演算手段16が以下に述べる3つのパラメータを用いて、発声変形モデルとして演算し記憶する。
図23にパラメータ演算手段が出力するパラメータを図示する。
パラメータ演算手段16は、発声変形音声特徴ベクトルを表すスペクトル包絡30及び音声標準モデルバッファ上の音素片HMMの平均ベクトルを表すスペクトル包絡70a(ループカウンタが0の場合には、スペクトル包絡70と同じもの)をDPマッチングのアルゴリズムを用いてマッチングさせ、非線形伸縮関数(フリーケンシーワーピングファンクション)を検出する。この非線形伸縮関数は、ホルマントの移動を示すパラメータである。次に、パラメータ演算手段は、非線形伸縮関数を用いてスペクトル包絡70に対してスペクトル変形をかけ、スペクトル包絡30との差分を取り、平均差分スペクトルを求める。更に、平均差分スペクトルから全体傾斜の変化及びバンド幅の変化を求める。このようにして、パラメータ演算手段は、(1)ホルマントの移動を示す非線形伸縮関数(以下、パラメータHという)、(2)全体傾斜の変化(以下、パラメータTという)、(3)バンド幅の変化(以下、パラメータQという)という3つのパラメータを算出し、この3つのパラメータを発声変形モデル8として記憶する。
【0017】
ステップS5でループカウンタに1を加え、ステップS6において、ループカウンタ値が予め与えられている所定のループ数最大値との大小比較を行う。所定の値に達していれば、発声変形モデルバッファ上の発声変形モデルを前記発声変形モデルメモリ9に書き出して学習動作を終了する。
【0018】
所定の値に達しない場合は、ステップS7としてスペクトル変形手段18aが、前記発声変形モデルバッファ17上に保持されている発声変形モデルを用いて、前記音声標準モデルの平均ベクトルに対し変形処理を施し、変形された音声標準モデルとして前記音声標準モデルバッファ14上に上書きする。スペクトル変形手段18aが行う変形処理は、図24,図25,図26に示すように、パラメータ演算手段16が求めた3つのパラメータを用いて、音声標準モデルのスペクトル包絡70に対して変形処理を行うものである。
図24は、スペクトル包絡70に対して、非線形伸縮関数Hを用いてホルマントの移動を施す変形処理を示している。
図25は、スペクトル包絡70に対して、全体傾斜の変化を示すパラメータTを用いてスペクトル包絡の傾斜を修正する処理を示している。
図26は、スペクトル包絡70に対して、バンド幅の変化を示すパラメータHを用いて修正処理を施す場合を示している。
このようにして、変形処理をされたスペクトル包絡は、変形された音声標準モデルを表すスペクトル包絡70aとして、音声標準モデルバッファ14に書き込まれる。ついで、ステップS3の処理に戻る。スペクトル変形手段18aは、繰り返し発声変形モデルを作成し、パラメータ演算手段が入力された発声変形音声特徴ベクトルとのマッチングを繰り返し行うことにより、次第に学習効果が高まっていく。
以上の動作により発声変形モデルが学習され、発声変形モデルメモリ9上に格納される。
【0019】
次に、認識時の動作について説明する。
入力端1より入力されたカテゴリ未知の発声変形音声信号は、音響分析手段2により音響分析され、発声変形音声特徴ベクトル時系列3に変換される。未知入力発声変形音声を認識する際には、スイッチ4はb側に入れられ、該発声変形音声特徴ベクトル時系列3は、発声変形音声認識手段12に入力される。
【0020】
継続時間パラメータ変更手段11は、前記発声変形なし音声標準モデルメモリ6上の音素片HMMの継続時間パラメータを、継続時間変動量メモリ10上に保持されている各音素片の継続時間変動量データに従って変更する。
発声変形音声認識手段12において、スペクトル変形手段18bは、継続時間パラメータ変更手段11を介して入力される前記発声変形なし音声標準モデルメモリ6上の音声標準モデル7を構成する各音素片HMMの平均ベクトルに対し、前記発声変形モデルメモリ9に格納されている発声変形モデルを用いてスペクトル変形処理を施す。このスペクトル変形手段18bの動作は、前述したスペクトル変形手段18aと同じである。即ち、スペクトル変形手段18bは、図24,図25,図26に示した3つのパラメータを発声変形モデルメモリ9から入力する。そして、継続時間パラメータ変更手段11から入力した音声標準モデル7のスペクトル包絡に対して、図24,図25,図26に示した3つの変形処理を行い、発声変形音声モデルに基づくスペクトル包絡を音声モデル合成手段19へ出力する。スペクトル変形手段18bは、発声変形モデルメモリ9に記憶された既に学習された音素片に対してはスペクトル変形を行えるが、発声変形モデルメモリ9に記憶されていない未学習の音素片に対してはスペクトル変形を行わない(行えない)。
【0021】
音声モデル合成手段19は、継続時間パラメータ変更手段11を介して入力される前記発声変形なし音声標準メモリ6に格納されている音声標準モデル7を構成する音素片HMMと、これに対しスペクトル変形手段18bでスペクトル変形処理を施されて得られた発声変形音声標準モデルであるところの発声変形音素片HMMとを用い、等しい分岐確率を持つ2混合の連続分布型音素片HMMを生成する。
【0022】
尤度演算手段20は、前記発声変形音声特徴ベクトル時系列3の各特徴ベクトルと、前記音声モデル合成手段19の出力であるところの混合連続分布型音素片HMMとの尤度演算を行い、得られた尤度データを出力する。照合手段21は、該尤度データを用いて認識語彙の単語音声を表す音素片の連鎖に従い、各単語に対する単語尤度をビタビ演算もしくはトレリス演算により求め、この単語尤度が最大になる単語のカテゴリを認識結果13として出力する。
以上の動作により、カテゴリ未知の発声変形音声の認識が実行され、その認識結果が得られる。
【0023】
【発明が解決しようとする課題】
従来の装置は以上のように構成されているため、発声変形モデル学習用の発声変形音声データの中に含まれない音素片に対応する発声変形モデルは学習することができず、すべての発声変形モデルを生成するためには、大量の学習用発声変形音声データを必要とするという問題があった。
【0024】
また、学習用発声変形音声データの中にある音素片であっても、発声変形モデル学習用の発声変形音声データが少ない場合、偏倚した発声変形モデルが生成されてしまい、認識性能の劣化要因になっていた。
【0025】
また、音素片の継続時間変動量データを求めるためには、すべての音素片を含む発声変形音声データを複数の話者について収集しなくてはならず、莫大なコストが必要となるという問題があった。加えて、継続時間変動量の話者依存性が無視されているため、十分な認識性能が得られない場合もあった。
【0026】
本発明は上記の問題を解決するためになされたもので、音声標準モデルに対するスペクトル変形処理において、学習がなされた発声変形モデルを1個以上用いるようにする事で、少ない学習用発声変形音声データでもすべての音声標準モデルに対する変形処理を可能にすることを目的としている。また、発声変形モデルの学習処理においても同様に、学習がなされた発声変形モデルを1個以上用いるようにすることで、少ない学習用発声変形音声データでも偏倚の小さい発声変形モデルの生成を可能にすることを目的としている。
【0027】
加えて、発声変形モデルの学習時に継続時間データを抽出し、これを用いて継続時間変動量を学習する機能を持たせることで、継続時間変動量データの作成にかかるコストを減らし、同時に、継続時間変動量の話者依存性による認識精度劣化に対処することを目的としている。
【0028】
【課題を解決するための手段】
この発明に係る発声変形音声認識装置は、
入力音声信号に対し音響分析を行い発声変形音声特徴ベクトル時系列を出力する音響分析手段と、
発声変形のない音声データで学習した音声標準モデルを記憶する発声変形なし音声標準モデルメモリと、
発声変形された音声に生じる音韻スペクトルの変形を表現する発声変形モデルを記憶する発声変形モデルメモリと、
前記発声変形モデルメモリに格納されている1以上の発声変形モデルを用いて、前記発声変形なし音声標準モデルメモリに格納されている音声標準モデルに対し、変形音声標準モデルを作成して前記音響分析手段から出力される発声変形音声特徴ベクトル時系列に対する音声認識結果を出力する音声認識手段とを備えたことを特徴とする。
【0029】
上記音声認識手段は、発声変形モデルメモリに記憶された複数の発声変形モデルを用いて、前記発声変形なし音声標準モデルメモリに格納されている音声標準モデルに対し、スペクトルの変形処理を施し変形音声標準モデルとして出力するスペクトル変形手段と、
このスペクトル変形手段の出力する変形音声標準モデルと前記発声変形なし音声標準モデルメモリに記憶された音声標準モデルとの合成を行う音声モデル合成手段と、
この音声モデル合成手段の出力する合成モデルを用いて、前記音響分析手段から出力される発声変形音声特徴ベクトル時系列に対する尤度を計算し、この尤度に基づく認識結果を出力する発声変形音声照合手段とを備えたことを特徴とする。
【0030】
上記発声変形音声認識装置は、更に、この発声変形なし音声標準モデルメモリに記憶された音声標準モデルと、発声変形された音声信号が前記音響分析手段に入力された場合に出力される発声変形音声特徴ベクトル時系列とから、発声変形された音声に生じる音韻スペクトルの変形を表現する発声変形モデルと学習して、発声変形モデルメモリに出力する発声変形モデル学習手段とを備えたことを特徴とする。
【0031】
この発明に係る発声変形音声認識装置は、
入力音声信号に対し音響分析を行い発声変形音声特徴ベクトル時系列を出力する音響分析手段と、
発声変形のない音声データで学習した音声標準モデルを記憶する発声変形なし音声標準モデルメモリと、
この発声変形なし音声標準モデルメモリに記憶された音声標準モデルと、発声変形された音声信号が前記音響分析手段に入力された場合に出力される発声変形音声特徴ベクトル時系列とから、発声変形された音声に生じる音韻スペクトルの変形を表現する発声変形モデルを1以上の発声変形モデルに基づいて学習する発声変形モデル学習手段と、
この発声変形モデル学習手段により学習された発声変形モデルを記憶する発声変形モデルメモリとを備えたことを特徴とする。
【0032】
前記発声変形モデル学習手段は、
前記発声変形なし音声標準モデルメモリに記憶されている音声標準モデルを一時的に保持する音声標準モデルバッファと、
この音声標準モデルバッファに保持された音声標準モデルを用いて、前記音響分析手段からの発声変形音声特徴ベクトル時系列における各音声標準モデルのセグメントデータを求めるセグメントデータ作成手段と、
このセグメントデータ作成手段からのセグメントデータと、前記音声標準モデルバッファに保持された音声標準モデルと、前記発声変形なし音声標準モデルメモリに記憶された音声標準モデルとを用いて、発声変形モデルのパラメータを求めるパラメータ演算手段と、
このパラメータ演算手段の出力する発声変形モデルのパラメータを保持する発声変形モデルバッファと、
この発声変形モデルバッファに保持された複数の発声変形モデルのパラメータを用いて、前記発声変形なし音声標準モデルメモリの音声標準モデルに対しスペクトル変形処理を施し、前記音声標準モデルバッファに書き込むスペクトル変形手段とにより構成されたことを特徴とする。
【0033】
上記発声変形音声認識装置は、更に、この発声変形モデルメモリに記憶された発声変形モデルと、前記発声変形なし音声標準モデルメモリに格納されている音声標準モデルとを用いて、前記音響分析手段から出力される発声変形音声特徴ベクトル時系列に対する音声認識結果を出力する音声認識手段とを備えたことを特徴とする。
【0034】
上記発生変形音声認識装置は、更に、音声標準モデル間のスペクトルの近似を示す重みを算出して算出した重みを記憶する重み記憶手段を備え、上記スペクトル変形手段は、上記重み記憶手段が記憶した重みの大きい順に学習済みの複数の発声変形モデルを選択してスペクトルの変形処理を行うことを特徴とする。
【0035】
上記重み記憶手段は、自己の音声標準モデルに対して最大の重みを付すことを特徴とする。
【0036】
上記スペクトル変形手段は、選択した複数の発声変形モデルの各々を用いてスペクトル変形処理を行い、その平均値を算出し、変形音声標準モデルとする平均値算出手段を備えたことを特徴とする。
【0037】
上記平均値算出手段は、上記重みを用いて平均値を算出することを特徴とする。
【0038】
上記スペクトル変形手段は、既に学習がなされた発声変形モデルに対応する音声標準モデルに対して、既に学習がなされた発声変形モデルとその他の発声変形モデルを用いてスペクトル変形処理をすることを特徴とする。
【0039】
上記スペクトル変形手段は、未学習の発声変形モデルに対応する音声標準モデルに対して、既に学習がなされた発声変形モデルを複数用いてスペクトル変形処理をすることを特徴とする。
【0040】
この発明に係る発声変形音声認識装置は、
入力音声信号に対し音響分析を行い発声変形音声特徴ベクトル時系列を出力する音響分析手段と、
発声変形のない音声データで学習した音声標準モデルを記憶する発声変形なし音声標準モデルメモリと、
この発声変形なし音声標準モデルメモリに記憶された音声標準モデルと、発声変形された音声信号が前記音響分析手段に入力された場合に出力される発声変形音声特徴ベクトル時系列とから、発声変形された音声に生じる音韻スペクトルの変形を表現する発声変形モデルを学習する発声変形モデル学習手段と、
音声を構成する要素の継続時間変動量を記憶する継続時間変動量メモリと、
前記発声変形モデル学習手段から出力される発声変形モデルと前記発声変形なし音声標準モデルメモリに記憶された音声標準モデルとから、音声標準モデルにおける音声を構成する要素の継続時間の変動量を求め、前記継続時間変動量メモリに記憶させる継続時間変動量学習手段とを備えたことを特徴とする。
【0041】
上記発生変形音声認識装置は、更に、発声変形モデル学習手段により学習された発声変形モデルを記憶する発声変形モデルメモリと、
継続時間変動量メモリに記憶された継続時間変動量に基づき前記発声変形なし音声標準モデルメモリ上に格納されている音声標準モデルの継続時間パラメータの補正を行う継続時間パラメータ変更手段と、
継続時間パラメータ変更手段により継続時間パラメータが補正された前記音声標準モデルと前記発声変形モデルメモリに記憶された発声変形モデルとを用いて、前記音響分析手段から出力される発声変形音声特徴ベクトル時系列に対する音声認識結果を出力する音声認識手段とを備えたことを特徴とする。
【0042】
この発明に係る発声変形音声認識装置は、継続時間変動量学習手段において、求める継続時間の変動量を母音部について求めるようにしたことを特徴とする。
【0043】
この発明に係る発声変形音声認識装置は、継続時間変動量学習手段において、「あ」「い」「う」「え」「お」の5母音について平均した継続時間変動量を求めるようにしたことを特徴とする。
【0044】
この発明に係る音声認識方法は、以下の工程を備えたことを特徴とする。
(a)複数の音声標準モデルと上記音声標準モデルの一部に対する発声変形モデルと音声標準モデル間の近似を示す重みとを予め記憶する工程、
(b)上記複数の音声標準モデルの中の1つの音声標準モデルに対して、上記重みの大きい順に1つ以上の発声変形モデルを選択し、選択した発声変形モデルを用いてスペクトル変形を行う工程、
(c)上記複数の発声変形モデルによるスペクトル変形の結果の平均値を上記音声標準モデルの変形音声標準モデルとして出力する工程、
(d)発声変形のある音声データと、上記変形音声標準モデルを入力し、音声データと変形音声標準モデルとを比較して比較結果を出力する照合工程。
【0045】
上記音声認識方法は、更に、上記照合工程の比較結果を入力して、音声を認識する工程を備えたことを特徴とする。
【0046】
上記音声認識方法は、更に、上記照合工程の比較結果を入力して、発声変形モデルを学習する学習工程を備えたことを特徴とする。
【0047】
この発明に係る音声認識方法は、以下の工程を備えたことを特徴とする。
(a)入力音声信号に対し音響分析を行い発声変形音声特徴ベクトル時系列を出力する工程、
(b)発声変形のない音声データで学習した音声標準モデルを記憶する工程、
(c)この記憶された音声標準モデルと、発声変形音声特徴ベクトル時系列とから、発声変形された音声に生じる音韻スペクトルの変形を表現する発声変形モデルを学習する工程、
(d)前記発声変形モデルと前記音声標準モデルとから、音声標準モデルにおける音声を構成する要素の継続時間の変動量を求め、前記継続時間変動量として記憶させる工程、
(e)この継続時間変動量に基づき前記音声標準モデルの継続時間パラメータの補正を行う工程、
(f)この継続時間パラメータが補正された前記音声標準モデルと前記発声変形モデルとを用いて、前記発声変形音声特徴ベクトル時系列に対する音声認識結果を出力する工程。
【0048】
【発明の実施の形態】
実施の形態1.
図1は、この発明に係る音声認識システムの構成図である。
発声変形音声認識システム60は、ディスプレイユニット61、キーボード62、マウス63、マウスパット64、システムユニット65、マイク66、音声認識装置100を備えている。この発明の音声認識システムは、例えば、図1に示すように、マイク66から入力した音声を音声認識装置100で認識し、認識した音声をシステムユニット65に転送し、ディスプレイユニット61に文字として表示するものである。しかし、この発明に係る音声認識システムは、このようにパーソナルコンピューターやワークステーションと一緒に用いられる必要はなく、以下に述べる音声認識装置100が用いられるシステムであれば、どのような形式のものであっても良い。例えば、マイク66の替わりにテープレコーダを入力装置にしても構わないし、ネットワークからの音声データを入力するようにしても構わない。また、入力するデータはアナログデータであっても構わないし、デジタルデータであっても構わない。また、音声認識装置100は独立した筐体で存在しても構わないが、システムユニット65の内部に納められているものでも構わないし、その他の測定機や計算機のシステムボードの一部分として存在している場合であっても構わない。また、認識結果を文字として表示する場合に限らず、認識結果に基づいてデータ検索や加工作業や測定作業を行わせるようにしても良い。
【0049】
図2は、図1に示した音声認識装置100の構成を示すブロック図である。
図2において、従来の音声認識装置と異なる点は、改良された発声変形音声認識手段120が備えられている点である。
図3は、この発明に関わる発声変形音声認識装置に使われる発声変形音声認識手段120の一実施の形態の構成を表すブロック図である。
図において、6は発声変形のない音声標準モデルを格納する発声変形なし音声標準モデルメモリ、9は発声変形モデル学習により得られた発声変形モデルを格納する発声変形モデルメモリ、22aは前記発声変形なし音声標準モデルメモリ6に格納されている音声標準モデルに対し、前記発声変形モデルメモリ9に格納されている発声変形モデルを用いて、音韻スペクトルの変形処理を施す平滑型スペクトル変形手段である。
【0050】
19は前記平滑型スペクトル変形手段22aの出力であるところの変形音声標準モデルと、前記音声標準モデルとを合成し、混合型音声標準モデルを生成する音声モデル合成手段、20はこの音声モデル合成手段19の出力であるところの混合型音声標準モデルを用いて、入力された発声変形音声特徴ベクトル時系列に対する尤度を演算する尤度演算手段、21はこの尤度演算手段20の出力であるところの尤度データを用いて、照合処理を行い認識結果を出力する照合手段である。
【0051】
次に、動作について説明する。従来例と同じく連続分布型音素片HMMによる離散単語認識の場合を例に取り説明を行う。
発声変形なし音声標準モデルメモリ6には、発声変形のない音声データを用いて学習した音素片HMMが音声標準モデルとして格納されている。認識対象語彙であるところの単語を表すモデルは音素片HMMの連鎖により表現されている。従来例と重複する部分は説明を省略する。
【0052】
この実施の形態の平滑型スペクトル変形手段22aは、前記発声変形モデルメモリ9に格納されている学習がなされた発声変形モデルを1個以上用いて、前記発声変形なし音声標準モデルメモリ6に格納されている音声標準モデルを構成するすべての音素片HMMについて、該音素片HMMの平均ベクトルに対し、ロンバード効果によるスペクトルの変形処理を施すことができるようになっている。この平滑型スペクトル変形手段22aにおけるスペクトル変形処理は、下式(1)のように表される。
【0053】
【数1】
Figure 0003652753
【0054】
但し、音声標準モデルにおける第i音素片の平均ベクトルをXi、該平滑型スペクトル変形手段22aにより変形処理された後の同第i音素片の平均ベクトルをYi、発声変形モデルの学習がなされた第j音素片に対応する該発声変形モデルによる第i音素片の平均ベクトルに対するスペクトル変形処理をMj(Xi)とする。jについての総和は、重み係数W(i,j)が大きいものからn個分(n≧1)行い、発声変形モデルの学習ができた音素片の総数に対し、一定の割合に達したところで打ち切る。この割合を制御することで、第i音素片に対するスペクトル変形処理に用いる学習済み発声変形モデルの数を変えることができる。
【0055】
重み係数W(i,j)は、第i音素片の平均ベクトルXiと第j音素片の平均ベクトルXjとの間で定義される距離d(Xi,Xj)に逆比例するように定義される。即ち、重み係数が大きいと、スペクトル包絡が近似していることを示している。重み係数の一例を下式(2)に示す。
【0056】
【数2】
Figure 0003652753
【0057】
ここで、pとqは、距離d(Xi,Xj)に対する重み係数W(i,j)を制御するパラメータでともに正の値を取る。また、距離d(Xi,Xj)は、第i音素片の平均ベクトルと第j音素片の平均ベクトルとの間で定義される適当な距離尺度で、例えば、ケプストラムのユークリッド距離やWLR距離尺度などがある。
【0058】
次に、この実施例の具体例について図4から図7を用いて説明する。
図4は、音声標準モデルの平均ベクトルXiを示す図である。
ここでは、音素片の種類が全部で300種類ある場合を示している。音声標準モデルは、全ての音素片に対して平均ベクトルX1からX300を予め登録してある。
図5は、学習の結果、発声変形モデルとして記憶された音素片のパラメータH,T,Qを示す図である。
300種類ある音素片の中で、学習できたものと学習できないものが存在している。例えば、第3音素片及び第299音素片は、未だ学習されていない状態を示している。
図6は重み係数を示す図である。
重み係数は、図7に示すように、第i音素片の平均ベクトルXiと第j音素片の平均ベクトルXjとの距離に基づいて求めたものである。図7においては、平均ベクトルXiとXjの差分の平方を距離としている。この距離を用いて、前述した式(2)から重み係数を計算した場合の一例を図6に示す。p=1及びq=1とした場合には、第i音素片同士の距離d(Xi,Xi)は0になり、第i音素片の重み係数W(i,i)=(0+1)-1=1-1=1となる。ここで、式(1)を用いて未学習の第2音素片の平均ベクトルY2を求める場合を考える。ここで、式(1)におけるjについての総和の個数nを2(n=2)とする。また、図6において、第2音素片の中で重み係数の大きい上位2つの音素片を第1と第3の音素片であるものとする。ここで、第2の音素片の重み係数は1.0であり、重み係数が最大値を示しているが、自分自身の発声変形モデルが存在していない。従って、自分自身の発声変形モデルを計算する際には、自分自身を用いることはできない。そこで、重み係数が自分自身を除くものの中で、最大値及び次に大きな値を示す2つの音素片を用いることになる。従って、図4に示す音声標準モデルの第2音素片の平均ベクトルX2に対して、図5に示す発声変形モデルの第1音素片のパラメータH1,T1,Q1を用いて、スペクトル変形処理を行い、M1(X2)を求める。同様にして、平均ベクトルX2に対して、第3音素片のパラメータH3,T3,Q3を用いてスペクトル変形処理を行い、M3(X2)を求める。このようにして、第2音素片の発声変形後の平均ベクトルY2を以下の式で求めることができる。
Y2={0.9M1(X2)+0.8M3(X2)}/(0.9+0.8)
【0059】
前述した例においては、発声変形モデルが未学習である場合について説明したが、発声変形モデルが既に学習済みのものに対しても、前述したアルゴリズムを適用することが望ましい。例えば、図5において、第1音素片のパラメータは、既に学習済みとなっているが、平滑形スペクトル変形手段22aは、例えば、jについての総和の個数n=2の場合は、図6に示すように第1音素片の中で重み係数の最大値と次の音素片のパラメータを用いて、変形処理がされた第1音素片の平均ベクトルY1を生成する。この図6に示す例では、第1音素片は、自分自身であるため、重み係数が最大値である1.0を示している。また、2番目に大きい重み係数を第2音素片の0.9であるとすると、平滑型スペクトル変形手段22aは、第1音素片のパラメータH1,T1,Q1と第2音素片のパラメータH2,T2,Q2を用いて、第1音素片の平均ベクトルに対するスペクトル変形処理をそれぞれ行い、式(1)を用いて第1音素片の変形処理された後の平均ベクトルY1を出力する。
このように、この実施の形態においては、既に発声変形モデルの学習がされた音素片のスペクトル変形を行う場合にも、重み係数によりスペクトルが近似している音素片の発声変形モデルのパラメータも加味して、スペクトル変形を行う点がこの実施例の大きな特徴である。このように、他の音素片の変形様態を考慮することにより、偏りのないスペクトル変形処理を行える。
【0060】
図8は、前述した平滑型スペクトル変形手段22aのスペクトル変形手順を示すフローチャート図である。
ステップS11において、スペクトル変形を行う第i音素片を音声標準モデルから取得する。ステップS12において、第i音素片と似通った音素片を探すため重み変数を参照し、第j音素片を検出する。ステップS13において、検出した第j音素片が音声変形モデルに既に学習済みとしてパラメータが登録されているかどうかをチェックする。パラメータが登録されていない場合には、再びステップS12に戻り、次に値の大きい重み変数に基づき別な音素片を検出する。ステップS13において、第j音素片が学習済みである場合は、第j音素片のパラメータHj,Tj,Qjを用いて、第i音素片のスペクトル変形処理を行う。
ステップS15においては、前述した式(1)の分子と分母をそれぞれ計算する。ステップS16においては、前述したステップS12からステップS15の処理をn回繰り返す判断を行う。ステップS16において、n回処理が済んだと判断された場合には、ステップS17において式(1)からYiを計算する。
【0061】
図8に示したフローチャート図によれば、ステップS11で取得した第i音素片は、既に学習済みであるかどうかを問わず、以下のステップS12からステップS17の処理を行うようになっている。従って、n≧2であれば、学習済みの音素片に対しても、他の音素片の学習済みのパラメータが反映されることになる。また、既に第i音素片が学習済みの場合であって、n≧2の場合は、ステップS12において、最初に選択される第j音素片は常に第i音素片自身であり、ステップS13において、第i音素片が学習済みであると判断されることから、ステップS14とステップS15の処理は、第i音素片のパラメータを用いて、第i音素片のスペクトル変形処理を行うことになる。ステップS16によって生ずる2回目からn回目までのループ処理では、ステップS14において、第i音素片に対して第i音素片以外の第j音素片の学習済みパラメータを用いて第i音素片に対するスペクトル変形処理が行われ、ステップS15において、第j音素片に基づく変形が加算される。
もし、既に第i音素片が学習済みの場合であって、かつ、n=1の場合は、第i音素片の学習済みパラメータのみが第i音素片に対するスペクトル変形処理に用いられる。もし、第i音素片が未学習の場合であって、かつ、n=1の場合は、第i音素片以外の第j音素片の学習済みパラメータを用いて第i音素片に対するスペクトル変形処理が行われる。
【0062】
上記のような処理を行うことで、スペクトル距離の近い音素片におけるスペクトル変形の様態を考慮したスペクトル変形処理が施される。これにより、発声変形モデルの学習がなされなかった音素片についてもスペクトル変形が可能になる。また、発声変形モデルの学習がなされた音素片もスペクトル距離が近い音素片の変形様態を考慮するので、発声変形モデルにおける偏倚の影響を受けにくいスペクトル変形処理が実現できる。
【0063】
以上のように、発声変形音声認識手段において平滑型スペクトル変形手段は、発声変形モデルメモリに格納されている学習がなされた発声変形モデルを1個以上用いて、発声変形なし音声標準モデルメモリに格納されている音声標準モデルを構成するすべての音素片HMMについて、該音素片HMMの平均ベクトルに対し、ロンバード効果によるスペクトルの変形処理を施すようにしたので、発声変形モデルの学習がなされなかった音素片についてもスペクトル変形がなされ、変形が可能になる。
【0064】
加えて、発声変形モデルの学習がなされた音素片のスペクトル変形においても、発声変形モデルの学習がなされた音素片を除く他の音素片の変形様態を考慮するので、発声変形モデルにおける偏倚の影響を受けにくいスペクトル変形処理が実現できる。この結果、高精度認識が実現できる。
【0065】
実施の形態2.
図9は、音声認識装置100aのブロック図である。
実施の形態1の音声認識装置100と異なる点は、改良された発声変形モデル学習手段50を備えている点である。
図10は、この発明に関わる発声変形音声認識装置に使われる発声変形モデル学習手段50の一実施の形態の構成を表すブロック図である。
図において、14は初期状態においては、発声変形なし音声標準モデルメモリ6に格納されている音声標準モデル7を読み込み保持する音声標準モデルバッファ、15はこの音声標準モデルバッファ14上の音声標準モデルを用いて、入力される発声変形音声特徴ベクトル時系列3における音声標準モデルのセグメントデータを求めるセグメントデータ作成手段、16はこのセグメントデータと前記音声標準モデルバッファ14上の音声標準モデルと前記発声変形なし音声標準モデルメモリ6上の音声標準モデル7とを用いて発声変形モデルの各パラメータを求めるパラメータ演算手段、17はこのパラメータ演算手段16の出力であるところの発声変形モデルを記憶する発声変形モデルバッファ、22bはこの発声変形モデルバッファ17上の発声変形モデルを用いて、前記発声変形なし音声標準モデルメモリ6に格納されている音声標準モデル7すべてに対しスペクトル変形処理を施し、前記音声標準モデルバッファ14に書き込む平滑型スペクトル変形手段である。
【0066】
次に、動作について説明する。従来例と同じく連続分布型音素片HMMによる離散単語認識の場合を例に取り説明を行う。
発声変形なし音声標準モデルメモリには、発声変形のない音声データを用いて学習した音素片HMMが音声標準モデルとして格納されている。認識対象語彙であるところの単語を表すモデルは、音素片HMMの連鎖により表現されている。従来例と重複する部分は、説明を省略する。
【0067】
発声変形モデル学習手段50における平滑型スペクトル変形手段22bは、前記発声変形モデルバッファ17に書き込まれた発声変形モデルを1個以上用いて、前記発声変形なし音声標準モデルメモリ6に格納されている音声標準モデル7を構成するすべての音素片HMMについて、該音素片HMMの平均ベクトルに対し、ロンバード効果によるスペクトルの変形処理を施す。
【0068】
この平滑型スペクトル変形手段22bにおけるスペクトル変形処理は、前記実施の形態1における発声変形音声認識手段120における平滑型スペクトル変形手段22aと同じである。平滑型スペクトル変形手段22bは、発声変形モデル内に未学習の音素片がある場合には、重み係数の大きい音素片、即ち未学習である音素片とより似たスペクトルを持つ他の音素片のパラメータを用いてスペクトル変形を行う。また、音声標準モデルの中に、既に学習済みであると登録されている音素片に対しても自分自身と、自分自身及び自分自身に似たスペクトルを持つ音素片のパラメータを用いて、スペクトル変形を行うものである。発声変形モデル学習手段50は、スペクトルの変形処理を複数回繰り返して行い、最終的に発声変形モデルのパラメータH,T,Qを出力する。
【0069】
発声変形モデル学習手段50において、平滑型スペクトル変形手段22bを用いることで、図21に示した発声変形モデル学習手段5の動作フロー中のステップS3におけるセグメントデータ作成において、発声変形モデルの偏倚によるセグメントデータの精度が向上し、発声変形モデルの高精度化とそれによる認識性能の向上が図れる。
【0070】
以上のように、発声変形モデル学習手段において、平滑型スペクトル変形手段は、発声変形モデルバッファに書き込まれた発声変形モデルを1個以上用いて、発声変形なし音声標準モデルメモリに格納されている音声標準モデルを構成するすべての音素片HMMについて、該音素片HMMの平均ベクトルに対し、ロンバード効果によるスペクトルの変形処理を施すようにしたので、発声変形モデルの学習がなされた音素片のスペクトル変形においても、これを除く他の音素片の変形様態を考慮するので、発声変形モデルにおける偏倚の影響を受けにくいスペクトル変形処理が実現できる。この結果、発声変形モデル学習用の発声変形音声データに対するセグメントデータの精度が向上し、発声変形モデルの高精度化が実現され、認識性能の向上が図れる。
【0071】
実施の形態3.
図11は、実施の形態2に示した音声認識装置100aからスイッチ4と発声変形モデル学習手段50を削除した音声認識装置100bを示す図である。
図11に示した音声認識装置100bは、学習機能がなく予め学習した発声変形モデルを発声変形モデルメモリ9に備えているものである。この発声変形モデルは、フロッピーディスクからロードされたり、オンラインにより遠隔地から伝送されてきて発声変形モデルメモリに格納される。この装置は、音声を学習する手段を持たず、単に音声を認識する動作だけを行う。
【0072】
図12に示す音声認識装置100cは、音声認識装置100aからスイッチ4と発声変形音声認識手段120と継続時間変動量メモリ10と継続時間パラメータ変更手段11を削除したものである。図12に示す装置は、発声変形モデルを作成するための音声学習装置として用いることができる。この装置により、発声変形モデルを作成し、前述した図11の音声認識装置に対してフロッピーディスクや通信回線を用いて、発声変形モデルを供給することができる。
【0073】
実施の形態4.
図13は、この発明に関わる発声変形音声認識装置の一実施の形態の構成を示すブロック図である。
図において、24は発声変形モデル学習手段50aにおいて得られる発声変形モデル学習用音声に対する音声標準モデルのセグメントデータ23と、発声変形なし音声標準モデルメモリ6に格納されている音声標準モデルとを用いて、各音声標準モデルについてロンバード効果による継続時間パラメータの変動量を求め、継続時間変動量メモリ10に出力する継続時間変動量学習手段である。その他の構成要素は、前述の従来例と同一である。
図14は、発声変形モデル学習手段50aを示すブロック図である。
発声変形モデル学習手段50aは、セグメントデータ23を図13に示す継続時間変動量学習手段24へ出力する。
【0074】
次に、動作について説明する。従来例と同じく連続分布型音素片HMMによる離散単語認識の場合を例に取り説明を行う。また、音素片継続時間による継続時間制御を例に取る。
発声変形なし音声標準モデルメモリ6には音声標準モデルとして、図15に示すように、発声変形のない音声データを用いて学習した音素片HMM,X1,X2,X3,・・・と、その継続時間パラメータである平均N1,N2,N3,・・・と分散σ1,σ2,σ3,・・・が格納されている。認識対象語彙であるところの単語を表すモデルは、音素片HMMの連鎖により表現されている。従来例と重複する部分は、説明を省略する。
【0075】
継続時間変動量学習手段24は、発声変形モデル学習手段5が発声変形モデルメモリ9に書き込む発声変形モデルの学習に用いた発声変形モデル学習用の発声変形音声データに対する音素片HMMのセグメントデータ23を入力として、発声変形音声における音素片継続時間パラメータを演算し、発声変形なし音声標準モデルメモリ6に格納されている音声標準モデルの音素片HMMの継続時間パラメータとの比較を行い、図16に示すような継続時間変動量データΔN1,ΔN2,・・・及びΔσ1,Δσ2,・・・を求め、継続時間変動量メモリ10に書き込む。
【0076】
継続時間変動量データΔN1,ΔN2,・・・及びΔσ1,Δσ2,・・・は、継続時間パラメータであるところの音素片継続時間の平均と分散について、発声変形音声と変形のない音声との差異を表現するもので、音素片継続時間の平均については、例えば、発声変形による伸縮倍率で表しても、伸縮時間で表現してもかまわず、また、その他の同様な効果を生むパラメータでもかまわない。同様に、音素片継続時間の分散についても、例えば、分散もしくは標準偏差の変動倍率で表現しても、変動量で表現してもかまわない。
【0077】
これにより、継続時間変動量メモリ10に格納される継続時間変動量データは、発声変形モデル学習用の発声変形音声における継続時間の変動を表現するものとなり、継続時間変動の話者依存性による認識精度の劣化を抑えることが可能になる。
【0078】
以上のように、継続時間変動量学習手段は、発声変形モデル学習手段が発声変形モデルメモリに書き込む発声変形モデルの学習に用いた発声変形モデル学習用の発声変形音声データに対する音素片HMMのセグメントデータを入力として、発声変形音声における音素片継続時間パラメータを演算し、発声変形なし音声標準モデルメモリ6に格納されている音声標準モデルの音素片HMMの継続時間パラメータとの比較を行い、継続時間変動量データを求め継続時間変動量メモリ10に書き込むようにしたので、継続時間変動量メモリ10に格納される継続時間変動量データは、発声変形モデル学習用の発声変形音声における継続時間の変動を表現するものとなり、継続時間変動の話者依存性による認識精度の劣化を抑えることが可能になる。
【0079】
また、継続時間変動量学習手段24における継続時間変動量データを求める処理を、すべての音素片について行うのではなく、ロンバード効果による継続時間変動が顕著に現れる5母音の定常部ならびに各母音から語尾への過渡部にのみ限定することで、認識精度を落とすことなく、演算量の削減が図れる。
図17は、音素について、5母音の継続時間変動量データを示している。
【0080】
加えて、5母音の定常部及び各母音から語尾への過渡部の継続時間変動量データをそれぞれ5母音で平均し、母音定常部に共通の継続時間変動量データ及び母音から語尾への過渡部に共通の継続時間変動量データとすることで、発声変形モデル学習用の発声変形音声データが少量の場合においても、認識精度の低下を防ぐことができる。
5母音の継続時間変動量データの平均は、以下の式で求めることができる。
ΔN=(ΔN1+ΔN2+ΔN3+ΔN4+ΔN5)/5
Δσ=(Δσ1+Δσ2+Δσ3+Δσ4+Δσ5)/5
【0081】
以上述べた全ての実施の形態において、その認識方式は連続分布型音素片HMMに制限されるものではなく、認識対象も単語に限らず、連続音声であってもかまわない。
【0082】
また、継続時間制御における音声の構成要素の単位も音素片に限らず、音素、半音節、音節、単語などどのような単位もとりうる。加えて、発声変形モデルは、音素片HMM毎に設定しているが、他の音声単位毎であっても、HMMの各状態毎もしくは複数の状態毎に設定してもかまわない。実現手法も専用ハードウェアに限らず、ソフトウェアであってもかまわない。
【0083】
以上のように、この発明に係る発声変形音声認識装置は、発声変形モデルメモリに格納されている発声変形モデルを用いて、発声変形なし音声標準モデルメモリに格納されているすべての音声標準モデルに対し、スペクトルの変形処理を施し変形音声標準モデルとして出力する平滑型スペクトル変形手段を備え、学習がなされた発声変形モデルに対応する音声標準モデルについて、その発声変形モデルを含む学習済み発声変形モデルを用い、また発声変形モデル学習時に未学習となった発声変形モデルに対応する音声標準モデルについても、学習済み発声変形モデルを用いて、スペクトル変形処理が行われるようにしたものである。
この発明では、平滑型スペクトル変形手段は、発声変形モデルメモリに格納されている学習がなされた発声変形モデルを用いて、発声変形なし音声標準モデルメモリに格納されているすべての音声標準モデルに対して、スペクトルの変形処理を施すので、発声変形モデルの学習がなされなかった音素片についてもスペクトル変形がなされる。加えて、発声変形モデルの学習がなされた音素片のスペクトル変形においても、これを除く他の音素片の変形様態を考慮するので、発声変形モデルにおける偏倚の影響を受けにくいスペクトル変形処理が実現できる。この結果、高精度認識が実現できる。
【0084】
また、この発明における発声変形音声認識装置は、発声変形モデル学習手段を、発声変形なし音声標準モデルメモリに記憶されている音声標準モデルを一時的に保持する音声標準モデルバッファと、この音声標準モデルバッファに保持された音声標準モデルを用いて、前記音響分析手段からの発声変形音声特徴ベクトル時系列における各音声標準モデルのセグメントデータを求めるセグメントデータ作成手段と、このセグメントデータ作成手段からのセグメントデータと、前記音声標準モデルバッファに保持された音声標準モデルと、前記発声変形なし音声標準モデルメモリに記憶された音声標準モデルとを用いて、発声変形モデルのパラメータを求めるパラメータ演算手段と、このパラメータ演算手段の出力する発声変形モデルのパラメータを保持する発声変形モデルバッファと、この発声変形モデルバッファに保持された発声変形モデルのパラメータを用いて、前記発声変形なし音声標準モデルメモリに記憶された音声標準モデルに対しスペクトル変形処理を施し、前記音声標準モデルバッファに書き込む平滑型スペクトル変形手段とで構成し、学習できた発声変形モデルに対応する音声標準モデルについてその発声変形モデルを含む学習済み発声変形モデルを用い、未学習の発声変形モデルに対応する音声標準モデルについても、学習できた発声変形モデルを用いて、スペクトル変形処理が行われるようにしたものである。
また、この発明では、発声変形モデル学習手段において、平滑型スペクトル変形手段は、発声変形モデルバッファに書き込まれた発声変形モデルを用いて、発声変形なし音声標準モデルメモリに格納されているすべての音声標準モデルについてスペクトルの変形処理を施すので、発声変形モデルの学習がなされた音素片のスペクトル変形においても、これを除く他の音素片の変形様態を考慮するので、発声変形モデルにおける偏倚の影響を受けにくいスペクトル変形処理が実現できる。この結果、発声変形モデル学習用の発声変形音声データに対するセグメントデータの精度が向上し、発声変形モデルの高精度化が実現され、認識性能の向上が図れる。
【0085】
また、この発明における発声変形音声認識装置は、発声変形モデル学習手段から出力されるセグメントデータと、前記発声変形なし音声標準モデルメモリ上の音声標準モデルとを用いて、音声標準モデルにおける継続時間の変動量を求める継続時間変動量学習手段を備え、継続時間変動量学習手段の出力する継続時間変動量データを継続時間変動量メモリに記憶し、継続時間パラメータ変更手段が、前記発声変形なし音声標準モデルメモリ上に格納されている音声標準モデルに対し、前記継続時間変動量メモリ上の継続時間変動量データを用いて、継続時間についてのパラメータを変更するようにしたものである。
この発明では、継続時間変動量学習手段は、発声変形モデル学習手段が発声変形モデルメモリに書き込む発声変形モデルを入力として、発声変形音声における音声構成要素の継続時間を演算し、発声変形なし音声標準モデルメモリに格納されている音声標準モデルの継続時間の変動量を求め、継続時間変動量メモリに書き込むので、継続時間変動量メモリに格納される継続時間変動量は、発声変形モデル学習用の発声変形音声における継続時間の変動を表現するものとなり、継続時間変動の話者依存性による認識精度の劣化を抑えることが可能になる。
【0086】
また、この発明における発声変形音声認識装置は、継続時間変動量学習手段において求める継続時間の変動量を母音部についてのみ求めるようにしたものである。
この発明では、継続時間変動量学習手段における継続時間変動量を求める処理を、すべての音素片について行うのではなく、ロンバード効果による継続時間変動が顕著に現れる5母音の定常部ならびに各母音から語尾への過渡部にのみ限定することで、認識精度を落とすことなく演算量の削減が図れる。
【0087】
また、この発明における発声変形音声認識装置は、継続時間変動量学習手段において、5母音について平均した継続時間変動量を求めるようにしたものである。
この発明では、継続時間変動量学習手段における継続時間変動量を求める処理を、ロンバード効果による継続時間変動が顕著に現れる5母音の定常部ならびに各母音から語尾への過渡部にのみ限定し、かつ、5母音の定常部および各母音から語尾への過渡部の継続時間変動量をそれぞれ5母音で平均し、母音定常部に共通の継続時間変動量および母音から語尾への過渡部に共通の継続時間変動量とすることで、発声変形モデル学習用の発声変形音声データが少量の場合においても、認識精度の低下を防ぐことができる。
【図面の簡単な説明】
【図1】 この発明の実施の形態1における音声認識システムの構成を示す図である。
【図2】 この発明の実施の形態1における音声認識システムを示すブロック図である。
【図3】 この発明の実施の形態1における発声変形音声認識手段を示すブロック図である。
【図4】 この発明の音声標準モデルの一例を示す図である。
【図5】 この発明の発声変形モデルの一例を示す図である。
【図6】 この発明の重み係数の一例を示す図である。
【図7】 この発明の平均ベクトルの距離を求める一例を示す図である。
【図8】 この発明のスペクトル変形手順を示すフローチャート図である。
【図9】 この発明の実施の形態2における音声認識装置を示すブロック図である。
【図10】 この発明の実施の形態2における発声変形モデル学習手段を示すブロック図である。
【図11】 この発明の音声認識装置の他の例を示すブロック図である。
【図12】 この発明の音声認識装置の他の例を示すブロック図である。
【図13】 この発明の実施の形態3における発声変形音声認識装置を示すブロック図である。
【図14】 この発明の発声変形モデル学習手段の他の例を示すブロック図である。
【図15】 この発明の発声標準モデルにおける継続時間パラメータを示す図である。
【図16】 この発明の継続時間変動量データを示す図である。
【図17】 この発明の母音の継続時間変動量データを示す図である。
【図18】 従来の発声変形音声認識装置の全体構成を示すブロック図である。
【図19】 従来の発声変形音声認識装置における発声変形モデル学習手段の構成を示すブロック図である。
【図20】 従来の発声変形音声認識装置における発声変形音声認識手段の構成を示すブロック図である。
【図21】 発声変形音声認識装置における発声変形モデル学習手段の動作を示すフロー図である。
【図22】 発声変形がある場合とない場合のスペクトル包絡を示す図である。
【図23】 発声変形モデルの学習動作を示す図である。
【図24】 ホルマントの移動を示すパラメータによるスペクトル変形を示す図である。
【図25】 全体傾斜の変化を示すパラメータによるスペクトル包絡の変形を示す図である。
【図26】 バンド幅の変化を示すパラメータによるスペクトル包絡の変形を示す図である。
【符号の説明】
1 入力端、2 音響分析手段、3 発声変形音声特徴ベクトル時系列、4 スイッチ、5,50,50a 発声変形モデル学習手段、6 発声変形なし音声標準モデルメモリ、7 音声標準モデル、8 発声変形モデル、9 発声変形モデルメモリ、10 継続時間変動量メモリ、11 継続時間パラメータ変更手段、12 発声変形音声認識手段、13 認識結果、14 音声標準モデルバッファ、15 セグメントデータ作成手段、16 パラメータ演算手段、17 発声変形モデルバッファ、19 音声モデル合成手段、20 尤度演算手段、21 照合手段、22a,22b 平滑型スペクトル変形手段、23 セグメントデータ、24 継続時間変動量学習手段、120 発声変形音声認識手段。

Claims (15)

  1. 入力音声信号に対し音響分析を行い発声変形音声特徴ベクトル時系列を出力する音響分析手段と、
    発声変形のない音声データで学習した音声標準モデルを記憶する発声変形なし音声標準モデルメモリと、
    発声変形された音声に生じる音韻スペクトルの変形を表現する複数の発声変形モデルを記憶する発声変形モデルメモリと、
    前記発声変形モデルメモリに格納されている複数の発声変形モデルを用いて、前記発声変形なし音声標準モデルメモリに格納されている音声標準モデルに対し、変形音声標準モデルを作成して前記音響分析手段から出力される発声変形音声特徴ベクトル時系列に対する音声認識結果を出力する音声認識手段と、
    音声標準モデル間のスペクトルの近似を示す重みを算出して算出した重みを記憶する重み記憶手段とを備え、
    上記音声認識手段は、発声変形モデルメモリに記憶された複数の発声変形モデルを用いて、前記発声変形なし音声標準モデルメモリに格納されている音声標準モデルに対し、スペクトルの変形処理を施し変形音声標準モデルとして出力するスペクトル変形手段を備え、
    上記スペクトル変形手段は、上記重み記憶手段が記憶した重みの大きい順に学習済みの複数の発声変形モデルを選択してスペクトルの変形処理を行うことを特徴とする発声変形音声認識装置。
  2. 入力音声信号に対し音響分析を行い発声変形音声特徴ベクトル時系列を出力する音響分析手段と、
    発声変形のない音声データで学習した音声標準モデルを記憶する発声変形なし音声標準モデルメモリと、
    発声変形された音声に生じる音韻スペクトルの変形を表現する複数の発声変形モデルを記憶する発声変形モデルメモリと、
    前記発声変形モデルメモリに格納されている複数の発声変形モデルを用いて、前記発声変形なし音声標準モデルメモリに格納されている音声標準モデルに対し、変形音声標準モデルを作成して前記音響分析手段から出力される発声変形音声特徴ベクトル時系列に対する音声認識結果を出力する音声認識手段とを備え、
    上記音声認識手段は、発声変形モデルメモリに記憶された複数の発声変形モデルを用いて、前記発声変形なし音声標準モデルメモリに格納されている音声標準モデルに対し、スペクトルの変形処理を施し変形音声標準モデルとして出力するスペクトル変形手段を備え、
    上記スペクトル変形手段は、既に学習がなされた発声変形モデルに対応する音声標準モデルに対して、既に学習がなされた発声変形モデルとその他の発声変形モデルを用いてスペクトル変形処理をすることを特徴とする発声変形音声認識装置。
  3. 入力音声信号に対し音響分析を行い発声変形音声特徴ベクトル時系列を出力する音響分析手段と、
    発声変形のない音声データで学習した音声標準モデルを記憶する発声変形なし音声標準モデルメモリと、
    発声変形された音声に生じる音韻スペクトルの変形を表現する複数の発声変形モデルを記憶する発声変形モデルメモリと、
    前記発声変形モデルメモリに格納されている複数の発声変形モデルを用いて、前記発声変形なし音声標準モデルメモリに格納されている音声標準モデルに対し、変形音声標準モデルを作成して前記音響分析手段から出力される発声変形音声特徴ベクトル時系列に対する音声認識結果を出力する音声認識手段とを備え、
    上記音声認識手段は、発声変形モデルメモリに記憶された複数の発声変形モデルを用いて、前記発声変形なし音声標準モデルメモリに格納されている音声標準モデルに対し、スペクトルの変形処理を施し変形音声標準モデルとして出力するスペクトル変形手段を備え、
    上記スペクトル変形手段は、未学習の発声変形モデルに対応する音声標準モデルに対して、既に学習がなされた発声変形モデルを複数用いてスペクトル変形処理をすることを特徴とする発声変形音声認識装置。
  4. 上記音声認識手段は、さらに、上記スペクトル変形手段の出力する変形音声標準モデルと前記発声変形なし音声標準モデルメモリに記憶された音声標準モデルとの合成を行う音声モデル合成手段と、
    この音声モデル合成手段の出力する合成モデルを用いて、前記音響分析手段から出力される発声変形音声特徴ベクトル時系列に対する尤度を計算し、この尤度に基づく認識結果を出力する発声変形音声照合手段とを備えたことを特徴とする請求項1から3のいずれかに記載の発声変形音声認識装置。
  5. 上記発声変形音声認識装置は、更に、この発声変形なし音声標準モデルメモリに記憶された音声標準モデルと、発声変形された音声信号が前記音響分析手段に入力された場合に出力される発声変形音声特徴ベクトル時系列とから、発声変形された音声に生じる音韻スペクトルの変形を表現する発声変形モデルを学習して、発声変形モデルメモリに出力する発声変形モデル学習手段とを備えたことを特徴とする請求項1から3のいずれかに記載の発声変形音声認識装置。
  6. 入力音声信号に対し音響分析を行い発声変形音声特徴ベクトル時系列を出力する音響分析手段と、
    発声変形のない音声データで学習した音声標準モデルを記憶する発声変形なし音声標準モデルメモリと、
    この発声変形なし音声標準モデルメモリに記憶された音声標準モデルと、発声変形された音声信号が前記音響分析手段に入力された場合に出力される発声変形音声特徴ベクトル時系列とから、発声変形された音声に生じる音韻スペクトルの変形を表現する発声変形モデルを1以上の発声変形モデルに基づいて学習する発声変形モデル学習手段と、
    この発声変形モデル学習手段により学習された発声変形モデルを記憶する発声変形モデルメモリと、
    音声標準モデル間のスペクトルの近似を示す重みを算出して算出した重みを記憶する重み記憶手段とを備え、
    前記発声変形モデル学習手段は、
    前記発声変形なし音声標準モデルメモリに記憶されている音声標準モデルを一時的に保持する音声標準モデルバッファと、
    この音声標準モデルバッファに保持された音声標準モデルを用いて、前記音響分析手段からの発声変形音声特徴ベクトル時系列における各音声標準モデルのセグメントデータを求めるセグメントデータ作成手段と、
    このセグメントデータ作成手段からのセグメントデータと、前記音声標準モデルバッファに保持された音声標準モデルと、前記発声変形なし音声標準モデルメモリに記憶された音声標準モデルとを用いて、発声変形モデルのパラメータを求めるパラメータ演算手段と、
    このパラメータ演算手段の出力する発声変形モデルのパラメータを保持する発声変形モデルバッファと、
    この発声変形モデルバッファに保持された複数の発声変形モデルのパラメータを用いて、前記発声変形なし音声標準モデルメモリの音声標準モデルに対しスペクトル変形処理を施し、前記音声標準モデルバッファに書き込むスペクトル変形手段とにより構成され、
    上記スペクトル変形手段は、上記重み記憶手段が記憶した重みの大きい順に学習済みの複数の発声変形モデルを選択してスペクトルの変形処理を行うことを特徴とする発声変形音声認識装置。
  7. 入力音声信号に対し音響分析を行い発声変形音声特徴ベクトル時系列を出力する音響分析手段と、
    発声変形のない音声データで学習した音声標準モデルを記憶する発声変形なし音声標準モデルメモリと、
    この発声変形なし音声標準モデルメモリに記憶された音声標準モデルと、発声変形された音声信号が前記音響分析手段に入力された場合に出力される発声変形音声特徴ベクトル時系列とから、発声変形された音声に生じる音韻スペクトルの変形を表現する発声変形モデルを1以上の発声変形モデルに基づいて学習する発声変形モデル学習手段と、
    この発声変形モデル学習手段により学習された発声変形モデルを記憶する発声変形モデルメモリとを備え、
    前記発声変形モデル学習手段は、
    前記発声変形なし音声標準モデルメモリに記憶されている音声標準モデルを一時的に保持する音声標準モデルバッファと、
    この音声標準モデルバッファに保持された音声標準モデルを用いて、前記音響分析手段からの発声変形音声特徴ベクトル時系列における各音声標準モデルのセグメントデータを求めるセグメントデータ作成手段と、
    このセグメントデータ作成手段からのセグメントデータと、前記音声標準モデルバッファに保持された音声標準モデルと、前記発声変形なし音声標準モデルメモリに記憶された音声標準モデルとを用いて、発声変形モデルのパラメータを求めるパラメータ演算手段と、
    このパラメータ演算手段の出力する発声変形モデルのパラメータを保持する発声変形モデルバッファと、
    この発声変形モデルバッファに保持された複数の発声変形モデルのパラメータを用いて、前記発声変形なし音声標準モデルメモリの音声標準モデルに対しスペクトル変形処理を施し、前記音声標準モデルバッファに書き込むスペクトル変形手段とにより構成され、
    上記スペクトル変形手段は、既に学習がなされた発声変形モデルに対応する音声標準モデルに対して、既に学習がなされた発声変形モデルとその他の発声変形モデルを用いてスペクトル変形処理をすることを特徴とする発声変形音声認識装置。
  8. 入力音声信号に対し音響分析を行い発声変形音声特徴ベクトル時系列を出力する音響分析手段と、
    発声変形のない音声データで学習した音声標準モデルを記憶する発声変形なし音声標準モデルメモリと、
    この発声変形なし音声標準モデルメモリに記憶された音声標準モデルと、発声変形された音声信号が前記音響分析手段に入力された場合に出力される発声変形音声特徴ベクトル時系列とから、発声変形された音声に生じる音韻スペクトルの変形を表現する発声変形モデルを1以上の発声変形モデルに基づいて学習する発声変形モデル学習手段と、
    この発声変形モデル学習手段により学習された発声変形モデルを記憶する発声変形モデルメモリとを備え、
    前記発声変形モデル学習手段は、
    前記発声変形なし音声標準モデルメモリに記憶されている音声標準モデルを一時的に保持する音声標準モデルバッファと、
    この音声標準モデルバッファに保持された音声標準モデルを用いて、前記音響分析手段からの発声変形音声特徴ベクトル時系列における各音声標準モデルのセグメントデータを求めるセグメントデータ作成手段と、
    このセグメントデータ作成手段からのセグメントデータと、前記音声標準モデルバッファに保持された音声標準モデルと、前記発声変形なし音声標準モデルメモリに記憶された音声標準モデルとを用いて、発声変形モデルのパラメータを求めるパラメータ演算手段と、
    このパラメータ演算手段の出力する発声変形モデルのパラメータを保持する発声変形モデルバッファと、
    この発声変形モデルバッファに保持された複数の発声変形モデルのパラメータを用いて、前記発声変形なし音声標準モデルメモリの音声標準モデルに対しスペクトル変形処理を施し、前記音声標準モデルバッファに書き込むスペクトル変形手段とにより構成され、
    上記スペクトル変形手段は、未学習の発声変形モデルに対応する音声標準モデルに対して、既に学習がなされた発声変形モデルを複数用いてスペクトル変形処理をすることを特徴とする発声変形音声認識装置。
  9. 上記発声変形音声認識装置は、更に、この発声変形モデルメモリに記憶された発声変形モデルと、前記発声変形なし音声標準モデルメモリに格納されている音声標準モデルとを用いて、前記音響分析手段から出力される発声変形音声特徴ベクトル時系列に対する音声認識結果を出力する音声認識手段とを備えたことを特徴とする請求項6から8のいずれかに記載の発声変形音声認識装置。
  10. 上記重み記憶手段は、自己の音声標準モデルに対して最大の重みを付すことを特徴とする請求項1または6記載の発声変形音声認識装置。
  11. 上記スペクトル変形手段は、選択した複数の発声変形モデルの各々を用いてスペクトル変形処理を行い、その平均値を算出し、変形音声標準モデルとする平均値算出手段を備えたことを特徴とする請求項10記載の発声変形音声認識装置。
  12. 上記平均値算出手段は、上記重みを用いて平均値を算出することを特徴とする請求項11記載の発声変形音声認識装置。
  13. 以下の工程を備えた音声認識方法
    (a)複数の音声標準モデルと上記音声標準モデルの一部に対する発声変形モデルと音声標準モデル間の近似を示す重みとを予め記憶する工程、
    (b)上記複数の音声標準モデルの中の1つの音声標準モデルに対して、上記重みの大きい順に1つ以上の発声変形モデルを選択し、選択した発声変形モデルを用いてスペクトル変形を行う工程、
    (c)上記複数の発声変形モデルによるスペクトル変形の結果の平均値を上記音声標準モデルの変形音声標準モデルとして出力する工程、
    (d)発声変形のある音声データと、上記変形音声標準モデルを入力し、音声データと変形音声標準モデルとを比較して比較結果を出力する照合工程。
  14. 上記音声認識方法は、更に、上記照合工程の比較結果を入力して、音声を認識する工程を備えたことを特徴とする請求項13記載の音声認識方法。
  15. 上記音声認識方法は、更に、上記照合工程の比較結果を入力して、発声変形モデルを学習する学習工程を備えたことを特徴とする請求項13記載の音声認識方法。
JP28063595A 1994-10-28 1995-10-27 発声変形音声認識装置及び音声認識方法 Expired - Fee Related JP3652753B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP28063595A JP3652753B2 (ja) 1994-10-28 1995-10-27 発声変形音声認識装置及び音声認識方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP26528094 1994-10-28
JP6-265280 1994-10-28
JP28063595A JP3652753B2 (ja) 1994-10-28 1995-10-27 発声変形音声認識装置及び音声認識方法

Publications (2)

Publication Number Publication Date
JPH08211887A JPH08211887A (ja) 1996-08-20
JP3652753B2 true JP3652753B2 (ja) 2005-05-25

Family

ID=26546914

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28063595A Expired - Fee Related JP3652753B2 (ja) 1994-10-28 1995-10-27 発声変形音声認識装置及び音声認識方法

Country Status (1)

Country Link
JP (1) JP3652753B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8996373B2 (en) 2010-12-27 2015-03-31 Fujitsu Limited State detection device and state detecting method

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5930753A (en) * 1997-03-20 1999-07-27 At&T Corp Combining frequency warping and spectral shaping in HMM based speech recognition
US5960397A (en) * 1997-05-27 1999-09-28 At&T Corp System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8996373B2 (en) 2010-12-27 2015-03-31 Fujitsu Limited State detection device and state detecting method

Also Published As

Publication number Publication date
JPH08211887A (ja) 1996-08-20

Similar Documents

Publication Publication Date Title
JP2733955B2 (ja) 適応型音声認識装置
US5742928A (en) Apparatus and method for speech recognition in the presence of unnatural speech effects
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
JP4328698B2 (ja) 素片セット作成方法および装置
US5864809A (en) Modification of sub-phoneme speech spectral models for lombard speech recognition
JPH0585916B2 (ja)
JPS58102299A (ja) 部分単位音声パタン発生装置
JPH09160584A (ja) 音声適応化装置および音声認識装置
Plumpe et al. HMM-based smoothing for concatenative speech synthesis.
CN112750445A (zh) 语音转换方法、装置和系统及存储介质
JP2751856B2 (ja) 木構造を用いたパターン適応化方式
US7275030B2 (en) Method and apparatus to compensate for fundamental frequency changes and artifacts and reduce sensitivity to pitch information in a frame-based speech processing system
Gao et al. Multistage coarticulation model combining articulatory, formant and cepstral features.
JP3652753B2 (ja) 発声変形音声認識装置及び音声認識方法
JPH08248994A (ja) 声質変換音声合成装置
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP2013182261A (ja) 適応化装置、音声認識装置、およびそのプログラム
Levy-Leshem et al. Taco-VC: A single speaker tacotron based voice conversion with limited data
WO2021033629A1 (ja) 音響モデル学習装置、音声合成装置、方法およびプログラム
JPH10254473A (ja) 音声変換方法及び音声変換装置
Kotani et al. Voice Conversion Based on Deep Neural Networks for Time-Variant Linear Transformations
Lyu et al. Isolated Mandarin base-syllable recognition based upon the segmental probability model
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
JPH10247097A (ja) 自然発話音声波形信号接続型音声合成装置
US20220068256A1 (en) Building a Text-to-Speech System from a Small Amount of Speech Data

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050224

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees