JPH08211887A - 発声変形音声認識装置及び音声認識方法 - Google Patents

発声変形音声認識装置及び音声認識方法

Info

Publication number
JPH08211887A
JPH08211887A JP7280635A JP28063595A JPH08211887A JP H08211887 A JPH08211887 A JP H08211887A JP 7280635 A JP7280635 A JP 7280635A JP 28063595 A JP28063595 A JP 28063595A JP H08211887 A JPH08211887 A JP H08211887A
Authority
JP
Japan
Prior art keywords
model
speech
voicing
voice
transformation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7280635A
Other languages
English (en)
Other versions
JP3652753B2 (ja
Inventor
Tadashi Suzuki
鈴木  忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP28063595A priority Critical patent/JP3652753B2/ja
Publication of JPH08211887A publication Critical patent/JPH08211887A/ja
Application granted granted Critical
Publication of JP3652753B2 publication Critical patent/JP3652753B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C04CEMENTS; CONCRETE; ARTIFICIAL STONE; CERAMICS; REFRACTORIES
    • C04BLIME, MAGNESIA; SLAG; CEMENTS; COMPOSITIONS THEREOF, e.g. MORTARS, CONCRETE OR LIKE BUILDING MATERIALS; ARTIFICIAL STONE; CERAMICS; REFRACTORIES; TREATMENT OF NATURAL STONE
    • C04B41/00After-treatment of mortars, concrete, artificial stone or ceramics; Treatment of natural stone
    • C04B41/45Coating or impregnating, e.g. injection in masonry, partial coating of green or fired ceramics, organic coating compositions for adhering together two concrete elements
    • C04B41/52Multiple coating or impregnating multiple coating or impregnating with the same composition or with compositions only differing in the concentration of the constituents, is classified as single coating or impregnation

Landscapes

  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Ceramic Engineering (AREA)
  • Materials Engineering (AREA)
  • Structural Engineering (AREA)
  • Organic Chemistry (AREA)

Abstract

(57)【要約】 【課題】 発声変形モデルの学習に用いる音声データが
少量の場合でも高い認識性能をもつ発声変形音声認識装
置を得る。 【解決手段】 発声変形モデル学習手段により、発声変
形が生じた音声に生じる音韻スペクトルの変形を表現す
る発声変形モデルを学習し、発声変形のない音声データ
で学習した音声標準モデルを記憶する発声変形なし音声
標準モデルメモリに格納されているすべての音声標準モ
デルに対し、前記発声変形モデルを用いてスペクトルの
変形処理を施し変形音声標準モデルとして出力する平滑
型スペクトル変形手段を備え、この変形音声標準モデル
と、発声変形なし音声標準モデルとを用いて、入力音声
信号に対し音響分析を行って得た発声変形音声特徴ベク
トル時系列に対し認識処理を行う構成とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えば環境騒音の
もとでおこるような発声変形が生じた音声を対象とする
音声認識装置に関するものである。
【0002】
【従来の技術】騒音下音声認識を実現する上で、環境騒
音による発声変形(ロンバード効果)は、雑音重畳によ
る音声信号の品質劣化と並ぶ重要な問題となっている。
ロンバード効果による音韻スペクトルの変形に対して、
音韻や話者に依存しない補正手法がこれまでに提案され
ている。
【0003】特開平4−296799号公報に示された
「音声認識装置」や特開平5−6196号公報に示され
た「音声認識装置」では、ロンバード効果により300
Hz〜1500Hz内のホルマントが大きく変動するこ
とについて、入力音声に対するホルマント周波数分析
と、環境騒音レベルもしくは入力音声のレベルによって
規定される周波数変動量により、ケプストラムパラメー
タ上で補正する手法が提案されている。特開平4−25
7898号公報に示された「ロンバード音声認識方法」
においても前述の帯域におけるホルマント周波数の変動
に着目して、標準パタンのスペクトルと入力パタンのス
ペクトルのマッチングの際に、1.5kHz以下のズレ
をDPマッチングで補正する方法を提案している。しか
しながらこれらの手法は、ロンバード効果によるスペク
トル変形の個人性や音韻依存性を考慮しておらず、また
前記帯域以外の変動については、具体的補正手法を示す
に至っていない。そのため、語彙数の多い認識では十分
な認識率が得られないという欠点があった。
【0004】また、ロンバード効果による発話時間の伸
長は、音素や音素片、音節など様々な音声単位における
継続時間の情報を認識評価尺度として利用する継続時間
制御付き認識手法において、その性能劣化の原因とな
る。
【0005】これに対し、スペクトル変形の様態を表現
する発声変形モデルを定義し、このモデルのパラメータ
を大量の発声変形音声データを用いて音韻毎に学習、認
識に用いる手法が、文献“高騒音下音声認識における発
声変形対処法の検討”(鈴木、中島、日本音響学会平成
5年度秋季研究発表会講演論文集 平成5年10月5日
発行 pp.147−148)において提案されてい
る。
【0006】また、文献“高騒音下における発声変形音
声の認識”(鈴木、中島、阿部、日本音響学会平成6年
度春季研究発表会講演論文集 平成6年3月23日発行
pp.13−14)において、ロンバード効果による
音素片継続時間の平均と標準偏差の変動量について、予
め複数話者の平均値を求めておき、これを用いて補正を
加える手法が提案されている。
【0007】図18は、これらの手法に基づく発声変形
音声認識装置の構成図の一例である。図において、2は
入力端1より入力された発声変形音声信号に対し音響分
析を行い、発声変形音声特徴ベクトル時系列3を出力す
る音響分析手段、4は発声変形モデル学習時と発声変形
音声認識時とで前記発声変形音声特徴ベクトル時系列3
の出力先を変更するスイッチ、5は発声変形なし音声標
準モデルメモリ6に格納されている音声標準モデル7と
前記発声変形音声特徴ベクトル時系列3を用いて発声変
形モデルの学習を行う発声変形モデル学習手段、9は前
記発声変形モデル学習手段5の出力であるところの発声
変形モデル8を記憶する発声変形モデルメモリである。
【0008】10は音素や音素片などの音声を構成する
要素の継続時間における平均と標準偏差の発声変形によ
る平均変動量を記憶する継続時間変動量メモリ、11は
前記継続時間変動量メモリ10に格納されている継続時
間変動量データを用いて、前記発声変形なし音声標準モ
デルメモリ6上の音声標準モデル7における継続時間パ
ラメータを変更する継続時間パラメータ変更手段、12
は前記発声変形モデルメモリ9上の発声変形モデルと前
記継続時間パラメータ変更手段により継続時間パラメー
タを変更された変形なし音声標準パタンとを用いて、前
記発声変形音声特徴ベクトル時系列に対する音声認識処
理を実行する発声変形音声認識手段である。13は発声
変形音声認識手段からの音声認識処理の認識結果であ
る。
【0009】また、図19は、発声変形モデル学習手段
5の構成図の一例である。14は初期状態においては前
記発声変形なし音声標準モデルメモリ6上の音声標準モ
デル7を読み込み保持する音声標準モデルバッファ、1
5は前記音声標準モデルバッファ14上の音声標準モデ
ルを用いて、入力される発声変形音声特徴ベクトル時系
列3における音声標準モデルのセグメントデータを求め
るセグメントデータ作成手段、16はこのセグメントデ
ータと前記音声標準モデルバッファ14上の音声標準モ
デルと前記発声変形なし音声標準モデルメモリ6上の音
声標準モデル7とを用いて発声変形モデルの各パラメー
タを求めるパラメータ演算手段、17は前記パラメータ
演算手段16の出力であるところの発声変形モデルを記
憶する発声変形モデルバッファ、18aは前記発声変形
モデルバッファ17上の発声変形モデルを用いて、前記
音声標準モデルに対するスペクトル変形処理を施し、前
記音声標準モデルバッファ14上に書き込むスペクトル
変形手段である。
【0010】また、図20は、発声変形音声認識手段1
2の構成図の一例である。18bは前記発声変形モデル
メモリ9に格納されている発声変形モデルを用いて、継
続時間パラメータ変更手段11を介して入力される発声
変形なし音声標準モデルメモリ6に格納されている音声
標準モデルに対し、音韻スペクトルの変形処理を施すス
ペクトル変形手段である。
【0011】19はこのスペクトル変形手段18bの出
力であるところの変形音声標準モデルと継続時間パラメ
ータ変更手段11を介して入力される前記音声標準モデ
ルとを合成し、混合型音声標準モデルを生成する音声モ
デル合成手段、20はこの音声モデル合成手段19の出
力であるところの混合型音声標準モデルを用いて、入力
されてくる発声変形音声特徴ベクトル時系列3に対する
尤度データを演算する尤度演算手段、21はこの尤度演
算手段20の出力であるところの尤度データを用いて、
照合処理を行い認識結果13を出力する照合手段であ
る。すなわち、本実施例では、スペクトル変形手段18
bの出力する変形音声標準モデルと、継続時間パラメー
タ変更手段11を介して入力される前記音声標準モデル
とから、前記発声変形音声特徴ベクトル時系列3に対す
る尤度を計算し、この尤度に基づく認識結果を出力する
発声変形音声照合手段が、前記尤度演算手段20、照合
手段21により構成されている。
【0012】次に動作について、連続分布型音素片HM
Mによる離散単語認識の場合を例に取り説明を行う。発
声変形なし音声標準モデルメモリ6には、音声標準モデ
ルとして、発声変形のない音声データを用いて学習した
音素片HMMと、その継続時間パラメータであるところ
の音素片継続時間の平均と分散とが格納されている。認
識対象語彙であるところの単語を表すモデルは、音素片
HMMの連鎖により表現されている。連鎖は、発声変形
なし音声標準モデルメモリ6に記憶されている。連鎖
は、発声変形なし音声標準モデルメモリ6から尤度計算
手段20を経て照合手段21に入力されて用いられる。
【0013】また、継続時間変動量メモリ10には、予
備学習によって得られているところの各音素片の平均継
続時間と、継続時間の分布における標準偏差についての
変形なし音声と発声変形音声との比を、複数話者につい
ての平均した値が継続時間変動量データとして格納され
ている。
【0014】まず、発声変形モデルの学習動作について
説明する。入力端1より入力された発声変形モデル学習
用であるところのカテゴリ既知の発声変形音声信号は、
音響分析手段2により音響分析され、発声変形音声特徴
ベクトル時系列3に変換される。発声変形モデル学習時
には、スイッチ4はa側に入れられており、該発声変形
音声特徴ベクトル時系列3は発声変形モデル学習手段5
に入力される。発声変形モデル学習手段5における動作
を図21の動作フロー図に沿って説明する。
【0015】発声変形モデル学習手段5では、まず初期
化処理として、学習における繰り返し処理の回数をカウ
ントするループカウンタをステップS1において0にク
リアし、ついでステップS2において前記発声変形なし
音声標準モデルメモリ6上の音声標準モデル7を音声標
準モデルバッファ14に読み込む。
【0016】セグメントデータ作成手段15は、ステッ
プS3において、前記音声標準モデルバッファ14上の
音声標準モデルを用いて、カテゴリ既知の前記発声変形
音声特徴ベクトル時系列3に対する各音素片のセグメン
トデータを、当該カテゴリの単語音声モデルとのビタビ
パスから求める。パラメータ演算手段16は、ステップ
S4において、該セグメントデータから得られる、音声
標準モデル7の各音素片HMMと発声変形音声特徴ベク
トル時系列3の各特徴ベクトルとの対応づけに従い、音
素片HMMの平均ベクトルを表すスペクトル包絡70、
発声変形音声特徴ベクトルを表すスペクトル包絡30及
び音声標準モデルバッファ上の音素片HMMの平均ベク
トルを表すスペクトル包絡70aを用いて、発声変形モ
デルの各パラメータを計算する。ループカウンタの値が
0の場合には、音声標準モデル7から出力される音素片
HMMの平均ベクトルを表すスペクトル包絡70と、音
声標準モデルバッファ上の音素片HMMの平均ベクトル
を表すスペクトル包絡70aは同じものである。得られ
たパラメータは、発声変形モデルバッファ17に書き込
まれる。図22に示すように、発声変形音声特徴ベクト
ルのスペクトル包絡30と発声変形なし音声標準モデル
のスペクトル包絡70は差があり、この差をパラメータ
演算手段16が以下に述べる3つのパラメータを用い
て、発声変形モデルとして演算し記憶する。図23にパ
ラメータ演算手段が出力するパラメータを図示する。パ
ラメータ演算手段16は、発声変形音声特徴ベクトルを
表すスペクトル包絡30及び音声標準モデルバッファ上
の音素片HMMの平均ベクトルを表すスペクトル包絡7
0a(ループカウンタが0の場合には、スペクトル包絡
70と同じもの)をDPマッチングのアルゴリズムを用
いてマッチングさせ、非線形伸縮関数(フリーケンシー
ワーピングファンクション)を検出する。この非線形伸
縮関数は、ホルマントの移動を示すパラメータである。
次に、パラメータ演算手段は、非線形伸縮関数を用いて
スペクトル包絡70に対してスペクトル変形をかけ、ス
ペクトル包絡30との差分を取り、平均差分スペクトル
を求める。更に、平均差分スペクトルから全体傾斜の変
化及びバンド幅の変化を求める。このようにして、パラ
メータ演算手段は、(1)ホルマントの移動を示す非線
形伸縮関数(以下、パラメータHという)、(2)全体
傾斜の変化(以下、パラメータTという)、(3)バン
ド幅の変化(以下、パラメータQという)という3つの
パラメータを算出し、この3つのパラメータを発声変形
モデル8として記憶する。
【0017】ステップS5でループカウンタに1を加
え、ステップS6において、ループカウンタ値が予め与
えられている所定のループ数最大値との大小比較を行
う。所定の値に達していれば、発声変形モデルバッファ
上の発声変形モデルを前記発声変形モデルメモリ9に書
き出して学習動作を終了する。
【0018】所定の値に達しない場合は、ステップS7
としてスペクトル変形手段18aが、前記発声変形モデ
ルバッファ17上に保持されている発声変形モデルを用
いて、前記音声標準モデルの平均ベクトルに対し変形処
理を施し、変形された音声標準モデルとして前記音声標
準モデルバッファ14上に上書きする。スペクトル変形
手段18aが行う変形処理は、図24,図25,図26
に示すように、パラメータ演算手段16が求めた3つの
パラメータを用いて、音声標準モデルのスペクトル包絡
70に対して変形処理を行うものである。図24は、ス
ペクトル包絡70に対して、非線形伸縮関数Hを用いて
ホルマントの移動を施す変形処理を示している。図25
は、スペクトル包絡70に対して、全体傾斜の変化を示
すパラメータTを用いてスペクトル包絡の傾斜を修正す
る処理を示している。図26は、スペクトル包絡70に
対して、バンド幅の変化を示すパラメータHを用いて修
正処理を施す場合を示している。このようにして、変形
処理をされたスペクトル包絡は、変形された音声標準モ
デルを表すスペクトル包絡70aとして、音声標準モデ
ルバッファ14に書き込まれる。ついで、ステップS3
の処理に戻る。スペクトル変形手段18aは、繰り返し
発声変形モデルを作成し、パラメータ演算手段が入力さ
れた発声変形音声特徴ベクトルとのマッチングを繰り返
し行うことにより、次第に学習効果が高まっていく。以
上の動作により発声変形モデルが学習され、発声変形モ
デルメモリ9上に格納される。
【0019】次に、認識時の動作について説明する。入
力端1より入力されたカテゴリ未知の発声変形音声信号
は、音響分析手段2により音響分析され、発声変形音声
特徴ベクトル時系列3に変換される。未知入力発声変形
音声を認識する際には、スイッチ4はb側に入れられ、
該発声変形音声特徴ベクトル時系列3は、発声変形音声
認識手段12に入力される。
【0020】継続時間パラメータ変更手段11は、前記
発声変形なし音声標準モデルメモリ6上の音素片HMM
の継続時間パラメータを、継続時間変動量メモリ10上
に保持されている各音素片の継続時間変動量データに従
って変更する。発声変形音声認識手段12において、ス
ペクトル変形手段18bは、継続時間パラメータ変更手
段11を介して入力される前記発声変形なし音声標準モ
デルメモリ6上の音声標準モデル7を構成する各音素片
HMMの平均ベクトルに対し、前記発声変形モデルメモ
リ9に格納されている発声変形モデルを用いてスペクト
ル変形処理を施す。このスペクトル変形手段18bの動
作は、前述したスペクトル変形手段18aと同じであ
る。即ち、スペクトル変形手段18bは、図24,図2
5,図26に示した3つのパラメータを発声変形モデル
メモリ9から入力する。そして、継続時間パラメータ変
更手段11から入力した音声標準モデル7のスペクトル
包絡に対して、図24,図25,図26に示した3つの
変形処理を行い、発声変形音声モデルに基づくスペクト
ル包絡を音声モデル合成手段19へ出力する。スペクト
ル変形手段18bは、発声変形モデルメモリ9に記憶さ
れた既に学習された音素片に対してはスペクトル変形を
行えるが、発声変形モデルメモリ9に記憶されていない
未学習の音素片に対してはスペクトル変形を行わない
(行えない)。
【0021】音声モデル合成手段19は、継続時間パラ
メータ変更手段11を介して入力される前記発声変形な
し音声標準メモリ6に格納されている音声標準モデル7
を構成する音素片HMMと、これに対しスペクトル変形
手段18bでスペクトル変形処理を施されて得られた発
声変形音声標準モデルであるところの発声変形音素片H
MMとを用い、等しい分岐確率を持つ2混合の連続分布
型音素片HMMを生成する。
【0022】尤度演算手段20は、前記発声変形音声特
徴ベクトル時系列3の各特徴ベクトルと、前記音声モデ
ル合成手段19の出力であるところの混合連続分布型音
素片HMMとの尤度演算を行い、得られた尤度データを
出力する。照合手段21は、該尤度データを用いて認識
語彙の単語音声を表す音素片の連鎖に従い、各単語に対
する単語尤度をビタビ演算もしくはトレリス演算により
求め、この単語尤度が最大になる単語のカテゴリを認識
結果13として出力する。以上の動作により、カテゴリ
未知の発声変形音声の認識が実行され、その認識結果が
得られる。
【0023】
【発明が解決しようとする課題】従来の装置は以上のよ
うに構成されているため、発声変形モデル学習用の発声
変形音声データの中に含まれない音素片に対応する発声
変形モデルは学習することができず、すべての発声変形
モデルを生成するためには、大量の学習用発声変形音声
データを必要とするという問題があった。
【0024】また、学習用発声変形音声データの中にあ
る音素片であっても、発声変形モデル学習用の発声変形
音声データが少ない場合、偏倚した発声変形モデルが生
成されてしまい、認識性能の劣化要因になっていた。
【0025】また、音素片の継続時間変動量データを求
めるためには、すべての音素片を含む発声変形音声デー
タを複数の話者について収集しなくてはならず、莫大な
コストが必要となるという問題があった。加えて、継続
時間変動量の話者依存性が無視されているため、十分な
認識性能が得られない場合もあった。
【0026】本発明は上記の問題を解決するためになさ
れたもので、音声標準モデルに対するスペクトル変形処
理において、学習がなされた発声変形モデルを1個以上
用いるようにする事で、少ない学習用発声変形音声デー
タでもすべての音声標準モデルに対する変形処理を可能
にすることを目的としている。また、発声変形モデルの
学習処理においても同様に、学習がなされた発声変形モ
デルを1個以上用いるようにすることで、少ない学習用
発声変形音声データでも偏倚の小さい発声変形モデルの
生成を可能にすることを目的としている。
【0027】加えて、発声変形モデルの学習時に継続時
間データを抽出し、これを用いて継続時間変動量を学習
する機能を持たせることで、継続時間変動量データの作
成にかかるコストを減らし、同時に、継続時間変動量の
話者依存性による認識精度劣化に対処することを目的と
している。
【0028】
【課題を解決するための手段】この発明に係る発声変形
音声認識装置は、入力音声信号に対し音響分析を行い発
声変形音声特徴ベクトル時系列を出力する音響分析手段
と、発声変形のない音声データで学習した音声標準モデ
ルを記憶する発声変形なし音声標準モデルメモリと、発
声変形された音声に生じる音韻スペクトルの変形を表現
する発声変形モデルを記憶する発声変形モデルメモリ
と、前記発声変形モデルメモリに格納されている1以上
の発声変形モデルを用いて、前記発声変形なし音声標準
モデルメモリに格納されている音声標準モデルに対し、
変形音声標準モデルを作成して前記音響分析手段から出
力される発声変形音声特徴ベクトル時系列に対する音声
認識結果を出力する音声認識手段とを備えたことを特徴
とする。
【0029】上記音声認識手段は、発声変形モデルメモ
リに記憶された複数の発声変形モデルを用いて、前記発
声変形なし音声標準モデルメモリに格納されている音声
標準モデルに対し、スペクトルの変形処理を施し変形音
声標準モデルとして出力するスペクトル変形手段と、こ
のスペクトル変形手段の出力する変形音声標準モデルと
前記発声変形なし音声標準モデルメモリに記憶された音
声標準モデルとの合成を行う音声モデル合成手段と、こ
の音声モデル合成手段の出力する合成モデルを用いて、
前記音響分析手段から出力される発声変形音声特徴ベク
トル時系列に対する尤度を計算し、この尤度に基づく認
識結果を出力する発声変形音声照合手段とを備えたこと
を特徴とする。
【0030】上記発声変形音声認識装置は、更に、この
発声変形なし音声標準モデルメモリに記憶された音声標
準モデルと、発声変形された音声信号が前記音響分析手
段に入力された場合に出力される発声変形音声特徴ベク
トル時系列とから、発声変形された音声に生じる音韻ス
ペクトルの変形を表現する発声変形モデルと学習して、
発声変形モデルメモリに出力する発声変形モデル学習手
段とを備えたことを特徴とする。
【0031】この発明に係る発声変形音声認識装置は、
入力音声信号に対し音響分析を行い発声変形音声特徴ベ
クトル時系列を出力する音響分析手段と、発声変形のな
い音声データで学習した音声標準モデルを記憶する発声
変形なし音声標準モデルメモリと、この発声変形なし音
声標準モデルメモリに記憶された音声標準モデルと、発
声変形された音声信号が前記音響分析手段に入力された
場合に出力される発声変形音声特徴ベクトル時系列とか
ら、発声変形された音声に生じる音韻スペクトルの変形
を表現する発声変形モデルを1以上の発声変形モデルに
基づいて学習する発声変形モデル学習手段と、この発声
変形モデル学習手段により学習された発声変形モデルを
記憶する発声変形モデルメモリとを備えたことを特徴と
する。
【0032】前記発声変形モデル学習手段は、前記発声
変形なし音声標準モデルメモリに記憶されている音声標
準モデルを一時的に保持する音声標準モデルバッファ
と、この音声標準モデルバッファに保持された音声標準
モデルを用いて、前記音響分析手段からの発声変形音声
特徴ベクトル時系列における各音声標準モデルのセグメ
ントデータを求めるセグメントデータ作成手段と、この
セグメントデータ作成手段からのセグメントデータと、
前記音声標準モデルバッファに保持された音声標準モデ
ルと、前記発声変形なし音声標準モデルメモリに記憶さ
れた音声標準モデルとを用いて、発声変形モデルのパラ
メータを求めるパラメータ演算手段と、このパラメータ
演算手段の出力する発声変形モデルのパラメータを保持
する発声変形モデルバッファと、この発声変形モデルバ
ッファに保持された複数の発声変形モデルのパラメータ
を用いて、前記発声変形なし音声標準モデルメモリの音
声標準モデルに対しスペクトル変形処理を施し、前記音
声標準モデルバッファに書き込むスペクトル変形手段と
により構成されたことを特徴とする。
【0033】上記発声変形音声認識装置は、更に、この
発声変形モデルメモリに記憶された発声変形モデルと、
前記発声変形なし音声標準モデルメモリに格納されてい
る音声標準モデルとを用いて、前記音響分析手段から出
力される発声変形音声特徴ベクトル時系列に対する音声
認識結果を出力する音声認識手段とを備えたことを特徴
とする。
【0034】上記発生変形音声認識装置は、更に、音声
標準モデル間のスペクトルの近似を示す重みを算出して
算出した重みを記憶する重み記憶手段を備え、上記スペ
クトル変形手段は、上記重み記憶手段が記憶した重みの
大きい順に学習済みの複数の発声変形モデルを選択して
スペクトルの変形処理を行うことを特徴とする。
【0035】上記重み記憶手段は、自己の音声標準モデ
ルに対して最大の重みを付すことを特徴とする。
【0036】上記スペクトル変形手段は、選択した複数
の発声変形モデルの各々を用いてスペクトル変形処理を
行い、その平均値を算出し、変形音声標準モデルとする
平均値算出手段を備えたことを特徴とする。
【0037】上記平均値算出手段は、上記重みを用いて
平均値を算出することを特徴とする。
【0038】上記スペクトル変形手段は、既に学習がな
された発声変形モデルに対応する音声標準モデルに対し
て、既に学習がなされた発声変形モデルとその他の発声
変形モデルを用いてスペクトル変形処理をすることを特
徴とする。
【0039】上記スペクトル変形手段は、未学習の発声
変形モデルに対応する音声標準モデルに対して、既に学
習がなされた発声変形モデルを複数用いてスペクトル変
形処理をすることを特徴とする。
【0040】この発明に係る発声変形音声認識装置は、
入力音声信号に対し音響分析を行い発声変形音声特徴ベ
クトル時系列を出力する音響分析手段と、発声変形のな
い音声データで学習した音声標準モデルを記憶する発声
変形なし音声標準モデルメモリと、この発声変形なし音
声標準モデルメモリに記憶された音声標準モデルと、発
声変形された音声信号が前記音響分析手段に入力された
場合に出力される発声変形音声特徴ベクトル時系列とか
ら、発声変形された音声に生じる音韻スペクトルの変形
を表現する発声変形モデルを学習する発声変形モデル学
習手段と、音声を構成する要素の継続時間変動量を記憶
する継続時間変動量メモリと、前記発声変形モデル学習
手段から出力される発声変形モデルと前記発声変形なし
音声標準モデルメモリに記憶された音声標準モデルとか
ら、音声標準モデルにおける音声を構成する要素の継続
時間の変動量を求め、前記継続時間変動量メモリに記憶
させる継続時間変動量学習手段とを備えたことを特徴と
する。
【0041】上記発生変形音声認識装置は、更に、発声
変形モデル学習手段により学習された発声変形モデルを
記憶する発声変形モデルメモリと、継続時間変動量メモ
リに記憶された継続時間変動量に基づき前記発声変形な
し音声標準モデルメモリ上に格納されている音声標準モ
デルの継続時間パラメータの補正を行う継続時間パラメ
ータ変更手段と、継続時間パラメータ変更手段により継
続時間パラメータが補正された前記音声標準モデルと前
記発声変形モデルメモリに記憶された発声変形モデルと
を用いて、前記音響分析手段から出力される発声変形音
声特徴ベクトル時系列に対する音声認識結果を出力する
音声認識手段とを備えたことを特徴とする。
【0042】この発明に係る発声変形音声認識装置は、
継続時間変動量学習手段において、求める継続時間の変
動量を母音部について求めるようにしたことを特徴とす
る。
【0043】この発明に係る発声変形音声認識装置は、
継続時間変動量学習手段において、「あ」「い」「う」
「え」「お」の5母音について平均した継続時間変動量
を求めるようにしたことを特徴とする。
【0044】この発明に係る音声認識方法は、以下の工
程を備えたことを特徴とする。 (a)複数の音声標準モデルと上記音声標準モデルの一
部に対する発声変形モデルと音声標準モデル間の近似を
示す重みとを予め記憶する工程、(b)上記複数の音声
標準モデルの中の1つの音声標準モデルに対して、上記
重みの大きい順に1つ以上の発声変形モデルを選択し、
選択した発声変形モデルを用いてスペクトル変形を行う
工程、(c)上記複数の発声変形モデルによるスペクト
ル変形の結果の平均値を上記音声標準モデルの変形音声
標準モデルとして出力する工程、(d)発声変形のある
音声データと、上記変形音声標準モデルを入力し、音声
データと変形音声標準モデルとを比較して比較結果を出
力する照合工程。
【0045】上記音声認識方法は、更に、上記照合工程
の比較結果を入力して、音声を認識する工程を備えたこ
とを特徴とする。
【0046】上記音声認識方法は、更に、上記照合工程
の比較結果を入力して、発声変形モデルを学習する学習
工程を備えたことを特徴とする。
【0047】この発明に係る音声認識方法は、以下の工
程を備えたことを特徴とする。 (a)入力音声信号に対し音響分析を行い発声変形音声
特徴ベクトル時系列を出力する工程、(b)発声変形の
ない音声データで学習した音声標準モデルを記憶する工
程、(c)この記憶された音声標準モデルと、発声変形
音声特徴ベクトル時系列とから、発声変形された音声に
生じる音韻スペクトルの変形を表現する発声変形モデル
を学習する工程、(d)前記発声変形モデルと前記音声
標準モデルとから、音声標準モデルにおける音声を構成
する要素の継続時間の変動量を求め、前記継続時間変動
量として記憶させる工程、(e)この継続時間変動量に
基づき前記音声標準モデルの継続時間パラメータの補正
を行う工程、(f)この継続時間パラメータが補正され
た前記音声標準モデルと前記発声変形モデルとを用い
て、前記発声変形音声特徴ベクトル時系列に対する音声
認識結果を出力する工程。
【0048】
【発明の実施の形態】
実施の形態1.図1は、この発明に係る音声認識システ
ムの構成図である。発声変形音声認識システム60は、
ディスプレイユニット61、キーボード62、マウス6
3、マウスパット64、システムユニット65、マイク
66、音声認識装置100を備えている。この発明の音
声認識システムは、例えば、図1に示すように、マイク
66から入力した音声を音声認識装置100で認識し、
認識した音声をシステムユニット65に転送し、ディス
プレイユニット61に文字として表示するものである。
しかし、この発明に係る音声認識システムは、このよう
にパーソナルコンピューターやワークステーションと一
緒に用いられる必要はなく、以下に述べる音声認識装置
100が用いられるシステムであれば、どのような形式
のものであっても良い。例えば、マイク66の替わりに
テープレコーダを入力装置にしても構わないし、ネット
ワークからの音声データを入力するようにしても構わな
い。また、入力するデータはアナログデータであっても
構わないし、デジタルデータであっても構わない。ま
た、音声認識装置100は独立した筐体で存在しても構
わないが、システムユニット65の内部に納められてい
るものでも構わないし、その他の測定機や計算機のシス
テムボードの一部分として存在している場合であっても
構わない。また、認識結果を文字として表示する場合に
限らず、認識結果に基づいてデータ検索や加工作業や測
定作業を行わせるようにしても良い。
【0049】図2は、図1に示した音声認識装置100
の構成を示すブロック図である。図2において、従来の
音声認識装置と異なる点は、改良された発声変形音声認
識手段120が備えられている点である。図3は、この
発明に関わる発声変形音声認識装置に使われる発声変形
音声認識手段120の一実施の形態の構成を表すブロッ
ク図である。図において、6は発声変形のない音声標準
モデルを格納する発声変形なし音声標準モデルメモリ、
9は発声変形モデル学習により得られた発声変形モデル
を格納する発声変形モデルメモリ、22aは前記発声変
形なし音声標準モデルメモリ6に格納されている音声標
準モデルに対し、前記発声変形モデルメモリ9に格納さ
れている発声変形モデルを用いて、音韻スペクトルの変
形処理を施す平滑型スペクトル変形手段である。
【0050】19は前記平滑型スペクトル変形手段22
aの出力であるところの変形音声標準モデルと、前記音
声標準モデルとを合成し、混合型音声標準モデルを生成
する音声モデル合成手段、20はこの音声モデル合成手
段19の出力であるところの混合型音声標準モデルを用
いて、入力された発声変形音声特徴ベクトル時系列に対
する尤度を演算する尤度演算手段、21はこの尤度演算
手段20の出力であるところの尤度データを用いて、照
合処理を行い認識結果を出力する照合手段である。
【0051】次に、動作について説明する。従来例と同
じく連続分布型音素片HMMによる離散単語認識の場合
を例に取り説明を行う。発声変形なし音声標準モデルメ
モリ6には、発声変形のない音声データを用いて学習し
た音素片HMMが音声標準モデルとして格納されてい
る。認識対象語彙であるところの単語を表すモデルは音
素片HMMの連鎖により表現されている。従来例と重複
する部分は説明を省略する。
【0052】この実施の形態の平滑型スペクトル変形手
段22aは、前記発声変形モデルメモリ9に格納されて
いる学習がなされた発声変形モデルを1個以上用いて、
前記発声変形なし音声標準モデルメモリ6に格納されて
いる音声標準モデルを構成するすべての音素片HMMに
ついて、該音素片HMMの平均ベクトルに対し、ロンバ
ード効果によるスペクトルの変形処理を施すことができ
るようになっている。この平滑型スペクトル変形手段2
2aにおけるスペクトル変形処理は、下式(1)のよう
に表される。
【0053】
【数1】
【0054】但し、音声標準モデルにおける第i音素片
の平均ベクトルをXi、該平滑型スペクトル変形手段2
2aにより変形処理された後の同第i音素片の平均ベク
トルをYi、発声変形モデルの学習がなされた第j音素
片に対応する該発声変形モデルによる第i音素片の平均
ベクトルに対するスペクトル変形処理をMj(Xi)と
する。jについての総和は、重み係数W(i,j)が大
きいものからn個分(n≧1)行い、発声変形モデルの
学習ができた音素片の総数に対し、一定の割合に達した
ところで打ち切る。この割合を制御することで、第i音
素片に対するスペクトル変形処理に用いる学習済み発声
変形モデルの数を変えることができる。
【0055】重み係数W(i,j)は、第i音素片の平
均ベクトルXiと第j音素片の平均ベクトルXjとの間
で定義される距離d(Xi,Xj)に逆比例するように
定義される。即ち、重み係数が大きいと、スペクトル包
絡が近似していることを示している。重み係数の一例を
下式(2)に示す。
【0056】
【数2】
【0057】ここで、pとqは、距離d(Xi,Xj)
に対する重み係数W(i,j)を制御するパラメータで
ともに正の値を取る。また、距離d(Xi,Xj)は、
第i音素片の平均ベクトルと第j音素片の平均ベクトル
との間で定義される適当な距離尺度で、例えば、ケプス
トラムのユークリッド距離やWLR距離尺度などがあ
る。
【0058】次に、この実施例の具体例について図4か
ら図7を用いて説明する。図4は、音声標準モデルの平
均ベクトルXiを示す図である。ここでは、音素片の種
類が全部で300種類ある場合を示している。音声標準
モデルは、全ての音素片に対して平均ベクトルX1から
X300を予め登録してある。図5は、学習の結果、発
声変形モデルとして記憶された音素片のパラメータH,
T,Qを示す図である。300種類ある音素片の中で、
学習できたものと学習できないものが存在している。例
えば、第3音素片及び第299音素片は、未だ学習され
ていない状態を示している。図6は重み係数を示す図で
ある。重み係数は、図7に示すように、第i音素片の平
均ベクトルXiと第j音素片の平均ベクトルXjとの距
離に基づいて求めたものである。図7においては、平均
ベクトルXiとXjの差分の平方を距離としている。こ
の距離を用いて、前述した式(2)から重み係数を計算
した場合の一例を図6に示す。p=1及びq=1とした
場合には、第i音素片同士の距離d(Xi,Xi)は0
になり、第i音素片の重み係数W(Xi,Xi)=(0
+1)-1=1-1=1となる。ここで、式(1)を用いて
未学習の第2音素片の平均ベクトルY2を求める場合を
考える。ここで、式(1)におけるjについての総和の
個数nを2(n=2)とする。また、図6において、第
2音素片の中で重み係数の大きい上位2つの音素片を第
1と第3の音素片であるものとする。ここで、第2の音
素片の重み係数は1.0であり、重み係数が最大値を示
しているが、自分自身の発声変形モデルが存在していな
い。従って、自分自身の発声変形モデルを計算する際に
は、自分自身を用いることはできない。そこで、重み係
数が自分自身を除くものの中で、最大値及び次に大きな
値を示す2つの音素片を用いることになる。従って、図
4に示す音声標準モデルの第2音素片の平均ベクトルX
2に対して、図5に示す発声変形モデルの第1音素片の
パラメータH1,T1,Q1を用いて、スペクトル変形
処理を行い、M1(X2)を求める。同様にして、平均
ベクトルX2に対して、第3音素片のパラメータH3,
T3,Q3を用いてスペクトル変形処理を行い、M3
(X2)を求める。このようにして、第2音素片の発声
変形後の平均ベクトルY2を以下の式で求めることがで
きる。 Y2={0.9M1(X2)+0.8M3(X2)}/
(0.9+0.8)
【0059】前述した例においては、発声変形モデルが
未学習である場合について説明したが、発声変形モデル
が既に学習済みのものに対しても、前述したアルゴリズ
ムを適用することが望ましい。例えば、図5において、
第1音素片のパラメータは、既に学習済みとなっている
が、平滑形スペクトル変形手段22aは、例えば、jに
ついての総和の個数n=2の場合は、図6に示すように
第1音素片の中で重み係数の最大値と次の音素片のパラ
メータを用いて、変形処理がされた第1音素片の平均ベ
クトルY1を生成する。この図6に示す例では、第1音
素片は、自分自身であるため、重み係数が最大値である
1.0を示している。また、2番目に大きい重み係数を
第2音素片の0.9であるとすると、平滑型スペクトル
変形手段22aは、第1音素片のパラメータH1,T
1,Q1と第2音素片のパラメータH2,T2,Q2を
用いて、第1音素片の平均ベクトルに対するスペクトル
変形処理をそれぞれ行い、式(1)を用いて第1音素片
の変形処理された後の平均ベクトルY1を出力する。こ
のように、この実施の形態においては、既に発声変形モ
デルの学習がされた音素片のスペクトル変形を行う場合
にも、重み係数によりスペクトルが近似している音素片
の発声変形モデルのパラメータも加味して、スペクトル
変形を行う点がこの実施例の大きな特徴である。このよ
うに、他の音素片の変形様態を考慮することにより、偏
りのないスペクトル変形処理を行える。
【0060】図8は、前述した平滑型スペクトル変形手
段22aのスペクトル変形手順を示すフローチャート図
である。ステップS11において、スペクトル変形を行
う第i音素片を音声標準モデルから取得する。ステップ
S12において、第i音素片と似通った音素片を探すた
め重み変数を参照し、第j音素片を検出する。ステップ
S13において、検出した第j音素片が音声変形モデル
に既に学習済みとしてパラメータが登録されているかど
うかをチェックする。パラメータが登録されていない場
合には、再びステップS12に戻り、次に値の大きい重
み変数に基づき別な音素片を検出する。ステップS13
において、第j音素片が学習済みである場合は、第j音
素片のパラメータHj,Tj,Qjを用いて、第i音素
片のスペクトル変形処理を行う。ステップS15におい
ては、前述した式(1)の分子と分母をそれぞれ計算す
る。ステップS16においては、前述したステップS1
2からステップS15の処理をn回繰り返す判断を行
う。ステップS16において、n回処理が済んだと判断
された場合には、ステップS17において式(1)から
Yiを計算する。
【0061】図8に示したフローチャート図によれば、
ステップS11で取得した第i音素片は、既に学習済み
であるかどうかを問わず、以下のステップS12からス
テップS17の処理を行うようになっている。従って、
n≧2であれば、学習済みの音素片に対しても、他の音
素片の学習済みのパラメータが反映されることになる。
また、既に第i音素片が学習済みの場合であって、n≧
2の場合は、ステップS12において、最初に選択され
る第j音素片は常に第i音素片自身であり、ステップS
13において、第i音素片が学習済みであると判断され
ることから、ステップS14とステップS15の処理
は、第i音素片のパラメータを用いて、第i音素片のス
ペクトル変形処理を行うことになる。ステップS16に
よって生ずる2回目からn回目までのループ処理では、
ステップS14において、第i音素片に対して第i音素
片以外の第j音素片の学習済みパラメータを用いて第i
音素片に対するスペクトル変形処理が行われ、ステップ
S15において、第j音素片に基づく変形が加算され
る。もし、既に第i音素片が学習済みの場合であって、
かつ、n=1の場合は、第i音素片の学習済みパラメー
タのみが第i音素片に対するスペクトル変形処理に用い
られる。もし、第i音素片が未学習の場合であって、か
つ、n=1の場合は、第i音素片以外の第j音素片の学
習済みパラメータを用いて第i音素片に対するスペクト
ル変形処理が行われる。
【0062】上記のような処理を行うことで、スペクト
ル距離の近い音素片におけるスペクトル変形の様態を考
慮したスペクトル変形処理が施される。これにより、発
声変形モデルの学習がなされなかった音素片についても
スペクトル変形が可能になる。また、発声変形モデルの
学習がなされた音素片もスペクトル距離が近い音素片の
変形様態を考慮するので、発声変形モデルにおける偏倚
の影響を受けにくいスペクトル変形処理が実現できる。
【0063】以上のように、発声変形音声認識手段にお
いて平滑型スペクトル変形手段は、発声変形モデルメモ
リに格納されている学習がなされた発声変形モデルを1
個以上用いて、発声変形なし音声標準モデルメモリに格
納されている音声標準モデルを構成するすべての音素片
HMMについて、該音素片HMMの平均ベクトルに対
し、ロンバード効果によるスペクトルの変形処理を施す
ようにしたので、発声変形モデルの学習がなされなかっ
た音素片についてもスペクトル変形がなされ、変形が可
能になる。
【0064】加えて、発声変形モデルの学習がなされた
音素片のスペクトル変形においても、発声変形モデルの
学習がなされた音素片を除く他の音素片の変形様態を考
慮するので、発声変形モデルにおける偏倚の影響を受け
にくいスペクトル変形処理が実現できる。この結果、高
精度認識が実現できる。
【0065】実施の形態2.図9は、音声認識装置10
0aのブロック図である。実施の形態1の音声認識装置
100と異なる点は、改良された発声変形モデル学習手
段50を備えている点である。図10は、この発明に関
わる発声変形音声認識装置に使われる発声変形モデル学
習手段50の一実施の形態の構成を表すブロック図であ
る。図において、14は初期状態においては、発声変形
なし音声標準モデルメモリ6に格納されている音声標準
モデル7を読み込み保持する音声標準モデルバッファ、
15はこの音声標準モデルバッファ14上の音声標準モ
デルを用いて、入力される発声変形音声特徴ベクトル時
系列3における音声標準モデルのセグメントデータを求
めるセグメントデータ作成手段、16はこのセグメント
データと前記音声標準モデルバッファ14上の音声標準
モデルと前記発声変形なし音声標準モデルメモリ6上の
音声標準モデル7とを用いて発声変形モデルの各パラメ
ータを求めるパラメータ演算手段、17はこのパラメー
タ演算手段16の出力であるところの発声変形モデルを
記憶する発声変形モデルバッファ、22bはこの発声変
形モデルバッファ17上の発声変形モデルを用いて、前
記発声変形なし音声標準モデルメモリ6に格納されてい
る音声標準モデル7すべてに対しスペクトル変形処理を
施し、前記音声標準モデルバッファ14に書き込む平滑
型スペクトル変形手段である。
【0066】次に、動作について説明する。従来例と同
じく連続分布型音素片HMMによる離散単語認識の場合
を例に取り説明を行う。発声変形なし音声標準モデルメ
モリには、発声変形のない音声データを用いて学習した
音素片HMMが音声標準モデルとして格納されている。
認識対象語彙であるところの単語を表すモデルは、音素
片HMMの連鎖により表現されている。従来例と重複す
る部分は、説明を省略する。
【0067】発声変形モデル学習手段50における平滑
型スペクトル変形手段22bは、前記発声変形モデルバ
ッファ17に書き込まれた発声変形モデルを1個以上用
いて、前記発声変形なし音声標準モデルメモリ6に格納
されている音声標準モデル7を構成するすべての音素片
HMMについて、該音素片HMMの平均ベクトルに対
し、ロンバード効果によるスペクトルの変形処理を施
す。
【0068】この平滑型スペクトル変形手段22bにお
けるスペクトル変形処理は、前記実施の形態1における
発声変形音声認識手段120における平滑型スペクトル
変形手段22aと同じである。平滑型スペクトル変形手
段22bは、発声変形モデル内に未学習の音素片がある
場合には、重み係数の大きい音素片、即ち未学習である
音素片とより似たスペクトルを持つ他の音素片のパラメ
ータを用いてスペクトル変形を行う。また、音声標準モ
デルの中に、既に学習済みであると登録されている音素
片に対しても自分自身と、自分自身及び自分自身に似た
スペクトルを持つ音素片のパラメータを用いて、スペク
トル変形を行うものである。発声変形モデル学習手段5
0は、スペクトルの変形処理を複数回繰り返して行い、
最終的に発声変形モデルのパラメータH,T,Qを出力
する。
【0069】発声変形モデル学習手段50において、平
滑型スペクトル変形手段22bを用いることで、図21
に示した発声変形モデル学習手段5の動作フロー中のス
テップS3におけるセグメントデータ作成において、発
声変形モデルの偏倚によるセグメントデータの精度が向
上し、発声変形モデルの高精度化とそれによる認識性能
の向上が図れる。
【0070】以上のように、発声変形モデル学習手段に
おいて、平滑型スペクトル変形手段は、発声変形モデル
バッファに書き込まれた発声変形モデルを1個以上用い
て、発声変形なし音声標準モデルメモリに格納されてい
る音声標準モデルを構成するすべての音素片HMMにつ
いて、該音素片HMMの平均ベクトルに対し、ロンバー
ド効果によるスペクトルの変形処理を施すようにしたの
で、発声変形モデルの学習がなされた音素片のスペクト
ル変形においても、これを除く他の音素片の変形様態を
考慮するので、発声変形モデルにおける偏倚の影響を受
けにくいスペクトル変形処理が実現できる。この結果、
発声変形モデル学習用の発声変形音声データに対するセ
グメントデータの精度が向上し、発声変形モデルの高精
度化が実現され、認識性能の向上が図れる。
【0071】実施の形態3.図11は、実施の形態2に
示した音声認識装置100aからスイッチ4と発声変形
モデル学習手段50を削除した音声認識装置100bを
示す図である。図11に示した音声認識装置100b
は、学習機能がなく予め学習した発声変形モデルを発声
変形モデルメモリ9に備えているものである。この発声
変形モデルは、フロッピーディスクからロードされた
り、オンラインにより遠隔地から伝送されてきて発声変
形モデルメモリに格納される。この装置は、音声を学習
する手段を持たず、単に音声を認識する動作だけを行
う。
【0072】図12に示す音声認識装置100cは、音
声認識装置100aからスイッチ4と発声変形音声認識
手段120と継続時間変動量メモリ10と継続時間パラ
メータ変更手段11を削除したものである。図12に示
す装置は、発声変形モデルを作成するための音声学習装
置として用いることができる。この装置により、発声変
形モデルを作成し、前述した図11の音声認識装置に対
してフロッピーディスクや通信回線を用いて、発声変形
モデルを供給することができる。
【0073】実施の形態4.図13は、この発明に関わ
る発声変形音声認識装置の一実施の形態の構成を示すブ
ロック図である。図において、24は発声変形モデル学
習手段50aにおいて得られる発声変形モデル学習用音
声に対する音声標準モデルのセグメントデータ23と、
発声変形なし音声標準モデルメモリ6に格納されている
音声標準モデルとを用いて、各音声標準モデルについて
ロンバード効果による継続時間パラメータの変動量を求
め、継続時間変動量メモリ10に出力する継続時間変動
量学習手段である。その他の構成要素は、前述の従来例
と同一である。図14は、発声変形モデル学習手段50
aを示すブロック図である。発声変形モデル学習手段5
0aは、セグメントデータ23を図13に示す継続時間
変動量学習手段24へ出力する。
【0074】次に、動作について説明する。従来例と同
じく連続分布型音素片HMMによる離散単語認識の場合
を例に取り説明を行う。また、音素片継続時間による継
続時間制御を例に取る。発声変形なし音声標準モデルメ
モリ6には音声標準モデルとして、図15に示すよう
に、発声変形のない音声データを用いて学習した音素片
HMM,X1,X2,X3,・・・と、その継続時間パ
ラメータである平均N1,N2,N3,・・・と分散σ
1,σ2,σ3,・・・が格納されている。認識対象語
彙であるところの単語を表すモデルは、音素片HMMの
連鎖により表現されている。従来例と重複する部分は、
説明を省略する。
【0075】継続時間変動量学習手段24は、発声変形
モデル学習手段5が発声変形モデルメモリ9に書き込む
発声変形モデルの学習に用いた発声変形モデル学習用の
発声変形音声データに対する音素片HMMのセグメント
データ23を入力として、発声変形音声における音素片
継続時間パラメータを演算し、発声変形なし音声標準モ
デルメモリ6に格納されている音声標準モデルの音素片
HMMの継続時間パラメータとの比較を行い、図16に
示すような継続時間変動量データΔN1,ΔN2,・・
・及びΔσ1,Δσ2,・・・を求め、継続時間変動量
メモリ10に書き込む。
【0076】継続時間変動量データΔN1,ΔN2,・
・・及びΔσ1,Δσ2,・・・は、継続時間パラメー
タであるところの音素片継続時間の平均と分散につい
て、発声変形音声と変形のない音声との差異を表現する
もので、音素片継続時間の平均については、例えば、発
声変形による伸縮倍率で表しても、伸縮時間で表現して
もかまわず、また、その他の同様な効果を生むパラメー
タでもかまわない。同様に、音素片継続時間の分散につ
いても、例えば、分散もしくは標準偏差の変動倍率で表
現しても、変動量で表現してもかまわない。
【0077】これにより、継続時間変動量メモリ10に
格納される継続時間変動量データは、発声変形モデル学
習用の発声変形音声における継続時間の変動を表現する
ものとなり、継続時間変動の話者依存性による認識精度
の劣化を抑えることが可能になる。
【0078】以上のように、継続時間変動量学習手段
は、発声変形モデル学習手段が発声変形モデルメモリに
書き込む発声変形モデルの学習に用いた発声変形モデル
学習用の発声変形音声データに対する音素片HMMのセ
グメントデータを入力として、発声変形音声における音
素片継続時間パラメータを演算し、発声変形なし音声標
準モデルメモリ6に格納されている音声標準モデルの音
素片HMMの継続時間パラメータとの比較を行い、継続
時間変動量データを求め継続時間変動量メモリ10に書
き込むようにしたので、継続時間変動量メモリ10に格
納される継続時間変動量データは、発声変形モデル学習
用の発声変形音声における継続時間の変動を表現するも
のとなり、継続時間変動の話者依存性による認識精度の
劣化を抑えることが可能になる。
【0079】また、継続時間変動量学習手段24におけ
る継続時間変動量データを求める処理を、すべての音素
片について行うのではなく、ロンバード効果による継続
時間変動が顕著に現れる5母音の定常部ならびに各母音
から語尾への過渡部にのみ限定することで、認識精度を
落とすことなく、演算量の削減が図れる。図17は、音
素について、5母音の継続時間変動量データを示してい
る。
【0080】加えて、5母音の定常部及び各母音から語
尾への過渡部の継続時間変動量データをそれぞれ5母音
で平均し、母音定常部に共通の継続時間変動量データ及
び母音から語尾への過渡部に共通の継続時間変動量デー
タとすることで、発声変形モデル学習用の発声変形音声
データが少量の場合においても、認識精度の低下を防ぐ
ことができる。5母音の継続時間変動量データの平均
は、以下の式で求めることができる。 ΔN=(ΔN1+ΔN2+ΔN3+ΔN4+ΔN5)/
5 Δσ=(Δσ1+Δσ2+Δσ3+Δσ4+Δσ5)/
【0081】以上述べた全ての実施の形態において、そ
の認識方式は連続分布型音素片HMMに制限されるもの
ではなく、認識対象も単語に限らず、連続音声であって
もかまわない。
【0082】また、継続時間制御における音声の構成要
素の単位も音素片に限らず、音素、半音節、音節、単語
などどのような単位もとりうる。加えて、発声変形モデ
ルは、音素片HMM毎に設定しているが、他の音声単位
毎であっても、HMMの各状態毎もしくは複数の状態毎
に設定してもかまわない。実現手法も専用ハードウェア
に限らず、ソフトウェアであってもかまわない。
【0083】以上のように、この発明に係る発声変形音
声認識装置は、発声変形モデルメモリに格納されている
発声変形モデルを用いて、発声変形なし音声標準モデル
メモリに格納されているすべての音声標準モデルに対
し、スペクトルの変形処理を施し変形音声標準モデルと
して出力する平滑型スペクトル変形手段を備え、学習が
なされた発声変形モデルに対応する音声標準モデルにつ
いて、その発声変形モデルを含む学習済み発声変形モデ
ルを用い、また発声変形モデル学習時に未学習となった
発声変形モデルに対応する音声標準モデルについても、
学習済み発声変形モデルを用いて、スペクトル変形処理
が行われるようにしたものである。この発明では、平滑
型スペクトル変形手段は、発声変形モデルメモリに格納
されている学習がなされた発声変形モデルを用いて、発
声変形なし音声標準モデルメモリに格納されているすべ
ての音声標準モデルに対して、スペクトルの変形処理を
施すので、発声変形モデルの学習がなされなかった音素
片についてもスペクトル変形がなされる。加えて、発声
変形モデルの学習がなされた音素片のスペクトル変形に
おいても、これを除く他の音素片の変形様態を考慮する
ので、発声変形モデルにおける偏倚の影響を受けにくい
スペクトル変形処理が実現できる。この結果、高精度認
識が実現できる。
【0084】また、この発明における発声変形音声認識
装置は、発声変形モデル学習手段を、発声変形なし音声
標準モデルメモリに記憶されている音声標準モデルを一
時的に保持する音声標準モデルバッファと、この音声標
準モデルバッファに保持された音声標準モデルを用い
て、前記音響分析手段からの発声変形音声特徴ベクトル
時系列における各音声標準モデルのセグメントデータを
求めるセグメントデータ作成手段と、このセグメントデ
ータ作成手段からのセグメントデータと、前記音声標準
モデルバッファに保持された音声標準モデルと、前記発
声変形なし音声標準モデルメモリに記憶された音声標準
モデルとを用いて、発声変形モデルのパラメータを求め
るパラメータ演算手段と、このパラメータ演算手段の出
力する発声変形モデルのパラメータを保持する発声変形
モデルバッファと、この発声変形モデルバッファに保持
された発声変形モデルのパラメータを用いて、前記発声
変形なし音声標準モデルメモリに記憶された音声標準モ
デルに対しスペクトル変形処理を施し、前記音声標準モ
デルバッファに書き込む平滑型スペクトル変形手段とで
構成し、学習できた発声変形モデルに対応する音声標準
モデルについてその発声変形モデルを含む学習済み発声
変形モデルを用い、未学習の発声変形モデルに対応する
音声標準モデルについても、学習できた発声変形モデル
を用いて、スペクトル変形処理が行われるようにしたも
のである。また、この発明では、発声変形モデル学習手
段において、平滑型スペクトル変形手段は、発声変形モ
デルバッファに書き込まれた発声変形モデルを用いて、
発声変形なし音声標準モデルメモリに格納されているす
べての音声標準モデルについてスペクトルの変形処理を
施すので、発声変形モデルの学習がなされた音素片のス
ペクトル変形においても、これを除く他の音素片の変形
様態を考慮するので、発声変形モデルにおける偏倚の影
響を受けにくいスペクトル変形処理が実現できる。この
結果、発声変形モデル学習用の発声変形音声データに対
するセグメントデータの精度が向上し、発声変形モデル
の高精度化が実現され、認識性能の向上が図れる。
【0085】また、この発明における発声変形音声認識
装置は、発声変形モデル学習手段から出力されるセグメ
ントデータと、前記発声変形なし音声標準モデルメモリ
上の音声標準モデルとを用いて、音声標準モデルにおけ
る継続時間の変動量を求める継続時間変動量学習手段を
備え、継続時間変動量学習手段の出力する継続時間変動
量データを継続時間変動量メモリに記憶し、継続時間パ
ラメータ変更手段が、前記発声変形なし音声標準モデル
メモリ上に格納されている音声標準モデルに対し、前記
継続時間変動量メモリ上の継続時間変動量データを用い
て、継続時間についてのパラメータを変更するようにし
たものである。この発明では、継続時間変動量学習手段
は、発声変形モデル学習手段が発声変形モデルメモリに
書き込む発声変形モデルを入力として、発声変形音声に
おける音声構成要素の継続時間を演算し、発声変形なし
音声標準モデルメモリに格納されている音声標準モデル
の継続時間の変動量を求め、継続時間変動量メモリに書
き込むので、継続時間変動量メモリに格納される継続時
間変動量は、発声変形モデル学習用の発声変形音声にお
ける継続時間の変動を表現するものとなり、継続時間変
動の話者依存性による認識精度の劣化を抑えることが可
能になる。
【0086】また、この発明における発声変形音声認識
装置は、継続時間変動量学習手段において求める継続時
間の変動量を母音部についてのみ求めるようにしたもの
である。この発明では、継続時間変動量学習手段におけ
る継続時間変動量を求める処理を、すべての音素片につ
いて行うのではなく、ロンバード効果による継続時間変
動が顕著に現れる5母音の定常部ならびに各母音から語
尾への過渡部にのみ限定することで、認識精度を落とす
ことなく演算量の削減が図れる。
【0087】また、この発明における発声変形音声認識
装置は、継続時間変動量学習手段において、5母音につ
いて平均した継続時間変動量を求めるようにしたもので
ある。この発明では、継続時間変動量学習手段における
継続時間変動量を求める処理を、ロンバード効果による
継続時間変動が顕著に現れる5母音の定常部ならびに各
母音から語尾への過渡部にのみ限定し、かつ、5母音の
定常部および各母音から語尾への過渡部の継続時間変動
量をそれぞれ5母音で平均し、母音定常部に共通の継続
時間変動量および母音から語尾への過渡部に共通の継続
時間変動量とすることで、発声変形モデル学習用の発声
変形音声データが少量の場合においても、認識精度の低
下を防ぐことができる。
【図面の簡単な説明】
【図1】 この発明の実施の形態1における音声認識シ
ステムの構成を示す図である。
【図2】 この発明の実施の形態1における音声認識シ
ステムを示すブロック図である。
【図3】 この発明の実施の形態1における発声変形音
声認識手段を示すブロック図である。
【図4】 この発明の音声標準モデルの一例を示す図で
ある。
【図5】 この発明の発声変形モデルの一例を示す図で
ある。
【図6】 この発明の重み係数の一例を示す図である。
【図7】 この発明の平均ベクトルの距離を求める一例
を示す図である。
【図8】 この発明のスペクトル変形手順を示すフロー
チャート図である。
【図9】 この発明の実施の形態2における音声認識装
置を示すブロック図である。
【図10】 この発明の実施の形態2における発声変形
モデル学習手段を示すブロック図である。
【図11】 この発明の音声認識装置の他の例を示すブ
ロック図である。
【図12】 この発明の音声認識装置の他の例を示すブ
ロック図である。
【図13】 この発明の実施の形態3における発声変形
音声認識装置を示すブロック図である。
【図14】 この発明の発声変形モデル学習手段の他の
例を示すブロック図である。
【図15】 この発明の発声標準モデルにおける継続時
間パラメータを示す図である。
【図16】 この発明の継続時間変動量データを示す図
である。
【図17】 この発明の母音の継続時間変動量データを
示す図である。
【図18】 従来の発声変形音声認識装置の全体構成を
示すブロック図である。
【図19】 従来の発声変形音声認識装置における発声
変形モデル学習手段の構成を示すブロック図である。
【図20】 従来の発声変形音声認識装置における発声
変形音声認識手段の構成を示すブロック図である。
【図21】 発声変形音声認識装置における発声変形モ
デル学習手段の動作を示すフロー図である。
【図22】 発声変形がある場合とない場合のスペクト
ル包絡を示す図である。
【図23】 発声変形モデルの学習動作を示す図であ
る。
【図24】 ホルマントの移動を示すパラメータによる
スペクトル変形を示す図である。
【図25】 全体傾斜の変化を示すパラメータによるス
ペクトル包絡の変形を示す図である。
【図26】 バンド幅の変化を示すパラメータによるス
ペクトル包絡の変形を示す図である。
【符号の説明】
1 入力端、2 音響分析手段、3 発声変形音声特徴
ベクトル時系列、4スイッチ、5,50,50a 発声
変形モデル学習手段、6 発声変形なし音声標準モデル
メモリ、7 音声標準モデル、8 発声変形モデル、9
発声変形モデルメモリ、10 継続時間変動量メモ
リ、11 継続時間パラメータ変更手段、12 発声変
形音声認識手段、13 認識結果、14 音声標準モデ
ルバッファ、15 セグメントデータ作成手段、16
パラメータ演算手段、17 発声変形モデルバッファ、
19 音声モデル合成手段、20 尤度演算手段、21
照合手段、22a,22b 平滑型スペクトル変形手
段、23 セグメントデータ、24 継続時間変動量学
習手段、120 発声変形音声認識手段。

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 入力音声信号に対し音響分析を行い発声
    変形音声特徴ベクトル時系列を出力する音響分析手段
    と、 発声変形のない音声データで学習した音声標準モデルを
    記憶する発声変形なし音声標準モデルメモリと、 発声変形された音声に生じる音韻スペクトルの変形を表
    現する発声変形モデルを記憶する発声変形モデルメモリ
    と、 前記発声変形モデルメモリに格納されている1以上の発
    声変形モデルを用いて、前記発声変形なし音声標準モデ
    ルメモリに格納されている音声標準モデルに対し、変形
    音声標準モデルを作成して前記音響分析手段から出力さ
    れる発声変形音声特徴ベクトル時系列に対する音声認識
    結果を出力する音声認識手段とを備えたことを特徴とす
    る発声変形音声認識装置。
  2. 【請求項2】 上記音声認識手段は、発声変形モデルメ
    モリに記憶された複数の発声変形モデルを用いて、前記
    発声変形なし音声標準モデルメモリに格納されている音
    声標準モデルに対し、スペクトルの変形処理を施し変形
    音声標準モデルとして出力するスペクトル変形手段と、 このスペクトル変形手段の出力する変形音声標準モデル
    と前記発声変形なし音声標準モデルメモリに記憶された
    音声標準モデルとの合成を行う音声モデル合成手段と、 この音声モデル合成手段の出力する合成モデルを用い
    て、前記音響分析手段から出力される発声変形音声特徴
    ベクトル時系列に対する尤度を計算し、この尤度に基づ
    く認識結果を出力する発声変形音声照合手段とを備えた
    ことを特徴とする請求項1記載の発声変形音声認識装
    置。
  3. 【請求項3】 上記発声変形音声認識装置は、更に、こ
    の発声変形なし音声標準モデルメモリに記憶された音声
    標準モデルと、発声変形された音声信号が前記音響分析
    手段に入力された場合に出力される発声変形音声特徴ベ
    クトル時系列とから、発声変形された音声に生じる音韻
    スペクトルの変形を表現する発声変形モデルと学習し
    て、発声変形モデルメモリに出力する発声変形モデル学
    習手段とを備えたことを特徴とする請求項2記載の発声
    変形音声認識装置。
  4. 【請求項4】 入力音声信号に対し音響分析を行い発声
    変形音声特徴ベクトル時系列を出力する音響分析手段
    と、 発声変形のない音声データで学習した音声標準モデルを
    記憶する発声変形なし音声標準モデルメモリと、 この発声変形なし音声標準モデルメモリに記憶された音
    声標準モデルと、発声変形された音声信号が前記音響分
    析手段に入力された場合に出力される発声変形音声特徴
    ベクトル時系列とから、発声変形された音声に生じる音
    韻スペクトルの変形を表現する発声変形モデルを1以上
    の発声変形モデルに基づいて学習する発声変形モデル学
    習手段と、 この発声変形モデル学習手段により学習された発声変形
    モデルを記憶する発声変形モデルメモリとを備えたこと
    を特徴とする発声変形音声認識装置。
  5. 【請求項5】 前記発声変形モデル学習手段は、 前記発声変形なし音声標準モデルメモリに記憶されてい
    る音声標準モデルを一時的に保持する音声標準モデルバ
    ッファと、 この音声標準モデルバッファに保持された音声標準モデ
    ルを用いて、前記音響分析手段からの発声変形音声特徴
    ベクトル時系列における各音声標準モデルのセグメント
    データを求めるセグメントデータ作成手段と、 このセグメントデータ作成手段からのセグメントデータ
    と、前記音声標準モデルバッファに保持された音声標準
    モデルと、前記発声変形なし音声標準モデルメモリに記
    憶された音声標準モデルとを用いて、発声変形モデルの
    パラメータを求めるパラメータ演算手段と、 このパラメータ演算手段の出力する発声変形モデルのパ
    ラメータを保持する発声変形モデルバッファと、 この発声変形モデルバッファに保持された複数の発声変
    形モデルのパラメータを用いて、前記発声変形なし音声
    標準モデルメモリの音声標準モデルに対しスペクトル変
    形処理を施し、前記音声標準モデルバッファに書き込む
    スペクトル変形手段とにより構成されたことを特徴とす
    る請求項4記載の発声変形音声認識装置。
  6. 【請求項6】 上記発声変形音声認識装置は、更に、こ
    の発声変形モデルメモリに記憶された発声変形モデル
    と、前記発声変形なし音声標準モデルメモリに格納され
    ている音声標準モデルとを用いて、前記音響分析手段か
    ら出力される発声変形音声特徴ベクトル時系列に対する
    音声認識結果を出力する音声認識手段とを備えたことを
    特徴とする請求項5記載の発声変形音声認識装置。
  7. 【請求項7】 上記発生変形音声認識装置は、更に、音
    声標準モデル間のスペクトルの近似を示す重みを算出し
    て算出した重みを記憶する重み記憶手段を備え、上記ス
    ペクトル変形手段は、上記重み記憶手段が記憶した重み
    の大きい順に学習済みの複数の発声変形モデルを選択し
    てスペクトルの変形処理を行うことを特徴とする請求項
    2又は5記載の発声変形音声認識装置。
  8. 【請求項8】 上記重み記憶手段は、自己の音声標準モ
    デルに対して最大の重みを付すことを特徴とする請求項
    7記載の発声変形音声認識装置。
  9. 【請求項9】 上記スペクトル変形手段は、選択した複
    数の発声変形モデルの各々を用いてスペクトル変形処理
    を行い、その平均値を算出し、変形音声標準モデルとす
    る平均値算出手段を備えたことを特徴とする請求項8記
    載の発声変形音声認識装置。
  10. 【請求項10】 上記平均値算出手段は、上記重みを用
    いて平均値を算出することを特徴とする請求項9記載の
    発声変形音声認識装置。
  11. 【請求項11】 上記スペクトル変形手段は、既に学習
    がなされた発声変形モデルに対応する音声標準モデルに
    対して、既に学習がなされた発声変形モデルとその他の
    発声変形モデルを用いてスペクトル変形処理をすること
    を特徴とする請求項2又は5記載の発声変形音声認識装
    置。
  12. 【請求項12】 上記スペクトル変形手段は、未学習の
    発声変形モデルに対応する音声標準モデルに対して、既
    に学習がなされた発声変形モデルを複数用いてスペクト
    ル変形処理をすることを特徴とする請求項2又は5記載
    の発声変形音声認識装置。
  13. 【請求項13】 入力音声信号に対し音響分析を行い発
    声変形音声特徴ベクトル時系列を出力する音響分析手段
    と、 発声変形のない音声データで学習した音声標準モデルを
    記憶する発声変形なし音声標準モデルメモリと、 この発声変形なし音声標準モデルメモリに記憶された音
    声標準モデルと、発声変形された音声信号が前記音響分
    析手段に入力された場合に出力される発声変形音声特徴
    ベクトル時系列とから、発声変形された音声に生じる音
    韻スペクトルの変形を表現する発声変形モデルを学習す
    る発声変形モデル学習手段と、 音声を構成する要素の継続時間変動量を記憶する継続時
    間変動量メモリと、 前記発声変形モデル学習手段から出力される発声変形モ
    デルと前記発声変形なし音声標準モデルメモリに記憶さ
    れた音声標準モデルとから、音声標準モデルにおける音
    声を構成する要素の継続時間の変動量を求め、前記継続
    時間変動量メモリに記憶させる継続時間変動量学習手段
    とを備えたことを特徴とする発声変形音声認識装置。
  14. 【請求項14】 上記発生変形音声認識装置は、更に、
    発声変形モデル学習手段により学習された発声変形モデ
    ルを記憶する発声変形モデルメモリと、 継続時間変動量メモリに記憶された継続時間変動量に基
    づき前記発声変形なし音声標準モデルメモリ上に格納さ
    れている音声標準モデルの継続時間パラメータの補正を
    行う継続時間パラメータ変更手段と、 継続時間パラメータ変更手段により継続時間パラメータ
    が補正された前記音声標準モデルと前記発声変形モデル
    メモリに記憶された発声変形モデルとを用いて、前記音
    響分析手段から出力される発声変形音声特徴ベクトル時
    系列に対する音声認識結果を出力する音声認識手段とを
    備えたことを特徴とする請求項13記載の発声変形音声
    認識装置。
  15. 【請求項15】 継続時間変動量学習手段において、求
    める継続時間の変動量を母音部について求めるようにし
    たことを特徴とする請求項13記載の発声変形音声認識
    装置。
  16. 【請求項16】 継続時間変動量学習手段において、
    「あ」「い」「う」「え」「お」の5母音について平均
    した継続時間変動量を求めるようにしたことを特徴とす
    る請求項13記載の発声変形音声認識装置。
  17. 【請求項17】 以下の工程を備えた音声認識方法 (a)複数の音声標準モデルと上記音声標準モデルの一
    部に対する発声変形モデルと音声標準モデル間の近似を
    示す重みとを予め記憶する工程、(b)上記複数の音声
    標準モデルの中の1つの音声標準モデルに対して、上記
    重みの大きい順に1つ以上の発声変形モデルを選択し、
    選択した発声変形モデルを用いてスペクトル変形を行う
    工程、(c)上記複数の発声変形モデルによるスペクト
    ル変形の結果の平均値を上記音声標準モデルの変形音声
    標準モデルとして出力する工程、(d)発声変形のある
    音声データと、上記変形音声標準モデルを入力し、音声
    データと変形音声標準モデルとを比較して比較結果を出
    力する照合工程。
  18. 【請求項18】 上記音声認識方法は、更に、上記照合
    工程の比較結果を入力して、音声を認識する工程を備え
    たことを特徴とする請求項17記載の音声認識方法。
  19. 【請求項19】 上記音声認識方法は、更に、上記照合
    工程の比較結果を入力して、発声変形モデルを学習する
    学習工程を備えたことを特徴とする請求項17記載の音
    声認識方法。
  20. 【請求項20】 以下の工程を備えた音声認識方法 (a)入力音声信号に対し音響分析を行い発声変形音声
    特徴ベクトル時系列を出力する工程、(b)発声変形の
    ない音声データで学習した音声標準モデルを記憶する工
    程、(c)この記憶された音声標準モデルと、発声変形
    音声特徴ベクトル時系列とから、発声変形された音声に
    生じる音韻スペクトルの変形を表現する発声変形モデル
    を学習する工程、(d)前記発声変形モデルと前記音声
    標準モデルとから、音声標準モデルにおける音声を構成
    する要素の継続時間の変動量を求め、前記継続時間変動
    量として記憶させる工程、(e)この継続時間変動量に
    基づき前記音声標準モデルの継続時間パラメータの補正
    を行う工程、(f)この継続時間パラメータが補正され
    た前記音声標準モデルと前記発声変形モデルとを用い
    て、前記発声変形音声特徴ベクトル時系列に対する音声
    認識結果を出力する工程。
JP28063595A 1994-10-28 1995-10-27 発声変形音声認識装置及び音声認識方法 Expired - Fee Related JP3652753B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP28063595A JP3652753B2 (ja) 1994-10-28 1995-10-27 発声変形音声認識装置及び音声認識方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP26528094 1994-10-28
JP6-265280 1994-10-28
JP28063595A JP3652753B2 (ja) 1994-10-28 1995-10-27 発声変形音声認識装置及び音声認識方法

Publications (2)

Publication Number Publication Date
JPH08211887A true JPH08211887A (ja) 1996-08-20
JP3652753B2 JP3652753B2 (ja) 2005-05-25

Family

ID=26546914

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28063595A Expired - Fee Related JP3652753B2 (ja) 1994-10-28 1995-10-27 発声変形音声認識装置及び音声認識方法

Country Status (1)

Country Link
JP (1) JP3652753B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0866442A2 (en) * 1997-03-20 1998-09-23 AT&T Corp. Combining frequency warping and spectral shaping in HMM based speech recognition
EP0881625A2 (en) * 1997-05-27 1998-12-02 AT&T Corp. Multiple models integration for multi-environment speech recognition
US8996373B2 (en) 2010-12-27 2015-03-31 Fujitsu Limited State detection device and state detecting method

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0866442A2 (en) * 1997-03-20 1998-09-23 AT&T Corp. Combining frequency warping and spectral shaping in HMM based speech recognition
EP0866442A3 (en) * 1997-03-20 1999-04-21 AT&T Corp. Combining frequency warping and spectral shaping in HMM based speech recognition
EP0881625A2 (en) * 1997-05-27 1998-12-02 AT&T Corp. Multiple models integration for multi-environment speech recognition
EP0881625A3 (en) * 1997-05-27 1999-07-28 AT&T Corp. Multiple models integration for multi-environment speech recognition
EP1526504A1 (en) * 1997-05-27 2005-04-27 AT&T Corp. Multiple models integration for multi-environment speech recognition
US8996373B2 (en) 2010-12-27 2015-03-31 Fujitsu Limited State detection device and state detecting method

Also Published As

Publication number Publication date
JP3652753B2 (ja) 2005-05-25

Similar Documents

Publication Publication Date Title
JP2733955B2 (ja) 適応型音声認識装置
US6366883B1 (en) Concatenation of speech segments by use of a speech synthesizer
US5742928A (en) Apparatus and method for speech recognition in the presence of unnatural speech effects
Rudnicky et al. Survey of current speech technology
Yoshimura Simultaneous modeling of phonetic and prosodic parameters, and characteristic conversion for HMM-based text-to-speech systems
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
EP1139332A9 (en) Spelling speech recognition apparatus
EP1557822A1 (en) Automatic speech recognition adaptation using user corrections
US20070239444A1 (en) Voice signal perturbation for speech recognition
US5864809A (en) Modification of sub-phoneme speech spectral models for lombard speech recognition
JPH1063291A (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JPH04313034A (ja) 合成音声生成方法及びテキスト音声合成装置
JP2001503154A (ja) 音声認識システムにおける隠れマルコフ音声モデルの適合方法
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
JP2007219286A (ja) 音声のスタイル検出装置、その方法およびそのプログラム
US20040260552A1 (en) Method and apparatus to compensate for fundamental frequency changes and artifacts and reduce sensitivity to pitch information in a frame-based speech processing system
JPH08248994A (ja) 声質変換音声合成装置
Shen et al. Automatic selection of phonetically distributed sentence sets for speaker adaptation with application to large vocabulary Mandarin speech recognition
JP3652753B2 (ja) 発声変形音声認識装置及び音声認識方法
JPH10254473A (ja) 音声変換方法及び音声変換装置
JP2021032947A (ja) 音響モデル学習装置、音声合成装置、方法およびプログラム
Deng Speech recognition using autosegmental representation of phonological units with interface to the trended HMM
Lyu et al. Isolated Mandarin base-syllable recognition based upon the segmental probability model
Kim et al. Deleted strategy for MMI-based HMM training
JP2003271185A (ja) 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050224

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees