JP2986792B2 - 話者正規化処理装置及び音声認識装置 - Google Patents
話者正規化処理装置及び音声認識装置Info
- Publication number
- JP2986792B2 JP2986792B2 JP11011720A JP1172099A JP2986792B2 JP 2986792 B2 JP2986792 B2 JP 2986792B2 JP 11011720 A JP11011720 A JP 11011720A JP 1172099 A JP1172099 A JP 1172099A JP 2986792 B2 JP2986792 B2 JP 2986792B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- frequency
- vocal tract
- function
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000010606 normalization Methods 0.000 title claims description 156
- 238000012545 processing Methods 0.000 title claims description 75
- 230000001755 vocal effect Effects 0.000 claims description 365
- 230000006870 function Effects 0.000 claims description 340
- 238000000034 method Methods 0.000 claims description 102
- 238000003860 storage Methods 0.000 claims description 83
- 230000008569 process Effects 0.000 claims description 47
- 238000000605 extraction Methods 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 210000000214 mouth Anatomy 0.000 claims description 6
- 230000006978 adaptation Effects 0.000 description 22
- 238000002474 experimental method Methods 0.000 description 15
- 238000009826 distribution Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 230000008602 contraction Effects 0.000 description 10
- 239000013598 vector Substances 0.000 description 9
- 230000001419 dependent effect Effects 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000009499 grossing Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- QGZKDVFQNNGYKY-UHFFFAOYSA-O Ammonium Chemical compound [NH4+] QGZKDVFQNNGYKY-UHFFFAOYSA-O 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004138 cluster model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 210000003800 pharynx Anatomy 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
音声波形データを標準話者への周波数ワーピング関数を
用いて話者正規化した後、話者正規化された音声波形デ
ータに基づいて初期隠れマルコフモデル(以下、隠れマ
ルコフモデルをHMMという。)を学習することにより
話者正規化された最適なHMMを生成する話者正規化処
理装置と、上記生成されたHMMを用いて音声認識を行
う音声認識装置とに関する。
長に着目した周波数ワーピングによる話者正規化手法
(以下、従来例という。)が提案されその有効性が報告
されている(例えば、従来技術文献1「P.Zhan et al.,
“Speaker Normalization Basedon Frequency Warpin
g",Proceeding of ICASSP,pp.1039-1042,1997年」参
照。)。この従来例における尤度に基づく話者正規化手
法は、予め複数の周波数ワーピング関数を用意し、これ
らの関数を用い周波数ワーピングの後に音響分析を行な
い、その結果得られる音響パラメータが初期音響モデル
から出力される尤度を求め、最も尤度の高いワーピング
関数を選択する方法である。以下に、尤度に基づく最適
な周波数ワーピング関数の選択方法と話者正規化学習の
手順について説明する。
ついて以下に説明する。ここでは、複数N個の周波数ワ
ーピング関数F∈f1,f2,…,fNから以下の手順に
従い、図17に示すように、各話者に最適な周波数ワー
ピング関数を選択する。 (A1)特徴抽出器31−1乃至31−Nは、ある話者
mの音声波形データに対して予め用意した周波数ワーピ
ング関数F∈f1,f2,…,fNを用いて周波数ワーピ
ング処理を行った後、音響分析を行う。 (A2)尤度計算機32は、上記(A1)により得られ
た音響分析結果のそれぞれについて、所定の音素HMM
33を参照して、正解音素系列を用いたビタビ(Viterb
i)探索により尤度を求める。 (A3)最大尤度選択器34は、上記(A2)の結果に
基づいて、周波数ワーピング関数f1,f2,…,fN中
で、最大尤度を与える周波数ワーピング関数fmaxを選
択して特徴抽出器35に設定する。 (A4)特徴抽出器35は、入力される話者mの音声波
形データに対して周波数ワーピング関数fmaxを用いて
周波数ワーピング処理を行った後、音響分析することに
より、正規化された特徴パラメータを出力する。この特
徴パラメータは例えば音声認識のために用いられる。
明する。ここで、学習の際には、周波数ワーピング関数
選択用音声データ,学習用音声データの2つの異なる音
声データセットを用いるものとする。 (B1)全ての学習話者の学習用音声波形データの音響
分析を行い音響的特徴パラメータを得る。この音響的特
徴パラメータとしては公知のメル周波数ケプストラム係
数等が用いられる。 (B2)学習された音響モデルΛiに基づいて、各学習
話者の周波数ワーピング関数選択用音声データに対して
最大尤度を与える周波数ワーピング関数fmaxを選択す
る。 (B3)話者毎に選択された周波数ワーピング関数を用
いて周波数ワーピングを行った後、学習用音声データの
音響分析を行って音響的特徴パラメータを求める。 (B4)上記(B3)の結果得られた音響分析結果に基
づいて音響モデルΛiの学習を行なう。 (B5)そして、指定した回数だけ上記(B2)−(B
4)の処理を繰り返す。
の一例を示すグラフである。図18における関数は、周
波数ワーピング前後の周波数の対応関係を周波数ワーピ
ング係数αによって定まる直線の周波数ワーピング関数
で表すもので、係数φを定めることにより、入力音声の
周波数fがφ以下のときは周波数ワーピング関数を次式
で与え、
8の座標(φ,f・φ)と座標(1.0,1.0)の2
点間を結ぶ次式の直線で与えるものである。
φ}/(φ−1),φ<f≦1.0のとき
ング係数αの異なる周波数ワーピング関数を複数用意し
それらの内で尤度を最大とする周波数ワーピング関数を
選択する。ここで、周波数ワーピングとは、例えば図1
8の周波数ワーピング関数を用いて、ある対象話者の音
声波形データの各周波数を、標準話者の対応する各周波
数にシフトさせる処理をいう。
の方法では、予め周波数ワーピング関数の形状を指定す
る必要がある。また、周波数ワーピング係数αが離散的
な値となるため詳細な周波数ワーピング関数を推定する
ことができないという問題点があった。さらに、従来例
の話者正規化方法により話者正規化されて学習されたH
MMを用いて音声認識した場合、正規化による音声認識
率の改善が大きくないという問題点があった。
し、対象話者から標準話者への周波数ワーピング関数を
従来例に比較して高精度で推定して、推定された周波数
ワーピング関数を用いて話者正規化して学習することに
より認識性能の高い音響モデルを生成することができる
話者正規化処理装置を提供することにある。
規化処理装置によって生成されたHMMを用いて、従来
例に比較してより高い音声認識率で音声認識することが
できる音声認識装置を提供することにある。
載の話者正規化処理装置は、複数の正規化対象話者の音
声波形データとそれに対応するテキストデータを記憶す
る第1の記憶装置と、標準話者の声道面積関数に基づい
て決められた標準話者のフォルマント周波数を記憶する
第2の記憶装置と、上記第1の記憶装置に記憶された各
正規化対象話者の音声波形データに基づいて、各正規化
対象話者の声道の解剖学的形状である声道形状の特徴量
を、上記標準話者の声道モデルに基づいて予め決められ
た声道形状パラメータとフォルマント周波数との間の対
応関係を参照して推定する推定手段と、上記推定手段に
よって推定された各正規化対象話者の声道形状の特徴量
と、上記標準話者の声道形状の特徴量とに基づいて、上
記標準話者の声道形状の特徴量を変化させることによ
り、各正規化対象話者の声道面積関数を推定し、推定さ
れた各正規化対象話者の声道面積関数に基づいて各正規
化対象話者が発声する音声のフォルマント周波数を推定
し、周波数ワーピング後の各正規化対象話者の音声のフ
ォルマント周波数が上記第2の記憶装置に記憶された標
準話者の対応するフォルマント周波数と一致するように
入力音声周波数を変換して周波数ワーピングするため
の、入力音声周波数と周波数ワーピング後の周波数の対
応関係を示す周波数ワーピング関数を生成する関数生成
手段とを備えたことを特徴とする。
規化処理装置は、複数の学習話者の音声波形データとそ
れに対応するテキストデータを記憶する第1の記憶装置
と、標準話者の声道面積関数に基づいて決められた標準
話者のフォルマント周波数を記憶する第2の記憶装置
と、上記第1の記憶装置に記憶された各学習話者の音声
波形データに基づいて、各学習話者の声道の解剖学的形
状である声道形状の特徴量を、上記標準話者の声道モデ
ルに基づいて予め決められた声道形状パラメータとフォ
ルマント周波数との間の対応関係を参照して推定する第
1の推定手段と、上記第1の推定手段によって推定され
た各学習話者の声道形状の特徴量と、上記標準話者の声
道形状の特徴量とに基づいて、上記標準話者の声道形状
の特徴量を変化させることにより、各学習話者の声道面
積関数を推定し、推定された各学習話者の声道面積関数
に基づいて各学習話者が発声する音声のフォルマント周
波数を推定し、周波数ワーピング後の各学習話者の音声
のフォルマント周波数が上記第2の記憶装置に記憶され
た標準話者の対応するフォルマント周波数と一致するよ
うに入力音声周波数を変換して周波数ワーピングするた
めの、入力音声周波数と周波数ワーピング後の周波数の
対応関係を示す周波数ワーピング関数を生成する第1の
関数生成手段と、上記第1の記憶装置に記憶された各学
習話者の音声波形データに対して、上記第1の関数生成
手段によって生成された各学習話者の周波数ワーピング
関数を用いて周波数ワーピング処理を実行して話者正規
化した後、話者正規化後の音声波形データから各学習話
者の所定の音響的特徴パラメータを抽出する第1の抽出
手段と、上記第1の抽出手段によって抽出された各学習
話者の音響的特徴パラメータと、上記第1の記憶装置に
記憶されたテキストデータとに基づいて、所定の学習ア
ルゴリズムを用いて、所定の初期の隠れマルコフモデル
を学習することにより、正規化された隠れマルコフモデ
ルを生成する学習手段とを備えたことを特徴とする。
は、請求項2記載の話者正規化処理装置において、上記
声道形状の特徴量は、話者の声道の口腔側の第1の長さ
と、その咽頭腔側の第2の長さとであることを特徴とす
る。さらに、請求項4記載の話者正規化処理装置は、請
求項2又は3記載の話者正規化処理装置において、上記
音響的特徴パラメータは、メル周波数ケプストラム係数
であることを特徴とする。
は、請求項2乃至4のうち1つに記載の話者正規化処理
装置を備え、上記話者正規化処理装置によって生成され
た隠れマルコフモデルを用いて、入力された認識話者の
発声音声を音声認識する音声認識装置であって、入力さ
れる認識話者の学習用音声波形データに基づいて、認識
話者の声道の解剖学的形状である声道形状の特徴量を、
上記標準話者の声道モデルに基づいて予め決められた声
道形状パラメータとフォルマント周波数との間の対応関
係を参照して推定する第2の推定手段と、上記第2の推
定手段によって推定された認識話者の声道形状の特徴量
と、上記標準話者の声道形状の特徴量とに基づいて、上
記標準話者の声道形状の特徴量を変化させることによ
り、各認識話者の声道面積関数を推定し、推定された各
認識話者の声道面積関数に基づいて各認識話者が発声す
る音声のフォルマント周波数を推定し、周波数ワーピン
グ後の各認識話者の音声のフォルマント周波数が上記第
2の記憶装置に記憶された標準話者の対応するフォルマ
ント周波数と一致するように入力音声周波数を変換して
周波数ワーピングするための、入力音声周波数と周波数
ワーピング後の周波数の対応関係を示す認識話者の周波
数ワーピング関数を生成する第2の関数生成手段と、上
記第2の関数生成手段によって生成された認識話者の周
波数ワーピング関数を記憶する第3の記憶装置と、認識
すべき認識話者の発声音声の音声波形データに対して、
上記第3の記憶装置に記憶された認識話者の周波数ワー
ピング関数を用いて周波数ワーピング処理を実行して話
者正規化した後、話者正規化後の音声波形データから認
識話者の所定の音響的特徴パラメータを抽出する第2の
抽出手段と、上記第2の抽出手段によって抽出された音
響的特徴パラメータに基づいて、上記話者正規化処理装
置によって生成された隠れマルコフモデルを用いて、上
記入力された認識話者の発声音声を音声認識して音声認
識結果を出力する音声認識手段とを備えたことを特徴と
する。
規化処理装置は、複数の正規化対象話者の音声波形デー
タとそれに対応するテキストデータを記憶する第1の記
憶装置と、標準話者の声道面積関数に基づいて決められ
た標準話者のフォルマント周波数を記憶する第2の記憶
装置と、上記第1の記憶装置に記憶された各正規化対象
話者の音声波形データに基づいて、各正規化対象話者の
声道の解剖学的形状である声道形状の特徴量を、上記標
準話者の声道モデルに基づいて予め決められた声道形状
パラメータとフォルマント周波数との間の対応関係を参
照して、音響的特徴の類似した所定の類似音素環境毎に
推定する推定手段と、上記推定手段によって推定された
各正規化対象話者の類似音素環境毎の声道形状の特徴量
と、上記標準話者の声道形状の特徴量とに基づいて、上
記標準話者の声道形状の特徴量を変化させることによ
り、各正規化対象話者の声道面積関数を類似音素環境毎
に推定し、推定された各正規化対象話者の類似音素環境
毎の声道面積関数に基づいて各正規化対象話者が発声す
る音声のフォルマント周波数を類似音素環境毎に推定
し、周波数ワーピング後の各正規化対象話者の音声のフ
ォルマント周波数が上記第2の記憶装置に記憶された標
準話者の対応するフォルマント周波数と一致するように
入力音声周波数を変換して周波数ワーピングするため
の、入力音声周波数と周波数ワーピング後の周波数の対
応関係を示す周波数ワーピング関数を類似音素環境毎に
生成する関数生成手段とを備えたことを特徴とする。
正規化処理装置は、複数の学習話者の音声波形データと
それに対応するテキストデータを記憶する第1の記憶装
置と、標準話者の声道面積関数に基づいて決められた標
準話者の音響的特徴の類似した所定の類似音素環境毎の
フォルマント周波数を記憶する第2の記憶装置と、上記
第1の記憶装置に記憶された各学習話者の音声波形デー
タに基づいて、各学習話者の声道の解剖学的形状である
声道形状の特徴量を、上記標準話者の声道モデルに基づ
いて予め決められた声道形状パラメータとフォルマント
周波数との間の対応関係を参照して類似音素環境毎に推
定する第1の推定手段と、上記第1の推定手段によって
推定された各学習話者の類似音素環境毎の声道形状の特
徴量と、上記標準話者の声道形状の特徴量とに基づい
て、上記標準話者の声道形状の特徴量を変化させること
により、各学習話者の声道面積関数を類似音素環境毎に
推定し、推定された各学習話者の類似音素環境毎の声道
面積関数に基づいて各学習話者が発声する音声のフォル
マント周波数を類似音素環境毎に推定し、周波数ワーピ
ング後の各学習話者の音声のフォルマント周波数が上記
第2の記憶装置に記憶された標準話者の対応するフォル
マント周波数と一致するように入力音声周波数を変換し
て周波数ワーピングするための、入力音声周波数と周波
数ワーピング後の周波数の対応関係を示す周波数ワーピ
ング関数を類似音素環境毎に生成する第1の関数生成手
段と、上記第1の記憶装置に記憶された各学習話者の音
声波形データに対して、上記第1の関数生成手段によっ
て生成された各学習話者の類似音素環境毎の周波数ワー
ピング関数を用いて周波数ワーピング処理を実行して話
者正規化した後、話者正規化後の音声波形データから各
学習話者の所定の音響的特徴パラメータを類似音素環境
毎に抽出する第1の抽出手段と、上記第1の抽出手段に
よって抽出された各学習話者の類似音素環境毎の音響的
特徴パラメータと、上記第1の記憶装置に記憶されたテ
キストデータとに基づいて、所定の学習アルゴリズムを
用いて、所定の初期の隠れマルコフモデルを学習するこ
とにより、正規化された隠れマルコフモデルを生成する
学習手段とを備えたことを特徴とする。
は、請求項7記載の話者正規化処理装置において、上記
声道形状の特徴量は、話者の声道の口腔側から、その咽
頭腔までの声道断面のパラメータであることを特徴とす
る。
置は、請求項7又は8記載の話者正規化処理装置におい
て、上記類似音素環境は、母音と、音素と、隠れマルコ
フモデルの状態とのうち少なくとも1つを含むことを特
徴とする。
の音声認識装置は、請求項7乃至9のうち1つに記載の
話者正規化処理装置を備え、上記話者正規化処理装置に
よって生成された隠れマルコフモデルを用いて、入力さ
れた認識話者の発声音声を音声認識する音声認識装置で
あって、入力される認識話者の学習用音声波形データに
基づいて、認識話者の声道の解剖学的形状である声道形
状の特徴量を、上記標準話者の声道モデルに基づいて予
め決められた声道形状パラメータとフォルマント周波数
との間の対応関係を参照して類似音素環境毎に推定する
第2の推定手段と、上記第2の推定手段によって推定さ
れた認識話者の類似音素環境毎の声道形状の特徴量と、
上記標準話者の声道形状の特徴量とに基づいて、上記標
準話者の声道形状の特徴量を変化させることにより、各
認識話者の声道面積関数を類似音素環境毎に推定し、推
定された各認識話者の類似音素環境毎の声道面積関数に
基づいて各認識話者が発声する音声のフォルマント周波
数を類似音素環境毎に推定し、周波数ワーピング後の各
認識話者の音声のフォルマント周波数が上記第2の記憶
装置に記憶された標準話者の対応するフォルマント周波
数と一致するように入力音声周波数を変換して周波数ワ
ーピングするための、入力音声周波数と周波数ワーピン
グ後の周波数の対応関係を示す認識話者の周波数ワーピ
ング関数を類似音素環境毎に生成するとともに、類似音
素環境と周波数ワーピング関数との間の対応関係の情報
を生成する第2の関数生成手段と、上記第2の関数生成
手段によって生成された認識話者の類似音素環境毎の周
波数ワーピング関数を記憶する第3の記憶装置と、上記
第2の関数生成手段によって生成された認識話者の類似
音素環境と周波数ワーピング関数との間の対応関係の情
報を記憶する第4の記憶装置と、認識すべき認識話者の
発声音声の音声波形データに対して、上記第3の記憶装
置に記憶された認識話者の類似音素環境毎の周波数ワー
ピング関数を用いて周波数ワーピング処理を実行して話
者正規化した後、話者正規化後の音声波形データから認
識話者の所定の音響的特徴パラメータを類似音素環境毎
に抽出する第2の抽出手段と、上記第2の抽出手段によ
って抽出された類似音素環境毎の音響的特徴パラメータ
に基づいて、第4の記憶装置に記憶された認識話者の類
似音素環境と周波数ワーピング関数との間の対応関係の
情報を参照して、上記話者正規化処理装置によって生成
された隠れマルコフモデルを用いて、上記入力された認
識話者の発声音声を音声認識して音声認識結果を出力す
る音声認識手段とを備えたことを特徴とする。
る実施形態について説明する。
第1の実施形態である音声認識装置の構成を示すブロッ
ク図である。本実施形態の音声認識装置は、声道形状推
定部10と、周波数ワーピング関数生成部11と、話者
正規化処理部12と、周波数ワーピング処理を含む特徴
抽出部3とを備えたことを特徴とする。
間の声道の解剖学的な形状(以下、声道形状という。)
の特徴量とその推定法について述べる。話者正規化に関
する研究においては、主に話者の声道長VTL(Vocal
Tract Length)に着目して正規化が行なわれる。しかし
ながら、声道長VTLのみで特徴づけられる話者の音声
の音響的な特徴には限界がある(例えば、従来技術文献
2「G.Fant,“Non-uniform vowel normalization",Spee
ch Transmission Laboratory Quarterly Progress and
Status Report,Vol.2-3,1975,pp.1-19」参照。)。そこ
で、本実施形態では、話者クラスタリングに用いる声道
形状の特徴量として声道を、図7に示すように、前方
(口腔側)と後方(咽頭腔側)の2つの区間に分割し、
そのそれぞれの長さl1,l2(以下、声道形状パラメー
タという。)の2つのパラメータを用いる。この声道形
状パラメータを選択した理由は、以下の通りである。
の発声する音声は大きな影響を受ける(例えば、従来技
術文献2参照。)。 (2)この声道形状パラメータの比較的簡単な推定法が
提案されている。 (3)話者正規化の研究で一般に用いられる声道長から
の簡単な拡張である。 なお、口腔側と咽頭腔側の2つの区間に分割する点は、
好ましくは、口腔と咽頭との間の中間点付近に定められ
る。
l1,l2の推定には、話者の2母音/a/,/i/の各
フォルマント周波数F1,F2,F3を用いて、以下に述
べるフォルマント周波数空間から声道形状パラメータ空
間へのマッピング手法により推定を行なう。声道形状パ
ラメータl1,l2の推定には下記の声道モデルを使用す
る。また、2つの母音/a/,/i/のフォルマント周
波数を区別するために、合計6つのフォルマント周波数
を(Fa1,Fa2,Fa3,Fi1,Fi2,Fi3)とする。
一般に、図7に示すように。声道をn個所で輪切りにし
た際の各断面の面積と断面間の距離dm−1によりモデ
ル化される。このモデルを用いることで、各話者の声道
形状に基づいて、話者が発する音声を生成することが可
能である。一方、音声認識装置に用いる場合、このよう
な声道形状を測定することは困難であるため、各話者の
発した音声に基づいて、声道形状を推定する必要があ
る。このような声道形状の特徴量のうち、特に、声道の
口腔側の長さl1と咽頭腔側の長さl2や声道長VTLが
各話者が発する音声に大きな影響を与えるために、これ
らの特徴量を、声道形状の特徴量として用いる。
声道を断面SMmにおいて、口腔側と咽頭腔側の2つの
区間に分割した際の、それぞれの長さl1,l2を用いる
場合、これらの特徴量は、前述した声道形状のモデルに
基づいて次式により計算される。
道長VTLを用いる場合、この特徴量は、前述した声道
形状のモデルに基づいて次式により計算される。
る音素に依存しない2つのパラメータ、すなわち、声道
の口腔側の長さl1と声道の咽頭腔側の長さl2により表
す。この声道モデルにおいて、標準話者の声道形状パラ
メータl1,l2と各母音に対応する声道面積関数(以
下、声道面積関数という。)を用意し、2つの声道形状
パラメータl1,l2をそれぞれ独立に何倍かに伸縮した
後に、音声を生成することで、異なる形状の声道から発
せられる各母音のフォルマント周波数を得ることが可能
である。
ォルマント周波数の算出法は以下の通りである。図10
(a)に図示された声道モデルを図10(b)で表され
る等価回路で表現することができる。ここで、声道のあ
る断面nにおける声道断面積をA(n)、声道の断面n
−1からnの距離をl(n),管内の空気密度をρと
し、音速をcとすると、n番目の断面の音響インダクタ
ンスL(n)及びn番目の断面の音響キャパシタンスC
(n)は次式で表わすことができる。
Zr及び声門の音響インピーダンスZgは次式で表わす
ことができる。
である。
て、これらの回路定数に基づいて、図11の等価回路の
共振周波数を求めることにより、声道モデルから生成さ
れる音声のフォルマント周波数を計算することができる
(例えば、従来技術文献3「鈴木久喜訳,“音声のディ
ジタル信号処理(上)”,コロナ社,昭和58年4月1
5日発行」参照。)。
パラメータの伸縮率を何種類も変化させることにより、
標準話者の声道形状パラメータに対する伸縮率とそれに
対応する各母音フォルマント周波数を求める。これによ
り、図8及び図9に示すように、2次元の声道形状パラ
メータの伸縮率空間上の近接する3点により形成される
小平面PQRと、それに対応するフォルマント周波数空
間上の小平面pqrが得られる。ここで、声道形状パラ
メータの伸縮率は、声道形状パラメータの正規化空間と
もいえる。なお、図8(b)において、フォルマント周
波数空間は、母音/a/のフォルマント周波数Fa1,F
a2,Fa3と、母音/i/のフォルマント周波数Fi1,F
i2,Fi3とで6次元を有する空間である。
ォルマント周波数空間上の小平面から声道形状パラメー
タの伸縮率空間上の小平面上へのマッピングにより行な
う。声道形状パラメータの推定手順を以下に示す。
て実行される声道形状推定処理を示すフローチャートで
ある。この推定処理に先立って、予め測定されて内部メ
モリに記憶された標準話者の声道形状パラメータに基づ
いて、声道形状パラメータの伸縮率空間上の小平面とフ
ォルマント周波数空間上の小平面との間の空間対応テー
ブルを作成して空間対応テーブルメモリ21に格納す
る。当該空間対応テーブルにおいては、声道形状パラメ
ータの伸縮率空間上の小平面のパラメータセットと、フ
ォルマント周波数空間上の小平面のパラメータセットと
の複数の組が格納される。図2のステップS1で、ま
ず、音声認識すべき話者は、母音/a/,/i/を発声
してその発声音声が図1のマイクロホン1に入力されて
音声信号に変換された後、A/D変換器2によってディ
ジタル音声信号にA/D変換される。当該ディジタル音
声信号は、スイッチSW1のb側を介して声道形状推定
部10に入力される。これに応答して、声道形状推定部
10は、図8に示すように、入力されたディジタル音声
信号に基づいて、声道形状パラメータl1,l2を推定す
る話者について、母音/a/,/i/のフォルマント周
波数の組s(Fa1,Fa2,Fa3,Fi1,Fi2,Fi3)を
求める。次いで、ステップS2で、図9に示すように、
フォルマント周波数の空間上で、ステップS1で求めた
フォルマント周波数の組sに最も近い小平面pqrを求
める。さらに、ステップS3で、図8及び図9に示すよ
うに、フォルマント周波数の組sをステップS2で求め
た小平面pqrに射影して、フォルマント周波数の組
s’を求めた後、空間対応テーブルメモリ21内の空間
対応テーブルを参照して、対応する声道形状パラメータ
の伸縮率空間上の小平面PQR上で線形関数(数13)
により声道形状パラメータl1,l2の伸縮率Sを求め
る。
Q(上線)については、本明細書において、上線を用い
ることができないため、数12及び数13において下線
を用いている。また、→v1は、ベクトルv1を示し、→
v2、→V1、→V2についてもベクトルを示す。数12
は、射影後のフォルマント周波数の組s’は、線分pq
と、ベクトル→v1と、ベクトル→v2との線形結合で表
わすことができることを示し、数13は、変換後のフォ
ルマント周波数の組Sは、線分PQと、ベクトル→V1
と、ベクトル→V2との線形結合で表わすことができる
ことを示し、数14は、フォルマント周波数空間上の小
平面pqrと、声道形状パラメータの伸縮率空間上の小
平面PQRとの間の対応関係を表している。
道形状パラメータl1,l2に、ステップS3で求められ
た各声道形状パラメータl1,l2の伸縮率Sを掛け合わ
せ、目的の話者の声道形状パラメータl1,l2を得て、
得られた声道形状パラメータl1,l2をバッファメモリ
28を介して周波数ワーピング関数生成部11に出力す
る。
徴量として声道を前方(口腔側)と後方(咽頭腔側)の
2つの区間に分割し、そのそれぞれの長さl1,l2の声
道形状パラメータを用いる。声道形状パラメータは、各
話者の2母音/a/,/i/のフォルマント周波数(F
1,F2,F3)を基に、フォルマント周波数空間から
声道形状パラメータ空間への簡易なマッピング手法によ
り推定する。推定に必要なマッピング関数は標準話者の
X線写真を基に作成した声道モデルを用いて作成する。
また、話者正規化は、この標準話者の音声に正規化対象
話者の音声を近づける形で周波数ワーピングを行うこと
で実現する。話者正規化に用いる周波数ワーピング関数
は標準話者の声道モデルと各話者の声道形状パラメータ
を基に以下の手順により作成する。本実施形態におい
て、正規化対象話者は学習話者である。
いる標準話者の声道面積関数を求める。ここで、本実施
形態では、各話者に対して音素に依存しない1つの周波
数ワーピング関数を推定しており、図19に示す変形さ
れた前田モデルを用いる。このモデルにおいては、顎の
位置を制御するパラメータjと、舌の位置を制御するパ
ラメータb,dと、唇の位置を制御するパラメータ
tx,tyの5つのパラメータを発声しようとする音声に
あわせてそれぞれ独立に制御することで、発声される音
声に対応した声道の各地点の声道断面積パラメータ
z1,…,z25が得られる。これらのパラメータを調節
し各音素環境に対応する声道断面積パラメータを推定
し、この声道断面積パラメータに基づいて周波数ワーピ
ング関数を推定する。この声道面積関数としては、特定
の音素に対応した声道面積関数を用いることも可能であ
るが、特定の音素に依存しない中間的な声道面積関数を
用いることが望ましい。例えば、声道の調音モデルにお
いては、音素に応じた舌の動きや、顎の動き等を制御す
る複数のパラメータに応じて、基準となる声道面積関数
を変形させることで各音素に対応した声道面積関数を推
定する。この声道の調音モデルを制御するパラメータを
全て0に設定することで特定の音素に依存しない標準話
者の中間的な声道面積関数を求めることが可能である。 (C2)上記(C1)で求めた標準話者の声道面積関数
に対してナイキスト周波数付近までのフォルマント周波
数を求める。例えば、サンプリング周波数が12kHz
である場合、ナイキスト周波数6kHz付近までのフォ
ルマント周波数(F1−F7)を求める。 (C3)上記(C1)で求めた標準話者の声道モデルを
正規化対象話者の声道形状パラメータl1,l2に応じて
伸縮することで、正規化対象話者の声道モデルを作成す
る。これは、声道の口腔側と咽頭腔側の2つの区間それ
ぞれ独立に、声道の前方は標準話者と正規化対象話者の
l1の比に応じて、声道の後方は標準話者と正規化対象
話者のl2の比に応じて伸縮することで作成される。 (C4)上記(C3)で求めた正規化対象話者の声道面
積関数に対するフォルマント周波数(F1−F7)を求
める。 (C5)上記の(C2)及び(C4)の処理により標準
話者と正規化対象話者のフォルマント周波数(F1−F
7)の対応関係が得られるため、周波数ワーピングによ
り、各学習話者の音声のフォルマント周波数が、標準話
者の対応するフォルマント周波数に変換されるように、
周波数ワーピング関数を生成する。その際周波数0から
フォルマント周波数F1の区間については、(周波数0
Hz,周波数0Hz)と(正規化対象話者のF1,標準
話者のF1)の2点を通る直線で近似し、以下、同様
に、フォルマント周波数Fn−1とFn(n=2,3,
…,7)の間については(正規化対象話者のFn−1,
標準話者のFn−1)と(正規化対象話者のFn,標準
話者のFn)の2点を通る直線で近似し周波数ワーピン
グ関数を定める。
の手法を用いて作成した正規化対象話者(2話者,話者
名M202及びM017)に対する周波数ワーピング関
数を図14に示した。図14には比較のため、声道長に
基づき作成した周波数ワーピング関数(話者名(VT
L))を併記している。この声道長に基づく周波数ワー
ピング関数は、標準話者の声道長VTLrefと正規化対
象話者の声道長VTLtar getの比に基づき次式により周
波数軸を線形に伸縮するものである。
f’はそれに対応する正規化後の周波数である。なお、
後述の実験には、標本化周波数12kHzの音声データ
を使用する。上記の周波数ワーピング関数を用いて正規
化を行う際には、
するスペクトルが得られるように、正規化前の音声デー
タが6kHzを越える周波数域の情報を有している必要
がある。この問題を回避するため、本実施形態では、ナ
イキスト周波数の8割(4.8kHz)以下の周波数域
に対して上記の周波数ワーピング関数を用い、それ以上
の周波数域に対してはナイキスト周波数(6kHz)に
おいて周波数ワーピング前後の周波数が、一致するよう
線形補間により周波数ワーピング関数を変形することで
対応した(図14の点線参照。)。
標準話者フォルマント周波数メモリ26は、周波数ワー
ピング関数生成部11及び話者正規化処理部12で必要
となる標準話者のフォルマント周波数を格納するメモリ
である。これは、標準話者の声道部分の断面のX線写真
又はCT写真に基づいて上述の声道形状のモデルのよう
に声道形状をプロットして得られた標準話者の声道モデ
ル(声道面積関数を含み、周波数ワーピング関数生成部
11及び話者正規化処理部12で用いるモデルと同一の
ものである)に基づいて、声道形状推定部10及び周波
数ワーピング関数生成部11(後述する図3の処理)に
より予め算出されたフォルマント周波数を格納するため
のメモリである。本実施形態では、標準話者フォルマン
ト周波数メモリ26は、例えば、第1から第7のフォル
マント周波数F1,F2,…,F7を記憶する。
部11によって実行される周波数ワーピング関数生成処
理を示すフローチャートである。この周波数ワーピング
関数生成処理は、声道形状推定部10からバッファメモ
リ28を介して入力される標準話者及び各認識話者の声
道形状パラメータと、標準話者フォルマント周波数メモ
リ26に記憶された標準話者のフォルマント周波数とに
基づいて、認識話者の周波数ワーピング関数を生成して
周波数ワーピング関数メモリ27に格納する処理であ
る。
各話者に対して声道形状推定部10において推定された
声道形状パラメータl1,l2を用いて、標準話者の声道
モデルを伸縮させることで、各話者の声道モデルを近似
する。このモデルから、出力される音声のフォルマント
周波数を推定する。その際、標準話者の声道モデルを調
整することで、種々の音素に対応した声道形状及びフォ
ルマント周波数を得ることが可能であるが、ここでは音
素に依存しない中間的な声道形状とすることが望まし
い。同様に、標準話者の声道モデルから出力される音声
のフォルマント周波数を得て標準話者のフォルマント周
波数メモリ26に記憶する。そして、この正規化対象話
者のフォルマント周波数と標準話者のフォルマント周波
数の対応関係から図12のような周波数ワーピング関数
を推定する。
いて、標準話者の声道面積関数に基づいて、上述の方法
で、標準話者が発声する音声のフォルマント周波数を推
定して標準話者フォルマント周波数メモリ26に記憶す
る。次いで、ステップS12において、声道形状推定部
10によって推定された各認識話者の声道形状パラメー
タl1,l2と、標準話者の声道形状パラメータl1,l2
とに基づいて、標準話者の声道形状パラメータl1,l2
を変化させることにより、各認識話者の声道面積関数を
推定し、これに基づいて、ステップS11と同様の方法
で、各認識話者が発声する音声の各音素のフォルマント
周波数を推定する。さらに、ステップS13で、標準話
者フォルマント周波数メモリ26に保存されている標準
話者のフォルマント周波数と、ステップS12で得られ
た各認識話者のフォルマント周波数の対応関係から周波
数ワーピング関数を生成し、周波数ワーピング関数メモ
リ27に格納する。
ング関数の生成方法について説明する。周波数ワーピン
グ関数は、周波数ワーピング処理により、処理後の各認
識話者の音声のフォルマント周波数が標準話者の対応す
るフォルマント周波数に一致するように、すなわち、各
認識話者の音声のフォルマント周波数(F1−F7)
が、標準話者の対応するフォルマント周波数(F1−F
7)に変換されるように、入力される音声周波数を変換
するための周波数間の対応関係を定める。そして、図1
2に示したように、周波数0からフォルマント周波数F
1の区間については、(周波数0Hz,周波数0Hz)
と(認識話者のF1,標準話者のF1)の2点を直線で
近似し、以下同様にして、フォルマント周波数Fn−1
とFnの間については(認識話者のFn−1,標準話者
のFn−1)と(認識話者のFn,標準話者のFn)の
2点を通る直線で近似することで周波数ワーピング関数
を定める。言い換えれば、認識話者のフォルマント周波
数が入力音声の周波数に対応する一方、標準話者のフォ
ルマント周波数が周波数ワーピング後の周波数となるよ
うに周波数ワーピング関数を得ている。
って実行される話者正規化処理を示すフローチャートで
ある。図4において、まず、ステップS21において、
空間対応テーブルメモリ21内の空間対応テーブルと、
音声波形データメモリ22内の複数の学習話者の音声波
形データと、それに対応してテキストデータメモリ23
に記憶されたテキストデータとに基づいて、声道形状推
定部10の処理と同様の声道形状推定処理及び、周波数
ワーピング関数生成部11の処理と同様の周波数ワーピ
ング関数生成処理を実行することにより、各学習話者の
周波数ワーピング関数を推定して周波数ワーピング関数
メモリ25に記憶する。
データメモリ22内の各学習話者の音声波形データに対
して、対応する周波数ワーピング関数(周波数ワーピン
グ関数メモリ25に記憶された)を用いて周波数ワーピ
ング処理を実行して話者正規化した後、話者正規化され
た音声波形データに対して特徴抽出処理(後述の特徴抽
出部3による処理と同様の処理)を実行することによ
り、テキストデータに対応する各学習話者の音響的特徴
パラメータを抽出する。さらに、ステップS23におい
てすべての学習話者の音声的特徴パラメータと、テキス
トデータメモリ23内のテキストデータに基づいて、H
M網から学習に用いる音響パラメータ列が出力される確
率が最大となるよう公知のEM(Estimation-Maximum)
アルゴリズムを用いて、初期HM網29内の初期HM網
を学習することにより、正規化されたHM網を生成して
HM網メモリ24に出力して記憶する。
者正規化処理部においては、各学習話者の音声波形デー
タ(音声をディジタル化したデータであって、周波数ワ
ーピング処理を行なう前の音声ディジタルデータであ
る。)に対して話者正規化を行った後に、音響モデルの
学習を行っている。ここで、学習の際には、好ましく
は、周波数ワーピング関数生成用音声波形データと、学
習用音声波形データの2つの異なる音声データセットを
用いる。
ピング関数を用いた周波数ワーピングを行った後、メル
周波数ケプストラム係数(MFCC)等の音響特徴量を
抽出する。ここで、周波数ワーピングは、周波数ワーピ
ング関数に従って、周波数ワーピング後の各周波数のパ
ワーの値を、入力音声スペクトル上の対応する周波数の
パワーで置き換えることで実現される。本実施形態で
は、音響的特徴パラメータとしてMFCCを使用する
が、この場合、MFCCの計算時にFFTにより入力音
声パワースペクトルが計算される。このパワースペクト
ルはFFTにより周波数方向に離散的に求められてお
り、多くの場合、周波数ワーピング後の各周波数に対応
する周波数ワーピング前の周波数のパワーが計算されて
おらず、周波数ワーピング後のパワースペクトルを直接
的に求めることが出来ない。このため、本実施形態で
は、入力音声の各周波数のパワーを基にした線形補間に
より周波数ワーピング後の各周波数のパワーを近似する
ことで、周波数ワーピングを実現する(図13参
照。)。
される特徴抽出処理を示すフローチャートである。ステ
ップS31において、周波数ワーピング関数メモリ27
内の認識話者の周波数ワーピング関数を用いて入力され
る音声信号データに対して周波数ワーピング処理を実行
する。次いで、ステップS32において周波数ワーピン
グ処理後の音声信号データから音響的特徴パラメータを
抽出して、バッファメモリ4を介して音素照合部5に出
力する。
ワーピング処理(ステップS31)を示すフローチャー
トである。この処理について、図13を参照して説明す
る。図6において、まず、ステップS41において、F
FTにより、A/D変換器2からスイッチSW1を介し
て入力された音声信号データのパワースペクトルS[f
in](fin=1,2,3,…,N)を計算する(ここ
で、NはFFTのポイント数である)。次いで、ステッ
プS42において周波数ポイントパラメータfwa rpに1
をセットした後、ステップS43において、図13
(a)に示すように、周波数ワーピング関数メモリ27
内の対応する周波数ワーピング関数を用いて周波数f
warpに対応する入力音声データの周波数frin(実数)
を求める。そして、ステップS44において周波数f
rinに隣接するFFTの周波数flin(低周波数側)とf
uin(高周波数側)を求める。ここで、FFTの周波数
とは、FFTの周波数ポイントが存在する周波数であ
る。さらに、ステップS45において次式を用いて、入
力音声のflin及びfuinにおけるパワーの線形補間を行
い、入力音声の周波数frinにおけるパワーを近似して
周波数ワーピング後のFFTの周波数fwarpのパワー
S’[fwarp]として出力する。
flin)/(fuin−flin)}(S[fuin]−S[flin])
Nについて判断を行い、NOであればすべての周波数に
ついて処理が終了していないので、ステップS47にお
いて周波数ポイントパラメータfwarpを1だけインクリ
メントしてステップS43に戻る。一方、ステップS4
6でYESであれば、元のルーチンに戻る。
処理、すなわち、本実施形態に係る話者正規化モデルに
よる不特定話者音声認識方法について述べる。本実施形
態では、 (D1)次いで、スイッチSW1をb側に切り換えて、
認識しようとする認識話者に、声道形状の特徴量の推定
に必要な音声の発声を依頼し、マイクロホン1を介して
発声された音声をもとに声道形状推定部10及び周波数
ワーピング関数生成部11のステップS12及びS13
の処理を実行する。 (D2)そして、スイッチSW1をa側に切り換えて、
音声認識しようとする音声の発声を依頼して、音声認識
する。 従って、各認識話者毎に、上記(D1)及び(D2)の
処理を行う。
(left-to-right rightmost型)不特定話者連続音声認
識装置について説明する。この装置は、HM網メモリ2
4に格納されたHM網と呼ばれる音素環境依存型の効率
のよいHMMの表現形式を用いている。また、上記SS
Sにおいては、音素の特徴空間上に割り当てられた確率
的定常信号源(状態)の間の確率的な遷移により音声パ
ラメータの時間的な推移を表現した確率モデルに対し
て、尤度最大化の基準に基づいて個々の状態をコンテキ
スト方向又は時間方向へ分割するという操作を繰り返す
ことによって、モデルの精密化を逐次的に実行する。
て、話者の発声音声はマイクロホン1に入力されて音声
信号に変換された後、音声信号がA/D変換器2によっ
てディジタル音声信号にA/D変換される。当該ディジ
タル音声信号は、スイッチSW1のa側を介して特徴抽
出部3に入力される。特徴抽出部3は、上述のように、
入力されたディジタル音声信号に対して、対応する周波
数ワーピング関数(メモリ27内)を用いて話者正規化
した後、話者正規化されたディジタル音声信号に対す
る、対数パワー、Δ対数パワー、12次メル周波数ケプ
ストラム係数(MFCC)、12次Δメル周波数ケプス
トラム係数(ΔMFCC)を含む音響的特徴パラメータ
を抽出する。抽出された特徴パラメータの時系列はバッ
ファメモリ3を介して音素照合部5に入力される。
4内のHM網は、各状態をノードとする複数のネットワ
ークとして表され、各状態はそれぞれ以下の情報を有す
る。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態、及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率及び後続状態への遷移確率 なお、本実施形態において用いるHM網は、各分布がど
の話者に由来するかを特定する必要があるため、所定の
話者混合HM網を変換して作成する。ここで、出力確率
密度関数は26次元の対角共分散行列をもつ混合ガウス
分布であり、各分布はある特定の話者のサンプルを用い
て学習されている。また、文脈自由文法メモリ(CFG
メモリ)9内の所定の文脈自由文法(CFG)は、公知
の方法で自動的にLRテーブルに変換してLRテーブル
メモリ8に格納される。
部5は、音素コンテキスト依存型LRパーザ6からの音
素照合要求に応じて音素照合処理を実行する。このとき
に、LRパーザ6からは、音素照合区間及び照合対象音
素とその前後の音素から成る音素コンテキスト情報が渡
される。音素照合部5は、受け取った音素コンテキスト
情報に基づいて、上記指定話者モデルを用いて音素照合
区間内のデータに対する尤度が計算され、この尤度の値
が音素照合スコアとしてLRパーザ6に返される。これ
に応答して、LRパーザ6は、LRテーブルメモリ8内
のLRテーブルを参照して、入力された音素予測データ
について左から右方向に、後戻りなしに処理する。構文
的にあいまいさがある場合は、スタックを分割してすべ
ての候補の解析が平行して処理される。LRパーザ6
は、LRテーブルから次にくる音素を予測して音素予測
データを音素照合部5に出力する。これに応答して、音
素照合部5は、その音素に対応する上記指定話者モデル
に関するHM網メモリ24内の情報を参照して照合し、
その尤度を音声認識スコアとしてLRパーザ6に戻し、
順次音素を連接していくことにより、連続音声の認識を
行う。ここで、複数の音素が予測された場合は、これら
すべての存在をチェックし、ビームサーチの方法によ
り、部分的な音声認識の尤度の高い部分木を残すという
枝刈りを行って高速処理を実現する。入力された話者音
声の最後まで処理した後、全体の尤度が最大のもの又は
所定の上位複数個のものを、当該装置の認識結果データ
として外部装置に出力する。
音素照合部5、LRパーザ6、声道形状推定部10、周
波数ワーピング関数生成部11と、及び話者正規化処理
部12は、例えばディジタル計算機で構成され、また、
バッファメモリ4及び空間対応テーブルメモリ21、音
声波形データメモリ22、テキストデータメモリ23、
HM網メモリ24、周波数ワーピング関数メモリ25、
標準話者フォルマント周波数メモリ26、周波数ワーピ
ング関数メモリ27、バッファメモリ28、初期HM網
メモリ29、LRテーブルメモリ8、及びCFGメモリ
9は、例えばハードデイスクメモリなどの記憶装置で構
成される。
ば、2母音のフォルマント周波数から抽出された、声道
形状の特徴量と、音声の生成モデルから周波数ワーピン
グ関数を生成できるため少量の音声データに基づく話者
正規化が可能となる。また、尤度に基づく周波数ワーピ
ング関数の選択法(従来例)のように予め周波数ワーピ
ング関数の形状を指定する必要がないため、より詳細な
周波数ワーピング関数を生成できる。このため、本実施
形態の方法を基に作成した周波数ワーピング関数を用い
ることで、高速かつ性能の高い話者適応が実現可能であ
る。さらには、音声認識時に、認識すべき音声信号デー
タに対して、対応する周波数ワーピング関数を用いて話
者正規化した後特徴抽出し、話者正規化しかつ学習され
たHMMを用いて音声認識するので、従来例に比較して
より高い音声認識率で音声認識することができる。
を確かめるために、音素タイプライタによる認識実験を
行った。実験条件を表1に示す。
性モデル(GD)、(E2)移動ベクトル場平滑化法
(VFS法)(例えば、従来技術文献4「大倉計美ほ
か,“混合連続分布HMMを用いた移動ベクトル場平滑
化話者適応方式”,電子情報通信学会技術報告,SP9
2−16,1992年6月」参照。)による話者適応モ
デル(VFS)、(E3)声道長に基づく話者正規化モ
デル(VTL)、及び、(E4)声道形状パラメータl
1,l2に基づく話者正規化モデル(l1,l2)の4種の
音響モデルを用い認識を行った。
の話者の音声データを用いて公知のEM(Estimation-M
aximum)アルゴリズムにより学習したモデルである。声
道形状パラメータl1,l2に基づく話者正規化において
は、上述の方法により作成した正規化対象話者から標準
話者への周波数ワーピング関数を用いて、各話者毎に音
声の正規化を行った上でモデルの学習及び認識を行っ
た。声道長に基づく話者正規化も同様に、上述した線形
変換により各話者毎に音声の正規化を行った上でモデル
の学習及び認識を行った。話者クラスタモデルは、声道
形状パラメータ(l1,l2)間のユークリッド距離を用
いて5クラスタに分割を行い、その結果に基づき学習し
たモデルである。なお、認識の際の話者クラスタ選択も
声道形状パラメータ(l1,l2)を基に行っている。ま
た、VFSによる話者適応モデルについては、平滑化制
御を行い数種の適応文数を用い話者適応を行った。な
お、上記(E2)−(E4)のモデルについては、学習
時に男性モデル(E3)を初期モデルとし、学習後の各
正規分布の分散が学習前より小さくならぬように制御を
行った上でモデルの学習を行った。
を対象に、声道形状パラメータに基づく周波数ワーピン
グの前後での母音/a/のフォルマント周波数(F1−
F3)の分布の変化を示した。この結果、特に、フォル
マント周波数F2において顕著に見られるように、周波
数ワーピングによりフォルマント周波数の分散が小さく
なっており、話者正規化が有効に機能している様子が見
られる。
正規化方法の評価を行った。実験の結果得られた音素認
識率を表2に示す。
く話者正規化を行うことで、音素認識率76.2%の認
識性能が得られた。これは、男性モデルを用いた際の誤
認識の約17%の削減に相当し、適応データ20文を用
いてVFS法により話者適応を行ったモデルを上回る認
識性能である。今回の実験に用いた、声道形状の特徴量
の推定手法においては、2母音の音声データのみから声
道形状の推定を行うため、認識時にも少量の適応データ
による話者適応が可能であり、高速な話者適応が実現可
能である。
形態によれば、2母音のフォルマント周波数から抽出さ
れた、声道形状の特徴量と、音声の生成モデルから周波
数ワーピング関数を生成できるため少量の音声データに
基づく話者正規化が可能となる。また、尤度に基づく周
波数ワーピング関数の選択法(従来例)のように予め周
波数ワーピング関数の形状を指定する必要がないため、
より詳細な周波数ワーピング関数を生成できる。このた
め、本実施形態の方法を基に作成した周波数ワーピング
関数を用いることで、高速かつ性能の高い話者適応が実
現可能である。さらには、音声認識時に、認識すべき音
声信号データに対して、対応する周波数ワーピング関数
を用いて話者正規化した後特徴抽出し、話者正規化しか
つ学習されたHMMを用いて音声認識するので、従来例
に比較してより高い音声認識率で音声認識することがで
きる。
ことができる人間の声道形状に関する変形された前田モ
デルを示す図である。この変形された前田モデルは、例
えば、従来技術文献5「Galvan,”Etudes dans le cadr
e de l'inversion acoustico-articulatoire: Ameliora
tion d'un modele articulatoire, normalisation dulo
cuteur et recuperation du lieu de constriction des
plosives", These de l'Institut National Polytechn
ique de Grenoble Specialite Sciences Congnitives,
Avril, 1997」において開示されている。声道の各位置
における幅を示す声道断面積のパラメータz1,z2,
…,z25は次式で表される。
の制御位置、tx及びtyは唇の制御位置を示す。また、
a1,1,…,a25,5及びb1,…,b25はモデル係数であ
る。このモデルを使用することにより、人間の声道に近
い近似モデルを仮定することができる。
る第2の実施形態である音声認識装置の構成を示すブロ
ック図である。声道形状の違いが各話者の発声する音声
に与える影響は、音素の違い等、発声される音声により
大きく異なると考えられるが、第1の実施形態では、そ
れらの違いを考慮せず各話者に対して単一の周波数ワー
ピング関数を用意して話者正規化を行っている。これに
対して、第2の実施形態では、各話者に対して、音響的
特徴の類似した所定の類似音素環境毎の複数の周波数ワ
ーピング関数を用意して、周波数ワーピングを行ない、
話者正規化学習及び音素認識時に、上記類似音素環境毎
に、異なる周波数ワーピング関数を用いた音響分析結果
を用いて尤度の計算を行なうものである。この周波数ワ
ーピング関数を用意する際には、次の類似音素環境毎に
周波数ワーピング関数を用意する。(a)各母音別、
(b)各音素別、(c)HM網の状態別、すなわち、出
力確率密度分布別、及び、(d)上記(c)HM網の出
力確率密度分布別のうちで音響的な特徴が似通っている
と予想される出力確率密度分布で、同一の周波数ワーピ
ング関数を共有する。このように、類似音素環境に応じ
て周波数ワーピング関数を用意することにより、話者正
規化に使用する周波数ワーピング関数の数や、出力確率
密度分布と周波数ワーピング関数との対応づけを行なう
ことが可能である。
1の実施形態と異なるのは以下の点である。 (a)周波数ワーピング関数メモリ25に代えて、各学
習話者及び各類似音素環境毎の周波数ワーピング関数を
記憶する周波数ワーピング関数メモリ25aを備える。 (b)標準話者フォルマント周波数メモリ26に代え
て、各類似音素環境毎の標準話者のフォルマント周波数
を予め記憶する標準話者フォルマント周波数メモリ26
aを備える。 (c)周波数ワーピング関数メモリ27aに代えて、各
認識話者及び各類似音素環境毎の周波数ワーピング関数
を記憶する周波数ワーピング関数メモリ27aを備え
る。 (d)上述の類似音素環境の具体的な種類を予め記憶す
る類似音素環境テーブルメモリ41をさらに備える。 (e)周波数ワーピング関数メモリ27aに記憶された
各認識話者及び各類似音素環境毎の周波数ワーピング関
数と、HM網メモリ24内のHMMの各状態との間の対
応関係(当該対応関係は、後述する周波数ワーピング関
数生成部11aによって生成される。)を記憶する、H
MMの状態と周波数ワーピング関数との対応テーブルメ
モリ(以下、対応テーブルメモリという。)42をさら
に備える。 (f)話者正規化処理部12に代えて、類似音素環境テ
ーブルメモリ41を参照して各学習話者及び各類似音素
環境毎に詳細後述する話者正規化処理を実行する話者正
規化処理部12aを備える。 (g)周波数ワーピング関数生成部11に代えて、類似
音素環境テーブルメモリ41及び標準話者フォルマント
周波数メモリ26aを参照して詳細後述する周波数ワー
ピング関数生成処理を実行する周波数ワーピング関数生
成部11aを備える。 (h)特徴抽出部3に代えて、周波数ワーピング関数メ
モリ27aを参照して特徴抽出処理を実行する特徴抽出
部3aを備える。 (i)音素照合部5に代えて、対応テーブルメモリ42
を参照して類似音素環境に応じた音素照合処理を実行す
る音素照合部5を備える。 これらの処理部の動作の詳細は後述する。
に依存しない1つの周波数ワーピング関数を推定してい
たが、第2の実施形態では、母音別、音素別などの類似
音素環境に依存した複数の周波数ワーピング関数を推定
する。本実施形態では、図19に示す変形された前田モ
デルを用いる。
て、詳細に説明する。図20において、話者正規化処理
部12は、さらに類似音素環境テーブルメモリ41を参
照して、さらに各類似音素環境毎に図4の話者正規化処
理を実行し、すなわち、各学習話者及び各類似音素環境
毎に周波数ワーピング関数を推定して周波数ワーピング
関数メモリ25aに記憶し、次いで、ステップS22及
びS23の処理を同様に実行する。ここで、ステップS
23におけるHM網の生成においては、当然、類似音素
環境毎に対応づけられたHMMを備えたHM網を生成し
てHM網メモリ24に格納する。
力される声道形状パラメータに基づいて、類似音素環境
テーブルメモリ41及び標準話者フォルマント周波数メ
モリ26aを参照して、各認識話者及び各類似音素環境
毎に、第1の実施形態と同様に、周波数ワーピング関数
を生成して周波数ワーピング関数メモリ27aに格納す
るとともに、当該周波数ワーピング関数の生成時に、生
成される周波数ワーピング関数と、類似音素環境との対
応関係の情報(すなわち、どの周波数ワーピング関数が
どの類似音素環境に対応しているかの情報)を生成して
対応テーブルメモリ42に格納する。なお、類似音素環
境がHMMの状態又は出力確率密度分布であるときは、
周波数ワーピング関数生成部11aは、さらにHM網メ
モリ24を参照して、HMMの状態又は出力確率密度分
布と、生成した周波数ワーピング関数との対応関係の情
報を生成して対応テーブルメモリ42に格納する。
周波数ワーピング関数メモリ27aに格納されている、
対応する認識話者であって複数の類似音素環境に対応す
る複数の周波数ワーピング関数を用いてそれぞれ周波数
ワーピングを行なった後、音響分析を行ない、その結果
得られた複数の音響的特徴パラメータをバッファメモリ
4を介して音素照合部5aに送る。これに応答して、音
素照合部5aは、第1の実施形態と同様の処理を実行
し、ここで、音素照合スコアを計算する際に、対応テー
ブルメモリ42を参照して、類似音素環境と周波数ワー
ピング関数との対応に注目し、類似音素環境毎の周波数
ワーピング関数で計算された複数の音響的特徴パラメー
タ毎にHMMの各状態の出力確率を計算して、複数の出
力確率に基づいて最尤の尤度(又はnベストの尤度)を
計算して音素認識処理を行う。
に対する周波数ワーピング関数で計算された複数の音響
的特徴パラメータ毎にHMMの各状態の出力確率を計算
して、複数の出力確率に基づいて尤度を計算しているの
で、音素認識処理における自由度を広げることができ、
より近接した類似音素環境に対応する周波数ワーピング
関数を用いて特徴抽出した音響的特徴パラメータを用い
て音素認識することができる。これにより、音素認識率
を従来例及び第1の実施形態に比較して大幅に向上させ
ることができる。
周波数ワーピング関数の一例を示すグラフであって、話
者正規化された周波数ワーピング後の周波数に対する入
力音声の周波数のグラフであり、図22乃至図25は、
第2の実施形態で用いる各母音の周波数ワーピング関数
の一例を示すグラフであって、話者正規化された周波数
ワーピング後の周波数に対する入力音声の周波数のグラ
フである。
ング関数推定方法を用いて、本出願人が所有する音声デ
ータベースに基づいて、合計148名の日本人男性目標
話者に対して関数推定を実行した。その結果を示したも
のが図21である。各曲線が個々の目標話者に対応して
いる。周波数ワーピングの緩やかな非線形的性質が明確
に表れており、ワーピング曲線の平均勾配が声道長VT
(=l1+l2)に関係している。従来技術文献1に記述
されたフォルマントのスケーリング結果の非一様性は、
話者間の周波数ワーピングにおける音素依存性を明確に
示唆している。VTモデル及び計算ツールを与えること
により、周波数ワーピング関数におけるこうした音素依
存性をシミュレーションすることができる。
/a/、/i/、/u/、/e/に関する、目標話者で
ある日本人男性148名の4組の周波数ワーピング関数
を示したものである。
クによる、話者正規化装置の評価実験とその結果につい
て説明する。実験条件は、表3に示した通りである。
章音声データベースを使用している。2タイプのテスト
話者セットに従って、このデータベースの話者148名
の中から、(1)無作為の話者10名(ランダム)、
(2)性別依存型HMMを使用して男性話者148名全
員の音声データに関して行った音声認識実験において精
度が最も悪かった話者10名(ワースト10)を選択す
る。残りの話者128名のデータが、話者正規化HMM
の学習に使用される。こうしたHMMを、128名の男
性話者が発話する50の日本語文章(合計2774音
素)について学習した。
ズムを使用して、音素対文法として表される日本語音節
の制約を用いて実行する。試験データは、各話者につき
50文章(合計2905個の音素)で構成されている。
使用して取得した音素誤認識率を示している。5ガウス
混合を有する話者正規化されたHMMが、以下の話者正
規化方法を使用して学習されている。(1)性別依存モ
デル(GDモデル)、(2)声道長正規化モデル(VT
LNモデル)、(3)音素独立話者正規化モデル(L1
L2 PIモデル)及び(4)音素依存話者正規化モデ
ル(L1L2 PDモデル)。
ーピング関数は、次式で表される。
Ltarget×f ここで、VTLtargetは目標話者の声道長であり、Av
e(VTLtraining)は128人の学習話者の声道長の
平均値である。また、周波数ワーピング関数及び話者正
規化の方法は、基準話者の音響特性に強く影響される。
こうした要因を低減するため、本実験では、類似音素環
境毎に学習話者128名の声道断面積関数から音声のフ
ォルマント周波数を求め、その平均値と正規化しようと
する話者のフォルマント周波数が対応するように、周波
数ワーピング関数を求めている。この実験結果を表4に
示す。
々な話者正規化方法が、GDモデルに比べて音素誤認識
率を8.5−9.5%低減していることを示している。
最大の誤認識の低減をもたらしているのは、音素依存話
者正規化方法(L1L2 PDモデル)であり、これは
音声誤認識率を、テストセット「ランダム」では6.3
%、テストセット「ワースト10」では11%低減させ
ている。
案方法と、従来のデータ駆動式の話者適応化方法とを比
較した。公知の移動ベクトル場平滑化法(VFS法)に
よって学習された話者適応化モデルを使用して、同じ音
素認識実験を行った。その実験結果を表5に示す。
音素誤認識率を示している。表5から明らかなように、
VFS法では、音声データ量の変更により適応化を行っ
て学習された話者適応化モデルを実験に使用した。実験
結果は、本発明では、話者正規化に使用する声道パラメ
ータの推定には各話者2つの母音しか必要としないが、
3文程度の適応用文章を用いVFS法により話者適応を
行ったモデルと同等の性能を得られることを示してい
る。
した声道形状寸法パラメータを使用する音声認識のため
の話者正規化方法を用いた話者正規化装置を開示してい
る。ここで、話者の音響特性の正規化には、基準話者の
声道モデルを変形して概算される各話者の声道の幾何学
的形状を有するフォルマント周波数に基づいて推定され
る非線形周波数ワーピング関数を使用する。当該正規化
方法は、さらに、声道モデルのパラメータを操作するこ
とにより、個々の音素特有の詳細な非線形周波数ワーピ
ング関数を提供する。日本語の音素認識実験の結果は、
我々の新しい話者正規化方法が、GDモデルに比べて音
素誤認識率を9.5%低減させることを示している。ま
た、本方法は、従来例のデータ駆動式話者適応化方法及
び正規化方法よりも性能において卓越し、一方で話者正
規化パラメータの推定に必要な適応化のデータ量を大幅
に低減させている。
音素環境毎の周波数ワーピング関数を用いて音素認識す
ることにより、大幅に改善された音素認識率を得ること
ができるとともに、話者正規化パラメータの推定に必要
な適応化のデータ量を大幅に低減させることができる。
1記載の話者正規化処理装置によれば、複数の正規化対
象話者の音声波形データとそれに対応するテキストデー
タを記憶する第1の記憶装置と、標準話者の声道面積関
数に基づいて決められた標準話者のフォルマント周波数
を記憶する第2の記憶装置と、上記第1の記憶装置に記
憶された各正規化対象話者の音声波形データに基づい
て、各正規化対象話者の声道の解剖学的形状である声道
形状の特徴量を、上記標準話者の声道モデルに基づいて
予め決められた声道形状パラメータとフォルマント周波
数との間の対応関係を参照して推定する推定手段と、上
記推定手段によって推定された各正規化対象話者の声道
形状の特徴量と、上記標準話者の声道形状の特徴量とに
基づいて、上記標準話者の声道形状の特徴量を変化させ
ることにより、各正規化対象話者の声道面積関数を推定
し、推定された各正規化対象話者の声道面積関数に基づ
いて各正規化対象話者が発声する音声のフォルマント周
波数を推定し、周波数ワーピング後の各正規化対象話者
の音声のフォルマント周波数が上記第2の記憶装置に記
憶された標準話者の対応するフォルマント周波数と一致
するように入力音声周波数を変換して周波数ワーピング
するための、入力音声周波数と周波数ワーピング後の周
波数の対応関係を示す周波数ワーピング関数を生成する
関数生成手段とを備える。従って、発声音声のフォルマ
ント周波数から抽出された、声道形状の特徴量と、音声
の生成モデルから周波数ワーピング関数を生成できるた
め少量の音声データに基づく話者正規化が可能となる。
また、尤度に基づく周波数ワーピング関数の選択法(従
来例)のように予め周波数ワーピング関数の形状を指定
する必要がないため、より詳細な周波数ワーピング関数
を生成できる。このため、本発明の方法を基に作成した
周波数ワーピング関数を用いることで、高速かつ性能の
高い話者適応が実現可能である。さらには、音声認識時
に、認識すべき音声信号データに対して、対応する周波
数ワーピング関数を用いて話者正規化した後特徴抽出
し、話者正規化しかつ学習されたHMMを用いて音声認
識するので、従来例に比較してより高い音声認識率で音
声認識することができる。
規化処理装置によれば、複数の学習話者の音声波形デー
タとそれに対応するテキストデータを記憶する第1の記
憶装置と、標準話者の声道面積関数に基づいて決められ
た標準話者のフォルマント周波数を記憶する第2の記憶
装置と、上記第1の記憶装置に記憶された各学習話者の
音声波形データに基づいて、各学習話者の声道の解剖学
的形状である声道形状の特徴量を、上記標準話者の声道
モデルに基づいて予め決められた声道形状パラメータと
フォルマント周波数との間の対応関係を参照して推定す
る第1の推定手段と、上記第1の推定手段によって推定
された各学習話者の声道形状の特徴量と、上記標準話者
の声道形状の特徴量とに基づいて、上記標準話者の声道
形状の特徴量を変化させることにより、各学習話者の声
道面積関数を推定し、推定された各学習話者の声道面積
関数に基づいて各学習話者が発声する音声のフォルマン
ト周波数を推定し、周波数ワーピング後の各学習話者の
音声のフォルマント周波数が上記第2の記憶装置に記憶
された標準話者の対応するフォルマント周波数と一致す
るように入力音声周波数を変換して周波数ワーピングす
るための、入力音声周波数と周波数ワーピング後の周波
数の対応関係を示す周波数ワーピング関数を生成する第
1の関数生成手段と、上記第1の記憶装置に記憶された
各学習話者の音声波形データに対して、上記第1の関数
生成手段によって生成された各学習話者の周波数ワーピ
ング関数を用いて周波数ワーピング処理を実行して話者
正規化した後、話者正規化後の音声波形データから各学
習話者の所定の音響的特徴パラメータを抽出する第1の
抽出手段と、上記第1の抽出手段によって抽出された各
学習話者の音響的特徴パラメータと、上記第1の記憶装
置に記憶されたテキストデータとに基づいて、所定の学
習アルゴリズムを用いて、所定の初期の隠れマルコフモ
デルを学習することにより、正規化された隠れマルコフ
モデルを生成する学習手段とを備える。従って、発声音
声のフォルマント周波数から抽出された、声道形状の特
徴量と、音声の生成モデルから周波数ワーピング関数を
生成できるため少量の音声データに基づく話者正規化が
可能となる。また、尤度に基づく周波数ワーピング関数
の選択法(従来例)のように予め周波数ワーピング関数
の形状を指定する必要がないため、より詳細な周波数ワ
ーピング関数を生成できる。このため、本発明の方法を
基に作成した周波数ワーピング関数を用いることで、高
速かつ性能の高い話者適応が実現可能である。さらに
は、音声認識時に、認識すべき音声信号データに対し
て、対応する周波数ワーピング関数を用いて話者正規化
した後特徴抽出し、話者正規化しかつ学習されたHMM
を用いて音声認識するので、従来例に比較してより高い
音声認識率で音声認識することができる。
識装置によれば、請求項2乃至4のうち1つに記載の話
者正規化処理装置を備え、上記話者正規化処理装置によ
って生成された隠れマルコフモデルを用いて、入力され
た認識話者の発声音声を音声認識する音声認識装置であ
って、入力される認識話者の学習用音声波形データに基
づいて、認識話者の声道の解剖学的形状である声道形状
の特徴量を、上記標準話者の声道モデルに基づいて予め
決められた声道形状パラメータとフォルマント周波数と
の間の対応関係を参照して推定する第2の推定手段と、
上記第2の推定手段によって推定された認識話者の声道
形状の特徴量と、上記標準話者の声道形状の特徴量とに
基づいて、上記標準話者の声道形状の特徴量を変化させ
ることにより、各認識話者の声道面積関数を推定し、推
定された各認識話者の声道面積関数に基づいて各認識話
者が発声する音声のフォルマント周波数を推定し、周波
数ワーピング後の各認識話者の音声のフォルマント周波
数が上記第2の記憶装置に記憶された標準話者の対応す
るフォルマント周波数と一致するように入力音声周波数
を変換して周波数ワーピングするための、入力音声周波
数と周波数ワーピング後の周波数の対応関係を示す認識
話者の周波数ワーピング関数を生成する第2の関数生成
手段と、上記第2の関数生成手段によって生成された認
識話者の周波数ワーピング関数を記憶する第3の記憶装
置と、認識すべき認識話者の発声音声の音声波形データ
に対して、上記第3の記憶装置に記憶された認識話者の
周波数ワーピング関数を用いて周波数ワーピング処理を
実行して話者正規化した後、話者正規化後の音声波形デ
ータから認識話者の所定の音響的特徴パラメータを抽出
する第2の抽出手段と、上記第2の抽出手段によって抽
出された音響的特徴パラメータに基づいて、上記話者正
規化処理装置によって生成された隠れマルコフモデルを
用いて、上記入力された認識話者の発声音声を音声認識
して音声認識結果を出力する音声認識手段とを備える。
従って、音声認識時に、認識すべき音声信号データに対
して、対応する周波数ワーピング関数を用いて話者正規
化した後特徴抽出し、話者正規化しかつ学習されたHM
Mを用いて音声認識するので、従来例に比較してより高
い音声認識率で音声認識することができる。
規化処理装置によれば、複数の正規化対象話者の音声波
形データとそれに対応するテキストデータを記憶する第
1の記憶装置と、標準話者の声道面積関数に基づいて決
められた標準話者のフォルマント周波数を記憶する第2
の記憶装置と、上記第1の記憶装置に記憶された各正規
化対象話者の音声波形データに基づいて、各正規化対象
話者の声道の解剖学的形状である声道形状の特徴量を、
上記標準話者の声道モデルに基づいて予め決められた声
道形状パラメータとフォルマント周波数との間の対応関
係を参照して、音響的特徴の類似した所定の類似音素環
境毎に推定する推定手段と、上記推定手段によって推定
された各正規化対象話者の類似音素環境毎の声道形状の
特徴量と、上記標準話者の声道形状の特徴量とに基づい
て、上記標準話者の声道形状の特徴量を変化させること
により、各正規化対象話者の声道面積関数を類似音素環
境毎に推定し、推定された各正規化対象話者の類似音素
環境毎の声道面積関数に基づいて各正規化対象話者が発
声する音声のフォルマント周波数を類似音素環境毎に推
定し、周波数ワーピング後の各正規化対象話者の音声の
フォルマント周波数が上記第2の記憶装置に記憶された
標準話者の対応するフォルマント周波数と一致するよう
に入力音声周波数を変換して周波数ワーピングするため
の、入力音声周波数と周波数ワーピング後の周波数の対
応関係を示す周波数ワーピング関数を類似音素環境毎に
生成する関数生成手段とを備える。従って、発声音声の
フォルマント周波数から抽出された、声道形状の特徴量
と、音声の生成モデルから周波数ワーピング関数を生成
できるため少量の音声データに基づく話者正規化が可能
となる。また、尤度に基づく周波数ワーピング関数の選
択法(従来例)のように予め周波数ワーピング関数の形
状を指定する必要がないため、より詳細な周波数ワーピ
ング関数を生成できる。このため、本発明の方法を基に
作成した周波数ワーピング関数を用いることで、高速か
つ性能の高い話者適応が実現可能である。さらには、音
声認識時に、認識すべき音声信号データに対して、対応
する周波数ワーピング関数を用いて話者正規化した後特
徴抽出し、話者正規化しかつ学習されたHMMを用いて
音声認識するので、従来例に比較してより高い音声認識
率で音声認識することができる。また、類似音素環境毎
に周波数ワーピング関数を生成しているので、音声認識
時に、自由度を広げることができ、より近接した類似音
素環境に対応する周波数ワーピング関数を用いて特徴抽
出した音響的特徴パラメータを用いて音素認識すること
ができる。これにより、音素認識率を従来例及び第1の
実施形態に比較して大幅に向上させることができる。
正規化処理装置によれば、複数の学習話者の音声波形デ
ータとそれに対応するテキストデータを記憶する第1の
記憶装置と、標準話者の声道面積関数に基づいて決めら
れた標準話者の音響的特徴の類似した所定の類似音素環
境毎のフォルマント周波数を記憶する第2の記憶装置
と、上記第1の記憶装置に記憶された各学習話者の音声
波形データに基づいて、各学習話者の声道の解剖学的形
状である声道形状の特徴量を、上記標準話者の声道モデ
ルに基づいて予め決められた声道形状パラメータとフォ
ルマント周波数との間の対応関係を参照して類似音素環
境毎に推定する第1の推定手段と、上記第1の推定手段
によって推定された各学習話者の類似音素環境毎の声道
形状の特徴量と、上記標準話者の声道形状の特徴量とに
基づいて、上記標準話者の声道形状の特徴量を変化させ
ることにより、各学習話者の声道面積関数を類似音素環
境毎に推定し、推定された各学習話者の類似音素環境毎
の声道面積関数に基づいて各学習話者が発声する音声の
フォルマント周波数を類似音素環境毎に推定し、周波数
ワーピング後の各学習話者の音声のフォルマント周波数
が上記第2の記憶装置に記憶された標準話者の対応する
フォルマント周波数と一致するように入力音声周波数を
変換して周波数ワーピングするための、入力音声周波数
と周波数ワーピング後の周波数の対応関係を示す周波数
ワーピング関数を類似音素環境毎に生成する第1の関数
生成手段と、上記第1の記憶装置に記憶された各学習話
者の音声波形データに対して、上記第1の関数生成手段
によって生成された各学習話者の類似音素環境毎の周波
数ワーピング関数を用いて周波数ワーピング処理を実行
して話者正規化した後、話者正規化後の音声波形データ
から各学習話者の所定の音響的特徴パラメータを類似音
素環境毎に抽出する第1の抽出手段と、上記第1の抽出
手段によって抽出された各学習話者の類似音素環境毎の
音響的特徴パラメータと、上記第1の記憶装置に記憶さ
れたテキストデータとに基づいて、所定の学習アルゴリ
ズムを用いて、所定の初期の隠れマルコフモデルを学習
することにより、正規化された隠れマルコフモデルを生
成する学習手段とを備える。従って、発声音声のフォル
マント周波数から抽出された、声道形状の特徴量と、音
声の生成モデルから周波数ワーピング関数を生成できる
ため少量の音声データに基づく話者正規化が可能とな
る。また、尤度に基づく周波数ワーピング関数の選択法
(従来例)のように予め周波数ワーピング関数の形状を
指定する必要がないため、より詳細な周波数ワーピング
関数を生成できる。このため、本発明の方法を基に作成
した周波数ワーピング関数を用いることで、高速かつ性
能の高い話者適応が実現可能である。さらには、音声認
識時に、認識すべき音声信号データに対して、対応する
周波数ワーピング関数を用いて話者正規化した後特徴抽
出し、話者正規化しかつ学習されたHMMを用いて音声
認識するので、従来例に比較してより高い音声認識率で
音声認識することができる。また、類似音素環境毎に周
波数ワーピング関数を生成しているので、音声認識時
に、自由度を広げることができ、より近接した類似音素
環境に対応する周波数ワーピング関数を用いて特徴抽出
した音響的特徴パラメータを用いて音素認識することが
できる。これにより、音素認識率を従来例及び第1の実
施形態に比較して大幅に向上させることができる。
の音声認識装置によれば、請求項7乃至9のうち1つに
記載の話者正規化処理装置を備え、上記話者正規化処理
装置によって生成された隠れマルコフモデルを用いて、
入力された認識話者の発声音声を音声認識する音声認識
装置であって、入力される認識話者の学習用音声波形デ
ータに基づいて、認識話者の声道の解剖学的形状である
声道形状の特徴量を、上記標準話者の声道モデルに基づ
いて予め決められた声道形状パラメータとフォルマント
周波数との間の対応関係を参照して類似音素環境毎に推
定する第2の推定手段と、上記第2の推定手段によって
推定された認識話者の類似音素環境毎の声道形状の特徴
量と、上記標準話者の声道形状の特徴量とに基づいて、
上記標準話者の声道形状の特徴量を変化させることによ
り、各認識話者の声道面積関数を類似音素環境毎に推定
し、推定された各認識話者の類似音素環境毎の声道面積
関数に基づいて各認識話者が発声する音声のフォルマン
ト周波数を類似音素環境毎に推定し、周波数ワーピング
後の各認識話者の音声のフォルマント周波数が上記第2
の記憶装置に記憶された標準話者の対応するフォルマン
ト周波数と一致するように入力音声周波数を変換して周
波数ワーピングするための、入力音声周波数と周波数ワ
ーピング後の周波数の対応関係を示す認識話者の周波数
ワーピング関数を類似音素環境毎に生成するとともに、
類似音素環境と周波数ワーピング関数との間の対応関係
の情報を生成する第2の関数生成手段と、上記第2の関
数生成手段によって生成された認識話者の類似音素環境
毎の周波数ワーピング関数を記憶する第3の記憶装置
と、上記第2の関数生成手段によって生成された認識話
者の類似音素環境と周波数ワーピング関数との間の対応
関係の情報を記憶する第4の記憶装置と、認識すべき認
識話者の発声音声の音声波形データに対して、上記第3
の記憶装置に記憶された認識話者の類似音素環境毎の周
波数ワーピング関数を用いて周波数ワーピング処理を実
行して話者正規化した後、話者正規化後の音声波形デー
タから認識話者の所定の音響的特徴パラメータを類似音
素環境毎に抽出する第2の抽出手段と、上記第2の抽出
手段によって抽出された類似音素環境毎の音響的特徴パ
ラメータに基づいて、第4の記憶装置に記憶された認識
話者の類似音素環境と周波数ワーピング関数との間の対
応関係の情報を参照して、上記話者正規化処理装置によ
って生成された隠れマルコフモデルを用いて、上記入力
された認識話者の発声音声を音声認識して音声認識結果
を出力する音声認識手段とを備える。従って、音声認識
時に、認識すべき音声信号データに対して、対応する周
波数ワーピング関数を用いて話者正規化した後特徴抽出
し、話者正規化しかつ学習されたHMMを用いて音声認
識するので、従来例に比較してより高い音声認識率で音
声認識することができる。また、類似音素環境毎に周波
数ワーピング関数を生成しているので、音声認識時に、
自由度を広げることができ、より近接した類似音素環境
に対応する周波数ワーピング関数を用いて特徴抽出した
音響的特徴パラメータを用いて音素認識することができ
る。これにより、音素認識率を従来例及び第1の実施形
態に比較して大幅に向上させることができる。
装置の構成を示すブロック図である。
る声道形状推定処理を示すフローチャートである。
って実行される周波数ワーピング関数生成処理を示すフ
ローチャートである。
れる話者正規化処理を示すフローチャートである。
抽出処理を示すフローチャートである。
処理を示すフローチャートである。
り、(b)はそれをモデル化した、声道形状の断面SM
mのモデルSMm’を示す断面図である。
声道形状パラメータの伸縮率空間とフォルマント周波数
空間のマッピング手法を示す図であって、(a)は声道
形状パラメータの伸縮率空間を示す図であり、(b)は
フォルマント周波数空間を示す図である。
声道形状パラメータの推定方法を示す図であって、
(a)は声道形状パラメータの伸縮率空間を示す図であ
り、(b)はフォルマント周波数空間を示す図である。
声道形状推定処理で用いる声道形状の声道面積関数を示
す断面図であり、(b)はその声道形状の声道の断面n
−1から断面nまでの声道断面積A(n)を示す断面積
である。
推定処理で用いる声道モデルの等価回路を示す回路図で
ある。
おいて用いられる声道モデルを用いた周波数ワーピング
関数の推定方法を示す、入力音声の周波数に対する周波
数ワーピング後の周波数のグラフである。
波数ワーピング処理を示すグラフであって、(a)は周
波数ワーピング関数の平面のグラフであり、(b)はF
FT平面のグラフである。
ング関数の一例を示すグラフであって、入力音声の周波
数に対する話者正規化された周波数ワーピング後の周波
数のグラフである。
周波数ワーピング前のフォルマント周波数(母音/a/
のとき)別の話者数の分布を示すグラフである。
周波数ワーピング後のフォルマント周波数(母音/a/
のとき)別の話者数の分布を示すグラフである。
数の選択方法を用いる話者正規化処理装置の構成を示す
ブロック図である。
すグラフである。
る声道形状に関する変形された前田モデルを示す図であ
る。
識装置の構成を示すブロック図である。
ーピング関数の一例を示すグラフであって、話者正規化
された周波数ワーピング後の周波数に対する入力音声の
周波数のグラフである。
数ワーピング関数の一例を示すグラフであって、話者正
規化された周波数ワーピング後の周波数に対する入力音
声の周波数のグラフである。
数ワーピング関数の一例を示すグラフであって、話者正
規化された周波数ワーピング後の周波数に対する入力音
声の周波数のグラフである。
数ワーピング関数の一例を示すグラフであって、話者正
規化された周波数ワーピング後の周波数に対する入力音
声の周波数のグラフである。
数ワーピング関数の一例を示すグラフであって、話者正
規化された周波数ワーピング後の周波数に対する入力音
声の周波数のグラフである。
ーブルメモリ、 SW1…スイッチ。
Claims (10)
- 【請求項1】 複数の正規化対象話者の音声波形データ
とそれに対応するテキストデータを記憶する第1の記憶
装置と、 標準話者の声道面積関数に基づいて決められた標準話者
のフォルマント周波数を記憶する第2の記憶装置と、 上記第1の記憶装置に記憶された各正規化対象話者の音
声波形データに基づいて、各正規化対象話者の声道の解
剖学的形状である声道形状の特徴量を、上記標準話者の
声道モデルに基づいて予め決められた声道形状パラメー
タとフォルマント周波数との間の対応関係を参照して推
定する推定手段と、 上記推定手段によって推定された各正規化対象話者の声
道形状の特徴量と、上記標準話者の声道形状の特徴量と
に基づいて、上記標準話者の声道形状の特徴量を変化さ
せることにより、各正規化対象話者の声道面積関数を推
定し、推定された各正規化対象話者の声道面積関数に基
づいて各正規化対象話者が発声する音声のフォルマント
周波数を推定し、周波数ワーピング後の各正規化対象話
者の音声のフォルマント周波数が上記第2の記憶装置に
記憶された標準話者の対応するフォルマント周波数と一
致するように入力音声周波数を変換して周波数ワーピン
グするための、入力音声周波数と周波数ワーピング後の
周波数の対応関係を示す周波数ワーピング関数を生成す
る関数生成手段とを備えたことを特徴とする話者正規化
処理装置。 - 【請求項2】 複数の学習話者の音声波形データとそれ
に対応するテキストデータを記憶する第1の記憶装置
と、 標準話者の声道面積関数に基づいて決められた標準話者
のフォルマント周波数を記憶する第2の記憶装置と、 上記第1の記憶装置に記憶された各学習話者の音声波形
データに基づいて、各学習話者の声道の解剖学的形状で
ある声道形状の特徴量を、上記標準話者の声道モデルに
基づいて予め決められた声道形状パラメータとフォルマ
ント周波数との間の対応関係を参照して推定する第1の
推定手段と、 上記第1の推定手段によって推定された各学習話者の声
道形状の特徴量と、上記標準話者の声道形状の特徴量と
に基づいて、上記標準話者の声道形状の特徴量を変化さ
せることにより、各学習話者の声道面積関数を推定し、
推定された各学習話者の声道面積関数に基づいて各学習
話者が発声する音声のフォルマント周波数を推定し、周
波数ワーピング後の各学習話者の音声のフォルマント周
波数が上記第2の記憶装置に記憶された標準話者の対応
するフォルマント周波数と一致するように入力音声周波
数を変換して周波数ワーピングするための、入力音声周
波数と周波数ワーピング後の周波数の対応関係を示す周
波数ワーピング関数を生成する第1の関数生成手段と、 上記第1の記憶装置に記憶された各学習話者の音声波形
データに対して、上記第1の関数生成手段によって生成
された各学習話者の周波数ワーピング関数を用いて周波
数ワーピング処理を実行して話者正規化した後、話者正
規化後の音声波形データから各学習話者の所定の音響的
特徴パラメータを抽出する第1の抽出手段と、 上記第1の抽出手段によって抽出された各学習話者の音
響的特徴パラメータと、上記第1の記憶装置に記憶され
たテキストデータとに基づいて、所定の学習アルゴリズ
ムを用いて、所定の初期の隠れマルコフモデルを学習す
ることにより、正規化された隠れマルコフモデルを生成
する学習手段とを備えたことを特徴とする話者正規化処
理装置。 - 【請求項3】 請求項2記載の話者正規化処理装置にお
いて、 上記声道形状の特徴量は、話者の声道の口腔側の第1の
長さと、その咽頭腔側の第2の長さとであることを特徴
とする話者正規化処理装置。 - 【請求項4】 請求項2又は3記載の話者正規化処理装
置において、 上記音響的特徴パラメータは、メル周波数ケプストラム
係数であることを特徴とする話者正規化処理装置。 - 【請求項5】 請求項2乃至4のうち1つに記載の話者
正規化処理装置を備え、 上記話者正規化処理装置によって生成された隠れマルコ
フモデルを用いて、入力された認識話者の発声音声を音
声認識する音声認識装置であって、 入力される認識話者の学習用音声波形データに基づい
て、認識話者の声道の解剖学的形状である声道形状の特
徴量を、上記標準話者の声道モデルに基づいて予め決め
られた声道形状パラメータとフォルマント周波数との間
の対応関係を参照して推定する第2の推定手段と、 上記第2の推定手段によって推定された認識話者の声道
形状の特徴量と、上記標準話者の声道形状の特徴量とに
基づいて、上記標準話者の声道形状の特徴量を変化させ
ることにより、各認識話者の声道面積関数を推定し、推
定された各認識話者の声道面積関数に基づいて各認識話
者が発声する音声のフォルマント周波数を推定し、周波
数ワーピング後の各認識話者の音声のフォルマント周波
数が上記第2の記憶装置に記憶された標準話者の対応す
るフォルマント周波数と一致するように入力音声周波数
を変換して周波数ワーピングするための、入力音声周波
数と周波数ワーピング後の周波数の対応関係を示す認識
話者の周波数ワーピング関数を生成する第2の関数生成
手段と、 上記第2の関数生成手段によって生成された認識話者の
周波数ワーピング関数を記憶する第3の記憶装置と、 認識すべき認識話者の発声音声の音声波形データに対し
て、上記第3の記憶装置に記憶された認識話者の周波数
ワーピング関数を用いて周波数ワーピング処理を実行し
て話者正規化した後、話者正規化後の音声波形データか
ら認識話者の所定の音響的特徴パラメータを抽出する第
2の抽出手段と、 上記第2の抽出手段によって抽出された音響的特徴パラ
メータに基づいて、上記話者正規化処理装置によって生
成された隠れマルコフモデルを用いて、上記入力された
認識話者の発声音声を音声認識して音声認識結果を出力
する音声認識手段とを備えたことを特徴とする音声認識
装置。 - 【請求項6】 複数の正規化対象話者の音声波形データ
とそれに対応するテキストデータを記憶する第1の記憶
装置と、 標準話者の声道面積関数に基づいて決められた標準話者
のフォルマント周波数を記憶する第2の記憶装置と、 上記第1の記憶装置に記憶された各正規化対象話者の音
声波形データに基づいて、各正規化対象話者の声道の解
剖学的形状である声道形状の特徴量を、上記標準話者の
声道モデルに基づいて予め決められた声道形状パラメー
タとフォルマント周波数との間の対応関係を参照して、
音響的特徴の類似した所定の類似音素環境毎に推定する
推定手段と、 上記推定手段によって推定された各正規化対象話者の類
似音素環境毎の声道形状の特徴量と、上記標準話者の声
道形状の特徴量とに基づいて、上記標準話者の声道形状
の特徴量を変化させることにより、各正規化対象話者の
声道面積関数を類似音素環境毎に推定し、推定された各
正規化対象話者の類似音素環境毎の声道面積関数に基づ
いて各正規化対象話者が発声する音声のフォルマント周
波数を類似音素環境毎に推定し、周波数ワーピング後の
各正規化対象話者の音声のフォルマント周波数が上記第
2の記憶装置に記憶された標準話者の対応するフォルマ
ント周波数と一致するように入力音声周波数を変換して
周波数ワーピングするための、入力音声周波数と周波数
ワーピング後の周波数の対応関係を示す周波数ワーピン
グ関数を類似音素環境毎に生成する関数生成手段とを備
えたことを特徴とする話者正規化処理装置。 - 【請求項7】 複数の学習話者の音声波形データとそれ
に対応するテキストデータを記憶する第1の記憶装置
と、 標準話者の声道面積関数に基づいて決められた標準話者
の音響的特徴の類似した所定の類似音素環境毎のフォル
マント周波数を記憶する第2の記憶装置と、 上記第1の記憶装置に記憶された各学習話者の音声波形
データに基づいて、各学習話者の声道の解剖学的形状で
ある声道形状の特徴量を、上記標準話者の声道モデルに
基づいて予め決められた声道形状パラメータとフォルマ
ント周波数との間の対応関係を参照して類似音素環境毎
に推定する第1の推定手段と、 上記第1の推定手段によって推定された各学習話者の類
似音素環境毎の声道形状の特徴量と、上記標準話者の声
道形状の特徴量とに基づいて、上記標準話者の声道形状
の特徴量を変化させることにより、各学習話者の声道面
積関数を類似音素環境毎に推定し、推定された各学習話
者の類似音素環境毎の声道面積関数に基づいて各学習話
者が発声する音声のフォルマント周波数を類似音素環境
毎に推定し、周波数ワーピング後の各学習話者の音声の
フォルマント周波数が上記第2の記憶装置に記憶された
標準話者の対応するフォルマント周波数と一致するよう
に入力音声周波数を変換して周波数ワーピングするため
の、入力音声周波数と周波数ワーピング後の周波数の対
応関係を示す周波数ワーピング関数を類似音素環境毎に
生成する第1の関数生成手段と、 上記第1の記憶装置に記憶された各学習話者の音声波形
データに対して、上記第1の関数生成手段によって生成
された各学習話者の類似音素環境毎の周波数ワーピング
関数を用いて周波数ワーピング処理を実行して話者正規
化した後、話者正規化後の音声波形データから各学習話
者の所定の音響的特徴パラメータを類似音素環境毎に抽
出する第1の抽出手段と、 上記第1の抽出手段によって抽出された各学習話者の類
似音素環境毎の音響的特徴パラメータと、上記第1の記
憶装置に記憶されたテキストデータとに基づいて、所定
の学習アルゴリズムを用いて、所定の初期の隠れマルコ
フモデルを学習することにより、正規化された隠れマル
コフモデルを生成する学習手段とを備えたことを特徴と
する話者正規化処理装置。 - 【請求項8】 請求項7記載の話者正規化処理装置にお
いて、 上記声道形状の特徴量は、話者の声道の口腔側から、そ
の咽頭腔までの声道断面のパラメータであることを特徴
とする話者正規化処理装置。 - 【請求項9】 請求項7又は8記載の話者正規化処理装
置において、 上記類似音素環境は、母音と、音素と、隠れマルコフモ
デルの状態とのうち少なくとも1つを含むことを特徴と
する話者正規化処理装置。 - 【請求項10】 請求項7乃至9のうち1つに記載の話
者正規化処理装置を備え、 上記話者正規化処理装置によって生成された隠れマルコ
フモデルを用いて、入力された認識話者の発声音声を音
声認識する音声認識装置であって、 入力される認識話者の学習用音声波形データに基づい
て、認識話者の声道の解剖学的形状である声道形状の特
徴量を、上記標準話者の声道モデルに基づいて予め決め
られた声道形状パラメータとフォルマント周波数との間
の対応関係を参照して類似音素環境毎に推定する第2の
推定手段と、 上記第2の推定手段によって推定された認識話者の類似
音素環境毎の声道形状の特徴量と、上記標準話者の声道
形状の特徴量とに基づいて、上記標準話者の声道形状の
特徴量を変化させることにより、各認識話者の声道面積
関数を類似音素環境毎に推定し、推定された各認識話者
の類似音素環境毎の声道面積関数に基づいて各認識話者
が発声する音声のフォルマント周波数を類似音素環境毎
に推定し、周波数ワーピング後の各認識話者の音声のフ
ォルマント周波数が上記第2の記憶装置に記憶された標
準話者の対応するフォルマント周波数と一致するように
入力音声周波数を変換して周波数ワーピングするため
の、入力音声周波数と周波数ワーピング後の周波数の対
応関係を示す認識話者の周波数ワーピング関数を類似音
素環境毎に生成するとともに、類似音素環境と周波数ワ
ーピング関数との間の対応関係の情報を生成する第2の
関数生成手段と、 上記第2の関数生成手段によって生成された認識話者の
類似音素環境毎の周波数ワーピング関数を記憶する第3
の記憶装置と、 上記第2の関数生成手段によって生成された認識話者の
類似音素環境と周波数ワーピング関数との間の対応関係
の情報を記憶する第4の記憶装置と、 認識すべき認識話者の発声音声の音声波形データに対し
て、上記第3の記憶装置に記憶された認識話者の類似音
素環境毎の周波数ワーピング関数を用いて周波数ワーピ
ング処理を実行して話者正規化した後、話者正規化後の
音声波形データから認識話者の所定の音響的特徴パラメ
ータを類似音素環境毎に抽出する第2の抽出手段と、 上記第2の抽出手段によって抽出された類似音素環境毎
の音響的特徴パラメータに基づいて、第4の記憶装置に
記憶された認識話者の類似音素環境と周波数ワーピング
関数との間の対応関係の情報を参照して、上記話者正規
化処理装置によって生成された隠れマルコフモデルを用
いて、上記入力された認識話者の発声音声を音声認識し
て音声認識結果を出力する音声認識手段とを備えたこと
を特徴とする音声認識装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11011720A JP2986792B2 (ja) | 1998-03-16 | 1999-01-20 | 話者正規化処理装置及び音声認識装置 |
US09/270,663 US6236963B1 (en) | 1998-03-16 | 1999-03-16 | Speaker normalization processor apparatus for generating frequency warping function, and speech recognition apparatus with said speaker normalization processor apparatus |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6527098 | 1998-03-16 | ||
JP10-65270 | 1998-03-16 | ||
JP11011720A JP2986792B2 (ja) | 1998-03-16 | 1999-01-20 | 話者正規化処理装置及び音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11327592A JPH11327592A (ja) | 1999-11-26 |
JP2986792B2 true JP2986792B2 (ja) | 1999-12-06 |
Family
ID=26347224
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11011720A Expired - Fee Related JP2986792B2 (ja) | 1998-03-16 | 1999-01-20 | 話者正規化処理装置及び音声認識装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6236963B1 (ja) |
JP (1) | JP2986792B2 (ja) |
Families Citing this family (68)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3000999B1 (ja) * | 1998-09-08 | 2000-01-17 | セイコーエプソン株式会社 | 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体 |
US6505152B1 (en) * | 1999-09-03 | 2003-01-07 | Microsoft Corporation | Method and apparatus for using formant models in speech systems |
JP3632529B2 (ja) * | 1999-10-26 | 2005-03-23 | 日本電気株式会社 | 音声認識装置及び方法ならびに記録媒体 |
US8147419B2 (en) * | 2000-12-07 | 2012-04-03 | Baruch Shlomo Krauss | Automated interpretive medical care system and methodology |
US6823305B2 (en) * | 2000-12-21 | 2004-11-23 | International Business Machines Corporation | Apparatus and method for speaker normalization based on biometrics |
US7307569B2 (en) * | 2001-03-29 | 2007-12-11 | Quellan, Inc. | Increasing data throughput in optical fiber transmission systems |
US7149256B2 (en) * | 2001-03-29 | 2006-12-12 | Quellan, Inc. | Multilevel pulse position modulation for efficient fiber optic communication |
WO2002082694A1 (en) * | 2001-04-04 | 2002-10-17 | Quellan, Inc. | Method and system for decoding multilevel signals |
US20030055640A1 (en) * | 2001-05-01 | 2003-03-20 | Ramot University Authority For Applied Research & Industrial Development Ltd. | System and method for parameter estimation for pattern recognition |
US7103547B2 (en) * | 2001-05-07 | 2006-09-05 | Texas Instruments Incorporated | Implementing a high accuracy continuous speech recognizer on a fixed-point processor |
US20030030873A1 (en) * | 2001-05-09 | 2003-02-13 | Quellan, Inc. | High-speed adjustable multilevel light modulation |
AU2003211094A1 (en) * | 2002-02-15 | 2003-09-09 | Quellan, Inc. | Multi-level signal clock recovery technique |
AU2003217947A1 (en) * | 2002-03-08 | 2003-09-22 | Quellan, Inc. | High speed analog-to-digital converter using a unique gray code having minimal bit transitions |
AU2003223687A1 (en) * | 2002-04-23 | 2003-11-10 | Quellan, Inc. | Combined ask/dpsk modulation system |
JP2004013681A (ja) * | 2002-06-10 | 2004-01-15 | Bosu & K Consulting Kk | 名刺情報管理システム |
AU2003256569A1 (en) | 2002-07-15 | 2004-02-02 | Quellan, Inc. | Adaptive noise filtering and equalization |
CN1312656C (zh) * | 2002-09-24 | 2007-04-25 | 松下电器产业株式会社 | 说话人标准化方法及用该方法的语音识别装置 |
AU2003287628A1 (en) | 2002-11-12 | 2004-06-03 | Quellan, Inc. | High-speed analog-to-digital conversion with improved robustness to timing uncertainty |
US7424423B2 (en) * | 2003-04-01 | 2008-09-09 | Microsoft Corporation | Method and apparatus for formant tracking using a residual model |
US7804760B2 (en) * | 2003-08-07 | 2010-09-28 | Quellan, Inc. | Method and system for signal emulation |
DE112004001455B4 (de) | 2003-08-07 | 2020-04-23 | Intersil Americas LLC | Verfahren und System zum Löschen von Übersprechen |
US20070198262A1 (en) * | 2003-08-20 | 2007-08-23 | Mindlin Bernardo G | Topological voiceprints for speaker identification |
WO2005020208A2 (en) * | 2003-08-20 | 2005-03-03 | The Regents Of The University Of California | Topological voiceprints for speaker identification |
US7643989B2 (en) * | 2003-08-29 | 2010-01-05 | Microsoft Corporation | Method and apparatus for vocal tract resonance tracking using nonlinear predictor and target-guided temporal restraint |
US7123676B2 (en) * | 2003-11-17 | 2006-10-17 | Quellan, Inc. | Method and system for antenna interference cancellation |
US7616700B2 (en) | 2003-12-22 | 2009-11-10 | Quellan, Inc. | Method and system for slicing a communication signal |
GB2416874B (en) * | 2004-08-02 | 2006-07-26 | Louis Augustus George Atteck | A translation and transmission system |
US7565292B2 (en) * | 2004-09-17 | 2009-07-21 | Micriosoft Corporation | Quantitative model for formant dynamics and contextually assimilated reduction in fluent speech |
US7565284B2 (en) * | 2004-11-05 | 2009-07-21 | Microsoft Corporation | Acoustic models with structured hidden dynamics with integration over many possible hidden trajectories |
US7725079B2 (en) | 2004-12-14 | 2010-05-25 | Quellan, Inc. | Method and system for automatic control in an interference cancellation device |
US7522883B2 (en) | 2004-12-14 | 2009-04-21 | Quellan, Inc. | Method and system for reducing signal interference |
US7567903B1 (en) | 2005-01-12 | 2009-07-28 | At&T Intellectual Property Ii, L.P. | Low latency real-time vocal tract length normalization |
US7519531B2 (en) * | 2005-03-30 | 2009-04-14 | Microsoft Corporation | Speaker adaptive learning of resonance targets in a hidden trajectory model of speech coarticulation |
US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
JP5028599B2 (ja) * | 2005-12-26 | 2012-09-19 | 株式会社国際電気通信基礎技術研究所 | 音声処理装置、およびプログラム |
CN101004911B (zh) * | 2006-01-17 | 2012-06-27 | 纽昂斯通讯公司 | 用于生成频率弯曲函数及进行频率弯曲的方法和装置 |
US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
KR101372361B1 (ko) | 2006-04-26 | 2014-03-12 | 인터실 아메리카스 엘엘씨 | 통신 채널로부터 복사성 방출을 감소시키기 위한 방법 및 시스템 |
JP4812010B2 (ja) * | 2006-05-16 | 2011-11-09 | 株式会社国際電気通信基礎技術研究所 | 音声処理装置、およびプログラム |
US7512590B2 (en) * | 2006-06-21 | 2009-03-31 | International Business Machines Corporation | Discovery directives |
CN101136199B (zh) * | 2006-08-30 | 2011-09-07 | 纽昂斯通讯公司 | 语音数据处理方法和设备 |
US20100217591A1 (en) * | 2007-01-09 | 2010-08-26 | Avraham Shpigel | Vowel recognition system and method in speech to text applictions |
JP4966048B2 (ja) * | 2007-02-20 | 2012-07-04 | 株式会社東芝 | 声質変換装置及び音声合成装置 |
US20090018826A1 (en) * | 2007-07-13 | 2009-01-15 | Berlin Andrew A | Methods, Systems and Devices for Speech Transduction |
WO2009041402A1 (ja) * | 2007-09-25 | 2009-04-02 | Nec Corporation | 周波数軸伸縮係数推定装置とシステム方法並びにプログラム |
US8645135B2 (en) * | 2008-09-12 | 2014-02-04 | Rosetta Stone, Ltd. | Method for creating a speech model |
US9418662B2 (en) * | 2009-01-21 | 2016-08-16 | Nokia Technologies Oy | Method, apparatus and computer program product for providing compound models for speech recognition adaptation |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8457965B2 (en) * | 2009-10-06 | 2013-06-04 | Rothenberg Enterprises | Method for the correction of measured values of vowel nasalance |
US8660842B2 (en) | 2010-03-09 | 2014-02-25 | Honda Motor Co., Ltd. | Enhancing speech recognition using visual information |
US20140207456A1 (en) * | 2010-09-23 | 2014-07-24 | Waveform Communications, Llc | Waveform analysis of speech |
US20120078625A1 (en) * | 2010-09-23 | 2012-03-29 | Waveform Communications, Llc | Waveform analysis of speech |
EP2768640B1 (en) | 2011-10-20 | 2019-03-27 | Vangura, Albert | Method for cutting laminated glass |
US10182787B2 (en) | 2011-10-20 | 2019-01-22 | Koninklijke Philips N.V. | System and method for characterizing an upper airway using speech characteristics |
US8965763B1 (en) | 2012-02-02 | 2015-02-24 | Google Inc. | Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training |
US8543398B1 (en) | 2012-02-29 | 2013-09-24 | Google Inc. | Training an automatic speech recognition system using compressed word frequencies |
US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
US8374865B1 (en) | 2012-04-26 | 2013-02-12 | Google Inc. | Sampling training data for an automatic speech recognition system based on a benchmark classification distribution |
US8805684B1 (en) | 2012-05-31 | 2014-08-12 | Google Inc. | Distributed speaker adaptation |
US8571859B1 (en) * | 2012-05-31 | 2013-10-29 | Google Inc. | Multi-stage speaker adaptation |
US8554559B1 (en) | 2012-07-13 | 2013-10-08 | Google Inc. | Localized speech recognition with offload |
US9123333B2 (en) | 2012-09-12 | 2015-09-01 | Google Inc. | Minimum bayesian risk methods for automatic speech recognition |
US9263030B2 (en) * | 2013-01-23 | 2016-02-16 | Microsoft Technology Licensing, Llc | Adaptive online feature normalization for speech recognition |
US20150032449A1 (en) * | 2013-07-26 | 2015-01-29 | Nuance Communications, Inc. | Method and Apparatus for Using Convolutional Neural Networks in Speech Recognition |
CN107564513B (zh) * | 2016-06-30 | 2020-09-08 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2965537B2 (ja) | 1997-12-10 | 1999-10-18 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 話者クラスタリング処理装置及び音声認識装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4941178A (en) * | 1986-04-01 | 1990-07-10 | Gte Laboratories Incorporated | Speech recognition using preclassification and spectral normalization |
US5450522A (en) * | 1991-08-19 | 1995-09-12 | U S West Advanced Technologies, Inc. | Auditory model for parametrization of speech |
WO1993018505A1 (en) * | 1992-03-02 | 1993-09-16 | The Walt Disney Company | Voice transformation system |
JP3176210B2 (ja) | 1994-03-22 | 2001-06-11 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声認識方法及び音声認識装置 |
US5625747A (en) * | 1994-09-21 | 1997-04-29 | Lucent Technologies Inc. | Speaker verification, speech recognition and channel normalization through dynamic time/frequency warping |
JPH08110792A (ja) | 1994-10-12 | 1996-04-30 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 話者適応化装置及び音声認識装置 |
US5930753A (en) * | 1997-03-20 | 1999-07-27 | At&T Corp | Combining frequency warping and spectral shaping in HMM based speech recognition |
-
1999
- 1999-01-20 JP JP11011720A patent/JP2986792B2/ja not_active Expired - Fee Related
- 1999-03-16 US US09/270,663 patent/US6236963B1/en not_active Expired - Lifetime
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2965537B2 (ja) | 1997-12-10 | 1999-10-18 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 話者クラスタリング処理装置及び音声認識装置 |
Non-Patent Citations (7)
Title |
---|
Proceedings of 1997 IEEE International Conference on Acoustics,Speech and Signal Processing,"Speaker Normalization Based on Frequency Warping"p.1039−1042 |
情報処理学会研究報告[音声言語情報処理]Vol.97.No.120.SLP−19,「声道の特徴量を用いた話者クラスタリング手法の検討」p.35−40(1997年12月11日発行) |
日本音響学会平成10年度春季研究発表会講演論文集▲I▼ 2−6−1「声道形状の特徴量に着目した話者適応手法」p.55−56(平成10年3月17日) |
電子情報通信学会技術研究報告[言語理解とコミュニケーション]Vol.97,No.439,NLC97−40,「声道の特徴量を用いた話者クラスタリング手法の検討」p.35−40(1997年12月11日発行) |
電子情報通信学会技術研究報告[音声]Vol.97,No.441,SP97−73,「声道の特徴量を用いた話者クラスタリング手法の検討」p.35−40(1997年12月11日発行) |
電子技術総合研究所彙報 Vol.48,No.1&2,"Vowel Constancy on Antimetrical Vocal Tract Shapes among Males and Females and Children",p.46−50,1984 |
電子技術総合研究所彙報 Vol.48,No.1&2,"Vowel Constancy on Antimetrical Vocal Tract Shapes between Males and Females",p.17−21,1984 |
Also Published As
Publication number | Publication date |
---|---|
US6236963B1 (en) | 2001-05-22 |
JPH11327592A (ja) | 1999-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2986792B2 (ja) | 話者正規化処理装置及び音声認識装置 | |
JP2965537B2 (ja) | 話者クラスタリング処理装置及び音声認識装置 | |
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
KR100612840B1 (ko) | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 | |
JP2826215B2 (ja) | 合成音声生成方法及びテキスト音声合成装置 | |
JP5218052B2 (ja) | 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム | |
US6108628A (en) | Speech recognition method and apparatus using coarse and fine output probabilities utilizing an unspecified speaker model | |
KR100547533B1 (ko) | 음성 인식 장치 및 음성 인식 방법 | |
US11282495B2 (en) | Speech processing using embedding data | |
JPH07334184A (ja) | 音響カテゴリ平均値計算装置及び適応化装置 | |
JP4836076B2 (ja) | 音声認識システム及びコンピュータプログラム | |
JP4323029B2 (ja) | 音声処理装置およびカラオケ装置 | |
JP2751856B2 (ja) | 木構造を用いたパターン適応化方式 | |
JP3088357B2 (ja) | 不特定話者音響モデル生成装置及び音声認識装置 | |
JP2898568B2 (ja) | 声質変換音声合成装置 | |
Miguel et al. | Augmented state space acoustic decoding for modeling local variability in speech. | |
JP2852210B2 (ja) | 不特定話者モデル作成装置及び音声認識装置 | |
JP2905674B2 (ja) | 不特定話者連続音声認識方法 | |
JP2001255887A (ja) | 音声認識装置、音声認識方法及び音声認識方法を記録した媒体 | |
JP3029803B2 (ja) | 音声認識のための単語モデル生成装置及び音声認識装置 | |
JP3035239B2 (ja) | 話者正規化装置、話者適応化装置及び音声認識装置 | |
JP3532248B2 (ja) | 学習音声パタンモデル使用音声認識装置 | |
JP2888781B2 (ja) | 話者適応化装置及び音声認識装置 | |
JP2976795B2 (ja) | 話者適応化方式 | |
JP2003271185A (ja) | 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081001 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091001 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101001 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101001 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111001 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121001 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121001 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131001 Year of fee payment: 14 |
|
LAPS | Cancellation because of no payment of annual fees |