JP2002189491A - 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体 - Google Patents

話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体

Info

Publication number
JP2002189491A
JP2002189491A JP2000385201A JP2000385201A JP2002189491A JP 2002189491 A JP2002189491 A JP 2002189491A JP 2000385201 A JP2000385201 A JP 2000385201A JP 2000385201 A JP2000385201 A JP 2000385201A JP 2002189491 A JP2002189491 A JP 2002189491A
Authority
JP
Japan
Prior art keywords
speaker
frequency
voice
function
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000385201A
Other languages
English (en)
Inventor
Koichi Yamaguchi
耕市 山口
Yoichiro Hachiman
洋一郎 八幡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2000385201A priority Critical patent/JP2002189491A/ja
Publication of JP2002189491A publication Critical patent/JP2002189491A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 少ない発声データから安定して話者特徴を抽
出する。 【解決手段】 周波数関数推定部5には音素境界推定部
と最尤推定部を備えている。そして、学習時には、発話
内容の音素列(言語モデル)あるいは弱い文法の言語モデ
ルを適用させて、ビタビアルゴリズムによって音素境界
情報を推定する。さらに、上記音素境界情報に基づいて
選択した音素区間に関して周波数ワーピング関数f()を
推定する。また、認識時には、上記弱い文法の言語モデ
ルを適用させて音素境界情報を推定する。周波数ワープ
部4は、上記音素境界情報に基づいて選択した音素区間
に関して入力音響パラメータ系列を周波数ワープする。
こうして、声道長の差の影響を受け難い音素や無音部を
学習や正規化の対象外として、声道長の差の影響を受け
難い音素や無音部まで変形されるのを防止して、少ない
発声データから安定して話者特徴を抽出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、標準話者の音声
スペクトルに対する入力音声スペクトルの周波数軸の線
形伸縮関数を話者特徴として抽出する話者特徴抽出装置
および話者特徴抽出方法、その抽出方法を用いた音声認
識装置,音声合成装置、並びに、話者特徴抽出処理プロ
グラムを記録したプログラム記録媒体に関する。
【0002】
【従来の技術】従来より、隠れマルコフモデル(Hidden
Markov Model:以下、HMMと言う)を用いた音声認識
方法の開発が近年盛んに行われている。このHMMは、
大量の音声データから得られる音声の統計的特徴を確率
的にモデル化したものであり、このHMMを用いた音声
認識方法の詳細は、中川聖一著「確率モデルによる音声
認識」(電子情報通信学会)に詳しい。このHMMに基づ
く話者適応や話者正規化に関する研究が行われている。
ところが、通常の話者正規化技術や話者適応技術におい
ては発声データの内容や量に依存するので、少量の発声
データからでは安定した性能向上が非常に難しい。そこ
で、声道長を用いた話者適応や話者正規化の手法が注目
されており、特に声道長に基づく話者正規化が盛んに研
究されて効果が出ている。声道長は音声のスペクトルの
大まかな特徴を表すパラメータであり、声道長の差は話
者間の主な変動要因である。また、声道長は従来の話者
適応法に比べて1個のパラメータあるいは極めて少ない
パラメータで音声の特徴を表現できることから、声道長
にはより少量の学習データで効率良く正規化できるとい
うメリットがある。
【0003】ところで、標準話者の音声パターンに対す
る入力話者の音声サンプルの尤度を最大にするという基
準(最尤推定)で、上記音声サンプルにおける周波数軸の
線形伸縮係数α(声道長正規化係数)を求める方法(ML-VT
LN法: Maximum LikelihoodVocal Tract Length Normal
ization)がある。そして、この声道長正規化係数αを用
いて入力話者の音声サンプルの周波数軸を線形伸縮する
ことで話者正規化を行う技術が提案されている(例え
ば、AT&T Bell Labs. Li Lee, Richard C.Rose,“Speak
er Normalization using Efficient Frequency Warping
Procedures”,pp.353-356 ICASSP96 (1996))。また、
特開平11‐327592号公報においては、声道を前
室と後室との2つの室に分け、入力音声のフォルマント
周波数を用いて各室に対応した2つの周波数軸線形伸縮
係数αを求め、この2つの周波数軸線形伸縮係数αを用
いて話者正規化する技術が開示されている。
【0004】尚、上記話者適応は標準となる音響モデル
を入力話者に対して適応(つまり正規化)させる技術であ
り、話者正規化とは表裏一体の関係にある。
【0005】さらに、音声合成における声質変換に関す
る従来技術として、音声認識の話者適応技術を用いてス
ペクトルの写像を行なう方法が提案されている。例え
ば、ベクトル量子化(VQ)コードブックマッピング法を
ベースとした話者適応技術を用いる方法(特開平1‐9
7997号公報)や、VFS(Vector Field Smoothing)
法をベースとした話者適応技術を用いる方法(橋本誠,樋
口宣男:“話者選択と移動ベクトル場平滑化を用いた声
質変換のためのスペクトル写像”,信学技報,SP95‐1,
p.p.1‐8,May 1995)等がある。
【0006】
【発明が解決しようとする課題】しかしながら、上記従
来の声道長に基づく話者適応や話者正規化には、以下の
ような問題がある。すなわち、声道長に基づく話者適応
や話者正規化は極めて少ないパラメータ数で音声の特徴
を表現できるとは言うものの、声道長の抽出は発声デー
タの内容や量に大きく左右され易い。したがって、必ず
しも少ない学習サンプルから安定して声道長を抽出でき
るとは限らない。その結果、声道長に基づいて話者正規
化や話者適応や話者クラスタリングを行うような音声認
識装置においては、性能劣化を招くという問題がある。
【0007】上記声道長正規化係数αを求める方法とし
ては、上述したように、学習サンプル全体を対象として
最尤推定するML-VTLN法が提案されている。この方法に
おいては、声道長の伸縮(周波数軸のワーピング)を線形
関数やそれに類似した関数で表現しており、一般に全音
素区間に対して周波数ワープを学習・作用するようにし
ている。そのために、声道長正規化係数αを用いて話者
正規化を行う方法においては、声道長の差の影響を受け
難い音素や無音部まで学習および正規化してしまうとい
う問題もある。
【0008】すなわち、上記従来の声道長正規化係数の
推定方法では、真の声道長正規化係数が推定できなかっ
たり、入力音声サンプルを必要以上に変形してしまった
りするために、話者正規化に適用した場合には、認識性
能の低下を招くことになるのである。
【0009】さらに、上記特開平11‐327592号
公報の正規化方法においては、2つのサンプルから直接
声道パラメータを求めるようにしているが、声道パラメ
ータを得るために入力音声のフォルマント周波数を用い
ている。ところが、一般的にフォルマント周波数を全自
動で求めることは困難であり、上記特開平11‐327
592号公報に開示された線形伸縮係数を用いた話者正
規化方法では、実時間性に欠けるという問題がある。
【0010】また、上記話者適応においては少ない発声
データから音響モデルを精度良く適応できないために、
誤り率を半減させるためには数十単語以上の発声データ
が必要となり、学習話者に負担を強いることになるとい
う問題がある。さらに、音響モデルの適応に声道長伸縮
関数を用いる場合には、上述した話者正規化の場合と同
様の問題が発生する。また、音声合成における声質変換
の場合にも、同様に少ない発声データからは精度良く声
質が得られないという問題がある。
【0011】そこで、この発明の目的は、少ない発声デ
ータから発声データの内容に依存せずに安定して話者特
徴を抽出できる話者特徴抽出装置および話者特徴抽出方
法、その抽出方法を用いた音声認識装置,音声合成装
置、並びに、話者特徴抽出処理プログラムを記録したプ
ログラム記録媒体を提供することにある。
【0012】上記目的を達成するため、第1の発明は、
入力話者の音声から,標準話者の音声スペクトルに対し
て上記入力話者の音声スペクトルの周波数軸を伸縮する
際の周波数伸縮関数を話者特徴として抽出する話者特徴
抽出装置において、音響モデルの各状態が,有音無音の
別および調音点の位置に従って予め設定された音声区間
に属しているか否かを判別し,属している状態に関して,
上記音響モデルを入力音声サンプルに話者適応させて話
者適応音響モデルを作成する話者適応モデル作成手段
と、上記標準話者の音響モデルに対して上記話者適応音
響モデルの尤度を最大にするという基準に従って上記周
波数伸縮関数を最尤推定する周波数伸縮関数推定手段を
備えたことを特徴としている。
【0013】上記構成によれば、話者適応モデル作成手
段によって、有音無音の別および調音点の位置に従って
設定された音声区間に属する音響モデルの状態に関し
て、入力音声サンプルに話者適応された話者適応音響モ
デルが作成される。そして、周波数伸縮関数推定手段に
よって、標準話者音響モデルに対して上記話者適応音響
モデルを用いて上記周波数伸縮関数の最尤推定が行われ
る。したがって、声道長の差の影響を受け難い音素や無
音部を上記最尤推定時における周波数軸伸縮の対象外に
して、声道長の差の影響を受け難い音素や無音部まで変
形されることが防止可能になる。こうして、少ない発声
データから、発声データの内容に依存せずに安定して話
者特徴が抽出される。
【0014】また、第2の発明は、入力話者の音声か
ら,標準話者の音声スペクトルに対して上記入力話者の
音声スペクトルの周波数軸を伸縮する際の周波数伸縮関
数を話者特徴として抽出する話者特徴抽出装置におい
て、上記入力話者の音声サンプルから音響モデルを用い
たビタビアルゴリズムによって音素境界情報を推定する
音素境界情報推定手段と、上記標準話者の音響モデルに
対して当該入力話者の音声サンプルの尤度を最大にする
という基準に従って上記周波数伸縮関数を最尤推定する
に際して,上記音素境界情報に基づいて,有音無音の別お
よび調音点の位置に従って上記最尤推定を行う音声区間
を選択する機能を有する最尤推定手段を備えたことを特
徴としている。
【0015】上記構成によれば、音素境界情報推定手段
で推定された音素境界情報に基づいて、最尤推定手段に
よって、有音無音の別および調音点の位置に従って、上
記周波数伸縮関数の最尤推定を行う音声区間が選択され
る。したがって、声道長の差の影響を受け難い音素や無
音部を上記最尤推定時における周波数軸伸縮の対象外に
して、声道長の差の影響を受け難い音素や無音部まで変
形されることが防止可能になる。こうして、少ない発声
データから、発声データの内容に依存せずに安定して話
者特徴が抽出される。
【0016】また、第3の発明は、標準話者の音声スペ
クトルに対して入力話者の音声スペクトルの周波数軸を
伸縮する際の周波数伸縮関数を用いて入力話者の音声ス
ペクトルの周波数軸を伸縮することによって上記入力話
者の音声を正規化する正規化手段を有する音声認識装置
において、上記正規化手段は、上記第1の発明あるいは
第2の発明の話者特徴抽出装置と、上記話者特徴抽出装
置によって抽出された周波数伸縮関数を用いて,上記入
力話者の音声スペクトルの周波数軸を伸縮する周波数ワ
ープ手段で構成されていることを特徴としている。
【0017】上記構成によれば、周波数ワープ手段によ
って、上記第1の発明あるいは第2の発明の話者特徴抽
出装置で抽出された周波数伸縮関数を用いて入力話者の
音声スペクトルの周波数軸が伸縮されて、話者正規化が
行われる。したがって、声道長の差の影響を受け難い音
素や無音部までが変形されることはなく、発声データの
内容に依存せずに安定して話者正規化が行われる。その
結果、少ない発声データから高い精度で認識結果が得ら
れる。
【0018】また、上記第3の発明の音声認識装置は、
上記周波数ワープ手段を、上記第2の発明の話者特徴抽
出装置における音素境界情報推定手段によって推定され
た音素境界情報に基づいて、有音無音の別および調音点
の位置に従って上記周波数軸を伸縮する音声区間を選択
する機能を有するように成すことが望ましい。
【0019】上記構成によれば、上記周波数ワープ手段
によって話者正規化が行われるに際して、上記声道長の
差の影響を受け難い音素や無音部まで変形されることが
より確実に防止される。したがって、認識精度が更に高
められる。
【0020】また、第4の発明は、入力話者の音声スペ
クトルに対して標準話者の音声スペクトルの周波数軸を
伸縮する際の周波数伸縮関数を用いて音声のスペクトル
の周波数軸を伸縮することによって音響モデルを入力話
者に話者適応させる話者適応手段を有する音声認識装置
において、上記話者適応手段は、上記第1の発明あるい
は第2の発明の話者特徴抽出装置と、上記話者特徴抽出
装置によって抽出された周波数伸縮関数の逆関数を用い
て,上記音響モデルの周波数軸を伸縮する周波数ワープ
手段で構成されていることを特徴としている。
【0021】上記構成によれば、周波数ワープ手段によ
って、上記第1の発明あるいは第2の発明の話者特徴抽
出装置で抽出された周波数伸縮関数の逆関数を用いて上
記音響モデルの周波数軸が伸縮されて、話者適応が行わ
れる。したがって、声道長の差の影響を受け難い音素や
無音部までが変形されることはなく、発声データの内容
に依存せずに安定して話者適応が行われる。その結果、
少ない発声データから高い精度で認識結果が得られる。
【0022】また、上記第4の発明の音声認識装置は、
上記周波数ワープ手段を、上記第2の発明の話者特徴抽
出装置における音素境界情報推定手段によって推定され
た音素境界情報に基づいて、有音無音の別および調音点
の位置に従って上記周波数軸を伸縮する音声区間を選択
する機能を有するように成すことが望ましい。
【0023】上記構成によれば、上記周波数ワープ手段
によって話者適応が行われるに際して、上記声道長の差
の影響を受け難い音素や無音部まで変形されることがよ
り確実に防止される。したがって、認識精度が更に高め
られる。
【0024】また、第5の発明は、入力話者の音声スペ
クトルに対して標準話者の音声スペクトルの周波数軸を
伸縮する際の周波数伸縮関数を用いて音声のスペクトル
の周波数軸を伸縮することによって,標準話者の音声素
片を接続して成る合成音声の声質を発話者の声質に変換
する声質変換手段を有する音声合成装置において、上記
声質変換手段は、上記第1の発明あるいは第2の発明の
話者特徴抽出装置と、上記話者特徴抽出装置によって抽
出された周波数伸縮関数の逆関数を用いて,上記音声素
片の周波数軸を伸縮する周波数ワープ手段で構成されて
いることを特徴としている。
【0025】上記構成によれば、周波数ワープ手段によ
って、上記第1の発明あるいは第2の発明の話者特徴抽
出装置で抽出された周波数伸縮関数の逆関数を用いて、
標準話者の音声素片の周波数軸が伸縮されて声質変換が
行われる。したがって、声道長の差の影響を受け難い音
素や無音部までが変形されることはなく、発声データの
内容に依存せずに安定して声質変換が行われる。その結
果、少ない発声データからより入力話者の声質に近い合
成音声が得られる。
【0026】また、上記第5の発明の音声合成装置は、
上記周波数ワープ手段を、上記音声素片の情報からの音
素境界情報に基づいて、有音無音の別および調音点の位
置に従って上記周波数軸を伸縮する音声区間を選択する
機能を有するように成すことが望ましい。
【0027】上記構成によれば、上記周波数ワープ手段
によって声質変換が行われる際に、上記声道長の差の影
響を受け難い音素や無音部まで変形されることがより確
実に防止される。したがって、さらに入力話者の声質に
近い合成音声が得られる。
【0028】また、第6の発明は、入力話者の音声か
ら,標準話者の音声スペクトルに対して上記入力話者の
音声スペクトルの周波数軸を伸縮する際の周波数伸縮関
数を話者特徴として抽出する話者特徴抽出方法におい
て、上記入力話者の音声サンプルから音響モデルを用い
たビタビアルゴリズムによって音素境界情報を推定し、
上記音素境界情報に基づいて,有音無音の別および調音
点の位置に従って特徴抽出の対象とする音声区間を選択
し、上記選択された音声区間に関し,上記標準話者の音
響モデルに対して当該入力話者の音声サンプルの尤度を
最大にするという基準に従って上記周波数伸縮関数を最
尤推定することを特徴としている。
【0029】上記構成によれば、音素境界情報を推定
し、この音素境界情報に基づいて、有音無音の別および
調音点の位置に従って特徴抽出の対象とする音声区間が
選択される。したがって、上記周波数伸縮関数を最尤推
定する際に、声道長の差の影響を受け難い音素や無音部
を上記最尤推定の対象外にして、声道長の差の影響を受
け難い音素や無音部まで変形されることが防止可能にな
る。こうして、少ない発声データから、発声データの内
容に依存せずに安定して話者特徴が抽出される。
【0030】また、第7の発明のプログラム記録媒体
は、コンピュータを、上記第1の発明における話者適応
モデル作成手段および周波数伸縮関数推定手段あるいは
上記第2の発明における音素境界情報推定手段および最
尤推定手段として機能させる話者特徴抽出処理プログラ
ムが記録されたことを特徴としている。
【0031】上記構成によれば、上記第1の発明あるい
は第2の発明の場合と同様に、声道長の差の影響を受け
難い音素や無音部を最尤推定時における周波数軸伸縮の
対象外にして、声道長の差の影響を受け難い音素や無音
部まで変形されることが防止可能になる。こうして、少
ない発声データから、発声データの内容に依存せずに安
定して話者特徴が抽出される。
【0032】
【発明の実施の形態】以下、この発明を図示の実施の形
態により詳細に説明する。 <第1実施の形態>図1は、本実施の形態の音声認識装
置におけるブロック図である。尚、この音声認識装置
は、話者正規化方式を用いた音声認識装置であり、上記
HMMに代表される音響モデルをベースとしている。
【0033】音声入力部1において、マイクから入力さ
れた音声はディジタル波形に変換されて音響分析部2に
入力される。音響分析部2は、入力されたディジタル波
形を短い時間間隔(フレーム)毎に周波数分析し、スペク
トルを表す音響パラメータのベクトル系列に変換する。
ここで、上記周波数分析としては、MFCC(メル周波
数FFT(高速フーリエ変換)ケプストラム)やLPC(線
形予測分析)メルケプストラム等のスペクトルを効率よ
く表現できる音響パラメータを抽出できる分析方法が用
いられる。こうして得られた音響パラメータ系列は、話
者正規化部3を構成する周波数ワープ部4に送出され
る。
【0034】上記話者正規化部3は、上記周波数ワープ
部4と周波数ワープ関数推定部5とから概略構成され
る。そして、周波数ワープ関数推定部5は、学習時に
は、音響分析部2からの音響パラメータ系列と単語列入
力部6から入力された学習用単語の音素列とに基づい
て、音素境界情報および周波数ワーピング関数を推定し
て周波数ワープ部4に送出する。また、認識時には、音
響分析部2からの音響パラメータ系列と上記学習時に推
定された周波数ワーピング関数とに基づいて音素境界情
報を推定し、この推定された音素境界情報を上記周波数
ワーピング関数と共に周波数ワープ部4に送出する。
尚、周波数ワープ関数推定部5の構成と動作については
後に詳述する。
【0035】そうすると、上記周波数ワープ部4は、上
記周波数ワーピング関数および音素境界情報を用いて、
入力音声の音響パラメータ系列を周波数ワープ(話者正
規化)し、周波数ワープ後の音響パラメータ系列を尤度
演算部7に送出するのである。そして、尤度演算部7で
は、周波数ワープされた音響パラメータ系列に対して、
不特定話者音響モデル格納部8に格納された不特定話者
モデル(HMM)を作用させて、各音韻の状態毎に尤度を
算出する。そして、得られた尤度系列を照合部9に送出
する。
【0036】上記照合部9は、上記尤度演算部7からの
尤度系列に対して、辞書格納部10に登録された総ての
言語モデル(単語)との照合を行ない、各単語のスコアを
算出する。そして、上位のスコアを呈する単語を認識候
補(認識結果)として出力部11から出力するのである。
【0037】以下、上記周波数ワープ関数推定部5の構
成と動作について詳細に詳述する。図2に、上記周波数
ワープ関数推定部5における学習時に機能する部分の構
成を示す。さらに、図3には、周波数ワープ関数推定部
5における認識時に機能する部分の構成を示す。先ず、
図2に従って、学習時について説明する。
【0038】音素境界推定部15は、全話者音響モデル
格納部12に格納された混合数1以上の全話者音響モデ
ル(HMM)を用いて、ビタビアルゴリズムによって音素
境界情報を求める。その際に、教師あり学習時には、音
素境界推定部15には、単語列入力部6からの音素列と
音響分析部2からの音響パラメータ系列(学習データ)と
が入力される。そうすると、音素境界推定部15は、入
力音響パラメータ系列に入力音素列を適用させて、上記
全話者音響モデルを用いたビタビアルゴリズムによって
音素境界情報を求める。これに対して、教師なし学習時
には、音素境界推定部15には、音響分析部2からの音
響パラメータ系列(学習データ)のみが入力される。そう
すると、音素境界推定部15は、入力音響パラメータ系
列に言語モデル格納部13に格納された弱い文法の言語
モデルを適用させて、全話者音響モデルを用いたビタビ
アルゴリズムによって音素境界情報を求めるのである。
そして、こうして得られた音素境界情報は最尤推定部1
6に送出される。
【0039】尚、上記「弱い文法」とは、対象言語の音素
または音節の接続に関する制約条件のみを表現するネッ
トワーク(有限状態オートマトン)のことである。例え
ば、日本語の場合には、/k/と/i/とは接続するが、/
s/と/k/は接続しないというような制約条件である。
また、上記音素境界情報とはこの音素境界情報によって
分離される音素のラベル情報をも含む概念であり、上記
ビタビアルゴリズムによって求まる。
【0040】上記最尤推定部16は、入力された音素境
界情報に従って、全話者音響モデル格納部17に格納さ
れた混合数1の全話者モデル(HMM)を用いて、後に詳
述する方法によって周波数ワーピング関数fの係数(つ
まり周波数ワーピング関数f)を最尤推定する。そし
て、推定された周波数ワーピング関数fを関数格納部1
8に格納すると共に、上記音素境界情報を添えて周波数
ワープ部4に送出する。
【0041】次に、図3に従って、認識時について説明
する。尚、図3における全話者音響モデル格納部12,
言語モデル格納部13,音素境界推定部15および関数
格納部18は、図2において学習時に使用される全話者
音響モデル格納部12,言語モデル格納部13,音素境界
推定部15および関数格納部18と同じものである。
【0042】事前ワープ部19は、上記学習時に推定さ
れて関数格納部18に格納された周波数ワーピング関数
fを用いて、認識対象の音響パラメータ系列を周波数ワ
ープする。以下、この場合の周波数ワープを、後に周波
数ワープ部4によって行われる周波数ワープに対して
「事前ワープ」と言うことにする。こうして、事前ワープ
が行われた音響パラメータ系列が音素境界推定部15に
送出される。
【0043】そうすると、上記音素境界推定部15は、
事前ワープが行われた音響パラメータ系列に弱い文法の
言語モデルを適用させて、全話者音響モデルを用いたビ
タビアルゴリズムによって音素境界情報を求めるのであ
る。その場合、認識対象の音響パラメータ系列は、学習
時に抽出された話者特徴としての周波数ワーピング関数
fを用いて事前ワープされている。したがって、より話
者の声道長に即した音素境界情報を求めることができる
のである。そして、得られた音素境界情報が、関数格納
部18に格納されている周波数ワーピング関数fと共に
周波数ワープ部4に送出される。
【0044】そうすると、上記周波数ワープ部4におい
ては、上記推定された周波数ワーピング関数fによっ
て、上記学習時には、入力された学習用の音響パラメー
タ系列が周波数ワープされる。一方、上記認識時には、
入力された認識用の学習音響パラメータ系列が周波数ワ
ープされるのである。
【0045】本実施の形態においては、上記学習時に最
尤推定部16と周波数ワープ部4とによって入力音響パ
ラメータ系列に周波数ワーピング関数fを適用する場
合、及び、認識時に周波数ワープ部4によって入力音響
パラメータ系列に周波数ワーピング関数fを適用する場
合には、後に詳述するように、表1の分類表に従って、
上記音素境界情報に基づいて、周波数ワープ(正規化)の
対象とする音素区間を限定するのである。こうすること
によって高精度認識を行う音声認識装置を構築すること
ができるのである。
【0046】ところで、上記周波数ワープ関数推定部5
における上記周波数ワーピング関数fの推定方法には、
以下に述べる二通りの推定方法がある。 (A)標準話者の音響モデルを入力音声データに話者適
応させた適応モデルを用いる。 (B)入力音声データを直接用いる。 そして、この二通りの推定方法を、入力音声データの量
や質に応じて使い分けるのである。ここで、音声データ
の質とは尤度の上昇具合であり、周波数ワープ関数推定
部5は、上記二通りの推定方法による尤度の上昇具合を
見計らって、上昇の大きい推定方法を採用するのであ
る。長いエンロール期間を許容できる音声認識装置の場
合には、このような推定処理も可能となる。尚、長いエ
ンロール期間を許容できない場合には、予め何れかの推
定方法に固定しておけばよい。
【0047】上記推定方法(A)は、入力音声データが少
ない場合に有効である。また、推定方法(B)は、入力音
声データが多い場合に有効であり、入力音声データから
直接求めるために、精密な推定が可能となる。但し、入
力音声データが少ない場合には、当該推定をエンロール
モードで行う際に、入力音声データに無い音素環境にお
ける上記係数の推定や平滑化が問題になる。
【0048】また、上記推定方法(A),(B)の各々に関
して、使用する音響モデルは、全話者モデルの場合と、
話者クラスタ別に作成された混合数が1の音響モデルの
場合との二通りがある。音声認識装置の記憶容量が少な
い場合には前者を採用する。一方、記憶容量が多い場合
は音響モデル群を各話者クラスタ別に格納できるので後
者を採用する。後者の場合には、入力音声データに基づ
いて最適な話者クラスタを選択し、この選択話者クラス
タに属する音響モデルを使用することになる。すなわ
ち、図1に示す音声認識装置は、全話者モデルを用いた
推定方法(B)によって上記係数の推定を行うのである。
【0049】ここで、上記話者クラスタ別に作成された
音響モデルとは、ある基準で全学習話者をクラスタリン
グしておき、複数の話者クラスタ毎に学習によって作成
された音響モデルのことである。ここでは、上記クラス
タリングの基準として、各話者の声道情報を用いる。
尚、周波数ワープ関数推定部5が使用する際には、適切
な話者クラスタの音響モデルを選択して用いることにな
る。
【0050】次に、上記周波数ワープ関数推定部5が学
習時に使用する全話者モデルと、尤度演算部7が上記尤
度演算時に使用する不特定話者モデルの作成方法につい
て説明する。上記全話者モデルは、総ての学習話者の音
声データを用いて学習した音響モデルである。通常、周
波数ワーピング関数fの最尤推定に使用する場合には混
合数を1に設定する。これに対して、不特定話者モデル
は、通常学習話者の音声データをそのまま用いて学習し
た音響モデルである。しかしながら、本実施の形態のよ
うに話者正規化を行う音声認識装置においては、尤度演
算部7に入力される音響パラメータ系列は、周波数ワー
プ部4によって既に正規化されている。したがって、不
特定話者モデルも、学習話者の音声データを以下に述べ
る正規化と同様の手順で正規化した正規化学習データを
用いた学習によって作成するのである。その場合、不特
定話者に対応させるために、通常では、混合数は1以上
に設定される。
【0051】次に、上記周波数ワープ関数推定部5によ
って行われる周波数ワーピング関数fの推定について説
明する。先ず、周波数ワープピング関数fの定義につい
て説明する。周波数ワープピング関数f(周波数伸縮関
数または単に伸縮関数と言う場合もある)の周波数軸は
声道の長さを直接反映しているので声道長伸縮関数とも
言う。周波数ワーピング関数fは、推定の容易さを考慮
して、通常はできるだけ少ないパラメータ数で表現され
る。本実施の形態においては、周波数ワーピング関数f
を、以下のようなパラメータが1個からなる区分線形関
数であると定義する。
【0052】周波数ワーピング関数f(): ・x≦min(ω/α,ω)では、f(x)=αx (ω≒4kHz) (0.88<α<1.13) ・min(ω/α,ω)<xでは、 α>1のとき f(x)→(ω/α,ω)と(fs/2,fs/2)とを
結ぶ直線 α≦1のとき f(x)→(ω,αω)と(fs/2,fs/2)とを結
ぶ直線 ここで、α:周波数ワーピング関数f()の係数 fs:サンプリング周波数 尚、上記サンプリング周波数fsは、本実施の形態におい
ては8kHz以上を仮定している。すなわち、fs=12k
Hzの場合には、(fs/2,fs/2)は(6kHz,6kHz)とな
るのである。α>1である場合における上述のような折
れ線で表される周波数ワーピング関数f(x)を図4に示
す。すなわち、周波数ワーピング関数f()の推定とは係
数αを推定することである。
【0053】また、複数のパラメータを有する周波数ワ
ーピング関数f(x)の場合でも、以下に述べる1個のパラ
メータαを有する周波数ワーピング関数f(x)の場合と同
様にして、パラメータ空間の総ての座標における尤度を
算出して頻度を計測することによって、音響パラメータ
系列に適合した係数を推定することができる。
【0054】上記周波数ワープ関数推定部5における上
記周波数ワーピング関数fの推定方法が上記推定方法
(A)である場合には、標準話者の音響モデルを入力音声
データに話者適応させた適応モデルを用いて、以下の手
順によって2つの音響モデルの状態間の尤度を求めて推
定するのである。
【0055】尚、その場合における上記適応モデルは、
例えば、音響モデルの各状態が予め設定された正規化対
象の音素区間に属しているか否かを判別し、属している
状態に関して、上記音響モデルを入力音声データに話者
適応させる話者適応モデル作成手段によって作成すれば
よい。
【0056】ここで、標準モデル(全話者音響モデル格
納部17に格納された全話者モデルに相当)と入力モデ
ル(上記適応モデルに相当)との2つの音響モデルの対応
する状態間の尤度を、標準モデルの出力確率密度関数r
i()に、入力モデルの出力確率密度関数bi()の平均値ベ
クトルμ iを上記周波数ワーピング関数f()で周波数ワ
ープして得られたベクトルμ i fを代入したときの値と
定義する。上記各出力確率密度関数は多次元ガウス分布
であって、平均値ベクトルと分散ベクトルから成ってい
る。
【0057】そして、正規化対象の出力確率密度関数集
合Ωにおける第i番目の状態間の尤度ri i f)に基づ
いて、周波数ワーピング関数f()の最適係数α^は、式
(1)に示すように尤度ri i f)の和を最大にする係数
として推定されるのである。 ここで、 Ω:正規化対象の出力確率密度関数集合の
インデックス ri():標準モデルの第i番目の出力確率密度関数 f():αを係数とする周波数ワーピング関数 μ i f:入力モデルにおける第i番目の出力確率密度関
数bi()の平均値ベクトルμ iをf()で周波数ワープし
たベクトル 尚、上記正規化対象の出力確率密度関数集合Ωは、後述
する正規化対象の音素区間に属する音素に関する音響モ
デルの出力確率密度関数の集合である。
【0058】上記音響分析部2による音響分析で得られ
る音響パラメータや上記音響モデルの出力確率密度関数
の引数は、通常MFCCやLPCケプストラムである。
これらの音響パラメータの各次元はケプストラムと呼ば
れる物理量であって、周波数ではない。そこで、上記周
波数ワープ処理を行なう際には、学習データである音響
パラメータからスペクトルへの変換C-1(ケプストラム
の場合は逆cos変換)を行なって周波数次元に変換する。
そして、周波数ワープ処理終了後は、逆変換C(ケプス
トラムの場合はcos変換)を行なって元の音響パラメータ
次元に戻すのである。すなわち、μ i f=C(f(C-1
i)))となる。ここで、C-1,Cは、音響パラメータから
スペクトルへの変換とその逆変換である。
【0059】このように、上記正規化対象の音素区間に
属する音素に関してのみ周波数ワーピング関数f()の最
適係数αを最尤推定することによって、少ない音声デー
タによって、精度良く周波数ワーピング関数f()を推定
できるのである。
【0060】一方、上記周波数ワープ関数推定部5にお
ける上記周波数ワーピング関数fの推定方法が上記推定
方法(B)である場合には、音響分析部2からの入力音響
パラメータ系列を直接用いて、以下の手順によって周波
数ワーピング関数f()の最適係数αを推定する。尚、上
述したごとく、図1に示す音声認識装置における周波数
ワープ関数推定部5には上記推定方法(B)が適用されて
いる。したがって、以下の推定手順を行うことになる。
ここで、入力音声サンプルXjのインデックスjの全集
合をΨとおく。
【0061】(1)αに初期値を代入する。そして、あ
る入力音響パラメータ系列Xjに、αを係数とする周波
数ワーピング関数f()を作用させて周波数ワープを行
う。ここで、Xj={x j(t)}(t=1,2,…,Tj)であ
り、「x j(t)」は時刻(フレーム)tにおける音響パラメ
ータベクトル、Tjは音響パラメータ系列Xjにおける最
終時刻(フレーム)である。
【0062】(2)ビタビアルゴリズムを用いて、上記
周波数ワープが行われた入力音響パラメータ系列Xj f
標準モデル(全話者音響モデル格納部17に格納された
全話者モデルに相当)に対する累積尤度P(Xj f|Wj)を
求める。ここで、Wjは入力音響パラメータ系列Xj f
音素列である。
【0063】(3)係数αを、定義域「0.88<α<1.
13」内において、例えば0.02きざみで移動させなが
ら、上記(1)と(2)との処理とを繰り返して累積尤度P
を求める。
【0064】(4) 上記(1)〜(3)の処理を総ての入力
音声サンプル{Xj}(j∈Ψ)に対して実行し、式(2)に
よって累積尤度Pの総和を最大にする係数α~を求め
る。以上の手順(1)から手順(4)までの処理は、最尤推
定部16によって行われる。
【0065】(5) 上記求められたα~を係数とする周波
数ワーピング関数f~()を用いて、ビタビアルゴリズムに
よって、サンプル毎に音素境界情報が求められる。そし
て、全入力音声サンプル{Xj}(j∈Ψ)のうち、上記サ
ンプル毎の音素境界情報に基づく正規化対象となる音素
区間の音響パラメータ系列の集合を{X- j}とおく。そし
て、この{X- j}に関して、式(3)によって、累積尤度P
の総和を最大にする係数α^を求めるのである。尚、本
手順(5)におけるサンプル毎の音素境界情報の算出は音
素境界推定部15で行われ、係数α^の算出は最尤推定
部16によって行われる。
【0066】このように、上記正規化対象の音素区間に
属する音素に関してのみ周波数ワーピング関数f()の最
適係数αを最尤推定することによって、少ない音声デー
タによって、精度良く周波数ワーピング関数f()を推定
できるのである。
【0067】尚、上記周波数ワーピング関数f()推定処
理における音素境界推定部15と最尤推定部16との処
理の区分は、上述に限定されるものではない。例えば、
手順(2)におけるビタビ演算を、音素境界推定部15で
行うようにしても差し支えない。
【0068】次に、上記学習時には最尤推定部16と周
波数ワープ部4とで、認識時には周波数ワープ部4で周
波数ワープを行う際に、最尤推定部16および周波数ワ
ープ部4によって行われる上記音素境界情報に基づく対
象音素区間の限定について説明する。
【0069】上述したように、学習時および認識時にお
いては、周波数ワープ関数推定部5の音素境界推定部1
5によって、入力話者の音響パラメータ系列あるいはこ
の入力音響パラメータ系列に基づく適応モデルに、発話
内容の音素列や言語モデル格納部13に格納された弱い
文法の言語モデルを適用させて、全話者音響モデル格納
部12に格納された全話者モデルや話者クラスタにクラ
スタリングされた全話者モデルから選択されたものを用
いたビタビアルゴリズムによって音素境界情報を求め、
最尤推定部16(学習時)および周波数ワープ部4(学習
時,認識時)に送出するようにしている。
【0070】そうすると、上記最尤推定部16および周
波数ワープ部4は、上記周波数ワープ関数推定部5から
の音素境界情報に基づいて、入力音声データのうち周波
数ワープ処理の対象とする音素区間を制御するのであ
る。本実施の形態においては、音素を表1に示す5種類
に分類する。 表1
【0071】そして、この分類に基づいて、以下のよう
な区別に従って、上記最尤推定部16は学習時の周波数
ワープを制御し、周波数ワープ部4は学習時および認識
時の正規化を制御するのである。 ・学習時…分類[d] ・認識時…分類[c],分類[d],分類[e],(分類[b]) 但し、認識時には、分類[b]を含めてもよい。発音の仕
方によっては、音素「イ」も音素「ウ」と同様に狭母音なの
でフォルマント周波数が大きく変動する場合がある。し
たがって分類[e]に音素「イ」を含め、分類[d]から音素
「イ」を除いてもよい。
【0072】尚、上記周波数ワープ部4による正規化処
理対象の音素区間制御方法は、周波数ワープ関数推定部
5の音素境界推定部15が用いる全話者モデルの規模に
応じて二通りある。 ・全話者音響モデル格納部12の容量に余裕があるため
に、全話者モデルの規模を非常に大きくできる場合に
は、分類[b]の調音点が歯茎より前に位置する子音を分
離可能な音素境界情報を精度良く推定できるので、分類
[c],分類[d],分類[e]のみを正規化対象区間とする。 ・全話者モデルの規模をある程度大きくできる場合に
は、分類[b]を分離可能な音素境界情報を推定できない
ために上述のごとく分類[b]を入れて、分類[b],分類
[c],分類[d],分類[e]を正規化対象区間とする。つま
り、無音区間のみを正規化対象の音素から外すのであ
る。
【0073】上述したように、本実施の形態における音
声認識装置は、高精度認識を行うために周波数ワープ部
4において周波数ワープの対象とする音素区間を限定す
るようにしている。しかしながら、計算資源(処理能力)
に余裕がないシステムに搭載する場合には、全話者モデ
ルの規模を大きくできないため精度良く音素境界情報を
推定することができない。そのような場合には、周波数
ワープ部4を常に動作させて、全音素区間を対象に周波
数ワープを行っても差し支えない。このように精度良く
音素境界情報を推定できない場合でも、分類[d]の声道
長の影響を直接受ける母音は推定できる。したがって、
周波数ワープ関数推定部5の最尤推定部16によって推
定された周波数ワーピング関数f()は、音素境界推定部
15からの音素境界情報に基づいて声道長の影響を直接
受ける分類[d]の母音のみから得られていることにな
る。したがって、周波数ワープ部4による周波数ワープ
の際に声道長の影響を受け難い音素区間と無音区間とが
不必要に変形されることを防止するという効果は得るこ
とができるのである。
【0074】最後に、上記周波数ワープ関数推定部5の
音素境界推定部15が、学習時および認識時に用いる言
語モデルについて説明する。表2に、各動作モード時に
おける周波数ワープ関数推定部5が用いる言語モデルの
切換状況を示す。表2
【0075】表2において、通常の認識処理時における
言語モデル「なし」とは、上述のごとく全音素区間を正規
化対象とするために正規化対象制御用の音素境界情報を
推定する必要がなく、ビタビアルゴリズムを動作させな
いために言語モデルを使用しないという意味である。ま
た、学習モードにおける「教師あり」とは、上述したよう
に、音素境界情報の推定時にビタビアルゴリズムを行う
際に発話内容の音素列を使用することであり、単語列入
力部6から入力される音素列そのものが言語モデルとな
る。これに対して、「教師なし」とは、発話内容の音素列
を使用しないものであり、言語モデル格納部13に格納
された弱い文法の言語モデルを使用するのである。
【0076】尚、上記弱い文法の言語モデルに代えて、
認識結果を使用することも可能である。この場合、照合
部9からの出力である認識結果を発話内容の音素列とし
て使用するのである。つまり、一度認識処理を行ってか
ら再び学習モード時における周波数ワープ関数推定部5
の処理動作に戻るのである。その場合には、図1に破線
で示すように、出力部11からの認識単語列を一種の教
師音素列として単語列入力部6に入力する。但し、発話
内容に規制が無いので照合部9用の言語モデルを、音素
境界推定部15でのビタビ演算に流用してよいかどうか
という問題はある。
【0077】上述したように、本実施の形態において
は、上記音素境界推定部15と最尤推定部16を有する
周波数関数推定部5を備えている。そして、音素境界推
定部15は、学習時には、音響分析部2からの入力音響
パラメータ系列に、教師ありの場合には単語列入力部6
からの音素列(言語モデル)を適用させる一方、教師なし
の場合には言語モデル格納部13に格納された弱い文法
の言語モデルを適用させて、全話者音響モデル格納部1
2に格納された全話者音響モデルを用いたビタビアルゴ
リズムによって音素境界情報を求めるのである。
【0078】そうすると、上記最尤推定部16は、周波
数ワーピング関数f()の係数αを例えば「0.88<α<
1.13」間において所定値ずつ増加させながら、入力音
響パラメータ系列Xjの周波数ワープを行う。そして、
上記周波数ワープが行われた入力音響パラメータ系列X
j fのうち、上記音素境界情報に基づいて上記表1に従っ
て上述のように設定された正規化対象となる音素区間の
音響パラメータ系列のみに関して、全話者音響モデル格
納部17に格納された全話者モデルに対する累積尤度P
を最大にする係数α^を最尤推定する。そして、推定さ
れた係数α^を係数とする周波数ワーピング関数f()を関
数格納部18に格納するのである。
【0079】これに対して、認識時には、事前ワープ部
19によって上記関数格納部18に格納されている周波
数ワーピング関数fを用いて、認識対象の音響パラメー
タ系列を事前ワープする。そして、音素境界推定部15
によって、上記教師なし学習時と同様に弱い文法の言語
モデルを適用させて、ビタビアルゴリズムによって音素
境界情報を求めるのである。
【0080】こうして、上記周波数関数推定部5によっ
て、推定された周波数ワーピング関数f()と音素境界情
報とが、周波数ワープ部4に送出される。そして、周波
数ワープ部4によって、上記音素境界情報に基づいて正
規化対象となる音素区間が上記表1に従って学習時およ
び認識時に応じて上述のように制御され、その制御結果
に従って、当該認識対象の入力音響パラメータ系列が周
波数ワープされるのである。
【0081】したがって、本実施の形態によれば、話者
と標準話者との声道長の差を表わす声道長正規化係数α
を係数とする周波数ワーピング関数f()を用いて、最尤
推定部16および周波数ワープ部4によって入力音響パ
ラメータ系列を周波数ワープ(正規化)するに際して、周
波数ワープの対象となる音素区間を制御することができ
る。その結果、声道長の差の影響を受け難い音素や無音
部を正規化対象外とすることによって、声道長の差の影
響を受け難い音素や無音部まで学習および正規化されて
しまうことを防止できる。
【0082】すなわち、少ない発声データから安定して
話者特徴を抽出し、その抽出結果を用いて精度よく話者
正規化することによって、高い認識性能を得ることがで
きるのである。
【0083】また、上記周波数ワープ部4による正規化
対象となる音素区間の制御は、上記表1の音素分類に従
って、学習時には分類[d](「ウ」を除く母音)を正規化対
象音素区間とする。さらに、 認識時には分類[c](調音
点が歯茎より後に位置する子音,半母音),分類[d],分類
[e](母音「ウ」,撥音),(分類[b](調音点が歯茎より前に
位置する子音))を正規化対象音素区間とするようにして
いる。こうして、学習時および認識時における非正規化
音素区間を、有音無音の別および調音点の位置に従って
設定することによって、声道長の影響を受け難い音素区
間と無音区間とが学習および正規化されることを、確実
に防止することができるのである。
【0084】<第2実施の形態>図5は、本実施の形態
の音声認識装置におけるブロック図である。尚、この音
声認識装置は、話者適応方式を用いた音声認識装置であ
る。音声入力部21,音響分析部22,単語列入力部2
6,尤度演算部27,照合部29,辞書格納部30および
出力部31は、図1に示す上記第1実施の形態における
音声入力部1,音響分析部2,単語列入力部6,尤度演算
部7,照合部9,辞書格納部10および出力部11と同様
である。また、周波数ワープ関数推定部24,全話者音
響モデル格納部32,言語モデル格納部33および不特
定話者音響モデル格納部34は、図1に示す周波数ワー
プ関数推定部5,全話者音響モデル格納部12,言語モデ
ル格納部13および不特定話者音響モデル格納部8と同
様である。尚、周波数ワープ関数推定部24,全話者音
響モデル格納部32,言語モデル格納部33および不特
定話者音響モデル格納部34は、周波数ワープ部25と
共に、話者適応部23を構成している。
【0085】上記話者適応部23の周波数ワープ関数推
定部24は、上記第1実施の形態の場合と同様にして、
学習音響パラメータ系列に発話内容音素列あるいは弱い
文法の言語モデルを適用して、全話者モデルを用いたビ
タビアルゴリズムを行って、音素境界情報および周波数
ワーピング関数f()を推定する。そうすると、周波数ワ
ープ部25は、この推定された周波数ワーピング関数
f()の逆関数を用いて、不特定話者音響モデル格納部3
4に格納された不特定話者モデルを周波数ワープする。
その場合、上記周波数ワープに際しては、上記音素境界
情報に基づいて、上記表1における分類[b],分類[c],
分類[d],分類[e]に該当する音素の状態に対してのみ
変換を行うことによって行う。そして、それ以外の状態
は変換しないのである。但し、声道長の影響を受け難い
分類[b]に該当する音素の状態は、変換しない場合もあ
る。こうして周波数ワープされた不特定話者音響モデル
を、話者適応モデル(HMM)として話者適応音響モデル
格納部28に格納するのである。
【0086】こうして学習が終了すると、認識時には、
上記尤度演算部27によって、音響分析部22からの入
力音声の音響パラメータ系列に対して、話者適応音響モ
デル格納部28に格納された話者適応モデルを作用させ
て、上述した尤度演算処理を行なうのである。
【0087】このように、本実施の形態においては、学
習時に、上記周波数ワープ関数推定部24によって、学
習音響パラメータ系列に基づいて上記音素境界情報およ
び周波数ワーピング関数f()を推定する。そして、周波
数ワープ部25によって、上記推定された周波数ワーピ
ング関数f()の逆関数を用いて、分類[c],分類[d],分
類[e](,分類[b])に該当する音素の不特定話者モデル
を周波数ワープすることによって、不特定話者モデルを
話者適応させるようにしている。
【0088】したがって、本実施の形態によれば、上記
不特定話者モデルを話者適応させる際における非正規化
音素区間を、無音区間と長音点が歯茎より前に位置する
子音とに設定することができる。その結果、声道長の影
響を受け難い音素区間と無音区間とが不必要に変形され
ることを確実に防止することができるのである。
【0089】すなわち、本実施の形態によれば、少ない
発声データから安定して話者特徴を抽出し、その抽出結
果を用いて精度よく話者適応を行うことによって、高い
認識性能を得ることができるのである。
【0090】尚、本実施の形態における上記話者適応音
響モデル格納部28に格納する話者適応モデルの与え方
には、上述の与え方の以外に、話者クラスタを用いる方
法を採用してもよい。そして、この二通りの与え方を、
音声認識装置の規模や入力音声データの量や質に応じて
使い分けるのである。ここで、音声データの質とは尤度
の上昇具合であり、話者適応部23は、上記二通りの与
え方による尤度の上昇具合を見計らって、上昇の大きい
推定方法を採用するのである。長いエンロール期間が許
容できる音声認識装置の場合には、このような推定処理
も可能となる。尚、上記話者クラスタを用いる方法にお
いては、学習音声データに対する尤度が最大値になる話
者クラスタの音響モデルを選択する。そして、この選択
された音響モデルを話者適応モデルとして話者適応音響
モデル格納部28に格納するのである。
【0091】また、上述した二つの与え方の何れかによ
って得られた話者適応モデルを初期モデルとして、上記
MLLR方やVFS法等の既存の話者適応技術を用いて
話者適応を行って新たに話者適応モデルを生成し、これ
を尤度演算部で用いるようにしても差し支えない。
【0092】<第3実施の形態>図6は、本実施の形態
のテキスト音声合成装置におけるブロック図である。な
お、このテキスト音声合成装置は、声質変換方式を用い
たテキスト音声合成装置である。テキスト解析部41
は、単語とそのアクセント型とが格納されたアクセント
辞書42を用い、入力テキストに対して形態素解析およ
び係り受け解析を行って音素文字列とアクセント情報と
を生成して韻律生成部43に送出する。韻律生成部43
は、韻律制御テーブル44を参照して、継続時間長やピ
ッチやパワーの韻律情報を生成して、音素文字列と共に
音声素片選択部45に送出する。そうすると、音声素片
選択部45は、音声素片辞書46から音素環境や韻律環
境に最適な音声素片を選択し、音声素片情報を生成す
る。そして、この生成された音声素片情報を周波数ワー
プ部48に出力する一方、上記韻律情報を音声素片合成
部47に出力する。
【0093】一方、周波数ワープ関数推定部49は、声
質変換のターゲット話者の入力音声波形を基に、第1,
第2実施の形態の場合と同様にして、上記音素境界情報
および周波数ワーピング関数f()を推定する。そうする
と、周波数ワープ部48は、音声素片選択部45からの
音声素片情報に含まれる音素境界情報に基づいて音質変
換対象となる音素区間を上記表1に従って上述のように
選択する。そして、その選択結果に従って、当該音質変
換対象の音声素片情報である音響パラメータ系列を、上
記推定された周波数ワーピング関数f()の逆関数を用い
て周波数ワープし、周波数ワープ後の音声素片情報を音
声素片合成部47に送出する。最後に、音声素片合成部
47は、周波数ワープ部48からの周波数ワープ後の音
声素片情報(音声素片の音響パラメータ系列)と音声素片
選択部45からの韻律情報とを用いて、音声波形を生成
しスピーカ50から音声出力するのである。
【0094】上述のように、本実施の形態においては、
テキスト音声合成を行うに際して、上記周波数ワープ関
数推定部49によって、声質変換のターゲット話者にお
ける入力音声の音響パラメータ系列から上記音素境界情
報および周波数ワーピング関数f()を推定する。そし
て、周波数ワープ部48によって、上記音声素片情報に
含まれる音素境界情報に基づいて音質変換対象となる音
素区間を制御し、上記推定周波数ワーピング関数f()の
逆関数を用いて、テキストに基づいて選択された音声素
片の音質変換対象となる音響パラメータ系列を周波数ワ
ープすることによって、声質変換を行うようにしてい
る。
【0095】したがって、本実施の形態によれば、テキ
ストに基づいて選択された音声素片をターゲット話者の
音質に変換する際における非声質変換音素区間を、無音
区間と長音点が歯茎より前に位置する子音とに設定する
ことができる。その結果、声道長の影響を受け難い音素
区間と無音区間とが不必要に変形されることを確実に防
止することができるのである。
【0096】すなわち、本実施の形態によれば、少ない
発声データから安定して話者特徴を抽出し、その抽出結
果を用いて精度よく声質変換を行うことによって正しく
音質変換を行うことができるのである。
【0097】本実施の形態はスペクトル包絡の変換であ
り、声質の適応におおいに効果がある。しかしながら、
話者間の声の特徴差は声質だけでなはく韻律が大きく寄
与する。したがって、本実施の形態に対して韻律の適応
技術を併用しても構わない。
【0098】尚、上述した各実施の形態においては、上
記周波数ワープ部4,25,48において音響パラメータ
系列を周波数ワープする場合に、音声素片選択部45か
らの音声素片情報に含まれる音素境界情報に基づいて周
波数ワープの対象となる音素区間を制御するようにして
いる。しかしながら、この発明においては、必ずしもそ
の必要はなく、総ての音素区間に対して周波数ワープを
行っても構わない。その場合であっても、周波数ワープ
関数推定部5,24,49によって推定された周波数ワー
ピング関数f()は、上記音素境界推定部15からの音素
境界情報に基づいて声道長の影響を直接受ける分類[d]
の母音のみから推定されている。したがって、周波数ワ
ープ部4,25,48による周波数ワープの際に声道長の
影響を受け難い音素区間と無音区間とが不必要に変形さ
れることを防止するという効果は得ることができるので
ある。
【0099】また、上述した各実施の形態においては、
上記周波数ワーピング関数f()で成る話者特徴を用いて
話者正規化または話者適応を行う音声認識装置、およ
び、上記周波数ワーピング関数f()で成る話者特徴を用
いて声質変換を行う音声合成装置について説明してい
る。しかしながら、この発明は、上記周波数ワーピング
関数f()を話者特徴として抽出する話者特徴抽出装置に
も適用されるものである。
【0100】ところで、その場合の話者特徴抽出装置に
おける上記話者適応モデル作成手段,周波数伸縮関数推
定手段あるいは音素境界情報推定手段,最尤推定手段と
しての機能は、プログラム記録媒体に記録された話者特
徴抽出処理プログラムによって実現される。上記プログ
ラム記録媒体は、ROM(リード・オンリ・メモリ)でなる
プログラムメディアである。あるいは、外部補助記憶装
置に装着されて読み出されるプログラムメディアであっ
てもよい。尚、何れの場合においても、上記プログラム
メディアから話者特徴抽出処理プログラムを読み出すプ
ログラム読み出し手段は、上記プログラムメディアに直
接アクセスして読み出す構成を有していてもよいし、R
AM(ランダム・アクセス・メモリ)に設けられたプログラ
ム記憶エリア(図示せず)にダウンロードして、上記プロ
グラム記憶エリアにアクセスして読み出す構成を有して
いてもよい。尚、上記プログラムメディアからRAMの
上記プログラム記憶エリアにダウンロードするためのダ
ウンロードプログラムは、予め本体装置に格納されてい
るものとする。
【0101】ここで、上記プログラムメディアとは、本
体側と分離可能に構成され、磁気テープやカセットテー
プ等のテープ系、フロッピー(登録商標)ディスク,ハ
ードディスク等の磁気ディスクやCD(コンパクトディ
スク)‐ROM,MO(光磁気)ディスク,MD(ミニディス
ク),DVD(ディジタルビデオディスク)等の光ディスク
のディスク系、IC(集積回路)カードや光カード等のカ
ード系、マスクROM,EPROM(紫外線消去型RO
M),EEPROM(電気的消去型ROM),フラッシュR
OM等の半導体メモリ系を含めた、固定的にプログラム
を坦持する媒体である。
【0102】また、上記各実施の形態における音声認識
装置,音声合成装置および話者特徴抽出装置は、モデム
を備えてインターネットを含む通信ネットワークと接続
可能な構成を有していれば、上記プログラムメディア
は、通信ネットワークからのダウンロード等によって流
動的にプログラムを坦持する媒体であっても差し支えな
い。尚、その場合における上記通信ネットワークからダ
ウンロードするためのダウンロードプログラムは、予め
本体装置に格納されているものとする。または、別の記
録媒体からインストールされるものとする。
【0103】尚、上記記録媒体に記録されるものはプロ
グラムのみに限定されるものではなく、データも記録す
ることが可能である。
【0104】
【発明の効果】以上より明らかなように、第1の発明の
話者特徴抽出装置は、話者適応モデル作成手段によっ
て、有音無音の別及び調音点の位置に従って設定された
音声区間に属する音響モデルの状態に関して、入力音声
サンプルに話者適応された話者適応音響モデルを作成
し、周波数伸縮関数推定手段によって、上記話者適応音
響モデルを用いて上記周波数伸縮関数の最尤推定を行う
ので、声道長の差の影響を受け難い音素や無音部を上記
最尤推定時における周波数軸伸縮の対象外にして、声道
長の差の影響を受け難い音素や無音部までが変形される
のを防止することが可能になる。したがって、少ない発
声データから、発声データの内容に依存せずに安定して
話者特徴を抽出できる。
【0105】また、第2の発明の話者特徴抽出装置は、
音素境界情報推定手段によって入力話者の音声サンプル
から音素境界情報を推定し、最尤推定手段によって、上
記音素境界情報に基づいて、有音無音の別および調音点
の位置に従って、話者特徴としての周波数伸縮関数を最
尤推定する音声区間を選択するので、声道長の差の影響
を受け難い音素や無音部を上記最尤推定時における周波
数軸伸縮の対象外にして、声道長の差の影響を受け難い
音素や無音部までが変形されるのを防止することが可能
になる。したがって、少ない発声データから、発声デー
タの内容に依存せずに安定して話者特徴を抽出できる。
【0106】また、第3の発明の音声認識装置は、正規
化手段を、上記第1の発明あるいは第2の発明の話者特
徴抽出装置と、上記話者特徴抽出装置によって抽出され
た周波数伸縮関数を用いて入力話者の音声スペクトルの
周波数軸を伸縮する周波数ワープ手段で構成したので、
声道長の差の影響を受け難い音素や無音部まで変形する
ことなく安定して話者正規化を行うことができる。した
がって、少ない発声データから高い精度で認識結果を得
ることができる。
【0107】また、上記第3の発明の音声認識装置は、
上記周波数ワープ手段を、上記第2の発明の話者特徴抽
出装置からの音素境界情報に基づいて、有音無音の別お
よび調音点の位置に従って、上記周波数軸を伸縮する音
声区間を選択するように成せば、話者正規化の際に、上
記声道長の差の影響を受け難い音素や無音部まで変形す
ることをより確実に防止できる。したがって、認識精度
を更に高めることができる。
【0108】また、第4の発明の音声認識装置は、話者
適応手段を、上記第1の発明あるいは第2の発明の話者
特徴抽出装置と、上記話者特徴抽出装置で抽出された周
波数伸縮関数の逆関数を用いて音響モデルの周波数軸を
伸縮する周波数ワープ手段で構成したので、声道長の差
の影響を受け難い音素や無音部まで変形することなく安
定して話者適応を行うことができる。したがって、少な
い発声データから高い精度で認識結果を得ることができ
る。
【0109】また、上記第4の発明の音声認識装置は、
上記周波数ワープ手段を、上記第2の発明の話者特徴抽
出装置からの音素境界情報に基づいて、有音無音の別お
よび調音点の位置に従って、上記周波数軸を伸縮する音
声区間を選択するように成せば、話者適応の際に、上記
声道長の差の影響を受け難い音素や無音部まで変形する
ことをより確実に防止できる。したがって、認識精度を
更に高めることができる。
【0110】また、第5の発明の音声合成装置は、声質
変換手段を、上記第1の発明あるいは第2の発明の話者
特徴抽出装置と、上記話者特徴抽出装置によって抽出さ
れた周波数伸縮関数の逆関数を用いて標準話者の音声素
片の周波数軸を伸縮する周波数ワープ手段で構成したの
で、声道長の差の影響を受け難い音素や無音部まで変形
することなく安定して声質変換を行うことができる。し
たがって、少ない発声データからより入力話者の声質に
近い合成音声を得ることができる。
【0111】また、上記第5の発明の音声合成装置は、
上記周波数ワープ手段を、上記音声素片の情報からの音
素境界情報に基づいて、有音無音の別および調音点の位
置に従って、上記周波数軸を伸縮する音声区間を選択す
るように成せば、声質変換の際に、上記声道長の差の影
響を受け難い音素や無音部までが変形されることをより
確実に防止できる。したがって、さらに入力話者の声質
に近い合成音声を得ることができる。
【0112】また、第6の発明の話者特徴抽出方法は、
入力話者の音声サンプルから音素境界情報を推定し、上
記音素境界情報に基づく有音無音の別及び調音点の位置
に従って特徴抽出の対象とする音声区間を選択し、上記
選択された音声区間に関して話者特徴としての周波数伸
縮関数を最尤推定するので、声道長の差の影響を受け難
い音素や無音部を上記最尤推定時における周波数軸伸縮
の対象外にして、声道長の差の影響を受け難い音素や無
音部まで変形されるのを防止することが可能になる。し
たがって、少ない発声データから、発声データの内容に
依存せずに安定して話者特徴を抽出できる。
【0113】また、第7の発明のプログラム記録媒体
は、コンピュータを、上記第1の発明における話者適応
モデル作成手段および周波数伸縮関数推定手段あるいは
上記第2の発明における音素境界情報推定手段および最
尤推定手段として機能させる話者特徴抽出処理プログラ
ムが記録されているので、上記第1の発明あるいは第2
の発明の場合と同様に、声道長の差の影響を受け難い音
素や無音部までが変形されるのを防止することが可能に
なる。したがって、少ない発声データから、発声データ
の内容に依存せずに安定して話者特徴を抽出することが
できる。
【図面の簡単な説明】
【図1】 この発明の話者正規化方式を用いた音声認識
装置におけるブロック図である。
【図2】 図1における周波数ワープ関数推定部の学習
時に機能する部分の詳細なブロック図である。
【図3】 図1における周波数ワープ関数推定部の認識
時に機能する部分の詳細なブロック図である。
【図4】 周波数ワーピング関数の一例を示す図であ
る。
【図5】 図1とは異なる話者適応方式を用いた音声認
識装置におけるブロック図である。
【図6】 この発明の音声合成装置のブロック図であ
る。
【符号の説明】
1,21…音声入力部、 2,22…音響分析部、 3…話者正規化部、 4,25,48…周波数ワープ部、 5,24,49…周波数ワープ関数推定部、 6,26…単語列入力部、 7,27…尤度演算部、 8,34…不特定話者音響モデル格納部、 9,29…照合部、 10,30…辞書格納部、 11,31…出力部、 12,17,32…全話者音響モデル格納部、 13,33…言語モデル格納部、 15…音素境界推定部、 16…最尤推定部、 18…関数格納部、 19…事前ワープ部、 23…話者適応部、 28…話者適応音響モデル格納部、 41…テキスト解析部、 43…韻律生成部、 45…音声素片選択部、 47…音声素片合成部、 50…スピーカ。

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 入力話者の音声から、標準話者の音声ス
    ペクトルに対して上記入力話者の音声スペクトルの周波
    数軸を伸縮する際の周波数伸縮関数を話者特徴として抽
    出する話者特徴抽出装置において、 音響モデルの各状態が、有音無音の別および調音点の位
    置に従って予め設定された音声区間に属しているか否か
    を判別し、属している状態に関して、上記音響モデルを
    入力音声サンプルに話者適応させて話者適応音響モデル
    を作成する話者適応モデル作成手段と、 上記標準話者の音響モデルに対して上記話者適応音響モ
    デルの尤度を最大にするという基準に従って上記周波数
    伸縮関数を最尤推定する周波数伸縮関数推定手段を備え
    たことを特徴とする話者特徴抽出装置。
  2. 【請求項2】 入力話者の音声から、標準話者の音声ス
    ペクトルに対して上記入力話者の音声スペクトルの周波
    数軸を伸縮する際の周波数伸縮関数を話者特徴として抽
    出する話者特徴抽出装置において、 上記入力話者の音声サンプルから音響モデルを用いたビ
    タビアルゴリズムによって音素境界情報を推定する音素
    境界情報推定手段と、 上記標準話者の音響モデルに対して当該入力話者の音声
    サンプルの尤度を最大にするという基準に従って上記周
    波数伸縮関数を最尤推定するに際して、上記音素境界情
    報に基づいて、有音無音の別および調音点の位置に従っ
    て上記最尤推定を行う音声区間を選択する機能を有する
    最尤推定手段を備えたことを特徴とする話者特徴抽出装
    置。
  3. 【請求項3】 標準話者の音声スペクトルに対して入力
    話者の音声スペクトルの周波数軸を伸縮する際の周波数
    伸縮関数を用いて入力話者の音声スペクトルの周波数軸
    を伸縮することによって上記入力話者の音声を正規化す
    る正規化手段を有する音声認識装置において、 上記正規化手段は、 請求項1あるいは請求項2に記載の話者特徴抽出装置
    と、 上記話者特徴抽出装置によって抽出された周波数伸縮関
    数を用いて、上記入力話者の音声スペクトルの周波数軸
    を伸縮する周波数ワープ手段で構成されていることを特
    徴とする音声認識装置。
  4. 【請求項4】 請求項3に記載の音声認識装置におい
    て、 上記周波数ワープ手段は、請求項2に記載の話者特徴抽
    出装置における音素境界情報推定手段によって推定され
    た音素境界情報に基づいて、有音無音の別および調音点
    の位置に従って上記周波数軸を伸縮する音声区間を選択
    する機能を有していることを特徴とする音声認識装置。
  5. 【請求項5】 入力話者の音声スペクトルに対して標準
    話者の音声スペクトルの周波数軸を伸縮する際の周波数
    伸縮関数を用いて音声のスペクトルの周波数軸を伸縮す
    ることによって音響モデルを入力話者に話者適応させる
    話者適応手段を有する音声認識装置において、 上記話者適応手段は、 請求項1あるいは請求項2に記載の話者特徴抽出装置
    と、 上記話者特徴抽出装置によって抽出された周波数伸縮関
    数の逆関数を用いて、上記音響モデルの周波数軸を伸縮
    する周波数ワープ手段で構成されていることを特徴とす
    る音声認識装置。
  6. 【請求項6】 請求項5に記載の音声認識装置におい
    て、 上記周波数ワープ手段は、請求項2に記載の話者特徴抽
    出装置における音素境界情報推定手段によって推定され
    た音素境界情報に基づいて、有音無音の別および調音点
    の位置に従って上記周波数軸を伸縮する音声区間を選択
    する機能を有していることを特徴とする音声認識装置。
  7. 【請求項7】 入力話者の音声スペクトルに対して標準
    話者の音声スペクトルの周波数軸を伸縮する際の周波数
    伸縮関数を用いて音声のスペクトルの周波数軸を伸縮す
    ることによって、標準話者の音声素片を接続して成る合
    成音声の声質を発話者の声質に変換する声質変換手段を
    有する音声合成装置において、 上記声質変換手段は、 請求項1あるいは請求項2に記載の話者特徴抽出装置
    と、 上記話者特徴抽出装置によって抽出された周波数伸縮関
    数の逆関数を用いて、上記音声素片の周波数軸を伸縮す
    る周波数ワープ手段で構成されていることを特徴とする
    音声合成装置。
  8. 【請求項8】 請求項7に記載の音声合成装置におい
    て、 上記周波数ワープ手段は、音声素片の情報からの音素境
    界情報に基づいて、有音無音の別および調音点の位置に
    従って上記周波数軸を伸縮する音声区間を選択する機能
    を有していることを特徴とする音声認識装置。
  9. 【請求項9】 入力話者の音声から、標準話者の音声ス
    ペクトルに対して上記入力話者の音声スペクトルの周波
    数軸を伸縮する際の周波数伸縮関数を話者特徴として抽
    出する話者特徴抽出方法において、 上記入力話者の音声サンプルから音響モデルを用いたビ
    タビアルゴリズムによって音素境界情報を推定し、 上記音素境界情報に基づいて、有音無音の別および調音
    点の位置に従って、特徴抽出の対象とする音声区間を選
    択し、 上記選択された音声区間に関し、上記標準話者の音響モ
    デルに対して当該入力話者の音声サンプルの尤度を最大
    にするという基準に従って上記周波数伸縮関数を最尤推
    定することを特徴とする話者特徴抽出方法。
  10. 【請求項10】 コンピュータを、 請求項1における話者適応モデル作成手段および周波数
    伸縮関数推定手段あるいは請求項2における上記音素境
    界情報推定手段および最尤推定手段として機能させる話
    者特徴抽出処理プログラムが記録されたことを特徴とす
    るコンピュータ読出し可能なプログラム記録媒体。
JP2000385201A 2000-12-19 2000-12-19 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体 Pending JP2002189491A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000385201A JP2002189491A (ja) 2000-12-19 2000-12-19 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000385201A JP2002189491A (ja) 2000-12-19 2000-12-19 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体

Publications (1)

Publication Number Publication Date
JP2002189491A true JP2002189491A (ja) 2002-07-05

Family

ID=18852511

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000385201A Pending JP2002189491A (ja) 2000-12-19 2000-12-19 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体

Country Status (1)

Country Link
JP (1) JP2002189491A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111883106A (zh) * 2020-07-27 2020-11-03 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111883106A (zh) * 2020-07-27 2020-11-03 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法及装置
CN111883106B (zh) * 2020-07-27 2024-04-19 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法及装置

Similar Documents

Publication Publication Date Title
O'shaughnessy Interacting with computers by voice: automatic speech recognition and synthesis
KR100612840B1 (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
JP4274962B2 (ja) 音声認識システム
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP4176169B2 (ja) 言語合成のためのランタイムアコースティックユニット選択方法及び装置
US5682501A (en) Speech synthesis system
JPH11272291A (ja) 音響判断ツリ―を用いたフォネティック・モデル化方法
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
JP3919475B2 (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
Kathania et al. Explicit pitch mapping for improved children’s speech recognition
JP3646060B2 (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体
JP5574344B2 (ja) 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP3754613B2 (ja) 話者特徴推定装置および話者特徴推定方法、クラスタモデル作成装置、音声認識装置、音声合成装置、並びに、プログラム記録媒体
Sakai et al. A probabilistic approach to unit selection for corpus-based speech synthesis.
JP3754614B2 (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
JPH1097293A (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
JP2002189491A (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体
Shahnawazuddin et al. A fast adaptation approach for enhanced automatic recognition of children’s speech with mismatched acoustic models
Huang et al. Speech-Based Interface for Visually Impaired Users
KR100488121B1 (ko) 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법
JPH0822296A (ja) パターン認識方法
Amdal Learning pronunciation variation: A data-driven approach to rule-based lecxicon adaptation for automatic speech recognition
Blackburn et al. Enhanced speech recognition using an articulatory production model trained on X-ray data

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050404

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051213