JP2002182683A

JP2002182683A - 話者特徴推定装置および話者特徴推定方法、クラスタモデル作成装置、音声認識装置、音声合成装置、並びに、プログラム記録媒体

Info

Publication number: JP2002182683A
Application number: JP2000382383A
Authority: JP
Inventors: Yoichiro Hachiman; 洋一郎八幡; Koichi Yamaguchi; 耕市山口
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2000-12-15
Filing date: 2000-12-15
Publication date: 2002-06-26
Anticipated expiration: 2020-12-15
Also published as: JP3754613B2

Abstract

(57)【要約】【課題】梨状窩形状の個人差等による音声スペクトル
高周波数帯域の変動を除去する。【解決手段】特徴量写像部１および関数推定部３は、
複数の写像関数を用いて式(１)に基づく最尤推定によっ
て一つの写像関数を選択し、話者特徴として出力する。
その際に、特徴量変換部４は、特徴量写像部１によって
複数の写像関数の夫々で写像された入力話者の音響特徴
量を、声道における梨状窩形状の個人差等によって変動
する音声スペクトル高周波数帯域において、標準話者モ
デル格納部２に格納された標準話者モデルから抽出され
た音響特徴量で変換して、関数推定部３に入力するよう
にしている。こうして、声道における梨状窩形状の個人
差等による音声スペクトル高周波数帯域の変動の影響を
除去して、話者特徴としての写像関数を精度よく推定す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、隠れマルコフモ
デル(Hidden Markov Model：以下、ＨＭＭと略称する)
を用いた話者特徴推定装置および話者特徴推定方法、そ
の推定方法を用いたクラスタモデル作成装置,音声認識
装置,音声合成装置、並びに、話者特徴推定処理プログ
ラムを記録したプログラム記録媒体に関する。

【０００２】

【従来の技術】音響特徴量あるいはその確率モデル(例
えばＨＭＭ)に基づいて入力音声の発話内容を推定する
音声認識装置では、入力話者とモデル話者との話者性の
違いへの対応が重要な課題となる。また、入力された音
韻記号列に基づいて予め用意した音声素片を接続して出
力する音声合成装置や、入力された音声を他話者の声質
に変換する声質変換装置では、話者性の表現が重要な課
題となる。

【０００３】従来、入力音声から発話者の特徴を推定
し、この推定された話者特徴に基づいて、上記入力話者
の音響特徴量を標準話者の音響特徴量に正規化する音声
認識装置がある。例えば、文献「AT&T Bell Labs. Li Le
e，Richard C.Rose:“SpeakerNormalization using Eff
icient Frequency Warping Procedures”,ICASSP96，p.
p.353‐356(1996)(文献Ａ)」で報告された音声認識方法
では、標準話者モデルに対して、入力話者の音響特徴量
の尤度を最大にするという基準(最尤推定)で、入力話者
の音響特徴量における周波数軸の線形伸縮係数を推定す
る。そして、その推定結果を用いて入力話者の音響特徴
量の周波数軸を伸縮することによって標準話者の音響特
徴量に正規化するようにしている。また、特開平１１‐
３２７５９２号公報(文献Ｂ)に開示されている音声認識
装置では、入力話者の声道形状の特徴量を声道形状パラ
メータとフォルマント周波数との間の対応関係を参照し
て推定する。そして、その推定結果に基づいて生成した
周波数ワーピング関数を用いて、入力話者の音響特徴量
を標準話者の音響特徴量に正規化するようにしている。

【０００４】さらには、入力話者の音響特徴量と標準話
者の音響特徴量との差異に基づいて入力話者に標準話者
モデルを適応する音声認識装置がある。例えば、登録特
許１９８４１８４号(文献Ｃ)に開示された音声認識装置
では、ＶＦＳ(Vector FieldSmoothing)法に基づく話者
適応技術を用いている。

【０００５】また、複数の話者をクラスタリングし、得
られた複数の話者クラスタに属する話者に基づいて作成
した複数の音響モデルを備え、入力話者に応じた話者ク
ラスタの音響モデルを選択して用いる音声認識装置があ
る。例えば、特開平１１‐１７５０９０号公報(文献Ｄ)
に開示された話者クラスタリング処理装置では、複数話
者の声道形状の特徴量を推定し、その推定結果に基づい
て話者をクラスタリングするようにしている。さらに、
上記話者クラスタリング結果に基づく話者クラスタ毎に
音響モデル(以下、クラスタモデルと言う)を生成してお
き、入力話者の声道形状の特徴量を推定し、その推定結
果に応じたクラスタモデルを選択して用いる音声認識装
置も開示されている。

【０００６】また、話者適応技術を用いて入力話者音声
の音響特徴量を写像して、他話者音声の声質に変換する
声質変換装置がある。例えば、特開平７‐１０４７９２
号公報(文献Ｅ)に開示された声質変換装置では、量子化
(ＶＱ)コードブックマッピング法に基づく話者適応技術
を用いるようにしている。さらに、文献「橋本誠,樋口宣
男:“話者選択と移動ベクトル場平滑化を用いた声質変
換のためのスペクトル写像”,信学技報，SP95‐1，p.p.
1‐8，May 1995」(文献Ｆ)において報告されているよう
に、ＶＦＳ(Vector Field Smoothing)法に基づく話者適
応技術を用いた声質変換方法も報告されている。

【０００７】

【発明が解決しようとする課題】しかしながら、上記従
来の音声認識方法,音声認識装置,話者クラスタリング処
理装置および声質変換装置においては、以下のような問
題がある。先ず、上記文献Ａに開示された音声認識方法
においては、発音器官の個人差によるスペクトル変動に
際して、梨状窩形状の個人差等による高周波数帯域のス
ペクトル変動が考慮されていない。そのために、周波数
軸の線形伸縮係数を精度よく推定することが困難であ
り、話者正規化による音声認識精度向上の効果が少ない
という問題がある。

【０００８】また、上記文献Ｂおよび文献Ｄに開示され
た音声認識装置においは、声道形状の特徴量を推定する
ために用いるフォルマント周波数の正確な推定が困難で
あるという問題がある。さらに、声道形状の特徴量利用
による音声認識精度向上の効果が少ないという問題もあ
る。

【０００９】また、上記文献Ｃに開示された音声認識装
置においては、上記ＶＦＳ法に基づく話者適応技術を用
いているために、多量の入力音声データを必要とすると
いう問題がある。また、上記文献Ｅに開示された声質変
換装置および文献Ｆに開示された声質変換方法において
は、少ない発声データから精度のよい声質変換結果が得
られないという問題がある。

【００１０】そこで、この発明の目的は、声道における
梨状窩形状の個人差等による音声スペクトル高周波数帯
域の変動を考慮して少量の音声データから精度よく話者
の特徴を推定できる話者特徴推定装置および話者特徴推
定方法、その推定方法を用いたクラスタモデル作成装
置,話者認識装置,音声合成装置、並びに、話者特徴推定
プログラムを記録したプログラム記録媒体を提供するこ
とにある。

【００１１】

【課題を解決するための手段】上記目的を達成するた
め、第１の発明は、入力話者の音響特徴量を標準話者に
類似した音響特徴量に写像する写像関数を推定し,推定
した写像関数の情報を話者特徴とする話者特徴推定装置
において、標準話者の音響特徴量に関する情報を格納す
る標準話者音響情報格納手段と、入力話者の音響特徴量
を写像する特徴量写像手段と、上記入力話者の音響特徴
量における声道の梨状窩形状の個人差によって変動が生
ずる領域を,上記標準話者音響情報格納手段に格納され
た標準話者の音響特徴量に関する情報を用いて変換する
特徴量変換手段と、上記写像および変換が行われた入力
話者の音響特徴量と,上記標準話者の音響特徴量に関す
る情報とに基づいて,写像関数を推定する関数推定手段
を備えたことを特徴としている。

【００１２】上記構成によれば、特徴量写像手段および
関数推定手段によって、入力話者の音響特徴量と標準話
者の音響特徴量に関する情報とに基づいて、上記写像関
数が推定される。

【００１３】その際に、上記関数推定手段に入力される
入力音響特徴量は、上記特徴量写像手段によって写像さ
れると共に、特徴量変換手段によって、声道における梨
状窩形状の個人差によって変動が生ずる領域が上記標準
話者の音響特徴量に変換されている。こうして、声道に
おける梨状窩形状の個人差による音声スペクトル高周波
数帯域の変動の影響が除去されて、話者特徴としての写
像関数が精度良く推定される。

【００１４】また、上記第１の発明の話者特徴推定装置
は、上記特徴量変換手段を、上記入力話者の音響特徴量
における変換領域の下限位置を、入力話者の音声スペク
トルの傾きと上記標準話者の音声スペクトルの傾きとの
差が最も小さくなる同一周波数位置に設定するように成
すことが望ましい。

【００１５】上記構成によれば、入力話者および標準話
者の音声スペクトルを用いて、上記入力話者の音響特徴
量における変換領域の下限位置が簡単に設定される。

【００１６】また、上記第１の発明の話者特徴推定装置
は、上記特徴量変換手段を、上記入力話者の音響特徴量
の変換を、上記入力話者の音声スペクトルにおける上記
変換領域に該当する周波数帯域と上記標準話者の音声ス
ペクトルにおける該当する周波数帯域とにおけるスペク
トル値の差異から求められた周波数特性変換フィルタを
用いて行うように成すことが望ましい。

【００１７】上記構成によれば、上記特徴量変換手段に
よる入力話者の音響特徴量に対する変換が、入力話者の
音声スペクトルに対して周波数特性変換フィルタを用い
ることによって簡単に行われる。

【００１８】また、上記第１の発明の話者特徴推定装置
は、上記特徴量変換手段によって音声スペクトルが変換
される周波数帯域の下限を３kＨzから３.５kＨzまでの
間とする一方、上限をサンプリング周波数の１/２とす
ることが望ましい。

【００１９】上記構成によれば、声道における梨状窩形
状の個人差によって変動する音声スペクトル高周波数帯
域が的確に設定される。

【００２０】また、上記第１の発明の話者特徴推定装置
は、上記特徴量写像手段を、狭母音を除く母音に対して
のみ写像処理を行うように成すことが望ましい。

【００２１】上記構成によれば、音声スペクトルにおけ
るホルマントのピークの出現位置が不安定な狭母音を除
く母音に対してのみ話者特徴推定処理が行われ、入力話
者の特徴がさらに精度良く推定される。

【００２２】また、上記第１の発明の話者特徴推定装置
は、特徴量写像手段を,予め用意された複数の写像関数
を用いて上記写像を行うように成し、上記関数推定手段
を,上記標準話者の音響特徴量に関する情報に対する上
記写像及び変換が行われた入力話者の音響特徴量の尤度
を最大にするという基準で,上記複数の写像関数から写
像関数を最尤推定するように成すことが望ましい。

【００２３】上記構成によれば、複数の写像関数を用い
た写像演算と上記尤度演算と尤度値比較演算との繰り返
しの簡単な処理で、話者特徴としての写像関数が精度良
く推定される。

【００２４】また、第２の発明は、入力話者の音響特徴
量を標準話者の音響特徴量に正規化する音声認識装置に
おいて、入力音声信号を分析して音響特徴量を抽出する
音響分析手段と、上記音響分析手段からの入力話者の音
響特徴量に基づいて入力話者の特徴を推定する上記第１
の発明の話者特徴推定装置と、上記音響分析手段からの
入力話者の音響特徴量を,上記推定された入力話者の特
徴としての写像関数を用いて写像する特徴量写像手段
と、上記写像が行われた入力話者の音響特徴量と標準話
者モデルとに基づいて上記入力音声信号を認識する認識
手段を備えたことを特徴としている。

【００２５】上記構成によれば、入力音声信号が認識さ
れるに先立って、入力音声の音響特徴量に基づいて入力
話者の特徴が推定される。そして、上記推定された入力
話者の特徴としての写像関数を用いて、上記入力音響特
徴量が写像(話者正規化)される。

【００２６】その場合における入力話者の特徴の推定
は、声道における梨状窩形状の個人差による音声スペク
トル高周波数帯域の変動の影響を除去して精度よく行わ
れる。したがって、上記推定された写像関数を用いて話
者正規化することによって、より標準話者の音響特徴量
の周波数特性に近づくように入力話者の音響特徴量が正
規化される。その結果、続いて実行される認識処理によ
って、高い認識率が得られるのである。

【００２７】また、第３の発明は、標準話者モデルを入
力話者に適応させる音声認識装置において、入力音声信
号を分析して音響特徴量を抽出する音響分析手段と、上
記音響分析手段からの入力話者の音響特徴量に基づいて
入力話者の特徴を推定する上記第１の発明の話者特徴推
定装置と、上記推定された入力話者の特徴としての写像
関数の逆関数を用いて,上記標準話者モデルを入力話者
に適応させて適応モデルを生成するモデル適応手段と、
上記生成された上記適応モデルを格納する適応モデル格
納手段と、上記入力話者の音響特徴量と上記適応モデル
とに基づいて,上記入力音声信号を認識する認識手段を
備えたことを特徴としている。

【００２８】上記構成によれば、入力音声信号が認識さ
れるに先立って、入力音声の音響特徴量に基づいて入力
話者の特徴が推定される。そして、上記推定された入力
話者の特徴としての写像関数の逆関数を用いて標準話者
モデルが入力話者に適応された適応モデルが生成され
る。

【００２９】その場合における入力話者の特徴の推定
は、声道における梨状窩形状の個人差による音声スペク
トル高周波数帯域の変動の影響を除去して精度よく行わ
れる。したがって、上記推定された写像関数の逆関数を
用いて標準話者モデルを話者適応することによって、よ
り入力話者の音響特徴量の周波数特性に近い周波数特性
を有する適応モデルが生成される。その結果、上記適応
モデルを用いて実行される認識処理によって、高い認識
率が得られるのである。

【００３０】また、第４の発明は、話者の音声信号に基
づいて複数の話者を話者クラスタに分割し,各話者クラ
スタ用の音響モデルであるクラスタモデルを作成するク
ラスタモデル作成装置において、入力音声信号を分析し
て音響特徴量を抽出する音響分析手段と、上記音響分析
手段からの入力話者の音響特徴量に基づいて入力話者の
特徴を推定する上記第１の発明の話者特徴推定装置と、
上記推定された各入力話者の特徴を話者間距離として,
複数の話者をクラスタリングするクラスタリング手段
と、上記クラスタリング手段によって得られた各話者ク
ラスタに属する入力話者の音響特徴量に基づいて,上記
クラスタモデルを作成するモデル作成手段を備えたこと
を特徴としている。

【００３１】上記構成によれば、クラスタモデルが作成
されるに先立って、入力音声の音響特徴量に基づいて入
力話者の特徴が推定される。そして、上記推定された入
力話者の特徴を話者間距離として、複数の話者がクラス
タリングされる。

【００３２】その場合における入力話者の特徴の推定
は、声道における梨状窩形状の個人差による音声スペク
トル高周波数帯域の変動の影響を除去して精度よく行わ
れる。したがって、上記推定された写像関数を話者間距
離としてクラスタリングを行うことによって、より話者
に適合した話者間距離を用いてクラスタリングが行われ
る。その結果、話者集団における発声特性の分布を的確
に表現できるクラスタモデルが作成されるのである。

【００３３】また、第５の発明は、話者の音声信号に基
づいて複数の話者を話者クラスタに分割し,各話者クラ
スタ用の音響モデルであるクラスタモデルを作成するク
ラスタモデル作成装置において、入力音声信号を分析し
て音響特徴量を抽出する音響分析手段と、上記音響分析
手段からの入力話者の音響特徴量に基づいて,各入力話
者の音響モデルである話者モデルを作成する話者モデル
作成手段と、上記話者モデルから音響特徴量を抽出する
特徴量抽出手段と、上記抽出された音響特徴量に基づい
て入力話者の特徴を推定する上記第１の発明の話者特徴
推定装置と、上記推定された各入力話者の特徴を話者間
距離として,複数の話者をクラスタリングするクラスタ
リング手段と、上記クラスタリング手段によって得られ
た各話者クラスタに属する入力話者の音響特徴量に基づ
いて,上記クラスタモデルを作成するモデル作成手段を
備えたことを特徴としている。

【００３４】上記構成によれば、クラスタモデルが作成
されるに先立って、入力話者の音響特徴量に基づいて作
成された話者モデルから音響特徴量が抽出される。そし
て、この抽出された音響特徴量に基づいて話者特徴推定
装置によって入力話者の特徴が推定され、上記推定され
た入力話者の特徴を話者間距離として複数の話者がクラ
スタリングされる。

【００３５】その場合における入力話者の特徴の推定
は、声道における梨状窩形状の個人差による音声スペク
トル高周波数帯域の変動の影響を除去して精度よく行わ
れる。したがって、上記推定された写像関数を話者間距
離としてクラスタリングを行うことによって、より話者
に適合した話者間距離を用いてクラスタリングが行われ
る。その結果、話者集団における発声特性の分布を的確
に表現できるクラスタモデルが作成されるのである。

【００３６】さらに、上記話者特徴推定装置は、上記各
話者モデルから抽出された音響特徴量に基づいて、入力
話者の特徴を推定するようにしている。こうして、入力
話者の音響特徴量における発話内の変動が除去されて、
入力話者の特徴がより精度良く推定される。

【００３７】また、第６の発明は、入力話者が属する話
者クラスタ用の音響モデルであるクラスタモデルを用い
て音声を認識する音声認識装置において、入力音声信号
を分析して音響特徴量を抽出する音響分析手段と、上記
音響分析手段からの入力話者の音響特徴量に基づいて入
力話者の特徴を推定する上記第１の発明の話者特徴推定
装置と、上記第４の発明あるいは第５の発明のクラスタ
モデル作成装置によって作成されたクラスタモデルを格
納するクラスタモデル格納手段と、上記推定された入力
話者の特徴に基づいて,上記クラスタモデル格納手段か
ら該当するクラスタモデルを選択するモデル選択手段
と、上記入力話者の音響特徴量と上記選択されたクラス
タモデルとに基づいて,上記入力音声信号を認識する認
識手段を備えたことを特徴としている。

【００３８】上記構成によれば、上記第４の発明あるい
は第５の発明のクラスタモデル作成装置によって作成さ
れたクラスタモデルが用意されている。そして、入力音
声信号が認識されるに先立って、入力音声の音響特徴量
に基づいて入力話者の特徴が推定される。そして、上記
推定された入力話者の特徴に基づいて該当するクラスタ
モデルが選択される。

【００３９】その場合における上記クラスタモデルの作
成および選択時に用いられる入力話者の特徴の推定は、
声道における梨状窩形状の個人差による音声スペクトル
高周波数帯域の変動の影響を除去して精度よく行われ
る。したがって、上記推定された入力話者の特徴を用い
て上記クラスタモデルの作成および選択が行われること
によって、話者集団における発声特性の分布を的確に表
すクラスタモデルを用いて認識処理が行われ、高い認識
率が得られるのである。

【００４０】また、第７の発明は、音韻記号列に基づい
て標準話者の音声素片を接続して合成音声を出力する音
声合成装置において、入力音声信号を分析して音響特徴
量を抽出する音響分析手段と、上記音響分析手段からの
入力話者の音響特徴量に基づいて入力話者の特徴を推定
する上記第１の発明の話者特徴推定装置と、標準話者の
音声素片を格納する標準話者素片格納手段と、上記音韻
記号列に基づいて上記標準話者素片格納手段から該当す
る音声素片を選択する素片選択手段と、上記選択された
音声素片の音響特徴量を,上記推定された入力話者の特
徴としての写像関数の逆関数を用いて写像する特徴量写
像手段と、上記写像が行われた音声素片同士を接続する
素片接続手段を備えたことを特徴としている。

【００４１】上記構成によれば、標準話者の音声素片同
士が接続されて合成音声が生成されるに先立って、入力
音声の音響特徴量に基づいて入力話者(学習話者)の特徴
が推定される。そして、音韻記号列に基づいて選択され
た音声素片の音響特徴量が上記推定された入力話者の特
徴としての写像関数の逆関数を用いて写像されて、入力
話者の声質に変換された音声素片が生成される。

【００４２】その場合における入力話者の特徴の推定
は、声道における梨状窩形状の個人差による音声スペク
トル高周波数帯域の変動の影響を除去して精度よく行わ
れる。したがって、上記推定された写像関数の逆関数を
用いて上記標準話者の音声素片を写像することによっ
て、より入力話者(学習話者)の声質に近い声質に変換さ
れた合成音声が得られるのである。

【００４３】また、第８の発明は、入力話者の声質を他
の話者の声質に変換する声質変換装置において、入力音
声信号を分析して,音響特徴量を抽出すると共に,音響分
析結果を出力する音響分析手段と、上記音響分析手段か
らの入力話者の音響特徴量に基づいて入力話者の特徴を
推定する上記第１の発明の話者特徴推定装置と、上記入
力話者の音響特徴量を,上記推定された入力話者の特徴
としての写像関数を用いて写像する特徴量写像手段と、
上記写像が行われた入力話者の音響特徴量と上記音響分
析手段からの音響分析結果に基づいて音声を合成する合
成手段を備えたことを特徴としている。

【００４４】上記構成によれば、入力話者の声質が変換
されるに先立って、入力音声の音響特徴量に基づいて入
力話者の特徴が推定される。そして、入力話者の音響特
徴量が上記推定された入力話者の特徴としての写像関数
を用いて写像され、入力話者の声質が、上記入力話者の
特徴推定時における標準話者であるターゲット話者の声
質に変換される。

【００４５】その場合における入力話者の特徴の推定
は、声道における梨状窩形状の個人差による音声スペク
トル高周波数帯域の変動の影響を除去して精度よく行わ
れる。したがって、上記推定された写像関数を用いて上
記入力話者の音響特徴量を写像することによって、より
ターゲット話者の声質に近い声質に変換された音声が得
られるのである。

【００４６】また、第９の発明は、入力話者の音響特徴
量を標準話者に類似した音響特徴量に写像する写像関数
を推定し,推定した写像関数の情報を話者特徴とする話
者特徴推定方法において、入力話者の音響特徴量を複数
の写像関数を用いて写像し、上記写像が行われた入力話
者の音響特徴量における声道の梨状窩形状の個人差によ
って変動が生ずる領域を標準話者の音響特徴量に関する
情報を用いて変換し、上記変換が行われた入力話者の音
響特徴量と上記標準話者の音響特徴量に関する情報とに
基づいて上記複数の写像関数から写像関数を最尤推定す
ることを特徴としている。

【００４７】上記構成によれば、複数の写像関数を用い
て写像されると共に、声道における梨状窩形状の個人差
による音声スペクトル高周波数帯域の変動の影響が除去
された入力話者の音響特徴量と、標準話者の音響特徴量
に関する情報とに基づいて、上記複数の写像関数から写
像関数が最尤推定される。こうして、話者特徴としての
写像関数が精度良く推定される。

【００４８】また、第１０の発明のプログラム記録媒体
は、コンピュータを、上記第１の発明の話者特徴推定装
置における上記特徴量写像手段,特徴量変換手段,標準話
者モデル格納手段および関数推定手段として機能させる
話者特徴推定処理プログラムが記録されていることを特
徴としている。

【００４９】上記構成によれば、上記第１の発明の場合
と同様に、写像されると共に、声道における梨状窩形状
の個人差による音声スペクトル高周波数帯域の変動の影
響が除去された入力話者の音響特徴量と、標準話者の音
響特徴量に関する情報とに基づいて写像関数が推定され
る。こうして、話者特徴としての写像関数が精度良く推
定される。

【００５０】

【発明の実施の形態】以下、この発明を図示の実施の形
態により詳細に説明する。＜第１実施の形態＞図１は、本実施の形態の話者特徴推
定装置におけるブロック図である。特徴量写像部１は、
専用のＬＳＩ(大規模集積回路)素子等によって構成され
て、後述する関数推定部３から取得した写像関数ｆに基
づいて入力音響特徴量を写像する。尚、上記入力音響特
徴量としては、例えばＭＦＣＣ(メル周波数ＦＦＴ(高速
フーリエ変換)ケプストラム)やＬＰＣ(線形予測分析)メ
ルケプストラム等の音声スペクトルを効率よく表現でき
るものを用いる。尚、以下の説明においては、ＬＰＣメ
ルケプストラムを用いる場合を例に挙げる。

【００５１】標準話者モデル格納部２は、半導体メモリ
や磁気メモリや記憶装置等によって構成されて、標準話
者の音響特徴量に関する情報が格納されている。ここ
で、上記標準話者の音響特徴量に関する情報としてＨＭ
Ｍ(以下、音響モデルあるいは単にモデルとも言う)を用
いる。上記ＨＭＭは、大量の音声データから得られる音
声の統計的特徴を確率的にモデル化したものであり、Ｈ
ＭＭを用いた音声認識方式の詳細は、中川聖一著「確率
モデルによる音声認識」(電子情報通信学会)に詳しい。

【００５２】上記関数推定部３は、専用のＬＳＩ素子等
によって構成されて、内部メモリに複数の写像関数ｆを
格納しており、この複数の写像関数ｆを順次特徴量写像
部１に送出する。さらに、標準話者モデル格納部２に格
納されている標準話者モデルと、後述の特徴量変換部４
によって得られる音響特徴量とを用いて、式(１)に従っ
て、複数の写像関数ｆのうち最大累積尤度を与える写像
関数ｆを最尤推定し、この推定された写像関数ｆあるい
はこの写像関数ｆに関連付けられたインデックス等を話
者特徴として出力する。ここで、ｆ：写像関数Ｐ()：音響モデルによって得られる確率Ｕ^f：写像関数ｆで写像された入力音響特徴量系列Ｗ：入力音響特徴量系列Ｕfに対応する音韻記号列

【００５３】尚、以下の説明における写像関数ｆの推定
方法では、予め用意した複数の写像関数ｆから最尤推定
に基づいて一つの写像関数ｆを選択するようにしてい
る。しかしながら、式(１)に基づく最尤推定方法であれ
ば他の推定方法であっても差し支えなく、本実施の形態
においては推定方法を限定するものではない。例えば、
Newton法を用いて任意の関数に収束させる方法等を用い
てもよい。

【００５４】上記特徴量変換部４は、専用のＬＳＩ素子
等によって構成されて、上記特徴量写像部１によって写
像された音響特徴量の一部を、標準話者モデル格納部２
に格納された標準話者モデルを用いて変換する。そし
て、変換後の音響特徴量を上記関数推定部３に出力す
る。尚、この特徴量変換部４による変換処理が、本実施
の形態における一つの特徴である。

【００５５】ここで、上記各部を構成する素子等は、一
つであっても複数が複合されたものであっても本実施の
形態に影響はない。また、上記各部は、ＣＰＵ(中央演
算処理装置)あるいはその周辺機器等で代用してもよ
い。

【００５６】図２は、図１に示す話者特徴推定装置によ
って実行される話者特徴推定処理動作のフローチャート
である。以下、図２に従って、話者特徴推定処理動作に
ついて説明する。ステップＳ1で、特徴量写像部１に音
響特徴量が入力される。ステップＳ2で、特徴量写像部
１によって、入力音響特徴量は狭母音(「イ」や「ウ」)を除
く母音(すなわち、「ア」や「エ」や「オ」等)の音響特徴量で
あるか否かが判別される。その結果、上記狭母音を除く
母音であればステップＳ3に進み、上記狭母音を除く母
音でなければ(すなわち、狭母音または子音であれば)上
記ステップＳ1に戻って、次の音響特徴量の入力処理に
移行する。

【００５７】上記入力音響特徴量の音韻情報を獲得する
方法は本実施の形態には直接的に関係はなく、その獲得
方法を限定するものではない。例えば、発声内容として
「ア」や「エ」や「オ」を発話者に指示し、発声内容既知とし
て処理すればよい。また、発声内容が複数語彙候補の中
の一つである場合には音声認識処理を行い、ビタビ演算
等を用いて音韻情報を推定すればよい。

【００５８】ステップＳ3で、上記特徴量写像部１によ
って、カウンタｉに初期値「１」が代入される。ステップ
Ｓ4で、特徴量写像部１によって、関数推定部３から送
出されてくるカウンタｉの値に対応する写像関数ｆ_i()
を用いて、上記入力された狭母音を除く母音の音響特徴
量が写像されて特徴量変換部４に送出される。尚、写像
関数の例および写像処理の詳細な動作については後述す
る。ステップＳ5で、特徴量変換部４によって、上記ス
テップＳ4において写像された音響特徴量の一部(声道に
おける梨状窩形状の個人差等によって変動する部分)
が、標準話者モデルから得られる標準話者の音響特徴量
を用いて変換されて関数推定部３に送出される。尚、上
記変換処理の詳細な動作については後述する。

【００５９】ステップＳ6で、上記関数推定部３によっ
て、上記ステップＳ5において変換された音響特徴量(Ｌ
ＰＣメルケプストラム)の標準話者モデル(ＨＭＭ)に対
する尤度が算出されて累積尤度ｐ_iとして保存される。
尚、上記尤度算出処理の詳細な動作については後述す
る。ステップＳ7で、関数推定部３によって、カウンタ
ｉの値が関数推定部３に予め用意されている写像関数ｆ
_i()の数Ｎより大きいか否かが判別される。その結果大
きい場合にはステップＳ9に進む一方、そうでなければ
ステップＳ8に進む。ステップＳ8で、特徴量写像部１に
よって、カウンタｉの内容が「１」だけインクリメントさ
れる。そうした後に、上記ステップＳ4に戻って次の写
像関数ｆ_i()を用いた処理に移行する。ステップＳ9で、
特徴量写像部１によって、入力対象の総ての音響特徴量
が入力されたか否かが判別される。その結果、総て入力
されていればステップＳ10に進み、そうでなければ上記
ステップＳ1に戻って次の音響特徴量が入力される。

【００６０】ステップＳ10で、上記関数推定部３によっ
て、上記ステップＳ6において保存された総ての累積尤
度ｐ_i(ｉ＝１,２,…,Ｎ)の中から最大値が選択されて推
定値ｐ^として保存され、上記推定値ｐ^を呈するｉの値
が推定値ｉ^として保存される。ステップＳ11で、関数
推定部３によって、上記ステップＳ10において選択され
た推定値ｐ^を与える推定値ｉ^に対応する写像関数ｆ^_i
()が、話者特徴として出力される。その場合、出力され
る情報は写像関数ｆ_i()に限定されるものではなく、写
像関数ｆ^_i()を決定できるインデックスとして推定値ｉ
^あるいは写像関数ｆ^_i()を一意に決定づける後述の線
形伸縮係数α_i等であってもよい。そうした後、話者特
徴推定処理動作を終了する。

【００６１】尚、上述した話者特徴推定処理動作のフロ
ーチャートにおけるステップＳ2の上記狭母音の削除処
理は省略しても差し支えない。

【００６２】図３は、図２に示す話者特徴推定処理動作
のフローチャートにおける上記ステップＳ4において特
徴量写像部１によって実行される音響特徴量写像処理動
作を示すフローチャートである。上記話者特徴推定処理
動作のフローチャートにおける上記ステップＳ3におい
てカウンタｉの値が設定されると音響特徴量写像処理動
作がスタートする。

【００６３】ステップＳ21で、上記狭母音を除く母音の
音響特徴量(ＬＰＣメルケプストラム)が逆cos変換され
る。ここで、上記逆cos変換することによって、上記音
響特徴量が周波数次元の対数パワー(対数パワースペク
トル)として表現される。ステップＳ22で、上記写像関
数ｆ_i()を用いて入力音響特徴量の周波数軸が伸縮され
る。そうした後、音響特徴量写像処理動作を終了して上
記話者特徴推定処理動作のフローチャートにおける上記
ステップＳ5に移行する。

【００６４】図４は、上記写像関数ｆ_i()の一例を示す
図である。図４において、横軸ｘは周波数軸伸縮前の音
響特徴量の周波数軸であり、縦軸ｆ(ｘ)は周波数軸伸縮
後の音響特徴量の周波数軸である。尚、写像関数ｆ_i()
は、下記の式で表される。ここで、写像関数ｆ_i()とし
て線形伸縮係数に基づく線形関数を用いるのは、声道長
の個人差を次元数の少ないパラメータで簡潔に表現する
ためである。尚、声道長と音声スペクトルとの詳細な関
係については文献Ａに詳しい。

【００６５】写像関数f_i()：・ｘ≦min(ω/α_i,ω)では、f_i(x)＝α_i・ｘ (ｉ＝１,
２,…,Ｎ) ・min(ω/α_i,ω)＜ｘでは、 α_i＞１のとき f_i(x)→(ω/α_i,ω)と(fs/２,fs/２)と
を結ぶ直線 α_i≦１のとき f_i(x)→(ω,α_i・ω)と(fs/２,fs/２)と
を結ぶ直線但し、Ｎ：写像関数ｆ_i()の数 α_i：線形伸縮係数 (０.８≦α_i≦１.２の範囲を(Ｎ−
１)等分して得られる値) fs：サンプリング周波数（例えば１２kＨz) ω：写像関数の接続点（例えば４kＨz) ここで、ωによって接続点を設置するのは、周波数軸伸
縮前後の定義域を保ち、且つ不連続性に対処するためで
ある。

【００６６】図５は、図２に示す話者特徴推定処理動作
のフローチャートにおけるステップＳ5において特徴量
変換部４によって実行される音響特徴量変換処理動作を
示すフローチャートである。上記話者特徴推定処理動作
のフローチャートにおける上記ステップＳ4において音
響特徴量写像処理動作が終了すると音響特徴量変換処理
動作がスタートする。

【００６７】ステップＳ31で、上記標準話者モデル格納
部２から標準話者モデルが入力される。ステップＳ32
で、標準話者モデルから音響特徴量が抽出される。例え
ば、連続ＨＭＭは平均値ベクトルと分散ベクトルからな
る多次元ガウス分布による出力確率密度関数の集合で構
成されており、入力音響特徴量の音韻に対応するステー
ト(ＨＭＭの状態)の平均値ベクトルを標準話者の音響特
徴量として抽出する。ステップＳ33で、図３に示す音響
特徴量写像処理動作のフローチャートにおけるステップ
Ｓ21と同様にして逆cos変換処理が行われる。ステップ
Ｓ34で、標準話者の音響特徴量で置換する入力話者の音
響特徴量の範囲、すなわち、声道における梨状窩形状の
個人差等によって変動する周波数範囲が決定される。そ
の際に、置換範囲の下限を決定する基準は、例えば、
３.０kＨzにおいて、入力話者音響特徴量(音声対数パワ
ースペクトル)の傾きと標準話者音響特徴量(音声対数パ
ワースペクトル)の傾きとを比較した値(例えば傾き値の
差)を保存し、同様に３.５kＨzまでの各周波数ポイント
における傾き比較値を保存し、保存した値の中から最も
小さい値(両者の傾きが近い)の周波数ポイントを置換範
囲の下限として選択する。ここで、入力話者音響特徴量
と標準話者音響特徴量とが同じ傾き(傾き値の差０)を呈
する周波数ポイントが複数存在する場合には、最も大き
い周波数ポイントを採用する。これに対して、置換範囲
の上限は、例えばｆs/２(＝６kＨz)とする。

【００６８】ステップＳ35で、上記ステップＳ34におい
て決定された置換範囲に関して、入力話者の音響特徴量
が標準話者の音響特徴量で置換される。尚、置換の際に
は、音響特徴量の連続性を保つために、上記置換範囲の
下限周波数ポイントにおいては、標準話者音響特徴量の
値が入力話者音響特徴量の値に等しくなるように、標準
話者音響特徴量を対数パワー軸方向に平行移動してから
置換する。あるいは、逆に、入力話者音響特徴量の値が
標準話者音響特徴量の値に等しくなるように、入力話者
音響特徴量を対数パワー軸方向に平行移動してから置換
してもよい。また、標準話者音響特徴量の値が入力話者
音響特徴量の値に等しくなるように、標準話者音響特徴
量を、置換範囲の上限周波数ポイントにおける標準話者
音響特徴量の値を固定して、対数パワー軸方向に線形伸
縮してから置換してもよい。あるいは、逆に、入力話者
音響特徴量の値が標準話者音響特徴量の値に等しくなる
ように、入力話者音響特徴量を、０kＨzにおける入力話
者音声対数パワースペクトルの値を固定して、対数パワ
ー軸方向に線形伸縮してから置換してもよい。

【００６９】ステップＳ36で、上記置換処理によって一
部が置換された入力話者音響特徴量がcos変換される。
このようにcos変換することによって、入力話者の音響
特徴量がＬＰＣメルケプストラムとして表現される。そ
うした後、音響特徴量変換処理動作を終了して上記話者
特徴推定処理動作のフローチャートにおける上記ステッ
プＳ6に移行する。

【００７０】図３の写像処理および図５の変換処理にお
いては、上記入力音響特徴量はＬＰＣメルケプストラム
である場合について説明している。しかしながら、この
発明においてはＬＰＣメルケプストラムに限定するもの
ではなく、ＭＦＣＣ等他のパラメータであってもよい。
尚、他のパラメータである場合には、図３の写像処理動
作における上記ステップＳ21及び図５の変換処理動作に
おける上記ステップＳ33での逆cos変換処理において
は、入力音響特徴量を周波数次元の対数パワー(対数パ
ワースペクトル)になるように変換する。そして、図５
の変換処理動作における上記ステップＳ36でのcos変換
処理においては、入力音響特徴量を元のパラメータとな
るように変換すればよい。

【００７１】さらに、図３の写像処理動作における上記
ステップＳ22および図５の置換処理動作における上記ス
テップＳ34においては、周波数次元の対数パワー(対数
パワースペクトル)を用いる場合について説明している
が、対数パワーに限定するものではなく、直接算出され
る周波数次元のパワー(パワースペクトル)を用いても差
し支えない。尚、周波数次元のパワーを用いる場合に
は、図３の写像処理動作における上記ステップＳ21およ
び図５の変換処理動作における上記ステップＳ33での逆
cos変換処理の後に、例えば、対数パワーを指数演算し
てパワーに変換する指数変換処理ステップを実行する。
そして、図５の変換処理動作における上記ステップＳ36
でのcos変換処理の前に、パワーを対数演算して対数パ
ワーに変換するステップを実行すればよい。

【００７２】図６は、上記特徴量変換部４による音響特
徴量変換処理が行われる前における入力話者音響特徴量
(音声対数パワースペクトル)の一例を示す。図６におい
て、横軸は周波数であり、縦軸は対数パワーである。ま
た、破線で示される曲線は、標準話者の音響特徴量(音
声対数パワースペクトル)を示す。Ａで示す範囲は、図
５の変換処理動作における上記ステップＳ34において置
換範囲の下限を決定する際の対象範囲である。

【００７３】また、図７は、上記特徴量変換部４による
音響特徴量変換処理が行われた後における入力話者音響
特徴量の一例を示す図である。図７において、横軸は周
波数であり、縦軸は対数パワーである。また、破線で示
される曲線は、標準話者の音響特徴量を示す。Ｂで示す
範囲は、図５の変換処理動作における上記ステップＳ35
において入力話者の音響特徴量が置換される置換範囲で
ある。図より、上記置換処理動作によって、置換範囲Ｂ
内における入力話者の周波数特性が標準話者の周波数特
性に近づいていることがわかる。

【００７４】図８は、図５に示す音響特徴量変換処理動
作とは異なる音響特徴量変換処理動作のフローチャート
である。この音響特徴量変換処理動作は、上記話者特徴
推定処理動作のフローチャートにおける上記ステップＳ
4において音響特徴量写像処理動作が終了するとスター
トする。

【００７５】ステップＳ41〜ステップＳ43で、図５に示
す音響特徴量変換処理動作におけるステップＳ31〜ステ
ップＳ33と同様にして、標準話者モデルの入力、音響特
徴量の抽出、逆cos変換処理が行われる。

【００７６】ステップＳ44で、上記入力話者音響特徴量
における高周波数帯域の特性を変換する変換フィルタが
作成される。この変換フィルタ作成時においては、例え
ば、３kＨzからｆs/２(＝６kＨz)の範囲で、入力話者音
響特徴量と標準話者音響特徴量との比を求め、平滑化を
施して変換フィルタを設計する。その際に、０kＨzから
３kＨzの範囲においては特性変更なしとするのである。
ステップＳ45で、上記作成された周波数特性変換フィル
タを用いて、上記ステップＳ43における逆cos変換処理
によって得られた対数パワースペクトルの周波数特性が
変更される。

【００７７】ステップＳ46で、図５に示す音響特徴量変
換処理動作におけるステップＳ36と同様にして、上記フ
ィルタ処理で対数パワースペクトルの周波数特性が変更
された入力話者音響特徴量がcos変換される。そうした
後に、音響特徴量変換処理動作を終了して上記話者特徴
推定処理動作のフローチャートにおける上記ステップＳ
6に移行する。

【００７８】図９は、図８に示す音響特徴量変換処理動
作のフローチャートにおけるステップＳ44において作成
される変換フィルタの一例を示す。この変換フィルタ
は、周波数特性変換用のフィルタである。図９におい
て、横軸は周波数であり、縦軸はゲインである。尚、図
９は、図６に示す入力話者音響特徴量と標準話者音響特
徴量との比に基づいて作成された周波数特性変換フィル
タの例である。図９より、上記変換フィルタは、入力話
者音響特徴量が標準話者音響特徴量より小さい周波数領
域では入力話者音響特徴量を上げる一方、大きい周波数
領域では下げる周波数特性を有していることが解かる。

【００７９】図１０は、図２に示す話者特徴推定処理動
作のフローチャートにおけるステップＳ6において関数
推定部３によって実行される尤度算出処理動作を示すフ
ローチャートである。上記話者特徴推定処理動作のフロ
ーチャートにおける上記ステップＳ5において音響特徴
量変換処理動作が終了すると尤度算出処理動作がスター
トする。

【００８０】ステップＳ51で、後述する累積尤度の初期
化処理が既に済んでいるか否かが判別される。その結
果、済んでいればステップＳ53に進み、済んでいなけれ
ばステップＳ52に進む。ステップＳ52で、上記累積尤度
初期化処理が実行されて、累積尤度ｐ_i(ｉ＝１,２,…,
Ｎ)が、例えば「０」あるいは「１」に初期化される。ステ
ップＳ53で、入力話者音響特徴量の標準話者モデル(Ｈ
ＭＭ)に対する尤度ｐ'が、式(２)によって算出される。ｐ'＝ｂs(→ｕ) …（２) 但し、ｂs()：標準話者音響モデルの第ｓステートに対
応する出力確率密度関数ｓ：入力話者音響特徴量の音韻に対応する標準話者音響
モデルのステート番号尚、式(２)中の「→ｕ」は入力話者音響特徴量を表し、例
えば音声対数パワー,ＬＰＣメルケプストラムおよび夫
々の線形一次回帰係数から成るベクトルである。

【００８１】ここで、上記標準話者モデルが離散ＨＭＭ
である場合には、尤度ｐ'として、入力音響特徴量「→
ｕ」の標準話者モデル(離散ＨＭＭ)に対する出力確率を
算出すればよい。

【００８２】ステップＳ54で、上記ステップＳ53におい
て算出された尤度ｐ'が、上記標準話者音響モデルの全
ステートに関する累積尤度ｐ_iの値に累積保存される。
この場合、尤度ｐ'として対数値が求められている場合
は、上記累積保存は、式(３)に示すように加算すればよ
い。ｐ_i＝ｐ_i＋ｐ' …（３)

【００８３】上述したように、本実施の形態において
は、上記特徴量写像部１および関数推定部３において、
予め用意した複数の写像関数ｆ_i(ｉ＝１,２,…,Ｎ)を用
いて、式(１)に従って最尤推定に基づいて一つの写像関
数ｆを選択し、この選択された写像関数ｆを、話者特徴
として出力する。その際に、関数推定部３に入力される
入力話者の音響特徴量として、特徴量写像部１によって
写像関数ｆ_iで写像された音響特徴量を、特徴量変換部
４によって、求められた置換範囲において、標準話者モ
デル格納部２に格納された標準話者モデルから抽出され
た音響特徴量で置換するようにしている。そして、その
場合における置換範囲の下限値は、３kＨz〜３.５kＨz
の範囲内で、入力話者の音声スペクトルの傾きと標準話
者の音声スペクトルの傾きの差が最小となる点とする。
また、上限値はサンプリング周波数ｆsの１/２とする。

【００８４】したがって、本実施の形態によれば、上記
声道における梨状窩形状の個人差等による音声スペクト
ル高周波数帯域の変動の影響を除去して、話者特徴とし
ての写像関数を精度よく推定することができるのであ
る。また、その際に、入力話者の音響特徴量における声
道長の梨状窩形状の個人差による変動を予め補正してお
くので、少量の音声データから入力話者の特徴を精度よ
く推定することができるのである。

【００８５】また、上記入力話者の音声スペクトルにお
ける上記置換範囲と上記標準話者の音声スペクトルにお
ける該当する周波数範囲とにおけるスペクトル値の差異
から求めた変換フィルタを用いることによって、上記入
力話者の音響特徴量の変換処理を簡単な処理で行うこと
もできる。

【００８６】また、上記話者特徴推定処理動作を、狭母
音を除く母音に対してのみ行うようにしている。したが
って、音声スペクトルにおけるホルマントのピークの出
現位置が不安定な狭母音を除く母音に対してのみ話者特
徴推定処理を行って、入力話者の特徴をより精度良く推
定することができる。

【００８７】尚、上記実施の形態においては、上記特徴
量写像部１によって写像した入力話者音響特徴量を、特
徴量変換部４によって変換するようにしている。しかし
ながら、本実施の形態は、これに限定されるものではな
い。図１１は、本実施の形態による話者特徴推定装置に
おける他の実施例を示すブロック図である。図１１にお
いて、特徴量写像部１１,標準話者モデル格納部１２,関
数推定部１３および特徴量変換部１４は、図１に示す話
者特徴推定装置における特徴量写像部１,標準話者モデ
ル格納部２,関数推定部３および特徴量変換部４と同様
である。但し、本話者特徴推定装置においては、特徴量
写像部１１によって入力音響特徴量を写像する前に、特
徴量変換部１４によって入力音響特徴量を変換する点に
おいて、図１に示す話者特徴推定装置とは異なる。

【００８８】尚、図１１に示す話者特徴推定装置によっ
て実行される話者特徴推定処理は、図２に示すフローチ
ャートにおいて、特徴量変換部４によってステップＳ5
において実行される音響特徴量の変換処理を、ステップ
Ｓ1において実行される音響特徴量の入力処理と、ステ
ップＳ4において実行される音響特徴量の写像処理との
間において実行するようにすればよい。

【００８９】＜第２実施の形態＞本実施の形態は、第１
実施の形態における話者特徴推定装置を用いた音声認識
装置に関する。図１２は、本実施の形態における話者正
規化方式による音声認識装置のブロック図である。図１
２において、特徴量写像部２１,標準話者モデル格納部
２２,関数推定部２３および特徴量変換部２４は、図１
に示す話者特徴推定装置における特徴量写像部１,標準
話者モデル格納部２,関数推定部３および特徴量変換部
４と同様であり、上記話者特徴推定装置を構成してい
る。但し、特徴量写像部２１は、音声認識時にも、入力
音響特徴量に対して、自身が構成要素となっている上記
話者特徴推定装置で推定された写像関数ｆを用いた写像
処理を行うようになっている。

【００９０】音響分析部２５は、専用のＬＳＩ素子等に
よって構成されて、入力音声信号を分析する。認識部２
６は、専用のＬＳＩ素子と専用の半導体メモリや磁気メ
モリや記憶装置等とによって構成されている。そして、
特徴量写像部２１から送出される写像後の音響特徴量
と、標準話者モデル格納部２２に格納された標準話者モ
デルとに基づいて、発声内容を認識する。

【００９１】図１３は、図１２に示す音声認識装置によ
って実行される音声認識処理動作のフローチャートであ
る。以下、図１３に従って、音声認識処理動作について
説明する。先ず、ステップＳ61で、音響分析部２５によ
って音声信号が入力される。上記入力音声信号は、例え
ば、マイク等から入力されてＡ/Ｄ変換器(図示せず)や
記録媒体等を通して得られるデジタル音声信号である。
ステップＳ62で、音響分析部２５によって、上記音声信
号が短い時間間隔(フレーム)毎に周波数分析されて、ス
ペクトルを表すパラメータのベクトル系列に変換され
る。尚、周波数分析には、例えばＭＦＣＣやＬＰＣメル
ケプストラム等の音声スペクトルを効率よく表現できる
音響特徴を抽出できる分析方法を用いる。

【００９２】ステップＳ63で、上記特徴量写像部２１に
よって、音声認識モードであるか否かが判別される。そ
の結果、音声認識モードであればステップＳ65に進み、
音声認識モードでなければ(つまり、話者特徴推定モー
ドであれば)ステップＳ64に進む。尚、上記音声認識モ
ードであるか否かを管理するモード情報管理方法は本実
施の形態には直接関係はなく、モード情報管理方法を限
定するものではない。例えば、通常は音声認識モードに
設定しておき、発話者が話者特徴推定スイッチを押して
発声した場合に話者特徴推定モードに変更する管理方法
が簡単である。

【００９３】ステップＳ64で、上記特徴量写像部２１,
標準話者モデル格納部２２,関数推定部２３及び特徴量
変換部２４で構成される話者特徴推定装置によって、話
者特徴推定処理が実行される。尚、その場合における話
者特徴推定処理動作は、上記第１実施の形態における図
２のフローチャートと同様である。そうした後、上記ス
テップＳ61に戻って次の音声信号の入力処理に移行す
る。そして、上記ステップＳ63において音声認識モード
であると判別されると、上記ステップＳ65に進む。

【００９４】ステップＳ65で、上記特徴量写像部２１に
よって、入力音響特徴量に対して写像が行われる。その
場合に用いられる写像関数ｆは、上記ステップＳ64にお
ける話者特徴推定処理によって推定された写像関数ｆ^_i
()が用いられる。尚、その場合における音響特徴量写像
処理は、上記第１実施の形態における図３に示す音響特
徴量写像処理動作と同様である。また、話者特徴が未推
定である場合には、例えば、当該ステップをスキップす
るようにしておけばよい。ステップＳ66で、上記認識部
２６によって、上記写像された入力音響特徴量(ＬＰＣ
メルケプストラム)と、標準話者モデル(ＨＭＭ)と、言
語情報を表現する言語モデル(例えば単語辞書等)(図示
せず)に基づいて、例えば音韻類似度として尤度が求め
られ、ビタビ演算を行って各単語のスコア(類似度)が算
出されて、上位のスコアを呈する単語が認識結果と決定
される。ステップＳ67で、認識部２６によって、上記認
識結果が出力される。そうした後、音声認識処理動作を
終了する。

【００９５】このように、本実施の形態における音声認
識装置は、第１実施の形態における話者特徴推定装置を
搭載している。そして、音声認識処理に先立って、入力
音声の音響特徴量に基づいて、話者特徴推定装置によっ
て話者特徴(写像関数ｆ^_i)を推定する。そして、推定さ
れた写像関数ｆ^_iを用いて上記入力音響特徴量を話者正
規化するようにしている。

【００９６】その場合における写像関数ｆ^_iの推定は、
声道における梨状窩形状の個人差等による音声スペクト
ル高周波数帯域の変動の影響を除去して精度よく行われ
る。したがって、上記推定された写像関数ｆ^_iを用いて
話者正規化を行なうことによって、標準話者モデル格納
部２２に格納された標準話者の音響モデルの周波数特性
により近づくように入力話者を正規化することができ
る。すなわち、本実施の形態によれば、続いて実行され
る認識処理によって、高い認識率を得ることができるの
である。

【００９７】尚、上記実施の形態においては、上記特徴
量写像部２１に、上記話者特徴推定装置における音響特
徴量写像手段としての機能と、音声認識時における話者
正規化手段としての機能とを兼用させている。しかしな
がら、この発明はこれに限定されるものではなく、上記
話者正規化手段としての特徴量写像部を独立して設けて
も差し支えない。

【００９８】＜第３実施の形態＞本実施の形態は、第１
実施の形態における話者特徴推定装置を用いた音声認識
装置に関する。図１４は、本実施の形態における話者適
応方式による音声認識装置のブロック図である。図１４
において、特徴量写像部３１,標準話者モデル格納部３
２,関数推定部３３および特徴量変換部３４は、図１に
示す話者特徴推定装置における特徴量写像部１,標準話
者モデル格納部２,関数推定部３及び特徴量変換部４と
同様であり、上記話者特徴推定装置を構成している。さ
らに、音響分析部３５は、図１２に示す音声認識装置に
おける音響分析部２５と同様である。

【００９９】モデル適応部３６は、専用のＬＳＩ素子等
によって構成されて、標準話者モデル格納部３２から読
み出された標準話者モデルを、関数推定部３３によって
推定された話者特徴としての写像関数ｆ^を用いて入力
話者に適応させて、適応モデルを作成する。適応モデル
格納部３７は、半導体メモリや磁気メモリや記憶装置等
によって構成されて、モデル適応部３６で作成された適
応モデルを格納する。認識部３８は、専用のＬＳＩ素子
と専用の半導体メモリや磁気メモリや記憶装置等とによ
って構成されて、音響分析部３５からの入力音響特徴量
と、適応モデル格納部３７に格納されている適応モデル
とに基づいて、発声内容を認識する。

【０１００】図１５は、図１４に示す音声認識装置によ
って実行される音声認識処理動作のフローチャートであ
る。以下、図１５に従って、音声認識処理動作について
説明する。先ず、ステップＳ71〜ステップＳ74で、上記
第２実施の形態における図１３に示す音声認識処理動作
のステップＳ61〜ステップＳ64と同様にして、入力され
たデジタル音声信号が周波数分析されて音響特徴量が抽
出される。そして、話者特徴推定モードであれば、特徴
量写像部３１,標準話者モデル格納部３２,関数推定部３
３および特徴量変換部３４で構成される話者特徴推定装
置によって、話者特徴推定処理が実行される。

【０１０１】ステップＳ75で、上記モデル適応部３６に
よって、上記標準話者モデル格納部３２から読み出され
た標準話者モデルと、上記ステップＳ74における話者特
徴推定処理によって推定された話者特徴としての写像関
数ｆ^とに基づいて、上記適応モデルが作成される。そ
して、得られた適応モデルは、適応モデル格納部３７に
格納される。尚、上記適応モデルの作成処理は、例え
ば、標準話者モデル(ＨＭＭ)の各ステートの中から母音
に対応するステートに関して、出力確率密度関数の平均
値ベクトルを写像関数ｆ^の逆関数を用いて写像すれば
よい。そうした後、上記ステップＳ71に戻って次の音声
信号の入力処理に移行する。そして、上記ステップＳ73
において音声認識モードであると判別されると、ステッ
プＳ76に進むのである。

【０１０２】ステップＳ76,ステップＳ77で、上記第２
実施の形態における図１３に示す音声認識処理動作のス
テップＳ66,Ｓ67と同様にして、認識処理が行われ、得
られた認識結果が出力される。尚、その際における上記
認識処理は、抽出された入力音響特徴量と、ステップＳ
75において作成された適応モデル(ＨＭＭ)と、上記言語
モデルに基づいて行われる。また、上記適応モデルが未
作成である場合には、例えば標準話者モデルを用いるよ
うにしておけばよい。そうした後、音声認識処理動作を
終了する。

【０１０３】このように、本実施の形態における音声認
識装置は、第１実施の形態における話者特徴推定装置を
搭載している。そして、音声認識処理に先立って、入力
音声の音響特徴量に基づいて、話者特徴推定装置によっ
て話者特徴(写像関数ｆ^_i)を推定する。そして、標準話
者モデル格納部３２に格納された標準話者モデルと推定
された写像関数ｆ^_iとを用いて適応モデルを作成するこ
とによって、話者適応を行うようにしている。

【０１０４】その場合における写像関数ｆ^_iの推定は、
声道における梨状窩形状の個人差等による音声スペクト
ル高周波数帯域の変動の影響を除去して精度よく行われ
る。したがって、上記推定された写像関数ｆ^_iを用いて
話者適応を行なうことによって、入力話者の音響特徴量
の周波数特性により近づくように上記標準話者モデルを
正規化することができる。したがって、上記話者適応モ
デルを用いて行われる認識処理の結果、高い認識率を得
ることができるのである。

【０１０５】＜第４実施の形態＞本実施の形態は、第１
実施の形態における話者特徴推定装置を用いたクラスタ
モデル作成装置に関する。図１６は、本実施の形態にお
けるクラスタモデル作成装置のブロック図である。図１
６において、特徴量写像部４１,標準話者モデル格納部
４２,関数推定部４３および特徴量変換部４４は、図１
に示す話者特徴推定装置における特徴量写像部１,標準
話者モデル格納部２,関数推定部３および特徴量変換部
４と同様であり、上記話者特徴推定装置を構成してい
る。さらに、音響分析部４５は、図１２に示す音声認識
装置における音響分析部２５と同様である。

【０１０６】クラスタリング部４６は、専用のＬＳＩ素
子等によって構成されて、上記関数推定部４３から出力
される話者特徴としてのパラメータ(例えば線形伸縮係
数α)に基づいて話者をクラスタリングする。モデル作
成部４７は、専用のＬＳＩ素子等によって構成されて、
音響分析部４５で得られた入力音響特徴量と、標準話者
モデル格納部４２から読み出された標準話者モデルと、
クラスタリング部４５からの話者クラスタ情報とに基づ
いて、各話者クラスタ用の音響モデルであるクラスタモ
デルを作成する。

【０１０７】図１７は、図１６に示すクラスタモデル作
成装置によって実行されるクラスタモデル作成処理動作
のフローチャートである。以下、図１７に従って、クラ
スタモデル作成処理動作について説明する。先ず、ステ
ップＳ81で、カウンタｉに１が代入されて初期化され
る。ステップＳ82で、音響分析部４５によって、ｉ番目
の話者の音声信号が入力される。入力音声信号は、例え
ば、マイク等から入力されてＡ/Ｄ変換器(図示せず)や
記録媒体等を通して得られるデジタル音声信号である。
ステップＳ83,ステップＳ84で、上記第２実施の形態に
おける図１３に示す音声認識処理動作のステップＳ62,
ステップＳ64と同様にして、入力されたデジタル音声信
号が周波数分析されて音響特徴量が抽出され、特徴量写
像部４１,標準話者モデル格納部４２,関数推定部４３お
よび特徴量変換部４４で構成される話者特徴推定装置に
よって話者特徴推定処理が実行される。

【０１０８】ステップＳ85で、上記音響分析部４５によ
って、カウンタｉの値が予め用意されている話者数Ｍよ
りも大きいか否かが判別される。その結果、大きければ
ステップＳ87に進み、そうでなければステップＳ86に進
む。ステップＳ86で、カウンタｉの値が「１」だけインク
リメントされる。そうした後、上記ステップＳ82に戻っ
て次の話者の音声信号入力処理に移行する。そして、上
記ステップＳ85においてカウンタｉの値が話者数Ｍより
も大きいと判別されると、上記ステップＳ87に進む。

【０１０９】ステップＳ87で、上記クラスタリング部４
６によって、上記関数推定部４３から出力される全話者
に関する話者特徴としてのパラメータ(例えば線形伸縮
係数α)に基づいて、話者がクラスタリングされる。そ
の際における話者クラスタリングの方法は本実施の形態
には直接関係はなく、話者クラスタリングの方法を限定
するものではない。尚、例えば、線形伸縮係数αに基づ
くクラスタリングの場合には、Ｍ人の話者における線形
伸縮係数αの範囲をＣ等分し、分割された各領域に属す
る話者集合を話者クラスタとする。Ｃはクラスタ数を表
す。あるいは、線形伸縮係数αに基づいて各話者を順序
付けし、順序付けられた話者をＭ/Ｃ人ずつに区切って
話者クラスタを作成してもよい。

【０１１０】ステップＳ88で、上記モデル作成部４７に
よって、上記クラスタリング部４６による話者クラスタ
リング結果に基づいて、上記ステップＳ82において入力
された全話者の音響特徴量と標準話者モデル格納部４２
に格納された標準話者モデル(ＨＭＭ)とを用いて、上記
クラスタモデル(ＨＭＭ)が作成されて出力される。その
際におけるクラスタモデルの作成は、例えば、標準話者
モデルを初期モデルとし、話者クラスタ毎にクラスタ内
に属する話者の音声データを用いて、ＶＦＳ法あるいは
ＭＬＬＲ法によるモデル適応によって作成すればよい。
十分な学習用音声データが存在する場合には、ＨＭＭの
学習アルゴリズムを用いて作成すればよい。そうした
後、クラスタモデル作成処理動作を終了する。

【０１１１】このように、本実施の形態におけるクラス
タモデル作成装置は、第１実施の形態における話者特徴
推定装置を搭載している。そして、話者をクラスタリン
グするに先立って、個々の話者の音響特徴量に基づい
て、上記話者特徴推定装置によって総ての話者の話者特
徴(線形伸縮係数α)を推定する。そして、クラスタリン
グ部４６によって、線形伸縮係数αを話者間の距離とし
て総ての話者をクラスタリングし、モデル作成部４７に
よって、話者クラスタ毎に全話者の音響特徴量と標準話
者モデルとを用いてクラスタモデルを作成するようにし
ている。

【０１１２】その場合における上記線形伸縮係数αの推
定は、声道における梨状窩形状の個人差等による音声ス
ペクトル高周波数帯域の変動の影響を除去して精度よく
行われる。したがって、上記推定された線形伸縮係数α
を話者間の距離として話者クラスタリングを行なうこと
によって、より話者に適合した距離を用いて話者クラス
タリングを行なうことができる。すなわち、本実施の形
態によれば、話者集団における発声特性の分布を的確に
表現できるクラスタモデルを作成することができるので
ある。

【０１１３】図１８は、上記話者特徴推定装置を用いた
他のクラスタモデル作成装置のブロック図である。図１
８において、特徴量写像部５１,標準話者モデル格納部
５２,関数推定部５３および特徴量変換部５４は、図１
に示す話者特徴推定装置における特徴量写像部１,標準
話者モデル格納部２,関数推定部３及び特徴量変換部４
と同様であり、上記話者特徴推定装置を構成している。
また、音響分析部５５は、図１２に示す音声認識装置に
おける音響分析部２５と同様である。さらに、クラスタ
リング部５６は、図１６に示すクラスタモデル作成装置
におけるクラスタリング部４６と同様である。

【０１１４】モデル作成部５７は、専用のＬＳＩ素子等
によって構成されて、図１６に示すクラスタモデル作成
装置におけるモデル作成部４７と同様にしてクラスタモ
デルを作成するに加えて、音響分析部５５からの入力音
響特徴量に基づいて各話者の話者モデル(ＨＭＭ)を作成
する。特徴量抽出部５８は、専用のＬＳＩ素子等によっ
て構成されて、モデル作成部５７によって作成された各
話者モデルから音響特徴量を抽出して特徴量写像部５１
に送出する。

【０１１５】図１９は、図１８に示すクラスタモデル作
成装置によって実行されるクラスタモデル作成処理動作
のフローチャートである。以下、図１９に従って、クラ
スタモデル作成処理動作について説明する。先ず、ステ
ップＳ91〜ステップＳ93で、図１７に示すクラスタモデ
ル作成処理動作におけるステップＳ81〜ステップＳ83と
同様にして、カウンタｉが初期化され、ｉ番目の話者の
デジタル音声信号が周波数分析されて音響特徴量が抽出
される。

【０１１６】ステップＳ94で、上記モデル作成部５７に
よって、話者ｉの音響特徴量と標準話者モデル格納部５
２に格納された標準話者モデルとを用いて、話者ｉの話
者モデル(ＨＭＭ)が作成される。話者モデルの作成処理
手順は、例えば、標準話者モデルを初期モデルとし、話
者ｉの音声データを用いて、ＶＦＳ法またはＭＬＬＲ法
によるモデル適応によって作成すればよい。あるいは、
十分な学習用音声データが存在する場合には、ＨＭＭの
学習アルゴリズムを用いて作成すればよい。ステップＳ
95で、特徴量抽出部５８によって、上記作成された話者
ｉの話者モデルから音響特徴量が抽出される。尚、その
場合における音響特徴量抽出処理は、上記第１実施の形
態における図５に示す音響特徴量変換処理動作中のステ
ップＳ32において実行される標準話者音響特徴量抽出処
理動作と同様にして行われる。

【０１１７】ステップＳ96〜ステップＳ100で、図１７
に示すクラスタモデル作成処理動作におけるステップＳ
84〜ステップＳ88と同様にして、特徴量写像部５１,標
準話者モデル格納部５２,関数推定部５３および特徴量
変換部５４で構成される話者特徴推定装置によって話者
特徴推定処理が実行され、カウンタｉがインクリメント
され、ｉ＞話者数Ｍであれば話者クラスタリングが行わ
れる。そして、話者クラスタリング結果に基づいて、全
話者の音響特徴量と標準話者モデルとを用いて話者クラ
スタモデルが作成されて出力される。そうした後、クラ
スタモデル作成処理動作を終了する。

【０１１８】このように、本実施の形態におけるクラス
タモデル作成装置は、第１実施の形態における話者特徴
推定装置を搭載している。そして、話者をクラスタリン
グするに先立って、個々の話者の音響特徴量に基づい
て、上記話者特徴推定装置によって総ての話者の話者特
徴(線形伸縮係数α)を推定する。そして、クラスタリン
グ部５６によって、線形伸縮係数αを話者間の距離とし
て総ての話者をクラスタリングし、モデル作成部５７に
よって、話者クラスタ毎に全話者の音響特徴量と標準話
者モデルとを用いて話者クラスタモデルを作成するよう
にしている。

【０１１９】その場合における上記線形伸縮係数αの推
定は、声道における梨状窩形状の個人差等による音声ス
ペクトル高周波数帯域の変動の影響を除去して精度よく
行われる。したがって、上記推定された線形伸縮係数α
を話者間の距離として話者クラスタリングを行なうこと
によって、より話者に適合した距離を用いて話者クラス
タリングを行なうことことができる。すなわち、本実施
の形態によれば、話者集団における発声特性の分布を的
確に表現できるクラスタモデルを作成することができる
のである。

【０１２０】さらに、上記話者特徴推定装置は、上記モ
デル作成部５７で作成された話者モデルから特徴量抽出
部５８によって抽出された音響特徴量に基づいて、入力
話者の特徴を推定するようにしている。したがって、入
力話者の音響特徴量における発話内の変動を除去して、
入力話者の特徴をより精度良く推定することができるの
である。すなわち、本実施の形態によれば、さらに話者
に適合した距離を用いて話者クラスタリングを行なうこ
とができるのである。

【０１２１】尚、上記実施の形態においては、上記モデ
ル作成部５２に、話者特徴推定時における話者モデル作
成手段としての機能と、音声認識時におけるクラスタモ
デル作成手段としての機能とを兼用させている。しかし
ながら、この発明はこれに限定されるものではなく、上
記話者モデル作成手段としてのモデル作成部を独立して
設けても差し支えない。

【０１２２】＜第５実施の形態＞本実施の形態は、第１
実施の形態における話者特徴推定装置を用いた他の音声
認識装置に関する。図２０は、本実施の形態におけるク
ラスタモデルを用いた音声認識装置のブロック図であ
る。図２０において、特徴量写像部６１,標準話者モデ
ル格納部６２,関数推定部６３および特徴量変換部６４
は、図１に示す話者特徴推定装置における特徴量写像部
１,標準話者モデル格納部２,関数推定部３および特徴量
変換部４と同様であり、上記話者特徴推定装置を構成し
ている。さらに、音響分析部６５及び認識部６８は、図
１４に示す音声認識装置における音響分析部３５および
認識部３８と同様である。

【０１２３】クラスタモデル格納部６６は、半導体メモ
リや磁気メモリや記憶装置等によって構成されて、上記
第４実施の形態におけるクラスタモデル作成装置によっ
て作成されたクラスタモデルを格納する。モデル選択部
６７は、専用のＬＳＩ素子等によって構成されて、関数
推定部６３から出力される話者特徴としてのパラメータ
(例えば線形伸縮係数α)に基づいて入力話者のクラスタ
に応じたクラスタモデルをクラスタモデル格納部６６か
ら選択して認識部６８に送出する。

【０１２４】図２１は、図２０に示す音声認識装置によ
って実行される音声認識処理動作のフローチャートであ
る。以下、図２１に従って、音声認識処理動作について
説明する。先ず、ステップＳ101〜ステップＳ104で、上
記第２実施の形態における図１３に示す音声認識処理動
作のステップＳ61〜ステップＳ64と同様にして、入力さ
れたデジタル音声信号が周波数分析されて音響特徴量が
抽出される。そして、話者特徴推定モードであれば、特
徴量写像部６１,標準話者モデル格納部６２,関数推定部
６３および特徴量変換部６４で構成される話者特徴推定
装置によって、話者特徴推定処理が実行される。

【０１２５】ステップＳ105で、上記モデル選択部６７
によって、上記話者特徴推定処理部によって推定された
線形伸縮係数αに基づいてクラスタモデルを選択する。
尚、上記クラスタモデル選択処理は、例えば、予め線形
伸縮係数αが付与されたクラスタモデルをクラスタモデ
ル格納部６６に格納しておき、上記推定された線形伸縮
係数αに最も近い線形伸縮係数αが付与されているクラ
スタモデルを選択すればよい。そうした後、上記ステッ
プＳ101に戻って次の音声信号の入力処理に移行する。
そして、上記ステップＳ103において音声認識モードで
あると判別されると、ステップＳ106に進む。

【０１２６】ステップＳ106,ステップＳ107で、図１３
に示す音声認識処理動作におけるステップＳ66,ステッ
プＳ67と同様にして、認識処理が行われ、得られた認識
結果が出力される。そうした後、音声認識処理動作を終
了する。

【０１２７】このように、本実施の形態における音声認
識装置は、第１実施の形態における話者特徴推定装置を
搭載している。そして、音声認識処理に先立って、入力
音声の音響特徴量に基づいて、話者特徴推定装置によっ
て話者特徴(線形伸縮係数α)を推定する。そして、推定
された線形伸縮係数αに基づいてクラスタモデル格納部
６６から話者クラスタのクラスタモデルを選択し、この
選択されたクラスタモデルを用いて音声認識を行うよう
にしている。

【０１２８】その場合におけるクラスタモデルの作成お
よび選択時に用いられる線形伸縮係数αの推定は、声道
における梨状窩形状の個人差等による音声スペクトル高
周波数帯域の変動の影響を除去して精度よく行われる。
したがって、上記推定された線形伸縮係数αを用いてク
ラスタモデルの作成及び選択を行なうことによって、よ
り入力話者に適合する話者間距離を用いたクラスタモデ
ルの作成および選択を行なうことができる。したがっ
て、話者集団における発声特性の分布を的確に表すクラ
スタモデルを用いて認識処理を行うことができ、高い認
識率を得ることができるのである。

【０１２９】＜第６実施の形態＞本実施の形態は、第１
実施の形態における話者特徴推定装置を用いた音声合成
装置に関する。図２２は、本実施の形態における音声合
成装置のブロック図である。図２２において、特徴量写
像部７１,標準話者モデル格納部７２,関数推定部７３お
よび特徴量変換部７４は、図１に示す話者特徴推定装置
における特徴量写像部１,標準話者モデル格納部２,関数
推定部３および特徴量変換部４と同様であり、上記話者
特徴推定装置を構成している。但し、特徴量写像部７１
は、音声合成時にも、音声素片の音響特徴量に対して、
自身が構成要素となっている上記話者特徴推定装置で推
定された写像関数ｆ^を用いた写像処理を行うようにな
っている。さらに、音響分析部７５は、図１２に示す音
声認識装置における音響分析部２５と同様である。

【０１３０】標準話者素片格納部７６は、半導体メモリ
や磁気メモリや記憶装置等によって構成されて、標準話
者の音声素片を格納している。素片選択部７７は、専用
のＬＳＩ素子等によって構成されて、入力音韻記号列お
よび入力韻律情報に基づいて標準話者素片格納部７６か
ら音声素片を選択する。素片接続部７８は、専用のＬＳ
Ｉ素子等によって構成されて、入力韻律情報に基づいて
特徴量写像部７１から出力される写像後の音声素片同士
を接続して合成音声を出力する。

【０１３１】図２３は、図２２に示す音声合成装置によ
って実行される音声合成処理動作のフローチャートであ
る。以下、図２３に従って、音声合成処理動作について
説明する。先ず、ステップＳ111で、音響分析部７５に
よって、音声合成モードであるか否かが判別される。そ
の結果、音声合成モードであればステップＳ115に進
み、音声合成モードでなければ(つまり話者特徴推定モ
ードであれば)ステップＳ112に進む。尚、音声合成モー
ドであるか否かを管理するモード情報管理方法は本実施
の形態に直接関係はなく、モード情報管理方法を限定す
るものではない。例えば、通常は音声合成モードに設定
しておき、発話者が話者特徴推定スイッチを押して発声
した場合に話者特徴推定モードに変更する管理方法が簡
単である。

【０１３２】ステップＳ112〜ステップＳ114で、上記第
２実施の形態における図１３に示す音声認識処理動作の
ステップＳ61,Ｓ62,Ｓ64と同様にして、入力されたデジ
タル音声信号が周波数分析されて音響特徴量が抽出さ
れ、特徴量写像部７１,標準話者モデル格納部７２,関数
推定部７３および特徴量変換部７４で構成される話者特
徴推定装置によって、話者特徴推定処理が実行される。
そうした後、ステップＳ111に戻る。そして、上記ステ
ップＳ111において音声合成モードであると判別される
と、上記ステップＳ115に進む。

【０１３３】ステップＳ115で、上記素片選択部７７に
よって、標準話者素片格納部７６に格納された標準話者
の音声素片の中から、入力音韻記号列および入力韻律情
報に基づいて該当する音声素片が選択される。音声素片
の選択においては、入力音韻記号列のみに基づいて選択
しても差し支えない。尚、上記入力音韻記号列および入
力韻律情報の生成方法は本実施の形態に直接関係はな
く、生成方法を限定するものではない。例えば、テキス
トに対して形態素解析や構文解析等の言語処理を行い、
アクセントやイントネーション付与等の韻律処理を行っ
て得られる言語情報を用いればよい。

【０１３４】ステップＳ116で、上記特徴量写像部７１
によって、上記第１実施の形態において図３に示す音響
特徴量写像処理動作と同様にして、上記選択された音声
素片に対して音響特徴量の写像が行われる。但し、その
場合に、写像関数としては、上記ステップＳ114におい
て推定された写像関数ｆ^_i()の逆関数ｆ^_i ^-1()を用いる
ことになる。ステップＳ117で、素片接続部７８によっ
て、入力韻律情報に基づいて、上記写像によって入力話
者(学習話者)の声質に変換された音声素片が接続され
る。ステップＳ118で、入力話者の声質に変換された上
記入力音韻記号列に基づく合成音声が出力される。

【０１３５】このように、本実施の形態における音声合
成装置は、第１実施の形態における話者特徴推定装置を
搭載している。そして、音声合成処理に先立って、入力
音声の音響特徴量に基づいて、話者特徴推定装置によっ
て話者特徴(写像関数ｆ)を推定する。そして、推定され
た写像関数ｆ^の逆関数ｆ^^-1を用いて、入力音韻記号列
に基づいて選択された標準話者の音声素片を写像するこ
とによって、入力話者の声質に変換された音声素片を得
るようにしている。

【０１３６】その場合における写像関数ｆの推定は、声
道における梨状窩形状の個人差等による音声スペクトル
高周波数帯域の変動の影響を除去して精度よく行われ
る。したがって、上記推定された写像関数ｆ^の逆関数
ｆ^^-1を用いて標準話者の音声素片を写像することによ
って、より学習話者の声質に近い声質に変換された合成
音声を得ることができるのである。

【０１３７】尚、上記実施の形態においては、上記特徴
量写像部７１に、上記話者特徴推定装置における音響特
徴量写像手段としての機能と、音声合成時における声質
変換手段としての機能とを兼用させている。しかしなが
ら、この発明はこれに限定されるものではなく、上記声
質変換手段としての特徴量写像部を独立して設けても差
し支えない。

【０１３８】＜第７実施の形態＞本実施の形態は、第１
実施の形態における話者特徴推定装置を用いた声質変換
装置に関する。図２４は、本実施の形態における声質変
換装置のブロック図である。図２４において、特徴量写
像部８１,標準話者モデル格納部８２,関数推定部８３お
よび特徴量変換部８４は、図１に示す話者特徴推定装置
における特徴量写像部１,標準話者モデル格納部２,関数
推定部３および特徴量変換部４と同様であり、上記話者
特徴推定装置を構成している。さらに、音響分析部８５
は、図１２に示す音声認識装置における音響分析部２５
と同様である。但し、特徴量写像部８１は、声質変換時
にも、入力音響特徴量に対して、自身が構成要素となっ
ている上記話者特徴推定装置で推定された写像関数ｆ^
を用いた写像処理を行うようになっている。また、標準
話者モデル格納部８２には、声質変換におけるターゲッ
ト(変換先)話者モデルを格納しておく。その場合のター
ゲット話者モデルは、例えば予めターゲット話者の音声
データを用いて作成されたＨＭＭである。

【０１３９】合成部８６は、専用のＬＳＩ素子等によっ
て構成される。そして、上記特徴量写像部８１から出力
されたターゲット話者に写像された(ターゲット話者の
声質に変換された)入力話者の音響特徴量と、音響分析
部８５よって得られた残差音響信号とに基づいて、音声
信号を合成して合成音声を出力する。

【０１４０】図２５は、図２４に示す声質変換装置によ
って実行される声質変換処理動作のフローチャートであ
る。以下、図２５に従って、上記声質変換処理動作につ
いて説明する。ステップＳ121〜ステップＳ125で、上記
第２実施の形態における図１３に示す音声認識処理動作
のステップＳ61〜ステップＳ65と同様にして、入力され
たデジタル音声信号が周波数分析されて音響特徴量が抽
出される。但し、ステップＳ122における音響特徴量抽
出処理においては、分析して得られるスペクトル情報の
逆フィルタに入力音声信号を通すことによって、残差音
響信号も抽出される。そして、話者特徴推定モードであ
れば、特徴量写像部８１,標準話者モデル格納部８２,関
数推定部８３および特徴量変換部８４で構成される話者
特徴推定装置によって、話者特徴推定処理が実行され
る。一方、声質変換であれば、上記話者特徴推定処理で
推定された写像関数ｆ^_i()が用いられて、入力音響特徴
量に対して写像が行われる。

【０１４１】ステップＳ126で、上記合成部８６によっ
て、上記ステップＳ122において抽出された残差音響信
号と、上記ステップＳ125においてターゲット話者に写
像された音響特徴量とを用いて、合成音声が生成され
る。尚、その場合における合成処理は、音響特徴量を逆
cos変換および指数変換することによって得られるスペ
クトル情報を表すフィルタを作成し、上記残差音響信号
を上記フィルタに通すことによって行われる。ステップ
S127で、上記生成された合成音声が出力される。そうし
た後、声質変換処理動作を終了する。

【０１４２】このように、本実施の形態における声質変
換装置は、第１実施の形態における話者特徴推定装置を
搭載している。そして、声質変換処理に先立って、入力
音声の音響特徴量に基づいて、話者特徴推定装置によっ
て話者特徴(ターゲット話者への写像関数ｆ)を推定す
る。そして、推定された写像関数ｆ^を用いて、入力音
響特徴量を写像することによって、入力話者の声質をタ
ーゲット話者の声質に変換するようにしている。

【０１４３】その場合における写像関数ｆ^の推定は、
声道における梨状窩形状の個人差等による音声スペクト
ル高周波数帯域の変動の影響を除去して精度よく行われ
る。したがって、上記推定された写像関数ｆ^を用いて
入力話者の音響特徴量を写像することによって、よりタ
ーゲット話者の声質に近い声質に変換された合成音声を
得ることができるのである。

【０１４４】尚、上記実施の形態においては、上記特徴
量写像部８１に、上記話者特徴推定装置における音響特
徴量写像手段としての機能と、声質変換時における声質
変換手段としての機能とを兼用させている。しかしなが
ら、この発明はこれに限定されるものではなく、上記声
質変換手段としての特徴量写像部を独立して設けても差
し支えない。

【０１４５】また、上記各実施の形態において、上記各
部を構成する素子等は、一つの素子であっても、また
は、複数の素子が複合されたものであっても差し支えな
い。また、上記各部はＣＰＵあるいはその周辺機器等で
代用してもよい。

【０１４６】また、上記各実施の形態においては、音響
モデルとしてＨＭＭを、音韻類似度としてＨＭＭに基づ
く尤度を、スコア算出にビタビ演算を用いる場合につい
て説明している。しかしながら、ＨＭＭの代わりに音声
波形あるいは音響特徴量系列を登録したモデルを、尤度
の代わりにスペクトル間距離を、ビタビ演算の代わりに
ＤＰマッチングを用いても差し支えない。

【０１４７】ところで、上記話者特徴推定装置における
上記特徴量写像手段,特徴量変換手段,標準話者モデル格
納手段および関数推定手段としての機能は、プログラム
記録媒体に記録された話者特徴推定処理プログラムによ
って実現される。上記実施の形態における上記プログラ
ム記録媒体は、ＲＯＭ(リード・オンリ・メモリ)でなるプ
ログラムメディアである。あるいは、外部補助記憶装置
に装着されて読み出されるプログラムメディアであって
もよい。尚、何れの場合においても、上記プログラムメ
ディアから話者特徴推定処理プログラムを読み出すプロ
グラム読み出し手段は、上記プログラムメディアに直接
アクセスして読み出す構成を有していてもよいし、ＲＡ
Ｍ(ランダム・アクセス・メモリ)に設けられたプログラム
記憶エリア(図示せず)にダウンロードして、上記プログ
ラム記憶エリアにアクセスして読み出す構成を有してい
てもよい。尚、上記プログラムメディアからＲＡＭの上
記プログラム記憶エリアにダウンロードするためのダウ
ンロードプログラムは、予め本体装置に格納されている
ものとする。

【０１４８】ここで、上記プログラムメディアとは、本
体側と分離可能に構成され、磁気テープやカセットテー
プ等のテープ系、フロッピー（登録商標）ディスク,ハ
ードディスク等の磁気ディスクやＣＤ(コンパクトディ
スク)‐ＲＯＭ,ＭＯ(光磁気)ディスク,ＭＤ(ミニディス
ク),ＤＶＤ(ディジタルビデオディスク)等の光ディスク
のディスク系、ＩＣ(集積回路)カードや光カード等のカ
ード系、マスクＲＯＭ,ＥＰＲＯＭ（紫外線消去型ＲＯ
Ｍ),ＥＥＰＲＯＭ(電気的消去型ＲＯＭ),フラッシュＲ
ＯＭ等の半導体メモリ系を含めた、固定的にプログラム
を坦持する媒体である。

【０１４９】また、上記各実施の形態における音声情報
処理装置は、モデムを備えてインターネットを含む通信
ネットワークと接続可能な構成を有していれば、上記プ
ログラムメディアは、通信ネットワークからのダウンロ
ード等によって流動的にプログラムを坦持する媒体であ
っても差し支えない。尚、その場合における上記通信ネ
ットワークからダウンロードするためのダウンロードプ
ログラムは、予め本体装置に格納されているものとす
る。あるいは、別の記録媒体からインストールされるも
のとする。

【０１５０】尚、上記記録媒体に記録されるものはプロ
グラムのみに限定されるものではなく、データも記録す
ることが可能である。

【０１５１】

【発明の効果】以上より明らかなように、第１の発明の
話者特徴推定装置は、特徴量写像手段によって写像され
ると共に、特徴量変換手段によって、声道における梨状
窩形状の個人差によって変動が生ずる領域が上記標準話
者の音響特徴量に関する情報を用いて変換された入力話
者の音響特徴量と、標準話者の音響特徴量に関する情報
とに基づいて、関数推定手段によって写像関数を推定す
るので、入力話者の音響特徴量における声道の梨状窩形
状の個人差による音声スペクトル高周波数帯域の変動の
影響を除去することができ、話者特徴としての写像関数
を精度良く推定することができる。

【０１５２】その際に、入力話者の音響特徴量における
声道長の梨状窩形状の個人差による変動を予め補正して
おくので、少量の音声データから入力話者の特徴を精度
よく推定することができる。

【０１５３】また、上記第１の発明の話者特徴推定装置
は、上記特徴量変換手段を、上記入力話者の音響特徴量
における変換領域の下限位置を、入力話者の音声スペク
トルの傾きと上記標準話者の音声スペクトルの傾きとの
差が最も小さくなる同一周波数位置に設定するように成
せば、入力話者および標準話者の音声スペクトルを用い
て、上記入力話者の音響特徴量における変換領域の下限
位置を簡単に設定することができる。

【０１５４】また、上記第１の発明の話者特徴推定装置
は、上記特徴量変換手段を、上記入力話者の音響特徴量
の変換を、上記入力話者の音声スペクトルにおける上記
変換領域に該当する周波数帯域と上記標準話者の音声ス
ペクトルにおける該当する周波数帯域とにおけるスペク
トル値の差異から求められた周波数特性変換フィルタを
用いて行うように成せば、上記入力話者の音響特徴量に
対する変換処理を、上記周波数特性変換フィルタを用い
て簡単に行うことができる。

【０１５５】また、上記第１の発明の話者特徴推定装置
は、上記特徴量変換手段によって音声スペクトルが変換
される周波数帯域の下限を３kＨzから３.５kＨzまでの
間とする一方、上限をサンプリング周波数の１/２とす
れば、声道における梨状窩形状の個人差によって変動す
る音声スペクトル高周波数帯域を的確に設定することが
できる。

【０１５６】また、上記第１の発明の話者特徴推定装置
は、上記特徴量写像手段を、狭母音を除く母音に対して
のみ写像処理を行うように成せば、音声スペクトルにお
けるホルマントのピークの出現位置が不安定な狭母音を
除く母音に対してのみ話者特徴推定処理を行うことがで
き、入力話者の特徴をさらに精度良く推定することがで
きる。

【０１５７】また、上記第１の発明の話者特徴推定装置
は、特徴量写像手段を、予め用意された複数の写像関数
を用いて上記写像を行うように成し、上記関数推定手段
を、上記標準話者の音響特徴量に関する情報に対する上
記写像および変換が行われた入力話者の音響特徴量の尤
度を最大にするという基準で上記複数の写像関数から写
像関数を最尤推定するように成せば、複数の写像関数を
用いた写像演算と上記尤度演算と尤度値比較演算との繰
り返しの簡単な処理で、話者特徴情報としての写像関数
を精度良く推定することができる。

【０１５８】また、第２の発明の音声認識装置は、認識
手段によって入力音声信号を認識するに先立って、入力
音声の音響特徴量に基づいて、上記第１の発明の話者特
徴推定装置によって入力話者の特徴を推定し、特徴量写
像手段によって、上記推定された入力話者の特徴として
の写像関数を用いて上記入力話者の音響特徴量を写像
(話者正規化)し、この話者正規化された入力話者の音響
特徴量に基づいて、上記認識手段によって入力音声信号
を認識するので、声道における梨状窩形状の個人差によ
る音声スペクトル高周波数帯域の変動の影響を除去して
精度よく推定された写像関数を用いて上記話者正規化を
行うことができる。

【０１５９】したがって、この発明によれば、より標準
話者の音響特徴量の周波数特性に近づくように入力話者
の音響特徴量を正規化することができ、高い認識率を得
ることができる。

【０１６０】また、第３の発明の音声認識装置は、認識
手段によって入力音声信号を認識するに先立って、入力
音声の音響特徴量に基づいて、上記第１の発明の話者特
徴推定装置によって入力話者の特徴を推定し、モデル適
応手段によって、上記推定された入力話者の特徴として
の写像関数の逆関数を用いて標準話者モデルを入力話者
に適応させて適応モデルを生成し、この生成された適応
モデルを用いて、上記認識手段によって入力音声信号を
認識するので、声道における梨状窩形状の個人差による
音声スペクトル高周波数帯域の変動の影響を除去して精
度よく推定された写像関数の逆関数を用いて、上記標準
話者モデルを話者適応させることができる。

【０１６１】したがって、この発明によれば、より入力
話者の音響特徴量の周波数特性に近い周波数特性を有す
る適応モデルを用いることができ、高い認識率を得るこ
とができる。

【０１６２】また、第４の発明のクラスタモデル作成装
置は、モデル作成手段によってクラスタモデルを作成す
るに先立って、入力音声の音響特徴量に基づいて、上記
第１の発明の話者特徴推定装置によって入力話者の特徴
を推定し、クラスタリング手段によって、上記推定され
た入力話者の特徴を話者間距離として複数の話者をクラ
スタリングし、このクラスタリング結果に基づいて、上
記モデル作成手段によって各話者クラスタ用の音響モデ
ルであるクラスタモデルを作成するので、声道における
梨状窩形状の個人差による音声スペクトル高周波数帯域
の変動の影響を除去して精度よく推定された入力話者の
特徴を話者間距離として、複数の話者をクラスタリング
することができる。

【０１６３】したがって、この発明によれば、より話者
に適合した話者間距離を用いてクラスタリングを行うこ
とができ、話者集団における発声特性の分布を的確に表
現できるクラスタモデルを作成することができる。

【０１６４】また、第５の発明のクラスタモデル作成装
置は、モデル作成手段によってクラスタモデルを作成す
るに先立って、話者モデル作成手段によって入力話者の
音響特徴量に基づいて話者モデルを作成し、特徴量抽出
手段によって話者モデルから音響特徴量を抽出し、この
抽出された音響特徴量に基づいて、上記第１の発明の話
者特徴推定装置によって入力話者の特徴を推定し、クラ
スタリング手段によって、上記推定された各入力話者の
特徴を話者間距離として複数の話者をクラスタリング
し、このクラスタリング結果に基づいて、上記モデル作
成手段によってクラスタモデルを作成するので、声道に
おける梨状窩形状の個人差による音声スペクトル高周波
数帯域の変動の影響を除去して精度よく推定された入力
話者の特徴を話者間距離として、複数の話者をクラスタ
リングすることができる。

【０１６５】したがって、この発明によれば、より話者
に適合した話者間距離を用いてクラスタリングを行うこ
とができ、話者集団における発声特性の分布を的確に表
現できるクラスタモデルを作成することができる。

【０１６６】さらに、上記話者特徴推定装置は、上記話
者モデルから抽出された音響特徴量に基づいて入力話者
の特徴を推定するので、入力話者の音響特徴量における
発話内の変動を除去して入力話者の特徴をより精度良く
推定することができる。

【０１６７】また、第６の発明の音声認識装置は、クラ
スタモデル格納手段に上記第４の発明あるいは第５の発
明のクラスタモデル作成装置によって作成されたクラス
タモデルを格納し、認識手段によって入力音声信号を認
識するに先立って、入力音声の音響特徴量に基づいて、
上記第１の発明の話者特徴推定装置によって入力話者の
特徴を推定し、モデル選択手段によって、上記推定され
た入力話者の特徴に基づいて該当するクラスタモデルを
選択し、この選択されたクラスタモデルを用いて、上記
認識手段によって入力音声信号を認識するので、声道に
おける梨状窩形状の個人差による音声スペクトル高周波
数帯域の変動の影響を除去して精度よく推定された入力
話者の特徴を用いて、上記クラスタモデルの作成および
選択を行うことができる。

【０１６８】したがって、この発明によれば、話者集団
における発声特性の分布を的確に表すクラスタモデルを
用いて認識処理を行うことができ、高い認識率を得るこ
とができる。

【０１６９】また、第７の発明の音声合成装置は、素片
接続手段によって音声素片同士を接続して合成音声を生
成するに先立って、入力音声の音響特徴量に基づいて、
上記第１の発明の話者特徴推定装置によって入力話者の
特徴を推定し、特徴量写像手段によって、素片選択部で
音韻記号列に基づいて選択された標準話者の音声素片の
音響特徴量を上記推定された入力話者の特徴としての写
像関数の逆関数を用いて写像し、この写像された音声素
片同士を上記素片接続手段によって接続するので、声道
における梨状窩形状の個人差による音声スペクトル高周
波数帯域の変動の影響を除去して精度よく推定された写
像関数の逆関数を用いて、上記標準話者の音声素片を入
力話者(学習話者)の声質に変換することができる。

【０１７０】したがって、この発明によれば、より入力
話者の声質に近い声質に変換された合成音声を得ること
ができる。

【０１７１】また、第８の発明の声質変換装置は、特徴
量写像手段によって入力話者の音響特徴量を写像して入
力話者の声質を変換するに先立って、入力音声の音響特
徴量に基づいて、上記第１の発明の話者特徴推定装置に
よって入力話者の特徴を推定し、上記特徴量写像手段に
よって、入力話者の音響特徴量を上記推定された入力話
者の特徴としての写像関数を用いて写像し、合成手段に
よって、この写像された入力話者の音響特徴量と音響分
析手段からの音響分析結果とに基づいて音声を合成する
ので、声道における梨状窩形状の個人差による音声スペ
クトル高周波数帯域の変動の影響を除去して精度よく推
定された写像関数を用いて、入力話者の声質を他の話者
の声質に変換することができる。

【０１７２】したがって、この発明によれば、より他の
話者の声質に近い声質に変換された音声を得ることがで
きる。

【０１７３】また、第９の発明の話者特徴推定方法は、
入力話者の音響特徴量を複数の写像関数を用いて写像
し、上記写像が行われた入力話者の音響特徴量における
声道の梨状窩形状の個人差によって変動が生ずる領域を
標準話者の音響特徴量に関する情報を用いて変換し、上
記変換が行われた入力話者の音響特徴量と上記標準話者
の音響特徴量に関する情報とに基づいて上記複数の写像
関数から写像関数を最尤推定するので、入力話者の音響
特徴量における声道の梨状窩形状の個人差による音声ス
ペクトル高周波数帯域の変動の影響を除去して、話者特
徴としての写像関数を少量の音声データから精度良く推
定することができる。

【０１７４】また、第１０の発明のプログラム記録媒体
は、コンピュータを、上記第１の発明の話者特徴推定装
置における上記特徴量写像手段,特徴量変換手段,標準話
者モデル格納手段および関数推定手段として機能させる
話者特徴推定処理プログラムが記録されているので、上
記第１の発明の場合と同様に、入力話者の音響特徴量に
おける声道の梨状窩形状の個人差による音声スペクトル
高周波数帯域の変動の影響を除去して、話者特徴として
の写像関数を少量の音声データから精度良く推定するこ
とができる。

【図面の簡単な説明】

【図１】この発明の話者特徴推定装置におけるブロッ
ク図である。

【図２】図１に示す話者特徴推定装置によって実行さ
れる話者特徴推定処理動作のフローチャートである。

【図３】図２に示す話者特徴推定処理動作において実
行される音響特徴量写像処理動作のフローチャートであ
る。

【図４】写像関数の一例を示す図である。

【図５】図２に示す話者特徴推定処理動作において実
行される音響特徴量変換処理動作のフローチャートであ
る。

【図６】音響特徴量変換処理が行われる前における入
力話者音響特徴量の一例を示す図である。

【図７】音響特徴量変換処理が行われた後における入
力話者音響特徴量の一例を示す図である。

【図８】図５に示す音響特徴量変換処理動作とは異な
る音響特徴量変換処理動作のフローチャートである。

【図９】図８に示す音響特徴量変換処理動作において
作成される変換フィルタの一例を示す特性図である。

【図１０】図２に示す話者特徴推定処理動作において
実行される尤度算出処理動作を示すフローチャートであ
る。

【図１１】図１とは異なる話者特徴推定装置のブロッ
ク図である。

【図１２】この発明の話者正規化方式による音声認識
装置のブロック図である。

【図１３】図１２に示す音声認識装置による音声認識
処理動作のフローチャートである。

【図１４】この発明の話者適応方式による音声認識装
置のブロック図である。

【図１５】図１４に示す音声認識装置による音声認識
処理動作のフローチャートである。

【図１６】この発明のクラスタモデル作成装置のブロ
ック図である。

【図１７】図１６に示すクラスタモデル作成装置によ
るクラスタモデル作成処理動作のフローチャートであ
る。

【図１８】図１６とは異なるクラスタモデル作成装置
におけるブロック図である。

【図１９】図１８に示すクラスタモデル作成装置によ
るクラスタモデル作成処理動作のフローチャートであ
る。

【図２０】この発明のクラスタモデルを用いた音声認
識装置のブロック図である。

【図２１】図２０に示す音声認識装置による音声認識
処理動作のフローチャートである。

【図２２】この発明の音声合成装置のブロック図であ
る。

【図２３】図２２に示す音声合成装置による音声合成
処理動作のフローチャートである。

【図２４】この発明の声質変換装置のブロック図であ
る。

【図２５】図２４に示す声質変換装置による声質変換
処理動作のフローチャートである。

【符号の説明】

１,１１,２１,３１,４１,５１,６１,７１,８１…特徴量
写像部、２,１２,２２,３２,４２,５２,６２,７２,８２…標準話
者モデル格納部、３,１３,２３,３３,４３,５３,６３,７３,８３…関数推
定部、４,１４,２４,３４,４４,５４,６４,７４,８４…特徴量
変換部、２５,３５,４５,５５,６５,７５,８５…音響分析部、２６,３８,６８…認識部、３６…モデル適応部、３７…適応モデル格納部、４６,５６…クラスタリング部、４７,５７…モデル作成部、５８…特徴量抽出部、６６…クラスタモデル格納部、６７…モデル選択部、７６…標準話者素片格納部、７７…素片選択部、７８…素片接続部、８６…合成部。

Claims

【特許請求の範囲】

【請求項１】入力話者の音響特徴量を標準話者に類似
した音響特徴量に写像する写像関数を推定し、推定した
写像関数の情報を話者特徴とする話者特徴推定装置にお
いて、標準話者の音響特徴量に関する情報を格納する標準話者
音響情報格納手段と、入力話者の音響特徴量を写像する特徴量写像手段と、上記入力話者の音響特徴量における声道の梨状窩形状の
個人差によって変動が生ずる領域を、上記標準話者音響
情報格納手段に格納された標準話者の音響特徴量に関す
る情報を用いて変換する特徴量変換手段と、上記写像および変換が行われた入力話者の音響特徴量
と、上記標準話者の音響特徴量に関する情報とに基づい
て、写像関数を推定する関数推定手段を備えたことを特
徴とする話者特徴推定装置。
【請求項２】請求項１に記載の話者特徴推定装置にお
いて、上記特徴量変換手段は、上記入力話者の音響特徴量にお
ける変換領域の下限位置を、入力話者の音声スペクトル
の傾きと上記標準話者の音声スペクトルの傾きとの差が
最も小さくなる同一周波数位置に設定するようになって
いることを特徴とする話者特徴推定装置。
【請求項３】請求項１に記載の話者特徴推定装置にお
いて、上記特徴量変換手段は、上記入力話者の音響特徴量の変
換を、上記入力話者の音声スペクトルにおける上記変換
領域に該当する周波数帯域と上記標準話者の音声スペク
トルにおける該当する周波数帯域とにおけるスペクトル
値の差異から求められた周波数特性変換フィルタを用い
て行うようになっていることを特徴とする話者特徴推定
装置。
【請求項４】請求項２あるいは請求項３に記載の話者
特徴推定装置において、上記特徴量変換手段が音声スペクトルを変換する周波数
帯域の下限は３kＨzから３.５kＨzまでの間に在る一
方、上限はサンプリング周波数の１/２であることを特
徴とする話者特徴推定装置。
【請求項５】請求項１乃至請求項４の何れか一つに記
載の話者特徴推定装置において、上記特徴量写像手段は、狭母音を除く母音に対してのみ
写像処理を行うようになっていることを特徴とする話者
特徴推定装置。
【請求項６】請求項１乃至請求項５の何れか一つに記
載の話者特徴推定装置において、特徴量写像手段は、予め用意された複数の写像関数を用
いて上記写像を行うようになっており、上記関数推定手段は、上記標準話者の音響特徴量に関す
る情報に対する上記写像及び変換が行われた入力話者の
音響特徴量の尤度を最大にするという基準で、上記複数
の写像関数から写像関数を最尤推定するようになってい
ることを特徴とする話者特徴推定装置。
【請求項７】入力話者の音響特徴量を標準話者の音響
特徴量に正規化する音声認識装置において、入力音声信号を分析して音響特徴量を抽出する音響分析
手段と、上記音響分析手段からの入力話者の音響特徴量に基づい
て入力話者の特徴を推定する請求項１乃至請求項６の何
れか一つに記載の話者特徴推定装置と、上記音響分析手段からの入力話者の音響特徴量を、上記
推定された入力話者の特徴としての写像関数を用いて写
像する特徴量写像手段と、上記写像が行われた入力話者の音響特徴量と標準話者モ
デルとに基づいて上記入力音声信号を認識する認識手段
を備えたことを特徴とする音声認識装置。
【請求項８】標準話者モデルを入力話者に適応させる
音声認識装置において、入力音声信号を分析して音響特徴量を抽出する音響分析
手段と、上記音響分析手段からの入力話者の音響特徴量に基づい
て入力話者の特徴を推定する請求項１乃至請求項６の何
れか一つに記載の話者特徴推定装置と、上記推定された入力話者の特徴としての写像関数の逆関
数を用いて、上記標準話者モデルを入力話者に適応させ
て適応モデルを生成するモデル適応手段と、上記生成された上記適応モデルを格納する適応モデル格
納手段と、上記入力話者の音響特徴量と上記適応モデルとに基づい
て、上記入力音声信号を認識する認識手段を備えたこと
を特徴とする音声認識装置。
【請求項９】話者の音声信号に基づいて複数の話者を
話者クラスタに分割し、各話者クラスタ用の音響モデル
であるクラスタモデルを作成するクラスタモデル作成装
置において、入力音声信号を分析して音響特徴量を抽出する音響分析
手段と、上記音響分析手段からの入力話者の音響特徴量に基づい
て入力話者の特徴を推定する請求項１乃至請求項６の何
れか一つに記載の話者特徴推定装置と、上記推定された各入力話者の特徴を話者間距離として、
複数の話者をクラスタリングするクラスタリング手段
と、上記クラスタリング手段によって得られた各話者クラス
タに属する入力話者の音響特徴量に基づいて、上記クラ
スタモデルを作成するモデル作成手段を備えたことを特
徴とするクラスタモデル作成装置。
【請求項１０】話者の音声信号に基づいて複数の話者
を話者クラスタに分割し、各話者クラスタ用の音響モデ
ルであるクラスタモデルを作成するクラスタモデル作成
装置において、入力音声信号を分析して音響特徴量を抽出する音響分析
手段と、上記音響分析手段からの入力話者の音響特徴量に基づい
て、各入力話者の音響モデルである話者モデルを作成す
る話者モデル作成手段と、上記話者モデルから音響特徴量を抽出する特徴量抽出手
段と、上記抽出された音響特徴量に基づいて入力話者の特徴を
推定する請求項１乃至請求項６の何れか一つに記載の話
者特徴推定装置と、上記推定された各入力話者の特徴を話者間距離として、
複数の話者をクラスタリングするクラスタリング手段
と、上記クラスタリング手段によって得られた各話者クラス
タに属する入力話者の音響特徴量に基づいて、上記クラ
スタモデルを作成するモデル作成手段を備えたことを特
徴とするクラスタモデル作成装置。
【請求項１１】入力話者が属する話者クラスタ用の音
響モデルであるクラスタモデルを用いて音声を認識する
音声認識装置において、入力音声信号を分析して音響特徴量を抽出する音響分析
手段と、上記音響分析手段からの入力話者の音響特徴量に基づい
て入力話者の特徴を推定する請求項１乃至請求項６の何
れか一つに記載の話者特徴推定装置と、請求項９あるいは請求項１０に記載のクラスタモデル作
成装置によって作成されたクラスタモデルを格納するク
ラスタモデル格納手段と、上記推定された入力話者の特徴に基づいて、上記クラス
タモデル格納手段から該当するクラスタモデルを選択す
るモデル選択手段と、上記入力話者の音響特徴量と上記選択されたクラスタモ
デルとに基づいて、上記入力音声信号を認識する認識手
段を備えたことを特徴とする音声認識装置。
【請求項１２】音韻記号列に基づいて標準話者の音声
素片を接続して合成音声を出力する音声合成装置におい
て、入力音声信号を分析して音響特徴量を抽出する音響分析
手段と、上記音響分析手段からの入力話者の音響特徴量に基づい
て入力話者の特徴を推定する請求項１乃至請求項６の何
れか一つに記載の話者特徴推定装置と、標準話者の音声素片を格納する標準話者素片格納手段
と、上記音韻記号列に基づいて、上記標準話者素片格納手段
から該当する音声素片を選択する素片選択手段と、上記選択された音声素片の音響特徴量を、上記推定され
た入力話者の特徴としての写像関数の逆関数を用いて写
像する特徴量写像手段と、上記写像が行われた音声素片同士を接続する素片接続手
段を備えたことを特徴とする音声合成装置。
【請求項１３】入力話者の声質を他の話者の声質に変
換する声質変換装置において、入力音声信号を分析して、音響特徴量を抽出すると共
に、音響分析結果を出力する音響分析手段と、上記音響分析手段からの入力話者の音響特徴量に基づい
て入力話者の特徴を推定する請求項１乃至請求項６の何
れか一つに記載の話者特徴推定装置と、上記入力話者の音響特徴量を、上記推定された入力話者
の特徴としての写像関数を用いて写像する特徴量写像手
段と、上記写像が行われた入力話者の音響特徴量と上記音響分
析手段からの音響分析結果とに基づいて音声を合成する
合成手段を備えたことを特徴とする声質変換装置。
【請求項１４】入力話者の音響特徴量を標準話者に類
似した音響特徴量に写像する写像関数を推定し、推定し
た写像関数の情報を話者特徴とする話者特徴推定方法に
おいて、入力話者の音響特徴量を複数の写像関数を用いて写像
し、上記写像が行われた入力話者の音響特徴量における声道
の梨状窩形状の個人差によって変動が生ずる領域を、標
準話者の音響特徴量に関する情報を用いて変換し、上記変換が行われた入力話者の音響特徴量と上記標準話
者の音響特徴量に関する情報とに基づいて、上記複数の
写像関数から写像関数を最尤推定することを特徴とする
話者特徴推定方法。
【請求項１５】コンピュータを、請求項１における上記特徴量写像手段,特徴量変換手段,
標準話者モデル格納手段および関数推定手段として機能
させる話者特徴推定処理プログラムが記録されたことを
特徴とするコンピュータ読出し可能なプログラム記録媒
体。