JP2002182683A - 話者特徴推定装置および話者特徴推定方法、クラスタモデル作成装置、音声認識装置、音声合成装置、並びに、プログラム記録媒体 - Google Patents

話者特徴推定装置および話者特徴推定方法、クラスタモデル作成装置、音声認識装置、音声合成装置、並びに、プログラム記録媒体

Info

Publication number
JP2002182683A
JP2002182683A JP2000382383A JP2000382383A JP2002182683A JP 2002182683 A JP2002182683 A JP 2002182683A JP 2000382383 A JP2000382383 A JP 2000382383A JP 2000382383 A JP2000382383 A JP 2000382383A JP 2002182683 A JP2002182683 A JP 2002182683A
Authority
JP
Japan
Prior art keywords
speaker
feature
acoustic
input
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000382383A
Other languages
English (en)
Other versions
JP3754613B2 (ja
Inventor
Yoichiro Hachiman
洋一郎 八幡
Koichi Yamaguchi
耕市 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2000382383A priority Critical patent/JP3754613B2/ja
Publication of JP2002182683A publication Critical patent/JP2002182683A/ja
Application granted granted Critical
Publication of JP3754613B2 publication Critical patent/JP3754613B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 梨状窩形状の個人差等による音声スペクトル
高周波数帯域の変動を除去する。 【解決手段】 特徴量写像部1および関数推定部3は、
複数の写像関数を用いて式(1)に基づく最尤推定によっ
て一つの写像関数を選択し、話者特徴として出力する。
その際に、特徴量変換部4は、特徴量写像部1によって
複数の写像関数の夫々で写像された入力話者の音響特徴
量を、声道における梨状窩形状の個人差等によって変動
する音声スペクトル高周波数帯域において、標準話者モ
デル格納部2に格納された標準話者モデルから抽出され
た音響特徴量で変換して、関数推定部3に入力するよう
にしている。こうして、声道における梨状窩形状の個人
差等による音声スペクトル高周波数帯域の変動の影響を
除去して、話者特徴としての写像関数を精度よく推定す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、隠れマルコフモ
デル(Hidden Markov Model:以下、HMMと略称する)
を用いた話者特徴推定装置および話者特徴推定方法、そ
の推定方法を用いたクラスタモデル作成装置,音声認識
装置,音声合成装置、並びに、話者特徴推定処理プログ
ラムを記録したプログラム記録媒体に関する。
【0002】
【従来の技術】音響特徴量あるいはその確率モデル(例
えばHMM)に基づいて入力音声の発話内容を推定する
音声認識装置では、入力話者とモデル話者との話者性の
違いへの対応が重要な課題となる。また、入力された音
韻記号列に基づいて予め用意した音声素片を接続して出
力する音声合成装置や、入力された音声を他話者の声質
に変換する声質変換装置では、話者性の表現が重要な課
題となる。
【0003】従来、入力音声から発話者の特徴を推定
し、この推定された話者特徴に基づいて、上記入力話者
の音響特徴量を標準話者の音響特徴量に正規化する音声
認識装置がある。例えば、文献「AT&T Bell Labs. Li Le
e,Richard C.Rose:“SpeakerNormalization using Eff
icient Frequency Warping Procedures”,ICASSP96,p.
p.353‐356(1996)(文献A)」で報告された音声認識方法
では、標準話者モデルに対して、入力話者の音響特徴量
の尤度を最大にするという基準(最尤推定)で、入力話者
の音響特徴量における周波数軸の線形伸縮係数を推定す
る。そして、その推定結果を用いて入力話者の音響特徴
量の周波数軸を伸縮することによって標準話者の音響特
徴量に正規化するようにしている。また、特開平11‐
327592号公報(文献B)に開示されている音声認識
装置では、入力話者の声道形状の特徴量を声道形状パラ
メータとフォルマント周波数との間の対応関係を参照し
て推定する。そして、その推定結果に基づいて生成した
周波数ワーピング関数を用いて、入力話者の音響特徴量
を標準話者の音響特徴量に正規化するようにしている。
【0004】さらには、入力話者の音響特徴量と標準話
者の音響特徴量との差異に基づいて入力話者に標準話者
モデルを適応する音声認識装置がある。例えば、登録特
許1984184号(文献C)に開示された音声認識装置
では、VFS(Vector FieldSmoothing)法に基づく話者
適応技術を用いている。
【0005】また、複数の話者をクラスタリングし、得
られた複数の話者クラスタに属する話者に基づいて作成
した複数の音響モデルを備え、入力話者に応じた話者ク
ラスタの音響モデルを選択して用いる音声認識装置があ
る。例えば、特開平11‐175090号公報(文献D)
に開示された話者クラスタリング処理装置では、複数話
者の声道形状の特徴量を推定し、その推定結果に基づい
て話者をクラスタリングするようにしている。さらに、
上記話者クラスタリング結果に基づく話者クラスタ毎に
音響モデル(以下、クラスタモデルと言う)を生成してお
き、入力話者の声道形状の特徴量を推定し、その推定結
果に応じたクラスタモデルを選択して用いる音声認識装
置も開示されている。
【0006】また、話者適応技術を用いて入力話者音声
の音響特徴量を写像して、他話者音声の声質に変換する
声質変換装置がある。例えば、特開平7‐104792
号公報(文献E)に開示された声質変換装置では、量子化
(VQ)コードブックマッピング法に基づく話者適応技術
を用いるようにしている。さらに、文献「橋本誠,樋口宣
男:“話者選択と移動ベクトル場平滑化を用いた声質変
換のためのスペクトル写像”,信学技報,SP95‐1,p.p.
1‐8,May 1995」(文献F)において報告されているよう
に、VFS(Vector Field Smoothing)法に基づく話者適
応技術を用いた声質変換方法も報告されている。
【0007】
【発明が解決しようとする課題】しかしながら、上記従
来の音声認識方法,音声認識装置,話者クラスタリング処
理装置および声質変換装置においては、以下のような問
題がある。先ず、上記文献Aに開示された音声認識方法
においては、発音器官の個人差によるスペクトル変動に
際して、梨状窩形状の個人差等による高周波数帯域のス
ペクトル変動が考慮されていない。そのために、周波数
軸の線形伸縮係数を精度よく推定することが困難であ
り、話者正規化による音声認識精度向上の効果が少ない
という問題がある。
【0008】また、上記文献Bおよび文献Dに開示され
た音声認識装置においは、声道形状の特徴量を推定する
ために用いるフォルマント周波数の正確な推定が困難で
あるという問題がある。さらに、声道形状の特徴量利用
による音声認識精度向上の効果が少ないという問題もあ
る。
【0009】また、上記文献Cに開示された音声認識装
置においては、上記VFS法に基づく話者適応技術を用
いているために、多量の入力音声データを必要とすると
いう問題がある。また、上記文献Eに開示された声質変
換装置および文献Fに開示された声質変換方法において
は、少ない発声データから精度のよい声質変換結果が得
られないという問題がある。
【0010】そこで、この発明の目的は、声道における
梨状窩形状の個人差等による音声スペクトル高周波数帯
域の変動を考慮して少量の音声データから精度よく話者
の特徴を推定できる話者特徴推定装置および話者特徴推
定方法、その推定方法を用いたクラスタモデル作成装
置,話者認識装置,音声合成装置、並びに、話者特徴推定
プログラムを記録したプログラム記録媒体を提供するこ
とにある。
【0011】
【課題を解決するための手段】上記目的を達成するた
め、第1の発明は、入力話者の音響特徴量を標準話者に
類似した音響特徴量に写像する写像関数を推定し,推定
した写像関数の情報を話者特徴とする話者特徴推定装置
において、標準話者の音響特徴量に関する情報を格納す
る標準話者音響情報格納手段と、入力話者の音響特徴量
を写像する特徴量写像手段と、上記入力話者の音響特徴
量における声道の梨状窩形状の個人差によって変動が生
ずる領域を,上記標準話者音響情報格納手段に格納され
た標準話者の音響特徴量に関する情報を用いて変換する
特徴量変換手段と、上記写像および変換が行われた入力
話者の音響特徴量と,上記標準話者の音響特徴量に関す
る情報とに基づいて,写像関数を推定する関数推定手段
を備えたことを特徴としている。
【0012】上記構成によれば、特徴量写像手段および
関数推定手段によって、入力話者の音響特徴量と標準話
者の音響特徴量に関する情報とに基づいて、上記写像関
数が推定される。
【0013】その際に、上記関数推定手段に入力される
入力音響特徴量は、上記特徴量写像手段によって写像さ
れると共に、特徴量変換手段によって、声道における梨
状窩形状の個人差によって変動が生ずる領域が上記標準
話者の音響特徴量に変換されている。こうして、声道に
おける梨状窩形状の個人差による音声スペクトル高周波
数帯域の変動の影響が除去されて、話者特徴としての写
像関数が精度良く推定される。
【0014】また、上記第1の発明の話者特徴推定装置
は、上記特徴量変換手段を、上記入力話者の音響特徴量
における変換領域の下限位置を、入力話者の音声スペク
トルの傾きと上記標準話者の音声スペクトルの傾きとの
差が最も小さくなる同一周波数位置に設定するように成
すことが望ましい。
【0015】上記構成によれば、入力話者および標準話
者の音声スペクトルを用いて、上記入力話者の音響特徴
量における変換領域の下限位置が簡単に設定される。
【0016】また、上記第1の発明の話者特徴推定装置
は、上記特徴量変換手段を、上記入力話者の音響特徴量
の変換を、上記入力話者の音声スペクトルにおける上記
変換領域に該当する周波数帯域と上記標準話者の音声ス
ペクトルにおける該当する周波数帯域とにおけるスペク
トル値の差異から求められた周波数特性変換フィルタを
用いて行うように成すことが望ましい。
【0017】上記構成によれば、上記特徴量変換手段に
よる入力話者の音響特徴量に対する変換が、入力話者の
音声スペクトルに対して周波数特性変換フィルタを用い
ることによって簡単に行われる。
【0018】また、上記第1の発明の話者特徴推定装置
は、上記特徴量変換手段によって音声スペクトルが変換
される周波数帯域の下限を3kHzから3.5kHzまでの
間とする一方、上限をサンプリング周波数の1/2とす
ることが望ましい。
【0019】上記構成によれば、声道における梨状窩形
状の個人差によって変動する音声スペクトル高周波数帯
域が的確に設定される。
【0020】また、上記第1の発明の話者特徴推定装置
は、上記特徴量写像手段を、狭母音を除く母音に対して
のみ写像処理を行うように成すことが望ましい。
【0021】上記構成によれば、音声スペクトルにおけ
るホルマントのピークの出現位置が不安定な狭母音を除
く母音に対してのみ話者特徴推定処理が行われ、入力話
者の特徴がさらに精度良く推定される。
【0022】また、上記第1の発明の話者特徴推定装置
は、特徴量写像手段を,予め用意された複数の写像関数
を用いて上記写像を行うように成し、上記関数推定手段
を,上記標準話者の音響特徴量に関する情報に対する上
記写像及び変換が行われた入力話者の音響特徴量の尤度
を最大にするという基準で,上記複数の写像関数から写
像関数を最尤推定するように成すことが望ましい。
【0023】上記構成によれば、複数の写像関数を用い
た写像演算と上記尤度演算と尤度値比較演算との繰り返
しの簡単な処理で、話者特徴としての写像関数が精度良
く推定される。
【0024】また、第2の発明は、入力話者の音響特徴
量を標準話者の音響特徴量に正規化する音声認識装置に
おいて、入力音声信号を分析して音響特徴量を抽出する
音響分析手段と、上記音響分析手段からの入力話者の音
響特徴量に基づいて入力話者の特徴を推定する上記第1
の発明の話者特徴推定装置と、上記音響分析手段からの
入力話者の音響特徴量を,上記推定された入力話者の特
徴としての写像関数を用いて写像する特徴量写像手段
と、上記写像が行われた入力話者の音響特徴量と標準話
者モデルとに基づいて上記入力音声信号を認識する認識
手段を備えたことを特徴としている。
【0025】上記構成によれば、入力音声信号が認識さ
れるに先立って、入力音声の音響特徴量に基づいて入力
話者の特徴が推定される。そして、上記推定された入力
話者の特徴としての写像関数を用いて、上記入力音響特
徴量が写像(話者正規化)される。
【0026】その場合における入力話者の特徴の推定
は、声道における梨状窩形状の個人差による音声スペク
トル高周波数帯域の変動の影響を除去して精度よく行わ
れる。したがって、上記推定された写像関数を用いて話
者正規化することによって、より標準話者の音響特徴量
の周波数特性に近づくように入力話者の音響特徴量が正
規化される。その結果、続いて実行される認識処理によ
って、高い認識率が得られるのである。
【0027】また、第3の発明は、標準話者モデルを入
力話者に適応させる音声認識装置において、入力音声信
号を分析して音響特徴量を抽出する音響分析手段と、上
記音響分析手段からの入力話者の音響特徴量に基づいて
入力話者の特徴を推定する上記第1の発明の話者特徴推
定装置と、上記推定された入力話者の特徴としての写像
関数の逆関数を用いて,上記標準話者モデルを入力話者
に適応させて適応モデルを生成するモデル適応手段と、
上記生成された上記適応モデルを格納する適応モデル格
納手段と、上記入力話者の音響特徴量と上記適応モデル
とに基づいて,上記入力音声信号を認識する認識手段を
備えたことを特徴としている。
【0028】上記構成によれば、入力音声信号が認識さ
れるに先立って、入力音声の音響特徴量に基づいて入力
話者の特徴が推定される。そして、上記推定された入力
話者の特徴としての写像関数の逆関数を用いて標準話者
モデルが入力話者に適応された適応モデルが生成され
る。
【0029】その場合における入力話者の特徴の推定
は、声道における梨状窩形状の個人差による音声スペク
トル高周波数帯域の変動の影響を除去して精度よく行わ
れる。したがって、上記推定された写像関数の逆関数を
用いて標準話者モデルを話者適応することによって、よ
り入力話者の音響特徴量の周波数特性に近い周波数特性
を有する適応モデルが生成される。その結果、上記適応
モデルを用いて実行される認識処理によって、高い認識
率が得られるのである。
【0030】また、第4の発明は、話者の音声信号に基
づいて複数の話者を話者クラスタに分割し,各話者クラ
スタ用の音響モデルであるクラスタモデルを作成するク
ラスタモデル作成装置において、入力音声信号を分析し
て音響特徴量を抽出する音響分析手段と、上記音響分析
手段からの入力話者の音響特徴量に基づいて入力話者の
特徴を推定する上記第1の発明の話者特徴推定装置と、
上記推定された各入力話者の特徴を話者間距離として,
複数の話者をクラスタリングするクラスタリング手段
と、上記クラスタリング手段によって得られた各話者ク
ラスタに属する入力話者の音響特徴量に基づいて,上記
クラスタモデルを作成するモデル作成手段を備えたこと
を特徴としている。
【0031】上記構成によれば、クラスタモデルが作成
されるに先立って、入力音声の音響特徴量に基づいて入
力話者の特徴が推定される。そして、上記推定された入
力話者の特徴を話者間距離として、複数の話者がクラス
タリングされる。
【0032】その場合における入力話者の特徴の推定
は、声道における梨状窩形状の個人差による音声スペク
トル高周波数帯域の変動の影響を除去して精度よく行わ
れる。したがって、上記推定された写像関数を話者間距
離としてクラスタリングを行うことによって、より話者
に適合した話者間距離を用いてクラスタリングが行われ
る。その結果、話者集団における発声特性の分布を的確
に表現できるクラスタモデルが作成されるのである。
【0033】また、第5の発明は、話者の音声信号に基
づいて複数の話者を話者クラスタに分割し,各話者クラ
スタ用の音響モデルであるクラスタモデルを作成するク
ラスタモデル作成装置において、入力音声信号を分析し
て音響特徴量を抽出する音響分析手段と、上記音響分析
手段からの入力話者の音響特徴量に基づいて,各入力話
者の音響モデルである話者モデルを作成する話者モデル
作成手段と、上記話者モデルから音響特徴量を抽出する
特徴量抽出手段と、上記抽出された音響特徴量に基づい
て入力話者の特徴を推定する上記第1の発明の話者特徴
推定装置と、上記推定された各入力話者の特徴を話者間
距離として,複数の話者をクラスタリングするクラスタ
リング手段と、上記クラスタリング手段によって得られ
た各話者クラスタに属する入力話者の音響特徴量に基づ
いて,上記クラスタモデルを作成するモデル作成手段を
備えたことを特徴としている。
【0034】上記構成によれば、クラスタモデルが作成
されるに先立って、入力話者の音響特徴量に基づいて作
成された話者モデルから音響特徴量が抽出される。そし
て、この抽出された音響特徴量に基づいて話者特徴推定
装置によって入力話者の特徴が推定され、上記推定され
た入力話者の特徴を話者間距離として複数の話者がクラ
スタリングされる。
【0035】その場合における入力話者の特徴の推定
は、声道における梨状窩形状の個人差による音声スペク
トル高周波数帯域の変動の影響を除去して精度よく行わ
れる。したがって、上記推定された写像関数を話者間距
離としてクラスタリングを行うことによって、より話者
に適合した話者間距離を用いてクラスタリングが行われ
る。その結果、話者集団における発声特性の分布を的確
に表現できるクラスタモデルが作成されるのである。
【0036】さらに、上記話者特徴推定装置は、上記各
話者モデルから抽出された音響特徴量に基づいて、入力
話者の特徴を推定するようにしている。こうして、入力
話者の音響特徴量における発話内の変動が除去されて、
入力話者の特徴がより精度良く推定される。
【0037】また、第6の発明は、入力話者が属する話
者クラスタ用の音響モデルであるクラスタモデルを用い
て音声を認識する音声認識装置において、入力音声信号
を分析して音響特徴量を抽出する音響分析手段と、上記
音響分析手段からの入力話者の音響特徴量に基づいて入
力話者の特徴を推定する上記第1の発明の話者特徴推定
装置と、上記第4の発明あるいは第5の発明のクラスタ
モデル作成装置によって作成されたクラスタモデルを格
納するクラスタモデル格納手段と、上記推定された入力
話者の特徴に基づいて,上記クラスタモデル格納手段か
ら該当するクラスタモデルを選択するモデル選択手段
と、上記入力話者の音響特徴量と上記選択されたクラス
タモデルとに基づいて,上記入力音声信号を認識する認
識手段を備えたことを特徴としている。
【0038】上記構成によれば、上記第4の発明あるい
は第5の発明のクラスタモデル作成装置によって作成さ
れたクラスタモデルが用意されている。そして、入力音
声信号が認識されるに先立って、入力音声の音響特徴量
に基づいて入力話者の特徴が推定される。そして、上記
推定された入力話者の特徴に基づいて該当するクラスタ
モデルが選択される。
【0039】その場合における上記クラスタモデルの作
成および選択時に用いられる入力話者の特徴の推定は、
声道における梨状窩形状の個人差による音声スペクトル
高周波数帯域の変動の影響を除去して精度よく行われ
る。したがって、上記推定された入力話者の特徴を用い
て上記クラスタモデルの作成および選択が行われること
によって、話者集団における発声特性の分布を的確に表
すクラスタモデルを用いて認識処理が行われ、高い認識
率が得られるのである。
【0040】また、第7の発明は、音韻記号列に基づい
て標準話者の音声素片を接続して合成音声を出力する音
声合成装置において、入力音声信号を分析して音響特徴
量を抽出する音響分析手段と、上記音響分析手段からの
入力話者の音響特徴量に基づいて入力話者の特徴を推定
する上記第1の発明の話者特徴推定装置と、標準話者の
音声素片を格納する標準話者素片格納手段と、上記音韻
記号列に基づいて上記標準話者素片格納手段から該当す
る音声素片を選択する素片選択手段と、上記選択された
音声素片の音響特徴量を,上記推定された入力話者の特
徴としての写像関数の逆関数を用いて写像する特徴量写
像手段と、上記写像が行われた音声素片同士を接続する
素片接続手段を備えたことを特徴としている。
【0041】上記構成によれば、標準話者の音声素片同
士が接続されて合成音声が生成されるに先立って、入力
音声の音響特徴量に基づいて入力話者(学習話者)の特徴
が推定される。そして、音韻記号列に基づいて選択され
た音声素片の音響特徴量が上記推定された入力話者の特
徴としての写像関数の逆関数を用いて写像されて、入力
話者の声質に変換された音声素片が生成される。
【0042】その場合における入力話者の特徴の推定
は、声道における梨状窩形状の個人差による音声スペク
トル高周波数帯域の変動の影響を除去して精度よく行わ
れる。したがって、上記推定された写像関数の逆関数を
用いて上記標準話者の音声素片を写像することによっ
て、より入力話者(学習話者)の声質に近い声質に変換さ
れた合成音声が得られるのである。
【0043】また、第8の発明は、入力話者の声質を他
の話者の声質に変換する声質変換装置において、入力音
声信号を分析して,音響特徴量を抽出すると共に,音響分
析結果を出力する音響分析手段と、上記音響分析手段か
らの入力話者の音響特徴量に基づいて入力話者の特徴を
推定する上記第1の発明の話者特徴推定装置と、上記入
力話者の音響特徴量を,上記推定された入力話者の特徴
としての写像関数を用いて写像する特徴量写像手段と、
上記写像が行われた入力話者の音響特徴量と上記音響分
析手段からの音響分析結果に基づいて音声を合成する合
成手段を備えたことを特徴としている。
【0044】上記構成によれば、入力話者の声質が変換
されるに先立って、入力音声の音響特徴量に基づいて入
力話者の特徴が推定される。そして、入力話者の音響特
徴量が上記推定された入力話者の特徴としての写像関数
を用いて写像され、入力話者の声質が、上記入力話者の
特徴推定時における標準話者であるターゲット話者の声
質に変換される。
【0045】その場合における入力話者の特徴の推定
は、声道における梨状窩形状の個人差による音声スペク
トル高周波数帯域の変動の影響を除去して精度よく行わ
れる。したがって、上記推定された写像関数を用いて上
記入力話者の音響特徴量を写像することによって、より
ターゲット話者の声質に近い声質に変換された音声が得
られるのである。
【0046】また、第9の発明は、入力話者の音響特徴
量を標準話者に類似した音響特徴量に写像する写像関数
を推定し,推定した写像関数の情報を話者特徴とする話
者特徴推定方法において、入力話者の音響特徴量を複数
の写像関数を用いて写像し、上記写像が行われた入力話
者の音響特徴量における声道の梨状窩形状の個人差によ
って変動が生ずる領域を標準話者の音響特徴量に関する
情報を用いて変換し、上記変換が行われた入力話者の音
響特徴量と上記標準話者の音響特徴量に関する情報とに
基づいて上記複数の写像関数から写像関数を最尤推定す
ることを特徴としている。
【0047】上記構成によれば、複数の写像関数を用い
て写像されると共に、声道における梨状窩形状の個人差
による音声スペクトル高周波数帯域の変動の影響が除去
された入力話者の音響特徴量と、標準話者の音響特徴量
に関する情報とに基づいて、上記複数の写像関数から写
像関数が最尤推定される。こうして、話者特徴としての
写像関数が精度良く推定される。
【0048】また、第10の発明のプログラム記録媒体
は、コンピュータを、上記第1の発明の話者特徴推定装
置における上記特徴量写像手段,特徴量変換手段,標準話
者モデル格納手段および関数推定手段として機能させる
話者特徴推定処理プログラムが記録されていることを特
徴としている。
【0049】上記構成によれば、上記第1の発明の場合
と同様に、写像されると共に、声道における梨状窩形状
の個人差による音声スペクトル高周波数帯域の変動の影
響が除去された入力話者の音響特徴量と、標準話者の音
響特徴量に関する情報とに基づいて写像関数が推定され
る。こうして、話者特徴としての写像関数が精度良く推
定される。
【0050】
【発明の実施の形態】以下、この発明を図示の実施の形
態により詳細に説明する。 <第1実施の形態>図1は、本実施の形態の話者特徴推
定装置におけるブロック図である。特徴量写像部1は、
専用のLSI(大規模集積回路)素子等によって構成され
て、後述する関数推定部3から取得した写像関数fに基
づいて入力音響特徴量を写像する。尚、上記入力音響特
徴量としては、例えばMFCC(メル周波数FFT(高速
フーリエ変換)ケプストラム)やLPC(線形予測分析)メ
ルケプストラム等の音声スペクトルを効率よく表現でき
るものを用いる。尚、以下の説明においては、LPCメ
ルケプストラムを用いる場合を例に挙げる。
【0051】標準話者モデル格納部2は、半導体メモリ
や磁気メモリや記憶装置等によって構成されて、標準話
者の音響特徴量に関する情報が格納されている。ここ
で、上記標準話者の音響特徴量に関する情報としてHM
M(以下、音響モデルあるいは単にモデルとも言う)を用
いる。上記HMMは、大量の音声データから得られる音
声の統計的特徴を確率的にモデル化したものであり、H
MMを用いた音声認識方式の詳細は、中川聖一著「確率
モデルによる音声認識」(電子情報通信学会)に詳しい。
【0052】上記関数推定部3は、専用のLSI素子等
によって構成されて、内部メモリに複数の写像関数fを
格納しており、この複数の写像関数fを順次特徴量写像
部1に送出する。さらに、標準話者モデル格納部2に格
納されている標準話者モデルと、後述の特徴量変換部4
によって得られる音響特徴量とを用いて、式(1)に従っ
て、複数の写像関数fのうち最大累積尤度を与える写像
関数fを最尤推定し、この推定された写像関数fあるい
はこの写像関数fに関連付けられたインデックス等を話
者特徴として出力する。 ここで、 f:写像関数 P():音響モデルによって得られる確率 Uf:写像関数fで写像された入力音響特徴量系列 W:入力音響特徴量系列Ufに対応する音韻記号列
【0053】尚、以下の説明における写像関数fの推定
方法では、予め用意した複数の写像関数fから最尤推定
に基づいて一つの写像関数fを選択するようにしてい
る。しかしながら、式(1)に基づく最尤推定方法であれ
ば他の推定方法であっても差し支えなく、本実施の形態
においては推定方法を限定するものではない。例えば、
Newton法を用いて任意の関数に収束させる方法等を用い
てもよい。
【0054】上記特徴量変換部4は、専用のLSI素子
等によって構成されて、上記特徴量写像部1によって写
像された音響特徴量の一部を、標準話者モデル格納部2
に格納された標準話者モデルを用いて変換する。そし
て、変換後の音響特徴量を上記関数推定部3に出力す
る。尚、この特徴量変換部4による変換処理が、本実施
の形態における一つの特徴である。
【0055】ここで、上記各部を構成する素子等は、一
つであっても複数が複合されたものであっても本実施の
形態に影響はない。また、上記各部は、CPU(中央演
算処理装置)あるいはその周辺機器等で代用してもよ
い。
【0056】図2は、図1に示す話者特徴推定装置によ
って実行される話者特徴推定処理動作のフローチャート
である。以下、図2に従って、話者特徴推定処理動作に
ついて説明する。ステップS1で、特徴量写像部1に音
響特徴量が入力される。ステップS2で、特徴量写像部
1によって、入力音響特徴量は狭母音(「イ」や「ウ」)を除
く母音(すなわち、「ア」や「エ」や「オ」等)の音響特徴量で
あるか否かが判別される。その結果、上記狭母音を除く
母音であればステップS3に進み、上記狭母音を除く母
音でなければ(すなわち、狭母音または子音であれば)上
記ステップS1に戻って、次の音響特徴量の入力処理に
移行する。
【0057】上記入力音響特徴量の音韻情報を獲得する
方法は本実施の形態には直接的に関係はなく、その獲得
方法を限定するものではない。例えば、発声内容として
「ア」や「エ」や「オ」を発話者に指示し、発声内容既知とし
て処理すればよい。また、発声内容が複数語彙候補の中
の一つである場合には音声認識処理を行い、ビタビ演算
等を用いて音韻情報を推定すればよい。
【0058】ステップS3で、上記特徴量写像部1によ
って、カウンタiに初期値「1」が代入される。ステップ
S4で、特徴量写像部1によって、関数推定部3から送
出されてくるカウンタiの値に対応する写像関数fi()
を用いて、上記入力された狭母音を除く母音の音響特徴
量が写像されて特徴量変換部4に送出される。尚、写像
関数の例および写像処理の詳細な動作については後述す
る。ステップS5で、特徴量変換部4によって、上記ス
テップS4において写像された音響特徴量の一部(声道に
おける梨状窩形状の個人差等によって変動する部分)
が、標準話者モデルから得られる標準話者の音響特徴量
を用いて変換されて関数推定部3に送出される。尚、上
記変換処理の詳細な動作については後述する。
【0059】ステップS6で、上記関数推定部3によっ
て、上記ステップS5において変換された音響特徴量(L
PCメルケプストラム)の標準話者モデル(HMM)に対
する尤度が算出されて累積尤度piとして保存される。
尚、上記尤度算出処理の詳細な動作については後述す
る。ステップS7で、関数推定部3によって、カウンタ
iの値が関数推定部3に予め用意されている写像関数f
i()の数Nより大きいか否かが判別される。その結果大
きい場合にはステップS9に進む一方、そうでなければ
ステップS8に進む。ステップS8で、特徴量写像部1に
よって、カウンタiの内容が「1」だけインクリメントさ
れる。そうした後に、上記ステップS4に戻って次の写
像関数fi()を用いた処理に移行する。ステップS9で、
特徴量写像部1によって、入力対象の総ての音響特徴量
が入力されたか否かが判別される。その結果、総て入力
されていればステップS10に進み、そうでなければ上記
ステップS1に戻って次の音響特徴量が入力される。
【0060】ステップS10で、上記関数推定部3によっ
て、上記ステップS6において保存された総ての累積尤
度pi(i=1,2,…,N)の中から最大値が選択されて推
定値p^として保存され、上記推定値p^を呈するiの値
が推定値i^として保存される。ステップS11で、関数
推定部3によって、上記ステップS10において選択され
た推定値p^を与える推定値i^に対応する写像関数f^i
()が、話者特徴として出力される。その場合、出力され
る情報は写像関数fi()に限定されるものではなく、写
像関数f^i()を決定できるインデックスとして推定値i
^あるいは写像関数f^i()を一意に決定づける後述の線
形伸縮係数αi等であってもよい。そうした後、話者特
徴推定処理動作を終了する。
【0061】尚、上述した話者特徴推定処理動作のフロ
ーチャートにおけるステップS2の上記狭母音の削除処
理は省略しても差し支えない。
【0062】図3は、図2に示す話者特徴推定処理動作
のフローチャートにおける上記ステップS4において特
徴量写像部1によって実行される音響特徴量写像処理動
作を示すフローチャートである。上記話者特徴推定処理
動作のフローチャートにおける上記ステップS3におい
てカウンタiの値が設定されると音響特徴量写像処理動
作がスタートする。
【0063】ステップS21で、上記狭母音を除く母音の
音響特徴量(LPCメルケプストラム)が逆cos変換され
る。ここで、上記逆cos変換することによって、上記音
響特徴量が周波数次元の対数パワー(対数パワースペク
トル)として表現される。ステップS22で、上記写像関
数fi()を用いて入力音響特徴量の周波数軸が伸縮され
る。そうした後、音響特徴量写像処理動作を終了して上
記話者特徴推定処理動作のフローチャートにおける上記
ステップS5に移行する。
【0064】図4は、上記写像関数fi()の一例を示す
図である。図4において、横軸xは周波数軸伸縮前の音
響特徴量の周波数軸であり、縦軸f(x)は周波数軸伸縮
後の音響特徴量の周波数軸である。尚、写像関数fi()
は、下記の式で表される。ここで、写像関数fi()とし
て線形伸縮係数に基づく線形関数を用いるのは、声道長
の個人差を次元数の少ないパラメータで簡潔に表現する
ためである。尚、声道長と音声スペクトルとの詳細な関
係については文献Aに詳しい。
【0065】写像関数fi(): ・x≦min(ω/αi,ω)では、fi(x)=αi・x (i=1,
2,…,N) ・min(ω/αi,ω)<xでは、 αi>1のとき fi(x)→(ω/αi,ω)と(fs/2,fs/2)と
を結ぶ直線 αi≦1のとき fi(x)→(ω,αi・ω)と(fs/2,fs/2)と
を結ぶ直線 但し、N:写像関数fi()の数 αi:線形伸縮係数 (0.8≦αi≦1.2の範囲を(N−
1)等分して得られる値) fs:サンプリング周波数(例えば12kHz) ω:写像関数の接続点(例えば4kHz) ここで、ωによって接続点を設置するのは、周波数軸伸
縮前後の定義域を保ち、且つ不連続性に対処するためで
ある。
【0066】図5は、図2に示す話者特徴推定処理動作
のフローチャートにおけるステップS5において特徴量
変換部4によって実行される音響特徴量変換処理動作を
示すフローチャートである。上記話者特徴推定処理動作
のフローチャートにおける上記ステップS4において音
響特徴量写像処理動作が終了すると音響特徴量変換処理
動作がスタートする。
【0067】ステップS31で、上記標準話者モデル格納
部2から標準話者モデルが入力される。ステップS32
で、標準話者モデルから音響特徴量が抽出される。例え
ば、連続HMMは平均値ベクトルと分散ベクトルからな
る多次元ガウス分布による出力確率密度関数の集合で構
成されており、入力音響特徴量の音韻に対応するステー
ト(HMMの状態)の平均値ベクトルを標準話者の音響特
徴量として抽出する。ステップS33で、図3に示す音響
特徴量写像処理動作のフローチャートにおけるステップ
S21と同様にして逆cos変換処理が行われる。ステップ
S34で、標準話者の音響特徴量で置換する入力話者の音
響特徴量の範囲、すなわち、声道における梨状窩形状の
個人差等によって変動する周波数範囲が決定される。そ
の際に、置換範囲の下限を決定する基準は、例えば、
3.0kHzにおいて、入力話者音響特徴量(音声対数パワ
ースペクトル)の傾きと標準話者音響特徴量(音声対数パ
ワースペクトル)の傾きとを比較した値(例えば傾き値の
差)を保存し、同様に3.5kHzまでの各周波数ポイント
における傾き比較値を保存し、保存した値の中から最も
小さい値(両者の傾きが近い)の周波数ポイントを置換範
囲の下限として選択する。ここで、入力話者音響特徴量
と標準話者音響特徴量とが同じ傾き(傾き値の差0)を呈
する周波数ポイントが複数存在する場合には、最も大き
い周波数ポイントを採用する。これに対して、置換範囲
の上限は、例えばfs/2(=6kHz)とする。
【0068】ステップS35で、上記ステップS34におい
て決定された置換範囲に関して、入力話者の音響特徴量
が標準話者の音響特徴量で置換される。尚、置換の際に
は、音響特徴量の連続性を保つために、上記置換範囲の
下限周波数ポイントにおいては、標準話者音響特徴量の
値が入力話者音響特徴量の値に等しくなるように、標準
話者音響特徴量を対数パワー軸方向に平行移動してから
置換する。あるいは、逆に、入力話者音響特徴量の値が
標準話者音響特徴量の値に等しくなるように、入力話者
音響特徴量を対数パワー軸方向に平行移動してから置換
してもよい。また、標準話者音響特徴量の値が入力話者
音響特徴量の値に等しくなるように、標準話者音響特徴
量を、置換範囲の上限周波数ポイントにおける標準話者
音響特徴量の値を固定して、対数パワー軸方向に線形伸
縮してから置換してもよい。あるいは、逆に、入力話者
音響特徴量の値が標準話者音響特徴量の値に等しくなる
ように、入力話者音響特徴量を、0kHzにおける入力話
者音声対数パワースペクトルの値を固定して、対数パワ
ー軸方向に線形伸縮してから置換してもよい。
【0069】ステップS36で、上記置換処理によって一
部が置換された入力話者音響特徴量がcos変換される。
このようにcos変換することによって、入力話者の音響
特徴量がLPCメルケプストラムとして表現される。そ
うした後、音響特徴量変換処理動作を終了して上記話者
特徴推定処理動作のフローチャートにおける上記ステッ
プS6に移行する。
【0070】図3の写像処理および図5の変換処理にお
いては、上記入力音響特徴量はLPCメルケプストラム
である場合について説明している。しかしながら、この
発明においてはLPCメルケプストラムに限定するもの
ではなく、MFCC等他のパラメータであってもよい。
尚、他のパラメータである場合には、図3の写像処理動
作における上記ステップS21及び図5の変換処理動作に
おける上記ステップS33での逆cos変換処理において
は、入力音響特徴量を周波数次元の対数パワー(対数パ
ワースペクトル)になるように変換する。そして、図5
の変換処理動作における上記ステップS36でのcos変換
処理においては、入力音響特徴量を元のパラメータとな
るように変換すればよい。
【0071】さらに、図3の写像処理動作における上記
ステップS22および図5の置換処理動作における上記ス
テップS34においては、周波数次元の対数パワー(対数
パワースペクトル)を用いる場合について説明している
が、対数パワーに限定するものではなく、直接算出され
る周波数次元のパワー(パワースペクトル)を用いても差
し支えない。尚、周波数次元のパワーを用いる場合に
は、図3の写像処理動作における上記ステップS21およ
び図5の変換処理動作における上記ステップS33での逆
cos変換処理の後に、例えば、対数パワーを指数演算し
てパワーに変換する指数変換処理ステップを実行する。
そして、図5の変換処理動作における上記ステップS36
でのcos変換処理の前に、パワーを対数演算して対数パ
ワーに変換するステップを実行すればよい。
【0072】図6は、上記特徴量変換部4による音響特
徴量変換処理が行われる前における入力話者音響特徴量
(音声対数パワースペクトル)の一例を示す。図6におい
て、横軸は周波数であり、縦軸は対数パワーである。ま
た、破線で示される曲線は、標準話者の音響特徴量(音
声対数パワースペクトル)を示す。Aで示す範囲は、図
5の変換処理動作における上記ステップS34において置
換範囲の下限を決定する際の対象範囲である。
【0073】また、図7は、上記特徴量変換部4による
音響特徴量変換処理が行われた後における入力話者音響
特徴量の一例を示す図である。図7において、横軸は周
波数であり、縦軸は対数パワーである。また、破線で示
される曲線は、標準話者の音響特徴量を示す。Bで示す
範囲は、図5の変換処理動作における上記ステップS35
において入力話者の音響特徴量が置換される置換範囲で
ある。図より、上記置換処理動作によって、置換範囲B
内における入力話者の周波数特性が標準話者の周波数特
性に近づいていることがわかる。
【0074】図8は、図5に示す音響特徴量変換処理動
作とは異なる音響特徴量変換処理動作のフローチャート
である。この音響特徴量変換処理動作は、上記話者特徴
推定処理動作のフローチャートにおける上記ステップS
4において音響特徴量写像処理動作が終了するとスター
トする。
【0075】ステップS41〜ステップS43で、図5に示
す音響特徴量変換処理動作におけるステップS31〜ステ
ップS33と同様にして、標準話者モデルの入力、音響特
徴量の抽出、逆cos変換処理が行われる。
【0076】ステップS44で、上記入力話者音響特徴量
における高周波数帯域の特性を変換する変換フィルタが
作成される。この変換フィルタ作成時においては、例え
ば、3kHzからfs/2(=6kHz)の範囲で、入力話者音
響特徴量と標準話者音響特徴量との比を求め、平滑化を
施して変換フィルタを設計する。その際に、0kHzから
3kHzの範囲においては特性変更なしとするのである。
ステップS45で、上記作成された周波数特性変換フィル
タを用いて、上記ステップS43における逆cos変換処理
によって得られた対数パワースペクトルの周波数特性が
変更される。
【0077】ステップS46で、図5に示す音響特徴量変
換処理動作におけるステップS36と同様にして、上記フ
ィルタ処理で対数パワースペクトルの周波数特性が変更
された入力話者音響特徴量がcos変換される。そうした
後に、音響特徴量変換処理動作を終了して上記話者特徴
推定処理動作のフローチャートにおける上記ステップS
6に移行する。
【0078】図9は、図8に示す音響特徴量変換処理動
作のフローチャートにおけるステップS44において作成
される変換フィルタの一例を示す。この変換フィルタ
は、周波数特性変換用のフィルタである。図9におい
て、横軸は周波数であり、縦軸はゲインである。尚、図
9は、図6に示す入力話者音響特徴量と標準話者音響特
徴量との比に基づいて作成された周波数特性変換フィル
タの例である。図9より、上記変換フィルタは、入力話
者音響特徴量が標準話者音響特徴量より小さい周波数領
域では入力話者音響特徴量を上げる一方、大きい周波数
領域では下げる周波数特性を有していることが解かる。
【0079】図10は、図2に示す話者特徴推定処理動
作のフローチャートにおけるステップS6において関数
推定部3によって実行される尤度算出処理動作を示すフ
ローチャートである。上記話者特徴推定処理動作のフロ
ーチャートにおける上記ステップS5において音響特徴
量変換処理動作が終了すると尤度算出処理動作がスター
トする。
【0080】ステップS51で、後述する累積尤度の初期
化処理が既に済んでいるか否かが判別される。その結
果、済んでいればステップS53に進み、済んでいなけれ
ばステップS52に進む。ステップS52で、上記累積尤度
初期化処理が実行されて、累積尤度pi(i=1,2,…,
N)が、例えば「0」あるいは「1」に初期化される。ステ
ップS53で、入力話者音響特徴量の標準話者モデル(H
MM)に対する尤度p'が、式(2)によって算出される。 p'=bs(→u) …(2) 但し、bs():標準話者音響モデルの第sステートに対
応する出力確率密度関数 s:入力話者音響特徴量の音韻に対応する標準話者音響
モデルのステート番号 尚、式(2)中の「→u」は入力話者音響特徴量を表し、例
えば音声対数パワー,LPCメルケプストラムおよび夫
々の線形一次回帰係数から成るベクトルである。
【0081】ここで、上記標準話者モデルが離散HMM
である場合には、尤度p'として、入力音響特徴量「→
u」の標準話者モデル(離散HMM)に対する出力確率を
算出すればよい。
【0082】ステップS54で、上記ステップS53におい
て算出された尤度p'が、上記標準話者音響モデルの全
ステートに関する累積尤度piの値に累積保存される。
この場合、尤度p'として対数値が求められている場合
は、上記累積保存は、式(3)に示すように加算すればよ
い。 pi=pi+p' …(3)
【0083】上述したように、本実施の形態において
は、上記特徴量写像部1および関数推定部3において、
予め用意した複数の写像関数fi(i=1,2,…,N)を用
いて、式(1)に従って最尤推定に基づいて一つの写像関
数fを選択し、この選択された写像関数fを、話者特徴
として出力する。その際に、関数推定部3に入力される
入力話者の音響特徴量として、特徴量写像部1によって
写像関数fiで写像された音響特徴量を、特徴量変換部
4によって、求められた置換範囲において、標準話者モ
デル格納部2に格納された標準話者モデルから抽出され
た音響特徴量で置換するようにしている。そして、その
場合における置換範囲の下限値は、3kHz〜3.5kHz
の範囲内で、入力話者の音声スペクトルの傾きと標準話
者の音声スペクトルの傾きの差が最小となる点とする。
また、上限値はサンプリング周波数fsの1/2とする。
【0084】したがって、本実施の形態によれば、上記
声道における梨状窩形状の個人差等による音声スペクト
ル高周波数帯域の変動の影響を除去して、話者特徴とし
ての写像関数を精度よく推定することができるのであ
る。また、その際に、入力話者の音響特徴量における声
道長の梨状窩形状の個人差による変動を予め補正してお
くので、少量の音声データから入力話者の特徴を精度よ
く推定することができるのである。
【0085】また、上記入力話者の音声スペクトルにお
ける上記置換範囲と上記標準話者の音声スペクトルにお
ける該当する周波数範囲とにおけるスペクトル値の差異
から求めた変換フィルタを用いることによって、上記入
力話者の音響特徴量の変換処理を簡単な処理で行うこと
もできる。
【0086】また、上記話者特徴推定処理動作を、狭母
音を除く母音に対してのみ行うようにしている。したが
って、音声スペクトルにおけるホルマントのピークの出
現位置が不安定な狭母音を除く母音に対してのみ話者特
徴推定処理を行って、入力話者の特徴をより精度良く推
定することができる。
【0087】尚、上記実施の形態においては、上記特徴
量写像部1によって写像した入力話者音響特徴量を、特
徴量変換部4によって変換するようにしている。しかし
ながら、本実施の形態は、これに限定されるものではな
い。図11は、本実施の形態による話者特徴推定装置に
おける他の実施例を示すブロック図である。図11にお
いて、特徴量写像部11,標準話者モデル格納部12,関
数推定部13および特徴量変換部14は、図1に示す話
者特徴推定装置における特徴量写像部1,標準話者モデ
ル格納部2,関数推定部3および特徴量変換部4と同様
である。但し、本話者特徴推定装置においては、特徴量
写像部11によって入力音響特徴量を写像する前に、特
徴量変換部14によって入力音響特徴量を変換する点に
おいて、図1に示す話者特徴推定装置とは異なる。
【0088】尚、図11に示す話者特徴推定装置によっ
て実行される話者特徴推定処理は、図2に示すフローチ
ャートにおいて、特徴量変換部4によってステップS5
において実行される音響特徴量の変換処理を、ステップ
S1において実行される音響特徴量の入力処理と、ステ
ップS4において実行される音響特徴量の写像処理との
間において実行するようにすればよい。
【0089】<第2実施の形態>本実施の形態は、第1
実施の形態における話者特徴推定装置を用いた音声認識
装置に関する。図12は、本実施の形態における話者正
規化方式による音声認識装置のブロック図である。図1
2において、特徴量写像部21,標準話者モデル格納部
22,関数推定部23および特徴量変換部24は、図1
に示す話者特徴推定装置における特徴量写像部1,標準
話者モデル格納部2,関数推定部3および特徴量変換部
4と同様であり、上記話者特徴推定装置を構成してい
る。但し、特徴量写像部21は、音声認識時にも、入力
音響特徴量に対して、自身が構成要素となっている上記
話者特徴推定装置で推定された写像関数fを用いた写像
処理を行うようになっている。
【0090】音響分析部25は、専用のLSI素子等に
よって構成されて、入力音声信号を分析する。認識部2
6は、専用のLSI素子と専用の半導体メモリや磁気メ
モリや記憶装置等とによって構成されている。そして、
特徴量写像部21から送出される写像後の音響特徴量
と、標準話者モデル格納部22に格納された標準話者モ
デルとに基づいて、発声内容を認識する。
【0091】図13は、図12に示す音声認識装置によ
って実行される音声認識処理動作のフローチャートであ
る。以下、図13に従って、音声認識処理動作について
説明する。先ず、ステップS61で、音響分析部25によ
って音声信号が入力される。上記入力音声信号は、例え
ば、マイク等から入力されてA/D変換器(図示せず)や
記録媒体等を通して得られるデジタル音声信号である。
ステップS62で、音響分析部25によって、上記音声信
号が短い時間間隔(フレーム)毎に周波数分析されて、ス
ペクトルを表すパラメータのベクトル系列に変換され
る。尚、周波数分析には、例えばMFCCやLPCメル
ケプストラム等の音声スペクトルを効率よく表現できる
音響特徴を抽出できる分析方法を用いる。
【0092】ステップS63で、上記特徴量写像部21に
よって、音声認識モードであるか否かが判別される。そ
の結果、音声認識モードであればステップS65に進み、
音声認識モードでなければ(つまり、話者特徴推定モー
ドであれば)ステップS64に進む。尚、上記音声認識モ
ードであるか否かを管理するモード情報管理方法は本実
施の形態には直接関係はなく、モード情報管理方法を限
定するものではない。例えば、通常は音声認識モードに
設定しておき、発話者が話者特徴推定スイッチを押して
発声した場合に話者特徴推定モードに変更する管理方法
が簡単である。
【0093】ステップS64で、上記特徴量写像部21,
標準話者モデル格納部22,関数推定部23及び特徴量
変換部24で構成される話者特徴推定装置によって、話
者特徴推定処理が実行される。尚、その場合における話
者特徴推定処理動作は、上記第1実施の形態における図
2のフローチャートと同様である。そうした後、上記ス
テップS61に戻って次の音声信号の入力処理に移行す
る。そして、上記ステップS63において音声認識モード
であると判別されると、上記ステップS65に進む。
【0094】ステップS65で、上記特徴量写像部21に
よって、入力音響特徴量に対して写像が行われる。その
場合に用いられる写像関数fは、上記ステップS64にお
ける話者特徴推定処理によって推定された写像関数f^i
()が用いられる。尚、その場合における音響特徴量写像
処理は、上記第1実施の形態における図3に示す音響特
徴量写像処理動作と同様である。また、話者特徴が未推
定である場合には、例えば、当該ステップをスキップす
るようにしておけばよい。ステップS66で、上記認識部
26によって、上記写像された入力音響特徴量(LPC
メルケプストラム)と、標準話者モデル(HMM)と、言
語情報を表現する言語モデル(例えば単語辞書等)(図示
せず)に基づいて、例えば音韻類似度として尤度が求め
られ、ビタビ演算を行って各単語のスコア(類似度)が算
出されて、上位のスコアを呈する単語が認識結果と決定
される。ステップS67で、認識部26によって、上記認
識結果が出力される。そうした後、音声認識処理動作を
終了する。
【0095】このように、本実施の形態における音声認
識装置は、第1実施の形態における話者特徴推定装置を
搭載している。そして、音声認識処理に先立って、入力
音声の音響特徴量に基づいて、話者特徴推定装置によっ
て話者特徴(写像関数f^i)を推定する。そして、推定さ
れた写像関数f^iを用いて上記入力音響特徴量を話者正
規化するようにしている。
【0096】その場合における写像関数f^iの推定は、
声道における梨状窩形状の個人差等による音声スペクト
ル高周波数帯域の変動の影響を除去して精度よく行われ
る。したがって、上記推定された写像関数f^iを用いて
話者正規化を行なうことによって、標準話者モデル格納
部22に格納された標準話者の音響モデルの周波数特性
により近づくように入力話者を正規化することができ
る。すなわち、本実施の形態によれば、続いて実行され
る認識処理によって、高い認識率を得ることができるの
である。
【0097】尚、上記実施の形態においては、上記特徴
量写像部21に、上記話者特徴推定装置における音響特
徴量写像手段としての機能と、音声認識時における話者
正規化手段としての機能とを兼用させている。しかしな
がら、この発明はこれに限定されるものではなく、上記
話者正規化手段としての特徴量写像部を独立して設けて
も差し支えない。
【0098】<第3実施の形態>本実施の形態は、第1
実施の形態における話者特徴推定装置を用いた音声認識
装置に関する。図14は、本実施の形態における話者適
応方式による音声認識装置のブロック図である。図14
において、特徴量写像部31,標準話者モデル格納部3
2,関数推定部33および特徴量変換部34は、図1に
示す話者特徴推定装置における特徴量写像部1,標準話
者モデル格納部2,関数推定部3及び特徴量変換部4と
同様であり、上記話者特徴推定装置を構成している。さ
らに、音響分析部35は、図12に示す音声認識装置に
おける音響分析部25と同様である。
【0099】モデル適応部36は、専用のLSI素子等
によって構成されて、標準話者モデル格納部32から読
み出された標準話者モデルを、関数推定部33によって
推定された話者特徴としての写像関数f^を用いて入力
話者に適応させて、適応モデルを作成する。適応モデル
格納部37は、半導体メモリや磁気メモリや記憶装置等
によって構成されて、モデル適応部36で作成された適
応モデルを格納する。認識部38は、専用のLSI素子
と専用の半導体メモリや磁気メモリや記憶装置等とによ
って構成されて、音響分析部35からの入力音響特徴量
と、適応モデル格納部37に格納されている適応モデル
とに基づいて、発声内容を認識する。
【0100】図15は、図14に示す音声認識装置によ
って実行される音声認識処理動作のフローチャートであ
る。以下、図15に従って、音声認識処理動作について
説明する。先ず、ステップS71〜ステップS74で、上記
第2実施の形態における図13に示す音声認識処理動作
のステップS61〜ステップS64と同様にして、入力され
たデジタル音声信号が周波数分析されて音響特徴量が抽
出される。そして、話者特徴推定モードであれば、特徴
量写像部31,標準話者モデル格納部32,関数推定部3
3および特徴量変換部34で構成される話者特徴推定装
置によって、話者特徴推定処理が実行される。
【0101】ステップS75で、上記モデル適応部36に
よって、上記標準話者モデル格納部32から読み出され
た標準話者モデルと、上記ステップS74における話者特
徴推定処理によって推定された話者特徴としての写像関
数f^とに基づいて、上記適応モデルが作成される。そ
して、得られた適応モデルは、適応モデル格納部37に
格納される。尚、上記適応モデルの作成処理は、例え
ば、標準話者モデル(HMM)の各ステートの中から母音
に対応するステートに関して、出力確率密度関数の平均
値ベクトルを写像関数f^の逆関数を用いて写像すれば
よい。そうした後、上記ステップS71に戻って次の音声
信号の入力処理に移行する。そして、上記ステップS73
において音声認識モードであると判別されると、ステッ
プS76に進むのである。
【0102】ステップS76,ステップS77で、上記第2
実施の形態における図13に示す音声認識処理動作のス
テップS66,S67と同様にして、認識処理が行われ、得
られた認識結果が出力される。尚、その際における上記
認識処理は、抽出された入力音響特徴量と、ステップS
75において作成された適応モデル(HMM)と、上記言語
モデルに基づいて行われる。また、上記適応モデルが未
作成である場合には、例えば標準話者モデルを用いるよ
うにしておけばよい。そうした後、音声認識処理動作を
終了する。
【0103】このように、本実施の形態における音声認
識装置は、第1実施の形態における話者特徴推定装置を
搭載している。そして、音声認識処理に先立って、入力
音声の音響特徴量に基づいて、話者特徴推定装置によっ
て話者特徴(写像関数f^i)を推定する。そして、標準話
者モデル格納部32に格納された標準話者モデルと推定
された写像関数f^iとを用いて適応モデルを作成するこ
とによって、話者適応を行うようにしている。
【0104】その場合における写像関数f^iの推定は、
声道における梨状窩形状の個人差等による音声スペクト
ル高周波数帯域の変動の影響を除去して精度よく行われ
る。したがって、上記推定された写像関数f^iを用いて
話者適応を行なうことによって、入力話者の音響特徴量
の周波数特性により近づくように上記標準話者モデルを
正規化することができる。したがって、上記話者適応モ
デルを用いて行われる認識処理の結果、高い認識率を得
ることができるのである。
【0105】<第4実施の形態>本実施の形態は、第1
実施の形態における話者特徴推定装置を用いたクラスタ
モデル作成装置に関する。図16は、本実施の形態にお
けるクラスタモデル作成装置のブロック図である。図1
6において、特徴量写像部41,標準話者モデル格納部
42,関数推定部43および特徴量変換部44は、図1
に示す話者特徴推定装置における特徴量写像部1,標準
話者モデル格納部2,関数推定部3および特徴量変換部
4と同様であり、上記話者特徴推定装置を構成してい
る。さらに、音響分析部45は、図12に示す音声認識
装置における音響分析部25と同様である。
【0106】クラスタリング部46は、専用のLSI素
子等によって構成されて、上記関数推定部43から出力
される話者特徴としてのパラメータ(例えば線形伸縮係
数α)に基づいて話者をクラスタリングする。モデル作
成部47は、専用のLSI素子等によって構成されて、
音響分析部45で得られた入力音響特徴量と、標準話者
モデル格納部42から読み出された標準話者モデルと、
クラスタリング部45からの話者クラスタ情報とに基づ
いて、各話者クラスタ用の音響モデルであるクラスタモ
デルを作成する。
【0107】図17は、図16に示すクラスタモデル作
成装置によって実行されるクラスタモデル作成処理動作
のフローチャートである。以下、図17に従って、クラ
スタモデル作成処理動作について説明する。先ず、ステ
ップS81で、カウンタiに1が代入されて初期化され
る。ステップS82で、音響分析部45によって、i番目
の話者の音声信号が入力される。入力音声信号は、例え
ば、マイク等から入力されてA/D変換器(図示せず)や
記録媒体等を通して得られるデジタル音声信号である。
ステップS83,ステップS84で、上記第2実施の形態に
おける図13に示す音声認識処理動作のステップS62,
ステップS64と同様にして、入力されたデジタル音声信
号が周波数分析されて音響特徴量が抽出され、特徴量写
像部41,標準話者モデル格納部42,関数推定部43お
よび特徴量変換部44で構成される話者特徴推定装置に
よって話者特徴推定処理が実行される。
【0108】ステップS85で、上記音響分析部45によ
って、カウンタiの値が予め用意されている話者数Mよ
りも大きいか否かが判別される。その結果、大きければ
ステップS87に進み、そうでなければステップS86に進
む。ステップS86で、カウンタiの値が「1」だけインク
リメントされる。そうした後、上記ステップS82に戻っ
て次の話者の音声信号入力処理に移行する。そして、上
記ステップS85においてカウンタiの値が話者数Mより
も大きいと判別されると、上記ステップS87に進む。
【0109】ステップS87で、上記クラスタリング部4
6によって、上記関数推定部43から出力される全話者
に関する話者特徴としてのパラメータ(例えば線形伸縮
係数α)に基づいて、話者がクラスタリングされる。そ
の際における話者クラスタリングの方法は本実施の形態
には直接関係はなく、話者クラスタリングの方法を限定
するものではない。尚、例えば、線形伸縮係数αに基づ
くクラスタリングの場合には、M人の話者における線形
伸縮係数αの範囲をC等分し、分割された各領域に属す
る話者集合を話者クラスタとする。Cはクラスタ数を表
す。あるいは、線形伸縮係数αに基づいて各話者を順序
付けし、順序付けられた話者をM/C人ずつに区切って
話者クラスタを作成してもよい。
【0110】ステップS88で、上記モデル作成部47に
よって、上記クラスタリング部46による話者クラスタ
リング結果に基づいて、上記ステップS82において入力
された全話者の音響特徴量と標準話者モデル格納部42
に格納された標準話者モデル(HMM)とを用いて、上記
クラスタモデル(HMM)が作成されて出力される。その
際におけるクラスタモデルの作成は、例えば、標準話者
モデルを初期モデルとし、話者クラスタ毎にクラスタ内
に属する話者の音声データを用いて、VFS法あるいは
MLLR法によるモデル適応によって作成すればよい。
十分な学習用音声データが存在する場合には、HMMの
学習アルゴリズムを用いて作成すればよい。そうした
後、クラスタモデル作成処理動作を終了する。
【0111】このように、本実施の形態におけるクラス
タモデル作成装置は、第1実施の形態における話者特徴
推定装置を搭載している。そして、話者をクラスタリン
グするに先立って、個々の話者の音響特徴量に基づい
て、上記話者特徴推定装置によって総ての話者の話者特
徴(線形伸縮係数α)を推定する。そして、クラスタリン
グ部46によって、線形伸縮係数αを話者間の距離とし
て総ての話者をクラスタリングし、モデル作成部47に
よって、話者クラスタ毎に全話者の音響特徴量と標準話
者モデルとを用いてクラスタモデルを作成するようにし
ている。
【0112】その場合における上記線形伸縮係数αの推
定は、声道における梨状窩形状の個人差等による音声ス
ペクトル高周波数帯域の変動の影響を除去して精度よく
行われる。したがって、上記推定された線形伸縮係数α
を話者間の距離として話者クラスタリングを行なうこと
によって、より話者に適合した距離を用いて話者クラス
タリングを行なうことができる。すなわち、本実施の形
態によれば、話者集団における発声特性の分布を的確に
表現できるクラスタモデルを作成することができるので
ある。
【0113】図18は、上記話者特徴推定装置を用いた
他のクラスタモデル作成装置のブロック図である。図1
8において、特徴量写像部51,標準話者モデル格納部
52,関数推定部53および特徴量変換部54は、図1
に示す話者特徴推定装置における特徴量写像部1,標準
話者モデル格納部2,関数推定部3及び特徴量変換部4
と同様であり、上記話者特徴推定装置を構成している。
また、音響分析部55は、図12に示す音声認識装置に
おける音響分析部25と同様である。さらに、クラスタ
リング部56は、図16に示すクラスタモデル作成装置
におけるクラスタリング部46と同様である。
【0114】モデル作成部57は、専用のLSI素子等
によって構成されて、図16に示すクラスタモデル作成
装置におけるモデル作成部47と同様にしてクラスタモ
デルを作成するに加えて、音響分析部55からの入力音
響特徴量に基づいて各話者の話者モデル(HMM)を作成
する。特徴量抽出部58は、専用のLSI素子等によっ
て構成されて、モデル作成部57によって作成された各
話者モデルから音響特徴量を抽出して特徴量写像部51
に送出する。
【0115】図19は、図18に示すクラスタモデル作
成装置によって実行されるクラスタモデル作成処理動作
のフローチャートである。以下、図19に従って、クラ
スタモデル作成処理動作について説明する。先ず、ステ
ップS91〜ステップS93で、図17に示すクラスタモデ
ル作成処理動作におけるステップS81〜ステップS83と
同様にして、カウンタiが初期化され、i番目の話者の
デジタル音声信号が周波数分析されて音響特徴量が抽出
される。
【0116】ステップS94で、上記モデル作成部57に
よって、話者iの音響特徴量と標準話者モデル格納部5
2に格納された標準話者モデルとを用いて、話者iの話
者モデル(HMM)が作成される。話者モデルの作成処理
手順は、例えば、標準話者モデルを初期モデルとし、話
者iの音声データを用いて、VFS法またはMLLR法
によるモデル適応によって作成すればよい。あるいは、
十分な学習用音声データが存在する場合には、HMMの
学習アルゴリズムを用いて作成すればよい。ステップS
95で、特徴量抽出部58によって、上記作成された話者
iの話者モデルから音響特徴量が抽出される。尚、その
場合における音響特徴量抽出処理は、上記第1実施の形
態における図5に示す音響特徴量変換処理動作中のステ
ップS32において実行される標準話者音響特徴量抽出処
理動作と同様にして行われる。
【0117】ステップS96〜ステップS100で、図17
に示すクラスタモデル作成処理動作におけるステップS
84〜ステップS88と同様にして、特徴量写像部51,標
準話者モデル格納部52,関数推定部53および特徴量
変換部54で構成される話者特徴推定装置によって話者
特徴推定処理が実行され、カウンタiがインクリメント
され、i>話者数Mであれば話者クラスタリングが行わ
れる。そして、話者クラスタリング結果に基づいて、全
話者の音響特徴量と標準話者モデルとを用いて話者クラ
スタモデルが作成されて出力される。そうした後、クラ
スタモデル作成処理動作を終了する。
【0118】このように、本実施の形態におけるクラス
タモデル作成装置は、第1実施の形態における話者特徴
推定装置を搭載している。そして、話者をクラスタリン
グするに先立って、個々の話者の音響特徴量に基づい
て、上記話者特徴推定装置によって総ての話者の話者特
徴(線形伸縮係数α)を推定する。そして、クラスタリン
グ部56によって、線形伸縮係数αを話者間の距離とし
て総ての話者をクラスタリングし、モデル作成部57に
よって、話者クラスタ毎に全話者の音響特徴量と標準話
者モデルとを用いて話者クラスタモデルを作成するよう
にしている。
【0119】その場合における上記線形伸縮係数αの推
定は、声道における梨状窩形状の個人差等による音声ス
ペクトル高周波数帯域の変動の影響を除去して精度よく
行われる。したがって、上記推定された線形伸縮係数α
を話者間の距離として話者クラスタリングを行なうこと
によって、より話者に適合した距離を用いて話者クラス
タリングを行なうことことができる。すなわち、本実施
の形態によれば、話者集団における発声特性の分布を的
確に表現できるクラスタモデルを作成することができる
のである。
【0120】さらに、上記話者特徴推定装置は、上記モ
デル作成部57で作成された話者モデルから特徴量抽出
部58によって抽出された音響特徴量に基づいて、入力
話者の特徴を推定するようにしている。したがって、入
力話者の音響特徴量における発話内の変動を除去して、
入力話者の特徴をより精度良く推定することができるの
である。すなわち、本実施の形態によれば、さらに話者
に適合した距離を用いて話者クラスタリングを行なうこ
とができるのである。
【0121】尚、上記実施の形態においては、上記モデ
ル作成部52に、話者特徴推定時における話者モデル作
成手段としての機能と、音声認識時におけるクラスタモ
デル作成手段としての機能とを兼用させている。しかし
ながら、この発明はこれに限定されるものではなく、上
記話者モデル作成手段としてのモデル作成部を独立して
設けても差し支えない。
【0122】<第5実施の形態>本実施の形態は、第1
実施の形態における話者特徴推定装置を用いた他の音声
認識装置に関する。図20は、本実施の形態におけるク
ラスタモデルを用いた音声認識装置のブロック図であ
る。図20において、特徴量写像部61,標準話者モデ
ル格納部62,関数推定部63および特徴量変換部64
は、図1に示す話者特徴推定装置における特徴量写像部
1,標準話者モデル格納部2,関数推定部3および特徴量
変換部4と同様であり、上記話者特徴推定装置を構成し
ている。さらに、音響分析部65及び認識部68は、図
14に示す音声認識装置における音響分析部35および
認識部38と同様である。
【0123】クラスタモデル格納部66は、半導体メモ
リや磁気メモリや記憶装置等によって構成されて、上記
第4実施の形態におけるクラスタモデル作成装置によっ
て作成されたクラスタモデルを格納する。モデル選択部
67は、専用のLSI素子等によって構成されて、関数
推定部63から出力される話者特徴としてのパラメータ
(例えば線形伸縮係数α)に基づいて入力話者のクラスタ
に応じたクラスタモデルをクラスタモデル格納部66か
ら選択して認識部68に送出する。
【0124】図21は、図20に示す音声認識装置によ
って実行される音声認識処理動作のフローチャートであ
る。以下、図21に従って、音声認識処理動作について
説明する。先ず、ステップS101〜ステップS104で、上
記第2実施の形態における図13に示す音声認識処理動
作のステップS61〜ステップS64と同様にして、入力さ
れたデジタル音声信号が周波数分析されて音響特徴量が
抽出される。そして、話者特徴推定モードであれば、特
徴量写像部61,標準話者モデル格納部62,関数推定部
63および特徴量変換部64で構成される話者特徴推定
装置によって、話者特徴推定処理が実行される。
【0125】ステップS105で、上記モデル選択部67
によって、上記話者特徴推定処理部によって推定された
線形伸縮係数αに基づいてクラスタモデルを選択する。
尚、上記クラスタモデル選択処理は、例えば、予め線形
伸縮係数αが付与されたクラスタモデルをクラスタモデ
ル格納部66に格納しておき、上記推定された線形伸縮
係数αに最も近い線形伸縮係数αが付与されているクラ
スタモデルを選択すればよい。そうした後、上記ステッ
プS101に戻って次の音声信号の入力処理に移行する。
そして、上記ステップS103において音声認識モードで
あると判別されると、ステップS106に進む。
【0126】ステップS106,ステップS107で、図13
に示す音声認識処理動作におけるステップS66,ステッ
プS67と同様にして、認識処理が行われ、得られた認識
結果が出力される。そうした後、音声認識処理動作を終
了する。
【0127】このように、本実施の形態における音声認
識装置は、第1実施の形態における話者特徴推定装置を
搭載している。そして、音声認識処理に先立って、入力
音声の音響特徴量に基づいて、話者特徴推定装置によっ
て話者特徴(線形伸縮係数α)を推定する。そして、推定
された線形伸縮係数αに基づいてクラスタモデル格納部
66から話者クラスタのクラスタモデルを選択し、この
選択されたクラスタモデルを用いて音声認識を行うよう
にしている。
【0128】その場合におけるクラスタモデルの作成お
よび選択時に用いられる線形伸縮係数αの推定は、声道
における梨状窩形状の個人差等による音声スペクトル高
周波数帯域の変動の影響を除去して精度よく行われる。
したがって、上記推定された線形伸縮係数αを用いてク
ラスタモデルの作成及び選択を行なうことによって、よ
り入力話者に適合する話者間距離を用いたクラスタモデ
ルの作成および選択を行なうことができる。したがっ
て、話者集団における発声特性の分布を的確に表すクラ
スタモデルを用いて認識処理を行うことができ、高い認
識率を得ることができるのである。
【0129】<第6実施の形態>本実施の形態は、第1
実施の形態における話者特徴推定装置を用いた音声合成
装置に関する。図22は、本実施の形態における音声合
成装置のブロック図である。図22において、特徴量写
像部71,標準話者モデル格納部72,関数推定部73お
よび特徴量変換部74は、図1に示す話者特徴推定装置
における特徴量写像部1,標準話者モデル格納部2,関数
推定部3および特徴量変換部4と同様であり、上記話者
特徴推定装置を構成している。但し、特徴量写像部71
は、音声合成時にも、音声素片の音響特徴量に対して、
自身が構成要素となっている上記話者特徴推定装置で推
定された写像関数f^を用いた写像処理を行うようにな
っている。さらに、音響分析部75は、図12に示す音
声認識装置における音響分析部25と同様である。
【0130】標準話者素片格納部76は、半導体メモリ
や磁気メモリや記憶装置等によって構成されて、標準話
者の音声素片を格納している。素片選択部77は、専用
のLSI素子等によって構成されて、入力音韻記号列お
よび入力韻律情報に基づいて標準話者素片格納部76か
ら音声素片を選択する。素片接続部78は、専用のLS
I素子等によって構成されて、入力韻律情報に基づいて
特徴量写像部71から出力される写像後の音声素片同士
を接続して合成音声を出力する。
【0131】図23は、図22に示す音声合成装置によ
って実行される音声合成処理動作のフローチャートであ
る。以下、図23に従って、音声合成処理動作について
説明する。先ず、ステップS111で、音響分析部75に
よって、音声合成モードであるか否かが判別される。そ
の結果、音声合成モードであればステップS115に進
み、音声合成モードでなければ(つまり話者特徴推定モ
ードであれば)ステップS112に進む。尚、音声合成モー
ドであるか否かを管理するモード情報管理方法は本実施
の形態に直接関係はなく、モード情報管理方法を限定す
るものではない。例えば、通常は音声合成モードに設定
しておき、発話者が話者特徴推定スイッチを押して発声
した場合に話者特徴推定モードに変更する管理方法が簡
単である。
【0132】ステップS112〜ステップS114で、上記第
2実施の形態における図13に示す音声認識処理動作の
ステップS61,S62,S64と同様にして、入力されたデジ
タル音声信号が周波数分析されて音響特徴量が抽出さ
れ、特徴量写像部71,標準話者モデル格納部72,関数
推定部73および特徴量変換部74で構成される話者特
徴推定装置によって、話者特徴推定処理が実行される。
そうした後、ステップS111に戻る。そして、上記ステ
ップS111において音声合成モードであると判別される
と、上記ステップS115に進む。
【0133】ステップS115で、上記素片選択部77に
よって、標準話者素片格納部76に格納された標準話者
の音声素片の中から、入力音韻記号列および入力韻律情
報に基づいて該当する音声素片が選択される。音声素片
の選択においては、入力音韻記号列のみに基づいて選択
しても差し支えない。尚、上記入力音韻記号列および入
力韻律情報の生成方法は本実施の形態に直接関係はな
く、生成方法を限定するものではない。例えば、テキス
トに対して形態素解析や構文解析等の言語処理を行い、
アクセントやイントネーション付与等の韻律処理を行っ
て得られる言語情報を用いればよい。
【0134】ステップS116で、上記特徴量写像部71
によって、上記第1実施の形態において図3に示す音響
特徴量写像処理動作と同様にして、上記選択された音声
素片に対して音響特徴量の写像が行われる。但し、その
場合に、写像関数としては、上記ステップS114におい
て推定された写像関数f^i()の逆関数f^i -1()を用いる
ことになる。ステップS117で、素片接続部78によっ
て、入力韻律情報に基づいて、上記写像によって入力話
者(学習話者)の声質に変換された音声素片が接続され
る。ステップS118で、入力話者の声質に変換された上
記入力音韻記号列に基づく合成音声が出力される。
【0135】このように、本実施の形態における音声合
成装置は、第1実施の形態における話者特徴推定装置を
搭載している。そして、音声合成処理に先立って、入力
音声の音響特徴量に基づいて、話者特徴推定装置によっ
て話者特徴(写像関数f)を推定する。そして、推定され
た写像関数f^の逆関数f^-1を用いて、入力音韻記号列
に基づいて選択された標準話者の音声素片を写像するこ
とによって、入力話者の声質に変換された音声素片を得
るようにしている。
【0136】その場合における写像関数fの推定は、声
道における梨状窩形状の個人差等による音声スペクトル
高周波数帯域の変動の影響を除去して精度よく行われ
る。したがって、上記推定された写像関数f^の逆関数
f^-1を用いて標準話者の音声素片を写像することによ
って、より学習話者の声質に近い声質に変換された合成
音声を得ることができるのである。
【0137】尚、上記実施の形態においては、上記特徴
量写像部71に、上記話者特徴推定装置における音響特
徴量写像手段としての機能と、音声合成時における声質
変換手段としての機能とを兼用させている。しかしなが
ら、この発明はこれに限定されるものではなく、上記声
質変換手段としての特徴量写像部を独立して設けても差
し支えない。
【0138】<第7実施の形態>本実施の形態は、第1
実施の形態における話者特徴推定装置を用いた声質変換
装置に関する。図24は、本実施の形態における声質変
換装置のブロック図である。図24において、特徴量写
像部81,標準話者モデル格納部82,関数推定部83お
よび特徴量変換部84は、図1に示す話者特徴推定装置
における特徴量写像部1,標準話者モデル格納部2,関数
推定部3および特徴量変換部4と同様であり、上記話者
特徴推定装置を構成している。さらに、音響分析部85
は、図12に示す音声認識装置における音響分析部25
と同様である。但し、特徴量写像部81は、声質変換時
にも、入力音響特徴量に対して、自身が構成要素となっ
ている上記話者特徴推定装置で推定された写像関数f^
を用いた写像処理を行うようになっている。また、標準
話者モデル格納部82には、声質変換におけるターゲッ
ト(変換先)話者モデルを格納しておく。その場合のター
ゲット話者モデルは、例えば予めターゲット話者の音声
データを用いて作成されたHMMである。
【0139】合成部86は、専用のLSI素子等によっ
て構成される。そして、上記特徴量写像部81から出力
されたターゲット話者に写像された(ターゲット話者の
声質に変換された)入力話者の音響特徴量と、音響分析
部85よって得られた残差音響信号とに基づいて、音声
信号を合成して合成音声を出力する。
【0140】図25は、図24に示す声質変換装置によ
って実行される声質変換処理動作のフローチャートであ
る。以下、図25に従って、上記声質変換処理動作につ
いて説明する。ステップS121〜ステップS125で、上記
第2実施の形態における図13に示す音声認識処理動作
のステップS61〜ステップS65と同様にして、入力され
たデジタル音声信号が周波数分析されて音響特徴量が抽
出される。但し、ステップS122における音響特徴量抽
出処理においては、分析して得られるスペクトル情報の
逆フィルタに入力音声信号を通すことによって、残差音
響信号も抽出される。そして、話者特徴推定モードであ
れば、特徴量写像部81,標準話者モデル格納部82,関
数推定部83および特徴量変換部84で構成される話者
特徴推定装置によって、話者特徴推定処理が実行され
る。一方、声質変換であれば、上記話者特徴推定処理で
推定された写像関数f^i()が用いられて、入力音響特徴
量に対して写像が行われる。
【0141】ステップS126で、上記合成部86によっ
て、上記ステップS122において抽出された残差音響信
号と、上記ステップS125においてターゲット話者に写
像された音響特徴量とを用いて、合成音声が生成され
る。尚、その場合における合成処理は、音響特徴量を逆
cos変換および指数変換することによって得られるスペ
クトル情報を表すフィルタを作成し、上記残差音響信号
を上記フィルタに通すことによって行われる。ステップ
S127で、上記生成された合成音声が出力される。そうし
た後、声質変換処理動作を終了する。
【0142】このように、本実施の形態における声質変
換装置は、第1実施の形態における話者特徴推定装置を
搭載している。そして、声質変換処理に先立って、入力
音声の音響特徴量に基づいて、話者特徴推定装置によっ
て話者特徴(ターゲット話者への写像関数f)を推定す
る。そして、推定された写像関数f^を用いて、入力音
響特徴量を写像することによって、入力話者の声質をタ
ーゲット話者の声質に変換するようにしている。
【0143】その場合における写像関数f^の推定は、
声道における梨状窩形状の個人差等による音声スペクト
ル高周波数帯域の変動の影響を除去して精度よく行われ
る。したがって、上記推定された写像関数f^を用いて
入力話者の音響特徴量を写像することによって、よりタ
ーゲット話者の声質に近い声質に変換された合成音声を
得ることができるのである。
【0144】尚、上記実施の形態においては、上記特徴
量写像部81に、上記話者特徴推定装置における音響特
徴量写像手段としての機能と、声質変換時における声質
変換手段としての機能とを兼用させている。しかしなが
ら、この発明はこれに限定されるものではなく、上記声
質変換手段としての特徴量写像部を独立して設けても差
し支えない。
【0145】また、上記各実施の形態において、上記各
部を構成する素子等は、一つの素子であっても、また
は、複数の素子が複合されたものであっても差し支えな
い。また、上記各部はCPUあるいはその周辺機器等で
代用してもよい。
【0146】また、上記各実施の形態においては、音響
モデルとしてHMMを、音韻類似度としてHMMに基づ
く尤度を、スコア算出にビタビ演算を用いる場合につい
て説明している。しかしながら、HMMの代わりに音声
波形あるいは音響特徴量系列を登録したモデルを、尤度
の代わりにスペクトル間距離を、ビタビ演算の代わりに
DPマッチングを用いても差し支えない。
【0147】ところで、上記話者特徴推定装置における
上記特徴量写像手段,特徴量変換手段,標準話者モデル格
納手段および関数推定手段としての機能は、プログラム
記録媒体に記録された話者特徴推定処理プログラムによ
って実現される。上記実施の形態における上記プログラ
ム記録媒体は、ROM(リード・オンリ・メモリ)でなるプ
ログラムメディアである。あるいは、外部補助記憶装置
に装着されて読み出されるプログラムメディアであって
もよい。尚、何れの場合においても、上記プログラムメ
ディアから話者特徴推定処理プログラムを読み出すプロ
グラム読み出し手段は、上記プログラムメディアに直接
アクセスして読み出す構成を有していてもよいし、RA
M(ランダム・アクセス・メモリ)に設けられたプログラム
記憶エリア(図示せず)にダウンロードして、上記プログ
ラム記憶エリアにアクセスして読み出す構成を有してい
てもよい。尚、上記プログラムメディアからRAMの上
記プログラム記憶エリアにダウンロードするためのダウ
ンロードプログラムは、予め本体装置に格納されている
ものとする。
【0148】ここで、上記プログラムメディアとは、本
体側と分離可能に構成され、磁気テープやカセットテー
プ等のテープ系、フロッピー(登録商標)ディスク,ハ
ードディスク等の磁気ディスクやCD(コンパクトディ
スク)‐ROM,MO(光磁気)ディスク,MD(ミニディス
ク),DVD(ディジタルビデオディスク)等の光ディスク
のディスク系、IC(集積回路)カードや光カード等のカ
ード系、マスクROM,EPROM(紫外線消去型RO
M),EEPROM(電気的消去型ROM),フラッシュR
OM等の半導体メモリ系を含めた、固定的にプログラム
を坦持する媒体である。
【0149】また、上記各実施の形態における音声情報
処理装置は、モデムを備えてインターネットを含む通信
ネットワークと接続可能な構成を有していれば、上記プ
ログラムメディアは、通信ネットワークからのダウンロ
ード等によって流動的にプログラムを坦持する媒体であ
っても差し支えない。尚、その場合における上記通信ネ
ットワークからダウンロードするためのダウンロードプ
ログラムは、予め本体装置に格納されているものとす
る。あるいは、別の記録媒体からインストールされるも
のとする。
【0150】尚、上記記録媒体に記録されるものはプロ
グラムのみに限定されるものではなく、データも記録す
ることが可能である。
【0151】
【発明の効果】以上より明らかなように、第1の発明の
話者特徴推定装置は、特徴量写像手段によって写像され
ると共に、特徴量変換手段によって、声道における梨状
窩形状の個人差によって変動が生ずる領域が上記標準話
者の音響特徴量に関する情報を用いて変換された入力話
者の音響特徴量と、標準話者の音響特徴量に関する情報
とに基づいて、関数推定手段によって写像関数を推定す
るので、入力話者の音響特徴量における声道の梨状窩形
状の個人差による音声スペクトル高周波数帯域の変動の
影響を除去することができ、話者特徴としての写像関数
を精度良く推定することができる。
【0152】その際に、入力話者の音響特徴量における
声道長の梨状窩形状の個人差による変動を予め補正して
おくので、少量の音声データから入力話者の特徴を精度
よく推定することができる。
【0153】また、上記第1の発明の話者特徴推定装置
は、上記特徴量変換手段を、上記入力話者の音響特徴量
における変換領域の下限位置を、入力話者の音声スペク
トルの傾きと上記標準話者の音声スペクトルの傾きとの
差が最も小さくなる同一周波数位置に設定するように成
せば、入力話者および標準話者の音声スペクトルを用い
て、上記入力話者の音響特徴量における変換領域の下限
位置を簡単に設定することができる。
【0154】また、上記第1の発明の話者特徴推定装置
は、上記特徴量変換手段を、上記入力話者の音響特徴量
の変換を、上記入力話者の音声スペクトルにおける上記
変換領域に該当する周波数帯域と上記標準話者の音声ス
ペクトルにおける該当する周波数帯域とにおけるスペク
トル値の差異から求められた周波数特性変換フィルタを
用いて行うように成せば、上記入力話者の音響特徴量に
対する変換処理を、上記周波数特性変換フィルタを用い
て簡単に行うことができる。
【0155】また、上記第1の発明の話者特徴推定装置
は、上記特徴量変換手段によって音声スペクトルが変換
される周波数帯域の下限を3kHzから3.5kHzまでの
間とする一方、上限をサンプリング周波数の1/2とす
れば、声道における梨状窩形状の個人差によって変動す
る音声スペクトル高周波数帯域を的確に設定することが
できる。
【0156】また、上記第1の発明の話者特徴推定装置
は、上記特徴量写像手段を、狭母音を除く母音に対して
のみ写像処理を行うように成せば、音声スペクトルにお
けるホルマントのピークの出現位置が不安定な狭母音を
除く母音に対してのみ話者特徴推定処理を行うことがで
き、入力話者の特徴をさらに精度良く推定することがで
きる。
【0157】また、上記第1の発明の話者特徴推定装置
は、特徴量写像手段を、予め用意された複数の写像関数
を用いて上記写像を行うように成し、上記関数推定手段
を、上記標準話者の音響特徴量に関する情報に対する上
記写像および変換が行われた入力話者の音響特徴量の尤
度を最大にするという基準で上記複数の写像関数から写
像関数を最尤推定するように成せば、複数の写像関数を
用いた写像演算と上記尤度演算と尤度値比較演算との繰
り返しの簡単な処理で、話者特徴情報としての写像関数
を精度良く推定することができる。
【0158】また、第2の発明の音声認識装置は、認識
手段によって入力音声信号を認識するに先立って、入力
音声の音響特徴量に基づいて、上記第1の発明の話者特
徴推定装置によって入力話者の特徴を推定し、特徴量写
像手段によって、上記推定された入力話者の特徴として
の写像関数を用いて上記入力話者の音響特徴量を写像
(話者正規化)し、この話者正規化された入力話者の音響
特徴量に基づいて、上記認識手段によって入力音声信号
を認識するので、声道における梨状窩形状の個人差によ
る音声スペクトル高周波数帯域の変動の影響を除去して
精度よく推定された写像関数を用いて上記話者正規化を
行うことができる。
【0159】したがって、この発明によれば、より標準
話者の音響特徴量の周波数特性に近づくように入力話者
の音響特徴量を正規化することができ、高い認識率を得
ることができる。
【0160】また、第3の発明の音声認識装置は、認識
手段によって入力音声信号を認識するに先立って、入力
音声の音響特徴量に基づいて、上記第1の発明の話者特
徴推定装置によって入力話者の特徴を推定し、モデル適
応手段によって、上記推定された入力話者の特徴として
の写像関数の逆関数を用いて標準話者モデルを入力話者
に適応させて適応モデルを生成し、この生成された適応
モデルを用いて、上記認識手段によって入力音声信号を
認識するので、声道における梨状窩形状の個人差による
音声スペクトル高周波数帯域の変動の影響を除去して精
度よく推定された写像関数の逆関数を用いて、上記標準
話者モデルを話者適応させることができる。
【0161】したがって、この発明によれば、より入力
話者の音響特徴量の周波数特性に近い周波数特性を有す
る適応モデルを用いることができ、高い認識率を得るこ
とができる。
【0162】また、第4の発明のクラスタモデル作成装
置は、モデル作成手段によってクラスタモデルを作成す
るに先立って、入力音声の音響特徴量に基づいて、上記
第1の発明の話者特徴推定装置によって入力話者の特徴
を推定し、クラスタリング手段によって、上記推定され
た入力話者の特徴を話者間距離として複数の話者をクラ
スタリングし、このクラスタリング結果に基づいて、上
記モデル作成手段によって各話者クラスタ用の音響モデ
ルであるクラスタモデルを作成するので、声道における
梨状窩形状の個人差による音声スペクトル高周波数帯域
の変動の影響を除去して精度よく推定された入力話者の
特徴を話者間距離として、複数の話者をクラスタリング
することができる。
【0163】したがって、この発明によれば、より話者
に適合した話者間距離を用いてクラスタリングを行うこ
とができ、話者集団における発声特性の分布を的確に表
現できるクラスタモデルを作成することができる。
【0164】また、第5の発明のクラスタモデル作成装
置は、モデル作成手段によってクラスタモデルを作成す
るに先立って、話者モデル作成手段によって入力話者の
音響特徴量に基づいて話者モデルを作成し、特徴量抽出
手段によって話者モデルから音響特徴量を抽出し、この
抽出された音響特徴量に基づいて、上記第1の発明の話
者特徴推定装置によって入力話者の特徴を推定し、クラ
スタリング手段によって、上記推定された各入力話者の
特徴を話者間距離として複数の話者をクラスタリング
し、このクラスタリング結果に基づいて、上記モデル作
成手段によってクラスタモデルを作成するので、声道に
おける梨状窩形状の個人差による音声スペクトル高周波
数帯域の変動の影響を除去して精度よく推定された入力
話者の特徴を話者間距離として、複数の話者をクラスタ
リングすることができる。
【0165】したがって、この発明によれば、より話者
に適合した話者間距離を用いてクラスタリングを行うこ
とができ、話者集団における発声特性の分布を的確に表
現できるクラスタモデルを作成することができる。
【0166】さらに、上記話者特徴推定装置は、上記話
者モデルから抽出された音響特徴量に基づいて入力話者
の特徴を推定するので、入力話者の音響特徴量における
発話内の変動を除去して入力話者の特徴をより精度良く
推定することができる。
【0167】また、第6の発明の音声認識装置は、クラ
スタモデル格納手段に上記第4の発明あるいは第5の発
明のクラスタモデル作成装置によって作成されたクラス
タモデルを格納し、認識手段によって入力音声信号を認
識するに先立って、入力音声の音響特徴量に基づいて、
上記第1の発明の話者特徴推定装置によって入力話者の
特徴を推定し、モデル選択手段によって、上記推定され
た入力話者の特徴に基づいて該当するクラスタモデルを
選択し、この選択されたクラスタモデルを用いて、上記
認識手段によって入力音声信号を認識するので、声道に
おける梨状窩形状の個人差による音声スペクトル高周波
数帯域の変動の影響を除去して精度よく推定された入力
話者の特徴を用いて、上記クラスタモデルの作成および
選択を行うことができる。
【0168】したがって、この発明によれば、話者集団
における発声特性の分布を的確に表すクラスタモデルを
用いて認識処理を行うことができ、高い認識率を得るこ
とができる。
【0169】また、第7の発明の音声合成装置は、素片
接続手段によって音声素片同士を接続して合成音声を生
成するに先立って、入力音声の音響特徴量に基づいて、
上記第1の発明の話者特徴推定装置によって入力話者の
特徴を推定し、特徴量写像手段によって、素片選択部で
音韻記号列に基づいて選択された標準話者の音声素片の
音響特徴量を上記推定された入力話者の特徴としての写
像関数の逆関数を用いて写像し、この写像された音声素
片同士を上記素片接続手段によって接続するので、声道
における梨状窩形状の個人差による音声スペクトル高周
波数帯域の変動の影響を除去して精度よく推定された写
像関数の逆関数を用いて、上記標準話者の音声素片を入
力話者(学習話者)の声質に変換することができる。
【0170】したがって、この発明によれば、より入力
話者の声質に近い声質に変換された合成音声を得ること
ができる。
【0171】また、第8の発明の声質変換装置は、特徴
量写像手段によって入力話者の音響特徴量を写像して入
力話者の声質を変換するに先立って、入力音声の音響特
徴量に基づいて、上記第1の発明の話者特徴推定装置に
よって入力話者の特徴を推定し、上記特徴量写像手段に
よって、入力話者の音響特徴量を上記推定された入力話
者の特徴としての写像関数を用いて写像し、合成手段に
よって、この写像された入力話者の音響特徴量と音響分
析手段からの音響分析結果とに基づいて音声を合成する
ので、声道における梨状窩形状の個人差による音声スペ
クトル高周波数帯域の変動の影響を除去して精度よく推
定された写像関数を用いて、入力話者の声質を他の話者
の声質に変換することができる。
【0172】したがって、この発明によれば、より他の
話者の声質に近い声質に変換された音声を得ることがで
きる。
【0173】また、第9の発明の話者特徴推定方法は、
入力話者の音響特徴量を複数の写像関数を用いて写像
し、上記写像が行われた入力話者の音響特徴量における
声道の梨状窩形状の個人差によって変動が生ずる領域を
標準話者の音響特徴量に関する情報を用いて変換し、上
記変換が行われた入力話者の音響特徴量と上記標準話者
の音響特徴量に関する情報とに基づいて上記複数の写像
関数から写像関数を最尤推定するので、入力話者の音響
特徴量における声道の梨状窩形状の個人差による音声ス
ペクトル高周波数帯域の変動の影響を除去して、話者特
徴としての写像関数を少量の音声データから精度良く推
定することができる。
【0174】また、第10の発明のプログラム記録媒体
は、コンピュータを、上記第1の発明の話者特徴推定装
置における上記特徴量写像手段,特徴量変換手段,標準話
者モデル格納手段および関数推定手段として機能させる
話者特徴推定処理プログラムが記録されているので、上
記第1の発明の場合と同様に、入力話者の音響特徴量に
おける声道の梨状窩形状の個人差による音声スペクトル
高周波数帯域の変動の影響を除去して、話者特徴として
の写像関数を少量の音声データから精度良く推定するこ
とができる。
【図面の簡単な説明】
【図1】 この発明の話者特徴推定装置におけるブロッ
ク図である。
【図2】 図1に示す話者特徴推定装置によって実行さ
れる話者特徴推定処理動作のフローチャートである。
【図3】 図2に示す話者特徴推定処理動作において実
行される音響特徴量写像処理動作のフローチャートであ
る。
【図4】 写像関数の一例を示す図である。
【図5】 図2に示す話者特徴推定処理動作において実
行される音響特徴量変換処理動作のフローチャートであ
る。
【図6】 音響特徴量変換処理が行われる前における入
力話者音響特徴量の一例を示す図である。
【図7】 音響特徴量変換処理が行われた後における入
力話者音響特徴量の一例を示す図である。
【図8】 図5に示す音響特徴量変換処理動作とは異な
る音響特徴量変換処理動作のフローチャートである。
【図9】 図8に示す音響特徴量変換処理動作において
作成される変換フィルタの一例を示す特性図である。
【図10】 図2に示す話者特徴推定処理動作において
実行される尤度算出処理動作を示すフローチャートであ
る。
【図11】 図1とは異なる話者特徴推定装置のブロッ
ク図である。
【図12】 この発明の話者正規化方式による音声認識
装置のブロック図である。
【図13】 図12に示す音声認識装置による音声認識
処理動作のフローチャートである。
【図14】 この発明の話者適応方式による音声認識装
置のブロック図である。
【図15】 図14に示す音声認識装置による音声認識
処理動作のフローチャートである。
【図16】 この発明のクラスタモデル作成装置のブロ
ック図である。
【図17】 図16に示すクラスタモデル作成装置によ
るクラスタモデル作成処理動作のフローチャートであ
る。
【図18】 図16とは異なるクラスタモデル作成装置
におけるブロック図である。
【図19】 図18に示すクラスタモデル作成装置によ
るクラスタモデル作成処理動作のフローチャートであ
る。
【図20】 この発明のクラスタモデルを用いた音声認
識装置のブロック図である。
【図21】 図20に示す音声認識装置による音声認識
処理動作のフローチャートである。
【図22】 この発明の音声合成装置のブロック図であ
る。
【図23】 図22に示す音声合成装置による音声合成
処理動作のフローチャートである。
【図24】 この発明の声質変換装置のブロック図であ
る。
【図25】 図24に示す声質変換装置による声質変換
処理動作のフローチャートである。
【符号の説明】
1,11,21,31,41,51,61,71,81…特徴量
写像部、 2,12,22,32,42,52,62,72,82…標準話
者モデル格納部、 3,13,23,33,43,53,63,73,83…関数推
定部、 4,14,24,34,44,54,64,74,84…特徴量
変換部、 25,35,45,55,65,75,85…音響分析部、 26,38,68…認識部、 36…モデル適応部、 37…適応モデル格納部、 46,56…クラスタリング部、 47,57…モデル作成部、 58…特徴量抽出部、 66…クラスタモデル格納部、 67…モデル選択部、 76…標準話者素片格納部、 77…素片選択部、 78…素片接続部、 86…合成部。

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 入力話者の音響特徴量を標準話者に類似
    した音響特徴量に写像する写像関数を推定し、推定した
    写像関数の情報を話者特徴とする話者特徴推定装置にお
    いて、 標準話者の音響特徴量に関する情報を格納する標準話者
    音響情報格納手段と、 入力話者の音響特徴量を写像する特徴量写像手段と、 上記入力話者の音響特徴量における声道の梨状窩形状の
    個人差によって変動が生ずる領域を、上記標準話者音響
    情報格納手段に格納された標準話者の音響特徴量に関す
    る情報を用いて変換する特徴量変換手段と、 上記写像および変換が行われた入力話者の音響特徴量
    と、上記標準話者の音響特徴量に関する情報とに基づい
    て、写像関数を推定する関数推定手段を備えたことを特
    徴とする話者特徴推定装置。
  2. 【請求項2】 請求項1に記載の話者特徴推定装置にお
    いて、 上記特徴量変換手段は、上記入力話者の音響特徴量にお
    ける変換領域の下限位置を、入力話者の音声スペクトル
    の傾きと上記標準話者の音声スペクトルの傾きとの差が
    最も小さくなる同一周波数位置に設定するようになって
    いることを特徴とする話者特徴推定装置。
  3. 【請求項3】 請求項1に記載の話者特徴推定装置にお
    いて、 上記特徴量変換手段は、上記入力話者の音響特徴量の変
    換を、上記入力話者の音声スペクトルにおける上記変換
    領域に該当する周波数帯域と上記標準話者の音声スペク
    トルにおける該当する周波数帯域とにおけるスペクトル
    値の差異から求められた周波数特性変換フィルタを用い
    て行うようになっていることを特徴とする話者特徴推定
    装置。
  4. 【請求項4】 請求項2あるいは請求項3に記載の話者
    特徴推定装置において、 上記特徴量変換手段が音声スペクトルを変換する周波数
    帯域の下限は3kHzから3.5kHzまでの間に在る一
    方、上限はサンプリング周波数の1/2であることを特
    徴とする話者特徴推定装置。
  5. 【請求項5】 請求項1乃至請求項4の何れか一つに記
    載の話者特徴推定装置において、 上記特徴量写像手段は、狭母音を除く母音に対してのみ
    写像処理を行うようになっていることを特徴とする話者
    特徴推定装置。
  6. 【請求項6】 請求項1乃至請求項5の何れか一つに記
    載の話者特徴推定装置において、 特徴量写像手段は、予め用意された複数の写像関数を用
    いて上記写像を行うようになっており、 上記関数推定手段は、上記標準話者の音響特徴量に関す
    る情報に対する上記写像及び変換が行われた入力話者の
    音響特徴量の尤度を最大にするという基準で、上記複数
    の写像関数から写像関数を最尤推定するようになってい
    ることを特徴とする話者特徴推定装置。
  7. 【請求項7】 入力話者の音響特徴量を標準話者の音響
    特徴量に正規化する音声認識装置において、 入力音声信号を分析して音響特徴量を抽出する音響分析
    手段と、 上記音響分析手段からの入力話者の音響特徴量に基づい
    て入力話者の特徴を推定する請求項1乃至請求項6の何
    れか一つに記載の話者特徴推定装置と、 上記音響分析手段からの入力話者の音響特徴量を、上記
    推定された入力話者の特徴としての写像関数を用いて写
    像する特徴量写像手段と、 上記写像が行われた入力話者の音響特徴量と標準話者モ
    デルとに基づいて上記入力音声信号を認識する認識手段
    を備えたことを特徴とする音声認識装置。
  8. 【請求項8】 標準話者モデルを入力話者に適応させる
    音声認識装置において、 入力音声信号を分析して音響特徴量を抽出する音響分析
    手段と、 上記音響分析手段からの入力話者の音響特徴量に基づい
    て入力話者の特徴を推定する請求項1乃至請求項6の何
    れか一つに記載の話者特徴推定装置と、 上記推定された入力話者の特徴としての写像関数の逆関
    数を用いて、上記標準話者モデルを入力話者に適応させ
    て適応モデルを生成するモデル適応手段と、 上記生成された上記適応モデルを格納する適応モデル格
    納手段と、 上記入力話者の音響特徴量と上記適応モデルとに基づい
    て、上記入力音声信号を認識する認識手段を備えたこと
    を特徴とする音声認識装置。
  9. 【請求項9】 話者の音声信号に基づいて複数の話者を
    話者クラスタに分割し、各話者クラスタ用の音響モデル
    であるクラスタモデルを作成するクラスタモデル作成装
    置において、 入力音声信号を分析して音響特徴量を抽出する音響分析
    手段と、 上記音響分析手段からの入力話者の音響特徴量に基づい
    て入力話者の特徴を推定する請求項1乃至請求項6の何
    れか一つに記載の話者特徴推定装置と、 上記推定された各入力話者の特徴を話者間距離として、
    複数の話者をクラスタリングするクラスタリング手段
    と、 上記クラスタリング手段によって得られた各話者クラス
    タに属する入力話者の音響特徴量に基づいて、上記クラ
    スタモデルを作成するモデル作成手段を備えたことを特
    徴とするクラスタモデル作成装置。
  10. 【請求項10】 話者の音声信号に基づいて複数の話者
    を話者クラスタに分割し、各話者クラスタ用の音響モデ
    ルであるクラスタモデルを作成するクラスタモデル作成
    装置において、 入力音声信号を分析して音響特徴量を抽出する音響分析
    手段と、 上記音響分析手段からの入力話者の音響特徴量に基づい
    て、各入力話者の音響モデルである話者モデルを作成す
    る話者モデル作成手段と、 上記話者モデルから音響特徴量を抽出する特徴量抽出手
    段と、 上記抽出された音響特徴量に基づいて入力話者の特徴を
    推定する請求項1乃至請求項6の何れか一つに記載の話
    者特徴推定装置と、 上記推定された各入力話者の特徴を話者間距離として、
    複数の話者をクラスタリングするクラスタリング手段
    と、 上記クラスタリング手段によって得られた各話者クラス
    タに属する入力話者の音響特徴量に基づいて、上記クラ
    スタモデルを作成するモデル作成手段を備えたことを特
    徴とするクラスタモデル作成装置。
  11. 【請求項11】 入力話者が属する話者クラスタ用の音
    響モデルであるクラスタモデルを用いて音声を認識する
    音声認識装置において、 入力音声信号を分析して音響特徴量を抽出する音響分析
    手段と、 上記音響分析手段からの入力話者の音響特徴量に基づい
    て入力話者の特徴を推定する請求項1乃至請求項6の何
    れか一つに記載の話者特徴推定装置と、 請求項9あるいは請求項10に記載のクラスタモデル作
    成装置によって作成されたクラスタモデルを格納するク
    ラスタモデル格納手段と、 上記推定された入力話者の特徴に基づいて、上記クラス
    タモデル格納手段から該当するクラスタモデルを選択す
    るモデル選択手段と、 上記入力話者の音響特徴量と上記選択されたクラスタモ
    デルとに基づいて、上記入力音声信号を認識する認識手
    段を備えたことを特徴とする音声認識装置。
  12. 【請求項12】 音韻記号列に基づいて標準話者の音声
    素片を接続して合成音声を出力する音声合成装置におい
    て、 入力音声信号を分析して音響特徴量を抽出する音響分析
    手段と、 上記音響分析手段からの入力話者の音響特徴量に基づい
    て入力話者の特徴を推定する請求項1乃至請求項6の何
    れか一つに記載の話者特徴推定装置と、 標準話者の音声素片を格納する標準話者素片格納手段
    と、 上記音韻記号列に基づいて、上記標準話者素片格納手段
    から該当する音声素片を選択する素片選択手段と、 上記選択された音声素片の音響特徴量を、上記推定され
    た入力話者の特徴としての写像関数の逆関数を用いて写
    像する特徴量写像手段と、 上記写像が行われた音声素片同士を接続する素片接続手
    段を備えたことを特徴とする音声合成装置。
  13. 【請求項13】 入力話者の声質を他の話者の声質に変
    換する声質変換装置において、 入力音声信号を分析して、音響特徴量を抽出すると共
    に、音響分析結果を出力する音響分析手段と、 上記音響分析手段からの入力話者の音響特徴量に基づい
    て入力話者の特徴を推定する請求項1乃至請求項6の何
    れか一つに記載の話者特徴推定装置と、 上記入力話者の音響特徴量を、上記推定された入力話者
    の特徴としての写像関数を用いて写像する特徴量写像手
    段と、 上記写像が行われた入力話者の音響特徴量と上記音響分
    析手段からの音響分析結果とに基づいて音声を合成する
    合成手段を備えたことを特徴とする声質変換装置。
  14. 【請求項14】 入力話者の音響特徴量を標準話者に類
    似した音響特徴量に写像する写像関数を推定し、推定し
    た写像関数の情報を話者特徴とする話者特徴推定方法に
    おいて、 入力話者の音響特徴量を複数の写像関数を用いて写像
    し、 上記写像が行われた入力話者の音響特徴量における声道
    の梨状窩形状の個人差によって変動が生ずる領域を、標
    準話者の音響特徴量に関する情報を用いて変換し、 上記変換が行われた入力話者の音響特徴量と上記標準話
    者の音響特徴量に関する情報とに基づいて、上記複数の
    写像関数から写像関数を最尤推定することを特徴とする
    話者特徴推定方法。
  15. 【請求項15】 コンピュータを、 請求項1における上記特徴量写像手段,特徴量変換手段,
    標準話者モデル格納手段および関数推定手段として機能
    させる話者特徴推定処理プログラムが記録されたことを
    特徴とするコンピュータ読出し可能なプログラム記録媒
    体。
JP2000382383A 2000-12-15 2000-12-15 話者特徴推定装置および話者特徴推定方法、クラスタモデル作成装置、音声認識装置、音声合成装置、並びに、プログラム記録媒体 Expired - Fee Related JP3754613B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000382383A JP3754613B2 (ja) 2000-12-15 2000-12-15 話者特徴推定装置および話者特徴推定方法、クラスタモデル作成装置、音声認識装置、音声合成装置、並びに、プログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000382383A JP3754613B2 (ja) 2000-12-15 2000-12-15 話者特徴推定装置および話者特徴推定方法、クラスタモデル作成装置、音声認識装置、音声合成装置、並びに、プログラム記録媒体

Publications (2)

Publication Number Publication Date
JP2002182683A true JP2002182683A (ja) 2002-06-26
JP3754613B2 JP3754613B2 (ja) 2006-03-15

Family

ID=18850217

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000382383A Expired - Fee Related JP3754613B2 (ja) 2000-12-15 2000-12-15 話者特徴推定装置および話者特徴推定方法、クラスタモデル作成装置、音声認識装置、音声合成装置、並びに、プログラム記録媒体

Country Status (1)

Country Link
JP (1) JP3754613B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006195449A (ja) * 2004-12-15 2006-07-27 Yamaha Corp 声質判定装置、声質判定方法、および声質判定プログラム
WO2007063827A1 (ja) * 2005-12-02 2007-06-07 Asahi Kasei Kabushiki Kaisha 声質変換システム
JP2008139747A (ja) * 2006-12-05 2008-06-19 Nippon Telegr & Teleph Corp <Ntt> 音響モデルパラメータ更新処理方法、音響モデルパラメータ更新処理装置、プログラム、記録媒体
JP2011048008A (ja) * 2009-08-25 2011-03-10 Kddi Corp 音声認識装置およびその特徴量正規化方法
JP2013117683A (ja) * 2011-12-05 2013-06-13 Nippon Hoso Kyokai <Nhk> 音声認識装置、誤り傾向学習方法、及びプログラム
KR101482148B1 (ko) * 2011-12-23 2015-01-14 주식회사 케이티 개인화된 발음열을 이용한 그룹 매핑 데이터 생성 서버, 음성 인식 서버 및 방법
KR20190057479A (ko) * 2017-11-20 2019-05-29 주식회사 이명수디자인랩 음성파일 생성방법 및 장치

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006195449A (ja) * 2004-12-15 2006-07-27 Yamaha Corp 声質判定装置、声質判定方法、および声質判定プログラム
WO2007063827A1 (ja) * 2005-12-02 2007-06-07 Asahi Kasei Kabushiki Kaisha 声質変換システム
US8099282B2 (en) 2005-12-02 2012-01-17 Asahi Kasei Kabushiki Kaisha Voice conversion system
JP4928465B2 (ja) * 2005-12-02 2012-05-09 旭化成株式会社 声質変換システム
JP2008139747A (ja) * 2006-12-05 2008-06-19 Nippon Telegr & Teleph Corp <Ntt> 音響モデルパラメータ更新処理方法、音響モデルパラメータ更新処理装置、プログラム、記録媒体
JP2011048008A (ja) * 2009-08-25 2011-03-10 Kddi Corp 音声認識装置およびその特徴量正規化方法
JP2013117683A (ja) * 2011-12-05 2013-06-13 Nippon Hoso Kyokai <Nhk> 音声認識装置、誤り傾向学習方法、及びプログラム
KR101482148B1 (ko) * 2011-12-23 2015-01-14 주식회사 케이티 개인화된 발음열을 이용한 그룹 매핑 데이터 생성 서버, 음성 인식 서버 및 방법
KR20190057479A (ko) * 2017-11-20 2019-05-29 주식회사 이명수디자인랩 음성파일 생성방법 및 장치
KR102018110B1 (ko) * 2017-11-20 2019-09-04 주식회사 이명수디자인랩 음성파일 생성방법 및 장치

Also Published As

Publication number Publication date
JP3754613B2 (ja) 2006-03-15

Similar Documents

Publication Publication Date Title
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP4176169B2 (ja) 言語合成のためのランタイムアコースティックユニット選択方法及び装置
KR100612840B1 (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
JP5768093B2 (ja) 音声処理システム
JP5326892B2 (ja) 情報処理装置、プログラム、および音響モデルを生成する方法
JP5038995B2 (ja) 声質変換装置及び方法、音声合成装置及び方法
JP5457706B2 (ja) 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
WO2002101719A1 (en) Voice recognition apparatus and voice recognition method
JP3847879B2 (ja) 標準モデル決定方法
JP3919475B2 (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
JP3754613B2 (ja) 話者特徴推定装置および話者特徴推定方法、クラスタモデル作成装置、音声認識装置、音声合成装置、並びに、プログラム記録媒体
JP3646060B2 (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体
JP5574344B2 (ja) 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
Thalengala et al. Study of sub-word acoustical models for Kannada isolated word recognition system
KR101890303B1 (ko) 가창 음성 생성 방법 및 그에 따른 장치
WO2008056604A1 (fr) Système de collecte de son, procédé de collecte de son et programme de traitement de collecte
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
JP3754614B2 (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体
JP4798606B2 (ja) 音声認識装置、およびプログラム
Shahnawazuddin et al. A fast adaptation approach for enhanced automatic recognition of children’s speech with mismatched acoustic models
JP4962930B2 (ja) 発音評定装置、およびプログラム
JP2003255980A (ja) 音響モデル作成方法、音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体
JP2002189491A (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051216

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091222

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091222

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101222

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees