JP2986792B2

JP2986792B2 - 話者正規化処理装置及び音声認識装置

Info

Publication number: JP2986792B2
Application number: JP11011720A
Authority: JP
Inventors: 正樹内藤; リ・デン; 芳典匂坂
Original assignee: Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Current assignee: Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority date: 1998-03-16
Filing date: 1999-01-20
Publication date: 1999-12-06
Anticipated expiration: 2019-01-20
Also published as: US6236963B1; JPH11327592A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、複数の学習話者の
音声波形データを標準話者への周波数ワーピング関数を
用いて話者正規化した後、話者正規化された音声波形デ
ータに基づいて初期隠れマルコフモデル（以下、隠れマ
ルコフモデルをＨＭＭという。）を学習することにより
話者正規化された最適なＨＭＭを生成する話者正規化処
理装置と、上記生成されたＨＭＭを用いて音声認識を行
う音声認識装置とに関する。

【０００２】

【従来の技術】従来から、話者正規化の手法として声道
長に着目した周波数ワーピングによる話者正規化手法
（以下、従来例という。）が提案されその有効性が報告
されている（例えば、従来技術文献１「P.Zhan et al.,
“Speaker Normalization Basedon Frequency Warpin
g",Proceeding of ICASSP,pp.1039-1042,1997年」参
照。）。この従来例における尤度に基づく話者正規化手
法は、予め複数の周波数ワーピング関数を用意し、これ
らの関数を用い周波数ワーピングの後に音響分析を行な
い、その結果得られる音響パラメータが初期音響モデル
から出力される尤度を求め、最も尤度の高いワーピング
関数を選択する方法である。以下に、尤度に基づく最適
な周波数ワーピング関数の選択方法と話者正規化学習の
手順について説明する。

【０００３】まず、周波数ワーピング関数の選択方法に
ついて以下に説明する。ここでは、複数Ｎ個の周波数ワ
ーピング関数Ｆ∈ｆ₁，ｆ₂，…，ｆ_Nから以下の手順に
従い、図１７に示すように、各話者に最適な周波数ワー
ピング関数を選択する。（Ａ１）特徴抽出器３１−１乃至３１−Ｎは、ある話者
ｍの音声波形データに対して予め用意した周波数ワーピ
ング関数Ｆ∈ｆ₁，ｆ₂，…，ｆ_Nを用いて周波数ワーピ
ング処理を行った後、音響分析を行う。（Ａ２）尤度計算機３２は、上記（Ａ１）により得られ
た音響分析結果のそれぞれについて、所定の音素ＨＭＭ
３３を参照して、正解音素系列を用いたビタビ（Viterb
i）探索により尤度を求める。（Ａ３）最大尤度選択器３４は、上記（Ａ２）の結果に
基づいて、周波数ワーピング関数ｆ₁，ｆ₂，…，ｆ_N中
で、最大尤度を与える周波数ワーピング関数ｆ_maxを選
択して特徴抽出器３５に設定する。（Ａ４）特徴抽出器３５は、入力される話者ｍの音声波
形データに対して周波数ワーピング関数ｆ_maxを用いて
周波数ワーピング処理を行った後、音響分析することに
より、正規化された特徴パラメータを出力する。この特
徴パラメータは例えば音声認識のために用いられる。

【０００４】次いで、話者正規化学習の手順について説
明する。ここで、学習の際には、周波数ワーピング関数
選択用音声データ，学習用音声データの２つの異なる音
声データセットを用いるものとする。（Ｂ１）全ての学習話者の学習用音声波形データの音響
分析を行い音響的特徴パラメータを得る。この音響的特
徴パラメータとしては公知のメル周波数ケプストラム係
数等が用いられる。（Ｂ２）学習された音響モデルΛ_iに基づいて、各学習
話者の周波数ワーピング関数選択用音声データに対して
最大尤度を与える周波数ワーピング関数ｆ_maxを選択す
る。（Ｂ３）話者毎に選択された周波数ワーピング関数を用
いて周波数ワーピングを行った後、学習用音声データの
音響分析を行って音響的特徴パラメータを求める。（Ｂ４）上記（Ｂ３）の結果得られた音響分析結果に基
づいて音響モデルΛ_iの学習を行なう。（Ｂ５）そして、指定した回数だけ上記（Ｂ２）−（Ｂ
４）の処理を繰り返す。

【０００５】図１８は、従来例の周波数ワーピング関数
の一例を示すグラフである。図１８における関数は、周
波数ワーピング前後の周波数の対応関係を周波数ワーピ
ング係数αによって定まる直線の周波数ワーピング関数
で表すもので、係数φを定めることにより、入力音声の
周波数ｆがφ以下のときは周波数ワーピング関数を次式
で与え、

【数１】ｆ’＝α・ｆ，０＜ｆ≦φのとき入力音声の周波数ｆがφから１の区間においては、図１
８の座標（φ，ｆ・φ）と座標（１．０，１．０）の２
点間を結ぶ次式の直線で与えるものである。

【数２】ｆ’＝｛（α・φ−１）・ｆ−（α−１）・
φ｝／（φ−１），φ＜ｆ≦１．０のとき

【０００６】話者正規化を行う際にはこの周波数ワーピ
ング係数αの異なる周波数ワーピング関数を複数用意し
それらの内で尤度を最大とする周波数ワーピング関数を
選択する。ここで、周波数ワーピングとは、例えば図１
８の周波数ワーピング関数を用いて、ある対象話者の音
声波形データの各周波数を、標準話者の対応する各周波
数にシフトさせる処理をいう。

【０００７】

【発明が解決しようとする課題】しかしながら、従来例
の方法では、予め周波数ワーピング関数の形状を指定す
る必要がある。また、周波数ワーピング係数αが離散的
な値となるため詳細な周波数ワーピング関数を推定する
ことができないという問題点があった。さらに、従来例
の話者正規化方法により話者正規化されて学習されたＨ
ＭＭを用いて音声認識した場合、正規化による音声認識
率の改善が大きくないという問題点があった。

【０００８】本発明の第１の目的は以上の問題点を解決
し、対象話者から標準話者への周波数ワーピング関数を
従来例に比較して高精度で推定して、推定された周波数
ワーピング関数を用いて話者正規化して学習することに
より認識性能の高い音響モデルを生成することができる
話者正規化処理装置を提供することにある。

【０００９】また、本発明の第２の目的は、上記話者正
規化処理装置によって生成されたＨＭＭを用いて、従来
例に比較してより高い音声認識率で音声認識することが
できる音声認識装置を提供することにある。

【００１０】

【課題を解決するための手段】本発明に係る請求項１記
載の話者正規化処理装置は、複数の正規化対象話者の音
声波形データとそれに対応するテキストデータを記憶す
る第１の記憶装置と、標準話者の声道面積関数に基づい
て決められた標準話者のフォルマント周波数を記憶する
第２の記憶装置と、上記第１の記憶装置に記憶された各
正規化対象話者の音声波形データに基づいて、各正規化
対象話者の声道の解剖学的形状である声道形状の特徴量
を、上記標準話者の声道モデルに基づいて予め決められ
た声道形状パラメータとフォルマント周波数との間の対
応関係を参照して推定する推定手段と、上記推定手段に
よって推定された各正規化対象話者の声道形状の特徴量
と、上記標準話者の声道形状の特徴量とに基づいて、上
記標準話者の声道形状の特徴量を変化させることによ
り、各正規化対象話者の声道面積関数を推定し、推定さ
れた各正規化対象話者の声道面積関数に基づいて各正規
化対象話者が発声する音声のフォルマント周波数を推定
し、周波数ワーピング後の各正規化対象話者の音声のフ
ォルマント周波数が上記第２の記憶装置に記憶された標
準話者の対応するフォルマント周波数と一致するように
入力音声周波数を変換して周波数ワーピングするため
の、入力音声周波数と周波数ワーピング後の周波数の対
応関係を示す周波数ワーピング関数を生成する関数生成
手段とを備えたことを特徴とする。

【００１１】また、本発明に係る請求項２記載の話者正
規化処理装置は、複数の学習話者の音声波形データとそ
れに対応するテキストデータを記憶する第１の記憶装置
と、標準話者の声道面積関数に基づいて決められた標準
話者のフォルマント周波数を記憶する第２の記憶装置
と、上記第１の記憶装置に記憶された各学習話者の音声
波形データに基づいて、各学習話者の声道の解剖学的形
状である声道形状の特徴量を、上記標準話者の声道モデ
ルに基づいて予め決められた声道形状パラメータとフォ
ルマント周波数との間の対応関係を参照して推定する第
１の推定手段と、上記第１の推定手段によって推定され
た各学習話者の声道形状の特徴量と、上記標準話者の声
道形状の特徴量とに基づいて、上記標準話者の声道形状
の特徴量を変化させることにより、各学習話者の声道面
積関数を推定し、推定された各学習話者の声道面積関数
に基づいて各学習話者が発声する音声のフォルマント周
波数を推定し、周波数ワーピング後の各学習話者の音声
のフォルマント周波数が上記第２の記憶装置に記憶され
た標準話者の対応するフォルマント周波数と一致するよ
うに入力音声周波数を変換して周波数ワーピングするた
めの、入力音声周波数と周波数ワーピング後の周波数の
対応関係を示す周波数ワーピング関数を生成する第１の
関数生成手段と、上記第１の記憶装置に記憶された各学
習話者の音声波形データに対して、上記第１の関数生成
手段によって生成された各学習話者の周波数ワーピング
関数を用いて周波数ワーピング処理を実行して話者正規
化した後、話者正規化後の音声波形データから各学習話
者の所定の音響的特徴パラメータを抽出する第１の抽出
手段と、上記第１の抽出手段によって抽出された各学習
話者の音響的特徴パラメータと、上記第１の記憶装置に
記憶されたテキストデータとに基づいて、所定の学習ア
ルゴリズムを用いて、所定の初期の隠れマルコフモデル
を学習することにより、正規化された隠れマルコフモデ
ルを生成する学習手段とを備えたことを特徴とする。

【００１２】また、請求項３記載の話者正規化処理装置
は、請求項２記載の話者正規化処理装置において、上記
声道形状の特徴量は、話者の声道の口腔側の第１の長さ
と、その咽頭腔側の第２の長さとであることを特徴とす
る。さらに、請求項４記載の話者正規化処理装置は、請
求項２又は３記載の話者正規化処理装置において、上記
音響的特徴パラメータは、メル周波数ケプストラム係数
であることを特徴とする。

【００１３】本発明に係る請求項５記載の音声認識装置
は、請求項２乃至４のうち１つに記載の話者正規化処理
装置を備え、上記話者正規化処理装置によって生成され
た隠れマルコフモデルを用いて、入力された認識話者の
発声音声を音声認識する音声認識装置であって、入力さ
れる認識話者の学習用音声波形データに基づいて、認識
話者の声道の解剖学的形状である声道形状の特徴量を、
上記標準話者の声道モデルに基づいて予め決められた声
道形状パラメータとフォルマント周波数との間の対応関
係を参照して推定する第２の推定手段と、上記第２の推
定手段によって推定された認識話者の声道形状の特徴量
と、上記標準話者の声道形状の特徴量とに基づいて、上
記標準話者の声道形状の特徴量を変化させることによ
り、各認識話者の声道面積関数を推定し、推定された各
認識話者の声道面積関数に基づいて各認識話者が発声す
る音声のフォルマント周波数を推定し、周波数ワーピン
グ後の各認識話者の音声のフォルマント周波数が上記第
２の記憶装置に記憶された標準話者の対応するフォルマ
ント周波数と一致するように入力音声周波数を変換して
周波数ワーピングするための、入力音声周波数と周波数
ワーピング後の周波数の対応関係を示す認識話者の周波
数ワーピング関数を生成する第２の関数生成手段と、上
記第２の関数生成手段によって生成された認識話者の周
波数ワーピング関数を記憶する第３の記憶装置と、認識
すべき認識話者の発声音声の音声波形データに対して、
上記第３の記憶装置に記憶された認識話者の周波数ワー
ピング関数を用いて周波数ワーピング処理を実行して話
者正規化した後、話者正規化後の音声波形データから認
識話者の所定の音響的特徴パラメータを抽出する第２の
抽出手段と、上記第２の抽出手段によって抽出された音
響的特徴パラメータに基づいて、上記話者正規化処理装
置によって生成された隠れマルコフモデルを用いて、上
記入力された認識話者の発声音声を音声認識して音声認
識結果を出力する音声認識手段とを備えたことを特徴と
する。

【００１４】また、本発明に係る請求項６記載の話者正
規化処理装置は、複数の正規化対象話者の音声波形デー
タとそれに対応するテキストデータを記憶する第１の記
憶装置と、標準話者の声道面積関数に基づいて決められ
た標準話者のフォルマント周波数を記憶する第２の記憶
装置と、上記第１の記憶装置に記憶された各正規化対象
話者の音声波形データに基づいて、各正規化対象話者の
声道の解剖学的形状である声道形状の特徴量を、上記標
準話者の声道モデルに基づいて予め決められた声道形状
パラメータとフォルマント周波数との間の対応関係を参
照して、音響的特徴の類似した所定の類似音素環境毎に
推定する推定手段と、上記推定手段によって推定された
各正規化対象話者の類似音素環境毎の声道形状の特徴量
と、上記標準話者の声道形状の特徴量とに基づいて、上
記標準話者の声道形状の特徴量を変化させることによ
り、各正規化対象話者の声道面積関数を類似音素環境毎
に推定し、推定された各正規化対象話者の類似音素環境
毎の声道面積関数に基づいて各正規化対象話者が発声す
る音声のフォルマント周波数を類似音素環境毎に推定
し、周波数ワーピング後の各正規化対象話者の音声のフ
ォルマント周波数が上記第２の記憶装置に記憶された標
準話者の対応するフォルマント周波数と一致するように
入力音声周波数を変換して周波数ワーピングするため
の、入力音声周波数と周波数ワーピング後の周波数の対
応関係を示す周波数ワーピング関数を類似音素環境毎に
生成する関数生成手段とを備えたことを特徴とする。

【００１５】さらに、本発明に係る請求項７記載の話者
正規化処理装置は、複数の学習話者の音声波形データと
それに対応するテキストデータを記憶する第１の記憶装
置と、標準話者の声道面積関数に基づいて決められた標
準話者の音響的特徴の類似した所定の類似音素環境毎の
フォルマント周波数を記憶する第２の記憶装置と、上記
第１の記憶装置に記憶された各学習話者の音声波形デー
タに基づいて、各学習話者の声道の解剖学的形状である
声道形状の特徴量を、上記標準話者の声道モデルに基づ
いて予め決められた声道形状パラメータとフォルマント
周波数との間の対応関係を参照して類似音素環境毎に推
定する第１の推定手段と、上記第１の推定手段によって
推定された各学習話者の類似音素環境毎の声道形状の特
徴量と、上記標準話者の声道形状の特徴量とに基づい
て、上記標準話者の声道形状の特徴量を変化させること
により、各学習話者の声道面積関数を類似音素環境毎に
推定し、推定された各学習話者の類似音素環境毎の声道
面積関数に基づいて各学習話者が発声する音声のフォル
マント周波数を類似音素環境毎に推定し、周波数ワーピ
ング後の各学習話者の音声のフォルマント周波数が上記
第２の記憶装置に記憶された標準話者の対応するフォル
マント周波数と一致するように入力音声周波数を変換し
て周波数ワーピングするための、入力音声周波数と周波
数ワーピング後の周波数の対応関係を示す周波数ワーピ
ング関数を類似音素環境毎に生成する第１の関数生成手
段と、上記第１の記憶装置に記憶された各学習話者の音
声波形データに対して、上記第１の関数生成手段によっ
て生成された各学習話者の類似音素環境毎の周波数ワー
ピング関数を用いて周波数ワーピング処理を実行して話
者正規化した後、話者正規化後の音声波形データから各
学習話者の所定の音響的特徴パラメータを類似音素環境
毎に抽出する第１の抽出手段と、上記第１の抽出手段に
よって抽出された各学習話者の類似音素環境毎の音響的
特徴パラメータと、上記第１の記憶装置に記憶されたテ
キストデータとに基づいて、所定の学習アルゴリズムを
用いて、所定の初期の隠れマルコフモデルを学習するこ
とにより、正規化された隠れマルコフモデルを生成する
学習手段とを備えたことを特徴とする。

【００１６】また、請求項８記載の話者正規化処理装置
は、請求項７記載の話者正規化処理装置において、上記
声道形状の特徴量は、話者の声道の口腔側から、その咽
頭腔までの声道断面のパラメータであることを特徴とす
る。

【００１７】さらに、請求項９記載の話者正規化処理装
置は、請求項７又は８記載の話者正規化処理装置におい
て、上記類似音素環境は、母音と、音素と、隠れマルコ
フモデルの状態とのうち少なくとも１つを含むことを特
徴とする。

【００１８】またさらに、本発明に係る請求項１０記載
の音声認識装置は、請求項７乃至９のうち１つに記載の
話者正規化処理装置を備え、上記話者正規化処理装置に
よって生成された隠れマルコフモデルを用いて、入力さ
れた認識話者の発声音声を音声認識する音声認識装置で
あって、入力される認識話者の学習用音声波形データに
基づいて、認識話者の声道の解剖学的形状である声道形
状の特徴量を、上記標準話者の声道モデルに基づいて予
め決められた声道形状パラメータとフォルマント周波数
との間の対応関係を参照して類似音素環境毎に推定する
第２の推定手段と、上記第２の推定手段によって推定さ
れた認識話者の類似音素環境毎の声道形状の特徴量と、
上記標準話者の声道形状の特徴量とに基づいて、上記標
準話者の声道形状の特徴量を変化させることにより、各
認識話者の声道面積関数を類似音素環境毎に推定し、推
定された各認識話者の類似音素環境毎の声道面積関数に
基づいて各認識話者が発声する音声のフォルマント周波
数を類似音素環境毎に推定し、周波数ワーピング後の各
認識話者の音声のフォルマント周波数が上記第２の記憶
装置に記憶された標準話者の対応するフォルマント周波
数と一致するように入力音声周波数を変換して周波数ワ
ーピングするための、入力音声周波数と周波数ワーピン
グ後の周波数の対応関係を示す認識話者の周波数ワーピ
ング関数を類似音素環境毎に生成するとともに、類似音
素環境と周波数ワーピング関数との間の対応関係の情報
を生成する第２の関数生成手段と、上記第２の関数生成
手段によって生成された認識話者の類似音素環境毎の周
波数ワーピング関数を記憶する第３の記憶装置と、上記
第２の関数生成手段によって生成された認識話者の類似
音素環境と周波数ワーピング関数との間の対応関係の情
報を記憶する第４の記憶装置と、認識すべき認識話者の
発声音声の音声波形データに対して、上記第３の記憶装
置に記憶された認識話者の類似音素環境毎の周波数ワー
ピング関数を用いて周波数ワーピング処理を実行して話
者正規化した後、話者正規化後の音声波形データから認
識話者の所定の音響的特徴パラメータを類似音素環境毎
に抽出する第２の抽出手段と、上記第２の抽出手段によ
って抽出された類似音素環境毎の音響的特徴パラメータ
に基づいて、第４の記憶装置に記憶された認識話者の類
似音素環境と周波数ワーピング関数との間の対応関係の
情報を参照して、上記話者正規化処理装置によって生成
された隠れマルコフモデルを用いて、上記入力された認
識話者の発声音声を音声認識して音声認識結果を出力す
る音声認識手段とを備えたことを特徴とする。

【００１９】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。

【００２０】＜第１の実施形態＞図１は、本発明に係る
第１の実施形態である音声認識装置の構成を示すブロッ
ク図である。本実施形態の音声認識装置は、声道形状推
定部１０と、周波数ワーピング関数生成部１１と、話者
正規化処理部１２と、周波数ワーピング処理を含む特徴
抽出部３とを備えたことを特徴とする。

【００２１】まず、話者正規化及び音声認識に用いる人
間の声道の解剖学的な形状（以下、声道形状という。）
の特徴量とその推定法について述べる。話者正規化に関
する研究においては、主に話者の声道長ＶＴＬ（Vocal
Tract Length）に着目して正規化が行なわれる。しかし
ながら、声道長ＶＴＬのみで特徴づけられる話者の音声
の音響的な特徴には限界がある（例えば、従来技術文献
２「G.Fant,“Non-uniform vowel normalization",Spee
ch Transmission Laboratory Quarterly Progress and
Status Report,Vol.2-3,1975,pp.1-19」参照。）。そこ
で、本実施形態では、話者クラスタリングに用いる声道
形状の特徴量として声道を、図７に示すように、前方
（口腔側）と後方（咽頭腔側）の２つの区間に分割し、
そのそれぞれの長さｌ₁，ｌ₂（以下、声道形状パラメー
タという。）の２つのパラメータを用いる。この声道形
状パラメータを選択した理由は、以下の通りである。

【００２２】（１）声道の前方、後方の長さにより話者
の発声する音声は大きな影響を受ける（例えば、従来技
術文献２参照。）。（２）この声道形状パラメータの比較的簡単な推定法が
提案されている。（３）話者正規化の研究で一般に用いられる声道長から
の簡単な拡張である。なお、口腔側と咽頭腔側の２つの区間に分割する点は、
好ましくは、口腔と咽頭との間の中間点付近に定められ
る。

【００２３】本実施形態では、声道形状パラメータ
ｌ₁，ｌ₂の推定には、話者の２母音／ａ／，／ｉ／の各
フォルマント周波数Ｆ₁，Ｆ₂，Ｆ₃を用いて、以下に述
べるフォルマント周波数空間から声道形状パラメータ空
間へのマッピング手法により推定を行なう。声道形状パ
ラメータｌ₁，ｌ₂の推定には下記の声道モデルを使用す
る。また、２つの母音／ａ／，／ｉ／のフォルマント周
波数を区別するために、合計６つのフォルマント周波数
を（Ｆ_a1，Ｆ_a2，Ｆ_a3，Ｆ_i1，Ｆ_i2，Ｆ_i3）とする。

【００２４】人間の声道形状のモデル化を行う場合は、
一般に、図７に示すように。声道をｎ個所で輪切りにし
た際の各断面の面積と断面間の距離ｄｍ−１によりモデ
ル化される。このモデルを用いることで、各話者の声道
形状に基づいて、話者が発する音声を生成することが可
能である。一方、音声認識装置に用いる場合、このよう
な声道形状を測定することは困難であるため、各話者の
発した音声に基づいて、声道形状を推定する必要があ
る。このような声道形状の特徴量のうち、特に、声道の
口腔側の長さｌ₁と咽頭腔側の長さｌ₂や声道長ＶＴＬが
各話者が発する音声に大きな影響を与えるために、これ
らの特徴量を、声道形状の特徴量として用いる。

【００２５】ここで、話者の声道形状の特徴量として、
声道を断面ＳＭｍにおいて、口腔側と咽頭腔側の２つの
区間に分割した際の、それぞれの長さｌ₁，ｌ₂を用いる
場合、これらの特徴量は、前述した声道形状のモデルに
基づいて次式により計算される。

【００２６】

【数３】

【数４】

【００２７】また、話者の声道形状の特徴量として、声
道長ＶＴＬを用いる場合、この特徴量は、前述した声道
形状のモデルに基づいて次式により計算される。

【００２８】

【数５】

【００２９】上述のモデルは、話者の声道形状を発声す
る音素に依存しない２つのパラメータ、すなわち、声道
の口腔側の長さｌ₁と声道の咽頭腔側の長さｌ₂により表
す。この声道モデルにおいて、標準話者の声道形状パラ
メータｌ₁，ｌ₂と各母音に対応する声道面積関数（以
下、声道面積関数という。）を用意し、２つの声道形状
パラメータｌ₁，ｌ₂をそれぞれ独立に何倍かに伸縮した
後に、音声を生成することで、異なる形状の声道から発
せられる各母音のフォルマント周波数を得ることが可能
である。

【００３０】ここで、上記用意した声道面積関数からフ
ォルマント周波数の算出法は以下の通りである。図１０
（ａ）に図示された声道モデルを図１０（ｂ）で表され
る等価回路で表現することができる。ここで、声道のあ
る断面ｎにおける声道断面積をＡ（ｎ）、声道の断面ｎ
−１からｎの距離をｌ（ｎ），管内の空気密度をρと
し、音速をｃとすると、ｎ番目の断面の音響インダクタ
ンスＬ（ｎ）及びｎ番目の断面の音響キャパシタンスＣ
（ｎ）は次式で表わすことができる。

【００３１】

【数６】Ｌ（ｎ）＝｛ρ・ｌ（ｎ）｝／｛２・Ａ（ｎ）｝

【数７】Ｃ（ｎ）＝｛Ａ（ｎ）・ｌ（ｎ）｝／（ρ・ｃ²）

【００３２】また、ｎ番目の断面の放射インピーダンス
Ｚｒ及び声門の音響インピーダンスＺｇは次式で表わす
ことができる。

【００３３】

【数８】Ｚｒ＝｛（ｊωＬｒ＋Ｒｒ）／（ｊωＬｒＲｒ）｝−１ここで、

【数９】Ｒｒ＝（１２８ρｃ）／｛（３π）²・Ａ（ｎ）｝

【数１０】Ｌｒ＝（８ρ）／｛３π√（Ａ（ｎ）π）｝
である。

【数１１】Ｚｇ＝Ｒｇ＋ｊωＬｇ

【００３４】ここで、Ｒｇ及びＬｇは定数である。そし
て、これらの回路定数に基づいて、図１１の等価回路の
共振周波数を求めることにより、声道モデルから生成さ
れる音声のフォルマント周波数を計算することができる
（例えば、従来技術文献３「鈴木久喜訳，“音声のディ
ジタル信号処理（上）”，コロナ社，昭和５８年４月１
５日発行」参照。）。

【００３５】さらに、本実施形態では、上述の声道形状
パラメータの伸縮率を何種類も変化させることにより、
標準話者の声道形状パラメータに対する伸縮率とそれに
対応する各母音フォルマント周波数を求める。これによ
り、図８及び図９に示すように、２次元の声道形状パラ
メータの伸縮率空間上の近接する３点により形成される
小平面ＰＱＲと、それに対応するフォルマント周波数空
間上の小平面ｐｑｒが得られる。ここで、声道形状パラ
メータの伸縮率は、声道形状パラメータの正規化空間と
もいえる。なお、図８（ｂ）において、フォルマント周
波数空間は、母音／ａ／のフォルマント周波数Ｆ_a1，Ｆ
_a2，Ｆ_a3と、母音／ｉ／のフォルマント周波数Ｆ_i1，Ｆ
_i2，Ｆ_i3とで６次元を有する空間である。

【００３６】声道形状パラメータの推定は、逆にこのフ
ォルマント周波数空間上の小平面から声道形状パラメー
タの伸縮率空間上の小平面上へのマッピングにより行な
う。声道形状パラメータの推定手順を以下に示す。

【００３７】図２は、図１の声道形状推定部１０によっ
て実行される声道形状推定処理を示すフローチャートで
ある。この推定処理に先立って、予め測定されて内部メ
モリに記憶された標準話者の声道形状パラメータに基づ
いて、声道形状パラメータの伸縮率空間上の小平面とフ
ォルマント周波数空間上の小平面との間の空間対応テー
ブルを作成して空間対応テーブルメモリ２１に格納す
る。当該空間対応テーブルにおいては、声道形状パラメ
ータの伸縮率空間上の小平面のパラメータセットと、フ
ォルマント周波数空間上の小平面のパラメータセットと
の複数の組が格納される。図２のステップＳ１で、ま
ず、音声認識すべき話者は、母音／ａ／，／ｉ／を発声
してその発声音声が図１のマイクロホン１に入力されて
音声信号に変換された後、Ａ／Ｄ変換器２によってディ
ジタル音声信号にＡ／Ｄ変換される。当該ディジタル音
声信号は、スイッチＳＷ１のｂ側を介して声道形状推定
部１０に入力される。これに応答して、声道形状推定部
１０は、図８に示すように、入力されたディジタル音声
信号に基づいて、声道形状パラメータｌ₁，ｌ₂を推定す
る話者について、母音／ａ／，／ｉ／のフォルマント周
波数の組ｓ（Ｆ_a1，Ｆ_a2，Ｆ_a3，Ｆ_i1，Ｆ_i2，Ｆ_i3）を
求める。次いで、ステップＳ２で、図９に示すように、
フォルマント周波数の空間上で、ステップＳ１で求めた
フォルマント周波数の組ｓに最も近い小平面ｐｑｒを求
める。さらに、ステップＳ３で、図８及び図９に示すよ
うに、フォルマント周波数の組ｓをステップＳ２で求め
た小平面ｐｑｒに射影して、フォルマント周波数の組
ｓ’を求めた後、空間対応テーブルメモリ２１内の空間
対応テーブルを参照して、対応する声道形状パラメータ
の伸縮率空間上の小平面ＰＱＲ上で線形関数（数１３）
により声道形状パラメータｌ₁，ｌ₂の伸縮率Ｓを求め
る。

【００３８】

【数１２】ｓ'＝ｐｑ＋ａ₁・→ｖ₁＋ａ₂・→ｖ₂

【数１３】Ｓ＝ＰＱ＋Ａ₁・→Ｖ₁＋Ａ₂・→Ｖ₂

【数１４】

【００３９】図９における線分ｐｑ（上線）及び線分Ｐ
Ｑ（上線）については、本明細書において、上線を用い
ることができないため、数１２及び数１３において下線
を用いている。また、→ｖ₁は、ベクトルｖ₁を示し、→
ｖ₂、→Ｖ₁、→Ｖ₂についてもベクトルを示す。数１２
は、射影後のフォルマント周波数の組ｓ’は、線分ｐｑ
と、ベクトル→ｖ₁と、ベクトル→ｖ₂との線形結合で表
わすことができることを示し、数１３は、変換後のフォ
ルマント周波数の組Ｓは、線分ＰＱと、ベクトル→Ｖ₁
と、ベクトル→Ｖ₂との線形結合で表わすことができる
ことを示し、数１４は、フォルマント周波数空間上の小
平面ｐｑｒと、声道形状パラメータの伸縮率空間上の小
平面ＰＱＲとの間の対応関係を表している。

【００４０】さらに、ステップＳ４では、標準話者の声
道形状パラメータｌ₁，ｌ₂に、ステップＳ３で求められ
た各声道形状パラメータｌ₁，ｌ₂の伸縮率Ｓを掛け合わ
せ、目的の話者の声道形状パラメータｌ₁，ｌ₂を得て、
得られた声道形状パラメータｌ₁，ｌ₂をバッファメモリ
２８を介して周波数ワーピング関数生成部１１に出力す
る。

【００４１】すなわち、本実施形態では、声道形状の特
徴量として声道を前方（口腔側）と後方（咽頭腔側）の
２つの区間に分割し、そのそれぞれの長さｌ₁，ｌ₂の声
道形状パラメータを用いる。声道形状パラメータは、各
話者の２母音／ａ／，／ｉ／のフォルマント周波数（Ｆ
１，Ｆ２，Ｆ３）を基に、フォルマント周波数空間から
声道形状パラメータ空間への簡易なマッピング手法によ
り推定する。推定に必要なマッピング関数は標準話者の
Ｘ線写真を基に作成した声道モデルを用いて作成する。
また、話者正規化は、この標準話者の音声に正規化対象
話者の音声を近づける形で周波数ワーピングを行うこと
で実現する。話者正規化に用いる周波数ワーピング関数
は標準話者の声道モデルと各話者の声道形状パラメータ
を基に以下の手順により作成する。本実施形態におい
て、正規化対象話者は学習話者である。

【００４２】（Ｃ１）周波数ワーピング関数の生成に用
いる標準話者の声道面積関数を求める。ここで、本実施
形態では、各話者に対して音素に依存しない１つの周波
数ワーピング関数を推定しており、図１９に示す変形さ
れた前田モデルを用いる。このモデルにおいては、顎の
位置を制御するパラメータｊと、舌の位置を制御するパ
ラメータｂ，ｄと、唇の位置を制御するパラメータ
ｔ_x，ｔ_yの５つのパラメータを発声しようとする音声に
あわせてそれぞれ独立に制御することで、発声される音
声に対応した声道の各地点の声道断面積パラメータ
ｚ₁，…，ｚ₂₅が得られる。これらのパラメータを調節
し各音素環境に対応する声道断面積パラメータを推定
し、この声道断面積パラメータに基づいて周波数ワーピ
ング関数を推定する。この声道面積関数としては、特定
の音素に対応した声道面積関数を用いることも可能であ
るが、特定の音素に依存しない中間的な声道面積関数を
用いることが望ましい。例えば、声道の調音モデルにお
いては、音素に応じた舌の動きや、顎の動き等を制御す
る複数のパラメータに応じて、基準となる声道面積関数
を変形させることで各音素に対応した声道面積関数を推
定する。この声道の調音モデルを制御するパラメータを
全て０に設定することで特定の音素に依存しない標準話
者の中間的な声道面積関数を求めることが可能である。（Ｃ２）上記（Ｃ１）で求めた標準話者の声道面積関数
に対してナイキスト周波数付近までのフォルマント周波
数を求める。例えば、サンプリング周波数が１２ｋＨｚ
である場合、ナイキスト周波数６ｋＨｚ付近までのフォ
ルマント周波数（Ｆ１−Ｆ７）を求める。（Ｃ３）上記（Ｃ１）で求めた標準話者の声道モデルを
正規化対象話者の声道形状パラメータｌ₁，ｌ₂に応じて
伸縮することで、正規化対象話者の声道モデルを作成す
る。これは、声道の口腔側と咽頭腔側の２つの区間それ
ぞれ独立に、声道の前方は標準話者と正規化対象話者の
ｌ₁の比に応じて、声道の後方は標準話者と正規化対象
話者のｌ₂の比に応じて伸縮することで作成される。（Ｃ４）上記（Ｃ３）で求めた正規化対象話者の声道面
積関数に対するフォルマント周波数（Ｆ１−Ｆ７）を求
める。（Ｃ５）上記の（Ｃ２）及び（Ｃ４）の処理により標準
話者と正規化対象話者のフォルマント周波数（Ｆ１−Ｆ
７）の対応関係が得られるため、周波数ワーピングによ
り、各学習話者の音声のフォルマント周波数が、標準話
者の対応するフォルマント周波数に変換されるように、
周波数ワーピング関数を生成する。その際周波数０から
フォルマント周波数Ｆ１の区間については、（周波数０
Ｈｚ，周波数０Ｈｚ）と（正規化対象話者のＦ１，標準
話者のＦ１）の２点を通る直線で近似し、以下、同様
に、フォルマント周波数Ｆｎ−１とＦｎ（ｎ＝２，３，
…，７）の間については（正規化対象話者のＦｎ−１，
標準話者のＦｎ−１）と（正規化対象話者のＦｎ，標準
話者のＦｎ）の２点を通る直線で近似し周波数ワーピン
グ関数を定める。

【００４３】周波数ワーピング関数の一例として、上記
の手法を用いて作成した正規化対象話者（２話者，話者
名Ｍ２０２及びＭ０１７）に対する周波数ワーピング関
数を図１４に示した。図１４には比較のため、声道長に
基づき作成した周波数ワーピング関数（話者名（ＶＴ
Ｌ））を併記している。この声道長に基づく周波数ワー
ピング関数は、標準話者の声道長ＶＴＬ_refと正規化対
象話者の声道長ＶＴＬ_tar _getの比に基づき次式により周
波数軸を線形に伸縮するものである。

【００４４】

【数１５】ｆ’＝ｆ×（ＶＴＬ_target／ＶＴＬ_ref）

【００４５】ここで、ｆは正規化前の周波数であり、
ｆ’はそれに対応する正規化後の周波数である。なお、
後述の実験には、標本化周波数１２ｋＨｚの音声データ
を使用する。上記の周波数ワーピング関数を用いて正規
化を行う際には、

【数１６】ＶＴＬ_target／ＶＴＬ_ref＜１の場合にも、正規化後に６ＫＨｚ以下の周波数全域に対
するスペクトルが得られるように、正規化前の音声デー
タが６ｋＨｚを越える周波数域の情報を有している必要
がある。この問題を回避するため、本実施形態では、ナ
イキスト周波数の８割（４．８ｋＨｚ）以下の周波数域
に対して上記の周波数ワーピング関数を用い、それ以上
の周波数域に対してはナイキスト周波数（６ｋＨｚ）に
おいて周波数ワーピング前後の周波数が、一致するよう
線形補間により周波数ワーピング関数を変形することで
対応した（図１４の点線参照。）。

【００４６】ところで、図１の音声認識装置において、
標準話者フォルマント周波数メモリ２６は、周波数ワー
ピング関数生成部１１及び話者正規化処理部１２で必要
となる標準話者のフォルマント周波数を格納するメモリ
である。これは、標準話者の声道部分の断面のＸ線写真
又はＣＴ写真に基づいて上述の声道形状のモデルのよう
に声道形状をプロットして得られた標準話者の声道モデ
ル（声道面積関数を含み、周波数ワーピング関数生成部
１１及び話者正規化処理部１２で用いるモデルと同一の
ものである）に基づいて、声道形状推定部１０及び周波
数ワーピング関数生成部１１（後述する図３の処理）に
より予め算出されたフォルマント周波数を格納するため
のメモリである。本実施形態では、標準話者フォルマン
ト周波数メモリ２６は、例えば、第１から第７のフォル
マント周波数Ｆ１，Ｆ２，…，Ｆ７を記憶する。

【００４７】図３は、図１の周波数ワーピング関数生成
部１１によって実行される周波数ワーピング関数生成処
理を示すフローチャートである。この周波数ワーピング
関数生成処理は、声道形状推定部１０からバッファメモ
リ２８を介して入力される標準話者及び各認識話者の声
道形状パラメータと、標準話者フォルマント周波数メモ
リ２６に記憶された標準話者のフォルマント周波数とに
基づいて、認識話者の周波数ワーピング関数を生成して
周波数ワーピング関数メモリ２７に格納する処理であ
る。

【００４８】当該周波数ワーピング関数生成処理では、
各話者に対して声道形状推定部１０において推定された
声道形状パラメータｌ₁，ｌ₂を用いて、標準話者の声道
モデルを伸縮させることで、各話者の声道モデルを近似
する。このモデルから、出力される音声のフォルマント
周波数を推定する。その際、標準話者の声道モデルを調
整することで、種々の音素に対応した声道形状及びフォ
ルマント周波数を得ることが可能であるが、ここでは音
素に依存しない中間的な声道形状とすることが望まし
い。同様に、標準話者の声道モデルから出力される音声
のフォルマント周波数を得て標準話者のフォルマント周
波数メモリ２６に記憶する。そして、この正規化対象話
者のフォルマント周波数と標準話者のフォルマント周波
数の対応関係から図１２のような周波数ワーピング関数
を推定する。

【００４９】図３において、まず、ステップＳ１１にお
いて、標準話者の声道面積関数に基づいて、上述の方法
で、標準話者が発声する音声のフォルマント周波数を推
定して標準話者フォルマント周波数メモリ２６に記憶す
る。次いで、ステップＳ１２において、声道形状推定部
１０によって推定された各認識話者の声道形状パラメー
タｌ₁，ｌ₂と、標準話者の声道形状パラメータｌ₁，ｌ₂
とに基づいて、標準話者の声道形状パラメータｌ₁，ｌ₂
を変化させることにより、各認識話者の声道面積関数を
推定し、これに基づいて、ステップＳ１１と同様の方法
で、各認識話者が発声する音声の各音素のフォルマント
周波数を推定する。さらに、ステップＳ１３で、標準話
者フォルマント周波数メモリ２６に保存されている標準
話者のフォルマント周波数と、ステップＳ１２で得られ
た各認識話者のフォルマント周波数の対応関係から周波
数ワーピング関数を生成し、周波数ワーピング関数メモ
リ２７に格納する。

【００５０】ここで、図１２を参照して、周波数ワーピ
ング関数の生成方法について説明する。周波数ワーピン
グ関数は、周波数ワーピング処理により、処理後の各認
識話者の音声のフォルマント周波数が標準話者の対応す
るフォルマント周波数に一致するように、すなわち、各
認識話者の音声のフォルマント周波数（Ｆ１−Ｆ７）
が、標準話者の対応するフォルマント周波数（Ｆ１−Ｆ
７）に変換されるように、入力される音声周波数を変換
するための周波数間の対応関係を定める。そして、図１
２に示したように、周波数０からフォルマント周波数Ｆ
１の区間については、（周波数０Ｈｚ，周波数０Ｈｚ）
と（認識話者のＦ１，標準話者のＦ１）の２点を直線で
近似し、以下同様にして、フォルマント周波数Ｆｎ−１
とＦｎの間については（認識話者のＦｎ−１，標準話者
のＦｎ−１）と（認識話者のＦｎ，標準話者のＦｎ）の
２点を通る直線で近似することで周波数ワーピング関数
を定める。言い換えれば、認識話者のフォルマント周波
数が入力音声の周波数に対応する一方、標準話者のフォ
ルマント周波数が周波数ワーピング後の周波数となるよ
うに周波数ワーピング関数を得ている。

【００５１】図４は、図１の話者正規化処理部１２によ
って実行される話者正規化処理を示すフローチャートで
ある。図４において、まず、ステップＳ２１において、
空間対応テーブルメモリ２１内の空間対応テーブルと、
音声波形データメモリ２２内の複数の学習話者の音声波
形データと、それに対応してテキストデータメモリ２３
に記憶されたテキストデータとに基づいて、声道形状推
定部１０の処理と同様の声道形状推定処理及び、周波数
ワーピング関数生成部１１の処理と同様の周波数ワーピ
ング関数生成処理を実行することにより、各学習話者の
周波数ワーピング関数を推定して周波数ワーピング関数
メモリ２５に記憶する。

【００５２】次いで、ステップＳ２２において音声波形
データメモリ２２内の各学習話者の音声波形データに対
して、対応する周波数ワーピング関数（周波数ワーピン
グ関数メモリ２５に記憶された）を用いて周波数ワーピ
ング処理を実行して話者正規化した後、話者正規化され
た音声波形データに対して特徴抽出処理（後述の特徴抽
出部３による処理と同様の処理）を実行することによ
り、テキストデータに対応する各学習話者の音響的特徴
パラメータを抽出する。さらに、ステップＳ２３におい
てすべての学習話者の音声的特徴パラメータと、テキス
トデータメモリ２３内のテキストデータに基づいて、Ｈ
Ｍ網から学習に用いる音響パラメータ列が出力される確
率が最大となるよう公知のＥＭ（Estimation-Maximum）
アルゴリズムを用いて、初期ＨＭ網２９内の初期ＨＭ網
を学習することにより、正規化されたＨＭ網を生成して
ＨＭ網メモリ２４に出力して記憶する。

【００５３】すなわち、話者正規化処理部１２による話
者正規化処理部においては、各学習話者の音声波形デー
タ（音声をディジタル化したデータであって、周波数ワ
ーピング処理を行なう前の音声ディジタルデータであ
る。）に対して話者正規化を行った後に、音響モデルの
学習を行っている。ここで、学習の際には、好ましく
は、周波数ワーピング関数生成用音声波形データと、学
習用音声波形データの２つの異なる音声データセットを
用いる。

【００５４】すなわち、特徴抽出部３では、周波数ワー
ピング関数を用いた周波数ワーピングを行った後、メル
周波数ケプストラム係数（ＭＦＣＣ）等の音響特徴量を
抽出する。ここで、周波数ワーピングは、周波数ワーピ
ング関数に従って、周波数ワーピング後の各周波数のパ
ワーの値を、入力音声スペクトル上の対応する周波数の
パワーで置き換えることで実現される。本実施形態で
は、音響的特徴パラメータとしてＭＦＣＣを使用する
が、この場合、ＭＦＣＣの計算時にＦＦＴにより入力音
声パワースペクトルが計算される。このパワースペクト
ルはＦＦＴにより周波数方向に離散的に求められてお
り、多くの場合、周波数ワーピング後の各周波数に対応
する周波数ワーピング前の周波数のパワーが計算されて
おらず、周波数ワーピング後のパワースペクトルを直接
的に求めることが出来ない。このため、本実施形態で
は、入力音声の各周波数のパワーを基にした線形補間に
より周波数ワーピング後の各周波数のパワーを近似する
ことで、周波数ワーピングを実現する（図１３参
照。）。

【００５５】図５は、図１の特徴抽出部３によって実行
される特徴抽出処理を示すフローチャートである。ステ
ップＳ３１において、周波数ワーピング関数メモリ２７
内の認識話者の周波数ワーピング関数を用いて入力され
る音声信号データに対して周波数ワーピング処理を実行
する。次いで、ステップＳ３２において周波数ワーピン
グ処理後の音声信号データから音響的特徴パラメータを
抽出して、バッファメモリ４を介して音素照合部５に出
力する。

【００５６】図６は、図５のサブルーチンである周波数
ワーピング処理（ステップＳ３１）を示すフローチャー
トである。この処理について、図１３を参照して説明す
る。図６において、まず、ステップＳ４１において、Ｆ
ＦＴにより、Ａ／Ｄ変換器２からスイッチＳＷ１を介し
て入力された音声信号データのパワースペクトルＳ［ｆ
_in］（ｆ_in＝１，２，３，…，Ｎ）を計算する（ここ
で、ＮはＦＦＴのポイント数である）。次いで、ステッ
プＳ４２において周波数ポイントパラメータｆ_wa _rpに１
をセットした後、ステップＳ４３において、図１３
（ａ）に示すように、周波数ワーピング関数メモリ２７
内の対応する周波数ワーピング関数を用いて周波数ｆ
_warpに対応する入力音声データの周波数ｆ_rin（実数）
を求める。そして、ステップＳ４４において周波数ｆ
_rinに隣接するＦＦＴの周波数ｆ_lin（低周波数側）とｆ
_uin（高周波数側）を求める。ここで、ＦＦＴの周波数
とは、ＦＦＴの周波数ポイントが存在する周波数であ
る。さらに、ステップＳ４５において次式を用いて、入
力音声のｆ_lin及びｆ_uinにおけるパワーの線形補間を行
い、入力音声の周波数ｆ_rinにおけるパワーを近似して
周波数ワーピング後のＦＦＴの周波数ｆ_warpのパワー
Ｓ’［ｆ_warp］として出力する。

【００５７】

【数１７】Ｓ’［ｆ_warp］＝Ｓ［ｆ_lin］＋｛(ｆ_rin−
ｆ_lin)／(ｆ_uin−ｆ_lin)｝(Ｓ[ｆ_uin]−Ｓ[ｆ_lin])

【００５８】次いで、ステップＳ４６においてｆ_warp≧
Ｎについて判断を行い、ＮＯであればすべての周波数に
ついて処理が終了していないので、ステップＳ４７にお
いて周波数ポイントパラメータｆ_warpを１だけインクリ
メントしてステップＳ４３に戻る。一方、ステップＳ４
６でＹＥＳであれば、元のルーチンに戻る。

【００５９】さらに、音素照合部５及びＬＲパーザ６の
処理、すなわち、本実施形態に係る話者正規化モデルに
よる不特定話者音声認識方法について述べる。本実施形
態では、（Ｄ１）次いで、スイッチＳＷ１をｂ側に切り換えて、
認識しようとする認識話者に、声道形状の特徴量の推定
に必要な音声の発声を依頼し、マイクロホン１を介して
発声された音声をもとに声道形状推定部１０及び周波数
ワーピング関数生成部１１のステップＳ１２及びＳ１３
の処理を実行する。（Ｄ２）そして、スイッチＳＷ１をａ側に切り換えて、
音声認識しようとする音声の発声を依頼して、音声認識
する。従って、各認識話者毎に、上記（Ｄ１）及び（Ｄ２）の
処理を行う。

【００６０】次いで、本実施形態におけるＳＳＳ−ＬＲ
（left-to-right rightmost型）不特定話者連続音声認
識装置について説明する。この装置は、ＨＭ網メモリ２
４に格納されたＨＭ網と呼ばれる音素環境依存型の効率
のよいＨＭＭの表現形式を用いている。また、上記ＳＳ
Ｓにおいては、音素の特徴空間上に割り当てられた確率
的定常信号源（状態）の間の確率的な遷移により音声パ
ラメータの時間的な推移を表現した確率モデルに対し
て、尤度最大化の基準に基づいて個々の状態をコンテキ
スト方向又は時間方向へ分割するという操作を繰り返す
ことによって、モデルの精密化を逐次的に実行する。

【００６１】図１の音声認識装置の音声認識処理におい
て、話者の発声音声はマイクロホン１に入力されて音声
信号に変換された後、音声信号がＡ／Ｄ変換器２によっ
てディジタル音声信号にＡ／Ｄ変換される。当該ディジ
タル音声信号は、スイッチＳＷ１のａ側を介して特徴抽
出部３に入力される。特徴抽出部３は、上述のように、
入力されたディジタル音声信号に対して、対応する周波
数ワーピング関数（メモリ２７内）を用いて話者正規化
した後、話者正規化されたディジタル音声信号に対す
る、対数パワー、Δ対数パワー、１２次メル周波数ケプ
ストラム係数（ＭＦＣＣ）、１２次Δメル周波数ケプス
トラム係数（ΔＭＦＣＣ）を含む音響的特徴パラメータ
を抽出する。抽出された特徴パラメータの時系列はバッ
ファメモリ３を介して音素照合部５に入力される。

【００６２】音素照合部５に接続されるＨＭ網メモリ２
４内のＨＭ網は、各状態をノードとする複数のネットワ
ークとして表され、各状態はそれぞれ以下の情報を有す
る。（ａ）状態番号（ｂ）受理可能なコンテキストクラス（ｃ）先行状態、及び後続状態のリスト（ｄ）出力確率密度分布のパラメータ（ｅ）自己遷移確率及び後続状態への遷移確率なお、本実施形態において用いるＨＭ網は、各分布がど
の話者に由来するかを特定する必要があるため、所定の
話者混合ＨＭ網を変換して作成する。ここで、出力確率
密度関数は２６次元の対角共分散行列をもつ混合ガウス
分布であり、各分布はある特定の話者のサンプルを用い
て学習されている。また、文脈自由文法メモリ（ＣＦＧ
メモリ）９内の所定の文脈自由文法（ＣＦＧ）は、公知
の方法で自動的にＬＲテーブルに変換してＬＲテーブル
メモリ８に格納される。

【００６３】そして、音声認識処理において、音素照合
部５は、音素コンテキスト依存型ＬＲパーザ６からの音
素照合要求に応じて音素照合処理を実行する。このとき
に、ＬＲパーザ６からは、音素照合区間及び照合対象音
素とその前後の音素から成る音素コンテキスト情報が渡
される。音素照合部５は、受け取った音素コンテキスト
情報に基づいて、上記指定話者モデルを用いて音素照合
区間内のデータに対する尤度が計算され、この尤度の値
が音素照合スコアとしてＬＲパーザ６に返される。これ
に応答して、ＬＲパーザ６は、ＬＲテーブルメモリ８内
のＬＲテーブルを参照して、入力された音素予測データ
について左から右方向に、後戻りなしに処理する。構文
的にあいまいさがある場合は、スタックを分割してすべ
ての候補の解析が平行して処理される。ＬＲパーザ６
は、ＬＲテーブルから次にくる音素を予測して音素予測
データを音素照合部５に出力する。これに応答して、音
素照合部５は、その音素に対応する上記指定話者モデル
に関するＨＭ網メモリ２４内の情報を参照して照合し、
その尤度を音声認識スコアとしてＬＲパーザ６に戻し、
順次音素を連接していくことにより、連続音声の認識を
行う。ここで、複数の音素が予測された場合は、これら
すべての存在をチェックし、ビームサーチの方法によ
り、部分的な音声認識の尤度の高い部分木を残すという
枝刈りを行って高速処理を実現する。入力された話者音
声の最後まで処理した後、全体の尤度が最大のもの又は
所定の上位複数個のものを、当該装置の認識結果データ
として外部装置に出力する。

【００６４】以上の実施形態において、特徴抽出部３、
音素照合部５、ＬＲパーザ６、声道形状推定部１０、周
波数ワーピング関数生成部１１と、及び話者正規化処理
部１２は、例えばディジタル計算機で構成され、また、
バッファメモリ４及び空間対応テーブルメモリ２１、音
声波形データメモリ２２、テキストデータメモリ２３、
ＨＭ網メモリ２４、周波数ワーピング関数メモリ２５、
標準話者フォルマント周波数メモリ２６、周波数ワーピ
ング関数メモリ２７、バッファメモリ２８、初期ＨＭ網
メモリ２９、ＬＲテーブルメモリ８、及びＣＦＧメモリ
９は、例えばハードデイスクメモリなどの記憶装置で構
成される。

【００６５】以上説明したように、本実施形態によれ
ば、２母音のフォルマント周波数から抽出された、声道
形状の特徴量と、音声の生成モデルから周波数ワーピン
グ関数を生成できるため少量の音声データに基づく話者
正規化が可能となる。また、尤度に基づく周波数ワーピ
ング関数の選択法（従来例）のように予め周波数ワーピ
ング関数の形状を指定する必要がないため、より詳細な
周波数ワーピング関数を生成できる。このため、本実施
形態の方法を基に作成した周波数ワーピング関数を用い
ることで、高速かつ性能の高い話者適応が実現可能であ
る。さらには、音声認識時に、認識すべき音声信号デー
タに対して、対応する周波数ワーピング関数を用いて話
者正規化した後特徴抽出し、話者正規化しかつ学習され
たＨＭＭを用いて音声認識するので、従来例に比較して
より高い音声認識率で音声認識することができる。

【００６６】

【実施例】本発明者は、上述の音声認識装置の作用効果
を確かめるために、音素タイプライタによる認識実験を
行った。実験条件を表１に示す。

【００６７】

【表１】 ―――――――――――――――――――――――――――――――――― 音響分析サンプリング周波数：１２ｋＨｚ，プリエンファシス：０．９８，フレーム周期：１０ｍｓ，フレーム長：２０ｍｓ（ハミング窓）特徴パラメータ：対数パワー、Δ対数パワー、１２次のＭＦＣＣ、１２次のΔＭＦＣＣ（フィルタバンク次数１６） ―――――――――――――――――――――――――――――――――― 音響モデル（ＨＭ網）の構成音声：総状態数８００，１混合（ＭＬ−ＳＳＳ法による）無音：３状態，１０混合 ―――――――――――――――――――――――――――――――――― 学習データ男性１３８名，音素バランス文Ａ（５０文）本特許出願人が所有するＤＢ ―――――――――――――――――――――――――――――――――― 評価データ男性１０名，音素バランス文Ｂ（５０文） ―――――――――――――――――――――――――――――――――― 学習／評価時の声道形状の推定データ音素バランス文Ａｓｅｔ内の２単語中の長母音 “ｙ−ｕ−ｕ−ｚ−ａ−ａ”，“ｆ−ａ−ｍ−ｉ−ｒ−ｉ−ｉ” ――――――――――――――――――――――――――――――――――

【００６８】実験に際しては、比較のため、（Ｅ１）男
性モデル（ＧＤ）、（Ｅ２）移動ベクトル場平滑化法
（ＶＦＳ法）（例えば、従来技術文献４「大倉計美ほ
か，“混合連続分布ＨＭＭを用いた移動ベクトル場平滑
化話者適応方式”，電子情報通信学会技術報告，ＳＰ９
２−１６，１９９２年６月」参照。）による話者適応モ
デル（ＶＦＳ）、（Ｅ３）声道長に基づく話者正規化モ
デル（ＶＴＬ）、及び、（Ｅ４）声道形状パラメータｌ
₁，ｌ₂に基づく話者正規化モデル（ｌ₁，ｌ₂）の４種の
音響モデルを用い認識を行った。

【００６９】ここで、男性モデルは、表１中の１３８名
の話者の音声データを用いて公知のＥＭ（Estimation-M
aximum）アルゴリズムにより学習したモデルである。声
道形状パラメータｌ₁，ｌ₂に基づく話者正規化において
は、上述の方法により作成した正規化対象話者から標準
話者への周波数ワーピング関数を用いて、各話者毎に音
声の正規化を行った上でモデルの学習及び認識を行っ
た。声道長に基づく話者正規化も同様に、上述した線形
変換により各話者毎に音声の正規化を行った上でモデル
の学習及び認識を行った。話者クラスタモデルは、声道
形状パラメータ（ｌ₁，ｌ₂）間のユークリッド距離を用
いて５クラスタに分割を行い、その結果に基づき学習し
たモデルである。なお、認識の際の話者クラスタ選択も
声道形状パラメータ（ｌ₁，ｌ₂）を基に行っている。ま
た、ＶＦＳによる話者適応モデルについては、平滑化制
御を行い数種の適応文数を用い話者適応を行った。な
お、上記（Ｅ２）−（Ｅ４）のモデルについては、学習
時に男性モデル（Ｅ３）を初期モデルとし、学習後の各
正規分布の分散が学習前より小さくならぬように制御を
行った上でモデルの学習を行った。

【００７０】図１５及び図１６に、学習用話者１３８名
を対象に、声道形状パラメータに基づく周波数ワーピン
グの前後での母音／ａ／のフォルマント周波数（Ｆ１−
Ｆ３）の分布の変化を示した。この結果、特に、フォル
マント周波数Ｆ２において顕著に見られるように、周波
数ワーピングによりフォルマント周波数の分散が小さく
なっており、話者正規化が有効に機能している様子が見
られる。

【００７１】次いで、認識実験により本発明に係る話者
正規化方法の評価を行った。実験の結果得られた音素認
識率を表２に示す。

【００７２】

【表２】各種音響モデルの性能比較（音素認識率％） ―――――――――――――――――――――――――――――――――― ＧＤＶＦＳ（適応文数）ＶＴＬｌ₁,ｌ₂ １１０２０３０ ―――――――――――――――――――――――――――――――――― ７１．４７１．６７４．４７５．９７６．５７６．２７６．２ ――――――――――――――――――――――――――――――――――

【００７３】表２から明らかなように、声道形状に基づ
く話者正規化を行うことで、音素認識率７６．２％の認
識性能が得られた。これは、男性モデルを用いた際の誤
認識の約１７％の削減に相当し、適応データ２０文を用
いてＶＦＳ法により話者適応を行ったモデルを上回る認
識性能である。今回の実験に用いた、声道形状の特徴量
の推定手法においては、２母音の音声データのみから声
道形状の推定を行うため、認識時にも少量の適応データ
による話者適応が可能であり、高速な話者適応が実現可
能である。

【００７４】以上説明したように、本発明に係る本実施
形態によれば、２母音のフォルマント周波数から抽出さ
れた、声道形状の特徴量と、音声の生成モデルから周波
数ワーピング関数を生成できるため少量の音声データに
基づく話者正規化が可能となる。また、尤度に基づく周
波数ワーピング関数の選択法（従来例）のように予め周
波数ワーピング関数の形状を指定する必要がないため、
より詳細な周波数ワーピング関数を生成できる。このた
め、本実施形態の方法を基に作成した周波数ワーピング
関数を用いることで、高速かつ性能の高い話者適応が実
現可能である。さらには、音声認識時に、認識すべき音
声信号データに対して、対応する周波数ワーピング関数
を用いて話者正規化した後特徴抽出し、話者正規化しか
つ学習されたＨＭＭを用いて音声認識するので、従来例
に比較してより高い音声認識率で音声認識することがで
きる。

【００７５】図１９は、本発明に係る実施形態で用いる
ことができる人間の声道形状に関する変形された前田モ
デルを示す図である。この変形された前田モデルは、例
えば、従来技術文献５「Galvan,”Etudes dans le cadr
e de l'inversion acoustico-articulatoire: Ameliora
tion d'un modele articulatoire, normalisation dulo
cuteur et recuperation du lieu de constriction des
plosives", These de l'Institut National Polytechn
ique de Grenoble Specialite Sciences Congnitives,
Avril, 1997」において開示されている。声道の各位置
における幅を示す声道断面積のパラメータｚ₁，ｚ₂，
…，ｚ₂₅は次式で表される。

【００７６】

【数１８】

【００７７】ここで、ｊは顎の制御位置、ｂ及びｄは舌
の制御位置、ｔ_x及びｔ_yは唇の制御位置を示す。また、
ａ_1,1，…，ａ_25,5及びｂ₁，…，ｂ₂₅はモデル係数であ
る。このモデルを使用することにより、人間の声道に近
い近似モデルを仮定することができる。

【００７８】＜第２の実施形態＞図２０は、本発明に係
る第２の実施形態である音声認識装置の構成を示すブロ
ック図である。声道形状の違いが各話者の発声する音声
に与える影響は、音素の違い等、発声される音声により
大きく異なると考えられるが、第１の実施形態では、そ
れらの違いを考慮せず各話者に対して単一の周波数ワー
ピング関数を用意して話者正規化を行っている。これに
対して、第２の実施形態では、各話者に対して、音響的
特徴の類似した所定の類似音素環境毎の複数の周波数ワ
ーピング関数を用意して、周波数ワーピングを行ない、
話者正規化学習及び音素認識時に、上記類似音素環境毎
に、異なる周波数ワーピング関数を用いた音響分析結果
を用いて尤度の計算を行なうものである。この周波数ワ
ーピング関数を用意する際には、次の類似音素環境毎に
周波数ワーピング関数を用意する。（ａ）各母音別、
（ｂ）各音素別、（ｃ）ＨＭ網の状態別、すなわち、出
力確率密度分布別、及び、（ｄ）上記（ｃ）ＨＭ網の出
力確率密度分布別のうちで音響的な特徴が似通っている
と予想される出力確率密度分布で、同一の周波数ワーピ
ング関数を共有する。このように、類似音素環境に応じ
て周波数ワーピング関数を用意することにより、話者正
規化に使用する周波数ワーピング関数の数や、出力確率
密度分布と周波数ワーピング関数との対応づけを行なう
ことが可能である。

【００７９】図２０に示す第２の実施形態が、図１の第
１の実施形態と異なるのは以下の点である。（ａ）周波数ワーピング関数メモリ２５に代えて、各学
習話者及び各類似音素環境毎の周波数ワーピング関数を
記憶する周波数ワーピング関数メモリ２５ａを備える。（ｂ）標準話者フォルマント周波数メモリ２６に代え
て、各類似音素環境毎の標準話者のフォルマント周波数
を予め記憶する標準話者フォルマント周波数メモリ２６
ａを備える。（ｃ）周波数ワーピング関数メモリ２７ａに代えて、各
認識話者及び各類似音素環境毎の周波数ワーピング関数
を記憶する周波数ワーピング関数メモリ２７ａを備え
る。（ｄ）上述の類似音素環境の具体的な種類を予め記憶す
る類似音素環境テーブルメモリ４１をさらに備える。（ｅ）周波数ワーピング関数メモリ２７ａに記憶された
各認識話者及び各類似音素環境毎の周波数ワーピング関
数と、ＨＭ網メモリ２４内のＨＭＭの各状態との間の対
応関係（当該対応関係は、後述する周波数ワーピング関
数生成部１１ａによって生成される。）を記憶する、Ｈ
ＭＭの状態と周波数ワーピング関数との対応テーブルメ
モリ（以下、対応テーブルメモリという。）４２をさら
に備える。（ｆ）話者正規化処理部１２に代えて、類似音素環境テ
ーブルメモリ４１を参照して各学習話者及び各類似音素
環境毎に詳細後述する話者正規化処理を実行する話者正
規化処理部１２ａを備える。（ｇ）周波数ワーピング関数生成部１１に代えて、類似
音素環境テーブルメモリ４１及び標準話者フォルマント
周波数メモリ２６ａを参照して詳細後述する周波数ワー
ピング関数生成処理を実行する周波数ワーピング関数生
成部１１ａを備える。（ｈ）特徴抽出部３に代えて、周波数ワーピング関数メ
モリ２７ａを参照して特徴抽出処理を実行する特徴抽出
部３ａを備える。（ｉ）音素照合部５に代えて、対応テーブルメモリ４２
を参照して類似音素環境に応じた音素照合処理を実行す
る音素照合部５を備える。これらの処理部の動作の詳細は後述する。

【００８０】第１の実施形態では、各話者に対して音素
に依存しない１つの周波数ワーピング関数を推定してい
たが、第２の実施形態では、母音別、音素別などの類似
音素環境に依存した複数の周波数ワーピング関数を推定
する。本実施形態では、図１９に示す変形された前田モ
デルを用いる。

【００８１】以下、第１の実施形態と異なる処理につい
て、詳細に説明する。図２０において、話者正規化処理
部１２は、さらに類似音素環境テーブルメモリ４１を参
照して、さらに各類似音素環境毎に図４の話者正規化処
理を実行し、すなわち、各学習話者及び各類似音素環境
毎に周波数ワーピング関数を推定して周波数ワーピング
関数メモリ２５ａに記憶し、次いで、ステップＳ２２及
びＳ２３の処理を同様に実行する。ここで、ステップＳ
２３におけるＨＭ網の生成においては、当然、類似音素
環境毎に対応づけられたＨＭＭを備えたＨＭ網を生成し
てＨＭ網メモリ２４に格納する。

【００８２】周波数ワーピング関数生成部１１ａは、入
力される声道形状パラメータに基づいて、類似音素環境
テーブルメモリ４１及び標準話者フォルマント周波数メ
モリ２６ａを参照して、各認識話者及び各類似音素環境
毎に、第１の実施形態と同様に、周波数ワーピング関数
を生成して周波数ワーピング関数メモリ２７ａに格納す
るとともに、当該周波数ワーピング関数の生成時に、生
成される周波数ワーピング関数と、類似音素環境との対
応関係の情報（すなわち、どの周波数ワーピング関数が
どの類似音素環境に対応しているかの情報）を生成して
対応テーブルメモリ４２に格納する。なお、類似音素環
境がＨＭＭの状態又は出力確率密度分布であるときは、
周波数ワーピング関数生成部１１ａは、さらにＨＭ網メ
モリ２４を参照して、ＨＭＭの状態又は出力確率密度分
布と、生成した周波数ワーピング関数との対応関係の情
報を生成して対応テーブルメモリ４２に格納する。

【００８３】音声認識時において、特徴抽出部３ａは、
周波数ワーピング関数メモリ２７ａに格納されている、
対応する認識話者であって複数の類似音素環境に対応す
る複数の周波数ワーピング関数を用いてそれぞれ周波数
ワーピングを行なった後、音響分析を行ない、その結果
得られた複数の音響的特徴パラメータをバッファメモリ
４を介して音素照合部５ａに送る。これに応答して、音
素照合部５ａは、第１の実施形態と同様の処理を実行
し、ここで、音素照合スコアを計算する際に、対応テー
ブルメモリ４２を参照して、類似音素環境と周波数ワー
ピング関数との対応に注目し、類似音素環境毎の周波数
ワーピング関数で計算された複数の音響的特徴パラメー
タ毎にＨＭＭの各状態の出力確率を計算して、複数の出
力確率に基づいて最尤の尤度（又はｎベストの尤度）を
計算して音素認識処理を行う。

【００８４】第２の実施形態では、複数の類似音素環境
に対する周波数ワーピング関数で計算された複数の音響
的特徴パラメータ毎にＨＭＭの各状態の出力確率を計算
して、複数の出力確率に基づいて尤度を計算しているの
で、音素認識処理における自由度を広げることができ、
より近接した類似音素環境に対応する周波数ワーピング
関数を用いて特徴抽出した音響的特徴パラメータを用い
て音素認識することができる。これにより、音素認識率
を従来例及び第１の実施形態に比較して大幅に向上させ
ることができる。

【００８５】

【実施例】図２１は、第２の実施形態で用いる音素毎の
周波数ワーピング関数の一例を示すグラフであって、話
者正規化された周波数ワーピング後の周波数に対する入
力音声の周波数のグラフであり、図２２乃至図２５は、
第２の実施形態で用いる各母音の周波数ワーピング関数
の一例を示すグラフであって、話者正規化された周波数
ワーピング後の周波数に対する入力音声の周波数のグラ
フである。

【００８６】第２の実施形態に係る上述の周波数ワーピ
ング関数推定方法を用いて、本出願人が所有する音声デ
ータベースに基づいて、合計１４８名の日本人男性目標
話者に対して関数推定を実行した。その結果を示したも
のが図２１である。各曲線が個々の目標話者に対応して
いる。周波数ワーピングの緩やかな非線形的性質が明確
に表れており、ワーピング曲線の平均勾配が声道長ＶＴ
（＝ｌ₁＋ｌ₂）に関係している。従来技術文献１に記述
されたフォルマントのスケーリング結果の非一様性は、
話者間の周波数ワーピングにおける音素依存性を明確に
示唆している。ＶＴモデル及び計算ツールを与えること
により、周波数ワーピング関数におけるこうした音素依
存性をシミュレーションすることができる。

【００８７】図２２乃至図２５は、日本語の４つの母音
／ａ／、／ｉ／、／ｕ／、／ｅ／に関する、目標話者で
ある日本人男性１４８名の４組の周波数ワーピング関数
を示したものである。

【００８８】次いで、日本語の２６個の音素の認識タス
クによる、話者正規化装置の評価実験とその結果につい
て説明する。実験条件は、表３に示した通りである。

【００８９】

【表３】 ―――――――――――――――――――――――――――――――――― 音響解析 ―――――――――――――――――――――――――――――――――― サンプリング周波数：１２ｋＨｚ、ハミング窓：２０ｍｓ、フレーム期間：５ｍｓ、フィルタバンクの次数：１６、パラメータ：対数パワー＋１２次ＭＦＣＣ＋Δ対数パワー＋１２次ΔＭＦＣ ―――――――――――――――――――――――――――――――――― ＨＭＭのトポロジー ―――――――――――――――――――――――――――――――――― １０００状態が連結された状態コンテキスト依存型ＨＭＭ（ＨＭ網）、ここで、３状態の１０混合ポーズモデルを備える ―――――――――――――――――――――――――――――――――― ＶＴパラメータの推定データ ―――――――――――――――――――――――――――――――――― ２語「ｙ−ｕ−ｕ−ｚ−ａ−ａ」、「ｆ−ａ−ｍ−ｉ−ｒ−ｉ−ｉ」から抽出した日本語の２母音／ａ／、／ｉ／。 ―――――――――――――――――――――――――――――――――― 学習データ ―――――――――――――――――――――――――――――――――― 男性話者１２８名（１名につき５０文） ―――――――――――――――――――――――――――――――――― 音声認識データ ―――――――――――――――――――――――――――――――――― ランダム：男性話者１０名（１名につき５０文）（男性話者１４８名の中から無作為に選出）ワースト１０：男性話者１０名（１名につき５０文）（男性話者１４８名の中のワースト話者１０名） ――――――――――――――――――――――――――――――――――

【００９０】実験においては、本出願人が所有する、文
章音声データベースを使用している。２タイプのテスト
話者セットに従って、このデータベースの話者１４８名
の中から、（１）無作為の話者１０名（ランダム）、
（２）性別依存型ＨＭＭを使用して男性話者１４８名全
員の音声データに関して行った音声認識実験において精
度が最も悪かった話者１０名（ワースト１０）を選択す
る。残りの話者１２８名のデータが、話者正規化ＨＭＭ
の学習に使用される。こうしたＨＭＭを、１２８名の男
性話者が発話する５０の日本語文章（合計２７７４音
素）について学習した。

【００９１】音素認識実験は、ワンパスビタビアルゴリ
ズムを使用して、音素対文法として表される日本語音節
の制約を用いて実行する。試験データは、各話者につき
５０文章（合計２９０５個の音素）で構成されている。

【００９２】表４は、幾つかの別々の話者正規化方法を
使用して取得した音素誤認識率を示している。５ガウス
混合を有する話者正規化されたＨＭＭが、以下の話者正
規化方法を使用して学習されている。（１）性別依存モ
デル（ＧＤモデル）、（２）声道長正規化モデル（ＶＴ
ＬＮモデル）、（３）音素独立話者正規化モデル（Ｌ１
Ｌ２ＰＩモデル）及び（４）音素依存話者正規化モデ
ル（Ｌ１Ｌ２ＰＤモデル）。

【００９３】上記ＶＴＬＮの場合においては、周波数ワ
ーピング関数は、次式で表される。

【数１９】ｆ’＝（Ａｖｅ（ＶＴＬ_training））／ＶＴ
Ｌ_target×ｆここで、ＶＴＬ_targetは目標話者の声道長であり、Ａｖ
ｅ（ＶＴＬ_training）は１２８人の学習話者の声道長の
平均値である。また、周波数ワーピング関数及び話者正
規化の方法は、基準話者の音響特性に強く影響される。
こうした要因を低減するため、本実験では、類似音素環
境毎に学習話者１２８名の声道断面積関数から音声のフ
ォルマント周波数を求め、その平均値と正規化しようと
する話者のフォルマント周波数が対応するように、周波
数ワーピング関数を求めている。この実験結果を表４に
示す。

【００９４】

【表４】４つの話者正規化方法を用いたときの音素誤認識率 ―――――――――――――――――――――――――――――――――― テストセットモデルランダムワースト１０平均値 ―――――――――――――――――――――――――――――――――― ＧＤ１５．３６％２８．１６％２１．７６％ＶＴＬＮ１４．４６％２５．２３％１９．８４％Ｌ１Ｌ２ＰＩ１４．５４％２５．３０％１９．９２％Ｌ１Ｌ２ＰＤ１４．４５％２５．０１％１９．７３％ ――――――――――――――――――――――――――――――――――

【００９５】表４から明らかなように、実験結果は、様
々な話者正規化方法が、ＧＤモデルに比べて音素誤認識
率を８．５−９．５％低減していることを示している。
最大の誤認識の低減をもたらしているのは、音素依存話
者正規化方法（Ｌ１Ｌ２ＰＤモデル）であり、これは
音声誤認識率を、テストセット「ランダム」では６．３
％、テストセット「ワースト１０」では１１％低減させ
ている。

【００９６】さらに、声道長に基づいた話者正規化の提
案方法と、従来のデータ駆動式の話者適応化方法とを比
較した。公知の移動ベクトル場平滑化法（ＶＦＳ法）に
よって学習された話者適応化モデルを使用して、同じ音
素認識実験を行った。その実験結果を表５に示す。

【００９７】

【表５】話者正規化モデル及び、ＶＦＳ法によりＮ個の文で話者適応化されたモデルを用いて得られた音素誤認識率（％） ―――――――――――――――――――――――――――――――――― ＶＦＳ法（Ｎ個の文で適応化）Ｌ１Ｌ２ＧＤＮ＝１Ｎ＝２Ｎ＝３Ｎ＝６Ｎ＝１０ＰＩＰＤ ―――――――――――――――――――――――――――――――――― 28.16 27.13 25.82 25.42 22.96 20.38 25.30 25.01 ――――――――――――――――――――――――――――――――――

【００９８】表５は、テストセット「ワースト１０」の
音素誤認識率を示している。表５から明らかなように、
ＶＦＳ法では、音声データ量の変更により適応化を行っ
て学習された話者適応化モデルを実験に使用した。実験
結果は、本発明では、話者正規化に使用する声道パラメ
ータの推定には各話者２つの母音しか必要としないが、
３文程度の適応用文章を用いＶＦＳ法により話者適応を
行ったモデルと同等の性能を得られることを示してい
る。

【００９９】以上説明したように、声道モデルを基礎と
した声道形状寸法パラメータを使用する音声認識のため
の話者正規化方法を用いた話者正規化装置を開示してい
る。ここで、話者の音響特性の正規化には、基準話者の
声道モデルを変形して概算される各話者の声道の幾何学
的形状を有するフォルマント周波数に基づいて推定され
る非線形周波数ワーピング関数を使用する。当該正規化
方法は、さらに、声道モデルのパラメータを操作するこ
とにより、個々の音素特有の詳細な非線形周波数ワーピ
ング関数を提供する。日本語の音素認識実験の結果は、
我々の新しい話者正規化方法が、ＧＤモデルに比べて音
素誤認識率を９．５％低減させることを示している。ま
た、本方法は、従来例のデータ駆動式話者適応化方法及
び正規化方法よりも性能において卓越し、一方で話者正
規化パラメータの推定に必要な適応化のデータ量を大幅
に低減させている。

【０１００】すなわち、第２の実施形態に係る、各類似
音素環境毎の周波数ワーピング関数を用いて音素認識す
ることにより、大幅に改善された音素認識率を得ること
ができるとともに、話者正規化パラメータの推定に必要
な適応化のデータ量を大幅に低減させることができる。

【０１０１】

【発明の効果】以上詳述したように本発明に係る請求項
１記載の話者正規化処理装置によれば、複数の正規化対
象話者の音声波形データとそれに対応するテキストデー
タを記憶する第１の記憶装置と、標準話者の声道面積関
数に基づいて決められた標準話者のフォルマント周波数
を記憶する第２の記憶装置と、上記第１の記憶装置に記
憶された各正規化対象話者の音声波形データに基づい
て、各正規化対象話者の声道の解剖学的形状である声道
形状の特徴量を、上記標準話者の声道モデルに基づいて
予め決められた声道形状パラメータとフォルマント周波
数との間の対応関係を参照して推定する推定手段と、上
記推定手段によって推定された各正規化対象話者の声道
形状の特徴量と、上記標準話者の声道形状の特徴量とに
基づいて、上記標準話者の声道形状の特徴量を変化させ
ることにより、各正規化対象話者の声道面積関数を推定
し、推定された各正規化対象話者の声道面積関数に基づ
いて各正規化対象話者が発声する音声のフォルマント周
波数を推定し、周波数ワーピング後の各正規化対象話者
の音声のフォルマント周波数が上記第２の記憶装置に記
憶された標準話者の対応するフォルマント周波数と一致
するように入力音声周波数を変換して周波数ワーピング
するための、入力音声周波数と周波数ワーピング後の周
波数の対応関係を示す周波数ワーピング関数を生成する
関数生成手段とを備える。従って、発声音声のフォルマ
ント周波数から抽出された、声道形状の特徴量と、音声
の生成モデルから周波数ワーピング関数を生成できるた
め少量の音声データに基づく話者正規化が可能となる。
また、尤度に基づく周波数ワーピング関数の選択法（従
来例）のように予め周波数ワーピング関数の形状を指定
する必要がないため、より詳細な周波数ワーピング関数
を生成できる。このため、本発明の方法を基に作成した
周波数ワーピング関数を用いることで、高速かつ性能の
高い話者適応が実現可能である。さらには、音声認識時
に、認識すべき音声信号データに対して、対応する周波
数ワーピング関数を用いて話者正規化した後特徴抽出
し、話者正規化しかつ学習されたＨＭＭを用いて音声認
識するので、従来例に比較してより高い音声認識率で音
声認識することができる。

【０１０２】また、本発明に係る請求項２記載の話者正
規化処理装置によれば、複数の学習話者の音声波形デー
タとそれに対応するテキストデータを記憶する第１の記
憶装置と、標準話者の声道面積関数に基づいて決められ
た標準話者のフォルマント周波数を記憶する第２の記憶
装置と、上記第１の記憶装置に記憶された各学習話者の
音声波形データに基づいて、各学習話者の声道の解剖学
的形状である声道形状の特徴量を、上記標準話者の声道
モデルに基づいて予め決められた声道形状パラメータと
フォルマント周波数との間の対応関係を参照して推定す
る第１の推定手段と、上記第１の推定手段によって推定
された各学習話者の声道形状の特徴量と、上記標準話者
の声道形状の特徴量とに基づいて、上記標準話者の声道
形状の特徴量を変化させることにより、各学習話者の声
道面積関数を推定し、推定された各学習話者の声道面積
関数に基づいて各学習話者が発声する音声のフォルマン
ト周波数を推定し、周波数ワーピング後の各学習話者の
音声のフォルマント周波数が上記第２の記憶装置に記憶
された標準話者の対応するフォルマント周波数と一致す
るように入力音声周波数を変換して周波数ワーピングす
るための、入力音声周波数と周波数ワーピング後の周波
数の対応関係を示す周波数ワーピング関数を生成する第
１の関数生成手段と、上記第１の記憶装置に記憶された
各学習話者の音声波形データに対して、上記第１の関数
生成手段によって生成された各学習話者の周波数ワーピ
ング関数を用いて周波数ワーピング処理を実行して話者
正規化した後、話者正規化後の音声波形データから各学
習話者の所定の音響的特徴パラメータを抽出する第１の
抽出手段と、上記第１の抽出手段によって抽出された各
学習話者の音響的特徴パラメータと、上記第１の記憶装
置に記憶されたテキストデータとに基づいて、所定の学
習アルゴリズムを用いて、所定の初期の隠れマルコフモ
デルを学習することにより、正規化された隠れマルコフ
モデルを生成する学習手段とを備える。従って、発声音
声のフォルマント周波数から抽出された、声道形状の特
徴量と、音声の生成モデルから周波数ワーピング関数を
生成できるため少量の音声データに基づく話者正規化が
可能となる。また、尤度に基づく周波数ワーピング関数
の選択法（従来例）のように予め周波数ワーピング関数
の形状を指定する必要がないため、より詳細な周波数ワ
ーピング関数を生成できる。このため、本発明の方法を
基に作成した周波数ワーピング関数を用いることで、高
速かつ性能の高い話者適応が実現可能である。さらに
は、音声認識時に、認識すべき音声信号データに対し
て、対応する周波数ワーピング関数を用いて話者正規化
した後特徴抽出し、話者正規化しかつ学習されたＨＭＭ
を用いて音声認識するので、従来例に比較してより高い
音声認識率で音声認識することができる。

【０１０３】また、本発明に係る請求項５記載の音声認
識装置によれば、請求項２乃至４のうち１つに記載の話
者正規化処理装置を備え、上記話者正規化処理装置によ
って生成された隠れマルコフモデルを用いて、入力され
た認識話者の発声音声を音声認識する音声認識装置であ
って、入力される認識話者の学習用音声波形データに基
づいて、認識話者の声道の解剖学的形状である声道形状
の特徴量を、上記標準話者の声道モデルに基づいて予め
決められた声道形状パラメータとフォルマント周波数と
の間の対応関係を参照して推定する第２の推定手段と、
上記第２の推定手段によって推定された認識話者の声道
形状の特徴量と、上記標準話者の声道形状の特徴量とに
基づいて、上記標準話者の声道形状の特徴量を変化させ
ることにより、各認識話者の声道面積関数を推定し、推
定された各認識話者の声道面積関数に基づいて各認識話
者が発声する音声のフォルマント周波数を推定し、周波
数ワーピング後の各認識話者の音声のフォルマント周波
数が上記第２の記憶装置に記憶された標準話者の対応す
るフォルマント周波数と一致するように入力音声周波数
を変換して周波数ワーピングするための、入力音声周波
数と周波数ワーピング後の周波数の対応関係を示す認識
話者の周波数ワーピング関数を生成する第２の関数生成
手段と、上記第２の関数生成手段によって生成された認
識話者の周波数ワーピング関数を記憶する第３の記憶装
置と、認識すべき認識話者の発声音声の音声波形データ
に対して、上記第３の記憶装置に記憶された認識話者の
周波数ワーピング関数を用いて周波数ワーピング処理を
実行して話者正規化した後、話者正規化後の音声波形デ
ータから認識話者の所定の音響的特徴パラメータを抽出
する第２の抽出手段と、上記第２の抽出手段によって抽
出された音響的特徴パラメータに基づいて、上記話者正
規化処理装置によって生成された隠れマルコフモデルを
用いて、上記入力された認識話者の発声音声を音声認識
して音声認識結果を出力する音声認識手段とを備える。
従って、音声認識時に、認識すべき音声信号データに対
して、対応する周波数ワーピング関数を用いて話者正規
化した後特徴抽出し、話者正規化しかつ学習されたＨＭ
Ｍを用いて音声認識するので、従来例に比較してより高
い音声認識率で音声認識することができる。

【０１０４】また、本発明に係る請求項６記載の話者正
規化処理装置によれば、複数の正規化対象話者の音声波
形データとそれに対応するテキストデータを記憶する第
１の記憶装置と、標準話者の声道面積関数に基づいて決
められた標準話者のフォルマント周波数を記憶する第２
の記憶装置と、上記第１の記憶装置に記憶された各正規
化対象話者の音声波形データに基づいて、各正規化対象
話者の声道の解剖学的形状である声道形状の特徴量を、
上記標準話者の声道モデルに基づいて予め決められた声
道形状パラメータとフォルマント周波数との間の対応関
係を参照して、音響的特徴の類似した所定の類似音素環
境毎に推定する推定手段と、上記推定手段によって推定
された各正規化対象話者の類似音素環境毎の声道形状の
特徴量と、上記標準話者の声道形状の特徴量とに基づい
て、上記標準話者の声道形状の特徴量を変化させること
により、各正規化対象話者の声道面積関数を類似音素環
境毎に推定し、推定された各正規化対象話者の類似音素
環境毎の声道面積関数に基づいて各正規化対象話者が発
声する音声のフォルマント周波数を類似音素環境毎に推
定し、周波数ワーピング後の各正規化対象話者の音声の
フォルマント周波数が上記第２の記憶装置に記憶された
標準話者の対応するフォルマント周波数と一致するよう
に入力音声周波数を変換して周波数ワーピングするため
の、入力音声周波数と周波数ワーピング後の周波数の対
応関係を示す周波数ワーピング関数を類似音素環境毎に
生成する関数生成手段とを備える。従って、発声音声の
フォルマント周波数から抽出された、声道形状の特徴量
と、音声の生成モデルから周波数ワーピング関数を生成
できるため少量の音声データに基づく話者正規化が可能
となる。また、尤度に基づく周波数ワーピング関数の選
択法（従来例）のように予め周波数ワーピング関数の形
状を指定する必要がないため、より詳細な周波数ワーピ
ング関数を生成できる。このため、本発明の方法を基に
作成した周波数ワーピング関数を用いることで、高速か
つ性能の高い話者適応が実現可能である。さらには、音
声認識時に、認識すべき音声信号データに対して、対応
する周波数ワーピング関数を用いて話者正規化した後特
徴抽出し、話者正規化しかつ学習されたＨＭＭを用いて
音声認識するので、従来例に比較してより高い音声認識
率で音声認識することができる。また、類似音素環境毎
に周波数ワーピング関数を生成しているので、音声認識
時に、自由度を広げることができ、より近接した類似音
素環境に対応する周波数ワーピング関数を用いて特徴抽
出した音響的特徴パラメータを用いて音素認識すること
ができる。これにより、音素認識率を従来例及び第１の
実施形態に比較して大幅に向上させることができる。

【０１０５】さらに、本発明に係る請求項７記載の話者
正規化処理装置によれば、複数の学習話者の音声波形デ
ータとそれに対応するテキストデータを記憶する第１の
記憶装置と、標準話者の声道面積関数に基づいて決めら
れた標準話者の音響的特徴の類似した所定の類似音素環
境毎のフォルマント周波数を記憶する第２の記憶装置
と、上記第１の記憶装置に記憶された各学習話者の音声
波形データに基づいて、各学習話者の声道の解剖学的形
状である声道形状の特徴量を、上記標準話者の声道モデ
ルに基づいて予め決められた声道形状パラメータとフォ
ルマント周波数との間の対応関係を参照して類似音素環
境毎に推定する第１の推定手段と、上記第１の推定手段
によって推定された各学習話者の類似音素環境毎の声道
形状の特徴量と、上記標準話者の声道形状の特徴量とに
基づいて、上記標準話者の声道形状の特徴量を変化させ
ることにより、各学習話者の声道面積関数を類似音素環
境毎に推定し、推定された各学習話者の類似音素環境毎
の声道面積関数に基づいて各学習話者が発声する音声の
フォルマント周波数を類似音素環境毎に推定し、周波数
ワーピング後の各学習話者の音声のフォルマント周波数
が上記第２の記憶装置に記憶された標準話者の対応する
フォルマント周波数と一致するように入力音声周波数を
変換して周波数ワーピングするための、入力音声周波数
と周波数ワーピング後の周波数の対応関係を示す周波数
ワーピング関数を類似音素環境毎に生成する第１の関数
生成手段と、上記第１の記憶装置に記憶された各学習話
者の音声波形データに対して、上記第１の関数生成手段
によって生成された各学習話者の類似音素環境毎の周波
数ワーピング関数を用いて周波数ワーピング処理を実行
して話者正規化した後、話者正規化後の音声波形データ
から各学習話者の所定の音響的特徴パラメータを類似音
素環境毎に抽出する第１の抽出手段と、上記第１の抽出
手段によって抽出された各学習話者の類似音素環境毎の
音響的特徴パラメータと、上記第１の記憶装置に記憶さ
れたテキストデータとに基づいて、所定の学習アルゴリ
ズムを用いて、所定の初期の隠れマルコフモデルを学習
することにより、正規化された隠れマルコフモデルを生
成する学習手段とを備える。従って、発声音声のフォル
マント周波数から抽出された、声道形状の特徴量と、音
声の生成モデルから周波数ワーピング関数を生成できる
ため少量の音声データに基づく話者正規化が可能とな
る。また、尤度に基づく周波数ワーピング関数の選択法
（従来例）のように予め周波数ワーピング関数の形状を
指定する必要がないため、より詳細な周波数ワーピング
関数を生成できる。このため、本発明の方法を基に作成
した周波数ワーピング関数を用いることで、高速かつ性
能の高い話者適応が実現可能である。さらには、音声認
識時に、認識すべき音声信号データに対して、対応する
周波数ワーピング関数を用いて話者正規化した後特徴抽
出し、話者正規化しかつ学習されたＨＭＭを用いて音声
認識するので、従来例に比較してより高い音声認識率で
音声認識することができる。また、類似音素環境毎に周
波数ワーピング関数を生成しているので、音声認識時
に、自由度を広げることができ、より近接した類似音素
環境に対応する周波数ワーピング関数を用いて特徴抽出
した音響的特徴パラメータを用いて音素認識することが
できる。これにより、音素認識率を従来例及び第１の実
施形態に比較して大幅に向上させることができる。

【０１０６】またさらに、本発明に係る請求項１０記載
の音声認識装置によれば、請求項７乃至９のうち１つに
記載の話者正規化処理装置を備え、上記話者正規化処理
装置によって生成された隠れマルコフモデルを用いて、
入力された認識話者の発声音声を音声認識する音声認識
装置であって、入力される認識話者の学習用音声波形デ
ータに基づいて、認識話者の声道の解剖学的形状である
声道形状の特徴量を、上記標準話者の声道モデルに基づ
いて予め決められた声道形状パラメータとフォルマント
周波数との間の対応関係を参照して類似音素環境毎に推
定する第２の推定手段と、上記第２の推定手段によって
推定された認識話者の類似音素環境毎の声道形状の特徴
量と、上記標準話者の声道形状の特徴量とに基づいて、
上記標準話者の声道形状の特徴量を変化させることによ
り、各認識話者の声道面積関数を類似音素環境毎に推定
し、推定された各認識話者の類似音素環境毎の声道面積
関数に基づいて各認識話者が発声する音声のフォルマン
ト周波数を類似音素環境毎に推定し、周波数ワーピング
後の各認識話者の音声のフォルマント周波数が上記第２
の記憶装置に記憶された標準話者の対応するフォルマン
ト周波数と一致するように入力音声周波数を変換して周
波数ワーピングするための、入力音声周波数と周波数ワ
ーピング後の周波数の対応関係を示す認識話者の周波数
ワーピング関数を類似音素環境毎に生成するとともに、
類似音素環境と周波数ワーピング関数との間の対応関係
の情報を生成する第２の関数生成手段と、上記第２の関
数生成手段によって生成された認識話者の類似音素環境
毎の周波数ワーピング関数を記憶する第３の記憶装置
と、上記第２の関数生成手段によって生成された認識話
者の類似音素環境と周波数ワーピング関数との間の対応
関係の情報を記憶する第４の記憶装置と、認識すべき認
識話者の発声音声の音声波形データに対して、上記第３
の記憶装置に記憶された認識話者の類似音素環境毎の周
波数ワーピング関数を用いて周波数ワーピング処理を実
行して話者正規化した後、話者正規化後の音声波形デー
タから認識話者の所定の音響的特徴パラメータを類似音
素環境毎に抽出する第２の抽出手段と、上記第２の抽出
手段によって抽出された類似音素環境毎の音響的特徴パ
ラメータに基づいて、第４の記憶装置に記憶された認識
話者の類似音素環境と周波数ワーピング関数との間の対
応関係の情報を参照して、上記話者正規化処理装置によ
って生成された隠れマルコフモデルを用いて、上記入力
された認識話者の発声音声を音声認識して音声認識結果
を出力する音声認識手段とを備える。従って、音声認識
時に、認識すべき音声信号データに対して、対応する周
波数ワーピング関数を用いて話者正規化した後特徴抽出
し、話者正規化しかつ学習されたＨＭＭを用いて音声認
識するので、従来例に比較してより高い音声認識率で音
声認識することができる。また、類似音素環境毎に周波
数ワーピング関数を生成しているので、音声認識時に、
自由度を広げることができ、より近接した類似音素環境
に対応する周波数ワーピング関数を用いて特徴抽出した
音響的特徴パラメータを用いて音素認識することができ
る。これにより、音素認識率を従来例及び第１の実施形
態に比較して大幅に向上させることができる。

【図面の簡単な説明】

【図１】本発明に係る第１の実施形態である音声認識
装置の構成を示すブロック図である。

【図２】図１の声道形状推定部１０によって実行され
る声道形状推定処理を示すフローチャートである。

【図３】図１の周波数ワーピング関数生成部１１によ
って実行される周波数ワーピング関数生成処理を示すフ
ローチャートである。

【図４】図１の話者正規化処理部１２によって実行さ
れる話者正規化処理を示すフローチャートである。

【図５】図１の特徴抽出部３によって実行される特徴
抽出処理を示すフローチャートである。

【図６】図５のサブルーチンである周波数ワーピング
処理を示すフローチャートである。

【図７】（ａ）は人間の声道形状を示す断面図であ
り、（ｂ）はそれをモデル化した、声道形状の断面ＳＭ
ｍのモデルＳＭｍ’を示す断面図である。

【図８】図２の声道形状推定処理によって実行される
声道形状パラメータの伸縮率空間とフォルマント周波数
空間のマッピング手法を示す図であって、（ａ）は声道
形状パラメータの伸縮率空間を示す図であり、（ｂ）は
フォルマント周波数空間を示す図である。

【図９】図２の声道形状推定処理によって実行される
声道形状パラメータの推定方法を示す図であって、
（ａ）は声道形状パラメータの伸縮率空間を示す図であ
り、（ｂ）はフォルマント周波数空間を示す図である。

【図１０】（ａ）は図１の声道形状推定部１０による
声道形状推定処理で用いる声道形状の声道面積関数を示
す断面図であり、（ｂ）はその声道形状の声道の断面ｎ
−１から断面ｎまでの声道断面積Ａ（ｎ）を示す断面積
である。

【図１１】図１の声道形状推定部１０による声道形状
推定処理で用いる声道モデルの等価回路を示す回路図で
ある。

【図１２】図１の周波数ワーピング関数生成部１１に
おいて用いられる声道モデルを用いた周波数ワーピング
関数の推定方法を示す、入力音声の周波数に対する周波
数ワーピング後の周波数のグラフである。

【図１３】図１の特徴抽出部３によって実行される周
波数ワーピング処理を示すグラフであって、（ａ）は周
波数ワーピング関数の平面のグラフであり、（ｂ）はＦ
ＦＴ平面のグラフである。

【図１４】図１の音声認識装置で用いる周波数ワーピ
ング関数の一例を示すグラフであって、入力音声の周波
数に対する話者正規化された周波数ワーピング後の周波
数のグラフである。

【図１５】図１の音声認識装置の実験結果であって、
周波数ワーピング前のフォルマント周波数（母音／ａ／
のとき）別の話者数の分布を示すグラフである。

【図１６】図１の音声認識装置の実験結果であって、
周波数ワーピング後のフォルマント周波数（母音／ａ／
のとき）別の話者数の分布を示すグラフである。

【図１７】従来例の尤度に基づく周波数ワーピング関
数の選択方法を用いる話者正規化処理装置の構成を示す
ブロック図である。

【図１８】従来例の周波数ワーピング関数の一例を示
すグラフである。

【図１９】本発明に係る実施形態で用いることができ
る声道形状に関する変形された前田モデルを示す図であ
る。

【図２０】本発明に係る第２の実施形態である音声認
識装置の構成を示すブロック図である。

【図２１】第２の実施形態で用いる音素毎の周波数ワ
ーピング関数の一例を示すグラフであって、話者正規化
された周波数ワーピング後の周波数に対する入力音声の
周波数のグラフである。

【図２２】第２の実施形態で用いる母音／ａ／の周波
数ワーピング関数の一例を示すグラフであって、話者正
規化された周波数ワーピング後の周波数に対する入力音
声の周波数のグラフである。

【図２３】第２の実施形態で用いる母音／ｉ／の周波
数ワーピング関数の一例を示すグラフであって、話者正
規化された周波数ワーピング後の周波数に対する入力音
声の周波数のグラフである。

【図２４】第２の実施形態で用いる母音／ｕ／の周波
数ワーピング関数の一例を示すグラフであって、話者正
規化された周波数ワーピング後の周波数に対する入力音
声の周波数のグラフである。

【図２５】第２の実施形態で用いる母音／ｅ／の周波
数ワーピング関数の一例を示すグラフであって、話者正
規化された周波数ワーピング後の周波数に対する入力音
声の周波数のグラフである。

【符号の説明】

１…マイクロホン、２…Ａ／Ｄ変換器、３，３ａ…特徴抽出部、４，７…バッファメモリ、５，５ａ…音素照合部、６…ＬＲパーザ、８…ＬＲテーブルメモリ、９…文脈自由文法メモリ（ＣＦＧメモリ）、１０…声道形状推定部、１１，１１ａ…周波数ワーピング関数生成部、１２，１２ａ…話者正規化処理部、２１…空間対応テーブルメモリ、２２…音声波形データメモリ、２３…テキストデータメモリ、２４…隠れマルコフ網メモリ（ＨＭ網メモリ）、２５，２５ａ…周波数ワーピング関数メモリ、２６…標準話者フォルマント周波数メモリ、２７，２７ａ…周波数ワーピング関数メモリ、２８…バッファメモリ、２９…初期ＨＭ網メモリ、４１…類似音素環境テーブルメモリ、４２…ＨＭＭの状態と周波数ワーピング関数との対応テ
ーブルメモリ、ＳＷ１…スイッチ。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号ＦＩＧ１０Ｌ 9/10 ３０１Ｇ１０Ｌ 9/10 ３０１Ａ 9/16 ３０１ 9/16 ３０１Ａ (72)発明者匂坂芳典京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール音声翻訳通信研究所内 (56)参考文献特許2965537（ＪＰ，Ｂ２) 日本音響学会平成10年度春季研究発表会講演論文集▲Ｉ▼ ２−６−１「声道形状の特徴量に着目した話者適応手法」ｐ．55−56（平成10年３月17日) Ｐｒｏｃｅｅｄｉｎｇｓｏｆ 1997 ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，”ＳｐｅａｋｅｒＮｏｒｍａｌｉｚａｔｉｏｎＢａｓｅｄｏｎＦｒｅｑｕｅｎｃｙＷａｒｐｉｎｇ”ｐ. 1039−1042 情報処理学会研究報告［音声言語情報処理］Ｖｏｌ．97．Ｎｏ．120．ＳＬＰ −19，「声道の特徴量を用いた話者クラスタリング手法の検討」ｐ．35−40 （1997年12月11日発行) 電子情報通信学会技術研究報告［言語理解とコミュニケーション］Ｖｏｌ. 97，Ｎｏ．439，ＮＬＣ97−40，「声道の特徴量を用いた話者クラスタリング手法の検討」ｐ．35−40（1997年12月11日発行) 電子情報通信学会技術研究報告［音声］Ｖｏｌ．97，Ｎｏ．441，ＳＰ97−73, 「声道の特徴量を用いた話者クラスタリング手法の検討」ｐ．35−40（1997年12 月11日発行) 電子技術総合研究所彙報Ｖｏｌ. 48，Ｎｏ．１＆２，”ＶｏｗｅｌＣｏｎｓｔａｎｃｙｏｎＡｎｔｉｍｅｔｒｉｃａｌＶｏｃａｌＴｒａｃｔＳｈａｐｅｓｂｅｔｗｅｅｎＭａｌｅｓａｎｄＦｅｍａｌｅｓ”，ｐ. 17−21，1984 電子技術総合研究所彙報Ｖｏｌ. 48，Ｎｏ．１＆２，”ＶｏｗｅｌＣｏｎｓｔａｎｃｙｏｎＡｎｔｉｍｅｔｒｉｃａｌＶｏｃａｌＴｒａｃｔＳｈａｐｅｓａｍｏｎｇＭａｌｅｓａｎｄＦｅｍａｌｅｓａｎｄＣｈｉｌｄｒｅｎ”，ｐ．46−50，1984 (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 - 9/20 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】複数の正規化対象話者の音声波形データ
とそれに対応するテキストデータを記憶する第１の記憶
装置と、標準話者の声道面積関数に基づいて決められた標準話者
のフォルマント周波数を記憶する第２の記憶装置と、上記第１の記憶装置に記憶された各正規化対象話者の音
声波形データに基づいて、各正規化対象話者の声道の解
剖学的形状である声道形状の特徴量を、上記標準話者の
声道モデルに基づいて予め決められた声道形状パラメー
タとフォルマント周波数との間の対応関係を参照して推
定する推定手段と、上記推定手段によって推定された各正規化対象話者の声
道形状の特徴量と、上記標準話者の声道形状の特徴量と
に基づいて、上記標準話者の声道形状の特徴量を変化さ
せることにより、各正規化対象話者の声道面積関数を推
定し、推定された各正規化対象話者の声道面積関数に基
づいて各正規化対象話者が発声する音声のフォルマント
周波数を推定し、周波数ワーピング後の各正規化対象話
者の音声のフォルマント周波数が上記第２の記憶装置に
記憶された標準話者の対応するフォルマント周波数と一
致するように入力音声周波数を変換して周波数ワーピン
グするための、入力音声周波数と周波数ワーピング後の
周波数の対応関係を示す周波数ワーピング関数を生成す
る関数生成手段とを備えたことを特徴とする話者正規化
処理装置。
【請求項２】複数の学習話者の音声波形データとそれ
に対応するテキストデータを記憶する第１の記憶装置
と、標準話者の声道面積関数に基づいて決められた標準話者
のフォルマント周波数を記憶する第２の記憶装置と、上記第１の記憶装置に記憶された各学習話者の音声波形
データに基づいて、各学習話者の声道の解剖学的形状で
ある声道形状の特徴量を、上記標準話者の声道モデルに
基づいて予め決められた声道形状パラメータとフォルマ
ント周波数との間の対応関係を参照して推定する第１の
推定手段と、上記第１の推定手段によって推定された各学習話者の声
道形状の特徴量と、上記標準話者の声道形状の特徴量と
に基づいて、上記標準話者の声道形状の特徴量を変化さ
せることにより、各学習話者の声道面積関数を推定し、
推定された各学習話者の声道面積関数に基づいて各学習
話者が発声する音声のフォルマント周波数を推定し、周
波数ワーピング後の各学習話者の音声のフォルマント周
波数が上記第２の記憶装置に記憶された標準話者の対応
するフォルマント周波数と一致するように入力音声周波
数を変換して周波数ワーピングするための、入力音声周
波数と周波数ワーピング後の周波数の対応関係を示す周
波数ワーピング関数を生成する第１の関数生成手段と、上記第１の記憶装置に記憶された各学習話者の音声波形
データに対して、上記第１の関数生成手段によって生成
された各学習話者の周波数ワーピング関数を用いて周波
数ワーピング処理を実行して話者正規化した後、話者正
規化後の音声波形データから各学習話者の所定の音響的
特徴パラメータを抽出する第１の抽出手段と、上記第１の抽出手段によって抽出された各学習話者の音
響的特徴パラメータと、上記第１の記憶装置に記憶され
たテキストデータとに基づいて、所定の学習アルゴリズ
ムを用いて、所定の初期の隠れマルコフモデルを学習す
ることにより、正規化された隠れマルコフモデルを生成
する学習手段とを備えたことを特徴とする話者正規化処
理装置。
【請求項３】請求項２記載の話者正規化処理装置にお
いて、上記声道形状の特徴量は、話者の声道の口腔側の第１の
長さと、その咽頭腔側の第２の長さとであることを特徴
とする話者正規化処理装置。
【請求項４】請求項２又は３記載の話者正規化処理装
置において、上記音響的特徴パラメータは、メル周波数ケプストラム
係数であることを特徴とする話者正規化処理装置。
【請求項５】請求項２乃至４のうち１つに記載の話者
正規化処理装置を備え、上記話者正規化処理装置によって生成された隠れマルコ
フモデルを用いて、入力された認識話者の発声音声を音
声認識する音声認識装置であって、入力される認識話者の学習用音声波形データに基づい
て、認識話者の声道の解剖学的形状である声道形状の特
徴量を、上記標準話者の声道モデルに基づいて予め決め
られた声道形状パラメータとフォルマント周波数との間
の対応関係を参照して推定する第２の推定手段と、上記第２の推定手段によって推定された認識話者の声道
形状の特徴量と、上記標準話者の声道形状の特徴量とに
基づいて、上記標準話者の声道形状の特徴量を変化させ
ることにより、各認識話者の声道面積関数を推定し、推
定された各認識話者の声道面積関数に基づいて各認識話
者が発声する音声のフォルマント周波数を推定し、周波
数ワーピング後の各認識話者の音声のフォルマント周波
数が上記第２の記憶装置に記憶された標準話者の対応す
るフォルマント周波数と一致するように入力音声周波数
を変換して周波数ワーピングするための、入力音声周波
数と周波数ワーピング後の周波数の対応関係を示す認識
話者の周波数ワーピング関数を生成する第２の関数生成
手段と、上記第２の関数生成手段によって生成された認識話者の
周波数ワーピング関数を記憶する第３の記憶装置と、認識すべき認識話者の発声音声の音声波形データに対し
て、上記第３の記憶装置に記憶された認識話者の周波数
ワーピング関数を用いて周波数ワーピング処理を実行し
て話者正規化した後、話者正規化後の音声波形データか
ら認識話者の所定の音響的特徴パラメータを抽出する第
２の抽出手段と、上記第２の抽出手段によって抽出された音響的特徴パラ
メータに基づいて、上記話者正規化処理装置によって生
成された隠れマルコフモデルを用いて、上記入力された
認識話者の発声音声を音声認識して音声認識結果を出力
する音声認識手段とを備えたことを特徴とする音声認識
装置。
【請求項６】複数の正規化対象話者の音声波形データ
とそれに対応するテキストデータを記憶する第１の記憶
装置と、標準話者の声道面積関数に基づいて決められた標準話者
のフォルマント周波数を記憶する第２の記憶装置と、上記第１の記憶装置に記憶された各正規化対象話者の音
声波形データに基づいて、各正規化対象話者の声道の解
剖学的形状である声道形状の特徴量を、上記標準話者の
声道モデルに基づいて予め決められた声道形状パラメー
タとフォルマント周波数との間の対応関係を参照して、
音響的特徴の類似した所定の類似音素環境毎に推定する
推定手段と、上記推定手段によって推定された各正規化対象話者の類
似音素環境毎の声道形状の特徴量と、上記標準話者の声
道形状の特徴量とに基づいて、上記標準話者の声道形状
の特徴量を変化させることにより、各正規化対象話者の
声道面積関数を類似音素環境毎に推定し、推定された各
正規化対象話者の類似音素環境毎の声道面積関数に基づ
いて各正規化対象話者が発声する音声のフォルマント周
波数を類似音素環境毎に推定し、周波数ワーピング後の
各正規化対象話者の音声のフォルマント周波数が上記第
２の記憶装置に記憶された標準話者の対応するフォルマ
ント周波数と一致するように入力音声周波数を変換して
周波数ワーピングするための、入力音声周波数と周波数
ワーピング後の周波数の対応関係を示す周波数ワーピン
グ関数を類似音素環境毎に生成する関数生成手段とを備
えたことを特徴とする話者正規化処理装置。
【請求項７】複数の学習話者の音声波形データとそれ
に対応するテキストデータを記憶する第１の記憶装置
と、標準話者の声道面積関数に基づいて決められた標準話者
の音響的特徴の類似した所定の類似音素環境毎のフォル
マント周波数を記憶する第２の記憶装置と、上記第１の記憶装置に記憶された各学習話者の音声波形
データに基づいて、各学習話者の声道の解剖学的形状で
ある声道形状の特徴量を、上記標準話者の声道モデルに
基づいて予め決められた声道形状パラメータとフォルマ
ント周波数との間の対応関係を参照して類似音素環境毎
に推定する第１の推定手段と、上記第１の推定手段によって推定された各学習話者の類
似音素環境毎の声道形状の特徴量と、上記標準話者の声
道形状の特徴量とに基づいて、上記標準話者の声道形状
の特徴量を変化させることにより、各学習話者の声道面
積関数を類似音素環境毎に推定し、推定された各学習話
者の類似音素環境毎の声道面積関数に基づいて各学習話
者が発声する音声のフォルマント周波数を類似音素環境
毎に推定し、周波数ワーピング後の各学習話者の音声の
フォルマント周波数が上記第２の記憶装置に記憶された
標準話者の対応するフォルマント周波数と一致するよう
に入力音声周波数を変換して周波数ワーピングするため
の、入力音声周波数と周波数ワーピング後の周波数の対
応関係を示す周波数ワーピング関数を類似音素環境毎に
生成する第１の関数生成手段と、上記第１の記憶装置に記憶された各学習話者の音声波形
データに対して、上記第１の関数生成手段によって生成
された各学習話者の類似音素環境毎の周波数ワーピング
関数を用いて周波数ワーピング処理を実行して話者正規
化した後、話者正規化後の音声波形データから各学習話
者の所定の音響的特徴パラメータを類似音素環境毎に抽
出する第１の抽出手段と、上記第１の抽出手段によって抽出された各学習話者の類
似音素環境毎の音響的特徴パラメータと、上記第１の記
憶装置に記憶されたテキストデータとに基づいて、所定
の学習アルゴリズムを用いて、所定の初期の隠れマルコ
フモデルを学習することにより、正規化された隠れマル
コフモデルを生成する学習手段とを備えたことを特徴と
する話者正規化処理装置。
【請求項８】請求項７記載の話者正規化処理装置にお
いて、上記声道形状の特徴量は、話者の声道の口腔側から、そ
の咽頭腔までの声道断面のパラメータであることを特徴
とする話者正規化処理装置。
【請求項９】請求項７又は８記載の話者正規化処理装
置において、上記類似音素環境は、母音と、音素と、隠れマルコフモ
デルの状態とのうち少なくとも１つを含むことを特徴と
する話者正規化処理装置。
【請求項１０】請求項７乃至９のうち１つに記載の話
者正規化処理装置を備え、上記話者正規化処理装置によって生成された隠れマルコ
フモデルを用いて、入力された認識話者の発声音声を音
声認識する音声認識装置であって、入力される認識話者の学習用音声波形データに基づい
て、認識話者の声道の解剖学的形状である声道形状の特
徴量を、上記標準話者の声道モデルに基づいて予め決め
られた声道形状パラメータとフォルマント周波数との間
の対応関係を参照して類似音素環境毎に推定する第２の
推定手段と、上記第２の推定手段によって推定された認識話者の類似
音素環境毎の声道形状の特徴量と、上記標準話者の声道
形状の特徴量とに基づいて、上記標準話者の声道形状の
特徴量を変化させることにより、各認識話者の声道面積
関数を類似音素環境毎に推定し、推定された各認識話者
の類似音素環境毎の声道面積関数に基づいて各認識話者
が発声する音声のフォルマント周波数を類似音素環境毎
に推定し、周波数ワーピング後の各認識話者の音声のフ
ォルマント周波数が上記第２の記憶装置に記憶された標
準話者の対応するフォルマント周波数と一致するように
入力音声周波数を変換して周波数ワーピングするため
の、入力音声周波数と周波数ワーピング後の周波数の対
応関係を示す認識話者の周波数ワーピング関数を類似音
素環境毎に生成するとともに、類似音素環境と周波数ワ
ーピング関数との間の対応関係の情報を生成する第２の
関数生成手段と、上記第２の関数生成手段によって生成された認識話者の
類似音素環境毎の周波数ワーピング関数を記憶する第３
の記憶装置と、上記第２の関数生成手段によって生成された認識話者の
類似音素環境と周波数ワーピング関数との間の対応関係
の情報を記憶する第４の記憶装置と、認識すべき認識話者の発声音声の音声波形データに対し
て、上記第３の記憶装置に記憶された認識話者の類似音
素環境毎の周波数ワーピング関数を用いて周波数ワーピ
ング処理を実行して話者正規化した後、話者正規化後の
音声波形データから認識話者の所定の音響的特徴パラメ
ータを類似音素環境毎に抽出する第２の抽出手段と、上記第２の抽出手段によって抽出された類似音素環境毎
の音響的特徴パラメータに基づいて、第４の記憶装置に
記憶された認識話者の類似音素環境と周波数ワーピング
関数との間の対応関係の情報を参照して、上記話者正規
化処理装置によって生成された隠れマルコフモデルを用
いて、上記入力された認識話者の発声音声を音声認識し
て音声認識結果を出力する音声認識手段とを備えたこと
を特徴とする音声認識装置。