JP3412496B2

JP3412496B2 - 話者適応化装置と音声認識装置

Info

Publication number: JP3412496B2
Application number: JP04305198A
Authority: JP
Inventors: 純石井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1998-02-25
Filing date: 1998-02-25
Publication date: 2003-06-03
Anticipated expiration: 2018-02-25
Also published as: US6223159B1; JPH11242494A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、標準パタンを予
め複数用意しておき使用話者音声の特徴に基づき当該標
準パタンを選択する話者適応化装置と選択された使用話
者依存標準パタンを用い音声認識をする音声認識装置と
に関する。

【０００２】

【従来の技術】たとえば文献（小坂ほか：話者適応のた
めの構造話者クラスリング、信学技報、ＳＰ９３−１１
０、１９９３）に示す従来の話者適応化装置は図７のよ
うに、音声特徴量抽出手段１は、別途入力する使用話者
音声１０１に対し音響特徴量分析を施し特徴ベクトル時
系列Ｏｕ＝［ｏｕ（１）、ｏｕ（２）、…、ｏｕ（Ｔ
ｕ）］（Ｔｕは使用話者音声最大フレーム数を表す）を
抽出する。使用話者依存標準パタン選択手段６ａは、音
声特徴量抽出手段１による特徴ベクトル時系列を用い参
照話者依存標準パタン記憶手段９による格納参照話者依
存標準パタンに対し、ＨＭＭ尤度演算を施し選択する最
大尤度値のものを使用話者依存標準パタン１０４として
出力する。参照話者依存標準パタン学習手段７は、別途
用意する参照話者音声データ特徴ベクトル１０２と初期
標準パタン１０３を用い、たとえば移動ベクトル場平滑
化話者適応化方式（文献（大倉ほか：連続混合分布ＨＭ
Ｍを用いた移動ベクトル場平滑化話者適応化方式、信学
技報、ＳＰ９２−１６、１９９２）に詳述）で初期標準
パタン１０３であるＨＭＭの状態ｊのｋ番目平均ベクト
ルμｉ（ｊ，ｋ）に対し話者ｌの音声データで適応平均
ベクトルμａｌ（ｊ，ｋ）を推定し学習する参照話者番
号１〜Ｍの参照話者依存標準パタンλｓ（１）〜λｓ
（Ｍ）を生成する。参照話者グループ依存標準パタン学
習手段８は、参照話者依存標準パタン学習手段７による
参照話者依存標準パタンλｓ（１）〜λｓ（Ｍ）間距離
に対しバタチャリア距離で定義をしクラスタリングを
し、たとえばＫ−平均アルゴリズム（文献（Ｌ．Ｒａｂ
ｉｎｅｒｅｔａｌ．著／古井啓訳、音声認識の基礎、
ＮＴＴアドバンステクノロジ（株）、１９９５）に詳
述）でグループ化をする参照話者依存標準パタンを用い
参照話者グループ数１〜Ｎの参照話者グループ依存標準
パタンλｇ（１）〜λｇ（Ｎ）を生成する。参照話者依
存標準パタン記憶手段９は、参照話者依存標準パタン学
習手段７による参照話者依存標準パタンλｓ（１）〜λ
ｓ（Ｍ）と参照話者グループ依存標準パタン学習手段８
による参照話者グループ依存標準パタンλｇ（１）〜λ
ｇ（Ｎ）とを格納する。

【０００３】上記従来の話者適応化装置は、隠れマルコ
フモデル（ＨＭＭ：ｈｉｄｄｅｎＭａｒｋｏｖｍｏｄ
ｅｌ。たとえば上記文献「音声認識の基礎」に詳述す
る、不特定話者の音声データ（単語や文など）で予め標
準パタン学習をし作成する不特定話者標準パタン）を用
い、参照話者依存標準パタンを予め複数用意しておき、
使用話者音声の特徴に基づき話者依存標準パタンを選択
する話者適応化方式（標準パタン選択法による話者適応
化方式）を採る。

【０００４】参照話者グループ依存標準パタン学習手段
８は、生成した参照話者グループ標準パタンについてグ
ループｎの状態ｊのｋ番目平均ベクトルμｇｎ（ｊ，
ｋ）と共分散行列Ｕｇｎ（ｊ，ｋ）を下記の数１により
推定する。ここで、μａｉ（ｊ，ｋ）とＵａｉ（ｊ，
ｋ）は参照話者依存標準パタンについてのグループｎ内
のｉ番目の平均ベクトルと共分散行列、Ｉはグループｎ
内の参照話者依存標準パタン数、ｔは転置行列をそれぞ
れ表す。

【０００５】

【数１】

【０００６】参照話者依存標準パタン記憶手段９は、１
標準パタン当り平均ベクトル次元数３４の初期ＨＭＭガ
ウス分布数１０１０をもつＨＭＭを用いるから、たとえ
ば参照話者依存標準パタン数２７９と参照話者グループ
依存標準パタン数２０５を合わせた標準パタン数４８４
に対し、平均ベクトルだけで４８４×１０１０×３４＝
１６，６２０，５６０データを記憶する必要がある。

【０００７】使用話者音声１０１とは、装置を使用する
話者が予め所定発声内容の単語や文を発声した音声をい
う。参照話者音声データ特徴ベクトル１０２とは、多数
話者音声データに対し音響特徴量分析を施し抽出する特
徴ベクトル（たとえばケプストラム、ケプストラ差分な
どの音声特徴を少ないデータ量で表現する物理量）をい
う。参照話者数Ｍのときは特徴ベクトル時系列Ｏ（１）
〜Ｏ（Ｍ）（Ｏ（ｌ）は時系列［ｏ（ｌ，１）、ｏ
（ｌ，２）、…、ｏ（ｌ，Ｔｌ）］、Ｔｌは参照話者ｌ
の音声データフレーム数をそれぞれ表す）が存在する。
初期標準パタン１０３とは、予め用意する初期標準パタ
ンλｉ（たとえば多数話者音声データで学習する２００
状態で各状態５混合の音素ＨＭＭとｌ状態で１０混合の
無音ＨＭＭ）をいう。

【０００８】たとえば一般に示す従来の標準パタン選択
法による話者適応化方式を用いる音声認識装置は図８の
ように、音声特徴量抽出手段１１は、別途入力する使用
話者認識対象音声１０１ａ（装置を使用する話者が認識
対象の単語や文を発声した音声）に対し上記図６の音声
特徴量抽出手段１と同じに動作する。照合手段１２は、
音声特徴量抽出手段１１による特徴ベクトル時系列に対
し、上記標準パタン選択法による話者適応化装置による
使用話者依存標準パタン１０４との照合により音声認識
をし、音声認識結果１０５として出力する。

【０００９】

【発明が解決しようとする課題】上記のような従来の話
者適応化装置では、標準パタン選択法による話者適応化
方式を採るから、写像法（初期標準パタンと使用話者標
準パタンに対する写像関係を少量の学習データで計算す
る個人差に関する構造的モデル導入方法で、たとえば文
献（Ｍ．Ｊ．Ｆ．Ｇａｌｅｓｅｔａｌ．：Ｍｅａｎ
ａｎｄｖａｒｉａｎｃｅａｄａｐｔａｔｉｏｎｗ
ｉｔｈｉｎｔｈｅＭＬＬＲｆｒａｍｅｗｏｒ
ｋ，ＣｏｍｐｕｔｅｒＳｐｅｅｃｈａｎｄＬａｎ
ｇｕａｇｅ１０，２４９−２６４，１９９６）に示す、
重回帰写像モデルで求める変換係数による特定話者標準
パタン学習法がある）や統計的推定法（たとえば文献
（Ｃ．Ｈ．Ｌｅｅｅｔａｌ．：Ａｓｔｕｄｙｏｎ
ｓｐｅａｋｅｒａｄａｐｔａｔｉｏｎｏｆｔｈ
ｅｐａｒａｍｅｔｅｒｓｏｆｃｏｎｔｉｎｕｏｕ
ｓｄｅｎｓｉｔｙｈｉｄｄｅｎＭａｒｋｏｒｍ
ｏｄｅｌｓ，ＩＥＥＥＴｒａｎｓ．ＳｉｇｎａｌＰｒ
ｏｃｅｓｓ．ｖｏｌ．３９，ｎｏ．４，ｐｐ．８０６−
８１４，１９９１）に示す、新たな取得学習データから
の標準パタン推定時に事前取得初期標準パタンからの知
識を利用する方法がある）による話者適応化方式に比べ
少量の学習データで正確な話者適応を実現するが、使用
話者音声に基づき予め記憶する参照話者依存標準パタン
の中から使用話者依存標準パタンを選択する話者適応化
で記憶する参照話者依存標準パタン数が増えると、当該
参照話者依存標準パタンを表すデータ量が増える問題点
があった。

【００１０】この発明が解決しようとする課題は、話者
適応化装置と音声認識装置で上記問題点を解消するよう
に、標準パタンを表す変換係数を予め複数用意してお
き、使用話者音声の特徴に基づき当該変換係数を選択す
る話者適応化方式（データ低減標準パタン選択法による
話者適応化方式）を提供することにある。

【００１１】

【課題を解決するための手段】この発明の話者適応化装
置は、上記課題を解決するためつぎの手段を設け、デー
タ低減標準パタン選択法による話者適応化方式を採るこ
とを特徴とする。またこの発明に関連する音声認識装置
は、上記話者適応化装置を備えることを特徴とする。

【００１２】音声特徴量抽出手段は、別途入力する使用
話者音声に対し、音響特徴量分析を施し特徴ベクトル時
系列を抽出する。

【００１３】参照話者依存変換係数演算／記憶手段は、
別途用意する参照話者音声データ特徴ベクトルと初期標
準パタンを用い、参照話者依存変換係数を演算し、格納
する。または当該参照話者音声データ特徴ベクトルに対
し参照話者毎に、複数参照話者で構成する参照話者グル
ープ毎に、もしくは参照話者毎にかつ複数参照話者で構
成する参照話者グループ毎に、参照話者依存変換係数を
演算し、格納する。または当該初期パタンに対し複数部
分に分割するパラメータグループ毎に、もしくは当該参
照話者音声データ特徴ベクトルに対し複数参照話者で構
成する参照話者グループ毎にかつ当該初期標準パタンに
対し複数部分に分割するパラメータグループ毎に、参照
話者依存変換係数を演算し、格納する。または当該参照
話者依存変換係数に対し、各参照話者に依存する変換行
列・定数項ベクトル演算、各参照話者に依存する変換定
数項ベクトル演算だけ、もしくは各参照話者に依存する
変換行列・定数項ベクトルと変換定数項ベクトルだけと
の併用演算により生成する。

【００１４】使用話者依存変換係数選択／演算手段は、
音声特徴量抽出手段による特徴量ベクトル時系列に対
し、参照話者依存変換係数演算／記憶手段による参照話
者依存変換係数の中から、１組以上の参照話者依存変換
係数を用い、使用話者依存変換係数を演算する。または
音声特徴抽出手段による特徴ベクトル時系列と当該初期
標準パタンとを用い生成する使用話者依存変換係数に対
し、参照話者依存係数演算／記憶手段による参照話者依
存変換係数との類似度演算を施し、当該変換係数類似度
が大きい１個以上の参照話者依存変換係数、もしくは音
声特徴量抽出手段による特徴ベクトル時系列に対し、参
照話者依存係数演算／記憶手段による参照話者依存変換
係数と当該初期標準パタンとを用い生成する参照話者依
存標準パタンとの尤度演算を施し、当該尤度が大きい順
に１個以上の参照話者標準パタン変換係数、もしくはそ
れぞれ１個以上の前記変換係数類似度が大きい参照話者
依存変換係数かつ前記尤度が大きい参照話者標準パタン
変換係数を用い、使用話者依存変換係数を演算する。ま
たは使用話者依存変換係数選択／演算手段で参照話者依
存変換係数演算／記憶手段による１組以上の参照話者依
存変換係数を用い加重平均とする１組以上の使用話者依
存変換係数を演算する。または使用話者依存変換係数選
択／演算手段で初期標準パタンとして用いる連続混合分
布型隠れマルコフモデルのシンボル出力確率密度関数を
構成するガウス分布またはラプラス分布の要素分布関数
で平均ベクトルを変換する参照話者依存変換係数を演算
する。

【００１５】使用話者依存標準パタン演算手段は、使用
話者依存変換係数選択／演算手段による使用話者依存変
換係数を用い当該初期標準パタンのパラメータ変換を
し、使用話者依存標準パタンとして出力する。

【００１６】話者適応化装置は、当該初期標準パタンと
して連続混合分布型隠れマルコフモデルを用いる。

【００１７】

【発明の実施の形態】この発明の実施の一形態を示す話
者適応化装置は図１のように、音声特徴量抽出手段１
は、上記従来例の図７に対応する。参照話者依存変換係
数演算／記憶手段２／３は、別途用意する参照話者音声
データ特徴ベクトル１０２と初期標準パタン１０３を用
い、参照話者依存標準パタンを得るための参照話者依存
変換係数Ｔｒ（１）〜Ｔｒ（Ｌ）（Ｌは変換係数の組数
を表す）を演算し、格納する。使用話者依存変換係数選
択手段４は、音声特徴量抽出手段１による特徴量ベクト
ル時系列に対し、参照話者依存変換係数記憶手段３によ
る参照話者依存変換係数Ｔｒ（１）〜Ｔｒ（Ｌ）の中か
ら１組以上の参照話者依存変換係数Ｔｒｃ（１）〜Ｔｒ
ｃ（Ｌｃ）（Ｌｃは選択する変換係数の組数）を選択す
る。使用話者依存変換係数演算手段５は、使用話者依存
変換係数選択手段４による１組以上の選択する参照話者
依存変換係数Ｔｒｃ（１）〜Ｔｒｃ（Ｌｃ）を用い、初
期標準パタン変換のための使用話者依存変換係数Ｔｒｍ
を演算する。使用話者依存標準パタン演算手段６は、使
用話者依存変換係数演算手段５による使用話者依存変換
係数Ｔｒｍを用い、別途用意する初期標準パタン１０３
のパラメータ変換をし使用話者依存標準パタン１０４と
して出力する。予め用意する標準パタンを記憶するため
のデータ数を低減できる。

【００１８】上記実施の形態の話者適応化装置は、標準
パタンを表す変換係数を予め複数用意しておき、使用話
者音声の特徴に基づき当該変換係数を選択する話者適応
化方式（データ低減標準パタン選択法による話者適応化
方式）を採る。

【００１９】参照話者依存変換係数演算／記憶手段２／
３は、線形と非線形のいずれの参照話者依存変換係数を
用いてもよい。またたとえば連続混合分布型ＨＭＭの場
合、変換対象パラメータは、遷移確率とガウス分布平均
ベクトルと共分散行列と混合重み係数と継続時間長制御
パラメータとであり、たとえば定数項ベクトルをｖ
（ｌ）、初期標準パタンのパラメータをｐｉとすれば、
参照話者ｌの標準パタンｐａ（ｌ）＝ｐｉ＋ｖ（ｌ）と
なる。また一組の変換係数を表すためのデータ数をＴｄ
（ｌ）（ｌは１〜Ｌ（変換係数の組数）の組番号を表
す）、初期標準パタンを表すためのデータ数をＩｄとす
れば、所要記憶データ数Ｔｄ（ｔｏｔａｌ）＝Ｉｄ＋Σ
_l Ｔｄ（ｌ）、ｌ＝１〜Ｌであり、当該所要記憶データ
数は、従来の標準パタン選択法による場合のＩｄ×Ｌに
対しＩｄ×Ｌ＞Ｔｄ（ｔｏｔａｌ）の条件を満たすとき
は、低減することになる。

【００２０】なお上記図１に示す発明の実施の形態で参
照話者依存変換係数演算手段２に図２（ａ）のように、
別途設ける参照話者毎依存変換係数演算手段２１で、参
照話者数Ｍ毎の参照話者音声データ特徴ベクトルＯ
（１）〜Ｏ（Ｍ）１０２と初期標準パタン１０３を用
い、参照話者毎依存変換係数Ｔｒｓ（１）〜Ｔｒｓ
（Ｍ）を演算し、参照話者依存変換係数記憶手段３に出
力する参照話者依存変換係数演算手段２ａとして構成し
てもよい。参照話者毎の変換係数演算（Ｉｄ×Ｍ＞Ｔｄ
（ｔｏｔａｌ））により、予め用意する標準パタンを記
憶するためのデータ数をより低減できる。また図２
（ｂ）のように、別途設ける参照話者グループ演算手段
２２で参照話者音声データ特徴ベクトル１０２に対しク
ラスタリングをし、１人以上の参照話者で構成するＮ個
の参照話者グループｇ（１）〜ｇ（Ｎ）にグループ化を
し、別途設ける参照話者グループ依存変換係数演算手段
２３で当該グループ毎の参照話者音声データ特徴ベクト
ルＯｇ（１）〜Ｏｇ（Ｎ）１０２と初期標準パタン１０
３を用い、参照話者グループ毎依存変換係数Ｔｒｇ
（１）〜Ｔｒｇ（Ｎ）を演算し、参照話者依存変換係数
記憶手段３に出力する参照話者依存変換係数演算手段２
ｂとして構成してもよい。複数参照話者で構成する参照
話者グループ毎の変換係数演算（Ｉｄ×Ｎ＞Ｔｄ（ｔｏ
ｔａｌ））により、予め用意する標準パタンを記憶する
ためのデータ数をさらに低減できる。また図２（ｃ）の
ように、上記図２（ａ）と（ｂ）に示す参照話者毎依存
変換係数演算手段２１と参照話者グループ演算手段２２
および参照話者グループ依存変換係数演算手段２３とを
別途設ける参照話者依存変換係数演算手段２ｃとして構
成してもよい。参照話者毎と複数参照話者で構成する参
照話者グループ毎との併用変換係数演算（Ｉｄ×（Ｍ＋
Ｎ）＞Ｔｄ（ｔｏｔａｌ））により、予め用意する標準
パタンを記憶するためのデータ数をさらにまた低減でき
る。また図３（ａ）のように、別途設ける初期標準パタ
ンパラメータグループ演算手段２４で初期標準パタン１
０３に対し当該パラメータにょるクラスタリングをし、
複数のパラメータグループλｉ（１）〜λｉ（Ｐ）（Ｐ
はグループ数を表す）にグループ化をするとともに、使
用話者依存標準パタン演算手段６に出力し、別途設ける
参照話者依存パラメータグループ変換係数演算手段２５
で参照話者音声データ特徴ベクトル１０２と初期標準パ
タンパラメータグループ演算手段２４による当該パラメ
ータグループ毎の初期標準パタン１０３を用い、参照話
者依存パラメータグループ毎変換係数Ｔｒｓｓ（ｐ，
ｌ）（ｐ＝１、２、…、Ｐ、ｌ＝１、２、…、Ｌ、Ｐは
分割する標準パタングループ数、Ｌは変換係数の組数を
それぞれ表す）を演算し、参照話者依存変換係数記憶手
段３に出力する参照話者依存変換係数演算手段２ｄとし
て構成してもよい。初期標準パタン１０３に対し複数部
分に分割する当該パラメータグループ毎の変換係数演算
（Ｉｄ×Ｌ＞Ｔｄ′（ｔｏｔａｌ）、Ｔｄ′（ｔｏｔａ
ｌ）＝Σ_p Σ_l Ｔｄ（ｐ，ｌ）、ｐ＝１〜Ｐ、ｌ＝１〜
Ｌ、Ｔｄ（ｐ，ｌ）は変換係数Ｔｒｓｓ（ｐ，ｌ）を表
すためのデータ数を表す）により、予め用意する標準パ
タンを記憶するためのデータ数をより低減できる。また
図３（ｂ）のように、上記図２（ｂ）に示す参照話者グ
ループ演算手段２２と、上記図３（ａ）に示す初期標準
パラメータグループ演算手段２４と、参照話者グループ
依存パラメータグループ変換係数演算手段２６とを別途
設け、参照話者グループ演算手段２２による参照話者グ
ループ毎の参照話者音声データ特徴ベクトルＯｇ（１）
〜Ｏｇ（Ｎ）１０２と初期標準パラメータグループ演算
手段２４によるパラメータグループ毎の初期標準パタン
１０３とを用い、参照話者グループ毎依存パラメータグ
ループ毎変換係数を演算し参照話者依存変換係数記憶手
段３に出力する参照話者依存変換係数演算手段２ｅとし
て構成してもよい。参照話者グループ毎と初期標準パタ
ンパラメータグループ毎との併用変換係数演算（Ｉｄ×
Ｌ′＞Ｔｄ′（ｔｏｔａｌ）、Ｌ′は参照話者グループ
数を表す）により、予め用意する標準パタンを記憶する
ためのデータ数をさらに低減できる。また図４（ａ）の
ように、別途設ける参照話者依存変換行列定数項ベクト
ル演算手段２７で参照話者音声データ特徴量ベクトル１
０２と初期標準パタン１０３を用い、各参照話者に依存
する変換行列と変換定数項ベクトルに基づく参照話者依
存変換係数Ａ（ｌ）とｖ（ｌ）を演算し参照話者依存変
換係数記憶手段３に出力する参照話者依存変換係数演算
手段２ｆとして構成してもよい。重回帰写像モデルに基
づく変換行列と変換定数項ベクトル演算により、予め用
意する標準パタンを記憶するためのデータ数をより低減
できる。参照話者依存変換行列・定数項ベクトル演算手
段２７は、たとえば初期標準パタン１０３として用いる
ＨＭＭパラメータのガウス分布平均ベクトルに対し参照
話者毎に変換するとき、１番目参照話者依存ＨＭＭの状
態ｊでガウス分布ｋにおける平均ベクトルμａｌ（ｊ，
ｋ）に対し、下記の数式２（１）に示す話者ｌに依存す
る変換行列と変換定数項ベクトルに基づく参照話者依存
変換係数Ａ（ｌ）とｖ（ｌ）により、初期標準パタン１
０３の平均ベクトルμｉ（ｊ，ｋ）を変換して得る。こ
こで、μｉ（ｊ，ｋ）とμａｌ（ｊ，ｋ）はｄ次元ベク
トル、Ａ（ｌ）にｄ行×ｄ列の行列、ｖ（ｌ）はｄ次元
定数項ベクトルをそれぞれ表す。また当該Ａ（ｌ）とｖ
（ｌ）に対し、たとえば上記写像法文献によるＨＭＭ尤
度演算で、まず下記の数式２（２）に示すように、状態
ｊでガウス分布ｋにおける特徴ベクトルｏ（ｌ，ｔ）の
出力確率密度関数の要素関数を定義する。つぎに下記の
数式２（３）（４）に示すように、当該出力確率密度関
数に基づき、初期標準パタン１０３の初期ＨＭＭλｉと
参照話者ｌに対する参照話者音声データ特徴ベクトルｏ
（ｌ，１）〜ｏ（ｌ，Ｔｌ）１０２（Ｔｌは話者ｌの音
声データ特徴ベクトル最大ベクトル最大フレーム数を表
す）とを用いて、Ａ（ｌ）とｖ（ｌ）について偏微分を
し零に等しいとすることにより「Ｂａｕｍの補助関数」
の最大値を示すＡ（ｌ）とｖ（ｌ）を演算する。ここ
で、Ｆは尤度、θはＨＭＭが取り得る状態系列、θはＨ
ＭＭが取り得る状態系列集合、λｉとλｉ′は再推定前
と後のＨＭＭパラメータ集合、γ（ｔ，ｊ，ｋ）は時刻
ｔに状態ｊでガウス分布ｋにおける特徴ベクトルが観測
される期待値をそれぞれ表す。さらに下記の数式２
（４）から導出される数式２（５）に示すように、Ａ
（ｌ）のｐ行目［ａ（ｌ，ｐ，１）、ａ（ｌ，ｐ，
２）、…、ａ（ｌ，ｐ，ｄ）］とｖ（ｌ）のｐ次元目ｖ
（ｌ，ｐ）を同時に演算する。ここで、μｉ（ｊ，ｋ，
ｒ）とσ２（ｊ，ｋ，ｐ）は状態ｊでガウス分布ｋにお
ける初期ＨＭＭ平均ベクトルμｉ（ｊ，ｋ）のｒ番目要
素と共分散行列Ｕｉ（ｊ，ｋ）の（ｐ，ｐ）要素、ｏ
（ｌ，ｔ，ｐ）は時刻ｔにおける話者ｌに対する特徴ベ
クトルのｐ番目要素をそれぞれ表す。なお話者依存変換
係数記憶手段３に格納する当該Ａ（ｌ）とｖ（ｌ）の所
要記憶データ数は、平均ベクトル次元数をｄ、記憶標準
パタン数をＬとすれば、［（ｄ×ｄ＋ｄ）×Ｌ＋初期Ｈ
ＭＭガウス分布数×ｄ］であり、たとえば従来例と同じ
に初期ＨＭＭガウス分布数＝１０１０、ｄ＝３４、Ｌ＝
４８４のとき、（３４×３４＋３４）×４８４＋１０１
０×３４＝６１０，３００となり、従来例のときの１
６，６２０，５６０に比べ低減することになる。また図
４（ｂ）のように、別途設ける参照話者依存定数項ベク
トル演算手段２８で参照話者音声データ特徴量ベクトル
１０２と初期標準パタン１０３を用い、各参照話者に依
存する変換定数項ベクトルだけに基づく参照話者依存変
換係数ｖ（ｌ）を演算し参照話者依存変換係数記憶手段
３に出力する参照話者依存変換係数演算手段２ｇとして
構成してもよい。変換定数項ベクトル演算だけにより、
予め用意する標準パタンを記憶するためのデータ数をさ
らに低減できる。参照話者依存定数項ベクトル演算手段
２８は、たとえば初期標準パタン１０３として用いるＨ
ＭＭパラメータのガウス分布平均ベクトルに対し参照話
者毎に変換するとき、１番目参照話者依存ＨＭＭの状態
ｊでガウス分布ｋにおける平均ベクトルμａｌ（ｊ，
ｋ）に対し、下記の数式３（１）に示す話者ｌに依存す
る変換定数項ベクトルに基づく参照話者依存変換係数ｖ
（ｌ）により、初期標準パタン１０３の平均ベクトルμ
ｉ（ｊ，ｋ）を変換して得る。ここで、μｉ（ｊ，ｋ）
とμａｌ（ｊ，ｋ）はｄ次元ベクトル、ｖ（ｌ）はｄ次
元定数項ベクトルをそれぞれ表す。また当該ｖ（ｌ）に
対し、たとえば上記写像法文献によるＨＭＭ尤度演算
で、まず下記の数式３（２）に示すように、状態ｊでガ
ウス分布ｋにおける特徴ベクトルｏ（ｌ，ｔ）の出力確
率度関数の要素関数を定義する。つぎに下記の数式３
（３）に示すように、当該出力確率密度関数に基づき、
初期標準パタン１０３の初期ＨＭＭλｉと参照話者ｌに
対する音声データ特徴ベクトル１０２ｏ（ｌ，１）〜ｏ
（ｌ，Ｔｌ）とを用いて、ｖ（ｌ）について偏微分をし
零に等しいとおくことにより「Ｂａｕｍの補助関数」の
最大値を示すｖ（ｌ）を演算する。さらに下記の数式３
（３）から導出される数式３（４）に示すように、ｖ
（ｌ）のｐ次元目ｖ（ｌ，ｐ）を演算する。ここで、μ
ｉ（ｊ，ｋ，ｒ）とσ２（ｋ，ｐ）は状態ｊでガウス分
布ｋにおける初期ＨＭＭ平均ベクトルμｉ（ｊ，ｋ）の
ｒ番目要素と共分散行列Ｕｉ（ｊ，ｋ）の（ｐ，ｐ）要
素を表す。なお話者依存変換係数記憶手段３に格納する
当該ｖ（ｌ）の所要記憶データ数は、平均ベクトル次元
数をｄ、記憶標準パタン数をＬとすれば、［ｄ×Ｌ＋初
期ＨＭＭガウス分布数×ｄ］であり、たとえば従来例と
同じに初期ＨＭＭガウス分布数＝１０１０、ｄ＝３４、
Ｌ＝４８４のとき、３４×４８４＋１０１０×３４＝５
０，７９６となり、従来例の１６，６２０，５６０に比
べ低減することになる。また図４（ｃ）のように、上記
図４（ａ）と（ｂ）に示す参照話者依存変換行列・定数
項ベクトル演算手段２７と参照話者依存定数項ベクトル
演算手段２８とを別途設ける参照話者依存変換係数演算
手段２ｈとして構成してもよい。変換行列・定数項ベク
トルと変換定数項ベクトルだけとの併用演算により、予
め用意する標準パタンを記憶するためのデータ数をより
低減できる。なお話者依存変換記憶手段３に格納する変
換行列と定数項ベクトルに基づくＬ１個の参照話者依存
変換係数Ａ（ｌ）とｖ（ｌ）および定数項ベクトルに基
づくＬ２個の参照話者依存変換係数ｖ（ｌ）の所要記憶
データ数は、平均ベクトル次元数をｄ、記憶標準パタン
数をＬ（Ｌ＝Ｌ１＋Ｌ２）とすれば、［（ｄ×ｄ＋ｄ）
×Ｌ１＋ｄ×Ｌ２＋初期ＨＭＭガウス分布数×ｄ］であ
り、たとえば従来例と同じに初期ガウス分布数＝８１
０、ｄ＝３４、Ｌ＝４８４（Ｌ１＝２４２、Ｌ２＝２４
２）のとき、（３４×３４＋３４）×２４２＋３４×２
４２＋８１０×３４＝３２３，７４８となり、従来例の
１３，３２９，３６０に比べ低減することになる。

【００２１】

【数２】

【００２２】

【数３】

【００２３】また上記図１に示す発明の実施の形態で使
用話者依存変換係数手段５は図５のように、別途設ける
重み付け加算使用話者依存変換係数演算手段５１で使用
話者依存変換係数選択手段４による１組以上の選択する
参照話者依存変換係数Ｔｒｃ（１）〜Ｔｒｃ（Ｌｃ）を
用い重み付け加算を施し、生成する１組以上の使用話者
依存変換係数Ｔｍ＝Σ_l ωｌＴｒｃ（ｌ）、ｌ＝１〜Ｌ
ｃ（ここでωｌはΣ_lωｌ＝１．０を満たす重み係数を
表す）を使用話者依存標準パタン演算手段６に出力する
使用話者依存変換係数演算手段５ａとして構成してもよ
い。選択する参照話者依存変換係数の加重平均演算によ
り、予め用意する標準パタンを記憶するためのデータ数
をより低減できる。なお下記に示す尤度基準による使用
話者依存変換係数選択手段４ｂによるＬｃ組の使用話者
依存係数Ｔｒｃｍｌ（１）〜Ｔｒｃｍｌ（Ｌｃ）の選択
時における尤度演算で、それぞれの尤度をＦ（１）〜Ｆ
（Ｌｃ）とするとき、上記重み係数ωｌ＝Ｆ（ｌ）／Σ
_p Ｆ（ｐ）、ｐ＝１〜Ｌｃとなり、尤度が高い使用話者
依存係数に対しては重み係数ωｌを大きくすることを意
味する。また下記に示す変換係数類似度基準による使用
話者依存変換係数選択手段４ａにおける類似度を用い重
み係数ωｌを算出してもよい。

【００２４】また上記図１に示す発明の実施の形態で使
用話者依存変換係数選択手段４は図６（ａ）のように、
別途設ける変換係数類似度基準による使用話者依存変換
係数選択手段４１で音声特徴量抽出手段１による特徴ベ
クトル時系列と別途用意する初期標準パタン１０３とに
基づき生成する使用話者依存変換係数Ｔｒｕに対し、参
照話者依存係数記憶手段４による参照話者依存変換係数
Ｔｒ（１）〜Ｔｒ（Ｌ）との類似度演算を施し、当該変
換係数類似度が大きい１個以上の参照話者依存変換係数
Ｔｒｃｄ（１）〜Ｔｒｃｄ（Ｌｃ）を選択し使用話者依
存変換係数演算手段５に出力する使用話者依存変換係数
選択手段４ａとして構成してもよい。変換係数類似度が
大きい参照話者依存変換係数を１個以上選択する変換係
数類似度演算により、予め用意する標準パタンを記憶す
るためのデータ数をより低減できる。変換係数類似度基
準による使用話者依存変換係数選択手段４１は、たとえ
ば変換係数が定数項ベクトルのとき、使用話者／参照話
者依存変換係数である使用話者／参照話者依存定数項ベ
クトルをｖｕ／ｖ（ｌ）とすると、ユークリッド距離Ｄ
（ｌ）＝｜ｖｕ−ｖ（ｌ）｜が小さいベクトルからＬｃ
個（ＬＣ≧１）の参照話者依存変換係数Ｔｒｃｄ（１）
〜Ｔｒｃｄ（Ｌｃ）を選択する。また図６（ｂ）のよう
に、別途設ける参照話者依存標準パタン演算手段４２で
参照話者依存変換係数記憶手段３による参照話者依存変
換係数Ｔｒ（１）〜Ｔｒ（Ｌ）と別途用意する初期標準
パタン１０３とに基づき参照話者依存標準パタンλｒ
（１）〜λｒ（Ｌ）を生成し、別途設ける尤度基準によ
る使用話者依存変換係数選択手段４３で音声特徴量抽出
手段１による特徴ベクトル時系列Ｏｕに対し、参照話者
依存標準パタン演算手段４２による参照話者依存標準パ
タンλｒ（１）〜λｒ（Ｌ）との尤度演算（たとえばＨ
ＭＭの場合は上記文献「音声認識の基礎」に詳述）を施
し、当該尤度が大きい順に１個以上の参照話者標準パタ
ン変換係数Ｔｒｃｍｌ（１）〜Ｔｒｃｍｌ（Ｌｃ）を選
択し使用話者依存変換係数演算手段５に出力する使用話
者依存変換係数選択手段４ｂとして構成してもよい。尤
度が大きい参照話者標準パタン変換係数を１個以上選択
する尤度演算により、予め用意する標準パタンを記憶す
るためのデータ数をより低減できる。また図６（ｃ）の
ように、上記図６（ａ）と（ｂ）に示す変換係数類似度
基準による使用話者依存変換係数選択手段４１と参照話
者依存標準パタン演算手段４２および尤度基準による使
用話者依存変換係数選択手段４３とを別途設ける使用話
者依存変換係数選択手段４ｃとして構成してもよい。変
換係数類似度が大きいＬｃ１（Ｌｃ１≧１）個の参照話
者依存変換係数と尤度が大きいＬｃ２（Ｌｃ２≧１）個
の参照話者標準パタン変換係数とを選択する変換係数類
似度と尤度との併用演算により、予め用意する標準パタ
ンを記憶するためのデータ数をさらに低減できる。

【００２５】また上記図１〜図６に示す発明の実施の形
態で初期標準パタン１０３として、たとえば上記文献
「音声認識の基礎」に詳述する連続混合分布型ＨＭＭ
（隠れマルコフモデル）を用いてもよい。連続混合分布
型ＨＭＭによる演算により、予め用意する標準パタンを
記憶するためのデータ数をより低減できる。

【００２６】上記図１〜図６に示す発明の実施の形態で
参照話者依存変換係数演算手段２と２ａ〜２ｈは、初期
標準パタン１０３として用いる連続混合分布型ＨＭＭの
シンボル出力確率密度関数を構成するガウス分布または
ラプラス分布（上記文献「音声認識の基礎」に詳述）の
要素分布関数で平均ベクトルを変換する参照話者依存変
換係数を演算してもよい。参照話者依存変換係数の平均
ベクトル変換演算により、予め用意する標準パタンを記
憶するためのデータ数をより低減できる。たとえばガウ
ス分布関数がシンボル出力確率密度関数を構成する要素
分布である場合、状態ｊでガウス分布ｋにおける平均ベ
クトルと共分散行列をμ（ｊ，ｋ）とＵ（ｊ，ｋ）、平
均ベクトル次元数をｄ、シンボルをｏとするときのガウ
ス分布関数は下記の数式４（１）で与えられるから、状
態ｊにおけるシンボルｏの出力確率ｂｊ（ｏ）は下記の
数式４（２）で示される。ここで、Ｋは状態ｊ内の混合
分布数、ｃ（ｊ，ｋ）は混合重み係数をそれぞれ表す。

【００２７】

【数４】

【００２８】この発明に関連する実施の一形態を示す音
声認識装置は、上記従来例の図８で標準パタン選択法に
よる話者適応化装置に代えて、上記図１〜図６に示すデ
ータ低減標準パタン選択法による話者適応化装置による
使用話者依存標準パタン１０４を用いてもよい。データ
低減標準パタン選択法による話者適応化方式による上記
効果をもつ音声認識装置を実現できる。

【００２９】

【発明の効果】上記のようなこの発明の話者適応化装置
と音声認識装置では、標準パタンを表す変換係数を予め
複数用意しておき、使用話者音声の特徴に基づき当該変
換係数を選択する話者適応化方式を採るから、従来のよ
うに隠れマルコフモデルを用い参照話者依存標準パタン
を予め複数用意しておき、使用話者音声の特徴に基づき
話者依存標準パタンを選択する方式に比べ、予め用意す
る標準パタンを記憶するためのデータ数を低減できるほ
か各発明ごとにつぎの付加演算により当該データ数をよ
り低減できる効果がある。（１）参照話者毎の変換係数演算（２）複数参照話者で構成する参照話者グループ毎の変
換係数演算（３）上記（１）と（２）との併用演算（４）複数部分に分割する初期標準パタンパラメータグ
ループ毎の変換係数演算（５）上記（２）と（４）との併用演算（６）重回帰写像モデルに基づく変換行列と変換定数項
ベクトル演算（７）上記（６）の変換定数項ベクトル演算だけ（８）上記（６）と（７）との併用演算（９）変換係数類似度演算（１０）尤度演算（１１）上記（９）と（１０）との併用演算（１２）参照話者依存変換係数の加重平均演算（１３）連続混合分布型隠れマルコフモデルによる演算（１４）参照話者依存変換係数の平均ベクトル変換演算

【図面の簡単な説明】

【図１】この発明の実施の一形態を示す話者適応化装
置の機能ブロック図。

【図２】図１に示す参照話者依存変換係数演算手段の
他の三形態を説明する構成ブロック図。

【図３】図１に示す参照話者依存変換係数演算手段の
他の二形態を説明する構成ブロック図。

【図４】図１に示す参照話者依存変換係数演算手段の
他の三形態を説明する構成ブロック図。

【図５】図１に示す使用話者依存変換係数演算手段の
他の一形態を説明する構成ブロック図。

【図６】図１に示す使用話者依存変換係数選択手段の
他の三形態を説明する構成ブロック図。

【図７】従来の技術を示す話者適応化装置の機能ブロ
ック図。

【図８】従来の技術を示す標準パタン選択法による話
者適応化方式を用いる音声認識装置を説明する構成ブロ
ック図。

【符号の説明】

１音声特徴量抽出手段、２参照話者依存変換係数演
算手段、３参照話者依存変換係数記憶手段、４使用
話者依存変換係数選択手段、５使用話者依存変換係数
演算手段、６使用話者依存標準パタン演算手段、１０
１使用話者音声、１０２参照話者音声データ特徴ベ
クトル、１０３初期標準パタン、１０４使用話者依
存標準パタン。なお図中、同一符号は同一または相当部
分を示す。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平９−114483（ＪＰ，Ａ) 特開平９−330095（ＪＰ，Ａ) 特開平８−211889（ＪＰ，Ａ) 特開平８−241095（ＪＰ，Ａ) 特許3035239（ＪＰ，Ｂ２) 石井純、外村政啓，重回帰写像モデルを用いた話者正規化と話者適応化方式, 電子情報通信学会技術研究報告，電子情報通信学会，1997年11月16日，ＳＰ96− 87〜94，29−35 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/14 G10L 15/18

Claims

(57)【特許請求の範囲】

【請求項１】別途入力する使用話者音声に対し音響特
徴量分析を施し特徴ベクトル時系列を抽出する音声特徴
量抽出手段と、別途用意する参照話者音声データ特徴ベ
クトルと初期標準パタンを用い参照話者依存変換係数を
演算し格納する参照話者依存変換係数演算／記憶手段
と、前記音声特徴量抽出手段による特徴量ベクトル時系
列に対し該参照話者依存変換係数演算／記憶手段による
参照話者依存変換係数の中から１組以上の参照話者依存
変換係数を用い使用話者依存変換係数を演算する使用話
者依存変換係数選択／演算手段と、該使用話者依存変換
係数選択／演算手段による使用話者依存変換係数を用い
前記初期標準パタンのパラメータ変換をし使用話者依存
標準パタンとして出力する使用話者依存標準パタン演算
手段とを備える話者適応化装置。
【請求項２】参照話者依存変換係数演算／記憶手段
は、当該参照話者音声データ特徴ベクトルに対し、参照
話者毎に、複数参照話者で構成する参照話者グループ毎
に、または前記参照話者毎にかつ前記複数参照話者で構
成する参照話者グループ毎に、参照話者依存変換係数を
演算し格納することを特徴とする請求項１記載の話者適
応化装置。
【請求項３】参照話者依存変換係数演算／記憶手段
は、当該初期標準パタンに対し複数部分に分割するパラ
メータグループ毎に、または当該参照話者音声データ特
徴ベクトルに対し参照話者で構成する参照話者グループ
毎にかつ当該初期標準パタンに対し前記複数部分に分割
するパラメータグループ毎に、参照話者依存変換係数を
演算し格納することを特徴とする請求項１記載の話者適
応化装置。
【請求項４】参照話者依存変換係数演算／記憶手段
は、当該参照話者依存変換係数に対し各参照話者に依存
する変換行列・定数項ベクトル演算、各参照話者に依存
する変換定数項ベクトル演算だけ、または各参照話者に
依存する変換行列・定数項ベクトルと変換定数項ベクト
ルだけとの併用演算により生成することを特徴とする請
求項１記載の話者適応化装置。
【請求項５】使用話者依存変換係数選択／演算手段
は、音声特徴量抽出手段による特徴ベクトル時系列と当
該初期標準パタンとを用い生成する使用話者依存変換係
数に対し、参照話者依存変換係数演算／記憶手段による
参照話者依存変換係数との類似度演算を施し、当該変換
係数類似度が大きい１個以上の選択する参照話者依存変
換係数、もしくは音声特徴量抽出手段による特徴ベクト
ル時系列に対し、参照話者依存変換係数演算／記憶手段
による参照話者依存変換係数と当該初期標準パタンとを
用い生成する参照話者依存標準パタンとの尤度演算を施
し、当該尤度が大きい順に１個以上の参照話者標準パタ
ン変換係数、またはそれぞれ１個以上の前記変換係数類
似度が大きい参照話者依存変換係数かつ前記尤度が大き
い参照話者標準パタン変換係数を用い使用話者依存変換
係数を演算することを特徴とする請求項１記載の話者適
応化装置。
【請求項６】使用話者依存変換係数選択／演算手段で
参照話者依存変換係数演算／記憶手段による１組以上の
参照話者依存変換係数を用い加重平均とする１組以上の
使用話者依存変換係数を演算することを特徴とする請求
項１記載の話者適応化装置。
【請求項７】当該初期標準パタンとして連続混合分布
型隠れマルコフモデルを用いることを特徴とする請求項
１、２、３、４、５または６記載の話者適応化装置。
【請求項８】参照話者依存変換係数演算／記憶手段
は、初期標準パタンとして用いる連続混合分布型隠れマ
ルコフモデルのシンボル出力確率密度関数を構成するガ
ウス分布またはラプラス分布の要素分布関数で平均ベク
トルを変換する参照話者依存変換係数を演算することを
特徴とする請求項７記載の話者適応化装置。
【請求項９】請求項１、２、３、４、５、６、７また
は８記載の話者適応化装置を備えることを特徴とする音
声認識装置。