JP2570448B2

JP2570448B2 - 標準パターン学習方法

Info

Publication number: JP2570448B2
Application number: JP1344214A
Authority: JP
Inventors: 健一磯
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1989-12-28
Filing date: 1989-12-28
Publication date: 1997-01-08
Anticipated expiration: 2012-01-08
Also published as: JPH03200999A; CA2033311C; EP0435336A2; US6275799B1; EP0435336B1; DE69030301T2; EP0435336A3; DE69030301D1

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、標準パターンとのパターンマッチングに基
づく音声認識において、各カテゴリの標準パターンを特
徴づける複数のパラメータを複数の学習用発声データを
基に決定する標準パターン学習方法に関する。

（従来の技術）音声信号などの特徴ベクトルの時系列として表された
パターンを認識する方法として、隠れマルコフモデル
（以下HMMと略記する）が広く用いられている。HMMの詳
細に関しては「確率モデルによる音声認識」（電子情報
通信学会編、中川聖一著、1988年、以下文献１と略記す
る）に詳しく解説されている。HMMでは特徴ベクトル時
系列がマルコフ確率過程によって生成されたとしてモデ
ル化を行っている。HMMの標準パターンは複数の状態と
その状態間で遷移で表わされており、各状態はあらかじ
め決められた確率密度分布に従って特徴ベクトルを出力
し、状態間の遷移にはあらかじめ決められた遷移確率が
付随している。入力パターンと標準パターンの間の整合
度が表す尤度値は、標準パターンであるマルコフ確率モ
デルが入力パターンベルトル列を生成する確率によって
与えられる。各標準パターンを特徴づける状態間の遷移
確率と確率密度分布関数を規定するパラメータは複数の
学習用発声データを用いた「バーム・ウェルチ（Baum−
Welch）アルゴリズム」を用いて決定することができ
る。

しかし統計的な学習手法である「バーム・ウェルチ・
アルゴリズム」はモデルのパラメータを決めるために大
量の学習用データを必要とするため、新しい使用者の発
音の負担が非常に大きくなるという問題点を有してお
り、実用化の大きな障害になっている。そこで新しい使
用者の負担を低減する方策として、新しい話者の比較的
少量の発音を用いて認識装置を新しい話者に適応化させ
る話者適応方法がこれまでにもいくつか提案されてい
る。話者適応化方法の詳細に関しては「音声認識におけ
る話者適用化技術」（テレビジョン学会誌、古井負煕
著、Vol.43,No.9,1989,pp.929−934、以下文献２と略記
する）に解説されている。

話者適応化方法において最も重要な点は、新しい使用
者の適応化用の少量の発音には含まれていなかった音響
的事象を表すモデルのパラメータをどのように推定して
適応化するかという点である。これまでに提案されてい
る話者適応化方法は、基本的に特徴ベクトルの間の物理
的な距離を尺度として音響的事象の類似性を定義し、そ
の類似度に基づいて適応化用の発音には出現しなかった
音響的事象を表すモデルのパラメータを推定して、適応
化を行うことを特徴としている。

（発明が解決しようとする課題）上記のようにこれまでに提案されている話者適応化方
法は、あらかじめ用意された標準パターンと新しい使用
者の適用化用発声データを用いて、基本的に特徴ベクト
ルの間の物理的な距離を尺度として音響的事象の類似性
を定義し、その類似度に基づいて適応化用の発音には出
現しなかった音響的事象を表すモデルのパラメータを推
定して、適応化を行うことを特徴としている。

しかしこのような物理的な距離だけに頼った推定に基
づく適応化では適応化前に比べて認識性能は向上する
が、十分な量の発声データから構成された特定話者の標
準パターンによる認識性能にはなかなか近づけないこと
が上記文献などに示された実験結果からも明かである。

本発明の目的は、新しい使用者が発音した少量の適用
化用発声データに加えて、あらかじめ多数の話者の大量
の発音から求めたすべての音響的事象の間の相互関係に
関する情報を用いることによって、特定話者の大量発声
データから作成された標準パターンに極めて近い、精度
の高い標準パターンの推定を可能にする標準パターン学
習方法を提供することにある。

（課題を解決するための手段）本発明による第１の標準パターン学習方法は、標準パ
ターンとのパターンマッチングに基づく音声認識におい
て、各カテゴリの標準パターンを特徴づける第１のパラ
メータ集合を複数の学習用発声データから決定するに際
して、全学習用発声と対応する標準パターンの間の整合
性を表す第１の評価関数と、前記第１のパラメータ集合
の要素間の整合性を表す第２の評価関数との和で表され
る第３の評価関数を最大化あるいは極大化するように前
記第１のパラメータ集合を決定することを特徴とする。

本発明による第２の標準パターン学習方法は、前記第
１の標準パターン学習方法において、前記第２の評価関
数を特徴づける第２のパラメータ集合をあらかじめ用意
された複数の標準パターンに対する前記第２の評価関数
の総和を最大化あるいは極大化するように決定すること
を特徴とする。

本発明による第３の標準パターン学習方法は、標準パ
ターンとのパターンマッチングに基づく音声認識におい
て、各カテゴリの標準パターンを特徴づける第１のパラ
メータ集合を複数の学習用発声データから決定するに際
して、全学習用発声と対応する標準パターンの間の整合
性を表す第１の評価関数と、前記第１のパラメータ集合
の全要素の初期値からの修正量の間の整合性を表す第２
の評価関数との和で表される第３の評価関数を最大化あ
るいは極大化するように前記第１のパラメータ集合の全
要素の修正量を決定することを特徴とする。

本発明による第４の標準パターン学習方法は、前記第
３の標準パターン学習方法において、前記第２の評価関
数を特徴づける第２のパラメータ集合をあらかじめ用意
された複数の第１のパラメータ集合の全要素の修正量に
対する前記第２の評価関数の総和を最大化あるいは極大
化するように決定することを特徴とする。

（作用）本発明は不特定話者に関する知識を利用した標準パタ
ーン学習方法であり、以下にその作用について詳しく述
べる。

各認識対称カテゴリの標準パターンはＤ次元のベクト
ルパラメータの集合で表されるとする。各標準パターン
は他に付加的なパラメータを有する場合も考えられ、以
下の説明はそれらのパラメータを含めた場合にも容易に
適用することができるが、記号が煩雑になるためにここ
では表記に含めないことにする。各標準パターンを構成
するベクトルパラメータの集合を、全標準パターンに関
して統合し、互いに異なるベクトルパラメータに通し番
号をつけ、第ｉ番目のベクトルパラメータをμ_ｉと記す
ことにする。このとき全ベクトルパラメータ（μ₁,μ₂,
…，μ_Ｎ）に関する学習の評価関数Ｌ（μ₁,μ₂,…，μ
_Ｎ）を次式で定義する。

Ｌ（μ₁,…，μ_Ｎ）＝L₁（μ₁,…，μ_Ｎ）＋λL₂（μ₁,…，μ_Ｎ）（１）上式において変数ｗは学習用の発声データを表し、ｗ
に関する和は全学習用発声に関する和である。λは適当
な定数とする。L₁（μ₁,…，μ_Ｎ）は全学習用発声と対
応する標準パターンの間の整合性を表す尤度値である。
この値は認識方法としてHMMを用いた場合は各HMM標準パ
ターンが学習用発声を生成する対数尤度に対応し、DPマ
ッチング等を用いた場合にはパターン間距離の総和に対
応する。HMM、DPマッチングに関しては文献１に詳しく
解説されている。

L₂（μ₁,…，μ_Ｎ）は一般的にはすべてのベクトルパ
ラメータの間の整合性を表す尤度値であるが、表記を簡
単化するため以下ではベクトルパラメータμ_ｉとμ_ｊの
間の２点間の整合性を表す尤値度1nQ（μ_i,μ_j,Λ^(ij)
のすべてのベクトルパラメータの組（i,j）に関する総
和で表現できる場合を例として説明する。なお２点以上
の同時相関を考慮する場合へも以下の方法は直接適用す
ることができる。上式においてΛ^(ij)は尤度値関数InQ
を規定する複数のパラメータを代表して表記したもので
ある。関数Ｑは確率変数（μ_i,μ_ｊ）の同時確率密度分
布関数などを対応させることができ、その具体的表式と
しては多次元のガウス分布などが考えられる。その場合
にはΛ^(ij)はガウス分布の平均ベクトルと相関行列にな
る。

あらかじめ多数の話者の大量の発声から求めたすべて
の音響的事象の間の相互関係に関する情報は、このパラ
メータΛ^(ij)によって表現することができる。次にその
一例を示す。多数の話者の大量の発声から、採用した認
識方法に対応する標準パターン作成法（HMMの場合はバ
ーム・ウェルチ法など、DPマッチグンの場合はクラスタ
リング法など）に従って構築した複数のベクトルパラメ
ータの組をとする。ここで上付き添字（ｋ）は複数のベクトルパラ
メータを区別する添字で、たとえば各話者ごとに標準パ
ターンを作成した場合には話者の区別を示すことにな
る。このとき関数Ｑ（μ_i,μ_j,Λ^(ij)）を規定する複数
のパラメータΛ^(ij)を、多数のデータを用いて関数Ｑを最大化あるいは極大化するように推定
する。

関数Ｑとしては多次元ガウス分布を採用した場合には
その具体的な表式は次式で与えられる。

Ｑ（μ_i,μ_j,Λ^(ij)）＝Gauss（z^(ij)−w^(ij),R^(ij)），（４） Λ^(ij)＝｛w^(ij),R^(ij)｝，（６）この場合のパラメータΛ^(ij)の推定は、Ｍ＝2D次元の
多次元ガウス分布で表された確率変数μ_ｉとμ_ｊに対す
る同時確率密度分布関数の2D次元の平均ベクトルw^(ij)
と2D行2D列の相関行列R^(ij)を推定することに対応す
る。この推定値は多数の話者の大量の発音から構築され
た上述のＫ個（ｋ＝１…Ｋ）のベクトルパラメータの組から次式で与えられる。

このような多数の話者の大量の発声データから音響的
事象の間の相互関係に関する情報を表すパラメータΛ
^(ij)が決定されているときに、この情報を利用して新し
い使用者が発声した小量の適応化発声データから新しい
標準パターンを構成するベクトルパラメータμ_ｉを決定
するためには式１で定義された学習の評価関数をμ_ｉに
関して最大化あるいは極大化すればよい。このとき評価
関数のパラメータに上述のように決定されたΛ^(ij)を用
いることによって不特定話者に関する知識を学習に反映
させることができる。

認識方法として状態のベクトル出力確率密度分布関数
を単一ガウス分布関数としたHMMを考え、関数Ｑとして
上記の多次元ガウス分布を採用すると、評価関数の極大
化は以下のように最急降下法に基づいて行うことができ
る。

このとき標準パターンを特徴づけるベクトルパターン
μ_ｉをHMMの状態ｉのガウス分布の平均ベクトルとす
る。HMMに関する記号を文献１に示されているように次
式で定義する。

ここでＰ（ｗ）は学習用の発声ｗ（単語や文など）に
対するHMMの尤度で、α_ｔ（ｉ）の状態ｉの時刻ｔにお
ける前向き確率、β_ｔ（ｉ）は状態ｉの時刻ｔにおける
後ろ向き確率、a_ijは状態ｉと状態ｊの間の遷移確率、b
_i（ｘ）は状態ｉがベクトルｘを出力する確率、パラメ
ータΣ_ｉは状態ｉの共分散行列を表している。これらの
記号の意味に関しては文献１に記述されている。

式１の評価関数Ｌに関する最急降下法を行うために
は、Ｌのμ_ｉによる導関数が必要になるが、その表式は
次式のように与えられる。

最急降下法においては全ベクトルパラメータを適当な
初期値からこの導関数に比例するように逐次更新してい
けばよい。ベクトルパラメータμ_i ⁽ⁿ⁾の更新式は次式で
与えられる。

ここでｎは逐次更新の繰り返し回数、εは定数、Σ_ｉ
は導関数の次元を合わせるための共分散行列である。

以上においては請求項１および２の内容に関して説明
した。次に請求項３および４に関する説明に移る。この
場合も多数の話者の多量の発声データから構成された複
数のベクトルパラメータの組をとする。ここで上付き添字（ｋ）は複数のベクトルパラ
メータを区別する添字で、たとえば各話者ごとに標準パ
ターンを作成した場合には話者の区別を示す。さらに何
らかの方法により作成された標準的なベクトルパラメー
タを_i,（ｉ＝１…Ｎ）とする。これにはたとえば代表
的な話者の標準パターンなどを対応させることができ
る。このときｋ番目のベクトルパラメータと標準的なベクトルパラメータ_ｉの間の差ベクトルを
修正ベクトルΔ_ｉのサンプルデータΔ_i ^(k)とする。

学習の評価関数は標準的なベクトルパラメータ
_ｉと、その新しい話者の標準パターンへの修正ベクトル
Δ_ｉから次式のように定義する。

ここで学習の対象がベクトルパラメータ自身ではな
く、その修正ベクトルになっている点が、請求項１およ
び２の方法と異なっている。このとき多数の話者の多量
発声データから得られる情報を表すパラメータΛ
^(ij)は、ベクトルパラメータμ_ｉの修正ベトルΔ_ｉとΔ
_ｊの間に整合性に関する知識を表現することになる。こ
のパラメータΛ^(ij)の決定は上述の多数話者の多量発声
から得られたサンプルデータΔ_i ^(k)を用いて請求項２の
方法と同様に行うことができる。

新しい使用者に対する標準パターンの学習は、上式の
評価関数をすべての修正ベクトルに関して最小化あるい
は極小化して得られる修正ベクトルを、対応するベクト
ルパラメータに加えることによって行うことができる。
その具体的方法として請求項１および２に関する具体例
で示したような急降下法が考えられることは言うまでも
ない。

以上本作用においては認識方法としてHMMを具体的な
例として説明を行ったが本発明は標準パターンとのパタ
ーンマッチングに基づくその他の音声認識方法に対して
もまったく同様に適用することができることは言うまで
もない。

（実施例）以下、本発明による実施例を図面を参照して説明す
る。第１図は本発明の請求項１の標準パターン学習方法
による標準パターン学習の流れを示すフローチャートで
ある。このフローチャートは認識方法として文献１に示
されているような単一ガウス分布HMMを用い、標準パタ
ーンを構成するベクトルパラメータの間の整合性を表す
尤度関数として多次元ガウス分布を採用した場合の例を
具体化したものである。これはちょうど作用の中で説明
した計算例に対応しており、変数などの表記はそこで与
えたものに従うことにする。以下処理の流れに沿って説
明する。

ステップ101は必要なパラメータの初期設定を行う。
設定されるパラメータはλ、ε、すべてのｉおよびｊに
関するμ_ｉ、Σ_ｉ、w^(ij)、R^(ij)である。ステップ102
と103はカウンターの初期設定を行う。

ステップ104から108は式13に従って、∂L₁/∂L_iを算
出している部分である。ステップ104はベクトルパラメ
ータμ_ｉの第１の修正量δμ（１）の初期値を０に設定
している。ステップ105は学習用発生に関するカウンタ
ーの初期設定を行う。ステップ106では、HMMの場合式14
に従って計算される。ステップ107でカウンターを１増
やし、学習用発声の最大数Ｗまでステップ106の計算を
行う。

ステップ109から114は式15に従って、∂L₂/∂μ_ｉを
算出している部分である。ステップ109はベクトルパラ
メータμ_ｉの第２の修正量δμ（２）の初期値を０に設
定している、ステップ110はカウンターの初期設定を行
う。ステップ111,112では、式15に従って第２の修正量
が累積される。ステップ113でカウンターを１増やし、
ベクトルパラメータの最大数Ｎまでステップ112の計算
を行う。

ステップ115は式16に従ってベクトルパラメータの修
正を行う。ステップ119はベクトルパラメータの最急降
下法による逐次修正の収束性を判定して、収束していな
ければステップ103に戻って、修正量の計算を続ける。
収束性の判定条件としては、逐次修正の回数ｎがある一
定数を越えたかどうかを調べて判定する条件や、評価関
数Ｌの改善量がある一定値を下回ったかどうかを調べて
判定する条件や、その組み合わせなどが用いられる。

第２図は本発明の請求項２の方法を用いて、多数の話
者の大量の発声からすべての音響的事象の間の相互関係
に関する情報を表すパラメータを決定するフローチャー
トを示したものである。このフローチャートは作用の中
で説明した具体例に対応して、標準パターンを構成する
ベクトルパラメータの間の整合性を表す尤度関数として
多次元ガウス分布を採用した場合を示しており、変数な
どの表記はそこで与えたものに従うことにする。この場
合は尤度数を最大にするパラメータΛ^(ij)＝｛w^(ij),R
^(ij)｝は式9,10に従って直接計算することができる。以
下処理の流れに沿って説明する。ステップ201はあらか
じめ多数の話者の大量の発声データから決定された複数
の標準パターンの初期設定を行っている。ステップ202
から219は式９と10に従ってその平均値w^(ij)と分散R
^(ij)を算出している。

第３図は本発明の請求項３の標準パターン学習方法に
よる標準パターン学習のフローチャートを示すものであ
る。このフローチャートは認識方法として単一ガウス分
布HMMを用い、標準パターンを構成するベクトルパラメ
ータの修正量の間の整合性を多次元ガウス分布で表現し
た場合の例を示したものである。これはちょうど作用の
中で説明した計算例に対応しており、変数などの表記は
そこで与えたものに従うことにする。以下処理の流れに
沿って説明する。

ステップ301は必要なパラメータの初期設定を行う。
設定されるパラメータはλ、ε、すべてのｉおよびｊに
関する_ｉ、Δ_ｉ、Σ_ｉ、w^(ij)、R^(ij)である。_ｉは
多数の話者の大量の発声データからあらかじめ求められ
た代表的な標準パターンである。ステップ302から319ま
での処理は第１図においてベクトルパラメータμ_ｉをそ
の修正量Δ_ｉに置き換えたものと同じである。ステップ
320から323は、算出された修正ベクトルΔ_ｉを代表的な
標準パターンを表すベクトルパラメータ_ｉに加えるこ
とによって、新しい使用者の最適な標準パターンへの変
換を行っている。

ここでベクトルパラメータの修正量の間の整合性を表
す尤度関数を規定するパラメータw^(ij)とR^(ij)は、本発
明の請求項４の方法に従って多数の話者の大量の発声デ
ータを用いて自動的に決定することができる。そして尤
度関数として多次元ガウス分布を採用した場合には実施
例の第２図のフローチャートに示した方法においてμを
Δに置き換えることによってまったく同様にして、パラ
メータの最適値を算出することができる。

（発明の効果）以上に述べたように本発明によれば、新しい使用者が
発声した少量の適用化用発声データに加えて、あらかじ
め多数の話者の大量の発声から求めておいたすべての音
響的事象の間の相互関係に関する情報を用いることによ
って、特定話者の大量発声データから作成された標準パ
ターンに極めて近い、精度の高い標準パターンの推定を
可能にする標準パターン学習方法を提供することができ
る。

【図面の簡単な説明】

第１図は本発明の請求項１による標準パターン学習方法
によって新しい使用者の少量の発声データから標準パタ
ーンを自動作成するためのフローチャートを示す図、第
２図は本発明の請求項２による方法によって標準パター
ンを構成するベクトルパラメータの間の整合性を表す尤
度関数を規定するパラメータを、多数の話者の大量の発
声データから自動決定するためのフローチャートを示す
図、第３図は本発明の請求項３による標準パターン学習
方法によって新しい使用者の少量の発声データから標準
パターンを自動作成するためのフローチャートを示す図
である。

Claims

(57)【特許請求の範囲】

【請求項１】標準パターンとのパターンマッチングに基
づく音声認識において、各カテゴリの標準パターンを特
徴づける第１のパラメータ集合を複数の学習用発声デー
タから決定するに際して、全学習用発声と対応する標準
パターンの間の整合性を表す第１の評価関数と、前記第
１のパラメータ集合の要素間の整合性を表す第２の評価
関数との和で表される第３の評価関数を最大化あるいは
極大化するように前記第１のパラメータ集合を決定する
ことを特徴とする標準パターン学習方法。
【請求項２】請求項１記載の標準パターン学習方法にお
いて、前記第２の評価関数を特徴づける第２のパラメー
タ集合をあらかじめ用意された複数の標準パターンに対
する前記第２の評価関数の総和を最大化あるいは極大化
するように決定することを特徴とする標準パターン学習
方法。
【請求項３】標準パターンとのパターンマッチングに基
づく音声認識において、各カテゴリの標準パターンを特
徴づける第１のパラメータ集合を複数の学習用発声デー
タから決定するに際して、全学習用発声と対応する標準
パターンの間の整合性を表す第１の評価関数と、前記第
１のパラメータ集合の全要素の初期値からの修正量の間
の整合性を表す第２の評価関数との和で表される第３の
評価関数を最大化あるいは極大化するように前記第１の
パラメータ集合の全要素の修正量を決定することを特徴
とする標準パターン学習方法。
【請求項４】請求項３記載の標準パターン学習方法にお
いて、前記第２の評価関数を特徴づける第２のパラメー
タ集合をあらかじめ用意された複数の第１のパラメータ
集合の全要素の修正量に対する前記第２の評価関数の総
和を最大化あるいは極大化するように決定することを特
徴とする標準パターン学習方法。