JP2000122689A - 話者適応化装置及び音声認識装置 - Google Patents

話者適応化装置及び音声認識装置

Info

Publication number
JP2000122689A
JP2000122689A JP10297924A JP29792498A JP2000122689A JP 2000122689 A JP2000122689 A JP 2000122689A JP 10297924 A JP10297924 A JP 10297924A JP 29792498 A JP29792498 A JP 29792498A JP 2000122689 A JP2000122689 A JP 2000122689A
Authority
JP
Japan
Prior art keywords
recognition result
speaker adaptation
standard pattern
reliability
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10297924A
Other languages
English (en)
Other versions
JP3589044B2 (ja
Inventor
Jun Ishii
純 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP29792498A priority Critical patent/JP3589044B2/ja
Publication of JP2000122689A publication Critical patent/JP2000122689A/ja
Application granted granted Critical
Publication of JP3589044B2 publication Critical patent/JP3589044B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 教師なし話者適応方式において話者適応学習
用認識結果が誤った場合においても、標準パタンのパラ
メータ誤推定を防ぎ、認識率を向上させる。 【解決手段】 認識結果信頼度演算手段101によっ
て、照合手段2003の出力である話者適応学習用音声
認識結果2006と音声特徴量抽出手段2002の出力
である音声特徴量と標準パタン2004を用いて認識結
果信頼度を計算する。また、認識結果信頼度付き教師な
し話者適応手段102によって、照合手段2003の出
力である話者適応学習用音声認識結果2006と音声特
徴量抽出手段2002の出力である音声特徴量と標準パ
タン2004を用いて、教師なし話者適応パタン200
8を計算する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、多数の話者の音声
データによりパラメータ学習を行った標準パタンを、あ
る話者に適応した話者適応パタンに更新するようにした
教師なし話者適応化装置、及びその話者適応パタンを用
いた音声認識装置に関する。
【0002】
【従来の技術】音声認識のアプリケーションを想定した
場合、事前の話者音声の登録を必要としない不特定話者
音声認識システムの要望が高く、隠れマルコフモデル(H
iddenMarkov Model、以下HMMとする)、ニューラルネッ
ト(Neural Network、以下NNとする)を用いた音声認識方
式による実用化検討が行われている。HMM、NNの詳細
は、例えば「音声認識の基礎(上、下)」L.RABINER、B.
H.JUANG、古井 監訳、1995年、11月、NTTアドバンステ
クノロジ (以下、文献1という)に記されている。これ
らの方法は、予め多数の話者からの単語、文などの音声
データを用いた、標準パタンの学習によって不特定話者
標準パタンを作成するものである。
【0003】しかしながら、HMMやNNによる不特定話者
音声認識システムは、特定話者に限定した場合、その特
定話者からの単語、文などの音声データによって標準パ
タンを学習した特定話者認識システムと比較して、単語
誤り率で2〜3倍程度であるのが現状である。そこで不特
定話者音声認識システムの向上をはかるため、話者適応
技術の研究が最近盛んに行われている。
【0004】話者適応化技術は、特定話者の少量の音声
データ(以下適応データとする)を用いて、音声認識シス
テムを使用する前や使用中に、不特定話者音声認識シス
テムの標準パタンのパラメータを適応学習して認識率の
向上を図るものである。話者適応化方式については、
「音声認識における話者適応」松本 弘、日本音響学会
平成7年春季研究発表会講演論文集、pp.27-301995年
3月(以下、文献2という)に詳しい。話者適応化法と
しては、適応学習データの発話の内容が既知の音声を用
いるか、あるいは任意の未知の発話内容の音声を使用す
るかにより、「教師あり/教師なし」の2つの方法があ
る。教師あり話者適応方式は、適応データを用いた適応
学習後の認識精度は高いが、音声認識装置の使用者が使
用前に予め決められた単語や文章を発声しなければなら
ず、使用者の負担が大きい。一方、教師なし話者適応方
式は、音声認識装置の使用中に使用者が適応学習を意識
することなく認識率の改善を得ようとする方法である。
実際の音声認識のアプリケーションでは、教師なし話者
適応の確立が望まれている。
【0005】従来の教師なし適応化では、入力音声に対
して不特定話者用の標準パタンを用いて照合を行い、照
合を行った結果として得られる認識結果を発声内容であ
るとして、不特定話者用標準パタンを連結し、入力音声
を適応データとして標準パタンのパラメータを更新す
る。例えば 「Speaker Adaptation of ContinuousDensi
ty HMMs Using Multivariate Linear Regression」 C.
L. Leggetter andP. C.Woodland, Proc. of ICSLP94、p
p.451-454、1994年 (以下、文献3という)で報告されて
いる。
【0006】以下に従来例として文献3に記述されてい
る認識結果を発声内容とする教師なし話者適応化装置を
図21のブロック図を参照して説明する。図21におい
て、入力音声2001は、認識装置の使用話者が発声し
た単語や文章の音声である。ここでの1発声はポーズか
らポーズの間の文節や文章として説明を行う。
【0007】音声特徴量抽出手段2002は入力音声2
001の音声信号をA/D変換し、A/D変換された信号を5
ミリ秒〜20ミリ秒程度の一定時間間隔のフレームで切
り出し、音響分析を行って音声特徴量を抽出する。ここ
で音声特徴量とは、少い情報量で音声の特徴を表現でき
るものであり、例えばケプストラム、ケプストラムの動
的特徴の物理量で構成する特徴量ベクトルである。
【0008】照合手段2003では、認識辞書2005
でテキスト表記によって設定している認識対象の単語
[W(1), W(2), ..., W(wn)](括弧内は単語番号、wnは認
識対象単語数)を認識ユニットのラベル表記へ変換し、
ラベルに対応した認識ユニットの標準パタン2004を
連結することで認識対象単語の標準パタンを作成する。
そして音声特徴量抽出手段2002からの出力である発
声1から発声Nまでの音声特徴量の時系列 O = [o(1), o
(2) ,..., o(T)](括弧内は時刻、Tは最大フレーム数)に
対して照合を行い、話者適応学習用音声認識結果200
6を出力する。話者適応学習用音声認識結果2006は
発声に対して最も照合スコア(尤度とも言う) が高い単
語番号系列 Rn■=[r■(1), r■(2) ,..., r■(m■)]を
計算し、単語番号に対応した単語のテキスト表記Rw■=
[W(r■(1)), W(r■(2)) ,..., W(r■(m■))]を出力す
る。ここで、r■(i)は話者適応学習用音声認識結果20
06の単語列中のi番目の単語の単語番号を示す。ま
た、m■は話者適応用音声認識結果2006の単語列数
を示す。
【0009】標準パタン2004は、予め用意した標準
パタンであり、文献3では認識ユニットを前後音素環境
(コンテキスト) 依存の音素としたHMMを用い、多数の
話者の音声データでパラメータ学習を行った標準パタン
を初期の標準パタンとして使用している。HMMは状態単
位で以下の情報をパラメータとして有することで複数の
認識ユニットの標準パタンを形成する。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率確率及び後続状態への遷移確率
【0010】認識辞書2005は、予め定めた認識対象
とする単語や文章をテキストで格納し、テキスト表記か
ら認識ユニットラベルへの変換を行って、このラベル系
列にしたがって標準パタン2004から対応する認識ユ
ニット標準パタンを連結して照合手段2003で用いる
認識対象単語の標準パタンを生成する。例えば認識辞書
2005に「あお」が存在するならば、これは音素系列
で表した場合は/ao/となる。離散発声の「あお」の認識
に用いる標準パタンは中心音素が/a/であり、先行音素
が無音、後続音素が/o/である認識ユニットのHMM λ-ao
と、中心音素が/o/であり、先行音素が/a/、後続音素が
無音の認識ユニットのHMM λao-を連結したHMMによって
照合を行う。最近ではこのような前後音素環境依存の音
素HMMを用いて、認識対象語彙が40,000単語以上の音声
認識システムの検討が行われている。
【0011】教師なし話者適応手段2007は、照合手
段2003の出力である話者適応学習用音声認識結果2
006と標準パタン2004を入力し、認識結果の認識
ユニットラベル系列に基づき、標準パタン2004の音
素HMMを連結し、音声特徴量抽出手段2002からの出
力である音声特徴量の時系列を適応データとして標準パ
タンのパラメータを更新し、教師なし話者適応パタン2
008を出力する。
【0012】文献3では、数式1で示される重回帰写像
モデルに基づき、HMMのパラメータの一つであるガウス
分布の平均ベクトルを線形変換することで教師なし話者
適応パタン2008を計算する。数式1においてμ
(q)、μa(q)は更新前後のガウス分布番号qの平均ベクト
ルであり、次元数はdであり音声特徴量ベクトルの次元
数と同じである。Aはd×dの変換行列であり、vはd次元
の定数項ベクトルである。変換行列Aとvは数式2によっ
てAのp行目、vのp次元目を算出する。数式2において、
Ψは更新を行うガウス分布番号の集合、γ(i,t)は時刻t
にガウス分布iに特徴ベクトルo(t)が存在する期待値、
μ(i,r)はガウス分布iの平均ベクトルのr次元目の要
素、σ2(i,p)はガウス分布iの共分散行列のp行p列目の
要素、o(t,p)は特徴ベクトルo(t)のp次元目の要素、T
は適応データの総フレーム数である。
【数1】
【数2】
【0013】教師なし話者適応パタン2008は、教師
なし話者適応手段2007からの出力であり、この標準
パタンを用いて音声認識装置などで音声認識が行われ
る。
【0014】
【発明が解決しようとする課題】しかし、従来の教師な
し話者適応化装置では、照合を行って得られた話者適応
用認識結果を発声内容として標準パタンのパラメータの
更新を行っていたため、話者適応学習用認識結果が誤っ
た場合には、パラメータの誤った推定が行われ認識率が
低下する、という問題点があった。
【0015】そこで、本発明は、以上の問題点を解決
し、教師なし話者適応方式において話者適応学習用認識
結果が誤った場合においても、標準パタンのパラメータ
誤推定を防ぎ、認識率を向上させることのできる話者適
応化装置、およびその話者適応化装置により更新された
教師なし話者適応パタン使用して音声認識を行う音声認
識装置を提供することを目的とする。
【0016】
【課題を解決するための手段】この発明に係る話者適応
化装置では、多数の話者の音声データによりパラメータ
学習を行った標準パタンを、ある話者に適応した話者適
応パタンに更新するようにした話者適応化装置におい
て、話者の入力音声から音声特徴量を抽出する音声特徴
量抽出手段と、前記音声特徴量抽出手段が抽出した音声
特徴量と、前記標準パタンとを照合して認識結果を出力
する照合手段と、前記音声特徴量抽出手段が抽出した音
声特徴量と、前記標準パタンとに基づいて、前記照合手
段から出力された認識結果の信頼度を演算して出力する
認識結果信頼度演算手段と、前記音声特徴量抽出手段が
抽出した音声特徴量と、前記照合手段から出力された認
識結果と、前記認識結果信頼度演算手段からの認識結果
信頼度とに基づいて、前記標準パタンを前記話者適応パ
タンへ更新する認識結果信頼度付き教師なし話者適応手
段と、とを備えるものである。
【0017】また、次の発明に係る話者適応化装置で
は、前記認識結果信頼度付き教師なし話者適応手段は、
更に、ある入力音声により話者適応パタンを更新する
際、その前の入力音声により更新した話者適応パタンを
標準パタンとして使用することを特徴とする。
【0018】また、次の発明に係る話者適応化装置で
は、前記認識結果信頼度演算手段は、前記照合手段から
出力された認識結果の信頼度を演算する際、話者の1発
声毎に信頼度を演算することを特徴とする。
【0019】また、次の発明に係る話者適応化装置で
は、前記認識結果信頼度演算手段は、前記標準パタンの
基本単位である認識ユニット区間毎に認識結果の信頼度
を演算することを特徴とする。
【0020】また、次の発明に係る話者適応化装置で
は、前記認識結果信頼度演算手段は、音素や音節などの
音声単位区間毎に認識結果の信頼度を演算することを特
徴とする。
【0021】また、次の発明に係る話者適応化装置で
は、前記認識結果信頼度演算手段は、前記音声データの
特徴量を演算する一定区間のフレーム毎に認識結果信頼
度を演算することを特徴とする。
【0022】また、次の発明に係る話者適応化装置で
は、前記認識結果信頼度付き教師なし話者適応手段は、
前記照合手段からの認識結果に基づいて、前記音声特徴
量抽出手段が抽出した音声特徴量を認識ユニット毎に分
割し、その認識ユニット毎に分割された音声特徴量と、
前記認識結果信頼度演算手段からの認識結果信頼度とに
基づいて、各認識ユニット毎に前記標準パタンを前記話
者適応パタンへ更新することを特徴とする。
【0023】また、次の発明に係る話者適応化装置で
は、前記認識結果信頼度付き教師なし話者適応手段は、
前記認識ユニットの標準パタンパラメータ更新用の分割
された適応データを用い、最尤推定によって標準パタン
のパラメータを推定し、認識ユニットの標準パタンのパ
ラメータ更新に用いた適応データの認識結果信頼度の合
計値に基づき、最尤推定前後のパラメータの値の線形補
間によって前記標準パタンパラメータから前記話者適応
パタンのパラメータへ更新することを特徴とする。
【0024】また、次の発明に係る話者適応化装置で
は、前記標準パタンのパラメータ値の線形補間は、標準
パタンのパラメータの最尤推定に用いた適応データの認
識結果信頼度の合計値が大きければ、前記最尤推定値の
重みを大きくするように行うことを特徴とする。
【0025】また、次の発明に係る話者適応化装置で
は、前記認識結果信頼度付き教師なし話者適応手段は、
前記認識ユニットの標準パタンのパラメータ更新用の分
割された適応データを用い、認識結果信頼度によって適
応データのパラメータ学習への重みを計算して、重み付
けされた適応データによって前記標準パタンパラメータ
から前記話者適応パタンのパラメータへ更新することを
特徴とする。
【0026】また、次の発明に係る話者適応化装置で
は、前記認識結果信頼度は、前記フレーム毎に付与し、
0〜1の範囲の値であり、信頼度が高い場合には1に近
い値を出力することを特徴とする。
【0027】また、次の発明に係る話者適応化装置で
は、前記照合手段は、複数の認識結果候補を出力し、認
識結果信頼度演算手段は、複数の認識結果候補に対して
認識結果信頼度を演算して、前記認識結果信頼度付き教
師なし話者適応手段では、複数の認識結果候補に基づい
て、前記標準パタンのパラメータから前記話者適応パタ
ンのパラメータへ更新することを特徴とする。
【0028】また、次の発明に係る話者適応化装置で
は、前記認識結果信頼度付き教師なし話者適応手段は、
前記第1の発声の認識結果信頼度が予め定めた閾値以下
ならば、標準パタンのパラメータの更新は行わないこと
を特徴とする。
【0029】また、次の発明に係る話者適応化装置で
は、前記認識結果信頼度付き教師なし話者適応手段は、
前記第1の発声の認識結果信頼度の値によって更新方法
を切り替えることを特徴とする。
【0030】また、次の発明に係る話者適応化装置で
は、前記標準パタンのパラメータは、クラスタリングに
よってグループ化し、グループ内のパラメータの更新用
の分割された適応データと認識結果信頼度を用いてグル
ープに共通なパラメータの変動量を演算し、前記パラメ
ータ変動量によって前記標準パタンのグループのパラメ
ータを前記話者適応パタンのグループのパラメータへ更
新すること特徴とする請求項1記載の話者適応化装置。
【0031】また、次の発明に係る話者適応化装置で
は、前記クラスタリングは、木構造クラスタリングを行
って木構造状に標準パタンのパラメータをクラスタリン
グし、木構造のノード以下に属する標準パタンのパラメ
ータ更新用の分割された適応データの認識結果信頼度が
閾値以上であるノード以下の標準パタンのパラメータを
グループとして、グループ内のパラメータの更新用の分
割された適応データと認識結果信頼度を用いてグループ
に共通なパラメータの変動量を演算し、前記変動量によ
って前記標準パタンのグループのパラメータを前記話者
適応パタンのグループのパラメータへ更新することを特
徴とする請求項15記載の話者適応化装置。
【0032】また、次の発明に係る話者適応化装置で
は、前記標準パタン、及び前記話者適応パタンとして、
連続混合分布型隠れマルコフモデルを用いることを特徴
とする。
【0033】また、次の発明に係る話者適応化装置で
は、前記連続混合分布型隠れマルコフモデルのシンボル
出力確率密度関数を構成する要素分布関数は、ガウス分
布であることを特徴とする。
【0034】また、次の発明に係る話者適応化装置で
は、前記認識結果信頼度付き教師なし話者適応手段にお
いて更新するパラメータは前記ガウス分布の平均ベクト
ルであることを特徴とする。
【0035】また、次の発明に係る話者適応化装置で
は、前記ガウス分布の平均ベクトルの更新は、適応デー
タが存在するガウス分布の平均ベクトルは認識結果信頼
度付き更新を行い、適応データが存在しないガウス分布
の平均ベクトルは適応データが存在するガウス分布の更
新前後の平均ベクトルの値の差分ベクトルを用いた補間
によって前記標準パタンのパラメータを前記話者適応パ
タンのパラメータへ更新することを特徴とする。
【0036】また、次の発明に係る話者適応化装置で
は、前記認識結果信頼度付き教師なし話者適応手段は、
認識結果信頼度を用いた重回帰写像モデルに基づく話者
適応によって、前記標準パタンのパラメータであるガウ
ス分布の平均ベクトルを前記話者適応パタンのガウス分
布の平均ベクトルへ更新することを特徴とする。
【0037】また、次の発明に係る話者適応化装置で
は、前記重回帰写像モデルに基づく話者適応は、標準パ
タンのガウス分布をクラスタリングしてグループ化し、
グループ内のガウス分布更新用の適応データと認識結果
信頼度に基づいてガウス分布のグループに1つの回帰係
数を演算し、標準パタンの平均ベクトルを回帰係数を用
いて話者適応パタンの平均ベクトルへ更新することを特
徴とする。
【0038】また次の発明に係る音声認識装置は、請求
項1〜22のうちいずれかに記載の話者適応化装置によ
って更新された教師なし話者適応パタンと、話者の入力
音声から音声特徴量を抽出する音声特徴量抽出手段と、
前記音声特徴量抽出手段が抽出した音声特徴量と、前記
教師なし話者適応パタンとを照合して認識結果を出力す
る照合手段と、を備えるものである。
【0039】
【発明の実施の形態】実施の形態1.図1は、請求項1
記載の発明による話者適応化装置の1構成である実施の
形態1を示すブロック図である。図1において従来技術
の説明図である図21と同一の機能ブロックは同一の符
号を付し説明を省略する。従来技術と異る本発明の特徴
的な部分は、認識結果信頼度演算手段101を備えたこ
とと、教師なし話者適応手段2007の代りに認識結果
信頼度付き教師なし話者適応手段102を備えたことで
ある。
【0040】次に図1を参照しながら動作について説明
する。認識結果信頼度演算手段101は、照合手段20
03からの出力である話者適応学習用音声認識結果20
06と音声特徴量抽出手段2002からの出力である音
声特徴量、及び標準パタン2004を入力し、話者適応
学習用認識結果2006に対する信頼度を演算する。認
識結果の信頼度は、例えば「種々の統計量を用いた単語
リジェクト方式の検討」花沢、阿部、日本音響学会平成
10年春期研究発表会講演論文集、pp.141-142、1998年3
月(以降、文献4という)に示されている統計量を用い
る。
【0041】文献4では、認識結果の信頼度を得るため
に(1)音響尤度差、(2)音素継続時間長、(3)音素混同行
列の3種類の統計量を用いている。(1)の音響尤度差は、
入力音声の話者適応学習用音声認識結果2006である
Rw■のフレーム尤度と、全音素接続の音素タイプライタ
による音声認識装置の認識結果Rw■の区間に対しての尤
度の差を数式3により計算して信頼度とするものであ
る。数式3においてltはフレームtにおける認識結果Rw
■の対数フレーム尤度、Ltは、音素タイプライタによ
る対数フレーム尤度である。また、NはRw■の音素数、
biとeiは、i番目の音素の始端と終端フレームであ
る。Saは値が小さいほど信頼性が高い統計量であるの
で通常はマイナスを乗じた値として信頼度とする。
【数3】
【0042】(2)の音素継続時間長は、入力音声に対す
る話者適応学習用音声認識結果Rw■の各音素の隣接音素
間の継続時間長の整合性に基づく信頼性の統計量であ
り、数式4によって信頼度を計算する。数式4において
diはRw■を構成するi番目の音素を中心として前後1音
素づつの継続時間長を並べた3次元のベクトルであり、
Diは他の多数話者の音声データを用いて事前に求めた
前記3音素の継続時間長の平均値を並べた3次元ベクト
ルである。数式4によって演算するSdは、認識結果Rw
■中の隣接する3音素間の継続時間長の比が、学習デー
タによって求めた平均時間長の比に近いほど大きな値を
とる。したがって、Sdは値が大きいほど認識結果の信
頼度が高い統計量である。
【数4】
【0043】(3)の音素混同行列は、音素タイプライタ
による音素認識を並行して行い、話者適応学習用音声認
識結果Rw■を構成する音素系列と音素タイプライタによ
る認識結果である音素系列とを時間軸上で対応づけ、事
前に求めた音素混同行列を用いて数式5によって信頼度
を計算する。数式5において、hiはR■wを構成するi番
目の音素モデル、pikは音素タイプライタによる音素系
列中でhiと区間が重なる音素、Kiはhiと区間が重な
る音素数、m(h,p)は事前に求めた音素h音素pの混同
率、wikはhiとpikとの区間重なり率であり、数式6
によって計算する。数式5のScは、値が大きいほど認
識結果の信頼度が高い統計量である。最終的なRw■の認
識結果信頼度は上記の3種類の統計量を用い、数式7に
よって計算する。数式7においてw2、w3は重み係数で
あり実験的に設定する。
【数5】
【数6】
【数7】
【0044】認識結果信頼度付き教師なし話者適応手段
102は、認識結果信頼度演算手段101からの出力で
ある認識結果信頼度と、照合手段2003からの出力で
ある話者適応学習用音声認識結果2006と、音声特徴
量抽出手段2002からの出力である音声特徴量と、標
準パタン2004を入力して標準パタンのパラメータの
更新を行い、教師なし話者適応パタン2008を出力す
る。従って、この実施の形態1の話者適応化装置によれ
ば、上記のように認識結果に対して信頼度を付加して教
師なし話者適応を行うので認識結果が誤っている場合で
も、標準パタンのパラメータの誤った更新を防ぐので、
認識率を向上させることができる。
【0045】実施の形態2.図2は、請求項2記載の発
明による話者適応化装置の1構成例である実施の形態2
を示すブロック図である。図2において、実施の形態1
と同一の機能ブロックは同一の番号を付し説明を省略す
る。本発明の特徴的な部分は、先行する発声によって更
新した教師なし話者適応パタン2008を標準パタン2
004へ代入し、引き続く発声に対して教師なし話者適
応を行うことを特徴としたことである。
【0046】次に図2を参照しながら動作について説明
する。認識結果信頼度付き教師なし話者適応手段102
は、使用者の最初の発声O(1) = [o(t1),o(t1+1), ...,
o(T1)]を用いて標準パタン2004のパラメータを更新
して教師なし話者適応パタン2008を出力する。ここ
で、この最初の発声によって得られた教師なし話者適応
パタンをΛ(1)とする。次にΛ(1)を標準パタン2004
とし、使用者の2番目の発声O(2) = [o(t2), o(t2+1),
..., o(T2)] を用いて教師なし話者適応処理によって
更に標準パタン2004を更新して、教師なし話者適応
パタン2008を計算する。このようにj番目の発声を
用いた教師なし話者適応の更新前の標準パタンとして(j
-1)番目の発声までに逐次的に更新したΛ(j-1)を用い
る。従って、この実施の形態2の話者適応化装置によれ
ば、上記のように認識結果に対して信頼度を付加して逐
次的に教師なし話者適応を行うので認識結果が誤ってい
る場合でも、標準パタンのパラメータの誤った更新を防
ぐので、認識率を向上させることができる。
【0047】実施の形態3.図3は、請求項3記載の発
明による話者適応化装置の認識結果信頼度演算手段の動
作説明図であり、実施の形態3の特徴を示す図である。
本実施の形態3の特徴的な部分は、認識結果信頼度演算
手段101から出力である認識結果信頼度は、ポーズで
区切られた1発声毎に1つ計算することである。認識結
果信頼度演算手段101は、図3に示すようにk番目の
発声の始端と終端をtus(k)、tue(k)とした場合に、tue
(k)とtue(k)との間のフレームに関して1つの認識結果
信頼度Su(k)を計算して、tue(k)とtue(k)との間の各フ
レームの認識結果信頼度をSu(k)とする。従って、この
実施の形態3の話者適応化装置によれば、上記のように
1発声毎に認識結果に対して信頼度を付加して教師なし
話者適応を行うので、認識結果が誤っている場合でも、
標準パタンのパラメータの誤った更新を防ぐので、認識
率を向上させることができる。
【0048】実施の形態4.図4は、請求項4記載の発
明による話者適応化装置の認識結果信頼度演算手段の動
作説明図であり、実施の形態4の特徴を示す図である。
本実施の形態4の特徴的な部分は、認識結果信頼度演算
手段101からの出力である認識結果信頼度は、認識ユ
ニットに1つ計算することである。認識ユニットとは標
準パタンの基本単位であり、認識ユニットを連結するこ
とで認識対象の単語、文章を認識する標準パタンを構成
する。認識結果信頼度演算手段101は入力音声の話者
適応学習用音声認識結果2006に基づき、認識ユニッ
トラベル系列にしたがって標準パタンを連結し、この標
準パタンによって音声特徴量の時系列を認識ユニットに
分割する。分割されたu番目の認識ユニットの始端と終
端をtrs(u)、tre(u)とした場合に、trs(u)とtre(u)の間
のフレームに関して1つの認識結果信頼度Sr(u)を図4
のように計算し、区間内のフレームの認識結果信頼度を
Sr(u)とする。図4は認識結果が5個の認識ユニットによ
って構成されている例である。従って、この実施の形態
4の話者適応化装置によれば、上記のように1認識ユニ
ット毎に認識結果に対して信頼度を付加して教師なし話
者適応を行うので認識結果が誤っている場合でも、標準
パタンのパラメータの誤った更新を防ぐので、認識率を
向上させることができる。
【0049】実施の形態5.図5は,請求項5記載の発
明による話者適応化装置の認識結果信頼度演算手段の動
作説明図であり、実施の形態5の特徴を示す図である。
本実施の形態5の特徴的な部分は、認識結果信頼度演算
手段101からの出力である認識結果信頼度は、音素や
音節などの音声単位に1つ計算することである。以下で
は音声単位が音素である場合で説明する。認識結果信頼
度演算手段101は入力音声の話者適応学習用音声認識
結果2006の音素系列にしたがって、音声特徴量の時
系列を音素単位に分割する。分割されたp番目の音素の
始端と終端をtps(p)、tps(p)とした場合に、tps(p)とtp
e(p)との間のフレームに関しては認識結果信頼度Sp(p)
を図5のように計算して、tps(p)とtpe(p)との区間内の
各フレームの認識結果信頼度をSp(p)とする。図5は入
力音声の話者適応学習用認識結果が/onsei/の5音素に
よって構成されている例である。従って、この実施の形
態5の話者適応化装置によれば、上記のように1音素毎
に認識結果に対して信頼度を付加して教師なし話者適応
を行うので認識結果が誤っている場合でも、標準パタン
のパラメータの誤った更新を防ぐので、認識率を向上さ
せることができる。
【0050】実施の形態6.図6は、請求項6記載の発
明による話者適応化装置の認識結果信頼度演算手段の動
作説明図であり、実施の形態6の特徴を示す図である。
本実施の形態6の特徴的な部分は、認識結果信頼度演算
手段101からの出力である認識結果信頼度は、一定時
間間隔のフレーム単位に計算することである。以下では
図6を参照しながら動作説明を行う。認識結果信頼度演
算手段101は、入力音声を5ミリ秒〜20ミリ秒程度
の一定時間間隔のフレーム単位に認識結果信頼度を出力
する。図6は、フレームt〜t+5毎に認識結果信頼度
[Sf(t), Sf(t+1), ..., , Sf(t+5)]を出力を示したもの
である。従って、この実施の形態6の話者適応化装置に
よれば、このように一定時間間隔のフレーム単位で認識
結果信頼度を計算するので、認識結果が誤っている場合
でも、標準パタンのパラメータの誤った更新を防ぐこと
ができ、認識率を向上させることができる。
【0051】実施の形態7.図7は、請求項7記載の発
明による話者適応化装置の1構成例である実施の形態7
を示すブロック図である。図7において、実施の形態1
と同一の機能ブロックは同一の番号を付し説明を省略す
る。本発明の特徴的な部分は、認識結果信頼度付き教師
なし話者適応手段102は、音声データセグメンテーシ
ョン手段701と認識結果信頼度付き標準パタンパラメ
ータ更新手段702で構成することを特徴としたことで
ある。
【0052】次に図7を参照しながら動作について説明
する。音声データセグメンテーション手段701は、話
者適応学習用音声認識結果2006に基づいて、標準パ
タン2004から対応する認識ユニット標準パタンを連
結し、音声特徴量の時系列を認識ユニット毎にセグメン
テーションする。セグメンテーションは、例えば標準パ
タンがHMMである場合は文献1に記載されているビター
ビアルゴリズムによって行う。ビタービアルゴリズム
は、音声特徴量の時系列[o(1), o(2), ..., o(t)]に対
する1本の最適状態系列[q1, q2, ..., qt]を見つける
アルゴリズムである。例えば単語標準パタンが3つの認
識ユニットからなり、1認識ユニット当り1状態のHMM
であるとし、状態が(s1,s2,s3)で構成されるとする。そ
してビタービアルゴリズムによって得られた最適状態系
列[s1, s1, s2, s2, s2, s3, s3, s3]であったならば、
フレーム1〜2がユニット1、フレーム3〜5がユニッ
ト2、フレーム6〜8がユニット3にセグメンテーショ
ンされる。
【0053】認識結果信頼度付き標準パタンパラメータ
更新手段702は、認識ユニットの標準パタンパラメー
タを、セグメンテーションによって分割された音声特徴
量と認識結果信頼度を用いて更新する。従って、この実
施の形態7の話者適応化装置によれば、上記のように音
声データセグメンテーションを行って識結果信頼度付き
標準パタンパラメータの学習を行うので、話者適応学習
用認識結果が誤っている場合でも、標準パタンのパラメ
ータの誤った更新を防ぐことができ、認識率を向上させ
ることができる。
【0054】実施の形態8.図8は、請求項8記載の発
明による話者適応化装置の1構成例である実施の形態8
を示すブロック図である。図8において、実施の形態1
と同一の機能ブロックは同一の番号を付し説明を省略す
る。本発明において特徴的な部分は、認識結果信頼度付
き教師なし話者適応手段102を、標準パタンパラメー
タ最尤推定手段801と、認識結果信頼度に基づくパラ
メータ線形補間手段802とで構成することである。
【0055】次に図8を参照しながら動作について説明
する。標準パタンパラメータ最尤推定手段801は、音
声特徴量抽出手段2002の出力である音声特徴量と、
話者適応学習用音声認識結果2006に基づいて標準パ
タン2004の認識ユニット標準パタンを連結した標準
パタンを用いて、標準パタンのパラメータの最尤推定を
行い、推定後の標準パタンΛmを得る。最尤推定は、例
えば文献1に記載されているBaum-Welch法によってパラ
メータ推定を行う。
【0056】認識結果信頼度に基づくパラメータ線形補
間手段802は、標準パタンパラメータ最尤推定手段8
01からの出力である最尤推定後の標準パタンΛm、及
び推定前の標準パタンΛを入力し、認識結果信頼度演算
手段101からの出力である認識結果信頼度によってΛ
mとΛのパラメータの線形補間を行い、得られた値を教
師なし話者適応パタン2008のパラメータとする。例
えば標準パタンがHMMであり、ガウス分布の平均ベクト
ルμ(q) (qはガウス分布の番号) を更新する場合には、
数式8によって教師なし話者適応パタン2008の平均
ベクトルμa(q)を計算する。数式8においてμ(q)、μm
(q)は最尤推定前後の平均ベクトルの値である。またwm
(q)は、値が0から1.0の重み係数であり、μ(q)の更
新に用いた適応データの認識結果信頼度によって決定す
る。
【数8】 従って、この実施の形態8の話者適応化装置によれば、
上記のように標準パタンパラメータ最尤推定後に認識結
果信頼度に基づいてパラメータの線形補間を行うので、
話者適応学習用認識結果が誤っている場合でも、標準パ
タンのパラメータの誤った更新を防ぐことができ、認識
率を向上させることができる。
【0057】実施の形態9.実施の形態9は、実施の形
態8の話者適応化装置における標準パタンのパラメータ
の線形補間において、パラメータの最尤推定に使用した
適応データの認識結果信頼度の合計値が大きければ最尤
推定値の重みを大きくすることを特徴とした請求項9記
載の発明による話者適応化装置である。数式9は数式8
の重み係数wm(q)の値を計算する請求項9記載の発明の
1例である。数式9においてSf(t)はフレームtにおけ
る認識結果信頼度、Ωはパラメータμの更新に用いる適
応データのフレームの時刻の集合、τは値が0以上の制
御定数である。
【数9】 従って、この実施の形態9の話者適応化装置によれば、
上記のように構成することで認識結果が誤っている場合
でも、標準パタンのパラメータの誤った学習を防ぐこと
ができ、認識率を向上させることができる。
【0058】実施の形態10.図9は、請求項10記載
の発明による話者適応化装置の1構成例である実施の形
態10を示すブロック図である。図9において、実施の
形態1と同一の機能ブロックは同一の番号を付し説明を
省略する。本発明において特徴的な部分は、認識結果信
頼度付き教師なし話者適応手段102は、認識結果信頼
度重み付き学習データによる適応学習手段901で構成
することである。
【0059】次に図9を参照しながら動作について説明
する。認識結果信頼度重み付き学習データによる適応学
習手段901は、話者適応学習用音声認識結果2006
と標準パタン2004と認識結果信頼度演算手段101
の出力である認識結果信頼度と音声特徴量抽出手段20
02の出力である音声特長量の時系列とを入力し、認識
結果信頼度によって適応データへ重み付けしたパラメー
タ更新を行う。例えば、標準パタン2004がHMMであ
る話者適応化装置では、数式10によってガウス分布の
平均ベクトル、数式11によってガウス分布の共分散行
列の更新を行う。数式10のoh(t)は認識結果信頼度に
よって重み付けされた音声特徴量であり、例えば数式1
2よって計算する。数式12において、μ(q)は更新前
のガウス分布の平均ベクトル、o(t)は時刻tの音声特徴
量であり、τは値が0以上の制御定数、Sf(t)はフレー
ムtの認識結果信頼度であるので、Sf(t) が小さい場合
はoh(t)は更新前の平均ベクトルに近い値となり、o(t)
のパラメータ更新への寄与度が小さく、またSf(t)が大
きい場合は、oh(t)はo(t)に近い値となりパラメータ更
新への寄与度が大きくなる。数式10においてγ(q,t)
は、時刻tにガウス分布qに音声特徴量 o(t) が存在する
期待値であるが、重み付けされた音声特徴量oh(t)が存
在する期待値として計算してもよい。また、ここで得ら
れたμa(q)を数式8のμm(q)として更新前の標準パタン
パラメータとの線形補間を行うことも可能である。
【数10】
【数11】
【数12】 従って、この実施の形態10の話者適応化装置によれ
ば、このように構成することで認識結果が誤っている場
合でも、標準パタンのパラメータの誤った学習を防ぐこ
とができ、認識率を向上させることができる。
【0060】実施の形態11.また、実施の形態11
は、実施の形態10の話者適応化装置において、認識結
果信頼度をフレーム毎に付与し、その値が0〜1であ
り、信頼度が高い場合には1に近い値を出力することを
特長とした請求項11記載の話者適応化装置である。従
って、この実施の形態11の話者適応化装置によれば、
上記のように構成することで認識結果が誤っている場合
でも、標準パタンのパラメータの誤った学習を防ぐこと
ができ、認識率を向上させることができる。
【0061】実施の形態12.図10は、請求項12記
載の発明による話者適応化装置の1構成例である実施の
形態12を示すブロック図である。図10において、実
施の形態1と同一の機能ブロックは同一の番号を付し説
明を省略する。本発明において特徴的な部分は、照合手
段2003は複数認識結果候補出力照合手段1001で
構成し、認識結果信頼度演算手段101は複数認識結果
候補信頼度演算手段1002で構成し、認識結果信頼度
付き教師なし話者適応手段102は複数認識結果候補信
頼度付き教師なし話者適応手段1003で構成すること
を特徴としたことである。
【0062】次に図10を参照しながら動作について説
明する。複数認識結果候補出力照合手段1001は、認
識辞書2005によって定められた認識対象単語にした
がい標準パタン2004連結して、音声特徴量抽出手段
2002の出力である音声特徴量に対して照合を行な
い、予め定めた候補数の認識結果[Rw■(1), Rw■(2),
...,Rw■(N)](Rw■(n)は、入力音声に対してn番目にス
コアが高い話者適応学習用音声認識結果、Nは予め定め
た候補数) を照合スコアが高い認識結果候補から順に出
力する。
【0063】複数認識結果候補信頼度演算手段1002
は、複数認識結果候補出力照合手段1001の出力であ
る複数認識結果候補[Rw■(1), Rw■(2), ..., Rw■(N)]
と音声特徴量と標準パタン2004とを入力して複数の
認識結果候補の各々に対して認識結果信頼度[Sm(1), Sm
(2), ..., Sm(N)]を計算する。ここで、Sm(n)は入力音
声に対するn番目の認識結果候補に対する認識結果信頼
度の時系列である。認識結果信頼度がフレーム毎のSf
(n,t)であるならば、Sm(n)=[Sf(n,1), Sf(n,2) ,...,Sf
(n,Tn)]である。複数認識結果候補信頼度付き教師なし
話者適応手段1003は、複数認識結果候補出力照合手
段1001の出力である複数認識結果候補と複数認識結
果候補信頼度演算手段1002からの出力である認識結
果信頼度と標準パタン2004を入力して標準パタンの
パラメータ更新を行い、教師なし話者適応パタン200
8を出力する。
【0064】複数認識結果候補信頼度付き教師なし話者
適応手段1003は、例えば複数認識結果各々を用いて
独立にN個の教師なし話者適応パタンを作成して、N個の
標準パタンのパラメータを合成することで最終的な教師
なし話者適応パタン2008を得る方法がある。例えば
標準パタンがHMMであり更新するパラメータをガウス分
布の平均ベクトル、共分散行列とした場合、数式13に
よってガウス分布qの平均ベクトル、数式14によって
共分散行列を計算する。数式13においてμi(n,q)は、
第n番目の認識結果候補を用いて更新したガウス分布qの
平均ベクトルであり、数式14においてCi(n,q)はn番目
の認識結果候補を用いて更新したガウス分布qの共分散
行列である。数式13、数式14においてβ(n)は第n番
目の認識結果候補に対する重み付けであり数式15によ
って計算する。数式15においてSi(n)は第n番目の認
識結果候補の認識結果信頼度であり、例えばフレーム毎
の認識結果信頼度の合計である。
【数13】
【数14】
【数15】 従って、この実施の形態12の話者適応化装置によれ
ば、このように複数認識結果候補を出力し複数認識結果
候補に対して認識結果信頼度を計算して、認識結果信頼
度付き教師なし話者適応を行うので認識結果が誤ってい
る場合でも、標準パタンのパラメータの誤った学習を防
ぐことができ、認識率を向上させることができる。
【0065】実施の形態13.図11は、請求項13記
載の発明による話者適応化装置の1構成例である実施の
形態13を示すブロック図である。図11において、実
施の形態1と同一の機能ブロックは同一の番号を付し説
明を省略する。本発明において特徴的な部分は、認識結
果信頼度付き教師なし話者適応手段102の前段に、認
識結果信頼度比較手段1101が付加されていることで
ある。
【0066】次に図11を参照しながら動作について説
明する。認識結果信頼度比較手段1101は、認識結果
信頼度演算手段101からの出力である認識結果信頼度
を入力し、認識結果信頼度が予め定めた閾値より大きけ
れば、認識結果信頼度付き教師なし話者適応手段102
で処理を行う。一方、認識結果信頼度が予め定めた閾値
より小さければ、標準パタンのパラメータの更新は行わ
ず、標準パタン2004の値を教師なし話者適応パタン
2008とする。
【0067】例えば、1発声の認識結果信頼度の合計が
閾値Th以下であるならば、この発声を用いた標準パタン
のパラメータ更新は行わない話者適応化装置である。ま
た、標準パタンのパラメータ毎にセグメンテーションに
よって分割された適応データの認識結果信頼度の合計を
計算し、パラメータ毎の認識結果信頼度と閾値を比較
し、閾値以下であるならばパラメータの更新を行わず、
閾値より大きいパラメータは更新を行う話者適応化装置
である。従って、この実施の形態13の話者適応化装置
によれば、このように認識結果信頼度が予め定めた閾値
以下であるならばパラメータの更新を行わないように構
成することで認識結果が誤っている場合でも、標準パタ
ンのパラメータの誤った学習を防ぐことができ、認識率
を向上させることができる。
【0068】実施の形態14.図12は、請求項14記
載の発明による話者適応化装置の1構成例である実施の
形態14を示すブロック図である。図12において、実
施の形態1と同一の機能ブロックは同一の番号を付し説
明を省略する。本発明において特徴的な部分は、認識結
果信頼度付き教師なし話者適応手段102の前段に、認
識結果信頼度による話者適応方式選択手段1201と、
M個の認識結果信頼度付き教師なし話者適応手段120
2-1〜1202-Mを備えたことである。
【0069】次に図12を参照しながら動作について説
明する。認識結果信頼度による話者適応方式選択手段1
201は、認識結果信頼度演算手段101からの出力で
ある認識結果信頼度を入力して予め定めた方式選択閾値
[Th(1),Th(2) ,..., Th(K)]によって教師なし話者適応
方式の選択を行う。例えば認識結果信頼度の値がSであ
る場合は、Th(k)≦Su<Th(k+1)では認識結果信頼度付き
教師なし話者適応方式1202-kを選択する。ここでS
uは1発声の認識結果信頼度の合計値である。
【0070】認識結果信頼度付き教師なし話者適応手段
1202-1〜1202-Mは、例えば「A Study on Spe
aker Adaptation of the Parameters of Continuous De
nsityHidden Markov Models」 C.H.Lee, C.H.Lin, B.H.
Juang, IEEE TRANSACTION ONSIGNAL PEOCESSING, Vol.
39, No. 4, 1991年 (以下、文献5という)で提案されて
いる最大事後確率推定法が1202-1、「連続混合分
布HMMを用いた移動ベクトル場平滑化話者適応化方
式」大倉、杉山、嵯峨山、電子情報通信学会技術報告、
SP92- 16、1992年(以下、文献6という)で提案されて
いる移動ベクトル場平滑化話者適応方式が1202-
2、重回帰写像モデルに基づく話者適応方式(文献3)が
1202-3であるとして構成できる。従って、この実
施の形態14の話者適応化装置によれば、このように構
成することで話者適応学習用音声認識結果が誤っている
場合でも、標準パタンのパラメータの誤った学習を防ぐ
ことができ、認識率を向上させることができる。
【0071】実施の形態15.図13は、請求項15記
載の発明による話者適応化装置の1構成例である実施の
形態15を示すブロック図である。図13において、実
施の形態1と同一の機能ブロックは同一の番号を付し説
明を省略する。本発明において特徴的な部分は、認識結
果信頼度付き教師なし話者適応手段を、標準パタンパラ
メータクラスタリング手段1301と、認識結果信頼度
付きパラメータグループ教師なし話者適応手段1302
とで構成することである。
【0072】次に図13を参照しながら動作について説
明する。標準パタンパラメータグループ化手段1301
は、標準パタン2004に格納されている標準パタンパ
ラメータをクラスタリングによってグループ化する。標
準パタンがHMMの場合はガウス分布[g(1), g(2) ,.., g
(Mg)](Mgは全ガウス分布数)を例えば数式16のバタチ
ャリヤの距離によってガウス分布 g(i) と g(j) 間の距
離 dv(g(i),g(j)) を定義してクラスタリングを行い、
グループG(x)=[g(x(1)), g(x(2)), ...,g(x(n))] (x(.)
は分布番号)を決定する。クラスタリング法は例えば
文献1に記載されて 「るK-平均法を用いて行う。認識結
果信頼度付きパラメータグループ教師なし話者適応手段
1302は、標準パタンパラメータグループ化手段13
01からの出力である標準パタンパラメータグループと
認識結果信頼度演算手段101からの出力である認識結
果信頼度を入力し、グループ毎に標準パタンパラメータ
の変動量の計算を行う。例えば標準パタンがHMMである
場合の平均ベクトルのp次元目の移動量は数式17によ
って計算する。数式17においてα(x)は数式18に示
す信頼度によって決定される重み係数である。また、Ψ
xはパラメータグループxのガウス分布番号の集合、Ωi
はガウス分布番号iの適応データの時刻の集合、σ2(i,
p)はガウス分布番号iの共分散行列のp行p列目である。
数式18において、Sf(t)はフレームtの認識結果信頼度
であり、τは値が0以上の制御定数である。また、数式
19によってグループxの平均ベクトルの共通な移動量v
(x,p)を求めることも可能である。数式19においてoh
(t)は数式12に示した認識結果信頼度によって重み付
けされた適応データであり、γ(i,t)は、時刻tにガウス
分布iに音声特徴量 o(t) が存在する期待値であるが、
重み付けされた音声特徴量oh(t)が存在する期待値とし
て計算してもよい。
【数16】
【数17】
【数18】
【数19】 従って、この実施の形態15の話者適応化装置によれ
ば、このように構成することで認識結果が誤っている場
合でも、標準パタンのパラメータの誤った学習を防ぐこ
とができ、認識率を向上させることができる。
【0073】実施の形態16.図14は、請求項16記
載の発明による話者適応化装置の1構成例である実施の
形態16を示すブロック図である。図14において、実
施の形態1と同一の機能ブロックは同一の番号を付し説
明を省略する。本発明において特徴的な部分は、認識結
果信頼度付き教師なし話者適応手段102を、標準パタ
ンパラメータ木構造クラスタリング手段1401と、木
構造化パラメータに基づく標準パタンパラメータグルー
プ化手段1402と、認識結果信頼度付きパラメータグ
ループ教師なし話者適応手段1302とで構成すること
である。
【0074】次に図14を参照しながら動作について説
明する。標準パタンパラメータ木構造クラスタリング手
段1401は、標準パタンパラメータを例えば数式16
に示すバタチャリヤの距離によって木構造にクラスタリ
ングする。木構造化は、まず木構造の1階層目のグルー
プ化として全パラメータをN個のパラメータグループ[G
(1,1,1), G(1,1,2) ,...,, G(1,1,N)] (G(i,j,k)):iは
階層、jは親グループ番号、kはグループ番号)にクラス
タリングする。次に2階層目のクラスタリングとして、
G(1,m1,n1)を[G(2,n1,1), G(2,n1,1),..., G(2,n1,Nn
1)]のグループにクラスタリングする。さらに3階層目
としてG(2,m2,n2)を[G(3,n2,1),G(3,n2,1) ,..., G(3,n
2,Nn2)]にクラスタリングにグループ化する。このよう
に予め定めた階層までクラスタリングを行う。木構造パ
ラメータに基づく標準パタンパラメータグループ化手段
1402は、認識結果信頼度演算手段101の出力の認
識結果信頼度によって標準パラメータ木構造クラスタリ
ングの出力である木構造化されたパラメータに基づいて
パラメータをグループ化する。
【0075】図15は、認識結果信頼度による木構造化
パラメータのグループ化の説明図である。ノード以下に
属するパラメータの適応データの認識結果信頼度の合計
をノードの情報として計算する。子ノードの認識結果信
頼度が予め定めた閾値thより小さく、親ノードの認識結
果信頼度がth以上である場合に、親ノード以下のパラメ
ータグループを子ノード以下に属するパラメータの推定
に用いる。図15において括弧内の数字がノード以下の
パラメータの適応データの認識結果信頼度である。例え
ばthを40とすれば、Node(3,1)では信頼度20、その
親ノードのNode(2,1)では100であるのでパラメータ
の更新には、Node(2,1)以下のパラメータの適応データ
と認識結果信頼度および標準パタンパラメータを用い
て、パラメータに共通の変動量を求めてNode(3,2)以下
のパラメータ更新を行う。パラメータグループのパラメ
ータ変動量を演算する認識結果信頼度付きパラメータグ
ループ教師なし話者適応手段1302は、実施の形態1
5で記述したようにパラメータグループにおいて変動量
を求め更新を行う。従って、この実施の形態17の話者
適応化装置によれば、上記のように構成することで認識
結果が誤っている場合でも、標準パタンのパラメータの
誤った学習を防ぐことができ、認識率を向上させること
ができる。
【0076】実施の形態17.また、実施の形態17の
話者適応化装置は、標準パタンとして、連続混合分布型
隠れマルコフモデルを用いることを特徴とした請求項1
7記載の発明による話者適応化装置である。連続混合分
布型隠れマルコフモデルについては文献1に詳細が記載
されているので説明は省略する。
【0077】実施の形態18.また、実施の形態18の
話者適応化装置は、連続混合分布型隠れマルコフモデル
のシンボル出力確率密度関数を構成する要素分布関数は
ガウス分布であることを特徴とする請求項18記載の発
明による話者適応化装置である。ガウス分布関数は数式
20で与えられる。数式20において、μ(i)、C(i)は
ガウス分布iの平均ベクトルと共分散行列である。ま
た、dは平均ベクトルの次元数であり、oは特徴量ベクト
ルである。
【数20】
【0078】実施の形態19.また、実施の形態17の
話者適応化装置は、適応するパラメータはガウス分布の
平均ベクトルであることを特徴とする請求項19記載の
発明による話者適応化装置である。
【0079】実施の形態20.図16は、請求項20記
載の発明による話者適応化装置の1構成例である実施の
形態20を示すブロック図である。図16において、実
施の形態1と実施の形態7と同一の機能ブロックは同一
の番号を付し説明を省略する。本発明において特徴的な
部分は、認識結果信頼度付き教師なし話者適応手段10
2を、認識結果信頼度付き標準パタンパラメータ更新手
段702と標準パタンパラメータ補間手段1601とで
構成することである。
【0080】次に図16を参照して動作について説明す
る。認識結果信頼度付きパラメータ更新手段702は実
施の形態8や実施の形態10に記述したパラメータ更新
によってガウス分布の平均値の更新を行う。パラメータ
補間手段1601は、適応学習データが存在しなかった
ガウス分布の平均ベクトルを認識結果信頼度付きパラメ
ータ更新手段702によって学習されたガウス分布の平
均ベクトルの更新前後の差ベクトルを用いて数式21に
よって補間する。
【数21】
【0081】図17はガウス分布平均値の補間の概念図
である。図17においてμ(1)、μ(2)、μ(3)は適応デ
ータが存在するガウス分布の平均ベクトルであり、μa
(1)、μa(2)、μa(3)は教師なし話者適応によって更新
した後の平均ベクトルである。また、μ(4)は適応デー
タが存在しない平均ベクトルである。この適応データが
存在しないμ(4)は、数式21によって、近傍の平均ベ
クトルの更新前後の差ベクトルによって補間を行う。数
式21において、μ(q)、μa(q)はq番目の更新前後の平
均ベクトル、αp,qは重み係数、TV(p)は更新前後の平均
ベクトルの差ベクトル (移動ベクトル)、Pは補間に用い
る近傍の平均ベクトルの集合である。またfは制御定数
であり、dp,qはマハラノビス距離であり、C(q)はガウ
ス分布qの共分散行列であり、上付き-1は逆行列を表
す。従って、この実施の形態20の話者適応化装置によ
れば、このように適応データが存在しないガウス分布の
平均ベクトルは、適応データが存在するガウス分布の平
均ベクトルの差ベクトルによって補間を行って適応する
ので認識結果が誤っている場合でも、標準パタンのパラ
メータの誤った学習を防ぐことができ、認識率を向上さ
せることができる。
【0082】実施の形態21.図18は、請求項21記
載の発明による話者適応化装置の1構成例である実施の
形態21を示すブロック図である。図18において、実
施の形態1と同一の機能ブロックは同一の番号を付し説
明を省略する。本発明において特徴的な部分は、認識結
果信頼度付き教師なし話者適応手段102は、認識結果
信頼度付き重回帰写像モデルに基づく話者適応手段18
01であることである。
【0083】次に図18を参照しながら動作について説
明する。認識結果信頼度付き重回帰写像モデルに基づく
話者適応手段1801は、認識結果信頼度演算手段10
1の出力である認識結果信頼度と話者適応学習用音声認
識結果2006と標準パタン2004とを入力し、数式
1の重回帰写像モデルに基づく線形変換によってガウス
分布の平均ベクトルを更新する。数式1のAとvは数式1
2に示されている認識結果信頼度によって重み付けした
適応データoh(t)を用いて、数式22によってAのp行
目、vのp次元目の要素を求める。数式22においてoh
(t,p)は認識結果信頼度によって重み付けした適応デー
タoh(t)のp次元目の要素であり、その他の変数に関して
は数式2と同一である。また、γ(i,t)は、時刻tにガウ
ス分布iに音声特徴量o(t)が存在する期待値であるが、
重み付けされた音声特徴量oh(t)が存在する期待値とし
て計算してもよい。
【数22】
【0084】また、認識結果信頼度付き重回帰写像モデ
ルに基づく話者適応手段1801は、従来の重回帰写像
モデルによる話者適応と同様に数式1、数式2によって
平均ベクトルを更新してμa■(q)を求め、このμa■(q)
を数式8のμm(q)として認識結果信頼度によって線形補
間する構成としてもよい。従って、この実施の形態21
の話者適応化装置によれば、このように認識結果信頼度
付きの重回帰写像モデルに基づく教師なし話者適応を行
うので、話者適応学習用認識結果が誤った場合のパラメ
ータの誤った更新を防ぐことができ、認識率が向上す
る。
【0085】実施の形態22.図19は、請求項22記
載の発明による話者適応化装置の1構成例である実施の
形態22を示すブロック図である。図19において、実
施の形態1、実施の形態15、及び実施の形態18と同
一の機能ブロックは同一の番号を付し説明を省略する。
本発明において特徴的な部分は、認識結果信頼度付き教
師なし話者適応手段102を、ガウス分布グループ化手
段1901と、認識結果信頼度付き重回帰写像モデルに
基づく話者適応手段1801とで構成することである。
【0086】次に図19を参照しながら動作について説
明する。ガウス分布グループ化手段1901は、標準パ
タン2004のガウス分布をクラスタリングによってグ
ループ化し、グループ内のガウス分布の適応データの認
識結果信頼度に基づいてグループ毎に実施の形態21で
記述した認識結果信頼度付き重回帰写像モデルに基づく
話者適応を行う。従って、この実施の形態22の話者適
応化装置によれば、このように標準パタンをグループ化
して認識結果信頼度付きの重回帰写像モデルに基づいて
教師なし話者適応を行うので、話者適応学習用認識結果
が誤った場合のパラメータの誤った更新を防ぐことがで
き、認識率が向上する。
【0087】実施の形態23.図20は、請求項23記
載の発明による音声認識装置、すなわち上記実施の形態
1〜22の教師なし話者適応化装置により更新された教
師なし話者適応パタン2008を使用した音声認識装置
である実施の形態23の構成を示すブロック図である。
尚、図20において、図1等に示す話者適応化装置と同
じ構成には、同一の番号を付して説明を省略する。
【0088】認識辞書2005によって設定した認識対
象の単語[W(1), W(2), ..., W(wn)]のテキスト表記から
認識ユニットラベルへ変換し、このラベルにしたがって
教師なし話者適応パタン2008を連結し、認識対象単
語の標準パタンを作成する。この認識対象単語の標準パ
タンを用いて、音声特徴量抽出手段2002の出力であ
る音声特徴量に対して照合を行い、音声認識結果210
1を出力する。このとき、入力音声2001は教師なし
適応用に用いた単語と同一でも、それ以外の単語でも良
い。音声認識結果2101は、入力音声2001に対し
て認識対象語彙の標準パタン中で最も照合スコア(尤度)
が高い単語系列のテキスト表記Rw=[W(r(1)), W(r(2)),
..., W(r(m))]としてを出力される。ここで、r(i)は音
声認識結果の単語時系列のi番目の単語の認識辞書単語
番号を示す。また、mは認識単語系列の単語数を示す。
従って、この実施の形態23の音声認識装置によれば、
このように認識結果信頼度付きの教師なし話者適応行っ
て得られた教師なし話者適応パタン2008を用いて音
声認識を行うので、話者適応学習用認識結果が誤った場
合のパラメータの誤った更新を防ぐことができ、認識率
が向上する。
【0089】
【発明の効果】以上述べたようにこの発明によれば、多
数の話者の音声データによりパラメータ学習を行った標
準パタンを、ある話者に適応した話者適応パタンに更新
するようにした話者適応化装置において、話者の入力音
声から音声特徴量を抽出する音声特徴量抽出手段と、前
記音声特徴量抽出手段が抽出した音声特徴量と、前記標
準パタンとを照合して認識結果を出力する照合手段と、
前記音声特徴量抽出手段が抽出した音声特徴量と、前記
標準パタンとに基づいて、前記照合手段から出力された
認識結果の信頼度を演算して出力する認識結果信頼度演
算手段と、前記音声特徴量抽出手段が抽出した音声特徴
量と、前記照合手段から出力された認識結果と、前記認
識結果信頼度演算手段からの認識結果信頼度とに基づい
て、前記標準パタンを前記話者適応パタンへ更新する認
識結果信頼度付き教師なし話者適応手段とを備えたの
で、適応学習用音声認識結果が誤った場合でも、標準パ
タンのパラメータの誤った更新を防ぐことができ認識率
が向上する。
【0090】また次の発明によれば、認識結果信頼度付
き教師なし話者適応手段は、更に、ある入力音声により
話者適応パタンを更新する際、その前の入力音声により
更新した話者適応パタンを標準パタンとして使用するの
で、適応学習用音声認識結果が誤った場合でも、標準パ
タンのパラメータの誤った更新を防ぐことができ認識率
が向上する。
【0091】また次の発明によれば、認識結果信頼度演
算手段は、1発声毎に信頼度を演算するので適応学習用
音声認識結果が誤った場合でも、標準パタンのパラメー
タの誤った更新を防ぐことができ認識率が向上する。
【0092】また次の発明によれば、認識結果信頼度演
算手段は、認識結果の認識ユニット区間毎に信頼度を演
算するので、適応学習用音声認識結果が誤った場合で
も、標準パタンのパラメータの誤った更新を防ぐことが
でき認識率が向上する。
【0093】また次の発明によれば、認識結果信頼度演
算手段は、認識結果の音素や音節などの音声単位区間毎
に信頼度を演算するので、適応学習用音声認識結果が誤
った場合でも、標準パタンのパラメータの誤った更新を
防ぐことができ認識率が向上する。
【0094】また次の発明によれば、認識結果信頼度演
算手段は、前記音声データの特徴量を演算する一定区間
のフレーム毎に認識結果信頼度を演算するので、適応学
習用音声認識結果が誤った場合でも、標準パタンのパラ
メータの誤った更新を防ぐことができ認識率が向上す
る。
【0095】また次の発明によれば、認識結果信頼度付
き教師なし話者適応手段は、前記第1の発声における認
識結果に基づいて、前記第1の発声を認識ユニット区間
に分割して認識ユニットの標準パタンパラメータの更新
のための、分割された適応データと認識結果信頼度を生
成すること、及び前記分割された適応データと、認識結
果信頼度を使用して認識ユニットの標準パタンのパラメ
ータの更新を行うので、適応学習用音声認識結果が誤っ
た場合でも、標準パタンのパラメータの誤った更新を防
ぐことができ認識率が向上する。
【0096】また次の発明によれば、認識結果信頼度付
き教師なし話者適応手段は、前記認識ユニットの標準パ
タンパラメータ更新用の分割された適応データを用い、
最尤推定によって標準パタンのパラメータを推定し、認
識ユニットの標準パタンのパラメータ更新に用いた適応
データの認識結果信頼度の合計値に基づき、最尤推定前
後のパラメータの値の線形補間によって前記標準パタン
パラメータから前記話者適応パタンのパラメータへ更新
するので、適応学習用音声認識結果が誤った場合でも、
標準パタンのパラメータの誤った更新を防ぐことができ
認識率が向上する。
【0097】また次の発明によれば、標準パタンのパラ
メータ値の線形補間は、標準パタンのパラメータの最尤
推定に用いた適応データの認識結果信頼度の合計値が大
きければ、前記最尤推定値の重みを大きくするように行
うので、適応学習用音声認識結果が誤った場合でも、標
準パタンのパラメータの誤った更新を防ぐことができ認
識率が向上する。
【0098】また次の発明によれば、認識結果信頼度付
き教師なし話者適応手段は、前記認識ユニットの標準パ
タンのパラメータ更新用の分割された適応データを用
い、認識結果信頼度によって適応データのパラメータ学
習への重みを計算して、重み付けされた適応データによ
って前記標準パタンパラメータから前記話者適応パタン
のパラメータへ更新するので、適応学習用音声認識結果
が誤った場合でも、標準パタンのパラメータの誤った更
新を防ぐことができ認識率が向上する。
【0099】また次の発明によれば、認識結果信頼度は
前記フレーム毎に付与し、0〜1の範囲の値であるの
で、適応学習用音声認識結果が誤った場合でも、標準パ
タンのパラメータの誤った更新を防ぐことができ認識率
が向上する。
【0100】また次の発明によれば、照合手段は複数の
認識結果候補を出力し、認識結果信頼度演算手段は、複
数の認識結果候補に対して認識結果信頼度を演算して、
前記認識結果信頼度付き教師なし話者適応手段では、複
数の認識結果候補に基づいて、前記標準パタンのパラメ
ータから前記話者適応パタンのパラメータへ更新するの
で、適応学習用音声認識結果が誤った場合でも、標準パ
タンのパラメータの誤った更新を防ぐことができ認識率
が向上する。
【0101】また次の発明によれば、認識結果信頼度付
き教師なし話者適応手段は、前記第1の発声の認識結果
信頼度が予め定めた閾値以下ならば、標準パタンのパラ
メータの更新は行わないので、適応学習用音声認識結果
が誤った場合でも、標準パタンのパラメータの誤った更
新を防ぐことができ認識率が向上する。
【0102】また次の発明によれば、認識結果信頼度付
き教師なし話者適応手段は、前記第1の発声の認識結果
信頼度の値によって更新方法を切り替えるので、適応学
習用音声認識結果が誤った場合でも、標準パタンのパラ
メータの誤った更新を防ぐことができ認識率が向上す
る。
【0103】また次の発明によれば、標準パタンのパラ
メータは、クラスタリングによってグループ化し、グル
ープ内のパラメータの更新用の分割された適応データと
認識結果信頼度を用いてグループに共通なパラメータの
変動量を演算し、前記パラメータ変動量によって前記標
準パタンのグループのパラメータを前記話者適応パタン
のグループのパラメータへ更新するので、適応学習用音
声認識結果が誤った場合でも、標準パタンのパラメータ
の誤った更新を防ぐことができ認識率が向上する。
【0104】また次の発明によれば、クラスタリング
は、木構造クラスタリングを行って木構造状に標準パタ
ンのパラメータをクラスタリングし、木構造のノード以
下に属する標準パタンのパラメータ更新用の分割された
適応データの認識結果信頼度が閾値以上であるノード以
下の標準パタンのパラメータをグループとして、グルー
プ内のパラメータの更新用の分割された適応データと認
識結果信頼度を用いてグループに共通なパラメータの変
動量を演算し、前記変動量によって前記標準パタンのグ
ループのパラメータを前記話者適応パタンのグループの
パラメータへ更新するので、適応学習用音声認識結果が
誤った場合でも、標準パタンのパラメータの誤った更新
を防ぐことができ認識率が向上する。
【0105】また次の発明によれば、標準パタン、及び
前記話者適応パタンとして、連続混合分布型隠れマルコ
フモデルを用いるので、適応学習用音声認識結果が誤っ
た場合でも、標準パタンのパラメータの誤った更新を防
ぐことができ認識率が向上する。
【0106】また次の発明によれば、連続混合分布型隠
れマルコフモデルのシンボル出力確率密度関数を構成す
る要素分布関数は、ガウス分布であるので、適応学習用
音声認識結果が誤った場合でも、標準パタンのパラメー
タの誤った更新を防ぐことができ認識率が向上する。
【0107】また次の発明によれば、認識結果信頼度付
き教師なし話者適応手段において更新するパラメータは
前記ガウス分布の平均ベクトルであるので、適応学習用
音声認識結果が誤った場合でも、標準パタンのパラメー
タの誤った更新を防ぐことができ認識率が向上する。
【0108】また次の発明によれば、ガウス分布の平均
ベクトルの更新は、適応データが存在するガウス分布の
平均ベクトルは認識結果信頼度付き更新を行い、適応デ
ータが存在しないガウス分布の平均ベクトルは適応デー
タが存在するガウス分布の更新前後の平均ベクトルの値
の差分ベクトルを用いた補間によって前記標準パタンの
パラメータを前記話者適応パタンのパラメータへ更新す
るので、適応学習用音声認識結果が誤った場合でも、標
準パタンのパラメータの誤った更新を防ぐことができ認
識率が向上する。
【0109】また次の発明によれば、認識結果信頼度付
き教師なし話者適応手段は、認識結果信頼度を用いた重
回帰写像モデルに基づく話者適応によって、前記標準パ
タンのパラメータであるガウス分布の平均ベクトルを前
記話者適応パタンのガウス分布の平均ベクトルへ更新す
るので、適応学習用音声認識結果が誤った場合でも、標
準パタンのパラメータの誤った更新を防ぐことができ認
識率が向上する。
【0110】また次の発明によれば、重回帰写像モデル
に基づく話者適応は、標準パタンのガウス分布をクラス
タリングしてグループ化し、グループ内のガウス分布更
新用の適応データと認識結果信頼度に基づいてガウス分
布のグループに1つの回帰係数を演算し、標準パタンの
平均ベクトルを回帰係数を用いて話者適応パタンの平均
ベクトルへ更新するので、適応学習用音声認識結果が誤
った場合でも、標準パタンのパラメータの誤った更新を
防ぐことができ認識率が向上する。
【0111】また次の発明によれば、請求項1〜22の
うちいずれかに記載の話者適応化装置によって更新され
た教師なし話者適応パタンと、話者の入力音声から音声
特徴量を抽出する音声特徴量抽出手段と、前記音声特徴
量抽出手段が抽出した音声特徴量と前記教師なし話者適
応パタンとを照合して認識結果を出力する照合手段と、
を備えたので、適応学習用音声認識結果が誤った場合で
も、標準パタンのパラメータの誤った更新を防ぐことが
でき認識率が向上する。
【図面の簡単な説明】
【図1】 この発明による話者適応化装置の実施の形態
1の構成を示すブロック図である。
【図2】 この発明による話者適応化装置の実施の形態
2の構成を示すブロック図である。
【図3】 この発明による話者適応化装置の実施の形態
3の動作説明図である。
【図4】 この発明による話者適応化装置の実施の形態
4の動作説明図である。
【図5】 この発明による話者適応化装置の実施の形態
5の動作説明図である。
【図6】 この発明による話者適応化装置の実施の形態
6の動作説明図である。
【図7】 この発明による話者適応化装置の実施の形態
7の構成を示すブロック図である。
【図8】 この発明による話者適応化装置の実施の形態
8の構成を示すブロック図である。
【図9】 この発明による話者適応化装置の実施の形態
10の構成を示すブロック図である。
【図10】 この発明による話者適応化装置の実施の形
態12の構成を示すブロック図である。
【図11】 この発明による話者適応化装置の実施の形
態13の構成を示すブロック図である。
【図12】 この発明による話者適応化装置の実施の形
態14の構成を示すブロック図である。
【図13】 この発明による話者適応化装置の実施の形
態15の構成を示すブロック図である。
【図14】 この発明による話者適応化装置の実施の形
態16の構成を示すブロック図である。
【図15】 この発明による話者適応化装置の実施の形
態16の動作説明図である。
【図16】 この発明による話者適応化装置の実施の形
態20の構成を示すブロック図である。
【図17】 この発明による話者適応化装置の実施の形
態20の動作説明図である。
【図18】 この発明による話者適応化装置の実施の形
態21の構成を示すブロック図である。
【図19】 この発明による話者適応化装置の実施の形
態22の構成を示すブロック図である。
【図20】 この発明による音声認識装置の実施の形態
23の構成を示すブロック図である。
【図21】 従来の話者適応化装置の構成を示すブロッ
ク図である。
【符号の説明】
101 認識結果信頼度演算手段 102 認識結果信頼度付き教師なし話者適応手段 701 音声データセグメンテーション手段 702 認識結果信頼度付き標準パタンパラメータ更新
手段 801 標準パタンパラメータ最尤推定手段 802 認識結果信頼度に基づくパラメータ線形補間手
段 901 認識結果信頼度重み付き学習データによる適応
学習手段 1001 複数認識結果候補出力照合手段 1002 複数認識結果候補信頼度演算手段 1003 複数認識結果候補信頼度付き教師なし話者適
応手段 1101 認識結果信頼度比較手段 1201 認識結果信頼度による話者適応方式選択手段 1202-1〜M 認識結果信頼度付き教師なし話者適
応手段 1〜M 1301 標準パタンパラメータクラスタリング手段 1302 認識結果信頼度付きパラメータグループ教師
なし話者適応手段 1401 標準パタンパラメータ木構造クラスタリング
手段 1402 木構造化パラメータに基づく標準パタンパラ
メータグループ化手段 1601 標準パタンパラメータ補間手段 1801 認識結果信頼度付き重回帰写像モデルに基づ
く話者適応手段 1901 ガウス分布グループ化手段 2001 入力音声 2002 音声特徴量抽出手段 2003 照合手段 2004 標準パタン 2005 認識辞書 2006 話者適応学習用音声認識結果 2007 教師なし話者適応手段 2008 教師なし話者適応パタン 2101 音声認識結果

Claims (23)

    【特許請求の範囲】
  1. 【請求項1】 多数の話者の音声データによりパラメー
    タ学習を行った標準パタンを、ある話者に適応した話者
    適応パタンに更新するようにした話者適応化装置におい
    て、 話者の入力音声から音声特徴量を抽出する音声特徴量抽
    出手段と、 前記音声特徴量抽出手段が抽出した音声特徴量と、前記
    標準パタンとを照合して認識結果を出力する照合手段
    と、 前記音声特徴量抽出手段が抽出した音声特徴量と、前記
    標準パタンとに基づいて、前記照合手段から出力された
    認識結果の信頼度を演算して出力する認識結果信頼度演
    算手段と、 前記音声特徴量抽出手段が抽出した音声特徴量と、前記
    照合手段から出力された認識結果と、前記認識結果信頼
    度演算手段からの認識結果信頼度とに基づいて、前記標
    準パタンを前記話者適応パタンへ更新する認識結果信頼
    度付き教師なし話者適応手段と、 を備えたことを特徴とする話者適応化装置。
  2. 【請求項2】 前記認識結果信頼度付き教師なし話者適
    応手段は、更に、ある入力音声により話者適応パタンを
    更新する際、その前の入力音声により更新した話者適応
    パタンを標準パタンとして使用することを特徴とする請
    求項1記載の話者適応化装置。
  3. 【請求項3】 前記認識結果信頼度演算手段は、前記照
    合手段から出力された認識結果の信頼度を演算する際、
    話者の1発声毎に信頼度を演算することを特徴とする請
    求項1記載の話者適応化装置。
  4. 【請求項4】 前記認識結果信頼度演算手段は、前記標
    準パタンの基本単位である認識ユニット区間毎に認識結
    果の信頼度を演算することを特徴とする請求項1記載の
    話者適応化装置。
  5. 【請求項5】 前記認識結果信頼度演算手段は、音素や
    音節などの音声単位区間毎に認識結果の信頼度を演算す
    ることを特徴とする請求項1記載の話者適応化装置。
  6. 【請求項6】 前記認識結果信頼度演算手段は、前記音
    声データの特徴量を演算する一定区間のフレーム毎に認
    識結果信頼度を演算することを特徴とする請求項1記載
    の話者適応化装置。
  7. 【請求項7】 前記認識結果信頼度付き教師なし話者適
    応手段は、前記照合手段からの認識結果に基づいて、前
    記音声特徴量抽出手段が抽出した音声特徴量を認識ユニ
    ット毎に分割し、その認識ユニット毎に分割された音声
    特徴量と、前記認識結果信頼度演算手段からの認識結果
    信頼度とに基づいて、各認識ユニット毎に前記標準パタ
    ンを前記話者適応パタンへ更新することを特徴とする請
    求項1記載の話者適応化装置。
  8. 【請求項8】 前記認識結果信頼度付き教師なし話者適
    応手段は、前記認識ユニットの標準パタンパラメータ更
    新用の分割された適応データを用い、最尤推定によって
    標準パタンのパラメータを推定し、認識ユニットの標準
    パタンのパラメータ更新に用いた適応データの認識結果
    信頼度の合計値に基づき、最尤推定前後のパラメータの
    値の線形補間によって前記標準パタンパラメータから前
    記話者適応パタンのパラメータへ更新することを特徴と
    する請求項1記載の話者適応化装置。
  9. 【請求項9】 前記標準パタンのパラメータ値の線形補
    間は、標準パタンのパラメータの最尤推定に用いた適応
    データの認識結果信頼度の合計値が大きければ、前記最
    尤推定値の重みを大きくするように行うことを特徴とす
    る請求項8記載の話者適応化装置。
  10. 【請求項10】 前記認識結果信頼度付き教師なし話者
    適応手段は、前記認識ユニットの標準パタンのパラメー
    タ更新用の分割された適応データを用い、認識結果信頼
    度によって適応データのパラメータ学習への重みを計算
    して、重み付けされた適応データによって前記標準パタ
    ンパラメータから前記話者適応パタンのパラメータへ更
    新することを特徴とする請求項1記載の話者適応化装
    置。
  11. 【請求項11】 前記認識結果信頼度は、前記フレーム
    毎に付与し、0〜1の範囲の値であり、信頼度が高い場
    合には1に近い値を出力することを特徴とする請求項1
    0記載の話者適応化装置。
  12. 【請求項12】 前記照合手段は、複数の認識結果候補
    を出力し、認識結果信頼度演算手段は、複数の認識結果
    候補に対して認識結果信頼度を演算して、前記認識結果
    信頼度付き教師なし話者適応手段では、複数の認識結果
    候補に基づいて、前記標準パタンのパラメータから前記
    話者適応パタンのパラメータへ更新することを特徴とす
    る請求項1記載の話者適応化装置。
  13. 【請求項13】 前記認識結果信頼度付き教師なし話者
    適応手段は、前記第1の発声の認識結果信頼度が予め定
    めた閾値以下ならば、標準パタンのパラメータの更新は
    行わないことを特徴とする請求項1記載の話者適応化装
    置。
  14. 【請求項14】 前記認識結果信頼度付き教師なし話者
    適応手段は、前記第1の発声の認識結果信頼度の値によ
    って更新方法を切り替えることを特徴とする請求項1記
    載の話者適応化装置。
  15. 【請求項15】 前記標準パタンのパラメータは、クラ
    スタリングによってグループ化し、グループ内のパラメ
    ータの更新用の分割された適応データと認識結果信頼度
    を用いてグループに共通なパラメータの変動量を演算
    し、前記パラメータ変動量によって前記標準パタンのグ
    ループのパラメータを前記話者適応パタンのグループの
    パラメータへ更新すること特徴とする請求項1記載の話
    者適応化装置。
  16. 【請求項16】 前記クラスタリングは、木構造クラス
    タリングを行って木構造状に標準パタンのパラメータを
    クラスタリングし、木構造のノード以下に属する標準パ
    タンのパラメータ更新用の分割された適応データの認識
    結果信頼度が閾値以上であるノード以下の標準パタンの
    パラメータをグループとして、グループ内のパラメータ
    の更新用の分割された適応データと認識結果信頼度を用
    いてグループに共通なパラメータの変動量を演算し、前
    記変動量によって前記標準パタンのグループのパラメー
    タを前記話者適応パタンのグループのパラメータへ更新
    することを特徴とする請求項15記載の話者適応化装
    置。
  17. 【請求項17】 前記標準パタン、及び前記話者適応パ
    タンとして、連続混合分布型隠れマルコフモデルを用い
    ることを特徴とする請求項1記載の話者適応化装置。
  18. 【請求項18】 前記連続混合分布型隠れマルコフモデ
    ルのシンボル出力確率密度関数を構成する要素分布関数
    は、ガウス分布であることを特徴とする請求項17記載
    の話者適応化装置。
  19. 【請求項19】 前記認識結果信頼度付き教師なし話者
    適応手段において更新するパラメータは前記ガウス分布
    の平均ベクトルであることを特徴とする請求項1記載の
    話者適応化装置。
  20. 【請求項20】 前記ガウス分布の平均ベクトルの更新
    は、適応データが存在するガウス分布の平均ベクトルは
    認識結果信頼度付き更新を行い、適応データが存在しな
    いガウス分布の平均ベクトルは適応データが存在するガ
    ウス分布の更新前後の平均ベクトルの値の差分ベクトル
    を用いた補間によって前記標準パタンのパラメータを前
    記話者適応パタンのパラメータへ更新することを特徴と
    する請求項1記載の話者適応化装置。
  21. 【請求項21】 前記認識結果信頼度付き教師なし話者
    適応手段は、認識結果信頼度を用いた重回帰写像モデル
    に基づく話者適応によって、前記標準パタンのパラメー
    タであるガウス分布の平均ベクトルを前記話者適応パタ
    ンのガウス分布の平均ベクトルへ更新することを特徴と
    する請求項1の話者適応化装置。
  22. 【請求項22】 前記重回帰写像モデルに基づく話者適
    応は、標準パタンのガウス分布をクラスタリングしてグ
    ループ化し、グループ内のガウス分布更新用の適応デー
    タと認識結果信頼度に基づいてガウス分布のグループに
    1つの回帰係数を演算し、標準パタンの平均ベクトルを
    回帰係数を用いて話者適応パタンの平均ベクトルへ更新
    することを特徴とする請求項21記載の話者適応化装
    置。
  23. 【請求項23】 請求項1〜22のうちいずれかに記載
    の話者適応化装置によって更新された教師なし話者適応
    パタンと、 話者の入力音声から音声特徴量を抽出する音声特徴量抽
    出手段と、 前記音声特徴量抽出手段が抽出した音声特徴量と、前記
    教師なし話者適応パタンとを照合して認識結果を出力す
    る照合手段と、 を備えたことを特徴とする音声認識装置。
JP29792498A 1998-10-20 1998-10-20 話者適応化装置 Expired - Fee Related JP3589044B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP29792498A JP3589044B2 (ja) 1998-10-20 1998-10-20 話者適応化装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29792498A JP3589044B2 (ja) 1998-10-20 1998-10-20 話者適応化装置

Publications (2)

Publication Number Publication Date
JP2000122689A true JP2000122689A (ja) 2000-04-28
JP3589044B2 JP3589044B2 (ja) 2004-11-17

Family

ID=17852861

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29792498A Expired - Fee Related JP3589044B2 (ja) 1998-10-20 1998-10-20 話者適応化装置

Country Status (1)

Country Link
JP (1) JP3589044B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251800A (ja) * 2005-03-07 2006-09-21 Samsung Electronics Co Ltd ユーザ適応型の音声認識方法及び音声認識装置
JP2006293489A (ja) * 2005-04-06 2006-10-26 Sony Corp 学習装置および学習方法、並びに学習プログラム
JP2007248730A (ja) * 2006-03-15 2007-09-27 Nippon Telegr & Teleph Corp <Ntt> 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体
JP2011075622A (ja) * 2009-09-29 2011-04-14 Nippon Telegr & Teleph Corp <Ntt> 音響モデル適応装置、その方法、プログラム、及び記録媒体
JP2012181280A (ja) * 2011-02-28 2012-09-20 Sogo Keibi Hosho Co Ltd 音処理装置および音処理方法
JP2015082036A (ja) * 2013-10-23 2015-04-27 日本電信電話株式会社 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法
JP2021529978A (ja) * 2018-05-10 2021-11-04 エル ソルー カンパニー, リミテッドLlsollu Co., Ltd. 人工知能サービス方法及びそのための装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251800A (ja) * 2005-03-07 2006-09-21 Samsung Electronics Co Ltd ユーザ適応型の音声認識方法及び音声認識装置
JP4709663B2 (ja) * 2005-03-07 2011-06-22 三星電子株式会社 ユーザ適応型の音声認識方法及び音声認識装置
JP2006293489A (ja) * 2005-04-06 2006-10-26 Sony Corp 学習装置および学習方法、並びに学習プログラム
JP2007248730A (ja) * 2006-03-15 2007-09-27 Nippon Telegr & Teleph Corp <Ntt> 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体
JP4594885B2 (ja) * 2006-03-15 2010-12-08 日本電信電話株式会社 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体
JP2011075622A (ja) * 2009-09-29 2011-04-14 Nippon Telegr & Teleph Corp <Ntt> 音響モデル適応装置、その方法、プログラム、及び記録媒体
JP2012181280A (ja) * 2011-02-28 2012-09-20 Sogo Keibi Hosho Co Ltd 音処理装置および音処理方法
JP2015082036A (ja) * 2013-10-23 2015-04-27 日本電信電話株式会社 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法
JP2021529978A (ja) * 2018-05-10 2021-11-04 エル ソルー カンパニー, リミテッドLlsollu Co., Ltd. 人工知能サービス方法及びそのための装置

Also Published As

Publication number Publication date
JP3589044B2 (ja) 2004-11-17

Similar Documents

Publication Publication Date Title
US5825978A (en) Method and apparatus for speech recognition using optimized partial mixture tying of HMM state functions
JP2871561B2 (ja) 不特定話者モデル生成装置及び音声認識装置
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
KR100612840B1 (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
WO2012036934A1 (en) Deep belief network for large vocabulary continuous speech recognition
US5924066A (en) System and method for classifying a speech signal
Konig et al. GDNN: a gender-dependent neural network for continuous speech recognition
US6173076B1 (en) Speech recognition pattern adaptation system using tree scheme
KR100832556B1 (ko) 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법
CN117043857A (zh) 用于英语发音评估的方法、设备和计算机程序产品
JP3589044B2 (ja) 話者適応化装置
WO1999054869A1 (en) Adaptation of a speech recognizer for dialectal and linguistic domain variations
Walter et al. An evaluation of unsupervised acoustic model training for a dysarthric speech interface
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JP2982689B2 (ja) 情報量基準を用いた標準パターン作成方式
JP2005156593A (ja) 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置
Huda et al. A variable initialization approach to the EM algorithm for better estimation of the parameters of hidden markov model based acoustic modeling of speech signals
JP2005091504A (ja) 音声認識装置
JPH10254477A (ja) 音素境界検出装置及び音声認識装置
JPH1097273A (ja) 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体
Su et al. Efficient use of DNN bottleneck features in generalized variable parameter HMMs for noise robust speech recognition
JP3946912B2 (ja) 教師なし話者適応化装置、音声認識装置、教師なし話者適応化方法、音声認識方法、教師なし話者適応化プログラムを記録した記録媒体及び音声認識プログラムを記録した記録媒体
Shinoda Speaker adaptation techniques for speech recognition using probabilistic models
Yuk Robust speech recognition using neural networks and hidden Markov models
CA2195445C (en) Method and apparatus for speech recognition using optimised partial probability mixture tying

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040525

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20040622

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040727

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040809

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070827

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080827

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080827

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090827

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090827

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100827

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110827

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110827

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120827

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120827

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130827

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees