JP2000181482A

JP2000181482A - 音声認識装置及び自動音声認識装置の非教示及び／又はオンライン適応方法

Info

Publication number: JP2000181482A
Application number: JP11352260A
Authority: JP
Inventors: Goronjii Silke; ゴロンジーシルケ; Konpe Ralf; コンペラルフ; Buchner Peter; ブフナーペーター; Naoto Iwahashi; 直人岩橋
Original assignee: Sony International Europe GmbH; Sony Corp
Current assignee: Sony Deutschland GmbH; Sony Corp
Priority date: 1998-12-17
Filing date: 1999-12-10
Publication date: 2000-06-30
Also published as: EP1426923A1; KR100697961B1; DE69829187T2; DE69829187D1; EP1011094B1; CN1264888A; EP1426923B1; DE69833987T2; CN1248192C; EP1011094A1; US6799162B1; KR20000067829A; DE69833987D1

Abstract

(57)【要約】【課題】音声認識装置の認識率を高めることができ
る。【解決手段】Ｄ／Ａ変換器１２は、マイクロフォンか
らのアナログ音声信号をディジタル音声信号に変換し、
特徴抽出器スイッチ１３は、ディジタル音声信号から特
徴ベクトルを抽出する。認識器１４は、利用者の発話
を、特徴ベクトルと、話者適応モデル及び／又は話者独
立モデルの集合に基づいて認識し、適応器１７は、認識
結果が供給され、話者適応モデルの集合を生成及び／又
は適応させる。判定器２１は、任意の受信された単語
を、話者適応モデルの集合の生成及び／又は適応のため
に用いるか否かを示す信号を適応器１７に供給する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置、自
動音声認識（Automatic Speech Recognition：ＡＲＳ）
装置の非教示及び／又はオンライン適応方法、及び非教
示又はオンライン適応の実行方法に関する。

【０００２】

【従来の技術】従来の音声認識装置は、任意の音声セグ
メント（speech segment）の音響特性(acoustic proper
ties)をモデル化した統計的な分布（statistical distr
ibution）を利用している。これらの音響特性は、特徴
ベクトル（feature vectors）にエンコードされる。例
えば、各音素（phoneme）に対して１つのガウス分布を
得ることができる。これらの分布は、状態に関連付けら
れる。（確率的な）状態遷移ネットワーク、例えば隠れ
マルコフモデル（Hidden Markov Model：以下、ＨＭＭ
ｓという。）は、状態の連続及び特徴ベクトルの連続の
確率を定義する。状態を進める毎に、音声信号のフレー
ム、例えば音声信号の１０ｍｓ分をカバーする１つの特
徴ベクトルが生成される。

【０００３】このような音声認識装置の確率パラメータ
は、話者特定（Speaker Dependent：ＳＤ）方式では単
一話者が発した多量の音声データを用い、又は話者独立
（Speaker Independent：ＳI）方式では多くの話者が発
した多量の音声データを用いて学習される。

【０００４】話者適応法（Speaker Adaptation：ＳＡ）
は、話者独立（ＳＩ）方式の認識率を高める目的で広く
利用されている。従来の話者特定（ＳＤ）方式は、話者
独立（ＳＩ）方式に比べてはるかに高い認識率が得られ
る。しかし、多くの場合、単一話者から自動音声認識装
置が学習するのに十分なデータを得ることは容易でな
い。このことは、民生用機器においては、さして必要と
されないかもしれない。この認識率におけるミスマッチ
を解決するべく、話者独立（ＳＩ）方式において、話者
特定（ＳＤ）方式に近い認識率が得られるように、話者
適応アルゴリズムが広く用いられているが、話者特定
（ＳＤ）方式に近い認識率が得られるのは、話者特定デ
ータの断片（fraction）を用いる場合のみである。これ
らの音声認識装置は、最初は話者独立モデルを用い、そ
の後、話者の音響特性により一致するように適応が用い
られる。

【０００５】適応は、一般的には、教示（supervised）
によって行われる。すなわち、音声認識装置は、発せら
れた発話（words）が分かると、それらを認識する。こ
れによって、セグメント単位の分布（segment-specific
distributions）の時間的な配列（time alignment）が
得られる。実際の特徴ベクトルと対応する分布のパラメ
ータの違い（mismatch）が、適応の基礎となる。教示に
よる適応（supervisedadaptation）では、新しい話者が
音声認識装置を実際に使用する前に、新しい話者毎の適
応授業（セッション）が必要とされる。

【０００６】図５は、従来の音声認識装置の構成を示す
ブロック図である。話者が発した発話（utterance）
は、マイクロフォン３１によって受信され、Ａ／Ｄ変換
器３２によってディジタル信号に変換される。Ａ／Ｄ変
換器３２には特徴抽出器３３が接続されており、特徴抽
出器３３は、例えばミリ秒毎に特徴ベクトルを抽出す
る。この特徴ベクトルは、音声認識装置を学習させるた
めに用いられ、また、学習の後においては話者特定モデ
ルを最初に適応させるために用いられ、音声認識装置が
使用されている間は発話を認識するために用いられる。

【０００７】特徴抽出器３３は、切換スイッチ３４の選
択接点ａに接続されている。この切換スイッチ３４の非
選択接点ｃには学習器３５が接続され、非選択接点ｂに
は認識器３７が接続されている。学習器３５は、隠れマ
ルコフモデルを用いて動作し、話者独立（ＳＩ）方式の
ＨＭＭｓ集合を生成する。話者独立（ＳＩ）方式のＨＭ
Ｍｓ集合は、通常、自動音声認識装置の製造業者が予め
不特定多数の話者から得たものであり、データベースと
して予めストレージ装置３６に記憶されている。

【０００８】音声認識装置がＳＩモデルの集合をロード
すると、切換スイッチ３４の選択接点ａと非選択接点ｂ
が接続され、特徴抽出器３３によって抽出された特徴ベ
クトルが認識器３７に供給される。すなわち、音声認識
装置は、利用者によって使用され、その利用者に適応さ
れる。そして、認識器３７は、抽出された特徴ベクトル
と話者独立モデルの集合に基づいて、認識結果を算出す
る。認識器３７は、適応器３８に接続されており、適応
器３８は、それぞれの話者に適応させる間、話者適応モ
デルの集合を算出して、ストレージ装置３９に記憶す
る。その後も、認識器３７は、抽出された特徴ベクトル
と話者適応モデルの集合に基づいて、認識結果を算出す
る。そして、音声認識装置の特定の話者に対する認識性
能を高めるために、話者適応モデルの集合の適応が繰り
返し実行される。

【０００９】話者適応の技術では、一般的に、隠れマル
コフモデルのパラメータを、新しい話者の音響特性に適
合するように変更する。この処理は、一般的には、上述
のようにバッチ処理（batch）又はオフライン処理（off
-line）で行われる。すなわち、話者は、自動音声認識
装置を用いて認識を行わせる前に、所定の文章（text）
を読み上げる必要があり、読み上げられた文章は、適応
を行うために処理される。そして、この処理が終了した
後、音声認識装置は認識のために用いることができる。
このモードは、教示適応（supervised adaptation）と
呼ばれ、文章が音声認識装置にとって既知のものであ
り、音声信号を文章に対応するモデルに無理矢理配列し
て、認識に用いる。

【００１０】ところで、殆どの種類の民生用機器に対し
ては、非教示又はオンライン方式（unsupervised or on
-line method）の方がより適している。この場合、適応
は、音声認識装置が使用されている最中に行われる。認
識された発話は、適応のために用いられ、また、変更さ
れたモデルは、次の発話の認識のために用いられる。こ
の場合、読み上げられる文章は、音声認識装置には未知
のものであるので、認識された発話が代わりに用いられ
る。

【００１１】ヨーロッパ特許出願公開番号０７６３８１
６Ａ２号において、ＨＭＭ学習の最適化規準（optimiza
tion criterium）として、尤度尺度（confidence measu
res）を用いることが提案されている。この尤度尺度
は、認識結果を「多分正しい（probably correct）」又
は「多分正しくない（probably incorrect）」のいずれ
かに分類するために用いられる追加的な知識源（knowle
dge source）である。したがって、尤度尺度は、最もよ
く認識されたｎ個の単語列（word strings）を検証する
ために用いられ、また、検証処理の結果、すなわちロス
関数（loss function）の微分（derivation）は、モデ
ルを学習するための最適化規準として用いられる。この
場合、全ての発話は学習のために用いられ、この方法
は、紛らわしい発話の尤度（likelihood）における違い
を最大にするために用いられる。なお、この公報は、音
声認識装置を利用する前に行うＨＭＭ学習しか言及して
いない。

【００１２】一方、ヨーロッパ特許出願公開番号０７７
６５３２Ａ２号には、「しまった（oops）」という所定
のキーワードを発した後、利用者がタイプ入力によって
誤認識された発話を訂正したり、音声認識装置自身が誤
認識の訂正を試みる方法が開示されている。いずれの場
合にも、音声認識装置は、単語又は単語列を誤認識した
とに、音声モデルを学習し、適応を行うのみである。

【００１３】

【発明が解決しようとする課題】話者独立隠れマルコフ
モデルの適応を用いる音声認識装置において、ＨＭＭｓ
は、新たな各発話の後、又は発話の一部の後でも、確実
に更新されなければならない。また、自動音声認識装置
に入力される単語は、何度も繰り返されるものではな
く、自動音声認識装置にとって既知のものではない。し
たがって、適応させる話者の数は限られており、すなわ
ち一度に利用できる適応データは僅かであり、また、認
識器の出力は正しい単語であると仮定しなければならな
いので、話者独立の自動音声認識装置の性能によっては
誤認識が生ずるといった問題がある。そして、これらの
単語は、適応のために用いられ、それらが誤認識された
ものであるときは、適応アルゴリズムによって、モデル
が悪い方に変更されしまう。このようなことが繰り返し
起こると、認識性能は大幅に低下する。

【００１４】本発明の目的は、上述した従来の問題点を
解決することができる、非教示及び／又はオンライン適
応を用いた音声認識装置、自動音声認識装置の非教示及
び／又はオンライン適応方法、及び非教示又はオンライ
ン適応の実行方法を提供することである。

【００１５】

【課題を解決するための手段】本発明に係る自動音声認
識装置の非教示及び／又はオンライン適応方法では、受
信された発話又は発話の一部を用いた適応度合が、上記
受信された発話又は発話の一部の認識結果の信頼度に基
づいている。

【００１６】また、本発明に係る音声認識装置は、利用
者の発話を受信して、アナログ信号を出力するマイクロ
フォンと、アナログ信号をディジタル信号に変換するア
ナログ／ディジタル変換手段と、ディジタル信号から、
受信された利用者の発話の特徴ベクトルを抽出する特徴
抽出手段と、受信された利用者の発話を、特徴ベクトル
と、話者適応モデル及び／又は話者独立モデルの集合と
に基づいて認識する認識手段と、話者適応モデルの集合
を生成及び／又は適応させる適応手段と、任意の受信さ
れた単語を、話者適応モデルの集合の生成及び／又は適
応のために用いるか否かを示す信号を適応手段に供給す
る判定手段を備える。

【００１７】

【発明の実施の形態】以下、本発明に係る音声認識装
置、自動音声認識装置の非教示及び／又はオンライン適
応方法、及び非教示又はオンライン適応の実行方法につ
いて、図面を参照しながら説明する。

【００１８】図２は、誤認識された単語（word）の適応
を防ぎ、適応度合（grade of adaptation）を決定する
ために尤度尺度（confidence measures）を用いる本発
明を適用した適応方法を示す図である。この適応方法
は、ステップＳ１から始まる無限ループとして繰り返し
実行される。

【００１９】ステップＳ１において、話者の発話（utte
rance）は、従来の音声認識装置と同様に認識される。
ステップＳ２において、尤度尺度（confidence measure
s）が、ステップＳ１の結果に対して適用される。この
ステップＳ２において、尤度尺度が、認識結果がどの程
度の信頼度（reliability）を有するかを計るのに用い
られる。尤度尺度が所定の閾値未満であるときは、認識
された単語は信頼度が低いとみなされ、適応に用いられ
ることはなく、適応処理は再びステップＳ１に戻り、次
の利用者の発話の認識が行われる。一方、尤度尺度が所
定の閾値以上のときは、認識結果は信頼度が高いとみな
されて、処理が次の利用者の発話を認識するためのステ
ップＳ１に戻る前に、認識結果は、ステップＳ３におけ
る適応のために用いられる。

【００２０】本発明に基づく尤度尺度を計算するため
に、１つの又は幾つかの特徴が、認識仮説（recognitio
n hypothesis）及び／又は音声信号から抽出される。そ
して、これらの特徴に基づいて、音素（phoneme）／単
語（word）／句（phrase）が正しく又は正しくなく認識
されたかで分類される。この判定は、ハードデシジョン
（hard decision）ではないが、受信された発話の正確
さのある確率（probability）が計算される。この判定
は、例えばニューラルネットワーク（neural network）
又は入力としての特徴を有し、幾つかの内部パラメータ
に基づいた尤度尺度を計算する判定ツリー（decision t
ree）に基づくものである。

【００２１】ニューラルネットワークを尤度尺度の計算
に用いるときは、出力、すなわち尤度尺度は、典型的に
は０から１の間の値をとる。この値が１に近ければ近い
ほど、音素／単語／発話又はそれらの連続は、正しく認
識されている。したがって、所定の閾値としては０〜１
までの値が定義され、尤度尺度がこの閾値以上のとき
は、認識結果が正しいものに分類される。

【００２２】尤度尺度を計算する際の基礎となる特徴
は、認識結果から抽出され、又は認識結果に基づいた音
声信号から直接計算される。このような特徴は、例えば
相対的なｎ−最良認識仮説（n-best recognition hypot
heses）の評価点（score）、ＨＭＭ状態の継続時間（HM
M state duration）、認識された単語の基礎をなす認識
された音素の継続時間、又は区分可能性（segment prob
ability）等である。後者の２つは、幾つかのフレーム
を含む音声セグメント全体によって与えられる単語仮説
（word hypothesis）中に含まれるこのような音素の確
率を決定する確率モデル（stochastic model）によっ
て、計算される。

【００２３】そして、尤度尺度は、適応度合を決定する
ためにも直接用いることができる。いうまでもなく、尤
度尺度を求める一番簡単な方法は、唯一の特徴、例えば
認識中にＨＭＭｓによって得られる評価点を抽出し、閾
値に基づいて単語が正しく認識されたか否かを判定する
ことである。この場合、適応度合は常に一定となる。

【００２４】ところで、固定の閾値の代わりに、尤度尺
度を、ステップＳ３において実行される適応度合を決定
する重みを計算するために、用いるようにしてもよい。

【００２５】また、適応を行う際に、例えば、判定に用
いられる閾値が、音声信号から抽出された特徴に依存し
てどのように適応されるかに基づき、他のパラメータを
変更するようにしてもよい。

【００２６】ＨＭＭモデルの話者適応を行う際、話者適
応が尤度尺度の特徴に影響を与えるので、問題が生じ
る。そこで、特徴を標準化して、特徴がＨＭＭモデルの
このような変更に対しても不変であるようにするか、若
しくは尤度尺度又は尤度尺度を比較するための閾値の特
徴又はパラメータをオンラインで自動的に適応させる必
要がある。この適応は、尤度尺度の正確さのような規準
を最適化する公式的なアルゴリズムに基づいている。後
者は、ビジョン（vision）、解釈（interpretation）、
韻律（prosody）のモデルにおいて決定される利用者の
反応に基づいて、評価される。

【００２７】また、尤度尺度は、ユーザの発話全体に対
するのみならず、適応において常に拒絶されるとは限ら
ない発話全体の単語形式（word-wise）又は音素形式（p
honeme-wise）にも、すなわち誤認識された１つの単語
又は誤認識された音素を含む単語にも適用することがで
きる。また、尤度尺度は、他の任意の長さの音声セグメ
ントにも適用することができる。

【００２８】尤度尺度によって導かれるこのような適応
では、例えば単語が誤認されたことを自動音声認識装置
に通知する等の利用者からの行動（action）を必要とし
ない。したがって、発話又は単語が誤認識され、適応度
合が、正しく認識される結果の確率に依存するという事
実には関わりなく、利用者が発した全ての発話又は全て
の単語が適応に用いられるのではないので、この適応方
法は、自動音声認識装置の非教示又はオンライン適応に
おいて、従来の自動音声認識装置よりも、かなり高い認
識率が得られる。

【００２９】図３は、本発明を適用した他の適応方法を
示す図である。図２に示すように、１つの発話、１つの
単語又は複数の単語が適応に用いられるかを決定するた
めに、ダイアログ履歴（dialog history）が用いられ
る。

【００３０】ダイアログ方式では、利用者の反応が、認
識された言葉が正しいか否かを示すことがしばしばあ
る。利用者のこのような反応を判定する方法を図３に示
す。この適応方法は、図２に示す適応方法と同様、ステ
ップＳ１１から始まる無限ループとして繰り返し実行さ
れる。

【００３１】ステップＳ１１において、利用者の発話＃
ｉが、従来の自動音声認識装置と同様に認識される。ス
テップＳ１２において、認識結果が解釈され、発話＃ｉ
の前に発せられた発話＃ｉ−１に対する自動音声認識装
置の応答に利用者が満足したかが判定される。例えば、
このような発話＃ｉ−ｌが「テレビの電源を入れよ」で
あったが、自動音声認識装置が何らかの理由で「ラジオ
の電源を入れよ」と認識し、ラジオの電源が投入された
とする。利用者は、この誤りに気づき、次に「ラジオで
はなく、テレビだ。」又は「違う、私はテレビと言っ
た」と発声する（発話＃ｉ）。ステップＳ１２におい
て、この場合、自動音声認識装置は、発話＃ｉに基づ
き、前に認識された発話は、誤認識であり、適応に用い
てはならないと解釈する。ステップＳ１３において、利
用者の発話＃ｉ−ｌが適応に用いられることが中止さ
れ、自動音声認識装置は、ステップＳ１２の直後に実行
されるステップＳ１４の処理を行わない。ステップＳ１
４における自動音声認識装置の動作又は応答の後、ステ
ップＳ１５において、ｉの値がインクリメント（ｉ＝ｉ
＋１）される。そして、ステップＳ１１に戻り、利用者
の次の発話＃ｉが認識される。

【００３２】ステップＳ１２において、利用者が満足し
たか否かの判定に、発話の表現方法又は解釈の結果は別
にして、利用者の感情的状態に関する情報、例えば抑揚
（intonation）及び／又は韻律（prosody）を用いるよ
うにしてもよい。抑揚及び／又は韻律を用いて発話を解
釈することによって、自動音声認識装置は、前に認識さ
れた発話が誤認識されたことを識別するための特別な反
応を必要とはしない。例えば、利用者が、前の発話が誤
認識された後に、怒った口調で「テレビの電源を入れ
よ。」と言った場合、自動音声認識装置は、利用者は方
針を変更していないが、前に認識された指示は誤認識さ
れたものとして、適応には用いないものとする。

【００３３】また、例えばコンピュータとそれに接続さ
れたビデオカメラ等の視覚演算処理装置（visual compu
tation system）によって得られる利用者及び／又は利
用者の顔の静止画（picture）又は動画（video sequenc
e）に基づいて、例えば仕草（mimic）等の利用者の反応
を、認識された発話を検証するために用いることもでき
る。

【００３４】この場合、自動音声認識装置が外部（Back
ground）の音声又は雑音に基づいて幾つかの言葉を認識
しても、利用者の仕草によって、利用者が怒っている
か、驚いているか、口を閉ざしているかを判定すること
ができる。

【００３５】このような利用者の反応の１つ又はそれら
の組合せ、並びに反応の強さに基づいて、適応度合を決
定することができる。尤度尺度の場合と同様、閾値を設
定したハードデシジョンによって、適応度合を一定にす
るようにしてもよい。

【００３６】図４は、本発明を適用した他の適応方法を
示す図である。図４に示すように、自動音声認識装置
は、話者適応モデルの性能が余りにも悪い場合には、初
期の話者独立（speaker independent：ＳＩ）モデルに
戻るようになっている。

【００３７】この場合、誤認識された単語を用いて適応
を（繰り返し）行うと、又は新しい話者が自動音声認識
装置を利用すると、自動音声認識装置の認識性能は低下
する。したがって、自動音声認識装置は、元の話者独立
モデルに戻る。この適応方法は、図２及び図４に示す適
応方法と同様に、並列に実行されるステップＳ２１及び
ステップＳ２３から始まる無限ループとして繰り返し実
行される。

【００３８】すなわち、ステップＳ２１において、利用
者の発話は、話者適応モデルを用いて認識され、一方、
ステップＳ２３において、同じ利用者の発話は、初期の
話者独立モデルを用いて認識される。いずれの認識結果
に対しても、それぞれステップＳ２２とステップＳ２４
において尤度尺度が適用される。ステップＳ２５におい
て、例えば両方の尤度尺度の結果が比較され、ステップ
Ｓ２６における初期の話者独立モデルを用いた適応を再
開するか、ステップＳ２７における話者適応モデルを用
いた適応を行うかが決定された後、ステップＳ２１及び
ステップＳ２３において、利用者の次の発話が並列して
認識される。

【００３９】この適応方法は、両方の認識結果を比較す
るために尤度尺度を用いることには限定されない。自動
音声認識装置が、利用者の他の反応、例えば各発話の前
及び／又は後のある時点での利用者の振る舞い、若しく
は抑揚及び／又は韻律を用いるようにすることもでき
る。また、自動音声認識装置が、利用者に対していずれ
のモデルを使用するか、又はいずれの認識結果が正しい
のかを判断するように問い合わせ、各モデルの集合を用
いて、その後の認識及び適応を行うようにしてもよい。

【００４０】したがって、元のモデルを保存するととも
に、例えば適応処理がある回数行われた後、又は音声が
中断した後のそれらの性能を、適応されたものと比較す
ることによって、話者独立モデル及び／又は尤度尺度を
用いた認識結果が、話者適応モデルの性能が初期の話者
独立モデルの性能に劣ることを示すときは、音声認識装
置は、初期の話者独立モデルを用いるとともに、適応を
再開する。それによって、認識率が（極端に）低下する
ことなく、向上するか同じレベルを維持することを保証
することができる。この適応方法を用いることにより、
利用者は、その音声によって自動音声認識装置を人間が
するのと同じように動かすことができるので、その期待
は正確に満足される。

【００４１】また、話者適応モデル（speaker adapted
model）を、認識率が（極端に）低下しないことを確実
に保証するために、話者独立モデルと比較するだけでは
なく、最新の話者適応モデルを従来の話者適応モデルと
比較して、最も認識性能の高いモデルを選択し、その話
者適応モデルに基づいた適応を行うようにしてもよい。

【００４２】なお、非教示又はオンライン適応モードに
おいて、誤認識された単語又は文（sentence）を用いて
適応が行われるのを防止するために、本発明を適用した
上述の４つの適応方法を、全て又は幾つかを組み合わせ
るようにしてもよい。これらの適応方法によって、認識
された単語又は認識された発話を用いて適応を行うか否
かが制御される。また、認識率が（極端に）低下しない
ことが保証される。上述したように、提案したアルゴリ
ズムは、適応方法そのものには依存するものではなく、
すなわちいずれの話者適応アルゴリズムとも組み合わせ
ることができる。

【００４３】すなわち、本発明では、認識結果がどの程
度信頼度があるかを示すある種の量が用いられる。そし
て、自動音声認識装置の適応は、認識結果の信頼度に基
づいている。したがって、本発明に係る自動音声認識の
適応方法は、教示する利用者又は適応のための固定され
た語彙の集合を必要としないので、半教示型話者適応と
呼ばれる。

【００４４】認識の信頼度が高いときは、発話を特定の
話者に対する適応のため用いることができるが、認識の
信頼度が低いときは、モデルが悪い方向に変更されるの
を防ぐために、発話は廃棄される。その代わり、信頼度
に依存して、適応の度合を決定する重みを計算すること
ができる。

【００４５】図１は、非教示又はオンライン話者適応を
行う適応方法の１つ又は複数を用い、本発明を適用した
音声認識装置の具体的な構成を示すブロック図である。

【００４６】図１に示す自動音声認識装置は、図５に示
す従来の自動音声認識装置とは対照的に、従来の自動音
声認識装置の学習器３５のような学習器、又はそれに類
似した回路を備えていない。なお、本発明に関しては、
学習は適応に関係なく行われることから、学習器がない
ことによって、本発明に係る自動音声認識装置が限定さ
れるものではない。すなわち、特徴抽出器１３の後段
に、適応／認識モードと学習モードとを切り換える切換
スイッチを設け、特徴抽出器１３からの特徴ベクトルを
各モードに応じて選択的に認識器１４と学習器（図示せ
ず）に供給し、学習器がストレージ装置１５に記憶され
ている話者独立モジュールの集合にをアクセスするよう
にしてもよい。

【００４７】図１は、本発明に基づく半教示話者適応
（semi-supervised speaker adaptation）に用いられる
自動音声認識装置の一部を示すものである。

【００４８】Ａ／Ｄ変換器１２は、マイクロフォン１１
によって生成されたアナログ音声信号をディジタル信号
に変換して、特徴抽出器１３に供給し、特徴抽出器１３
は、ディジタル音声信号から特徴ベクトルを例えば１０
ミリ秒毎に抽出する。抽出された特徴ベクトルは、認識
器１４に供給され、認識器１４は、話者独立モデルの集
合が記憶されているストレージ装置１５、話者適応モデ
ルの集合が記憶されているストレージ装置１６、及びＭ
ＡＰ又はＭＬＬＲ等の適応方法を用い、話者独立モデル
の集合を適応させることによって話者適応モデルの集合
を生成する話者適応器１７にアクセスする。すなわち、
話者適応器１７は、話者適応モデルの集合を記憶するた
めに用いられるストレージ装置１６を介し、ストレージ
装置１５に記憶されている話者独立モデルの集合にアク
セスする。

【００４９】本発明を適用した自動音声認識装置では、
認識器１４は、上述したように１つの音素、幾つかの音
素、１つの単語、幾つかの単語又は発話全体が適応に用
いられるべきかを決定するために、その認識結果を両方
の方法を実行する音素抽出器１８及び解釈器１９に供給
する。すなわち、認識器１４は、認識結果を尤度尺度器
２３に供給し、尤度尺度器２３は、上述したように、尤
度尺度を計算する。これらの音素抽出器１８〜尤度尺度
器２３は、それぞれの結果を判定器２１に供給し、判定
器２１は、これらに結果に基づいて、上述した１つの音
素、幾つかの音素、１つの単語、幾つかの単語又は発話
全体を用いて適応を行うかを判定し、判定結果を話者適
応器１７に供給する。話者適応器１７は、この判定結果
に基づき、音素、幾つかの音素、１つの単語、幾つかの
単語又は発話全体を用いて、話者適応モデルを適応さ
せ、又は適応させない。また、判定器２１は、ある発話
に対応する利用者の視覚的振る舞い、すなわち利用者の
自覚的な感情状態、例えば怒り又は驚き、若しくは認識
された発話の全てが利用者によるものか、又は別の誰か
が言ったものか示す、ある特定の音声に対応した利用者
の視覚的行為、すなわち感情的状態を視覚的に示す視覚
器２２からの出力信号が供給される。

【００５０】検証器２０は、認識器１４から両方の結
果、すなわち話者適応モデルの集合に基づく結果と話者
独立モデルに基づく結果が供給され、この自動音声認識
装置が話者独立モデルと話者適応モデルのいずれを用い
るかを決定する。検証器２０の結果は、判定器２１に供
給され、判定器２１は、決定の結果に基づき、いずれか
のモデルの集合を用いて、認識を行い、認識結果を音素
抽出器１８、解釈器１９及び尤度尺度器２３に供給する
かを制御する制御信号を認識器１４に供給する。

【００５１】適応に発話又は発話の一部のみを用いるか
を決定するために閾値を変化させることは別として、判
定器２１に入力される特徴は適応することができ、又は
判定器２１のパラメータも適応することができる。

【００５２】また、判定器２１は、話者適応器１７にお
いて実行されるべき適応度合を決定するために、上述し
た１つの音素、幾つかの音素、１つの単語、幾つかの単
語又は発話全体の尤度を判定する。また、音素抽出器１
８、解釈器１９、検証器２０及び尤度尺度器２３で用い
られるパラメータは、上述したように、動的に変化す
る。また、判定器２１は、話者適応モデルがよりよく機
能するときは、直ちに話者独立モデルに切り換えるので
はなく、この決定の前に、さらに幾つかの発話を持つよ
うにしてもよい。

【００５３】以上の説明でも明らかなように、判定器２
１は、発話又は発話の一部の尤度尺度（いずれのパラメ
ータ又は特徴は適応可能である）、利用者が発した発話
又は発話の一部の音韻に関する情報、発せられた発話の
文脈（context）に基づいて決定された利用者の反応の
解釈、利用者の視覚的振る舞いの解釈、及び適応度合を
決定するための利用者の検証結果が供給される。なお、
本発明は、上述した具体例に限定されるものではなく、
例えば、これらの情報の一部に基づいて、決定を行うよ
うにしてもよい。

【００５４】

【発明の効果】以上の説明からも明らかなように、本発
明に係る自動音声認識装置の非教示及び／又はオンライ
ン適応方法では、受信された発話又は発話の一部を用い
た適応度合が、上記受信された発話又は発話の一部の認
識結果の信頼度に基づいている。これにより、誤認識さ
れた発話が適応に用いられて、適応モデルが悪い方に変
更されることを防ぐことができる。すなわち、自動音声
認識装置の認識率が極端に低下するのを防ぐことができ
る。

【図面の簡単な説明】

【図１】本発明を適用した音声認識装置の具体的な構成
を示すブロック図である。

【図２】本発明を適用した適応方法を説明するためのフ
ローチャートである。

【図３】本発明を適用した適応方法を説明するためのフ
ローチャートである。

【図４】本発明を適用した適応方法を説明するためのフ
ローチャートである。

【図５】従来の音声認識装置の構成を示すブロック図で
ある。

【符号の説明】

１１マイクロフォン、１２Ａ／Ｄ変換器、１３特
徴抽出器、１４認識器、１５，１６ストレージ装
置、１７適応器、１８音素抽出器、１９解釈器、
２０検証器、２１判定器、２２視覚器

───────────────────────────────────────────────────── フロントページの続き (72)発明者シルケゴロンジードイツ連邦共和国ディー−70736 フェルバッハシュトゥットゥガルターシュトラーセ 106 ソニーインターナショナル（ヨーロッパ）ゲゼルシャフトミットベシュレンクテルハフツングシュトゥットゥガルトテクノロジーセンター内 (72)発明者ラルフコンペドイツ連邦共和国ディー−70736 フェルバッハシュトゥットゥガルターシュトラーセ 106 ソニーインターナショナル（ヨーロッパ）ゲゼルシャフトミットベシュレンクテルハフツングシュトゥットゥガルトテクノロジーセンター内 (72)発明者ペーターブフナードイツ連邦共和国ディー−70736 フェルバッハシュトゥットゥガルターシュトラーセ 106 ソニーインターナショナル（ヨーロッパ）ゲゼルシャフトミットベシュレンクテルハフツングシュトゥットゥガルトテクノロジーセンター内 (72)発明者岩橋直人東京都品川区東五反田３−14−13 ソニーコンピュータサイエンス研究所内

Claims

【特許請求の範囲】

【請求項１】自動音声認識装置の非教示及び／又はオ
ンライン適応方法において、受信された発話又は発話の一部を用いた適応度合が、上
記受信された発話又は発話の一部の認識結果の信頼度に
基づいている自動音声認識装置の非教示及び／又はオン
ライン適応方法。
【請求項２】上記受信された発話又は発話の一部は、
上記認識結果の信頼度が閾値以上であるときに、適応に
用いられ、上記認識結果の信頼度が上記閾値未満のとき
は、廃棄されることを特徴とする請求項１に記載の自動
音声認識装置の非教示及び／又はオンライン適応方法。
【請求項３】上記閾値は、固定値又は動的に変化する
ことを特徴とする請求項１又は２に記載の自動音声認識
装置の非教示及び／又はオンライン適応方法。
【請求項４】上記受信された発話又は発話の一部の認
識結果の信頼度は、尤度尺度に基づいて計られることを
特徴とする請求項１乃至３のいずれか１項に記載の自動
音声認識装置の非教示及び／又はオンライン適応方法。
【請求項５】上記尤度尺度の基礎となるパラメータ及
び／又は特徴は、適応的であることを特徴とする請求項
４に記載の自動音声認識装置の非教示及び／又はオンラ
イン適応方法。
【請求項６】上記尤度尺度は、上記受信された各発話
又は発話の一部に対する尤度の評価点に基づいて、発
話、単語又は音素から算出されることを特徴とする請求
項４又は５に記載の自動音声認識装置の非教示及び／又
はオンライン適応方法。
【請求項７】上記尤度の評価点は、上記受信された発
話又は発話の一部の認識結果の信頼度の度合を決定する
ことを特徴とする請求項６に記載の自動音声認識装置の
非教示及び／又はオンライン適応方法。
【請求項８】上記受信された発話又は発話の一部の認
識結果の信頼度の度合は、上記発話の話者の反応に基づ
いて計られることを特徴とする請求項１乃至７のいずれ
か１項に記載の自動音声認識装置の非教示及び／又はオ
ンライン適応方法。
【請求項９】上記反応は、視覚演算処理装置によって
得られる利用者及び／又は利用者の顔の静止画又は動画
に基づいて、決定されることを特徴とする請求項８に記
載の非自動音声認識装置の非教示及び／又はオンライン
適応方法。
【請求項１０】上記尤度尺度は、上記発話を発した話
者の感情的状態に依存することを特徴とする請求項８又
は９に記載の自動音声認識装置の非教示及び／又はオン
ライン適応方法。
【請求項１１】上記反応は、上記発話又は発話の一部
の後に受信された発話又は発話の一部を認識及び解釈す
ることによって決定されることを特徴とする請求項８乃
至１０のいずれか１項に記載の自動音声認識装置の非教
示及び／又はオンライン適応方法。
【請求項１２】上記受信された発話又は発話の一部の
後に受信された発話又は発話の一部を検証して、前に受
信された発話の認識が正しいか否かの反応を生成するこ
とを特徴とする請求項１１に記載の自動音声認識装置の
非教示及び／又はオンライン適応方法。
【請求項１３】上記反応は、上記受信された発話又は
発話の一部の後に受信された発話又は発話の一部につい
ての第２の情報を解釈することによって、決定されるこ
とを特徴とする請求項１０乃至１４のいずれか１項に記
載の自動音声認識装置の非教示及び／又はオンライン適
応方法。
【請求項１４】上記受信された発話又は発話の一部の
後に受信された発話又は発話の一部についての第２の情
報は、上記受信された発話又は発話の一部の後に受信さ
れた発話又は発話の一部の抑揚及び／又は韻律であるこ
とを特徴とする請求項１３に記載の自動音声認識装置の
非教示及び／又はオンライン適応方法。
【請求項１５】上記パラメータの初期集合が記憶され
ていることを特徴とする請求項１４に記載の非教示又は
オンライン適応の実行方法。
【請求項１６】上記自動音声認識装置の認識性能は、
上記記憶されている初期のパラメータに基づく実際の認
識結果と、最新のパラメータに基づく認識結果を比較す
ることによって、判定されることを特徴とする請求項１
４又は１５に記載の非教示又はオンライン適応の実行方
法。
【請求項１７】上記自動音声認識装置の認識性能は、
隠れマルコフモデルの適応を用いて判定されることを特
徴とする請求項１乃至２４のいずれか１項に記載の非教
示又はオンライン適応の実行方法。
【請求項１８】非教示及び／又はオンライン適応を有
する音声認識装置において、利用者の発話を受信して、アナログ信号を出力するマイ
クロフォンと、上記マイクロフォンに接続され、上記アナログ信号をデ
ィジタル信号に変換するアナログ／ディジタル変換手段
と、上記アナログ／ディジタル変換手段に接続され、上記デ
ィジタル信号から、上記受信された利用者の発話の特徴
ベクトルを抽出する特徴抽出手段と、上記特徴抽出手段に接続され、上記受信された利用者の
発話を、上記特徴ベクトルと、話者適応モデル及び／又
は話者独立モデルの集合に基づいて認識する認識手段
と、上記認識手段から認識結果が供給され、上記話者適応モ
デルの集合を生成及び／又は適応させる適応手段と、上記認識手段に接続され、任意の受信された単語を、上
記話者適応モデルの集合の生成及び／又は適応のために
用いるか否かを示す信号を上記適応手段に供給する判定
手段を備える音声認識装置。
【請求項１９】上記判定手段から適応手段に供給され
る信号は、上記適応手段によって上記任意の受信された
単語に基づき設定された上記話者適応モデルの適応度合
を示すことを特徴とする請求項１８に記載の音声認識装
置。
【請求項２０】上記判定手段から適応手段に供給され
る信号は、上記認識手段と判定手段間に接続された音素
抽出手段によって生成された第１の制御信号に基づいて
生成されることを特徴とする請求項１８又は１９に記載
の音声認識装置。
【請求項２１】上記判定手段から適応手段に供給され
る信号は、上記認識手段と判定手段間に接続された解釈
手段によって生成された第２の制御信号に基づいて生成
されることを特徴とする請求項１８乃至２０のいずれか
１項に記載の音声認識装置。
【請求項２２】上記判定手段から適応手段に供給され
る信号は、上記認識手段と判定手段間に接続された検証
手段によって生成された第３の制御信号に基づいて生成
されることを特徴とする請求項１８乃至２１のいずれか
１項に記載の音声認識装置。
【請求項２３】上記判定手段から適応手段に供給され
る信号は、上記認識手段と判定手段間に接続された尤度
尺度手段によって生成された第４の制御信号に基づいて
生成されることを特徴とする請求項１８乃至２１のいず
れか１項に記載の音声認識装置。
【請求項２４】上記判定手段から適応手段に供給され
る信号は、上記判定手段に接続された視覚手段によって
生成された第５の制御信号に基づいて生成されることを
特徴とする請求項１８乃至２１のいずれか１項に記載の
音声認識装置。