JPH11338489A

JPH11338489A - 音声認識装置および音声認識方法および記録媒体

Info

Publication number: JPH11338489A
Application number: JP10161393A
Authority: JP
Inventors: Yoshinaga Kato; 喜永加藤
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1998-05-25
Filing date: 1998-05-25
Publication date: 1999-12-10

Abstract

(57)【要約】【課題】認識処理を行ないながら話者適応を逐次的に
行なうことが可能であって、さらに、正解候補と他の候
補との分類誤りの結果を、比較的簡単な形式を用いて、
スポッティング閾値の調整に直接反映することにより、
話者によらずに認識精度を向上させることの可能な音声
認識装置および音声認識方法および記録媒体を提供す
る。【解決手段】音声認識モデルについてのパラメータ
は、認識モデルのモデルパラメータおよび／またはスポ
ッティングに用いる閾値であり、パラメータ調整手段９
は、装置の使用者が入力した音声の特徴パターンを用い
て、認識結果として判定された語に対応する音声認識モ
デルのモデルパラメータおよび／またはスポッティング
に用いる閾値を調整する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置およ
び音声認識方法および記録媒体に関する。

【０００２】

【従来の技術】従来、音声認識の分野において、発話音
声中から重要な語だけを認識する手法はスポッティング
手法として知られている。このスポッティング手法を採
用することにより、不用語を伴う発声に対しても認識対
象語を正しく認識する可能性を高め、使用者に対し発話
制約に関する負担を軽減し、使いやすい音声認識装置を
提供できる。

【０００３】音声認識装置に用いる認識モデルとして
は、対象とする話者により特定話者型と不特定話者型と
にわけることができる。特定話者型は、個々の使用者の
音声だけを対象として認識モデルを設計するものであ
り、他人の音声を考慮する必要がないので、認識の精度
を上げやすく、モデルの規模も一般に不特定話者型に比
べて小さくて済む。ただし、装置を使用する前に予め使
用者の音声を登録しておく必要がある。

【０００４】一方、不特定話者型は、音声の登録なしに
装置を使用することができるが、話者を特定しないの
で、認識モデルの規模は大きくなる傾向にある。また、
モデルのパラメータを調整するには、多数の話者により
発声した音声データが必要となる。

【０００５】音声認識装置の使い勝手の点からは、音声
登録の手間が省ける不特定話者型が望ましい。しかしな
がら、不特定話者型の認識装置は基本的に未知の話者を
扱うことになるので、話者によっては認識性能の低下が
懸念される。これは、認識モデルのパラメータ調整に用
いた音声データ数の不足により、未知の話者の特性を捉
えることが不十分であるためと考えられる。従って、性
能の低い話者に対する救済方法を考慮しておかないと、
該当した話者にとって扱いにくい装置となってしまう。

【０００６】

【発明が解決しようとする課題】この問題を解決するた
めに、文献１「L.Rabiner他，“Fundamentals of speec
h recognition,”Prentice-Hall International,Inc.(1
993)」などに示されているような話者適応が知られてい
る。これは、使用者の音声を用いて、話者特性を不特定
話者モデルのパラメータに反映する方法である。従っ
て、認識装置の初期性能が悪くても、本方法を用いるこ
とにより改善することが可能である。

【０００７】一方、スポッティング時の湧き出しを防ぐ
ためには、信頼できる得点が得られなければ、リジェク
トを行なう方法が知られている。これは、音声パターン
を測ったときに得られた得点が、予め設定されている所
定の閾値以下であれば適用される。なお、閾値は、通常
定数であり、実験的に求めるのが一般的である。

【０００８】ところが、実験時に使用した話者と実際に
使用する話者とが異なる場合や、収録環境が異なる場合
には、予め設定しておいた閾値がうまく働かなくなる可
能性がある。その場合は、閾値が大き過ぎれば正しい発
話であってもリジェクトされ、また、小さ過ぎれば、不
必要に湧き出しが生じることになる。

【０００９】そのため、上記閾値を可変にし、話者適応
時に調整可能とすることが望ましい。閾値を調整する手
段として、正解モデルと他の類似モデルとの識別境界を
訓練することが考えられる。すなわち、入力音声パター
ンに対して正解モデルと他のモデルとがどの程度離れて
いるかを直接測り、分類誤りが最小になるように閾値を
調整すればよい。

【００１０】さらに、適応用の音声データを獲得する際
に、装置の使用前に音声の登録を行なうことは使用者に
とって負担である。そこで、認識処理を行なっている最
中に適応処理も同時に行なえることが望ましい。さら
に、この場合には、使用者に話者適応用の音声データを
事前に登録してもらう必要がないので、認識装置を使用
しながら性能を高めることも可能である。そのために
は、逐次的に認識モデルのパラメータを調整することが
可能な簡便な手段が必要となる。

【００１１】分類誤りが最小となる基準を用いたスポッ
ティングとして、文献２「T.Komori他“A novel spotti
ng-based approach to continuous speech recognitio
n:Minimum error classification of keyword-sequence
s,”J.Acoust.Soc.Jpn(E)(1995.5)」による例が報告さ
れている。これは、複数の重要単語列を分類するための
調整法であり、調整対象には閾値も含まれている。しか
しながら、この方法は、大語彙を対象とし、閾値は照合
対象の候補を絞り込むための棄却関数を定義するのに用
いられている。従って、話者適応時の調整手段として用
いられていない。また、閾値を含む棄却関数は複雑な形
式を持っているため、簡単化された実装について述べら
れており、閾値に関する具体的な実装については述べら
れていない。

【００１２】本発明は、認識処理を行ないながら話者適
応を逐次的に行なうことが可能であって、さらに、正解
候補と他の候補との分類誤りの結果を、比較的簡単な形
式を用いて、スポッティング閾値の調整に直接反映する
ことにより、話者によらずに認識精度を向上させること
の可能な音声認識装置および音声認識方法および記録媒
体を提供することを目的としている。

【００１３】

【課題を解決するための手段】上記目的を達成するため
に、請求項１，請求項４，請求項７記載の発明は、入力
音声の特徴を分析する特徴分析手段と、音声認識モデル
を設計する認識モデル設計手段と、所定のパラメータを
記憶するパラメータ記憶手段と、入力した言語を記憶す
る言語記憶手段と、言語記憶手段に記憶された言語を有
限状態網に変換する手段と、有限状態網を記憶する有限
状態網記憶手段と、有限状態網の弧に対応づけられた音
声認識モデルをパラメータ記憶手段からパラメータの形
で選択取得する認識モデル選択手段と、特徴分析手段に
より得られた特徴パターン中に重要単語が存在する可能
性を、認識モデル選択手段によって選択された音声認識
モデルで測るスポッティング手段と、音声認識モデルに
ついてのパラメータを調整するパラメータ調整手段とを
備えており、音声認識モデルについてのパラメータは、
認識モデルのモデルパラメータおよび／またはスポッテ
ィングに用いる閾値であり、パラメータ調整手段は、装
置の使用者が入力した音声の特徴パターンを用いて、認
識結果として判定された語に対応する音声認識モデルの
モデルパラメータおよび／またはスポッティングに用い
る閾値を調整することを特徴としている。

【００１４】また、請求項２，請求項５，請求項８記載
の発明は、請求項１，請求項４，請求項７記載の音声認
識装置において、パラメータ調整手段は、入力された音
声の特徴パターンに対し、認識結果として判定された語
に対応する音声認識モデルで測った得点と、競合する語
に対応する他の音声認識モデルで測った得点との誤分類
測度から得られた損失を一次微分可能な連続関数で表現
し、該損失の勾配を求めることによって、誤分類が最小
になるように、音声認識モデルのモデルパラメータを調
整することを特徴としている。

【００１５】また、請求項３，請求項６，請求項９記載
の発明は、請求項１，請求項４，請求項７記載の音声認
識装置において、パラメータ調整手段は、入力された音
声の特徴パターンに対し、認識結果として判定された語
に対応する音声認識モデルで測った得点と、競合する語
に対応する他の音声認識モデルで測った得点との誤分類
測度から得られた損失を一次微分可能な連続関数で表現
し、該損失の勾配を求めることによって、誤分類が最小
になるように、スポッティングに用いる閾値を調整する
ことを特徴としている。

【００１６】

【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。図１は本発明に係る音声認識装置の
構成例を示す図である。図１を参照すると、この音声認
識装置は、音声が入出力する音声入出力手段１００と、
入力音声の特徴を分析する特徴分析手段１と、音声認識
モデル(音素モデル)を設計する認識モデル設計手段２
と、所定のパラメータを記憶するパラメータ記憶手段３
と、入力した言語(テキスト)を記憶する言語記憶手段４
と、言語を有限状態網に変換する有限状態網変換手段５
と、有限状態網を記憶する有限状態網記憶手段２０−
１，２０−２と、有限状態網の弧に対応付けられた音声
認識モデル(音素モデル)を選択する認識モデル選択手段
６と、特徴分析手段１により得られた特徴パターン中に
重要単語が存在する可能性を、認識モデル選択手段６に
よって選択された音声認識モデルで測るスポッティング
手段７と、比較器８と、パラメータ調整手段９と、スイ
ッチＳ１と、スイッチＳ２と、スイッチＳ３と、テキス
ト規則音声合成器１０とを備えている。

【００１７】ここで、音声入出力手段１００は、例えば
電話機として構成されており、送受話器などの音声入出
力装置５１と、電話番号記憶手段５２と、発呼装置５３
とが備わっている。

【００１８】また、パラメータ記憶手段３に格納されて
いるパラメータΛは、不特定話者を対象として認識でき
るように、パラメータ調整手段９により予め調整されて
いるとする。また、図１では、２つの有限状態網記憶手
段２０−１，２０−２が設けられているが、これは、認
識タスクの対象により、スイッチＳ２によって、いずれ
か一方の有限状態網記憶手段を切り換えて使用すること
を表している。

【００１９】次に、図１の音声認識装置の処理動作につ
いて説明する。ここでは、全認識対象語の中で、ｓ番目
の単語をΩ^sとする。なお、単語Ω^sは、キーボードなど
の入力手段により言語記憶手段４にかななどのテキスト
情報として記憶しておく。先ず、単語Ω^sに対応する言
語モデルは、有限状態網変換手段５により、言語記憶手
段４に格納されたテキスト情報から、有限状態網に変換
される。有限状態網記憶手段２０−１または２０−２に
は、Ｇ(・)を用いて次のように表現された網ω^sが記憶
される。

【００２０】

【数１】Ｇ(Ω^s)→ω^s

【００２１】有限状態網の遷移規則は、次式に従う。

【００２２】

【数２】δ(φ，ν^s _i)＝ψ

【００２３】数２は、状態φから認識単位ν^s _iを伴なっ
て状態ψに遷移することを意味している。ここで、δ
は、遷移の集合である。有限状態網は、総数Ｖ個の中に
含まれる認識単位ν^s _i，(１，…，ｉ，…，Ｖ)を選択
し、合成して設計されるものとする。

【００２４】図２には、地名を表わす“そうじゃ(総
社)”を有限状態網に展開した例を示す。図２におい
て、円は状態を表わし、状態間の弧に示されている記号
は、遷移に伴なう認識単位を示している。ここでは、認
識単位として音素を採用している。この音素に対応する
認識モデルは、認識モデル設計手段２によって作成され
る。さらに、作成した認識モデルを表現するモデルパラ
メータおよびスポッティングに用いる閾値を、パラメー
タ記憶手段３に記憶しておく。すなわち、パラメータ記
憶手段３には、有限状態網の弧に対応づけられた音声認
識モデルがパラメータの形で記憶され、パラメータ記憶
手段３に記憶されるパラメータは、認識モデルのモデル
パラメータとスポッティングに用いる閾値である。音声
特徴パターンを測る音素モデルは、パラメータ記憶手段
３に記憶されているパラメータを、認識モデル選択手段
６により選択することによって得られる。認識モデル選
択手段６では、有限状態網の音素を指標として、パラメ
ータ記憶手段３に問い合わせることにより、所望の音素
モデルのパラメータを選択することができる。

【００２５】認識時の処理動作は次のようになされる。
すなわち、認識時には、図１のスイッチＳ１をオフにし
(開き)、スイッチＳ２を有限状態網記憶手段２０−１，
２０−２のいずれか一方に接続し、スイッチＳ３を言語
記憶手段４に接続する。また、スポッティング手段７に
は、認識モデル選択手段６で選択されたモデルパラメー
タとスポッティングに用いる閾値とが、認識モデル選択
手段６から与えられるとする。この状態で、利用者は、
電話機１００の音声入出力装置５１から音声を入力す
る。電話機１００の音声入出力装置５１から入力された
音声は、特徴分析手段１によって分析されて特徴パター
ンｘ＝(ｘ_m)(１，…，ｍ，…，Ｍ)に変換される。ここ
で、分析には、前述の文献１などで詳述されているよう
な手法を用いることができる。例えば、入力音声信号か
ら６次元のメルケプストラム係数およびパワーの一次差
分を抽出し、特徴パターンとすることができる。この
際、分析条件として、例えば、標本化周波数：８ｋＨ
ｚ、高域強調：一次差分、２５６点ハミング窓、更新周
期：１６ｍｓ、ＬＰＣ分析次数：２０とすることができ
る。分析は上記に限られたものではなく、周波数分析な
ど他のどのような手法を用いてもよい。この特徴パター
ンｘから、ｓ番目の単語をスポッティング手段７により
スポッティングしたときの得点Ｃ(ｘ，ω^s)を、次式で
表わす。

【００２６】

【数３】

【００２７】ここで、右辺のθ(ｍ_s，ｍ_e)は、ｍ_s，ｍ_e
をそれぞれ単語が存在する位置の始端，終端とする照合
経路を表わす。このように、スポッティング手段７によ
って各単語の得点Ｃ(ｘ，ω^s)が得られるとき、スポッ
ティング手段７で得られた各単語の得点とその存在位置
を比較器８へ送り、得点の大きい順に比較器８内に記憶
しておく。全ての単語に対して同様の処理を繰り返し行
ない、比較器８に記憶された得点のうち、得点Ｃ(ｘ，
ω^s)が最大となる単語Ω^sを認識結果とし、その指標ｓ
を言語記憶手段４に送る。言語記憶手段４では、認識結
果の指標と一致するテキストをテキスト規則音声合成器
１０に送る。テキスト規則音声合成器１０では、テキス
トの内容を表す音声波形を生成し、電話機１００の音声
入出力装置５１に送り、音声入出力装置５１から音声出
力することにより、利用者は、認識結果を音声により確
認することができる。

【００２８】次に、スポッティングに用いる閾値と認識
モデルのモデルパラメータとのパラメータを話者適応す
る方法について述べる。適応処理動作は、パラメータ調
整手段９によって行なわれる。すなわち、前述の認識処
理の後に、先ず、スイッチＳ１をオン(閉)にする。な
お、ここでは、説明の便宜上、認識の状態を表わすパラ
メータに関して平滑な連続関数形式を定義する。すなわ
ち、音声特徴パターンを測るために、ここでは、連続関
数ｇ_αを判別関数として定義する。この判別関数の定義
では、ｇ_αの値が大きいほど、入力音声パターンは単語
αに属する可能性が高いことを表わす。判別関数によっ
ては、これとは逆に、判別関数の値が小さいほど入力音
声パターンは単語αに属する可能性が高くなるように設
定してもよい。ここでは、判別関数ｇ_αを次式のように
定義する。

【００２９】

【数４】

【００３０】ここで、ｇ_α(ｘ，Λ)は、音声特徴パター
ンｘと認識モデルのパラメータΛとが与えられた時の単
語αに対する判別関数である。また、Ｃ(ｘ，ω^α)は、
音声特徴パターンｘとα番目のモデルに対するスポッテ
ィング得点であり、この得点は、認識時に、スポッティ
ング手段７によって計算されている。

【００３１】スポッティング得点(判別関数の値)が求ま
ったら、パラメータ調整手段９は、スポッティング得点
(判別関数の値)より誤分類測度を計算する。なお、誤分
類測度ｄ_α(ｘ，Λ)は、次式のように表わされる。

【００３２】

【数５】

【００３３】ここで、βは、α以外で最も判別関数値が
大きくなる単語であり、各単語α，βの得点ｇ_α(ｘ，
Λ)，ｇ_β(ｘ，Λ)は、比較器８で得られる。数５の誤
分類測度ｄ_α(ｘ，Λ)が負の時には、ｘが正しく分類さ
れたことを示し、誤分類測度ｄ_α(ｘ，Λ)が正の時に
は、誤分類されたことを示す。数５からわかるように、
誤分類測度は、ｘが属する単語に関する判別関数値ｇ_α
と、それ以外で最もｘに近い単語に関する判別関数値ｇ
_βとの差を表わしている。

【００３４】図３は、パラメータ調整手段９の具体例を
示す図である。図３の例では、パラメータ調整手段９
は、誤分類測度計算器１１と、損失計算器１２と、モデ
ルパラメータ修正量計算器１３と、モデルパラメータ更
新器１４と、閾値修正量計算器１５と、閾値更新器１６
とを有している。

【００３５】図３のような構成では、比較器８で、単語
α，βの得点を得られるので、誤分類測度計算器１１に
て数５の誤分類測度ｄ_α(ｘ，Λ)が求まる。次に、次式
に示すように、平滑に近似した損失ｌ_α(ｘ，Λ)を損失
計算器１２により求める。

【００３６】

【数６】

【００３７】次いで、損失を減らすようにパラメータΛ
を修正する。すなわち、パラメータΛの修正量ΔΛを以
下のように計算する。

【００３８】

【数７】

【００３９】ここで、ηは、正の小さな定数である。調
整後におけるパラメータをΛ'とすれば、調整規則は以
下の式で表すことができる。

【００４０】

【数８】Λ'＝Λ＋ΔΛ

【００４１】パラメータのこのような調整処理は、認識
モデル選択手段６により選択されているスポッティング
の閾値とモデルパラメータとのパラメータに対して適用
される。具体的に、図３のスイッチＳ４を閉じるとモデ
ルパラメータを調整することができる。また、図３のス
イッチＳ５を閉じると閾値を調製することができる。こ
のように、パラメータの調整量(修整量)をパラメータ調
整手段９により数７のように計算し、パラメータ記憶手
段３に記憶されているパラメータ(閾値とモデルパラメ
ータ)を数８に従って更新する。このような更新処理を
繰り返し実行することで、閾値とモデルパラメータを装
置の利用者(使用話者)に適応して調整することができ
る。

【００４２】次に、パラメータ調整法の詳細について述
べる。そのため、以下では本発明における認識モデルが
どのようなパラメータで表現され、照合されるかを説明
する。なお、数４では、Ｃを、単語に対する得点として
扱ったが、この例では、認識単位を音素としているの
で、α番目の単語を構成する音素モデルｗ^α _i＝
(ｗ^α _in)，(１，…，ｎ，…，Ｎ^α)に対する得点をＣ
_r(ｘ，ｗ^α _i)として以下のように再定義する。

【００４３】

【数９】

【００４４】数９の右辺は、音素モデルとして、特に継
続時間長制御型状態遷移モデルを用いた例を表わしてい
る。ここで、ｃ_n(・，・)は、継続時間長制御型状態遷
移モデルのｎ番目の状態に対応する音声セグメント(部
分パターン)との得点を表す。継続時間長制御型状態遷
移モデルの詳しい説明は、文献３「室井哲也他，“継
続時間制御型状態遷移モデルを用いた単語音声認識，”
信学論(Ｄ−II)(1989.11)」に記載されている。継続時
間長制御型状態遷移モデルの各状態は、照合時に入力音
声パターンのセグメントに対応づけられ、この照合に
は、文献３に記載されている照合アルゴリズムを用いれ
ばよい。ｃ_n(・，・)は、さらに次のように展開でき
る。

【００４５】

【数１０】

【００４６】ここで、Ｌは、認識モデルの各状態におけ
る特徴パラメータと入力音声パターンとの局所得点であ
る。また、ｘ_m＝(ｘ_mi)は、フレーム番号ｍにおける入
力音声ベクトルである。また、ｒ(ｎ)は、ｎ番目の状態
に対応づけられるセグメントの最終フレーム番号であ
る。ここで、ｒ^α(０)＝ｍ^α _s−１，ｒ^α(Ｎ)＝ｍ^α _eで
ある。

【００４７】また、Ｔ^α _nは、各状態がもつ閾値であ
り、正数である。一方、Ｊは、認識モデルの各状態の継
続時間長と、各状態に対応づけられた音声部分パターン
の時間長ｌ^α _nとの間の距離である。なお、時間長ｌ^α _n
は次式で表わされる。

【００４８】

【数１１】

【００４９】また、ｖ^α _nは、数１０の右辺第２項に関
する重みであり、値が大きいほど数１０において継続時
間長制御によるペナルティを重視した得点となる。ま
た、本発明では、隠れマルコフモデルと同様に、混合モ
デルの枠組も導入可能である。

【００５０】また、ＬおよびＪをさらに展開すると、そ
れぞれ次式のようになる。

【００５１】

【数１２】

【００５２】

【数１３】

【００５３】μ^α _n，σ^α _nは、それぞれ、音声パターン
の特徴量に関する平均と分散である。また、τ^α _n，ζ
^α _nは、それぞれ状態の継続長に関する平均と分散であ
る。

【００５４】数７に従い、認識モデルの各パラメータに
関して偏微分する。数６は、関数の内部に数５を内包
し、数５は、その関数の内部に数４を内包している。従
って、パラメータに関する勾配は、損失から識別関数へ
と鎖則を用いて求めることができる。

【００５５】より具体的に、図３のスイッチＳ５を閉じ
ると閾値を調整することができる。すなわち、閾値修正
量計算器１５で、閾値の修正量を求め、閾値更新器１６
で閾値が更新される。更新された閾値は、パラメータ記
憶手段３で以前の値を書き換えて格納される。スイッチ
Ｓ５を閉じたときの閾値Ｔ^γ _nは以下のように調整され
る。

【００５６】

【数１４】

【００５７】同様にして、図３のスイッチＳ４を閉じる
と認識モデルのモデルパラメータを調整することができ
る。すなわち、モデルパラメータ修正量計算器１３で、
修正量を求め、モデルパラメータ更新器１４で各モデル
のパラメータが更新される。更新されたモデルパラメー
タは、パラメータ記憶手段で以前の値を書き換えて格納
される。各モデルのモデルパラメータは、以下のように
調整される。

【００５８】

【数１５】

【００５９】

【数１６】

【００６０】

【数１７】

【００６１】

【数１８】

【００６２】

【数１９】

【００６３】ここで、ｘ_ξ(n)kは状態遷移モデルの第ｎ
状態に対応づけられたフレーム特徴パターンの第ｋ次元
目の要素を示す。Ｓ４，Ｓ５のスイッチは同時に閉じる
ことも可能である。その場合は、閾値とモデルパラメー
タとの両方を調整することができる。また、どちらかの
スイッチを選択して閉じることにより、所望のパラメー
タを調整することが可能である。

【００６４】これまでに述べてきたように認識モデルの
調整は、スイッチＳ１を閉じることにより行なわれる
が、その時、正解の単語とそれ以外で最も正解に近い単
語がどれであるかをパラメータ調整手段９に知らせる必
要がある。以下では、音声認識を用いてこれらの単語の
特定を行なう例を述べる。ここでは、相手先の名前を発
声することによって相手先に電話をかけることを考え
る。図１の有限状態網記憶手段２０−１、有限状態網記
憶手段２０−２には、それぞれ、例えば、電話をかける
相手名(例えば「かとう」、「やまだ」など)、電話操作
に関する命令語(例えば、「だいやる」、「つぎのこう
ほ」など)を、有限状態網として記述しておく。有限状
態網記憶手段２０−１に記憶されている単語網には指標
をつけ、電話番号記憶手段５２に記憶されている相手先
電話番号と対応させておく。また、比較器８も図４に示
すように、有限状態網記憶手段２０−１の単語群を認識
する場合の比較には比較器８−１を用い、有限状態網記
憶手段２０−２には比較器８−２を用いるようにする。

【００６５】相手先を呼び出すときには、スイッチＳ１
を開にし(オフにし)、スイッチＳ２を有限状態網記憶手
段２０−１に接続し、また、スイッチＳ３を言語記憶手
段４に接続し、また、スイッチＳ６を比較器８−１に接
続する。この場合、上述したような認識処理により、電
話機１００の音声入出力装置(送話器)５１から入力され
た利用者音声に対して最も得点の高い相手先名を音声入
出力装置(受話器)５１より聞くことができる。この時点
で、スイッチＳ２を有限状態網記憶手段２０−２に接続
し、またスイッチＳ６を比較器８−２に接続する。も
し、上記の認識結果が正しければ、その後、利用者が
「だいやる」と発声することで、有限状態網記憶手段２
０−２に記憶されている命令用の単語網を用いて、同様
の認識処理が行なわれ、比較器８−２において最も得点
の高い単語が「だいやる」であったならば、スイッチＳ
３を電話番号記憶手段５２に接続し、スイッチＳ６を再
び比較器８−１に接続し、スイッチＳ１を閉じる(オン
にする)。電話番号記憶手段５２では、比較器８−１で
第１番目の候補であった正解の単語の指標を電話番号記
憶手段５２に送り、対応する電話番号が検索される。そ
の後、発呼装置５３を使って、検索された電話番号で相
手先へ電話をかけることができる。一方、パラメータ調
整手段９には、正解の単語と第２位の候補に関する認識
結果の情報が送られ、パラメータ調整手段９では、前述
したように閾値や対応するモデルパラメータを調整し、
話者適応が行なわれる。その後、スイッチＳ１を開く
(オフにする)ことで一連の処理が完了する。

【００６６】また、上記の認識結果が間違っていた場合
(すなわち、電話機１００の音声入出力装置(送話器)５
１から入力された利用者音声に対して最も得点の高い相
手先名を音声入出力装置(受話器)５１より聞いて、これ
が間違っていた場合)には、利用者が「つぎのこうほ」
と発声することで、これが認識されて、比較器８−１に
記憶されていた第２位以降の候補を音声により出力す
る。正解の認識結果が現れるまで「つぎのこうほ」の発
声を繰り返し、上述の処理を繰り返す。正解の認識結果
が現われたら、その後、「だいやる」と発声し、これが
認識されたら、スイッチＳ３を電話番号記憶手段５２に
接続し、スイッチＳ６を再び比較器８−１に接続し、ス
イッチＳ１を閉じる(オンにする)。電話番号記憶手段５
２では、比較器８−１において正解であった第ｎ番目の
候補の指標を電話番号記憶手段５２に送り、対応する電
話番号が検索される。その後、発呼装置５３を使って、
検索された電話番号で相手先へ電話をかけることができ
る。一方、パラメータ調整手段９には、第ｎ位であった
正解の単語と第１位であった正解以外で最も得点の高い
競合候補に関する認識結果の情報が送られ、パラメータ
調整手段９では、前述したように閾値や対応するモデル
パラメータを調整することにより話者適応が行なわれ
る。

【００６７】このような操作により、認識と同時に話者
適応も行なわれ、事前に使用者の音声を登録する必要が
なくなる。

【００６８】以上に述べた処理によって、モデルパラメ
ータや閾値のパラメータは、話者の特性に合わせて書き
換えられるが、使用者が替わったり、使用環境の変化な
どの理由により、変更したパラメータをリセットしたい
ときがある。図５はこのような場合を考慮した音声認識
装置の構成例を示す図であり、図５の音声認識装置で
は、パラメータ記憶手段３内に、２つのパラメータ記憶
領域３−１，３−２を用意し、パラメータ記憶領域３−
２には、ＲＯＭなどの書き換えられない記憶領域を設け
る一方、パラメータ記憶領域３−１には、ＲＡＭなどの
書き換え可能な記憶領域を設けておき、パラメータ記憶
領域３−２には、初期状態である予め作成しておいた不
特定話者認識用のパラメータを格納しておく。記憶領域
３−１では、これまで述べたような調整により話者適応
をする度にパラメータの内容が書き換わる。そして、ボ
タンＰＢを押すことによって記憶領域３−２の内容を記
憶領域３−１へ転送できるようにしておくことで、いつ
でもパラメータの内容を初期状態に戻すことができる。
なお、ボタンＰＢは、電話機１００に設けられている各
種のプッシュボタンのうちのいずれかに対応させておけ
ばよい。

【００６９】上述した本発明を要約すると、第１の実施
形態として、入力音声の特徴を分析する特徴分析手段
と、音声認識モデルを設計する認識モデル設計手段と、
有限状態網の弧に対応づけられた音声認識モデルがパラ
メータの形で記憶されるパラメータ記憶手段と、入力し
た言語を記憶する言語記憶手段と、言語記憶手段に記憶
された言語を有限状態網に変換する手段と、有限状態網
を記憶する有限状態網記憶手段と、有限状態網の弧に対
応づけられた音声認識モデルをパラメータ記憶手段から
パラメータの形で選択取得する認識モデル選択手段と、
特徴分析手段により得られた特徴パターン中に重要単語
が存在する可能性を、認識モデル選択手段によって選択
された音声認識モデルで測るスポッティング手段と、音
声認識モデルについてのパラメータを調整するパラメー
タ調整手段とを備えており、音声認識モデルについての
パラメータは、認識モデルのモデルパラメータおよび／
またはスポッティングに用いる閾値であり、パラメータ
調整手段は、装置の使用者が入力した音声の特徴パター
ンを用いて、認識結果として判定された語に対応する音
声認識モデルのモデルパラメータおよび／またはスポッ
ティングに用いる閾値を調整することを特徴としてい
る。

【００７０】また、第２の実施形態として、上記第１の
実施形態の音声認識装置において、パラメータ調整手段
は、入力された音声の特徴パターンに対し、認識結果と
して判定された語に対応する音声認識モデルで測った得
点と、競合する語に対応する他の音声認識モデルで測っ
た得点との誤分類測度から得られた損失を一次微分可能
な連続関数で表現し、該損失の勾配を求めることによっ
て、誤分類が最小になるように、音声認識モデルのモデ
ルパラメータを調整することを特徴としている。

【００７１】また、第３の実施形態として、上記第１の
実施形態の音声認識装置において、パラメータ調整手段
は、入力された音声の特徴パターンに対し、認識結果と
して判定された語に対応する音声認識モデルで測った得
点と、競合する語に対応する他の音声認識モデルで測っ
た得点との誤分類測度から得られた損失を一次微分可能
な連続関数で表現し、該損失の勾配を求めることによっ
て、誤分類が最小になるように、スポッティングに用い
る閾値を調整することを特徴としている。

【００７２】このように、第１，第２，第３の実施形態
では、装置の使用者が入力した音声の特徴パターンを用
いて、認識結果として判定された語に対応する音声認識
モデルのモデルパラメータおよび／またはスポッティン
グに用いる閾値を調整するので、認識モデルのパラメー
タを使用者の特性や使用環境に適応し、認識精度を改善
することができる。

【００７３】また、第１の実施形態の音声認識装置にお
いて、入力した音声に対して認識結果として判定された
語が正解の場合に、第２の実施形態および／または第３
の実施形態の処理を行なうことができる。この際、認識
結果として判定された語を規則音声合成処理により応答
することができる。このとき、応答が正解を表す内容で
あった場合は、処理の開始命令を表す入力音声パターン
を音声認識し、当該の命令が受理された場合に、第１，
第２または第３の実施形態の処理を行なうことができ
る。これにより、認識装置を使用しながら話者適応を逐
次的に行ない、利用者の負担を軽減することが可能であ
る。

【００７４】また、第１，第２または第３の実施形態の
音声認識装置において、調整対象となる音声認識モデル
のパラメータを別の記憶領域に確保した後に、当該パラ
メータの調整を行なうことができる。

【００７５】また、第１，第２または第３の実施形態の
音声認識装置において、調整された音声認識モデルのパ
ラメータを上記別の記憶領域に確保しておいたパラメー
タに書き換えることもできる。これにより、使用話者や
使用環境が変化しても安定した認識精度を得ることがで
きる。

【００７６】なお、上述した説明からわかるように、ス
ポッティングの得点は数３により計算される。数３の右
辺Ｃ_θ(ｘ，ω^s)をさらに展開していくと最終的に数１
０に示した部分得点を計算することになる。数１０に
は、閾値Ｔ_n ^αが組み込まれており、従って、閾値はス
ポッティングの得点に反映される。閾値がスポッティン
グの得点に、どのように影響するのかを図６に基づいて
説明する。

【００７７】図６はある認識モデルで音声パターンを測
ったときに、その局所得点が時間とともに変化する様子
を示す図である。図６において、横軸線は符号の境界
で、上にあれば正であり、下の場合は負である。理想的
なスポッティングとは、符号が正である間を検出した区
間とし、得点をその区間の面積で算出することになる。
図６では、一つの認識モデルの例しか示していないが、
実際には認識候補となるモデルの数だけ音声パターンを
測ることになる。これらの中から最も得点の高い候補が
認識結果になる。ここで、閾値を変化させてみる。閾値
が比較的大きいＴｈでは、スポッティングが行なわれる
が、小さいＴｈ’の場合には、得点が正になる領域がな
いため、検出されない。従って、閾値が大きすぎると不
必要な区間も検出する「湧き出し」と呼ばれる問題が起
こり、小さすぎると実際には正解があるのに反応しない
「拒絶」の問題が起こる。閾値を適切に調整することは
非常に重要であり、本発明では、この閾値の調整を認識
処理の間に行なう。すなわち、調整手段９は、長い区間
の候補が正解であった場合には、閾値をさらに大きくし
てより得点が大きくなるように調整する。逆に短い区間
の候補が正解であった場合には、閾値を小さくして長い
区間の候補が湧き出してこないようにしている。このよ
うに、閾値は、スポッティングにおいて(得点の計算に
おいて)、上述したように用いられている。

【００７８】また、上述した本発明の音声認識装置およ
び音声認識方法は、例えばワークステーションなどで実
現することも可能であり、ハードウェアとしては、例え
ば図７に示すように、全体を制御するＣＰＵ３１、ＣＰ
Ｕ３１の制御プログラムなどが記憶されているＲＯＭ３
２、ＣＰＵ３１の作業領域として使用されるＲＡＭ３
３、データを記憶しておくハードディスク３４などを備
えていればよい。

【００７９】また、このような音声認識装置としての機
能は、例えばソフトウェアパッケージ(ＣＤ−ＲＯＭな
どの情報記録媒体)の形態で提供することができる。す
なわち、本発明は、ワークステーション、パーソナルコ
ンピュータなどの汎用計算機に情報記録媒体に記録され
たプログラムを読み込ませて、計算機のもつハードウェ
ア構成で、所定の処理を実行することが可能である。記
録媒体は、ＣＤ−ＲＯＭに限られるものではなく、ＲＯ
Ｍ、ＲＡＭ、フレキシブルディスク、メモリカードなど
が用いられてもよい。媒体に記録されたプログラムは、
ハードウェアシステムに組み込まれている記憶装置、例
えばハードディスクにインストールすることにより、こ
のプログラムを実行して音声認識装置としての機能を実
現することができる。

【００８０】また、上述の例において、状態遷移モデル
とは、いくつか提案されている音声認識モデルのうちの
１つを指し、本発明において、認識モデルとは、状態遷
移モデルのみならず、他の認識モデルも含む広義な語と
して用いられている。

【００８１】

【発明の効果】以上に説明したように、請求項１乃至請
求項９記載の発明によれば、認識モデルのパラメータを
使用者の特性や使用環境に適応し、認識精度を改善する
ことができる。

【図面の簡単な説明】

【図１】本発明に係る音声認識装置の構成例を示す図で
ある。

【図２】有限状態網の例を示す図である。

【図３】パラメータ調整手段の具体例を示す図である。

【図４】図１の比較器の構成例を示す図である。

【図５】図１のパラメータ記憶手段の構成例を示す図で
ある。

【図６】認識モデルで音声パターンを測ったときに、そ
の局所得点が時間とともに変化する様子を示す図であ
る。

【図７】本発明に係る音声認識装置のハードウェア構成
例を示す図である。

【符号の説明】

１特徴分析手段２認識モデル設計手段３パラメータ記憶手段３−１，３−２パラメータ記憶領域４言語記憶手段５有限状態網変換手段６認識モデル選択手段７スポッティング手段８，８−１，８−２比較器９パラメータ調整手段１１誤分類測度計算器１２損失計算器１３モデルパラメータ修正量計算器１４モデルパラメータ更新器１５閾値修正量計算器１６閾値更新器２０−１，２０−２有限状態網記憶手段３１ＣＰＵ３２ＲＯＭ３３ＲＡＭ３４ハードディスク５１音声入出力装置５２電話番号記憶手段５３発呼装置１００電話機

Claims

【特許請求の範囲】

【請求項１】入力音声の特徴を分析する特徴分析手段
と、音声認識モデルを設計する認識モデル設計手段と、
有限状態網の弧に対応づけられた音声認識モデルがパラ
メータの形で記憶されるパラメータ記憶手段と、入力し
た言語を記憶する言語記憶手段と、言語記憶手段に記憶
された言語を有限状態網に変換する手段と、前記有限状
態網を記憶する有限状態網記憶手段と、前記有限状態網
の弧に対応づけられた前記音声認識モデルをパラメータ
記憶手段からパラメータの形で選択取得する認識モデル
選択手段と、前記特徴分析手段により得られた特徴パタ
ーン中に重要単語が存在する可能性を、前記認識モデル
選択手段によって選択された音声認識モデルで測るスポ
ッティング手段と、音声認識モデルについてのパラメー
タを調整するパラメータ調整手段とを備えており、前記
音声認識モデルについてのパラメータは、認識モデルの
モデルパラメータおよび／またはスポッティングに用い
る閾値であり、前記パラメータ調整手段は、装置の使用
者が入力した音声の特徴パターンを用いて、認識結果と
して判定された語に対応する音声認識モデルのモデルパ
ラメータおよび／またはスポッティングに用いる閾値を
調整することを特徴とする音声認識装置。
【請求項２】請求項１記載の音声認識装置において、
前記パラメータ調整手段は、入力された音声の特徴パタ
ーンに対し、認識結果として判定された語に対応する前
記音声認識モデルで測った得点と、競合する語に対応す
る他の音声認識モデルで測った得点との誤分類測度から
得られた損失を一次微分可能な連続関数で表現し、該損
失の勾配を求めることによって、誤分類が最小になるよ
うに、前記音声認識モデルのモデルパラメータを調整す
ることを特徴とする音声認識装置。
【請求項３】請求項１記載の音声認識装置において、
前記パラメータ調整手段は、入力された音声の特徴パタ
ーンに対し、認識結果として判定された語に対応する前
記音声認識モデルで測った得点と、競合する語に対応す
る他の音声認識モデルで測った得点との誤分類測度から
得られた損失を一次微分可能な連続関数で表現し、該損
失の勾配を求めることによって、誤分類が最小になるよ
うに、スポッティングに用いる閾値を調整することを特
徴とする音声認識装置。
【請求項４】音声認識モデルを認識モデル設計手段で
設計し、認識モデルについての所定のパラメータをパラ
メータ記憶手段に記憶し、また、入力した言語を有限状
態網に変換して、前記有限状態網を記憶し、前記有限状
態網の弧に対応づけられた前記音声認識モデルをパラメ
ータ記憶手段からパラメータの形で認識モデル選択手段
により選択取得し、入力音声の特徴を分析する特徴分析
手段により得られた特徴パターン中に重要単語が存在す
る可能性を、前記認識モデル選択手段によって選択され
た音声認識モデルでスポッティングにより測るようにな
っており、音声認識モデルについてのパラメータは、認
識モデルのモデルパラメータおよび／またはスポッティ
ングに用いる閾値であり、装置の使用者が入力した音声
の特徴パターンを用いて、認識結果として判定された語
に対応する音声認識モデルのモデルパラメータおよび／
またはスポッティングに用いる閾値を調整することを特
徴とする音声認識方法。
【請求項５】請求項４記載の音声認識方法において、
前記パラメータの調整は、入力された音声の特徴パター
ンに対し、認識結果として判定された語に対応する前記
音声認識モデルで測った得点と、競合する語に対応する
他の音声認識モデルで測った得点との誤分類測度から得
られた損失を一次微分可能な連続関数で表現し、該損失
の勾配を求めることによって、誤分類が最小になるよう
に、前記音声認識モデルのモデルパラメータを調整する
ことによってなされることを特徴とする音声認識方法。
【請求項６】請求項４記載の音声認識方法において、
前記パラメータの調整は、入力された音声の特徴パター
ンに対し、認識結果として判定された語に対応する前記
音声認識モデルで測った得点と、競合する語に対応する
他の音声認識モデルで測った得点との誤分類測度から得
られた損失を一次微分可能な連続関数で表現し、該損失
の勾配を求めることによって、誤分類が最小になるよう
に、スポッティングに用いる閾値を調整することによっ
てなされることを特徴とする音声認識方法。
【請求項７】入力音声の特徴を分析する特徴分析手段
と、音声認識モデルを設計する認識モデル設計手段と、
所定のパラメータを記憶するパラメータ記憶手段と、入
力した言語を記憶する手段と、言語を有限状態網に変換
する手段と、前記有限状態網を記憶する手段と、前記有
限状態網の弧に対応づけられた前記音声認識モデルをパ
ラメータ記憶手段からパラメータの形で選択取得する認
識モデル選択手段と、前記特徴分析手段により得られた
特徴パターン中に重要単語が存在する可能性を、前記認
識モデル選択手段によって選択された音声認識モデルで
測るスポッティング手段と、音声認識モデルについての
パラメータを調整するパラメータ調整手段とを備えてお
り、前記音声認識モデルについてのパラメータは、認識
モデルのモデルパラメータおよび／またはスポッティン
グに用いる閾値であり、前記パラメータ調整手段は、装
置の使用者が入力した音声の特徴パターンを用いて、認
識結果として判定された語に対応する音声認識モデルの
モデルパラメータおよび／またはスポッティングに用い
る閾値を調整することを特徴とする音声認識装置を記録
した記録媒体。
【請求項８】請求項７記載の記録媒体において、前記
パラメータ調整手段は、入力された音声の特徴パターン
に対し、認識結果として判定された語に対応する前記音
声認識モデルで測った得点と、競合する語に対応する他
の音声認識モデルで測った得点との誤分類測度から得ら
れた損失を一次微分可能な連続関数で表現し、該損失の
勾配を求めることによって、誤分類が最小になるよう
に、前記音声認識モデルのモデルパラメータを調整する
ことを特徴とする音声認識装置を記録した記録媒体。
【請求項９】請求項７記載の記録媒体において、前記
パラメータ調整手段は、入力された音声の特徴パターン
に対し、認識結果として判定された語に対応する前記音
声認識モデルで測った得点と、競合する語に対応する他
の音声認識モデルで測った得点との誤分類測度から得ら
れた損失を一次微分可能な連続関数で表現し、該損失の
勾配を求めることによって、誤分類が最小になるよう
に、スポッティングに用いる閾値を調整することを特徴
とする音声認識装置を記録した記録媒体。