JP2001175276A

JP2001175276A - 音声認識装置及び記録媒体

Info

Publication number: JP2001175276A
Application number: JP35907699A
Authority: JP
Inventors: Norihide Kitaoka; 教英北岡; Ichiro Akahori; 一郎赤堀
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 1999-12-17
Filing date: 1999-12-17
Publication date: 2001-06-29

Abstract

(57)【要約】【課題】認識結果に対する信頼度を適切に評価可能な指
標としての正解確率を得ることで、アプリケーション構
築を容易ならしめる音声認識装置を提供する。【解決手段】正解確率推定部１４は、パターンマッチン
グ部１３から「信頼度評価用特徴量」として、単語と音
節連接モデルの尤度比や、単語内の音節の継続時間の分
散に基づいて認識結果の正解確率の推定を行い、出力す
る。したがって、対話制御部５０は、パターンマッチン
グ部１３から出力された認識結果に対応する正解確率を
正解確率推定部１４から取得できる。つまり対話制御部
５０は、例えば正解確率が９５％の認識結果であれば確
信して対話を進めるが、５０％ならば確認を求める、と
いった誤認識を考慮した対処を行うことができる。ま
た、信頼度として正解確率を用いているので、アプリケ
ーション構築する際、信頼度を直観的に理解できるとい
う効果もある。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識結果に対
する絶対的な信頼度を推定することによって、その認識
結果を用いる外部のアプリケーション用装置、あるいは
音声認識装置内部にてその信頼度に基づく評価を行える
ようにする技術に関する。

【０００２】

【従来技術】音声言語の認識と理解の能力は、人間の脳
の高次機能の１つである。人間にとってはあまりにも簡
単であり、当然のことであるので、コンピュータなどを
利用すれば、音声を自動的に認識・理解することもそう
難しいことではないと考えられがちである。しかし、こ
のような大脳の高次機能を現在のコンピュータによって
実現することは、一般に簡単でない。コンピュータの性
能が十分でないこともその一因であるが、それ以上に、
コンピュータにそのような機能を持たせるには何をどの
ようにすればよいのか、そのための確実な方法が知られ
ていないことである。

【０００３】したがって、従来の音声認識では、その認
識結果があやふやな認識処理（例えばノイズがあって非
常に判りにくい声を認識した結果である、など）によっ
て得られたものか、あるいは確信を持って得られた結果
なのか、を判定できない。また、認識語彙にない発声を
認識した場合に、「判らない」と応えることができず、
何らかの認識結果を返してしまうという問題がある。

【０００４】これに対して、Ｓｕｋｋａｒらは、認識時
に得られる確からしさ（尤度）の比を信頼度として用い
て語彙外単語の認識結果をリジェクトする方法を提案し
ている［参考文献１…R.A.Sukkar and C.-H.Lee.``Voca
bulary independent discriminative utterance verihi
cation for nonkeyword rejection in subword basedsp
eech recognition''，IEEE Trans．on Speech and Audi
o Processing, Vol.4，No.6, pp.420-429,1996.］。

【０００５】

【発明が解決しようとする課題】しかし、この手法にあ
っては、尤度比が大きいほど信頼度が低く、逆に尤度比
が小さいほど信頼度が高いこと（つまり、信頼度の相対
的な高低関係）は判定できるが、信頼度の絶対的な高
さ、つまり、『どの程度の値がどの程度の信頼度となる
か』に関しては何ら言及していない。このように、その
数値を適切に評価するための意味付けがなされていない
ので、音声認識の結果に基づくアプリケーション処理を
考えた場合、そのアプリケーション処理においては、ど
のように対処してよいかが判らなくなる。

【０００６】そこで、本発明は、認識結果に対して信頼
度を適切に評価可能な指標としての正解確率を付与する
ことによって、アプリケーション構築を容易にすること
が可能な音声認識装置を提供することを目的とする。

【０００７】

【課題を解決するための手段及び発明の効果】上記第１
の目的を達成するためになされた請求項１に記載の音声
認識装置は、音響分析手段、特徴抽出手段及びパターン
マッチング手段を備えており、外部から入力された音声
を所定周期で音響的に分析し、その分析された結果を基
に特徴パラメータを抽出し、その抽出された特徴パラメ
ータを予め記憶されている複数の比較対象パターンと比
較して一致度合いの高いものを認識結果とする。そし
て、信頼度推定手段が、音響分析手段、特徴抽出手段あ
るいはパターンマッチング手段の少なくとも何れかにお
いて得られる所定の信頼度評価用特徴量に基づき、認識
結果の絶対的な信頼度を推定する。

【０００８】従来技術における問題点に対しては次のよ
うな分析ができる。つまり、パターンマッチングによっ
て得られる尤度は、比較対象パターンとの一致度合いを
示すものであり、あくまで相対的なものである。つま
り、尤度比が一番大きなものを選択したとしても、それ
は相対的に一致度合いが高いだけであり、実際に入力さ
れた音声に対してその認識結果がどの程度正しいかに関
しては、適切な評価ができない。そこで、本発明では、
認識結果に対する信頼度を絶対的な観点で評価可能な指
標としての「信頼度」を、音響分析手段、特徴抽出手段
あるいはパターンマッチング手段の少なくとも何れかに
おいて得られる所定の信頼度評価用特徴量に基づいて推
定するようにしたのである。

【０００９】このような信頼度推定手段によって推定し
た信頼度をどのように用いるかについては、大きく分け
て次の（Ａ），（Ｂ）に示す２つが考えられる。（Ａ）推定された信頼度を認識結果と共に出力する。例
えば請求項２に示すように、パターンマッチング手段は
認識結果を外部へ出力し、信頼度推定手段はパターンマ
ッチング手段から出力される認識結果に対応する信頼度
を推定して外部へ出力する。したがって、この音声認識
装置からの認識結果を基に動作するアプリケーション用
装置（例えばナビゲーション装置）があった場合には、
出力された認識結果と信頼度に基づき動作を変えること
ができる。例えば信頼度が低いから採用しない、とか、
信頼度が高ければ認識直後にコマンドを実行するが、低
い場合はユーザに確認を求めてからコマンドを実行す
る、といったことである。

【００１０】この場合は、音響分析手段、特徴抽出手段
はもちろん、パターンマッチング手段に関しても、従来
と同様の構成でよく、信頼度推定手段が、それらの各手
段から信頼度評価用情報を得られるようにすればよいだ
けである。（Ｂ）推定された信頼度を用いて、パターンマッチング
手段における認識結果を検証する。

【００１１】これにはさらに次の、に示す２つの検
証手法が考えられる。１つ目の検証手法は、例えば請求項３に示すものであ
る。つまり、パターンマッチング手段は、認識した最終
結果を無条件で出力するのではなく、信頼度推定手段に
より推定された信頼度に基づく検証を行う。そして、そ
の検証の結果、信頼度が低い場合には認識結果を外部へ
出力しないようにするのである。これによって、アプリ
ケーション用装置における誤動作を防止できる。

【００１２】２つ目の検証手法は、例えば請求項４に
示すものである。つまり、パターンマッチング手段は、
認識途上の中間結果に対して、信頼度推定手段によって
推定された信頼度に基づく検証を行う。そして、その検
証の結果、信頼度が低い場合には中間結果を棄却するの
である。具体例に基づいてさらに説明する。前提とし
て、例えば「愛知県刈谷市昭和町」という地名を認識す
る場合、「愛知県刈谷市昭和町」という単位の認識結果
に尤度を付与することを考えられる。このようにした場
合には、「愛知県刈谷市昭和町」と「秋田県刈谷市昭和
町」という２つの認識結果について、前者の尤度の方が
後者よりも大きいので、前者を認識結果として出力す
る、といった具合である。これに対して、本手法では、
例えば「愛知県」、「刈谷市」、「昭和町」とというよ
うな相対的に短い検証単位で、信頼度による検証を行
う。したがって、例えば「秋田県」という中間結果に対
する検証の結果、その中間結果を棄却することとなる。

【００１３】このようにすることで、計算量を削減し、
且つ誤りを出力してしまうことを防止できる。なお、必
ずしも都道府県市町村という単位で区切る必要はなく、
所定時間で区切ってもよい。その場合「あいちけんか」
の段階で検証単位となることもある。計算量の削減につ
いて補足する。例えば、愛知県…ではじまる認識結果候
補が１０個、秋田県…ではじまる認識結果候補が１０個
得られたとする。それぞれに対応する尤度に基づいて、
出力する認識結果を選択するのが従来手法である。この
場合には、２０個の認識結果候補を得るための処理を実
行しなくてはならない。それに対して、秋田県と認識し
た段階でその中間結果を棄却すれば、結果的には、秋田
県…ではじまる１０個分の候補を得る処理が早い段階で
終了する。したがって、計算量が減少する。

【００１４】なお、実際には、単に愛知県と秋田県とい
う認識内容の違いだけでなく、認識段階の違いも存在す
る。例えば実際には「あいちけんか」まで認識されてい
るはずの場合に、正しく「あいちけんか」が中間結果と
して得られると共に、「あいちけん」までしか認識され
ていない中間結果も得られる可能性がある。この場合に
は、「あいちけん」という中間結果を棄却することで、
やはり、計算量の削減及び誤り出力防止の効果が得られ
る。

【００１５】ところで、信頼度としては、請求項５に示
すように、認識結果が正解である確率（正解確率）に基
づいて推定することが考えられる。これは、アプリケー
ション構築する際、信頼度を直観的に理解できる意味付
けがある方が望ましいと考えられるため、そのような直
観的に理解できる意味付けの一例として「正解確率」と
いう概念を採用したのである。例えば対話システムを考
えた場合、請求項２のように認識結果と信頼度である正
解確率とを対応付けて出力すれば、例えば正解確率が９
５％の認識結果であれば確信して対話を進めるが、５０
％ならば確認を求める、といった誤認識を考慮した対処
を行うことができる。

【００１６】この正解確率に関しては、例えば請求項６
に示すように、信頼度評価用特徴量に対する正解確率
を、近似関数を用いて表現することが考えられる。関数
表現にした場合には、自乗誤差によって近似度合いの良
さが定義でき、関数評価が可能となる。この近似関数と
しては、発明の実施形態にて説明するようなシグモイド
関数などが考えられる。

【００１７】続いて、信頼度評価用特徴量について説明
する。この信頼度評価用特徴量は、音響分析手段、特徴
抽出手段あるいはパターンマッチング手段の何れかにお
いて得られるものであるため、各手段にて得られる信頼
度評価用特徴量の具体例を説明する。なお、これらの具
体例に限定されないことは当然である。

【００１８】（１）パターンマッチング手段にて得られ
る信頼度評価用特徴量について例えば請求項７に示すように、尤度の比又は音節継続時
間長に基づく特徴量の少なくとも何れか一方であること
が考えられる。ここで、「尤度の比」とは、ある単語の
音声認識結果の尤度と、別に用意した対抗モデルの尤度
との比（一般的には、対数尤度における差が用いられ
る。）である。この尤度比を用いた信頼度（正解確率）
の推定例については、発明の実施形態の欄にて説明す
る。

【００１９】また、「音節継続時間長に基づく特徴量」
としては、例えば請求項８に示すように、音節継続時間
長そのもの、音節継続時間長の単語内分散又は音節継続
時間長の単語内平均などが考えられる。この音節継続時
間長に基づく特徴量を用いた信頼度（正解確率）の推定
例については、「音節継続時間長の単語内分散」を用い
た例を発明の実施形態の欄にて説明する。

【００２０】（２）音響分析手段にて得られる信頼度評
価用特徴量について例えば請求項９に示すように、音響分析自体の成功度合
いを示す特徴量であることが考えられる。そして、この
「音響分析自体の成功度合いを示す特徴量」としては、
請求項１０に示すように、音響分析手段にて得られるノ
イズ度合いが考えられる。これは、成功度合いを間接的
に示す特徴量である。また、請求項１１に示すように、
音響分析手段がＬＰＣ（Linear Predictive Coding）を
用いて音響分析をする場合には、ＬＰＣ残差を、音響分
析自体の成功度合いを示す特徴量としてもよい。

【００２１】（３）特徴抽出手段にて得られる信頼度評
価用特徴量について例えば請求項１２に示すように、特徴抽出手段がケプス
トラム分析法によって特徴パラメータを抽出する場合に
は、ケプストラム係数を信頼度評価用特徴量とすること
が考えられる。

【００２２】なお、請求項１３に示すように、以上説明
した音声認識装置における信頼度推定手段をコンピュー
タシステムにて実現する機能は、例えば、コンピュータ
システム側で起動するプログラムとして備えられる。こ
のようなプログラムの場合、例えば、フロッピーディス
ク、光磁気ディスク、ＣＤ−ＲＯＭ、ＤＶＤ、ハードデ
ィスク等の記録媒体に記録し、必要に応じてコンピュー
タシステムにロードして起動することにより用いること
ができる。この他、ＲＯＭやバックアップＲＡＭを記録
媒体として前記プログラムを記録しておき、このＲＯＭ
あるいはバックアップＲＡＭをコンピュータシステムに
組み込んで用いても良い。

【００２３】また、請求項１４に示すように、上述の信
頼度推定手段に加え、パターンマッチング手段としても
コンピュータシステムを機能させるためのプログラムを
記録媒体に記録してもよいし、さらには、以上説明した
音声認識装置における各手段をコンピュータシステムに
て実現する機能を全て記録媒体に記録するようにしても
よい。

【００２４】推定された信頼度の用い方として、推定さ
れた信頼度を認識結果と共に出力する点を述べた（上述
の（Ａ）参照）。この場合には、音響分析手段、特徴抽
出手段はもちろん、パターンマッチング手段に関して
も、従来と同様の構成でよく、信頼度推定手段が、それ
らの各手段から信頼度評価用情報を得られるようにすれ
ばよいだけである。したがって、このような用い方をす
る場合には、請求項１３に示すように、信頼度推定手段
をコンピュータシステムにて実現する機能を記録媒体に
記録し、その記録媒体を、音響分析手段、特徴抽出手段
及びパターンマッチング手段を備える（例えば従来の）
音声認識装置に追加する、といった適用方法が考えられ
る。

【００２５】

【発明の実施の形態】［第１実施形態］図１は本発明の
第１実施形態の音声認識装置１０の概略構成を示すブロ
ック図である。本音声認識装置１０は、マイクロフォン
３０を介して入力された音声を認識し、その認識結果及
び後述する正解確率を、アプリケーション用装置として
の対話制御部５０へ出力するものである。

【００２６】音声認識装置１０は、音響分析部１１と、
特徴抽出部１２と、パターンマッチング部１３と、正解
確率推定部１４とを備えている。なお、これら音響分析
部１１、特徴抽出部１２、パターンマッチング部１３、
正解確率推定部１４は、それぞれ「音響分析手段」、
「特徴抽出手段」、「パターンマッチング手段」、「正
解確率推定手段」に相当する。なお、請求項２に記載し
たパターンマッチング手段に相当するのがこの第１実施
形態のパターンマッチング部１３である。

【００２７】音響分析部１１は、マイクロフォン３０を
介して入力されたアナログ音声信号を例えば１２ＫＨｚ
のサンプリング周波数でデジタル信号に変換し、その変
換した信号をオーバーラップさせながら所定の切り出し
間隔で順次所定の長さのフレーム毎に切り出す。そし
て、フレーム毎の入力音声信号に対してフーリエ変換を
行なうことによって入力音声信号のスペクトラムを求
め、さらにスペクトラムの振幅の２乗を計算してパワー
スペクトラムを求める。そして、そのパワースペクトラ
ムに対して逆フーリエ変換を施して自己相関係数を求
め、この自己相関係数を用いてＬＰＣ分析を行い、ＬＰ
Ｃ係数を計算する。ＬＰＣ分析は音声信号処理の分野で
は一般的な分析手法であり、例えば、古井「ディジタル
音声処理」（東海大学出版会）などに詳しく説明されて
いる。本実施形態においてはこのＬＰＣ分析に自己相関
法を用いており、自己相関係数を用いてｍ次のＬＰＣ係
数を計算する。このＬＰＣ係数は、特徴抽出部１２へ順
次送られる。

【００２８】特徴抽出部１２は、音響分析部１１から送
られてきたＬＰＣ係数を基に、フレーム毎のスペクトル
上の特徴パラメータとしてのＬＰＣケプストラム係数を
計算する。そして、このＬＰＣケプストラム係数はパタ
ーンマッチング部１３へ送られる。

【００２９】パターンマッチング部１３は、予め計算し
ておいた認識対象語彙の標準パターン（特徴パラメータ
系列）と、特徴抽出部１２から送られきたＬＰＣケプス
トラム係数との間で類似度計算を行なう。これらは周知
のＨＭＭ（隠れマルコフモデル）などによって、この時
系列データをいくつかの区間に分け、各区間が辞書デー
タとして格納されたどの単語に対応しているかを求め
る。そして、各認識対象語彙のうち、計算された類似度
が高い上位所定数の語彙（最も高い１つの語彙だけでも
よい。）を認識結果として出力する。ここでは、類似度
を判定する上で、尤度の比を用いている。

【００３０】しかし、パターンマッチングによって得ら
れる尤度は、比較対象パターンである認識対象語彙との
一致度合いを示すものであり、あくまで相対的なもので
ある。つまり、尤度比が一番大きなものを選択したとし
ても、それは相対的に一致度合いが高いだけであり、実
際に入力された音声に対してその認識結果がどの程度正
しいかに関しては、適切な評価ができない。つまり、尤
度比を適切に評価するための意味付けがなされていない
ので、認識結果を受けた対話制御部５０では、どのよう
に対処してよいかが判らなくなる可能性がある。

【００３１】そこで、本実施形態では、正解確率推定部
１４により、パターンマッチング部１３にて得られた認
識結果に対して信頼度を適切に評価可能な指標としての
正解確率を推定し、対話制御部５０へ出力するようにし
た。つまり、対話制御部５０は、音声認識装置１０か
ら、認識結果を得ると共に、その認識結果に対応する正
解確率も得ることができる。

【００３２】この正解確率推定部１４は、パターンマッ
チング部１３から「信頼度評価用特徴量」として、単語
と音節連接モデルの尤度比や、単語内の音節の継続時間
の分散に基づいて認識結果の正解確率の推定を行う。そ
れぞれ単独に用いる場合と、両方を同時に用いた場合を
考える。

【００３３】信頼度はその閾値処理によって正解と誤認
識がよく分離できる方が精度がよいと考えられる。そこ
で正解確率に閾値処理をして、誤認識のリジェクション
を試みることで分離度を評価する。また、語彙外単語の
リジェクションに応用した場合の精度も評価する。［正解確率に基づく信頼度］［正解確率］ある認識結果Ｗが正解である場合をＣ
（Ｗ）＝１、誤認識である場合をＣ（Ｗ）＝０と表現す
る。またＷに対するある特徴量ｘの値をｘｗとする。こ
のとき、認識結果Ｗの特徴量ｘの値がｘｗであった場合
にＷが正解である確率、すなわち、ｐ（Ｃ（Ｗ）＝１ | ｘ＝ｘｗ）を考える。この値は、特徴量ｘ＝ｘｗが得られた場合に
結果Ｗがどの程度信頼できるか、直感的にわかりやすく
表現できていると考える。

【００３４】［正解確率の表現とその推定］特徴量ｘの
値ｘｗが得られた場合に、Ｗの正解確率を知る方法を考
える。一般的には、多くの正解/誤認識のサンプルか
ら、あらゆる特徴量ｘの値に対する正解確率を事前に調
べておくことになる。しかし、ｘが連続値である場合、
特定の値に対して多くのサンプルを得て確率を求めるこ
とは不可能である。

【００３５】そこで、正解確率はｘの関数ｆ（ｘ）に従
っている、すなわち、ｐ（Ｃ（Ｗ）＝１ | ｘ＝ｘｗ）＝ｆ（ｘ）であると仮定する。この場合、正解確率を事前に推定す
る問題は、ｆ（ｘ）のパラメータを推定する問題とな
る。

【００３６】パラメータ推定に用いる認識結果のサンプ
ルを｛Ｗ1，Ｗ2，……，ＷN｝としたとき、それらに対
応する特徴量を｛ｘｗ1，ｘｗ2，……，ｘｗN｝とし、
それらが正解か誤認識かを表現した列を｛Ｃ（Ｗ1），
Ｃ（Ｗ2），……，Ｃ（ＷN）｝（１：正解、０：誤認
識）とする。このとき、

【００３７】

【数１】

【００３８】つまり、関数とサンプルの正解/誤認識の
自乗誤差により、その関数を評価する。［正解確率の推定例］大語彙単語認識実験結果に対し
て、正解確率の推定を行った。認識実験は大語彙認識シ
ステム［参考文献８参照］を用いた。タスクはナビゲー
ションシステムで、認識語彙数は、全国の地名・施設名
約１８万とナビゲーションシステムのコマンド約２００
である。音声サンプルは走行中もしくは停車中の車室内
で録音した地名やナビゲーションシステムのコマンドの
発声（１１６２サンプル）である。認識率は８０％であ
った。

【００３９】［推定例１：尤度比に基づく正解確率］認
識された単語の正解確率を求めることを考える。ある単
語の音声認識結果の尤度と、別に用意した対抗モデルの
尤度との比（対数尤度における差）を信頼度の尺度とす
ることがよく行われる［参考文献１，６参照］。尤度比
は、正解と、誤認識もしくは語彙外単語発声の認識結果
をよく分離できる尺度である。ここでは対抗モデルとし
て、日本語の音節が自由に接続できる音節連接モデル
［参考文献２参照］を用いた。すなわち、認識結果の対
数尤度ｌw と、音節連接モデルの対数尤度ｌsc、音節の
継続時間Ｔとして、ｘｗ＝（ＬＬＲ＝ｌw−ｌsc）／Ｔのように、対数尤度の差を時間正規化したものとする。

【００４０】図２（ａ）に、尤度比軸方向に１０区間に
分割した認識結果のヒストグラムを示す。各区間の正解
数（Ｎｃ）、誤認識数（Ｎｉ）をそれぞれ実線、破線で
示した。図２（ｂ）の棒グラフは、各区間における正解
確率Ｎｃ／（Ｎｃ＋Ｎｉ）である。上述した［正解確率
の表現とその推定］の欄における正解確率の関数推定
は、この棒グラフを連続的に表現できる関数を推定する
ことに対応する。この図から、尤度比の値に対して単調
増加な関数ｆ（ｘ）を仮定できると考えられる。

【００４１】そこで、関数ｆ（ｘ）をシグモイド関数

【００４２】

【数２】

【００４３】と仮定し、ｆ（ｘ）とＣ（Ｗn）との誤差
を式１として、これを最小化するパラメータａ，ｂを推
定する。図２（ｂ）に、（ｘｗn，Ｃ（Ｗn））を○で、
推定された関数ｆ（ｘ）を実線でプロットした。関数に
よって棒グラフで示された値がおおよそ求められること
がわかり、シグモイド関数による表現は適切であると考
えられる。

【００４４】これまでにも、尤度比などの特徴量を、そ
のダイナミックレンジを小さく押えたり［参考文献５参
照］、確率的に用いるため［参考文献６参照］に、シグ
モイド関数で変換する方法は提案されている。パラメー
タ推定の評価関数として式１を用いることによって、正
解確率としての意味付けがなされる。

【００４５】［推定例１：音節継続時間の単語内分散に
基づく正解確率］日本語では、短い時間範囲（例えば単
語中）において、その中に含まれる音節の継続時間はほ
ぼ等しい。つまり、単語中の音節の継続時間の分散は小
さい。しかし、一般的なＨＭＭによる認識においては、
継続時間について考慮し難い。継続時間を考慮して認識
精度を向上させる方法は多くあるが、一般には音節や音
韻などのサブワード単位の最短・最長継続時間で打ち切
ったり、継続時間の分布を事前に求めておいて、その確
率値を尤度計算時にマージするなどの方法であり、単語
内などのサブワード間の継続時間の関係は考慮されな
い。そのため、モデルが部分的に伸縮することによって
音声と比較的よくマッチングしてしまい、誤認識となる
ことがある。

【００４６】そこで、音節継続時間の単語内分散を、正
解と誤認識の分離の尺度とすることを考える。認識結果
のViterbiパスを調べることによって単語内の音節の継
続時間の標準偏差を求め、尤度比の場合と同様に、標準
偏差軸方向に分割して、ヒストグラムと区間毎の正解確
率を、それぞれ図３（ａ）及び（ｂ）に、棒グラフで示
した。

【００４７】図３（ｂ）の棒グラフより、標準偏差に対
して単調減少な関数ｆ（ｘ）を仮定できると考えられ
る。この場合にも式２のシグモイド関数を仮定し、式１
で評価して、式２中の定数ａ，ｂを推定した。図３
（ｂ）に、（ｘｗn，Ｃ（Ｗn））を○で、推定された関
数ｆ（ｘ）を実線でプロットした。やはり、正解確率を
よく表現できていると考えられる。［複数の特徴量を用いた正解確率］これまでは、正解確
率を対数尤度比もしくは継続時間の単語内分散に基づい
て定義したが、これら二つを同時に用いたほうが分離度
が高くなることが考えられる。そこで、この二つの特徴
量を用いて正解確率を定義することを考える。

【００４８】二つの特徴量で張られる平面をメッシュで
区切り、各メッシュにおける正解数および誤認識数を元
に正解確率を求めてプロットしたものが図４である。こ
の図４を関数で表現することを考える。２つの特徴量の
値をｘ１，ｘ２としたとき、正解確率の関数として、

【００４９】

【数３】

【００５０】を仮定する。ここで、ｇ(ｘ１，ｘ２）と
して、次のような簡単な関数を用いた。線形結合ｇ(ｘ１，ｘ２）)＝ａ1ｘ1＋ａ2ｘ2＋ａ3ｘ3 双一次結合ｇ(ｘ１，ｘ２）)＝ａ1ｘ1ｘ2＋ａ2ｘ1＋ａ3
ｘ2＋ａ4 これらの係数ａkを式１を最小化する基準で推定した。
それぞれの場合について推定された曲面を図５に示す。
つまり、図５（ａ）は対数尤度比と音節継続時間の単語
内分散の線形結合を示しており、図５（ｂ）は同じく双
一次結合に基づく正解確率の表現を示している。

【００５１】認識結果が正解である場合、それぞれの単
独の特徴量から得られる正解確率は両方高くなると考え
られる。そこで、２つの特徴量単独の正解確率ｆ1（ｘ
1），ｆ2（ｘ2）のＡＮＤ条件の積で表せることが考え
られる。ここでは、重み付き相乗平均ｆ（ｘ1，ｘ2）＝ｆ1（ｘ1）^w・ｆ2（ｘ2）^1-w によって、二つの特徴量に基づく正解確率を表現するこ
とを試みる。ｗ＝０．５の場合を図６に示す。複数の特
徴量を組み合わせて信頼度を得る方法はいくつか提案さ
れている［参考文献３，４，７参照］が、これらにおい
ても信頼度の積や最大値などの、ＡＮＤ条件に近い結合
を用いるほうが和を用いるよりもよい結果であるとされ
ている。

【００５２】以上の正解確率の表現法によって、正解確
率をどの程度正確に表現できているかを知るため、式１
をサンプル数で割り、１サンプルあたりの誤差を、各方
法毎に求めた。その結果を表にして図７に示す。重み付
け相乗平均の場合で、重みが「１．０：０．０」若しく
は「０．０：１．０」となっている場合は、対数尤度若
しくは継続時間の分散単独の場合に相当する。両方を用
いた場合のほうが単独よりよく、この重みは等しい場合
に最も正確であった。また、特徴量の線形結合や双一次
結合を用いた場合の方が正確に表現できていることが分
かる。［正解確率に基づくリジェクション］［誤認識検出実験］複数の特徴量から正解確率という信
頼度を得る方法を述べた。信頼度としては、正解と誤認
識の分離度合いが高いものがよいと考えられる。そこ
で、本節では、これまでに定義した正解確率に閾値処理
をすることによって、誤認識を検出しリジェクトする実
験を行い、信頼度としての評価を行った。

【００５３】サンプルは上記［正解確率の推定例］の場
合と同条件で、推定用とは別に録音した１６５５発声で
ある。認識率は８９．７％であった。対数尤度比と継続
時間の単語内分散を線形もしくは双一次に結合したもの
による正解確率と、単独の特徴量による正解確率の重み
付き相乗平均を、閾値を変化させた場合の、正解を誤っ
てリジェクトする率に対する誤認識のリジェクト率のプ
ロットを、図８に示す。なお、図８中の実線は２特徴量
による正解確率の重み付き相乗平均（尤度比：継続時
間）を示し、破線は２特徴量の線形結合に基づく正解確
率を示し、点破線は２特徴量の双一次結合に基づく正解
確率を示している。また、図８中に示した比は、対数尤
度比と継続時間の分散による正解確率の重みを示す。プ
ロットは、図中左上に近付くほど分離度が高いと考えら
れる。

【００５４】対数尤度比（１．０：０．０）と継続時間
の分散（０．０：１．０）をそれぞれ単独で用いた場
合、対数尤度比の方が性能がよい。しかし、それらの重
み付け相乗平均を用いると、単独の場合よりもよい結果
となることがわかる。同比率で乗ずるのが最もよい結果
となった。

【００５５】また、２つの特徴量を線形結合もしくは双
一次結合した場合にもよい結果であったが、それぞれを
別々に求めておいて相乗平均を求めた場合と同程度に留
まった。［語彙外単語発声のリジェクション実験］語彙外（Out-
of-Vocabulary；ＯＯＶ）単語を認識した場合、一般に
語彙にある単語にマッチングして何らかの結果を返して
しまう。対数尤度比はこのような場合の分離に有効であ
るとされている［参考文献１参照］。また、音節継続時
間も、誤認識時と同様に伸縮されている場合が多く、そ
の分散は大きくなるため、分離に有効であると考えられ
る。そこで、［複数の特徴量を用いた正解確率］の欄で
説明した正解確率表現を用いてＯＯＶ単語のリジェクシ
ョン実験を行った。ただし、ＯＯＶ単語の検出と正解確
率とは、直接の関係はない。

【００５６】実験は、認識語彙からナビゲーションのコ
マンドの単語を除き、コマンド発声（８００サンプル）
を認識した結果に対して行った。閾値を変化させた場合
の、正解を誤ってリジェクトする率に対する語彙外単語
のリジェクト率のプロットを、図９に示す。同様に、２
つの特徴量を組み合わせるとよい結果となった。［まと
め］このように、認識結果に対して正解確率の意味をも
つ信頼度を得る方法を採用し、単語と音節連接モデルの
尤度比に基づく場合、単語内の音節継続時間の分散に基
づく場合、それら両方を用いる場合について、シグモイ
ド関数を用いて正解確率を表現する方法を述べた。ま
た、正解確率に基づく正解と誤認識の分離度をリジェク
ション実験によって評価した。また、語彙外単語のリジ
ェクション実験も行った。その結果、複数の特徴量を本
方法によって組み合わせると単独よりも精度がよくなる
ことが確認できた。

【００５７】したがって、音声認識装置１０から認識結
果と正解確率を送られた対話制御部５０では、例えば正
解確率が低いから認識結果は採用しない、とか、正解確
率が高いため、その認識結果を即座に採用する、といっ
た適切な対処が行える。また、信頼度が低い場合はユー
ザに確認を求めてからコマンドを実行する、といったこ
とも可能である。

【００５８】また、信頼度として正解確率を用いている
ので、アプリケーション構築する際、信頼度を直観的に
理解できるという効果もある。つまり対話制御部５０
は、例えば正解確率が９５％の認識結果であれば確信し
て対話を進めるが、５０％ならば確認を求める、といっ
た誤認識を考慮した対処を行うことができる。

【００５９】また、本実施形態の場合は、音声認識装置
１０内の音響分析部１１、特徴抽出部１２はもちろん、
パターンマッチング部１３に関しても、従来と同様の構
成でよく、正解確率推定部１４が、パターンマッチング
部１３から信頼度評価用情報としての尤度比あるいは音
節継続時間の単語内分散を得られるようにすればよいだ
けである。

【００６０】なお、本実施形態では、正解確率推定部１
４がパターンマッチング部１３から得る信頼度評価用情
報の一例として「音節継続時間の単語内分散」を挙げた
が、これは、「音節継続時間長に基づく特徴量」の一例
である。それ以外にも、音節継続時間長そのもの、ある
いは音節継続時間長の単語内平均であってもよい。

【００６１】また、パターンマッチング部１３だけでは
なく、図１中に破線で示すように、音響分析部１１や特
徴抽出部１２からも信頼度評価用情報を得るようにして
もよい。その場合、音響分析部１１から得られる信頼度
評価用特徴量としては、音響分析自体の成功度合いを示
す特徴量であることが考えられ、例えばノイズ度合いや
ＬＰＣ残差が挙げられる。また、特徴抽出部１２にて得
られる信頼度評価用特徴量としては、ケプストラム係数
が考えられる。

【００６２】［第２実施形態］次に、第２実施形態につ
いて説明する。図１０は第２実施形態の音声認識装置１
１０の概略構成を示すブロック図である。本音声認識装
置１１０は、マイクロフォン１３０を介して入力された
音声を認識し、その認識結果を対話制御部１５０へ出力
するものである。

【００６３】音声認識装置１１０は、音響分析部１１１
と、特徴抽出部１１２と、パターンマッチング部１１３
と、正解確率推定部１１４とを備えている。なお、これ
ら音響分析部１１１、特徴抽出部１１２、パターンマッ
チング部１１３、正解確率推定部１１４は、それぞれ
「音響分析手段」、「特徴抽出手段」、「パターンマッ
チング手段」、「正解確率推定手段」に相当する。な
お、請求項３，４に記載したパターンマッチング手段に
相当するのがこの第２実施形態のパターンマッチング部
１１３である。

【００６４】上述した第１実施形態との違いは、音声認
識装置１１０から対話制御部１５０へは正解確率は出力
されず、パターンマッチング部１１３が正解確率推定部
１１４からの正解確率に基づいて、自ら認識結果に対す
る検証を行う点である。それ以外の音響分析部１１１や
特徴抽出部１１２については、特に変更はない。

【００６５】また、正解確率推定部１１４における推定
処理内容自体は、やはり上述の第一実施形態と何ら変わ
らないため、パターンマッチング部１１３における処理
内容について説明する。パターンマッチング部１１３が
正解確率推定部１１４からの正解確率に基づいて、自ら
認識結果に対する検証を行う場合、次の、に示す２
つの検証手法が考えられる。

【００６６】１つ目の検証手法パターンマッチング部１１３は、認識結果を無条件で出
力するのではなく、正解確率に基づいて認識結果を検証
し、正解確率が低い場合には対話制御部１５０へ認識結
果を出力しない。つまり、対話制御部１５０にて正解確
率に基づいて判断をするのではなく、パターンマッチン
グ部１１３から出力する段階で、正解確率の低いものを
出力しないようにするのである。

【００６７】２つ目の検証手法これは、パターンマッチング部１１３が、認識途上の中
間結果に対して正解確率に基づく検証を行い、その検証
の結果、信頼度が低い場合には中間結果を棄却するとい
うもののである。例えば「愛知県刈谷市昭和町」という
地名を認識する場合、パターンマッチング部１１３本来
の機能によれば、「愛知県刈谷市昭和町」という単位の
認識結果に尤度を付与する。このようにした場合には、
「愛知県刈谷市昭和町」と「秋田県刈谷市昭和町」とい
う２つの認識結果について、前者の尤度の方が後者より
も大きいので、前者を認識結果として出力する、といっ
た具合である。実際には２つの認識結果ということは稀
であり、例えば２０個の認識結果中より尤度の高いもの
を選択して出力する。

【００６８】これに対して、本手法では、例えば「愛知
県」、「刈谷市」、「昭和町」というような相対的に短
い検証単位で、信頼度による検証を行う。したがって、
例えば「秋田県」という中間結果に対する検証の結果、
その中間結果を棄却することとなる。このようにするこ
とで、計算量を削減し、且つ誤りを出力してしまうこと
を防止できる。

【００６９】このような正解確率に基づく検証に関して
は、例えば図１１のフローチャートに示すように、所定
数の音節単位（例えば単語単位）ごとに検証する手法
や、図１２のフローチャートに示すように、所定時間ご
と（つまり所定時間の分析データ単位ごと）に検証する
手法などが考えられる。

【００７０】例えば、図１１の場合には、「あいちけん
かりやし…」という地名に対して、まず「あいちけん」
という単語をテンプレートの先頭からマッチングしてい
き、そのマッチング結果に対して正解確率を取得する
（Ｓ１３）。そして、その正解確率が所定値θよりも大
きければ（Ｓ１４：ＹＥＳ）、次に「かりやし」をつな
いだ状態で同様の検証を行う（Ｓ１３，Ｓ１４）。正解
確率による検証が最後までＯＫであった場合には、その
認識結果を出力し（Ｓ１７）、認識途中の何れかの段階
で正解確率が所定値θ以下となった場合（Ｓ１４：Ｎ
Ｏ）は、その時点で処理を終了する。つまり、認識途上
でも中間結果を棄却するのである。

【００７１】一方、図１２の場合には、音節や単語の切
れ目とは限らず、所定時間ごとに得た分析データ単位で
マッチングを行い（Ｓ２２）、そのマッチング結果に対
して正解確率を取得して（Ｓ２３）、その正解確率が所
定値θよりも大きいか否かの判定を行う（Ｓ２４）。な
お、この所定時間については、分析した毎回行うような
時間に設定してもよいし、何回かに１回行うような時間
に設定してもよい。

【００７２】このような検証を行って中間結果を棄却す
る結果、計算量が削減できる点について補足する。例え
ば、愛知県…ではじまる認識結果候補が１０個、秋田県
…ではじまる認識結果候補が１０個得られたとする。そ
れぞれに対応する尤度に基づいて、出力する認識結果を
選択するのが従来手法である。この場合には、２０個の
認識結果候補を得るための処理をそれぞれ最後まで実行
しなくてはならない。それに対して、例えば秋田県と認
識した段階でその中間結果を棄却すれば、結果的には、
秋田県…ではじまる１０個分の候補を得るための処理が
早い段階で終了する。したがって、計算量が減少する。

【００７３】［その他］上記実施形態では、音響分析部
１１，１１１が自己相関係数を用いてｍ次のＬＰＣ係数
を計算し、特徴抽出部１２がこのＬＰＣ係数を基にＬＰ
Ｃケプストラム係数を計算するようにしたが、このよう
な音響分析手法や特徴抽出手法には限られない。例え
ば、［参考文献の一覧］（１）R.A.Sukkar and C.-H.Lee.``Vocabulary indepen
dent discriminativeutterance verihication for nonk
eyword rejection in subword based speechrecognitio
n''，IEEE Trans．on Speech and Audio Processing, V
ol.4，No.6,pp.420-429,1996. （２）加藤正治，堀貴明，伊藤彰則，好田正紀 ``音
素連接ＨＭＭを用いた尤度正規化に基づくワードスポッ
ティングの検討''，電子情報通信学会技術報告，SP97-7
7，pp.9-14，1997．（３）B.T.Tan,Y.Gu and T.Thomas．``Evaluation and
implementation of avoice activated dialing system
with utterance verification'',ICSLP-98,pp.1671-167
4, 1998. （４）K.Kirchhoff and J.A.Bilmes. ``Dynamic classi
fier combination inhybrid speech recognition syste
ms using utterance-level confidence values'',IEEE
ICASSP-98,pp.693-696,1998. （５）M -W.Koo,C.-H.Lee and B.-H.Juang. ``A new hi
brid decoding algorithm for speech recognition and
utterance verification'', IEEE ICASSP-98,pp.213-2
16, 1998. M.-W. Koo, C.-H. Lee and B.-H. Juang （６）實廣貴敏，高橋敏，相川清明． ``対立音素間の
尤度差に基づく信頼度尺度によるリジェクション'', 電
子情報通信学会技術報告, SP97-76, pp.1-7, 1997. （７）E.Lleida and R.C.Rose. ``Efficient decoding
and training procedures for utterance verification
in continuous speech recognition'', IEEEICASSP-9
6, pp.507-600, 1996. （８）赤堀一郎，加藤利文，北岡教英． ``地名認識シ
ステムとその応用'',情報処理学会研究報告, 95-SLP-7-
9, pp.55-60, 1995.

【図面の簡単な説明】

【図１】実施形態の音声認識装置の概略構成を示すブ
ロック図である。

【図２】（ａ）は対数尤度比に対する認識結果の分布
（実線：正解，破線：誤認識）を示す説明図、（ｂ）は
対数尤度比に対する認識結果のプロット（正解：１，誤
認識：０）及び正解確率とその関数表現を示す説明図で
ある。

【図３】（ａ）は音節継続時間の単語内分散に対する認
識結果の分布（実線：正解，破線：誤認識）を示す説明
図であり、（ｂ）は対数尤度比に対する認識結果のプロ
ット（正解：１，誤認識：０）及び正解確率とその関数
近似を示す説明図である。

【図４】対数尤度比と音節継続時間の単語内分散に対す
る正解確率を示す説明図である。

【図５】（ａ）は対数尤度比と音節継続時間の単語内分
散の線形結合を示す説明図、（ｂ）は同じく双一次結合
に基づく正解確率の表現を示す説明図である。

【図６】対数尤度比と音節継続時間の単語内分散による
正解確率の相乗平均による正解確率の表現を示す説明図
である。

【図７】関数毎の正解確率との誤差（１サンプルあた
り）の説明図である。

【図８】対数尤度比と音節継続時間の単語内分散に基づ
く正解確率を用いたリジェクションの結果を示す説明図
である。

【図９】語彙外単語を用いたリジェクション実験結果を
示す説明図である。

【図10】別実施形態の音声認識装置の概略構成を示すブ
ロック図である。

【図11】別実施形態の音声認識装置のパターンマッチン
グ部にて実行される処理を示すフローチャートである。

【図12】別実施形態の音声認識装置のパターンマッチン
グ部にて実行される処理の別態様を示すフローチャート
である。

【符号の説明】

１０，１１０…音声認識装置１１，１１１…音響分析部１２，１１２…特徴抽出部１３，１１３…パターンマッチング部１４，１１４…正解確率推定部３０，１３０…マイクロフォン５０，１５０…対話制御部

フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 9/16 ３０１Ｂ

Claims

【特許請求の範囲】

【請求項１】外部から入力された音声を所定周期で音響
的に分析する音響分析手段と、その音響分析手段にて分析された結果を基に特徴パラメ
ータを抽出する特徴抽出手段と、その特徴抽出手段にて抽出された特徴パラメータを予め
記憶されている複数の比較対象パターンと比較して一致
度合いの高いものを認識結果とするパターンマッチング
手段とを備える音声認識装置であって、さらに、前記音響分析手段、特徴抽出手段あるいはパタ
ーンマッチング手段の少なくとも何れかにおいて得られ
る所定の信頼度評価用特徴量に基づき、前記認識結果の
絶対的な信頼度を推定する信頼度推定手段を備えたこと
を特徴とする音声認識装置。
【請求項２】請求項１記載の音声認識装置において、前記パターンマッチング手段は、前記認識結果を外部へ
出力し、前記信頼度推定手段は、前記パターンマッチング手段か
ら出力される認識結果に対応する信頼度を外部へ出力す
ることを特徴とする音声認識装置。
【請求項３】請求項１記載の音声認識装置において、前記パターンマッチング手段は、認識した最終結果に対
して、前記信頼度推定手段により推定された信頼度に基
づく検証を行い、その検証の結果、信頼度が低い場合に
は前記認識結果を外部へ出力しないことを特徴とする音
声認識装置。
【請求項４】請求項１記載の音声認識装置において、前記パターンマッチング手段は、認識途上の中間結果に
対して、前記信頼度推定手段によって推定された信頼度
に基づく検証を行い、その検証の結果、信頼度が低い場
合には、前記中間結果を棄却することを特徴とする音声
認識装置。
【請求項５】請求項１〜４の何れか記載の音声認識装置
において、前記絶対的な信頼度は、前記認識結果が正解である確率
に基づいて推定されていることを特徴とする音声認識装
置。
【請求項６】請求項５記載の音声認識装置において、前記信頼度評価用特徴量に対する前記正解確率が、近似
関数を用いて表現されていることを特徴とする音声認識
装置。
【請求項７】請求項１〜６の何れか記載の音声認識装置
において、前記パターンマッチング手段にて得られる信頼度評価用
特徴量は、尤度の比又は音節継続時間長に基づく特徴量
の少なくとも何れか一方であることを特徴とする音声認
識装置。
【請求項８】請求項７記載の音声認識装置において、前記音節継続時間長に基づく特徴量は、前記音節継続時
間長そのもの、音節継続時間長の単語内分散又は前記音
節継続時間長の単語内平均の少なくとも何れか一つであ
ることを特徴とする音声認識装置。
【請求項９】請求項１〜６の何れか記載の音声認識装置
において、前記音響分析手段にて得られる信頼度評価用特徴量は、
音響分析自体の成功度合いを示す特徴量であることを特
徴とする音声認識装置。
【請求項１０】請求項９記載の音声認識装置において、前記音響分析自体の成功度合いを示す特徴量は、成功度
合いを間接的に示す特徴量である、前記音響分析手段に
て得られるノイズ度合いであることを特徴とする音声認
識装置。
【請求項１１】請求項９記載の音声認識装置において、前記音響分析手段は、ＬＰＣを用いて音響分析をするも
のであり、前記音響分析自体の成功度合いを示す特徴量
は、ＬＰＣ残差であることを特徴とする音声認識装置。
【請求項１２】請求項１〜６の何れか記載の音声認識装
置において、前記特徴抽出手段は、ケプストラム分析法によって特徴
パラメータを抽出するものであり、前記特徴抽出手段に
て得られる信頼度評価用特徴量は、ケプストラム係数で
あることを特徴とする音声認識装置。
【請求項１３】請求項１〜１２の何れか記載の音声認識
装置における信頼度推定手段としてコンピュータシステ
ムを機能させるためのプログラムを記録したコンピュー
タ読取可能な記録媒体。
【請求項１４】請求項１３記載の記録媒体において、前記信頼度推定手段に加え、請求項１〜１２の何れか記
載の音声認識装置におけるパターンマッチング手段とし
てもコンピュータシステムを機能させるためのプログラ
ムを記録した記録媒体。