JP2001175279A

JP2001175279A - 音声認識方法

Info

Publication number: JP2001175279A
Application number: JP35674899A
Authority: JP
Inventors: Tatsuya Kyomitsu; 達哉京光; Koichi Kojima; 康一小島
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 1999-12-16
Filing date: 1999-12-16
Publication date: 2001-06-29

Abstract

(57)【要約】【課題】話者に煩わしさを与えず、かつ対話時間の短
縮及び認識結果の正解率の向上を達成する音声認識方法
を提供すること。【解決手段】音声入力Ｖ１の後に認識すべき語句との
尤度Ｌ１・Ｌ２により音声認識を行う音声認識方法にお
いて、入力された音声ａに対して尤度が最も大きくなる
語句ａ１を正しい認識結果である可能性が最も大きい第
1位の語句として定め、この第１位の語句ａ１よりも尤
度が小さい第２位以下の語句ｂ１・ｃ１…と第１位の語
句ａ１との尤度差をそれぞれ求め、第１位の語句ａ１と
の尤度差が所定値以下となる第２位以下の語句ｂ１・ｃ
１…及び前記第１位の語句ａ１を候補語句Ｗ１として特
定し、この特定された候補語句Ｗ１をまとめて音声出力
Ｍ１した後に再度入力された音声ａ０に基づいて最終認
識結果たる認識語句Ｗを特定する構成とした。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、話者に対して復唱
確認を実施することにより最終認識結果たる認識語句を
特定する音声認識方法に関するものである。

【０００２】

【従来の技術】近年、音声認識に関する研究が盛んに行
われている。音声認識は、一般的には入力された音声を
分析して得られる音声の特徴を表すパラメータからなる
入力パターンをデータ処理し、この未知の入力パターン
と予め複数の音声についてデータベース化された登録パ
ターン（辞書データ）とをパターンマッチングによって
比較し、距離の小さい（すなわち、尤度の大きい）辞書
データの登録パターンを認識結果として出力する方法が
とられる。ここで尤度（距離）は、音声認識結果の候補
の尤もらしさを表すパラメータであり、音声のスペクト
ル的な揺らぎと時間的な揺らぎを多数の学習サンプルに
よって統計的にモデル化する隠れマルコフモデル（Hidd
en Markov Model）などにより求められる。

【０００３】具体的な音声認識としては、例えば、特公
昭６４−１１９６０号公報に、未知入力単音節音声と登
録済単音節音声とを照合した後、その照合結果に基づき
複数の再照合候補単音節を登録済単音節音声より選出
し、再照合を行う単音節音声認識方式が開示されてい
る。この単音節音声認識方式では、未知入力単音節音声
と登録済単音節音声との距離を所定の定義の下に算出
し、この距離の小さい順に音声認識順位を定めるように
ている。しかし、この単音節音声認識方式では、距離に
よってのみ候補を定めるので、認識結果の出力の中にま
ったく見当違いの候補がノイズとして入り込みやすいと
いう問題がある。

【０００４】これに対して、特開平１０−２０７４８６
号公報に記載の対話型音声認識方法は、先ず、隠れマル
コフモデルなどにより尤度を求め、次に、１位の音声認
識結果の尤度と２位以下の各音声認識結果の尤度との差
である尤度差を求める。そして、予め定めてある尤度差
閾値に基づいて、音声認識が適正に実施されたものと認
識されたもののみを認識結果の正解の候補として定め、
復唱確認の操作を実施する。この対話型音声認識方法
は、尤度に加えて尤度差閾値に基づいて認識結果の正解
の候補を特定し復唱確認するので、前記したようなノイ
ズが排除され、音声対話時間の短縮及び認識精度の向上
を図ることができる。

【０００５】

【発明が解決しようとする課題】ところで、この対話型
音声認識方法における復唱認識は、尤度差が尤度差閾値
以下となるｎ個の認識結果（１位の認識結果を含む）が
存在する場合、つまり、どれが正解かわからない語句が
ｎ個ある場合、次のように行われる。先ず、１位の認識
結果を復唱確認ガイダンスして利用者（話者）に復唱さ
せて確認語の認識処理を行い、次に２位の認識結果を復
唱確認ガイダンスして利用者に復唱させ確認語の認識処
理を行い、・・最後にｎ位の認識結果を復唱ガイダンス
して利用者に復唱させ確認語の認識処理を行う。なお、
途中で認識結果が確定したらそこで処理を中止する。

【０００６】つまり、この対話型音声認識方法では、認
識結果が確定しない場合は、尤度差閾値以下という条件
で選択されたｎ個の認識結果を、ｎ回ガイダンスしなけ
ればならないと共に、利用者がｎ回復唱した音声をｎ回
認識しなければならない。一方、話者たる利用者は、ｎ
回ガイダンスを聞いてｎ回復唱確認させられることにな
る。また、１位と２位の２個の認識結果しかない場合で
も、２位の認識結果が正しいときやいずれの認識結果も
正しくないときは、話者は２度ガイダンスを聞かされ２
度復唱させられることになる。従って、話者はユーザイ
ンターフェイス上、極めて煩わしい操作を強いられると
いう問題がある。また、結果として、音声対話時間の短
縮及び話者から見た認識結果の正解率の向上になってい
ないという問題がある。そこで、本発明は、話者に煩わ
しさを与えず、かつ対話時間の短縮及び認識結果の正解
率の向上を達成する音声認識方法を提供することを主た
る目的とする。

【０００７】

【課題を解決するための手段】本発明者らは、復唱確認
を行う音声認識方法において、話者に多大な煩いを与
え、かつ最も時間を要するのが、話者の確認を得るステ
ップにあることを見い出し、このステップにおける話者
の煩いや処理時間を大幅に削減すべく鋭意研究を行い、
本発明を完成するに至った。すなわち、上記課題を解決
した本発明は、音声入力の後に認識すべき語句との尤度
により音声認識を行う音声認識方法において、入力され
た音声に対して尤度が最も大きくなる語句を正しい認識
結果である可能性が最も大きい第１位の語句として定め
る。次に、第１候補の語句よりも尤度が小さい第２位以
下の語句と前記第１位の語句との尤度差をそれぞれ求
め、前記第1位の語句との尤度差が所定値以下となる前
記第２位以下の語句及び前記第１位の語句を候補語句と
して特定する。そして、この特定された候補語句をまと
めて音声出力した後に再度入力された音声に基づいて最
終認識結果たる認識語句を特定することを特徴とする。

【０００８】この構成によれば、第１位の語句との尤度
差が所定値以下となる第２位以下の語句及び第１位の語
句が、正解の候補たる候補語句として特定されるが、こ
の候補語句はまとめて音声出力される。音声入力を行う
話者は、このまとめて音声出力された候補語句を踏まえ
て再度音声の入力（実施の形態でいう「確認音声の入
力」）を行い、正解の語句を特定する。従って、話者
は、何度も応答する必要がなく、認識語句を特定する際
の煩わしさが解消される。同時に、処理時間（対話時
間）の短縮及び話者から見た認識結果の正解率の向上が
達成される。この構成において、（１）再度入力された
音声に対して尤度が最も大きくなる第１位の語句（実施
の形態における「第１位の確認語句」）と同第２位以下
の語句の尤度を比較し、尤度差が所定値以上ある場合
は、再度入力された音声に対して尤度がもっとも大きく
なる第１位の語句を最終結果たる認識語句として特定す
るのが好ましい。候補語句が音声出力された後に再度入
力された音声は、的が絞られており正解の可能性が高い
からである。また、この構成において、（２）再度音声
入力された音声に対して尤度が最も大きくなる第１位の
語句と同第２位以下の語句の尤度差が所定値以下となる
第２位以下の語句が存在する場合は、最初に音声入力し
た音声（実施の形態でいう「入力音声」）に対して特定
された候補語句の尤度（順位）及び語句の対応関係に基
づいて最終認識結果たる認識語句を特定するのが好まし
い。

【０００９】なお、請求項の用語「まとめて」とは、例
えば、特定された候補語句が４つあるとした場合、こ
れを１回で全て音声出力する場合、最初に２つの候補
語句を音声出力し、この後に残りの２つの候補語句を音
声出力する場合、最初に３つの候補語句を音声出力
し、この後に残りの１つの候補語句を音声出力する場合
（その逆）などを含む。また、請求項の用語「所定値」
は、この値を大きく設定すると復唱確認を行うべき候補
語句の数が多くなりすぎ、話者に煩いを与えてしまう。
また、見当違いの誤った語句がノイズとして候補語句の
中に多く含まれることになる。一方、所定値を小さく設
定すると、正しい語句が候補語句の中に含まれなくな
る。従って、所定値は、これら利益・不利益を比較考量
して定められる。なお、所定値は、単語（連語）ごとに
定めることができる。

【００１０】

【発明の実施の形態】以下、本発明に係る実施の形態の
音声認識方法を、図面を参照して詳細に説明する。図１
は、本実施形態の音声認識方法が適用される音声認識装
置の機能ブロック図である。図２は、本実施形態の音声
認識方法を示すフローチャートである。図３は、図２の
フローチャートに具体的な入力音声などを当てはめたも
のである。

【００１１】〔音声認識装置の構成〕先ず、本実施形態
の音声認識方法が適用される音声認識装置を、図１を参
照して説明する。音声認識装置Ｅは、マイクロフォン
１、音声入力部２、音声分析部３、尤度付与部４、音声
辞書記憶部５、候補語句特定部６、確認語句特定部７、
尤度差閾値記憶部８、認識語句特定部９、メッセージ作
成部１０、音声合成出力部１１及びスピーカ１２を含ん
で構成される。

【００１２】マイクロフォン１は、話者が発した音声を
電気信号に変換して音声認識装置Ｅに入力する。音声入
力部２は、アナログ信号をデジタル信号に変換するＡ／
Ｄコンバータである。ここで、話者が発する音声は２種
類ある。１つは音声認識装置Ｅに認識させたい入力音声
Ｖ１、もう１つは音声認識装置Ｅの復唱確認の要求に応
じて入力する確認のための確認音声Ｖ２である。

【００１３】音声認識処理部Ｅ’は、音声分析部３、尤
度付与部４及び音声辞書記憶部５を含んで構成される。
音声分析部３は、単語（連語を含む）ごとに入力音声Ｖ
１及び確認音声Ｖ２の特徴量を抽出する。入力音声Ｖ１
を例にすると、尤度付与部４は、音声分析部３からのデ
ータに基づいて、多数の単語（連語を含む）の特徴量が
記憶された音声辞書記憶部５を検索して尤度Ｌ１を付与
すると共に、尤度Ｌ１が大きい順に文字列からなる語句
（単語）Ｗ１’を音声辞書記憶部５から所定数を選出す
る。尤度Ｌ１は語句Ｗ１’ごとに付与されるが、特徴量
の抽出を含む尤度付与の方法としては、前記した隠れマ
ルコフモデルなどがある。

【００１４】ちなみに、この音声認識処理部Ｅ’で選出
されて尤度Ｌ１が付与される語句Ｗ１’の数は、次の、
候補語句特定部６で特定される候補語句Ｗ１の数よりも
少なくなることはない。この音声認識処理部Ｅ’は、入
力音声Ｖ１に対しては、語句Ｗ１’及び尤度Ｌ１が対に
なったデータＤ１’を候補語句特定部６に出力する。一
方、確認音声Ｖ２に対しては、語句Ｗ２’及び尤度Ｌ２
が対になったデータＤ２’を確認語句特定部７に出力す
る。なお、確認音声Ｖ２に対して音声辞書記憶部５を検
索する際は、既に出力された語句Ｗ１’などに基づい
て、音声辞書記憶部５における検索範囲を限定してもよ
い。これにより、語句Ｗ２’の選出時間を短縮すること
ができる。ここで、符号Ｖ、Ｗ及びＬなどに付加される
「１」及び「２」は、「１」が話者が最初に入力する入
力音声に対するもの、「２」が話者が２度目に入力する
確認音声に対するものであることを示す識別子である。

【００１５】次に、候補語句特定部６は、復唱確認の候
補となる候補語句Ｗ１を特定してリストアップする。こ
の候補語句特定部６は、音声認識処理部Ｅ’から出力さ
れたデータＤ１’の中から、入力音声Ｖ１に対して尤度
Ｌ１が最も大きい第１位の語句Ｗ１’を先ず候補語句Ｗ
１として特定する。次に、候補語句特定部６は、尤度差
閾値記憶部８に記憶された尤度差閾値Ｌ_th（特許請求の
範囲における「所定値」）を、第１位の語句Ｗ１’をキ
ーとして検索して読み込む。ちなみに、尤度差閾値Ｌ_th
は、単語ごとに設置されている。そして、第２位以下の
語句Ｗ１’と第１位の語句Ｗ１’の尤度差を順次求め、
この尤度差が尤度差閾値Ｌ_thよりも小さくなる語句Ｗ
１’を候補語句Ｗ１として順次特定する。通常候補語句
Ｗ１の数は１〜５程度である。このように特定した候補
語句Ｗ１は、データＤ１として、認識語句特定部９及び
メッセージ作成部１０に出力される。

【００１６】確認語句特定部７は、話者の復唱確認に対
して確認語句Ｗ２を特定してリストアップする。先ず、
この確認語句特定部７は、音声認識処理部Ｅ’から出力
されたデータＤ２’の中から、確認音声Ｖ２に対して尤
度Ｌ２が最も大きい第１位の語句Ｗ２’を確認語句Ｗ２
として特定する。次に、確認語句特定部７は、尤度差閾
値記憶部８に記憶された尤度差閾値Ｌ_thを、第１位の語
句Ｗ２’をキーとして検索して読み込む。そして、第２
位以下の語句Ｗ２’と第１の語句Ｗ２’の尤度差を順次
求め、この尤度差が尤度差閾値Ｌ_thよりも小さくなる語
句Ｗ２’を確認語句Ｗ２として順次特定する。このよう
に特定した確認語句Ｗ２は、データＤ２として、認識語
句特定部９に出力される。

【００１７】認識語句特定部９は、候補語句Ｗ１及び／
又は確認語句Ｗ２に基づいて、候補語句Ｗ１の中から最
終認識結果たる認識語句Ｗを特定する。認識語句の特定
は、以下のような基準に基づいて行われる。候補語句Ｗ１が１つしか特定されない場合は、１つし
か特定されなかった候補語句Ｗ１を認識語句Ｗとする。
つまり、候補語句特定部６において、第１位と第２位の
語句Ｗ１’の尤度差が尤度差閾値Ｌ_th以上あり、第１位
の候補語句Ｗ１が正解である可能性が極めて高い場合で
ある。確認語句Ｗ２が１つしか特定されない場合は（候補語
句Ｗ１は複数）、１つしか特定されなかった確認語句Ｗ
２に対応する候補語句Ｗ１を認識語句Ｗとする（１つだ
け）。なお、確認語句Ｗ２を認識語句Ｗとしてもよい。確認語句Ｗ２が複数ある場合は（候補語句Ｗ１も複
数）、候補語句Ｗ１の第１位の語句（尤度Ｌ１が最も大
きいもの）と確認語句Ｗ２の第１の語句（尤度Ｌ２が最
も大きいもの）が対応するものであれば、候補語句Ｗ１
の第１位の語句（あるいは確認語句Ｗ２の第１位の語
句）を最終認識結果たる認識語句Ｗとする（１つだ
け）。前記〜以外の場合は確認語句Ｗを特定しない。こ
のようにして特定した認識語句Ｗは、データＤとしてメ
ッセージ作成部１０に出力される。なお、認識語句Ｗが
特定できない場合は、データＤにはエラーデータが入
る。ちなみに、のように候補語句Ｗが１つしか特定さ
れない場合でも、話者に復唱確認させることで認識語句
Ｗを特定してもよい。

【００１８】メッセージ作成部１０は、候補語句特定部
６から送信されるデータＤ１に基づいて、確認語入力の
ため（復唱確認を行わせるため）のメッセージＭ１を作
成し、音声合成出力部１１に送信する。メッセージＭ１
は、候補語句Ｗ１が複数ある場合は、これをまとめて音
声出力するように作成される。まとめて音声出力するこ
とにより、話者は、何度も候補語句Ｗ１を聞いてその都
度応答しなければならないという煩わしさから解消され
る。同時に、音声認識までの処理時間の短縮及び実質的
な認識率の向上を達成することができる。但し、候補語
句Ｗ１が１つしか特定されないときで、これを認識語句
Ｗとする場合は、メッセージＭ１の作成を行わない。ま
た、メッセージ作成部１０は、認識語句特定部７から送
信されるデータＤに基づいて、最終認識結果を出力する
ためのメッセージＭ２を作成し、音声合成出力部１１に
送信する。

【００１９】音声合成出力部１１は、メッセージ作成部
１０からのメッセージＭ１，Ｍ２に基づいて音声を合成
し、スピーカ１２に出力する。スピーカ１２は、音声を
出力する。

【００２０】なお、他システム２０は、認識語句特定部
９が特定した認識語句Ｗに基づいて動作するカーナビゲ
ーションシステムであったり、空調システムであったり
などする。

【００２１】〔音声認識方法〕次に、本実施形態の音声
認識方法を、前記した音声認識装置Ｅ及び図２のフロー
チャートを例にして説明する。（Ｉ）認識させたい音声の入力〜候補語句の出力まで；
話者が音声入力装置Ｅのマイクロフォン１に、認識させ
たい音声を入力する。すると音声入力部２でデジタル信
号の入力音声Ｖ１に変換され、音声認識処理部Ｅ’に入
力される（Ｓ１）。ちなみに、認識させたい音声の入力
値を「ａ」とする。

【００２２】音声認識処理部Ｅ’では、隠れマルコフモ
デルなどに基づいてデータ処理を行い、入力音声Ｖ１に
対応して尤度Ｌ１が大きい順に文字列からなる語句Ｗ
１’を所定数選出する。そして、この語句Ｗ１’と尤度
Ｌ１が対になったデータＤ１’を候補語句特定部６に出
力する（Ｓ２）。ここでの語句Ｗ１’の内容は「ａ１，
ｂ１，ｃ１，ｄ１・・」であり、尤度Ｌ１の内容は「Ｌ
１ａ，Ｌ１ｂ，Ｌ１ｃ，Ｌ１ｄ・・」であるとする。な
お、Ｌ１ａ＞＝Ｌ１ｂ＞＝Ｌ１ｃ＞＝Ｌ１ｄ・・であ
る。

【００２３】候補語句特定部６では、先ず、語句Ｗ１’
のうち尤度Ｌ１が最も大きい「ａ１」を候補語句Ｗ１と
して特定する。次に、この「ａ１」をキーとして尤度差
閾値記憶部８から尤度差閾値Ｌ_thを読み込む。そして、
それぞれの尤度差を求めると共に、尤度差閾値Ｌ_thと比
較し、尤度差が尤度差閾値Ｌ_thよりも小さくなる語句Ｗ
１’を候補語句Ｗ１として順次特定する（Ｓ３，Ｓ
４）。ここでは、候補語句Ｗ１の内容は、「ａ１」と
「ｂ１」とする。なお、尤度差が尤度差閾値Ｌ_thよりも
小さくなる語句Ｗ１’がない場合は、「ａ１」が認識語
句特定部９において、認識語句Ｗとして特定される（Ｓ
５）。

【００２４】候補語句Ｗ１が複数特定されると、話者に
復唱確認を促すメッセージＭ１がメッセージ作成部１０
で作成され、音声合成出力部１１を経てスピーカ１２か
ら出力される（Ｓ６）。メッセージＭ１の内容は、例え
ば、「ａ１ですか？、ｂ１ですか？、復唱確認してくだ
さい！」などである。あるいは、「１番『ａ１』ですか
？、２番『ｂ１』ですか？、番号で復唱確認してくださ
い！」とのメッセージＭ１を出力して、話者に番号を入
力させるようにしてもよい。候補語句Ｗ１が特定できる
ものであれば、番号でも符号でも何でもよい。いずれの
メッセージＭ１でも、候補語句Ｗ１がまとめて出力され
る。出力する順序は問わない。

【００２５】（II）復唱確認のための音声入力〜最後ま
で；話者は、この音声に促されて、マイクロフォン１に
復唱確認すべく意図する確認音声を入力する。すると音
声入力部２でデジタル信号の確認音声Ｖ２に変換され、
音声認識処理部Ｅ’に入力される（Ｓ７）。ちなみに、
復唱確認する音声の入力値を「ａ０」とする。なお、正
解がない場合は、別に定めた正解がない旨の確認音声を
入力してもよい。このようにまとめて候補語句Ｗ１を出
力することで、候補語句Ｗ１に正解がある場合でも正解
がない場合でも、迅速に音声認識処理を行うことができ
る。

【００２６】確認音声Ｖ２が入力された音声認識処理部
Ｅ’では、入力音声Ｖ１のときと同様に処理を行い、確
認音声Ｖ２に対応して尤度Ｌ２が大きい順に文字列から
なる語句Ｗ２’を所定数選出する。そして、この語句Ｗ
２’と尤度Ｌ２が対になったデータＤ２’を認識語句特
定部７に出力する（Ｓ８）。ここでの語句Ｗ２’の内容
は「ａ２，ｂ２，ｃ２，ｄ２・・」であり、尤度Ｌ２の
内容は「Ｌ２ａ，Ｌ２ｂ，Ｌ２ｃ，Ｌ２ｄ・・」である
とする。なお、Ｌ２ａ＞＝Ｌ２ｂ＞＝Ｌ２ｃ＞＝Ｌ２ｄ
・・である。

【００２７】確認語句特定部７では、語句Ｗ２’のうち
尤度Ｌ２が最も大きい語句「ａ２」をまず特定する。次
に、この「ａ２」をキーとして尤度差閾値記憶部８から
尤度差閾値Ｌ_thを読み込む。そして、それぞれの尤度差
を求めると共に、尤度差閾値Ｌ_thと比較し、尤度差が尤
度差閾値Ｌ_thよりも小さくなる語句を確認語句Ｗ２とし
て順次特定する（Ｓ９）。

【００２８】ここで、最終結果である認識語句Ｗは、次
のように特定される。候補語句Ｗ１が複数特定され、確認語句Ｗ２が１つし
か特定されない場合は、確認語句Ｗ２の内容である「ａ
２」に対応する候補語句Ｗ１、つまり「ａ１」が認識語
句Ｗになる（Ｓ１０）。なお、「ａ２」を認識語句Ｗと
してもよい。確認語句Ｗ２は、ガイダンスを受けた後に
入力される確認音声Ｖ２に基づいているため、より的が
絞られており、正解の確率が高いからである。確認語句Ｗ２も複数特定された場合は、入力音声Ｖ１
に対して尤度Ｌ１が最も大きくなる候補語句Ｗ１と、確
認音声Ｖ２に対して尤度Ｌ２が最も大きくなる確認語句
Ｗ２（第１位同士が）が対応するか否かを判断し（Ｓ１
１）、対応しない場合は音声認識を行うことができなか
ったとする（Ｓ１２）。例えば、前者の語句Ｗ１が「ａ
１」であり、後者の語句が「ｂ２」の場合である（ａ１
とａ２が対応し、ｂ１とｂ２が対応するとした場合）。前記ステップＳ１１において、入力音声Ｖ１に対して
尤度が最も大きくなる語句Ｗ１と、確認音声Ｖ２に対し
て尤度Ｌ２が最も大きくなる語句が対応する場合（第１
位同士が対応する場合）は、確認音声Ｖ２に対して尤度
Ｌ２が最も大きくなる語句「ａ２」に対応する候補語句
Ｗ１、つまり「ａ１」が認識語句Ｗになる（Ｓ１３）。
なお、前記と同様の理由で、「ａ２」をそのまま認識
語句Ｗとしてもよい。

【００２９】そして、最終認識結果たる認識語句Ｗが特
定されると、これを話者に知らせるメッセージＭ２がメ
ッセージ作成部１０で作成され、音声合成出力部１１を
経てスピーカ１２から出力される（Ｓ１４）。メッセー
ジＭ２の内容は、例えば、「認識結果はａ１（又はａ
２）です。了解しました！」などである。このように音
声認識処理を行うことで、例え候補語句Ｗ１が多数あり
（例えばａ１，ｂ１，ｃ１，ｄ１）かつ第１位の候補語
句Ｗ以外のもの（例えばｄ１）が正解の場合でも、ある
いは、候補語句Ｗ１の中に正解がない場合でも、話者は
煩いを受けることがなく、また音声認識処理の時間も大
幅に短縮することができるなどの顕著な利益が得られ
る。

【００３０】前記した一連の動作を、図３のフローチャ
ートを用いてさらに具体的に説明する。先ず、話者が
「オカヤマケンオカヤマシ」と音声入力を行う（Ｓ２
１）。これを受けて音声認識処理により、第１位の語句
Ｗ１’としてａ１「ワカヤマケンワカヤマシ」が尤度Ｌ
１ａで、第２位の語句Ｗ１’としてｂ１「オカヤマケン
オカヤマシ」が尤度Ｌ１ｂで２つ選出される（Ｓ２
２）。

【００３１】次に、第１位と第２位の語句Ｗ１’の尤度
差が尤度差閾値Ｌ_th以下であるか否かが比較判断される
（Ｓ２３）。ここでは、尤度差が尤度差閾値Ｌ_th以下で
あるので、候補語句Ｗ１として「ワカヤマケンワカヤマ
シ」及び「オカヤマケンオカヤマシ」の２つが特定され
る（Ｓ２４）。

【００３２】すると、候補語句Ｗ１がスピーカ１２から
まとめてガイダンス（出力）される（Ｓ２５）。その内
容は「『ワカヤマシ』ですか？『オカヤマシ』ですか？
復唱下さい！」などである。このようにまとめて候補語
句をガイダンスして話者に知らせることにより、音声認
識処理を迅速に行うことができる。殊に、意図する語句
の候補語句Ｗとしての順位が低くい場合や存在しない場
合などは、話者は不要な応答操作を何度も行う必要がな
く、煩わしさから開放される。なお、この図３のフロー
チャートでは、話者はガイダンスに促されて「オカヤマ
シ」との確認音声を音声入力する（Ｓ２６）。

【００３３】話者による確認音声の音声入力を受けて、
音声認識処理を行い、第１位の語句Ｗ２’としてａ２
「オカヤマシ」が尤度Ｌ２ａで、第２位の語句Ｗ２’と
してｂ２「ワカヤマシ」が尤度Ｌ２ｂで選出される（Ｓ
２７）。

【００３４】この図３のフローチャートでは、尤度Ｌ２
ａと尤度Ｌ２ｂの尤度差が尤度差閾値Ｌ_thよりも大きい
ので、「オカヤマシ」が確認語句Ｗ２として特定される
（Ｓ２８，Ｓ２９）。そして、「オカヤマシ」に対応し
た候補語句Ｗ１「オカヤマケンオカヤマシ」が認識語句
Ｗとしてスピーカ１２から出力される（Ｓ３０）。な
お、「オカヤマシ」を出力してもよい。

【００３５】ところで、尤度Ｌ２ａと尤度Ｌ２ｂとの尤
度差が尤度差閾値Ｌ_th以下の場合は、一点鎖線のステッ
プＳ３１に示すように（また、既に説明したように）、
第１回目の音声入力（入力音声Ｖ１）のときの第１位
の候補語句Ｗ１と、第２回目の音声入力（確認音声Ｖ
２）のときの第１位の確認語句Ｗ２の対応関係を比較判
断して、認識語句Ｗを特定する。

【００３６】このように、本実施形態の音声認識方法に
よれば、候補語句が複数ある場合は、まとめて出力して
話者にガイダンスするので、話者は復唱確認（応答操
作）を何度もしなければならないという煩いから開放さ
れる。また、音声認識の処理時間も短縮されるなどの大
きな利益が得られる。

【００３７】以上説明した本実施形態は、前記した発明
の実施の形態に限定されることなく、幅広く変形実施す
ることができる。例えば、尤度（距離）の算出も隠れマ
ルコフモデルに限定されるものではない。また、候補語
句が２以上ある場合に、意図する候補語句がガイダンス
（出力）された時点で、話者が音声を発生することによ
り割り込み処理が行えるようにする構成とすることもで
きる。このようにすることで、話者は、ガイダンスを最
後まで聞く必要がなくなり、音声認識の処理時間をさら
に短縮することができる。また、例えば、音声認識方法
が実施される音声認識装置は、ハードウェア的に構成す
ることもソフトウェア的に構成することもできる。ちな
みに、ハードウェア的に構成した場合は、処理速度を速
めることが可能となる。なお、この音声認識方法は、例
えば、自動車などの移動体に搭載されるナビゲーション
装置、エアコン装置やＡＶ装置など、あるいは、今後普
及するＥＴＣ（自動料金収受システム）やＶＩＣＳ（道
路交通情報通信システム）などＩＴＳ（次世代交通シス
テム）に関連した機器などを音声命令により制御する際
のユーザインターフェイスとして好適に使用することが
できる。

【００３８】

【発明の効果】以上説明したように、本発明に係る音声
認識方法によれば、候補語句をまとめて音声出力するの
で、ユーザインターフェイス上、話者に不必要な煩いを
与えることがない。また、音声認識処理の時間及び話者
から見た認識率の向上を達成することができる。つま
り、本発明に係る音声認識方法は、音声認識処理におい
て最も煩わしく時間を要する部分を、大幅に改善するも
のである。従って、音声認識により作動する装置のユー
ザインターフェイスとして、好適に使用することができ
る。

【図面の簡単な説明】

【図１】本発明に係る実施形態の音声認識方法が適
用される音声認識装置の機能ブロック図である。

【図２】本発明に係る実施形態の音声認識方法を示
すフローチャートである。

【図３】図２のフローチャートに具体的な入力音声
などを当てはめたものである。

【符号の説明】

Ｗ認識語句Ｗ１’ 語句（入力音声に対して選出される）Ｗ１候補語句（Ｗ１’の中から特定される）Ｗ２’ 語句（確認音声に対して選出される）Ｗ２確認語句（Ｗ２’の中から特定される）Ｌ１尤度Ｌ２尤度Ｌ_th 尤度差閾値Ｖ１入力音声Ｖ２確認音声

Claims

【特許請求の範囲】

【請求項１】音声入力の後に認識すべき語句との尤
度により音声認識を行う音声認識方法において、入力された音声に対して尤度が最も大きくなる語句を正
しい認識結果である可能性が最も大きい第1位の語句と
して定め、この第１位の語句よりも尤度が小さい第２位以下の語句
と前記第１位の語句との尤度差をそれぞれ求め、前記第
１位の語句との尤度差が所定値以下となる前記第２位以
下の語句及び前記第１位の語句を候補語句として特定
し、この特定された候補語句をまとめて音声出力した後に再
度入力された音声に基づいて最終認識結果たる認識語句
を特定すること、を特徴とする音声認識方法。