JP2009116075A

JP2009116075A - 音声認識装置

Info

Publication number: JP2009116075A
Application number: JP2007289525A
Authority: JP
Inventors: Takeshi Honma; 健本間; Hiroaki Kokubo; 浩明小窪; Nobuo Hataoka; 信夫畑岡; Hisashi Takahashi; 久高橋; Osamu Yamashita; 修山下; Yoshiyuki Mizuno; 佳幸水野; Minoru Togashi; 実冨樫; Takeshi Ono; 健大野; Daisuke Saito; 大介斎藤; Keiko Katsuragawa; 景子桂川
Original assignee: Xanavi Informatics Corp; Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd; Faurecia Clarion Electronics Co Ltd
Priority date: 2007-11-07
Filing date: 2007-11-07
Publication date: 2009-05-28

Abstract

【課題】多数の語彙を短時間で、かつ確実に認識する音声認識装置を提供する。
【解決手段】キーワードを認識した際に、その誤認識傾向を記録した変換表を用意し、その変換表によって展開した正解候補キーワードを用意する。この正解候補キーワードを含む語彙を登録した認識文法を再び読み込み、再認識を実行する。例えば「○○公園」という音声データに対して「ホケン」というキーワードが得られることが多いのであれば認識キーワード「ホケン」と正解候補キーワード「コウエン」の関係度を高く設定する。
【選択図】図１

Description

本発明は、音声認識装置に関する。

近年の音声認識技術は、実用レベルに達してきた。しかし、依然として大語彙を対象とした認識は、実時間での処理が難しく、また認識率に限界がある。

とくに、カーナビゲーションシステムでは、全国に膨大にある施設名をユーザが一言で入力することに対するユーザメリットが大きく、これを実現するための大語彙認識技術が望まれる。しかし、実際のカーナビゲーションでは、消費メモリや演算量の制限から、全国施設名を一度に認識することが困難であった。このため、市販されているカーナビゲーションシステムでは、音声で待ち受けられる施設名の数が限定されている。このため、ユーザが発話した施設名が音声認識の待ち受け語に登録されていないために起こる誤認識を誘発し、ユーザが所望の操作を達成できない問題を起こしていた。

こういった大語彙を対象とした音声認識に関する問題を解決するため、特許文献１では、入力されたユーザ発話から、最初にユーザ発話に含まれる話題に関する単語のみをワードスポッティング技術により抽出し、その後、抽出された単語に応じて認識に使う辞書を再構成し、前に入力されたユーザ発話の音声データに対し再び認識処理を行うことによって、ユーザ発話全体を認識する技術が公開されている。

特開２００４−３３４２２８号公報

特許文献１の技術では、最初に、ユーザ発話の一部分を対象とした認識処理を行うが、この認識結果が誤認識であると、その後に読み込まれる認識辞書も間違ったものが選定されるため、最終的な結果として出力される認識結果も誤りとなる。とくに、特許文献１で使われるワードスポッティング技術や信頼度の利用は、未だ発展途上であり、誤った結果が出力される可能性がある。また、認識の精度は、周囲の雑音の状況、発話される語彙、個人差などにも影響されるため、同じような誤認識を繰り返してしまう可能性がある。

本発明は、上記課題を解決すべくなされたものであり、大語彙を対象とした音声認識において、誤認識を減少させるための技術を提供することを目的とする。

上記課題を解決すべく本発明では、最初の音声認識で認識したキーワードを、所定の方法で変換し、変換されたキーワードを含む文法を用いて再度音声認識を行う。

例えば、本願発明の音声認識装置は、ユーザが発話した音声に基づいて音声データを取得する手段と、頻出単語であるキーワードを含む第１の文法を用いて前記音声データに含まれるキーワードを認識する第１の音声認識手段と、前記第１の音声認識手段で認識したキーワードに対して、予め定められた変換表を用いて、正解候補キーワードを求めるキーワード変換手段と、前記キーワード変換手段で求めた正解候補キーワードを含む第２の文法を用いて前記音声データに含まれる単語を認識する第２の音声認識手段とを備える。

本発明によれば、多数の語彙を短時間で、かつ確実に認識することができる。

以下、図面を参照しながら本願発明の実施形態の例について説明する。

以下の実施形態では、カーナビゲーションシステムに組み込まれ、目的地となる施設名称を入力する、音声認識システムを例に取り説明する。

＜第１の実施形態＞
図１は、本実施形態にかかる音声認識システム１の構成を示す図である。

音声認識システム１は、演算部１０と、マイク２０と、入力装置３０と、出力装置４０と、を備えて構成されている。

演算部１０は、後述する様々な処理を行う中心的ユニットである。マイク２０は、音声入力装置として機能し、ユーザの発する音声を受け付け、演算部１０に送る。入力装置３０は、ユーザからの要求を受け付けるための装置であり、タッチパネル、ボタン、ダイヤル、リモコン、ステアリングスイッチなどで構成されている。出力装置４０は、音声認識の結果などのユーザに知らせるべき情報を出力するための装置であり、液晶ディスプレイなどの表示装置で構成される。なお、出力装置４０は、音声出力のためのスピーカを備えていてもよい。

演算部１０は、本実施形態の特徴的な動作として、音声認識処理を行う。そのため、演算部１０は、分析部１１と、音声データ記憶部１２と、音響モデル記憶部１３と、言語モデル記憶部１４と、音声認識部１５と、認識結果変換部１６と、変換表記憶部１７と、再認識指令部１８と、を備えている。

分析部１１は、ユーザが発話した音声データを、特徴ベクトル列に変換する。特徴ベクトル列とは、音声の各時刻の特徴量を多次元ベクトル量で表し、それを時系列に並べたものである。分析部１１は、例えば、入力音声データから数十ミリ秒程度ずつ音声波形を切り出し、ＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）パラメータと呼ばれる多次元ベクトル量に変換し、これを時系列に並べる。

音声データ記憶部１２は、分析部１１で変換された音声の特徴ベクトル列を記憶する。または、特徴ベクトル列に変換する前の音声データを記憶するようにしてもよい。

音響モデル記憶部１３は、各音素に対応する音響モデルを保存する。この音響モデルの表現形態としては、例えば、図２に示すように、各音素を３状態で定義したＨＭＭ（ＨｉｄｄｅｎＭａｒｃｏｖＭｏｄｅｌ）が挙げられる。

言語モデル記憶部１４は、辞書１４１と文法１４２とを登録している。辞書１４１には、図３に示すように、音声認識システム１が認識対象とする単語１４１１と、その音素列１４１２とが対応付けて登録されている。なお、認識対象とする音素の、あるまとまった固まりのことを、「単語」と称す。また、ユーザの発話に頻出すると想定され、音声認識の手がかりとなる単語を、「キーワード」という。

文法１４２には、辞書１４１に登録されている単語１４１１の相互の接続規則が記述されている。すなわち、文法１４２には、音声認識システム１において認識可能な単語列が登録されている。

本実施形態で用いる文法には、大きく分けて２種類ある。１つは、ユーザから音声を受け付けて最初の音声認識で用いられる文法であり、ユーザの音声に含まれるキーワードを特定するための文法（「キーワード認識文法」という）である。もう１つは、かかる最初の段階で特定されたキーワードから後述する正解候補キーワードを求めた後、再度音声認識する際に用いられる文法であり、かかる正解候補キーワードを含む施設名を列挙した文法（「施設名認識文法」という）である。

図４は、キーワード認識文法の例を示す図である。図中、この文法で認識できる単語の語順を、矢印で示している。この文法は、「Ｓ」からいずれかの矢印を辿って「Ｅ」まで辿りつくいずれかのパスを通る単語列を認識することができる。なお、パスの途中の、四角で表した要素は、その場所において認識できる単語を示している。この図４のように、音声認識の対象となる単語列をネットワークで表した文法は、一般にネットワーク文法と呼ばれる。

パスの途中の要素２０２０には、「エキ」、「ホテル」、「ホケン」、「コウエン」・・・、といった、多数の施設名に共通して現れる単語が登録されている。ここで登録されている、多数の施設名に共通して現れる単語が、キーワードである。

文法中に記載された単語は、音声認識部１５により、音響モデルの列として展開される。例えば、「エキ」という単語は、音声認識部１５により、図３の辞書１４１に従い、音素列／ｅｋｉ／に展開され、図５に示すように、音素「／ｅ／、／ｋ／、／ｉ／」の音響モデルの連結として展開される。

また、図４の要素２０１０、２０３０に示した「（ガーベージ）」は、音声認識部１５により、ユーザの発話に現れる可能性のあるすべての音素列に適合するように設計されたモデルに展開される。このモデルを、以降、ガーベージモデルと称す。ガーベージモデルは、図６に示すような音響モデルの連結によって実現される。例えば、「かかし」（／ｋａｋａｓｈｉ／）という音素列に対応するモデルは、「／ｋ／」４０１→「／ａ／」４０２→「戻り」４０３→「／ｋ／」４０１→「／ａ／」４０２→「戻り」４０３→「／ｓｈ／」４０４→「／ｉ／」４０５というパスによって表現される。このようなガーベージモデルの構築方法は、例えば、下記、非特許文献１に記載されている。

非特許文献１：佐藤、河原、堂下「構文主導Ａ＊探索による音声認識における未知語の処理」、電子情報通信学会技術研究報告、ｖｏｌ．ＳＰ９４−２５、ｐｐ．１７−２３（１９９４）
図４のキーワード認識文法は、キーワードの前後がガーベージモデルでつながれており、想定されるユーザの発話に合わせ、「です」「に行きたい」といった単語を持っている。この文法によって認識できる単語列の例としては、「（ガーベージ）／エキ／です」「ホテル／（ガーベージ）／に行きたい」「（ガーベージ）／ホケン／（ガーベージ）」などが挙げられる。

なお、認識結果として得られる単語列のことを文（または、「認識文」）と呼ぶ。

図７は、ユーザの音声に対して再度行われる音声認識に用いられる文法である施設名認識文法の例を示す図である。具体例として、特定の１つのキーワードである「ホケン」という単語を含む全国施設名を登録した施設名認識文法を示している。

図８は、キーワードを１つも含まない施設名認識文法の例を示す図である。具体例として、キーワードを１つも含まない施設名を登録した文法を示している。この文法は、最初の音声認識により、正解候補キーワードが特定できなかった場合に使用される。

図１に戻って説明する。音声認識部１５は、音響モデル記憶部１３に記憶された音素のＨＭＭを言語モデルの規則（辞書１４１、文法１４２）に従って連結したＨＭＭのネットワークから、入力音声の特徴ベクトル列が出力される確率が高いパスを探索する。そして、確率が高い上位ｎ個（ｎは１以上の整数）のパスに沿った単語列を認識文として出力する。また、出力される各認識文には、認識文の単語列に沿ったＨＭＭのパスから入力音声の特徴ベクトルが出力される確率に基づいて計算されたスコアが付与される。なお、探索におけるＨＭＭの確率計算は、ビタビアルゴリズムなどを用いて実装することができる。また、探索の高速化を図るため、すべてのＨＭＭのパスに対する確率計算は行わず、探索途中、確率が高いパスだけを残すビームサーチなどを行ってもよい。また、音声認識部１５は、出力する文の数ｎの上限値をあらかじめ設定しておき、上限値を超えない数の文を出力する。

以上説明したＨＭＭとネットワーク文法を用いた音声認識の方法は、例えば、下記文献に詳しく記載されている。（文献）鹿野、伊藤、河原、武田、山本編著「音声認識システム」、オーム社（２００１）
図９に、例として、図４のキーワード認識文法を使用したときの音声認識部１５による認識結果１５０の例を示す。認識結果１５０には、スコア１５３の高い順番で認識文１５２が出力されている。

図１に戻って説明する。認識結果変換部１６は、音声認識部１５から送られた認識結果（後述する「認識キーワード」）を、変換表記憶部１７に記憶されている変換表１７０の規則に従って変換する。変換表１７０の構成については、後に詳細に述べる。認識結果変換部１６は、変換表１７０によって変換された認識結果（後述する「正解候補キーワード」）を、再認識指令部１８へ送る。

ただし、認識結果変換部１６は、音声認識部１５からの認識結果が再度行われた音声認識による認識結果であった場合、すなわち、施設名認識文法を用いた音声認識結果であった場合、音声認識部１５から受信した認識結果を最終結果として出力装置４０等に出力する。すなわち、音声認識部１５による２度目の音声認識結果が最終結果として出力装置４０等に出力されることになる。

再認識指令部１８は、認識結果変換部１６から認識結果を受け取ると、音声認識部１５に対して再度音声認識を行うように指示する。

以上、演算部１０の各機能部について説明した。なお、演算部１０は、中央演算装置（ＣＰＵ）と、メモリと、外部との通信を仲介するインタフェースと、これらを接続するバスと、からなるコンピュータにより構成可能である。演算部１０の各処理部１１〜１８は、ＣＰＵがメモリにロードしたプログラムを実行することにより達成される。そのため、メモリには、各処理のためのプログラムが予め格納されている。

次に、上記のように構成される音声認識システム１の動作について説明する。

図１０は、音声認識システム１の特徴的な動作の流れを示すフロー図である。なお、具体例として、ユーザは、カーナビゲーションの目的地として「晴海ふ頭公園」とマイク２０に対して発話したとする。そして、分析部１１により、ユーザが発話した音声データは、特徴ベクトル列に変換され、音声認識部１５に送られているとする。

まず、音声認識部１５は、キーワード認識処理を行う（Ｓ１０１）。具体的には、図４に示したような、施設名に多く含まれる単語（語彙）をキーワードとして持つキーワード認識文法を用いて、文を特定する。そして、特定した文（認識文）に含まれているキーワードを特定する。ここで特定したキーワードが、認識キーワードとなる。そして、音声認識部１５は、認識キーワードの信頼度を算出する。

例えば、キーワード認識文法を用いた認識の結果、「（ガーベージ）／ホケン／（ガーベージ）」及び「（ガーベージ）／エキ」という２つの認識文が得られたとする。この２つの認識文に含まれている「ホケン」及び「エキ」というそれぞれのキーワードが認識キーワードとなる。

認識キーワードの信頼度は、例えば、下記文献に記載の方法によって計算することとする。（文献）Ｂｏｕｗｍａｎ，ｅｔａｌ．：”ＩｎｃｏｒｐｏｒａｔｉｎｇｃｏｎｆｉｄｅｎｃｅｍｅａｓｕｒｅｓｉｎｔｈｅＤｕｔｃｈｔｒａｉｎｔｉｍｅｔａｂｌｅｉｎｆｏｒｍａｔｉｏｎｓｙｓｔｅｍｄｅｖｅｌｏｐｅｄｉｎｔｈｅＡＲＩＳＥｐｒｏｊｅｃｔ”，ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＣＡＳＳＰ，ｐｐ．４９３−４９６（１９９９）。

すなわち、ｎ個の認識文が得られており、それぞれの認識文のスコアも所定の方法で求められている。スコアがｉ番目に高い認識文のスコアをｓ（ｉ）で表す。音声認識部１５は、ｉ番目の認識文の信頼度ｐ_ｓ（ｉ）を下記の式（１）で計算する。

ただし、αは補正係数である。βは、認識文の信頼度の総和を１に正規化するための係数であり、下記式（２）

で計算される。音声認識部１５は、さらに、キーワードｗの信頼度ｐ_ｗ（ｗ）を下記の式（３）で計算する。

ただし、δ（ｗ，ｉ）は、ｉ番目の認識文にキーワードｗが存在すれば１、存在しなければ０となる値である。

式（１）及び（２）に従って計算した認識文の信頼度は、第１位の「（ガーベージ）／ホケン／（ガーベージ）」が「０．９」、第２位の「（ガーベージ）／エキ」が「０．１」であったとする。この信頼度を用いて、（３）の式によって計算したキーワードの信頼度は、「ホケン」が「０．９」となり、「エキ」が「０．１」となる。

こうして、キーワード認識が行われると、次に、認識結果変換部１６は、キーワード変換処理を行う（図１０のＳ１０２）。具体的には、得られた認識キーワードと、変換表記憶部１７の変換表１７０とを用いて、正解候補キーワードを求める。

図１１は、変換表１７０の一例を示す図である。変換表１７０には、認識キーワード１７０１各々の、正解候補キーワード１７０２各々との関係度１７０３が対応付けて格納されている。

変換表１７０は、認識キーワード１７０１と、その認識キーワード１７０１から推定される正解候補キーワード１７０２の関係を示している。関係度１７０３が大きいほど、その正解候補キーワード１７０２が正解である確率が高いことを示している。この変換表１７０は、例えば、事前に車内環境において採取された音声データを用い、その音声データでキーワード認識を行った結果から得られる認識結果の傾向に基づいて作成されたものである。例えば、「○○公園」という音声データに対して、認識結果として「ホケン」というキーワードが得られることが多いのであれば、認識キーワード「ホケン」と正解候補キーワード「コウエン」の関係度を高く設定しておく。

例えば、図１１の変換表１７０によれば、「ホケン」という認識キーワード１７０１の、「コウエン」という正解候補キーワード１７０２との関係度１７０３は、「０．４」である。同様に、「ホケン」という認識キーワード１７０１の、「エキ」、「ホケン」、及び「シゼン」という正解候補キーワード１７０２との関係度１７０３は、それぞれ、「０．０」、「０．６」、及び「０．０」である。また、「エキ」という認識キーワード１７０１に対する、「コウエン」、「エキ」、「ホケン」、及び「シゼン」という正解候補キーワード１７０２との関係度１７０３は、それぞれ、「０．０」、「１．０」、「０．０」、及び「０．０」となっている。

認識結果変換部１６は、こうして求められる関係度１７０３を用い、正解候補キーワード１７０２各々の信頼度を求める。具体的には、認識結果変換部１６は、変換表１７０２に登録されている正解候補キーワード１７０２各々について、Ｓ１０１で特定された認識キーワードの信頼度に、その認識キーワードとの関係度１７０３を掛けた値を求める。そして、認識結果変換部１６は、Ｓ１０１で得られた認識キーワードの全てについて、この値を求め、正解候補キーワード１７０２各々について、求めた値を合計し、正解候補キーワード１７０２各々の信頼度とする。

例えば、正解候補キーワード「コウエン」の信頼度は、下記の通り求められる。
（正解候補キーワード「コウエン」の信頼度）＝（認識キーワード「コウエン」の信頼度）×（認識キーワード「コウエン」と正解候補キーワード「コウエン」との関係度）
＋（認識キーワード「エキ」の信頼度）×（認識キーワード「エキ」と正解候補キーワード「コウエン」との関係度）
＋（認識キーワード「ホケン」の信頼度）×（認識キーワード「ホケン」と正解候補キーワード「コウエン」との関係度）
＋（認識キーワード「シゼン」の信頼度）×（認識キーワード「シゼン」と正解候補キーワード「コウエン」との関係度）
＝０．０×０．８＋０．１×０．０＋０．９×０．４＋０．０×０．２
＝０．３６
なお、上記式の通り、Ｓ１０１で認識キーワードとして得られなかったものは、その信頼度を「０」として計算式にあてはめる。

図１１の変換表を用いると、正解候補キーワード「コウエン」、「エキ」、「ホケン」、及び「シゼン」の信頼度は、それぞれ、「０．３６」、「０．１」、「０．５４」、及び「０．０」となる。ここで、認識結果変換部１６は、信頼度が「０」のものを正解候補キーワードから除外する。

次に、認識結果変換部１６は、再認識指令部１８に、正解候補キーワードをその信頼度とともに送る。再認識指令部１８は、音声認識部１５に対して、正解候補キーワードに基づいて施設名認識文法を選択して再度音声認識を行うように指示する。

これを受けて、音声認識部１５は、正解候補キーワードを含む施設名認識文法を用いて、分析部１１から取得したユーザの音声について、再度音声認識を行う（図１０のＳ１０３）。

例えば、音声認識部１５は、正解候補キーワードである「ホケン」、「コウエン」、及び「エキ」というキーワードを含む全国の施設名を登録した施設名認識文法を用いて、音声認識を実行する。この結果、「晴海ふ頭公園」という認識結果が得られることになる。

認識結果変換部１６は、再度、音声認識部１５から、この音声認識結果を受信する。そして、２度目の音声認識であるので、認識結果である施設名をユーザに通知するため、出力装置４０を介して出力する。また、ナビゲーション処理を行うナビゲーション処理部（不図示）に対して、「晴海ふ頭公園」という認識結果が得られたことを伝える。

以上、第１の実施形態について説明した。本実施形態によれば、最初のキーワード認識において、正しいキーワードが認識できなかった場合においても、変換表を利用することによって正解候補キーワードを推定する。そして、正解候補キーワードを含む認識文法を用いて最終的な音声認識結果を求める。したがって、誤認識が起こる確率を減らすことができる。

なお、本実施形態では、図１１の変換表１７０に記載した正解候補キーワードを４個に限定して説明したが、より多くの正解候補キーワードに対して関係度が付与されている場合には、関係度が付与されているすべての正解候補キーワードに対して本実施例で説明したものと同様の処理を行う。

＜第２の実施形態＞
第２の実施形態は、上記第１の実施形態と似た構成を備えているので、共通する部分については説明を省略する。

上記の図１０のキーワード認識処理Ｓ１０１においては、誤認識により、ユーザがキーワードを含む施設名を発話したにもかかわらず、認識結果に１つもキーワードが表れない場合がある。一方、ユーザがキーワードを含まない施設名を発話した場合に、認識結果に誤ってキーワードが現れる場合もある。

かかる場合に対応するため、本実施形態では、認識結果にキーワードが含まれていなかった場合（「認識キーワード無し」の場合）でも、キーワード変換処理Ｓ１０２において正解候補キーワードが求められるようにする。また、認識結果にキーワードが含まれていた場合でも、キーワード変換処理Ｓ１０２において正解候補キーワードが無い場合（「正解候補キーワード無し」の場合）に対応できるようにする。

図１２は、かかる場合に用いられる変換表１７１の例を示す図である。図示するように、変換表１７１には、認識キーワード１７１１各々の、正解キーワード１７１２各々との関係度１７１３が格納されている。さらに、認識キーワード無しの場合の正解候補キーワードとの関係度１７１４も格納されている。

この関係度１７１４は、実験において統計的に計算された値である。例えば、「ホケン」というキーワードが発話される場合に、キーワード認識の結果にキーワードが１つも表れない場合が多いという傾向がある場合には、認識キーワード無しに対する正解候補キーワード「ホケン」の関係度１７１４の値を高く設定しておく。これにより、施設名認識Ｓ１０３において、「ホケン」というキーワードを含む施設名認識文法が使用され、施設名を認識することができる。

また、変換表１７１では、何らかの認識キーワードが得られていた場合に、正解候補キーワード無しの場合に対応付けた関係度１７１５も格納されている。

この関係度１７１５は、実験において統計的に計算された値である。例えば、キーワードを１つも発話していないのに、認識キーワードに「シゼン」が表れやすい傾向がある場合には、関係度１７１５のように、認識キーワード「シゼン」と正解候補キーワード「（キーワード無し）」に対応する関係度の値を高く設定しておく。これにより、施設名認識Ｓ１０３において、図８に示したキーワードを１つも含まない施設名認識文法が使用され、キーワードを含まない施設名を認識することができる。

他の処理は、上記第１の実施形態と同様である。

本実施形態によれば、キーワード認識処理Ｓ１０１において、仮に認識結果のキーワードが１つも得られなかった場合においても、この変換表１７１により、ユーザが発話したであろうキーワードに対応する正解候補キーワードを求めることができる。そして、正解候補キーワードを含む施設名認識文法を用いて、正しい再認識を行うことが可能となる。また、認識結果にユーザが発話していないキーワードが誤って含まれていた場合でも、変換表１７１により、キーワードを含まない施設名文法を用いて、正しい再認識を行うことが可能となる。

＜第３の実施形態＞
第３の実施形態は、上記第１の実施形態と似た構成を備えているので、共通する部分については説明を省略する。

図１３は、本実施形態にかかる処理の流れを示すフロー図である。

なお、具体例として、ユーザは、カーナビゲーションの目的地として「東京駅」と発話したとする。

音声認識部１５は、上記第１の実施形態と同様にキーワード認識処理を実行する（Ｓ２０１）。ここでは、図４で示したキーワード認識文法の代わりに、図１４に示すようなキーワード認識文法を用いる。この文法は、再帰パス３１０により、１つの認識文にキーワードが複数出力することを可能とした文法である。このような文法は、キーワードの脱落を防ぐことができる長所を持つが、一方、ユーザが本来発話していないキーワードを出力することが多くなる短所を持つ。

例えば、音声認識部１５は、キーワード認識の結果、「（ガーベージ）／ホケン／（ガーベージ）／エキ」「シゼン／（ガーベージ）」という２つの認識文を得たとする。音声認識部１５は、この「ホケン」、「エキ」、及び「シゼン」というそれぞれのキーワードについて、上記第１の実施形態で説明したように、信頼度の計算を行う。ここで、音声認識部１５は、２つのキーワードの組み合わせについても信頼度を計算する。

例えば、認識結果の第１位の認識文が｛「ホケン」、「エキ」｝という２つのキーワードを含み、第２位の認識文が「シゼン」という１つのキーワードを含むとする。かかる場合、同一の認識文に含まれるキーワードの組み合わせは、｛「ホケン」、「エキ」｝であり、また異なる認識文に含まれるキーワードの組合せは、｛「ホケン」、「シゼン」｝、｛「エキ」、「シゼン」｝である。

そこで、音声認識部１５は、各キーワードの組み合わせに対する信頼度を、下記式で求める。
（キーワードの組み合わせの信頼度）＝（含まれているキーワードの信頼度の総和）÷（キーワードの数）
具体的には、音声認識部１５は、下記のように信頼度を計算できる。

ホケン−エキ（同一順位文中）：（０．９（ホケン）＋０．９（エキ））／２（単語数）＝０．９
ホケン−シゼン（異順位文間中）：（０．９（ホケン）＋０．１（シゼン））／２（単語数）＝０．５
エキ−シゼン（異順位文間中）：（０．９（エキ）＋０．１（シゼン））／２（単語数）＝０．５
こうして認識キーワード（「認識キーワードの組み合わせ」を含む）の信頼度が計算されると、次に、認識結果変換部１６は、変換表を用いて、キーワード変換処理（図１３のＳ２０２）を行う。

図１５は、本実施形態で用いられる変換表１７２の例を示す図である。変換表１７２には、認識キーワード（「認識キーワードの組み合わせ」を含む）１７２１各々の、正解候補キーワード１７２２各々との関係度１７２３が格納されている。

図１５の変換表１７２の例では、認識結果変換部１６は、同一順位文中の「ホケン−エキ」という２つの認識キーワードの組み合せに対して、正解候補キーワード１７２２の「エキ」、「ホケン」の関係度１７２３として、それぞれ、「０．２」、「０．３」を求めることができる。また、異順位文にある「ホケン−シゼン」という２つの認識キーワードの組み合せに対しては、正解候補キーワード１７２２の「エキ」、「ホケン」「シゼン」の関係度１７２３として、「０．１」、「０．０５」「０．１」を求めることができる。

そして、認識結果変換部１６は、上記第１の実施形態と同様に、各正解候補キーワード１７２２の信頼度を得る。

例えば、正解候補キーワード「ホケン」の信頼度は、下記式により求めることができる。

正解候補キーワード「ホケン」の信頼度＝
０．９（ホケン）×０．６（Ｔ１）
＋０．９（ホケン−エキ（同一順位文中））×０．３（Ｔ２）
＋０．５（ホケン−シゼン（異順位文間））×０．０５（Ｔ３）
＋０．１（シゼン）×０．０５（Ｔ４）
＝０．８４
同様に計算すると、正解候補キーワード「エキ」、「ホケン」、及び「シゼン」について、信頼度は、「０．７９５」、「０．８４」、及び「０．１７」となる。

そして、認識結果変換部１６は、正解候補キーワード１７２２の中から信頼度が「０」のものを除外する。上記の例では、正解候補キーワードとして、「エキ」、「ホケン」、及び「シゼン」が残る。

これに基づき、音声認識部１５は、上記第１の実施形態のＳ１０３と同様に、Ｓ２０２で特定した正解候補キーワード（上記例では、「エキ」、「ホケン」、「シゼン」）を含む全国施設名を登録した施設名認識文法を用いて、ユーザ発声データに対して再度音声認識を行い、施設名認識処理を行う（図１３のＳ２０３）。この認識の結果、「東京駅」が認識結果として得られる。

本実施形態では、キーワード認識の結果得られたキーワードの組合せに基づいて、変換表を用いて、正解候補キーワードを求めることができる。すなわち、誤認識に傾向があり、認識結果の認識キーワードの組み合わせパターンに固有の傾向がある場合に対しても、適切な認識文法の選定が可能となる。

なお、本実施形態では、図１５の変換表１７２での正解候補キーワードを「エキ」「ホケン」「シゼン」の３つに限定して説明したが、より多くの正解候補キーワードに対して関係度が付与されている場合には、関係度が付与されているすべての正解候補キーワードに対して本実施例で説明したものと同様の処理を行う。

＜第４の実施形態＞
第４の実施形態は、上記第１の実施形態と似た構成を備えているので、共通する部分については説明を省略する。

図１６は、本実施形態にかかる処理の流れを示すフロー図である。具体例として、ユーザは、カーナビゲーションの目的地として「晴海ふ頭公園」と発話したとする。

音声認識部１５は、上記第１の実施形態と同様に、キーワード認識処理を実行する（Ｓ３０１）。ここで用いられるキーワード認識文法は、図４に示した、施設名に多く含まれる単語をキーワードとして用いた認識文法である。キーワード認識の結果、スコアが所定値以上のものとして、「（ガーベージ）／ホケン／（ガーベージ）」「（ガーベージ）／エキ」という２つの認識文が得られたとする。音声認識部１５は、この「ホケン」、「エキ」というそれぞれの認識キーワードについて、上記第１の実施形態で説明したように、信頼度を計算する。

そして、認識結果変換部１６は、得られた認識キーワードに、図１１で示したような変換表１７０を適用し、正解候補キーワードの信頼度を求める。ここでは、正解候補キーワード「ホケン」、「コウエン」、及び「エキ」の信頼度は、それぞれ「０．５４」、「０．３６」、及び「０．１」となる。

次に、音声認識部１５は、得られた正解候補キーワードを含む全ての施設名認識文法を読み込み可能か否か判定する。具体的には、正解候補キーワードである「ホケン」「コウエン」「エキ」という単語が付く全国の施設名認識文法をメモリに読み込めるかどうかを調べる（Ｓ３０３）。

読み込める場合（Ｓ３０３でＮｏ）、音声認識部１５は、Ｓ３０５に処理を移行する。

一方、施設名の数が多いなど、メモリ上に読み込めないと判断した場合（Ｓ３０３でＹｅｓ）、音声認識部１５は、使用する施設名認識文法を選定する。ここでは、信頼度の高い順に正解候補キーワードを選択する。例えば、「ホケン」「コウエン」という２つのキーワードを含む施設名文法はメモリ上に読み込めるが、「エキ」はメモリ上限を超えて読み込めない場合、「ホケン」及び「コウエン」というキーワードを含む施設名認識文法のみをメモリに読み込むデータとして選択する（Ｓ３０４）。

Ｓ３０５では、上記第１の実施形態のＳ１０３と同様に、正解候補キーワードを含む施設名認識文法をメモリに読み込む。このとき、Ｓ３０４で選択処理がなされている場合は、選択された施設名認識文法のみを読み込む。すなわち、「ホケン」「コウエン」が選択された場合は、「ホケン」「コウエン」という２つのキーワードを含む施設名認識文法をメモリに読み込み、認識を実行することになる。これにより「晴海ふ頭公園」が決定する。

以上、本実施形態では、正解候補キーワードを含む全ての正解候補認識文法を利用できない場合においても、正解である確率が高いキーワードを含む正解候補認識文法だけを使うことによって、適切に認識を行うことができる。

なお、Ｓ３０４で正解候補キーワードを選定する方法としては、信頼度が高い順番で所定の個数を常に採用する方法でもよい。図１７には、上位２つを選ぶ場合の例を示している。

また、Ｓ３０４で正解候補キーワードを選定する方法としては、図１８に示すように、信頼度が所定値（例えば、０．２）以上のキーワードを選ぶ方法でもよい。

＜第５の実施形態＞
第５の実施形態は、上記第１の実施形態と似た構成を備えているので、共通する部分については説明を省略する。

図１９は、本実施形態にかかる処理の流れを示すフロー図である。なお、具体例として、ユーザは、カーナビゲーションの目的地として「自然子供の家」と発話したとする。

本実施形態では、認識文法を用いて得られた認識文の中の認識キーワードが出現した位置に配慮して、正解候補キーワードを求める。そのため、変換表に工夫をしている。

図２０は、変換表１７３の例を示す図である。図示するように、変換表１７３には、認識キーワード１７３１各々の、正解候補キーワード１７３２各々との関係度１７３３が格納されている。ただし、認識キーワード１７３１は、認識文の中での出現位置で分類され、それぞれに対応する正解候補キーワード１７３２各々との関係度１７３３が設定されている。

例えば、変換表１７３には、「ホテル」という認識キーワードについて、ｉ）「ホテル−（ガーベージ）」のように、認識文の中で語頭に表れた場合、ｉｉ）「（ガーベージ）−ホテル−（ガーベージ）」のように、認識文の中で語中に表れた場合、ｉｉｉ）「（ガーベージ）−ホテル」のように、認識文の中で語尾に表れた場合、の３つ場合について、正解候補キーワード１７３２との関係度１７３３が設定されている。

まず、音声認識部１５は、図４に示したようなキーワード認識文法を用いて、キーワード認識処理を実行する（図１９のＳ４０１）。そして、音声認識部１５は、上記第１の実施形態と同様に、得られた認識キーワードの信頼度を計算する。

次に、認識結果変換部１６は、認識キーワードを、変換表１７３を用いて、正解候補キーワードに変換する（Ｓ４０２）。ここで、認識結果変換部１６は、認識キーワードの信頼度に、認識キーワードと正解候補キーワードとの関係度を乗じて、正解候補キーワードの信頼度を求める。なお、図２０の変換表１７３の例では、正解候補キーワードについても出現位置ごとに分類されている。かかる場合、認識結果変換部１６は、出現位置ごとに正解候補キーワードの信頼度を求めた後、同じ正解候補キーワードの信頼度を合計し、１つの正解候補キーワードについて１つの信頼度を求める。

ここで、キーワードの認識の結果、「（ガーベージ）／ホテル／（ガーベージ）」というように、認識文中の語中に認識キーワードが出現し、その信頼度が「１．０」であった場合について説明する。

認識結果変換部１６は、変換表１７３を用いて、かかる認識キーワードに対応する、正解候補キーワード１７３２との関係度１７３３を求める。ここで、認識結果では、キーワード「ホテル」は、語中に現れている。そこで、図２０の変換表１７３から、認識キーワード「（ガーベージ）／ホテル／（ガーベージ）」に対応する関係度１７３３を求める。そして、認識キーワードの信頼度と乗算して、正解候補キーワードの信頼度を求める。さらに、認識結果変換部１６は、信頼度が「０」である正解候補キーワードを除外する。すると、「ホテル」、「シゼン」という２つのキーワードが正解候補キーワードとして得られる。

そして、音声認識部１５は、上記第１の実施形態と同様に、得られた正解候補キーワードを含む全国の施設名認識文法を用いて、施設名認識処理を行う（Ｓ４０３）。この結果、「ホテル」「シゼン」というキーワードを含む施設名認識文法を用いて認識することになり、「自然子供の家」が決定される。

次に、図２１のフロー図を用いて、認識キーワードが認識文において語尾に現れた場合について説明する。なお、ユーザは「旭川グランドホテル」と発話したとする。

音声認識部１５は、図４に示したキーワード認識文法によって、キーワード認識を実行する（Ｓ５０１）。キーワード認識の結果、「（ガーベージ）／ホテル」というキーワードが得られたとする。音声認識部１５は、上記第１の実施形態と同様に、認識キーワードの信頼度を計算する。そして、認識結果変換部１６は、キーワード変換処理（Ｓ５０２）を行う。

ここで、認識キーワード「ホテル」は、認識文において、語尾に現れている。そこで、認識結果変換部１６は、キーワード変換処理Ｓ５０２では、図２０の変換表１７３から、「（ガーベージ）／ホテル」に対応する関係を参照する。すると、関係度１７３３が「０」でない正解候補キーワード１７３２として、「（ガーベージ）−ホテル−（ガーベージ）」［０．１］、「ホテル−（ガーベージ）」［０．１］、「（ガーベージ）−ホテル」［０．８］の３つの正解候補キーワードが求められる。これらの結果に、それぞれ、認識キーワードの信頼度「１．０」を掛けて、正解候補キーワードの信頼度を算出する。結局、信頼度が「０」でない正解候補キーワードとして、「ホテル」が求められる。

その結果、音声認識部１５は、施設名認識では、「ホテル」という単語を含む施設名認識文法を用いて認識を行い、「旭川グランドホテル」が確定する。

一般にキーワード認識では、語頭や語尾に付いたキーワードのほうが、語中のものよりも認識率が高い。よって、変換表には、認識キーワードが認識文の語尾や語頭に表れた場合に、その認識キーワードが正解候補キーワードと採用され易くなるように、関係度を高めに設定しておく。こうすることで、他のキーワードとして誤認識される確率が減少する。また、余分な認識文法を読み込むことを防ぎ、消費メモリを抑えることができる。

さらに変形例として、正解候補キーワードが現れる出現位置に応じて、再度の音声認識（施設名認識処理Ｓ４０３、又はＳ５０３）で用いる施設名認識文法を変更するようにしてもよい。

例えば、言語モデル記憶部１４には、予め、図２２に示すように、正解候補キーワードの出現位置に応じた正解候補認識文法が格納されている。本図は、キーワード「ホテル」が、語頭、語尾、語中に表れた場合に応じて格納されている施設名認識文法である。

かかる場合、認識結果変換部１６は、図２０で示したような変換表１７３を用いて、出現位置が規定された正解候補キーワードを得る。そして、音声認識部１５は、得られた正解候補キーワードを含む施設名認識文法のうち、正解候補キーワードの出現位置に対応する施設名認識文法を選択して用いて、２度目の音声認識（Ｓ５０３）を行う。これにより、正解が含まれる可能性が少ない施設名認識文法を読み込むことを防ぎ、消費メモリの低減を行うことが可能である。

なお、図２０に示したような変換表におけるキーワードの出現位置の記載方法は、本図で示した３状態に限定するものではない。たとえば、キーワードの出現位置が、発話検出開始時刻から発話端検出終了時刻までの時間に対する割合で記述されていてもよい。

また、本実施形態では、図２０の変換表１７３での正解候補キーワードを「ホテル」「シゼン」の２つに限定して説明したが、より多くの正解候補キーワードに対して関係度が付与されている場合には、関係度が付与されているすべての正解候補キーワードに対して本実施例で説明したものと同様の処理を行う。

＜第６の実施形態＞
第６の実施形態は、上記第１の実施形態と似た構成を備えているので、共通する部分については説明を省略する。

本実施形態では、図１０のキーワード変換処理Ｓ１０２において使用する変換表を選定する。

誤認識の傾向は、発話する話者によって異なる。また、同一の話者であっても、話し方や発話する言葉により誤認識の傾向が異なる。そこで、本実施形態では、こういった話者の声に適した変換表を読み込む。そのため、変換表記憶部１７には、あらかじめ、話者や発話状況を変えたときの発話データを集め、その誤認識傾向を解析して作成された、発話者タイプごとの変換表が格納されている。

また、誤認識の傾向は、車内の騒音環境によっても誤認識の傾向が変化する。よって、ユーザ音声による変換表の選択だけでなく、車内の騒音環境に応じて選択してもよい。変換表記憶部１７には、あらかじめ異なる車内環境において認識した結果から誤認識傾向を解析することで作成された、環境対応タイプごとの変換表が格納されている。

音声認識システム１の演算部１０には、図２３に示すように、認識結果変換部１６に加えて、ユーザ音声分析部１６１と、ユーザ情報設定部１６２と、ユーザ情報判別部１６６と、騒音状況分析部１６３と、ウインドウ状態監視１６４と、速度監視部１６５と、環境情報判別部１６７と、変換表選択部１６８と、を備えている。

ユーザ音声分析部１６１は、ユーザの発話の特徴を抽出する。抽出する特徴としては、ユーザの声質、発話長、声の大きさ、ピッチパターンなどである。

ユーザ情報設定部１６２は、ユーザの音声情報以外から話者情報を推定する部分である。例えば、カーナビゲーションに複数人数の声を登録しておく機能を用意し、ユーザ自身に、自分は誰であるかを運転するたびに入力してもらう。また、カメラ画像を用いたユーザ推定を用いても良い。

ユーザ情報判別部１６６は、ユーザ音声分析部１６１及びユーザ情報設定部１６２からの話者情報を総合して、発話者タイプを決定する。具体的には、ユーザ情報判別部１６６は、予め、ユーザの声質、発話長、声の大きさ、ピッチパターンに対応させた、発話者タイプを特定するための対応表を保持しており、ユーザ音声分析部１６１からの情報と合致する発話者タイプを特定する。また、ユーザ情報設定部１６２から発話者を特定する情報を取得した場合、予め保持している発話者と発話者タイプの対応表を用いて、発話者タイプを特定する。

騒音状況分析部１６３は、マイク２０から入った音声から、騒音の大きさや周波数特性などを分析する。また、車内の騒音状況は、その速度やウインドウの開閉などによっても変化するため、車両のウインドウの開閉装置に連結したウインドウ状態監視部１６４、及び車両の速度測定装置に連結した速度監視部１６５によって、それらの状況を監視する。

環境情報判別部１６７は、騒音状況分析部１６３と、ウインドウ状態監視部１６４と、速度監視部１６５とからの環境情報を総合して、環境タイプを特定する。なお、環境情報判別部１６７は、環境情報から環境タイプを特定するための対応表を予め保持している。

変換表選択部１６８は、発話者タイプ及び環境タイプに対応する変換表を特定するための対応表を保持している。そして、この対応表を用いて、ユーザ情報判別部１６６から受け付けた発話者タイプ、及び環境情報判別部１６７から受け付けた環境タイプに対応する変換表を選び、認識結果変換部１６に通知する。

なお、変換表選択部１６８は、発話者タイプ及び環境タイプのいずれか一方に基づいて、認識結果変換部１６で使用される変換表を決定してもよい。

本実施形態によれば、話者の声の条件ごとに異なる変換表を使用することにより、より高い認識率を実現することができる。また、車内の騒音環境の条件ごとに異なる変換表を使用することにより、より高い認識率を実現することができる。

以上、いくつかの実施形態について説明したが、上記実施形態は、様々な変形が可能である。また、それぞれの実施形態は、適宜、組み合わせて実施されてもよい。

本発明の一実施形態における音声認識システムの構成図である。音素ごとの音響モデルの例を示す図である。辞書の例を示す図である。キーワード認識に使用する認識文法の例を示す図である。音響モデルの連結の例を示す図である。音響モデルの連結の例を示す図である。キーワードを含む施設名を登録した認識文法（施設名認識文法）の例を示す図である。キーワードを含まない施設名を登録した認識文法の例を示す図である。キーワード認識の認識結果の例を示す図である。処理手順を示すフローチャートである。キーワードの変換に使用する変換表の例である。キーワードの変換に使用する変換表の例である。処理手順を示すフローチャートである。再帰パスを含むキーワード認識文法の例を示す図である。キーワードの変換に使用する変換表の例である。処理手順を示すフローチャートである。正解候補キーワードを選定する例を示す図である。正解候補キーワードを選定する例を示す図である。処理手順を示すフローチャートである。キーワードの変換に使用する変換表の例である。処理手順を示すフローチャートである。キーワードの出現位置に応じた施設名認識文法の例を示す図である。音声認識システムの構成図の一部である。

符号の説明

１・・・音声認識システム、１０・・・演算部、２０・・・マイク、３０・・・入力装置、４０・・・出力装置、
１１・・・分析部、１２・・・音声データ記憶部、１３・・・音響モデル記憶部、１４・・・言語モデル記憶部、１５・・・音声認識部、１６・・・認識結果変換部、１７・・・変換表記憶部、１８・・・再認識指令部

Claims

音声認識装置であって、
ユーザが発話した音声に基づいて音声データを取得する手段と、
頻出単語であるキーワードを含む第１の文法を用いて前記音声データに含まれるキーワードを認識する第１の音声認識手段と、
前記第１の音声認識手段で認識したキーワードに対して、予め定められた変換表を用いて、正解候補キーワードを求めるキーワード変換手段と、
前記キーワード変換手段で求めた正解候補キーワードを含む第２の文法を用いて前記音声データに含まれる単語を認識する第２の音声認識手段と
を備えることを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
前記変換表には、前記第１の音声認識手段でキーワードが認識されなかった場合及び／又はキーワードが誤って認識された場合のための正解候補キーワードが記述されている
ことを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
前記変換表には、複数のキーワードの組合せに対して、正解候補キーワードが対応付けられており、
前記キーワード変換手段は、
前記第１の音声認識手段で認識されたキーワードから、キーワードの組み合わせを生成し、生成したキーワードの組み合わせに対して、前記変換表を用いて、正解候補キーワードを求める
ことを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
前記第２の音声認識手段は、
前記キーワード変換手段により求められた前記正解候補キーワードの中から、所定の数以下の正解候補キーワードを選定し、
選定した正解候補キーワードを含む前記第２の文法を読み込んで前記音声データに含まれる単語を認識する
ことを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
前記第２の音声認識手段は、
前記正解候補キーワードを含む前記第２の文法の中から、所定量の第２の文法を選定し、選定した第２の文法を読み込んで前記音声データに含まれる単語を認識する
ことを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
前記音声認識部は、
前記正解候補キーワードの中から、所定の方法で計算した信頼度が所定の値以上である正解候補のキーワードを選定し、
選定した正解候補キーワードを含む第２の文法を読み込んで前記音声データに含まれる単語を認識する
ことを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
前記第１の音声認識手段は、前記音声データに含まれているキーワードとともにその出現位置を認識し、
前記変換表には、前記第１の音声認識手段により認識されるキーワードについて、出現位置に対応して、正解候補キーワードが記述されており、
前記キーワード変換手段は、
前記変換表を用いて前記第１の音声認識手段で認識したキーワードとその出現位置に対応する正解候補キーワードを求める
ことを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
ユーザから取得した情報を用いて、前記キーワード変換手段で用いられる変換表を選択する変換表選択手段を備えている
ことを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
環境情報を取得する環境情報取得手段と、
前記環境情報を用いて、前記キーワード変換手段で用いられる変換表を選択する変換表選択手段を備えている
ことを特徴とする音声認識装置。