JP2005157166A

JP2005157166A - 音声認識装置、音声認識方法及びプログラム

Info

Publication number: JP2005157166A
Application number: JP2003398592A
Authority: JP
Inventors: Toshihiro Wakita; 敏裕脇田
Original assignee: Toyota Central R&D Labs Inc
Current assignee: Toyota Central R&D Labs Inc
Priority date: 2003-11-28
Filing date: 2003-11-28
Publication date: 2005-06-16

Abstract

【課題】ユーザに発話の煩わしさを感じさせることなく、高精度に音声を認識する。
【解決手段】信頼度判定部５０は、音声認識結果の地名（例えば、中区）の信頼度が高く、店名の信頼度が低いと判定した場合、［中区、＊］という認識リストを作成する。確認応答生成部９０は、ユーザに店名の再発話を促すような確認応答文を生成し、スピーカ１２０を介して音声出力する。音節認識部４０は、ユーザが発話した各々の音節を認識して、認識した単語（例えば、尾張屋）を検索部１００に供給する。認識リストに含まれている“＊”を、音節認識部４０で認識された「尾張屋」に置き換えて、中区にある尾張屋を検索する。
【選択図】図１

Description

本発明は、音声認識装置、音声認識方法及びプログラムに係り、特に、連続発声認識及び単音節発声認識を行う音声認識装置、音声認識方法及びプログラムに関する。

従来、ソフトウェア又はハードウェアで構成された音声認識装置が提案されている。音声認識装置は、一般に、ユーザが自然に（連続的に）発声した音声を用いて音声認識を行い、認識結果を出力するものである。

一般に、音声認識装置は、連続音声については誤認識することが多かった。特に、認識辞書中の認識語彙数が増大するにともなって、誤認識率が高くなっていた。

たとえば、日本全国の施設名（「××ランド」「○○大学」「△△王将」など１０００万件以上が存在する）のような大語彙を認識すると、誤認識が多くなってしまうので、実用的でないという問題があった。よって、音声認識装置を実用的に用いることができるのは、少ない語彙を認識する場合に限られていた。

一方、孤立音節発声（「な、ご、や」のような単音節で区切った発声）は、発声における音節と音節との境界（例：「な」と「ご」の境界）を検出することが容易であるため、高い認識率を得られる可能性がある。そこで、単音節発声を利用した方法が提案されてきた（例えば、特許文献１及び特許文献２を参照。）。

特許文献１に記載された音声認識装置は、音節に区切って発声された音声を認識し、この認識結果を用いて連続発声された音声を認識することにより、高精度に認識するものである。

特許文献２に記載された音声認識装置は、ユーザの単音節発声に基づいて音節単位のディジタルデータを記憶する。そして、上記音声認識装置は、音節単位のディジタルデータを用いてユーザの連続発声を認識することで、音節区切り判定を容易にして、次音節との混同を防いでいる。
特開平１０−３４００９６号公報特開平１１−２１９１９４号公報

しかし、特許文献１に記載された音声認識装置では、ユーザは、単音節発声をした後に、必ず連続発声もしなければならないため、非常に煩わしいとう問題があった。

特許文献２に記載された音声認識装置では、ユーザは、前処理として、すべての音節について発声しなければならない。単音節発声は、ユーザにとって不自然であり、また発声が難しい。このため、ユーザは、非常に多くの単音節を発声しなければならないため、非常に煩わしい問題があった。

本発明は、上述した課題を解決するために提案されたものであり、ユーザに発話の煩わしさを感じさせることなく、高精度に音声を認識することができる音声認識装置、音声認識方法及びプログラムを提供することを目的とする。

上述した課題を解決するために、本発明に係る音声認識装置は、連続発声された音声を認識する連続音声認識手段と、前記連続音声認識手段により認識された音声の信頼度を算出する信頼度算出手段と、前記信頼度が低いときに音節発声された音声を認識する音節認識手段と、前記信頼度が高いときは前記連続音声認識手段により認識された音声を認識結果として出力し、前記信頼度が低いときは前記音節認識手段により認識された音声を認識結果として出力する認識結果出力手段と、を備えている。

本発明に係る音声認識方法は、連続発声された音声を認識する連続音声認識工程と、前記連続音声認識工程で認識された音声の信頼度を算出する信頼度算出工程と、前記信頼度が高いときに、前記連続音声認識工程により認識された音声を認識結果として出力する認識結果出力工程と、前記信頼度が低いときに、音節発声された音声を認識して認識結果として出力する音節認識工程と、を備えている。

本発明に係る音声認識プログラムは、コンピュータを、連続発声された音声を認識する連続音声認識手段と、前記連続音声認識手段により認識された音声の信頼度を算出する信頼度算出手段と、前記信頼度が低いときに音節発声された音声を認識する音節認識手段と、前記信頼度が高いときは前記連続音声認識手段により認識された音声を認識結果として出力し、前記信頼度が低いときは前記音節認識手段により認識された音声を認識結果として出力する認識結果出力手段と、して機能させる。

連続音声認識手段は、話者によって連続的に発声された音声、例えば、会話文、定型文などの音声を認識する。そして、信頼度算出手段は、連続音声認識手段により認識された音声の信頼度を算出する。

一方、音節認識手段は、連続音声認識手段で認識された音声の信頼度が低いときに、話者によって音節発声された音声を認識する。したがって、音節認識手段は、その信頼度が高いときは、音声認識処理を行わない。

認識結果出力手段は、連続音声認識手段で認識された音声の信頼度が高い場合、その認識された音声を認識結果としてそのまま出力する。一方、連続音声認識手段で認識された音声の信頼度が低い場合、連続音声認識手段で認識された音声には誤りが含まれている可能性が高いので、認識結果出力手段は、音節認識手段により認識された音声を認識結果として出力する。

したがって、上記発明によれば、連続音声認識手段により認識された音声の信頼度が高いときはその認識された音声を認識結果として出力し、その信頼度が低いときは音節認識手段により認識された音声を認識結果として出力することにより、話者の音節発話の負担を低減し、かつ認識率を向上することができる。

ここで、前記音声認識装置は、前記信頼度が低いときに話者に音節発声を指示する音節発声指示手段を更に備え、前記音節認識手段は、前記音節発声指示手段により音節発声が指示された後に、音節発声された音声を認識してもよい。

また、前記音声認識方法は、前記信頼度が低いときに話者に音節発声を指示する音節発声指示工程を更に備え、前記音節認識工程では、前記音節発声指示工程で音節発声が指示された後に、音節発声された音声を認識してもよい。

さらに、前記音声認識プログラムは、前記コンピュータを、前記信頼度が低いときに話者に音節発声を指示する音節発声指示手段として更に機能させ、前記音節認識手段は、前記音節発声指示手段により音節発声が指示された後に、音節発声された音声を認識してもよい。

音節発声指示手段は、連続音声認識手段により認識された音声の信頼度が低いときに話者に音節発声を指示することができれば特に限定されず、音声、画像、これら両方を用いてもよい。また、話者は、認識された音声の信頼度が低いときだけ、音節発声をすればよいので、発声の煩わしさが必要最小限で済む。

音節認識手段は、音節発声指示手段により音節発声が指示された後に、話者が指示された内容に沿って音節発声された音声を認識する。よって、音節認識手段は、「えーっと、」、「…でお願いします」などの不要語が含まれていない音声を認識するので、認識率を高く維持できる。

したがって、上記発明によれば、認識された音声の信頼度が低いときに話者に音節発声を指示し、音節発声が指示された後に、音節発声された音声を認識することにより、話者の発話の煩わしさを最小限に抑制しつつ、高精度に音声を認識することができる。

さらに、上記音声認識装置において、前記連続音声認識手段は、複数の単語を含んだ文字列の音声を認識し、前記信頼度算出手段は、前記連続音声認識手段により認識された文字列に含まれた単語毎に信頼度を算出し、前記音節発声指示手段は、前記文字列に含まれた複数の単語のうち信頼度が低い単語について、話者に音節発声を指示し、前記認識結果出力手段は、前記連続音声認識手段により認識された信頼度が高い単語と、前記音節認識手段により認識された単語とに基づいて、前記文字列の認識結果を出力してもよい。

本発明に係る音声認識方法は、複数の単語を含んだ文字列の音声を認識する連続音声認識工程と、前記連続音声認識工程で認識された文字列に含まれた単語毎に信頼度を算出する信頼度算出工程と、前記文字列に含まれた複数の単語のうち信頼度が低い単語について、話者に音節発声を指示する音節発声指示工程と、前記音節発声指示工程で音節発声が指示された後に、音節発声された音声を認識する音節認識工程と、前記連続音声認識工程により認識された信頼度が高い単語と、前記音節認識工程により認識された単語とに基づいて、前記文字列の認識結果を出力する認識結果出力工程と、を備えている。

また、上記音声認識プログラムにおいて、前記連続音声認識手段は、複数の単語を含んだ文字列の音声を認識し、前記信頼度算出手段は、前記連続音声認識手段により認識された文字列に含まれた単語毎に信頼度を算出し、前記音節発声指示手段は、前記文字列に含まれた複数の単語のうち信頼度が低い単語について、話者に音節発声を指示し、前記認識結果出力手段は、前記連続音声認識手段により認識された信頼度が高い単語と、前記音節認識手段により認識された単語とに基づいて、前記文字列の認識結果を出力してもよい。

連続音声認識手段は、複数の単語を含んだ文字列の音声を認識する。この文字列は、定型文であってもよいし、複数の単語を単に並べただけものであってもよい。信頼度算出手段は、連続音声認識手段により認識された文字列に含まれた単語毎に信頼度を算出する。

音節発声指示手段は、前記文字列に含まれた複数の単語のうち信頼度が低い単語について、話者に音節発声を指示する。したがって、音節発声指示手段は、連続音声認識手段により認識された単語の信頼度が低いときは、その単語が誤って認識された可能性が高いため、その単語について音節発声を指示する。

認識結果出力手段は、連続音声認識手段により認識された信頼度が高い単語と、音節認識手段により認識された単語とに基づいて、話者が最初に発話した文字列の認識結果を出力する。つまり、認識結果出力手段は、２つの認識手段で得られた認識結果のうち信頼度の高い認識結果を組み合わせて出力する。

したがって、上記発明によれば、連続音声認識により認識された複数の単語を含んだ文字列について、その中に含まれた単語毎に信頼度を算出し、信頼度が低い単語について話者に音節発声を指示し、連続音声認識により認識された信頼度が高い単語と音節認識により認識された単語とに基づいて、文字列の認識結果を出力することにより、話者の音節発話の負担を低減し、かつ認識率を向上することができる。

本発明に係る音声認識装置、音声認識方法及びプログラムは、連続音声認識により認識された音声の信頼度が高いときはその認識された音声を認識結果として出力し、その信頼度が低いときは音節認識により認識された音声を認識結果として出力することにより、話者の音節発話の負担を低減し、かつ認識率を向上することができる。

以下、本発明を実施するための最良の形態について、図面を参照しながら詳細に説明する。

図１は、本発明の実施形態に係るナビゲーション装置を示すブロック構成図である。図２乃至図５は、ナビゲーション装置の動作中のブロックを示す図である。

ナビゲーション装置は、音声で入力される地名及び店名に該当する店舗を検索し、その店舗を目的地として設定するものである。

ナビゲーション装置は、ユーザの発声に応じた音圧波形信号を生成するマイクロフォン１０と、音圧波形信号の出力先を切り替える切替スイッチ２０と、文発声（連続発声）を認識する文発声認識部３０と、音節発声を認識する音節認識部４０と、文発声の認識結果の信頼度（認識信頼度）を判定する信頼度判定部５０と、文発声に含まれた単語を認識する単語音声認識部６０と、店名辞書データベース７０と、地名辞書データベース８０と、ユーザに再発声を促すための応答文を生成する確認応答生成部９０と、店舗を検索する検索部１００と、店名及びそれに対応する緯度経度情報を記憶したデータベース１１０と、合成音声を出力するスピーカ１２０と、経路探索処理を行うナビゲーション部１３０とを備えている。

マイクロフォン１０は、ユーザの発話に応じて音圧波形信号を生成し、この音圧波形信号を切替スイッチ２０に供給する。

切替スイッチ２０は、端子ａ又は端子ｂに切替可能に構成され、信頼度判定部５０によってその切替が制御されている。切替スイッチ２０は、端子ａに切り替えられているときはマイクロフォン１０で生成された音圧波形信号を文発声認識部３０に供給し、端子ｂに切り替えられているときは音圧波形信号を音節認識部４０に供給する。なお、切替スイッチ２０は、初期状態では端子ａに切り替えられている。

文発声認識部３０は、音圧波形信号に基づいて文発声を認識する。文発声を認識する代表的手法として、文法認識方式とｎ−ｇｒａｍ認識方式が広く知られている。本実施形態では、文発声認識部３０は文法認識方式を用いている例を説明するが、ｎ−ｇｒａｍ認識方式を用いることができるのは勿論である。なお、文法認識方式とは、あらかじめ決められた文法の範囲で文発声を認識する文法的言語モデルをいう。ｎ−ｇｒａｍ認識方式とは、単語の生起確率が直前の（ｎ−１）個の単語のみに依存するとした統計的言語モデルをいう。

文発声認識部３０は、入力された文発声の音圧波形信号をテキスト文字列に変換する。そして、文発声認識部３０は、このテキスト文字列と、当該テキスト文字列が入力音声波形のどの部分に対応するかを表す情報とを、信頼度判定部５０に供給する。

なお、文発声をテキストに変換する音声認識技術は、ディクテーション技術として広く知られている技術である（例えば、鹿野清宏他「音声認識システム」オーム社（２００１）を参照。）。また、ディクテーション技術を用いることにより、入力された音圧波形信号のどの部分がどのテキスト文字（又はテキスト文字列）に対応するかを知ることができる。

一方、音節認識部４０は、ユーザが音節毎に発声した単語を認識する。具体的には、音節認識部４０は、マイクロフォン１０から入力された音節発声（たとえば「あ」「い」…）の音声波形信号をテキスト文字列に変換し、このテキスト文字列を検索部１００に供給する。なお、「あ」「い」などの単独で発声された音声を認識し文字列を出力する技術は「孤立単語認識技術」として広く知られている。

信頼度判定部５０は、店名のテキスト文字列と、音圧波形のうち店名に相当する部分の音圧波形信号とを、単語音声認識部６０に供給する。さらに、信頼度判定部５０は、地名のテキスト文字列と、音圧波形のうち地名に相当する部分の音圧波形信号とを、単語音声認識部６０に供給する。

また、信頼度判定部５０は、単語音声認識部６０によって得られた店名及び地名の認識結果とそれらの信頼度とに基づいて、地名及び店名を含んだ認識リストを作成する。認識リストは、信頼度の高い認識結果を用いて構成され、例えば［（地名）、（店名）］となる。なお、信頼度の低い認識結果がある場合、その認識結果の代わりに“＊”を用いる。

ここで、信頼度が高いとは、信頼度がある閾値以上のことをいい、認識結果が正しいと考えられる。信頼度が低いとは、信頼度がある閾値未満のことをいい、認識結果は誤りを含んでいる可能性が高い、又は認識不可であったと考えられる。

例えば、地名の認識信頼度が低く、店名の認識信頼度が高いときは、認識リストは［＊，（店名）］となる。逆に、地名の認識信頼度が高く、店名の認識信頼度が低いときは、認識リストは［（地名），＊］となる。地名及び店名の認識信頼度が共に低いときは、認識リストは［＊，＊］となる。

信頼度判定部５０は、このような認識リストを検索部１００に供給する。また、信頼度判定部５０は、認識リストに認識信頼度の低い単語が含まれているとき（“＊”が含まれているとき）は、その認識リストを確認応答生成部９０に供給する。信頼度判定部５０は、認識リストに“＊”が含まれているときは、切替スイッチ２０を端子ｂに切り替えるように制御する。

単語音声認識部６０は、店名辞書データベース７０を用いて、入力された部分音圧波形の音声認識を行い、店名を認識すると共にその認識信頼度を計算する。同様に、単語音声認識部６０は、地名辞書データベース８０を用いて、入力された部分音圧波形の音声認識を行い、地名を認識すると共にその認識信頼度を計算する。そして、単語音声認識部６０は、認識結果及びその信頼度を信頼度判定部５０に供給する。

なお、単語音声認識部６０において信頼度を計算する方法は、公知の技術を用いることができる（例えば、R.A.Shukkar and C.H.Lee. "Vocabulary independent discriminative utterance verification for nonkeyword rejection in subword based speech recognition", IEEE Trans., on Speech and Audio Processing, Vol.4, No.6,pp.420-429, (1996)を参照。）。

確認応答生成部９０は、認識信頼度の低い（又は認識されなかった）単語“＊”の発話を促すような確認応答文を生成する。具体的には、信頼度判定部５０から供給された“＊”のカテゴリ及びその数により以下のような動作を行う。

確認応答生成部９０は、“＊”が店名の場合（例えば［（地名）、＊］の場合）、「（地名）の何と言うお店でしょうか？『あいち』のように区切ってもう一度お願いします」という確認応答文を生成して、スピーカ１２０を介して出力する。

確認応答生成部９０は、“＊”が地名の場合（例えば［＊、（店名）］の場合）、「どこの（店名）でしょうか？『あいち』のように区切ってもう一度お願いします」という確認応答文を生成して、スピーカ１２０を介して出力する。

確認応答生成部９０は、＊が店名及び地名のそれぞれに対応する場合（例えば［＊、＊］の場合）、「もう一度お話ください」という確認応答文を生成して、スピーカ１２０を介して出力する。

検索部１００は、データベース１１０の中から認識リストに対応する店舗を検索する。そして、認識リストに対応する店舗の緯度経度情報をデータベース１１０から読み出して、ナビゲーション部１３０に供給する。ただし、検索部１００は、認識リストに“＊”が含まれる場合は、その“＊”を音節認識部４０で認識された文字列に置き換えて、店舗を検索する。

ナビゲーション部１３０は、店舗の緯度経度情報を用いて、現在位置から店舗位置までの経路を探索して、図示しないモニタにその経路を表示する。

以上のように構成されたナビゲーション装置は、ユーザの発話を以下の手順に従って認識する。本実施形態では、ユーザは、「中区の尾張屋」を目的地として設定したいものとする。

最初に、ユーザは、マイクロフォン１０に向かって、「えーっと、中区の尾張屋です」という文を発話したとする。このとき、マイクロフォン１０は、ユーザの発話に応じた音圧波形信号を、切替スイッチ２０を介して文発声認識部３０に供給する。なお、ユーザが発話する文は、上記の例に限らず、キーワードの配置が決められた定型文、キーワードを順に並べただけのもの、その他、自由文などであってもよい。

文発声認識部３０は、マイクロフォン１０から供給された文発声の音圧波形信号をテキスト文字列に変換する。文発声認識部３０は、このテキスト文字列と、当該テキスト文字列に対応する音圧波形信号とを、信頼度判定部５０を介して単語音声認識部６０に供給する。

単語音声認識部６０は、テキスト文字列、これに対応する音圧波形信号、店名辞書データベース７０又は地名辞書データベース８０を用いて、店名又は地名を認識すると共に、その認識信頼度を演算する。そして、これらの結果を信頼度判定部５０に供給する。

ここで、文発声認識部３０の音声認識率は必ずしも１００％ではないため、認識結果（テキスト文字列）に誤りが含まれている可能性がある。このため、単語音声認識部６０で認識された単語の中に、認識信頼度が低いものがある。そこで、信頼度判定部５０は、認識信頼度の高い単語のみを用いて、以下に説明するように認識リストを作成する。

（地名及び店名の認識信頼度が高い場合）
信頼度判定部５０は、地名と店名の両方の認識信頼度が高いと判定した場合、認識リスト［中区、尾張屋］を作成し、図２に示すように、この認識リスト［中区、尾張屋］を検索部１００に供給する。検索部１００は、認識リスト［中区、尾張屋］に基づいて、中区にある尾張屋を検索し、この尾張屋の緯度経度情報（例えば、北緯３５度００分００秒、東経１３８度１２分、３４秒）をナビゲーション部１３０に供給する。

（地名の認識信頼度が高く、店名の認識信頼度が低い場合）
信頼度判定部５０は、地名の信頼度が高く、店名の信頼度が低いと判定した場合、［中区、＊］という認識リストを作成する。そして、この認識リストを確認応答生成部９０及び検索部１００に供給する。

確認応答生成部９０は、ユーザに店名の再発話を促すような確認応答文（音声ガイダンス）、例えば「中区のなんというお店でしょうか？『あいち』のように区切ってもう一度お願いします」を生成し、図３に示すように、スピーカ１２０を介して音声出力する。これと同時に、信頼度判定部５０は、切替スイッチ２０を端子ｂに切り替える。

これにより、「えーっと」、「…をお願いします」などの音声認識処理に不要な語（不要語）を排除して、再認識処理に必要な単語（文発声認識部３０で認識されなかった単語のみ）の発声を促すことができる。

ユーザは、音声ガイダンスに従い「おわりや」のように発話する。マイクロフォン１０は、ユーザの音節毎の発話に応じた音圧波形信号を、切替スイッチ２０を介して音節認識部４０に供給する。

音節認識部４０は、マイクロフォン１０から切替スイッチ２０を介して供給された音圧波形信号に基づいて、ユーザが発話した各々の音節を認識する。このとき、音節認識部４０は、不要語のない、音節毎の音圧波形信号を認識するので、高い認識率を得ることができる。なお、ここでは音節認識部４０は、「尾張屋」を認識したものとする。

検索部１００は、図４に示すように、信頼度判定部５０で作成された認識リスト［中区、＊］に含まれている“＊”を、音節認識部４０で認識された「尾張屋」に置き換えて、新たな認識リスト［中区、尾張屋］を生成する。そして、検索部１００は、認識リスト［中区、尾張屋］に基づいて、中区にある尾張屋を検索し、この尾張屋の緯度経度情報をナビゲーション部１３０に供給する。

（地名及び店名の認識信頼度が低い場合）
信頼度判定部５０は、地名と店名の両方の認識信頼度が低いと判定した場合、認識リスト［＊、＊］を作成して、確認応答生成部９０に供給する。確認応答生成部９０は、地名と店名の再発話を促すような音声ガイダンス、例えば「もう一度お話ください」を生成し、図５に示すように、スピーカ１２０を介して、音声出力する。これにより、ユーザは、再び連続発話を行う。

なお、信頼度判定部５０は、認識リスト［＊、＊］を作成すると同時に、切替スイッチ２０を端子ｂに切り替えることもできる。このとき、確認応答生成部９０は、音節毎に再発話を促すような音声ガイダンス、例えば「『あいち』のように区切ってもう一度お願いします」を生成してもよい。

これらの処理を経た後、ナビゲーション部１３０は、現在の自車両位置から、検索部１００で検索された緯度経度情報で表され店舗位置までの経路を探索して、図示しないモニタにその経路を表示する。

以上のように、本発明の実施形態に係るナビゲーション装置は、連続発声の音声認識を行い、その認識結果の信頼度が高い場合には、その認識結果をそのまま使用する。一方、その認識結果の中に認識信頼度の低い単語が含まれているときは、ユーザにその単語の音節発声を促して単音節認識を行い、連続発声認識及び音節認識を組み合わせることで、連続発声を認識する。

したがって、上記ナビゲーション装置は、ユーザにとって使い易いが認識率が低い連続音声認識処理と、ユーザにとってあまり使い易くないが認識率が高い音節認識処理とを組み合わせることにより、ユーザの使い易さを担保しつつ、認識率の向上を図ることができる。

特に、上記ナビゲーション装置は、連続音声認識の信頼度の低い単語について、ユーザに音節発声を促した後音節毎に認識することにより、音節認識に不要な単語をユーザに発話させないようにするので、音声認識率を向上することができる。また、上記ナビゲーション装置は、連続音声認識されなかった単語のみ音節発声をユーザに促すので、ユーザに対しては、慣れ親しんだ対話形式のユーザインタフェースを提供することができる。

なお、本発明は、上述した実施形態に限定されるものではなく、特許請求の範囲に記載された範囲内で設計上変更されたものにも適用可能である。例えば、本発明は次のようなものにも適用できる。

上記の実施形態では、本発明の一例として店舗を検索するナビゲーション装置を例に挙げて説明したが、本発明はこれに限定されるものではない。検索対象としては、上記の例に限らず、例えば、音楽曲名、人物、会社名などであってもよい。

また、本発明は、音声認識結果を使用するものであれば適用可能であり、例えば図１に示した検索部１００は必須ではない。

ナビゲーション装置は、「もう一度お話ください」などの音声ガイダンスを行ったが、ユーザに再発話を促すことができれば、音声に限定されるものではない。例えば、ナビゲーション装置は、ユーザに再発話を促す確認応答文をモニタに表示してもよい。さらに、音声及び画像の両方で確認応答文を出力してもよい。

また、文発声認識部３０は、文法認識方式の代わりに、ｎ−ｇｒａｍ認識方式を用いてもよい。これにより、不要語などを許容した自然な音声対話システムを構築することができる。

また、連続音声認識で使用される連続音声認識辞書（店名辞書データベース７０及び地名辞書データベース８０）と、音節認識部４０で使用される図示しない単音節認識辞書とは、同じである必要はない。例えば全国施設名を音声入力する場合においては、次のようにすればよい。

連続音声認識辞書の語彙については、例えば５０００語程度の頻出単語（例えば、「名古屋駅」、「○○博物館」など）とする。単音節認識辞書の語彙については、例えば１１５０万語のすべての地名を網羅した頻出単語以外の単語（例えば、「ヘアクリニックワキタ」など）とする。

図６は、上記のように語彙数の異なる認識辞書を用いたときの音声認識処理の内容を示す図である。ユーザが頻出単語を発話した場合は、連続音声認識処理で認識された単語がそのまま認識結果として使用される。一方、ユーザが頻出単語以外の単語を発話した場合は、連続音声認識処理から単音節認識処理に移行し、単音節認識処理で認識された単語が認識結果として使用される。よって、ユーザが頻出単語を発話した場合は、音声認識処理が短時間で終了する、という効果が得られる。

また、上述した音声認識処理を実行する音声認識プログラムをコンピュータにインストールして、そのコンピュータに切替スイッチ２０、文発声認識部３０、音節認識部４０、信頼度判定部５０、単語音声認識部６０、店名辞書データベース７０、地名辞書データベース８０、確認応答生成部９０の機能を実行させてもよい。

なお、上記コンピュータは、通信回線を介して伝送された音声認識プログラムをインストールしてもよいし、光ディスク、磁気ディスク、半導体メモリなどの記録媒体に記録された音声認識プログラムをインストールしてもよい。

本発明の実施形態に係るナビゲーション装置を示すブロック構成図である。ナビゲーション装置の動作中のブロックを示す図である。ナビゲーション装置の動作中のブロックを示す図である。ナビゲーション装置の動作中のブロックを示す図である。ナビゲーション装置の動作中のブロックを示す図である。語彙数の異なる認識辞書を用いたときの音声認識処理の内容を示す図である。

符号の説明

１０マイクロフォン
２０切替スイッチ
３０文発声認識部
４０音節認識部
５０信頼度判定部
６０単語音声認識部
７０店名辞書データベース
８０地名辞書データベース
９０確認応答生成部
１００検索部
１１０データベース
１２０スピーカ
１３０ナビゲーション部

Claims

連続発声された音声を認識する連続音声認識手段と、
前記連続音声認識手段により認識された音声の信頼度を算出する信頼度算出手段と、
前記信頼度が低いときに音節発声された音声を認識する音節認識手段と、
前記信頼度が高いときは前記連続音声認識手段により認識された音声を認識結果として出力し、前記信頼度が低いときは前記音節認識手段により認識された音声を認識結果として出力する認識結果出力手段と、
を備えた音声認識装置。
前記信頼度が低いときに話者に音節発声を指示する音節発声指示手段を更に備え、
前記音節認識手段は、前記音節発声指示手段により音節発声が指示された後に、音節発声された音声を認識する
請求項１に記載の音声認識装置。
前記連続音声認識手段は、複数の単語を含んだ文字列の音声を認識し、
前記信頼度算出手段は、前記連続音声認識手段により認識された文字列に含まれた単語毎に信頼度を算出し、
前記音節発声指示手段は、前記文字列に含まれた複数の単語のうち信頼度が低い単語について、話者に音節発声を指示し、
前記認識結果出力手段は、前記連続音声認識手段により認識された信頼度が高い単語と、前記音節認識手段により認識された単語とに基づいて、前記文字列の認識結果を出力する
請求項２に記載の音声認識装置。
連続発声された音声を認識する連続音声認識工程と、
前記連続音声認識工程で認識された音声の信頼度を算出する信頼度算出工程と、
前記信頼度が高いときに、前記連続音声認識工程により認識された音声を認識結果として出力する認識結果出力工程と、
前記信頼度が低いときに、音節発声された音声を認識して認識結果として出力する音節認識工程と、
を備えた音声認識方法。
前記信頼度が低いときに話者に音節発声を指示する音節発声指示工程を更に備え、
前記音節認識工程では、前記音節発声指示工程で音節発声が指示された後に、音節発声された音声を認識する
請求項４に記載の音声認識方法。
複数の単語を含んだ文字列の音声を認識する連続音声認識工程と、
前記連続音声認識工程で認識された文字列に含まれた単語毎に信頼度を算出する信頼度算出工程と、
前記文字列に含まれた複数の単語のうち信頼度が低い単語について、話者に音節発声を指示する音節発声指示工程と、
前記音節発声指示工程で音節発声が指示された後に、音節発声された音声を認識する音節認識工程と、
前記連続音声認識工程により認識された信頼度が高い単語と、前記音節認識工程により認識された単語とに基づいて、前記文字列の認識結果を出力する認識結果出力工程と
を備えた音声認識方法。
コンピュータを、
連続発声された音声を認識する連続音声認識手段と、
前記連続音声認識手段により認識された音声の信頼度を算出する信頼度算出手段と、
前記信頼度が低いときに音節発声された音声を認識する音節認識手段と、
前記信頼度が高いときは前記連続音声認識手段により認識された音声を認識結果として出力し、前記信頼度が低いときは前記音節認識手段により認識された音声を認識結果として出力する認識結果出力手段と、
して機能させる音声認識プログラム。
前記コンピュータを、
前記信頼度が低いときに話者に音節発声を指示する音節発声指示手段として更に機能させ、
前記音節認識手段は、前記音節発声指示手段により音節発声が指示された後に、音節発声された音声を認識する
請求項７に記載の音声認識プログラム。
前記連続音声認識手段は、複数の単語を含んだ文字列の音声を認識し、
前記信頼度算出手段は、前記連続音声認識手段により認識された文字列に含まれた単語毎に信頼度を算出し、
前記音節発声指示手段は、前記文字列に含まれた複数の単語のうち信頼度が低い単語について、話者に音節発声を指示し、
前記認識結果出力手段は、前記連続音声認識手段により認識された信頼度が高い単語と、前記音節認識手段により認識された単語とに基づいて、前記文字列の認識結果を出力する
請求項８に記載の音声認識プログラム。