JP4790024B2

JP4790024B2 - 音声認識装置

Info

Publication number: JP4790024B2
Application number: JP2008549220A
Authority: JP
Inventors: 尚嘉竹裏
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2006-12-15
Filing date: 2007-10-04
Publication date: 2011-10-12
Anticipated expiration: 2027-10-04
Also published as: HK1135225A1; CN101558443A; US20100076751A1; CN101558443B; US8195461B2; JPWO2008072413A1; DE112007002665T5; DE112007002665B4; WO2008072413A1

Description

この発明は、発話された音声を認識する音声認識装置に関し、特に音声の誤認識に伴って発生する問題を低減させる技術に関する。

従来、音声認識を利用して各種指示を与えることができるカーナビゲーション装置が知られている。音声認識を利用しないカーナビゲーション装置では、一覧表示されたメニューから選択操作を行うことによりジャンル指定するのに対し、音声認識を利用したカーナビゲーション装置では、運転中など一覧表示を見ることができない状態であっても、例えばジャンル名称等を発話することによりジャンルを指定できる。

このような音声認識は、予め音声認識辞書に登録された語彙のみを認識できる技術であるため、音声認識による入力を行なう際には、ジャンルを表す言葉をユーザが正確に発話する必要がある。しかしながら、カーナビゲーション装置で検索対象とされるジャンルの数は、一般に、数十以上にのぼるため、ユーザは、カーナビゲーション装置で利用できるジャンルを覚えておくことは困難である。また、カーナビゲーション装置で利用できるジャンルと、タウンページやインターネットなど、ユーザが日常生活で目にするジャンルや他のカーナビゲーション装置で利用可能なジャンルとを区別することは困難である。

なお、関連する技術として、特許文献１は、施設名等の入力対象が不正確に発声された場合でも好適な音声認識ができる音声認識装置を開示している。この音声認識装置において、地図データ記憶手段は、各施設の正式名称を基本単語として記憶している。音声認識ユニットでは、基本単語内の派生キー文字列が検出され、このキー文字列を用いて基本単語が部分的に変形される。これにより基本単語と同じ施設を他の表現で表す派生単語が自動生成される。例えば、基本単語「静岡県立裾野高等学校」には、キー文字列「静岡県立」「高等学校」が含まれる。そして、派生単語「裾野高等学校」や「裾野高校」が生成される。このような派生単語および基本単語を認識対象に用いて音声認識が行われる。従って、対象ごとに１つの単語を記憶しておけばよくなる。

特開平１１−２０２８９１号公報

従来のカーナビゲーション装置に適用される音声認識装置では、上述した問題があるにもかかわらず、カーナビゲーション装置の機能として検索可能なジャンルを表現する語彙のみが音声認識辞書に登録されている。そのため、ユーザが、カーナビゲーション装置で利用できないジャンルを表す語を発話した場合、別の語に誤認識してしまい、カーナビゲーション装置がユーザの意図とは異なる挙動をするという問題が発生している。

本発明は、上述した問題を解消するためになされたものであり、その課題は、音声認識により動作する装置がユーザの意図とは異なる挙動をすることを防止できる音声認識装置を提供することにある。

上記目的を達成するために、この発明に係る音声認識装置は、検索対象とされる語彙がジャンル毎に格納されたジャンルデータベースを備えた車載機器用の音声認識装置であって、発話された音声を電気信号に変換し、発話データとして出力するマイクロフォンと、ジャンルデータベースで検索対象とされるジャンルの語彙を認識するための第１音声認識辞書と、ジャンルデータベースで検索対象外とされるジャンルの語彙を認識するための第２音声認識辞書と、マイクロフォンから送られてくる発話データと第１音声認識辞書および第２音声認識辞書に含まれる語彙とを照合することにより、発話された音声を認識する音声認識部と、音声認識部から認識結果として送られてくる語が、第２音声認識辞書に含まれる語彙と照合することにより得られた語である場合は、検索対象とされるジャンルの語でない旨を表すメッセージを提示情報として出力する対話制御部と、対話制御部から送られてくる提示情報を外部に提示する提示部を備えている。

この発明に係る音声認識装置によれば、ジャンルデータベースで検索対象とされるジャンルの語彙を認識するための第１音声認識辞書の他に、ジャンルデータベースで検索対象外とされるジャンルの語彙を認識するための第２音声認識辞書を備え、発話データと第１音声認識辞書および第２音声認識辞書を用いて発話された音声を認識し、この認識結果が第２音声認識辞書に基づき得られた場合は、検索対象とされるジャンルの語でない旨を表すメッセージを提示するように構成したので、ジャンルデータベースで検索不可能な語が発話された場合であっても、発話された語を正しく認識することができる。その結果、他の語に誤認識することによってカーナビゲーション装置がユーザの意図とは異なる挙動をするという問題を解消できる。また、認識結果が第２音声認識辞書に基づき得られた場合はその旨のメッセージが提示されるので、ユーザは、違和感なく音声認識機能を使用することができる。

この発明の実施の形態１に係る音声認識装置が適用されたカーナビゲーション装置の構成を示すブロック図である。この発明の実施の形態１に係る音声認識装置の動作を、対話制御処理を中心に示すフローチャートである。この発明の実施の形態２に係る音声認識装置が適用されたカーナビゲーション装置の構成を示すブロック図である。この発明の実施の形態２に係る音声認識装置の動作を、対話制御処理を中心に示すフローチャートである。この発明の実施の形態３に係る音声認識装置が適用されたカーナビゲーション装置の構成を示すブロック図である。この発明の実施の形態３に係る音声認識装置の動作を、対話制御処理を中心に示すフローチャートである。この発明の実施の形態４に係る音声認識装置が適用されたカーナビゲーション装置の構成を示すブロック図である。この発明の実施の形態４に係る音声認識装置の動作を、辞書更新処理を中心に示すフローチャートである。この発明の実施の形態５に係る音声認識装置が適用されたカーナビゲーション装置の構成を示すブロック図である。この発明の実施の形態５に係る音声認識装置の動作を、対話制御処理を中心に示すフローチャートである。この発明の実施の形態５に係る音声認識装置の動作を、音声認識サーバで行われる処理を中心に示すフローチャートである。

以下、この発明をより詳細に説明するために、この発明を実施するための最良の形態について、添付の図面に従って説明する。なお、以下では、この発明の実施の形態に係る音声認識装置が、車載機器としてのカーナビゲーション装置に適用される場合について説明する。

実施の形態１．
図１は、この発明の実施の形態１に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、マイクロフォン（以下、「マイク」と略する）１、音声認識辞書２、音声認識部３、対話制御部４および提示部５から構成されている。なお、この音声認識装置が適用されるカーナビゲーション装置は、図示は省略しているが、検索データベースとして、検索対象とされる語彙をジャンル毎に格納したジャンルデータベースを備えている。

マイク１は、ユーザが発話した音声を電気信号に変換し、発話データとして音声認識部３に送る。音声認識辞書２は、第１音声認識辞書２ａと第２音声認識辞書２ｂとから構成されている。第１音声認識辞書２ａは、カーナビゲーション装置で検索対象とすることができるジャンル（以下、「ナビ検索対象ジャンル」という）の語彙、換言すれば、ジャンルデータベースで検索対象とされるジャンルの語彙（例えば、駅、インターチェンジ、病院など）を格納している。第２音声認識辞書２ｂは、ナビゲーション装置で検索対象外とするジャンル（以下、「ナビ検索対象外ジャンル」という）の語彙、換言すれば、ジャンルデータベースで検索対象外とされているジャンルの語彙（例えば、学校、トイレなど）を格納している。

音声認識部３は、マイク１から送られてくる発話データを保持するとともに、この保持した発話データと音声認識辞書２（第１音声認識辞書２ａおよび第２音声認識辞書２ｂ）に格納されている語彙と照合することにより、ユーザが発話した音声を認識する。この音声認識部３における認識結果は、対話制御部４に送られる。

対話制御部４は、音声認識部３から送られてくる認識結果が、第１音声認識辞書２ａに含まれる語彙と照合することにより認識されたことを示している場合は、認識された語を出力し、第２音声認識辞書２ｂに含まれる語彙と照合することにより認識されたことを示している場合は、その旨を表すメッセージを出力する。これにより、ユーザとの対話が制御される。この対話制御部４から出力される語またはメッセージは、提示部５に送られる。

提示部５は、例えばスピーカから構成されており、対話制御部４から送られてくる語またはメッセージを音声で出力する。この提示部５はディスプレイから構成することもできる。この場合は、対話制御部４から送られてくる語またはメッセージは、ディスプレイの画面に表示される。なお、提示部５は、スピーカとディスプレイの２つから構成することもできる。

次に、上記のように構成される、この発明の実施の形態１に係る音声認識装置の動作を、対話制御部４で行われる対話制御処理を中心に、図２に示すフローチャートを参照しながら説明する。

対話制御処理では、まず、認識結果が受領される（ステップＳＴ１１）。すなわち、対話制御部４は、音声認識部３から送られてくる認識結果を受領する。次いで、ステップＳＴ１１で受領した認識結果がナビ検索対象ジャンルの語を示しているかどうかが調べられる（ステップＳＴ１２）。すなわち、対話制御部４は、第１音声認識辞書２ａに含まれる語彙と照合することにより認識されたことを示しているか、または、第２音声認識辞書２ｂに含まれる語彙と照合することにより認識されたことを示しているかを調べる。

このステップＳＴ１２において、認識結果がナビ検索対象ジャンルの語を示していることが判断されると、認識ジャンル検索が行われる（ステップＳＴ１３）。すなわち、カーナビゲーション装置の図示しない制御部は、音声認識により得られた語を検索キーとしてジャンルデータベースを検索する。その後、音声認識装置の動作は終了する。

一方、ステップＳＴ１２において、認識結果がナビ検索対象ジャンルの語を示していないことが判断されると、その旨を表すメッセージが出力される（ステップＳＴ１４）。すなわち、対話制御部４は、発話された語がジャンルデータベースに存在しない旨のメッセージを生成し、提示部５に送る。これにより、提示部５は、対話制御部４から受け取ったメッセージをスピーカから音声で出力し、または、ディスプレイの画面に文字で表示する。その後、音声認識装置の動作は終了する。

上述した処理により実現される具体例を説明する。例えば、カーナビゲーション装置のジャンルデータベースに格納されていないジャンルの「学校」が発話された場合、音声認識部３は、第２音声認識辞書２ｂを用いて「学校」を正しく認識し、この認識結果を対話制御部４に送る。この認識結果を受けた対話制御部４は、例えば「学校はデータベースにないため検索できません」というメッセージを生成して提示部５に送る。これにより、提示部５から上記メッセージが音声または文字でユーザに提示される。

以上説明したように、この発明の実施の形態１に係る音声認識装置によれば、カーナビゲーション装置のジャンルデータベースで検索不可能な語が発話された場合であっても、発話された語を正しく認識することができるので、他の語に誤認識することによってカーナビゲーション装置がユーザの意図とは異なる挙動をするという問題を解消できる。

実施の形態２．
図３は、この発明の実施の形態２に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態１に係る音声認識装置に、検索データベース６および検索部７が追加されて構成されている。以下、実施の形態１と相違する部分を中心に説明する。

検索データベース６は、ジャンルデータベース６ａと名称データベース６ｂとから構成されている。ジャンルデータベース６ａは、実施の形態１と同様に、カーナビゲーション装置で検索対象とされる語彙をジャンル毎に格納している。また、名称データベースは、ジャンルとは無関係に、カーナビゲーション装置で検索可能な名称を格納している。検索部７は、対話制御部４からの指示に応じて検索データベース６を検索し、この検索により得られた語を対話制御部４に送る。

次に、上記のように構成される、この発明の実施の形態２に係る音声認識装置の動作を、対話制御部４で行われる対話制御処理を中心に、図４に示すフローチャートを参照しながら説明する。なお、実施の形態１に係る音声認識装置と同様の処理が行われるステップには実施の形態１で用いた符号と同一の符号を付して、説明を簡略化する。

対話制御処理では、まず、認識結果が受領される（ステップＳＴ１１）。次いで、ステップＳＴ１１で受領した認識結果がナビ検索対象ジャンルの語を示しているかどうかが調べられる（ステップＳＴ１２）。このステップＳＴ１２において、認識結果がナビ検索対象ジャンルの語を示していることが判断されると、認識ジャンル検索が行われる（ステップＳＴ１３）。その後、音声認識装置の動作は終了する。

上記ステップＳＴ１２において、認識結果がナビ検索対象ジャンルの語でないことを示していることが判断されると、認識結果の語を検索キーとして名称データベースが検索される（ステップＳＴ２１）。すなわち、対話制御部４は、認識結果の語を検索部７に送る。検索部７は、対話制御部４から受け取った語を検索キーとして、検索データベース６の中の名称データベース６ｂを検索する。そして、この検索により得られた語を対話制御部４に返す。

次いで、検索結果が出力される（ステップＳＴ２２）。すなわち、対話制御部４は、検索部７から検索結果として受け取った語を、提示部５に送る。これにより、提示部５は、対話制御部４から受け取った検索結果を表す語をスピーカから音声で出力し、または、ディスプレイの画面に文字で表示する。その後、音声認識装置の動作は終了する。

上述した処理により実現される具体例を説明する。例えば、カーナビゲーション装置のジャンルデータベース６ａに格納されていないジャンルの「学校」が発話された場合、音声認識部３は、第２音声認識辞書２ｂを用いて「学校」を正しく認識し、この認識結果を対話制御部４に送る。この認識結果を受けた対話制御部４は、検索部７に「学校」を検索キーとして検索データベース６の中の名称データベース６ｂを検索するように指示する。検索部７は、名称データベース６ｂを検索することにより名称に「学校」が含まれる語、例えば「○○学校」および「××学校」を取得し、対話制御部４に送る。対話制御部４は、例えば「○○学校、××学校が見つかりました」というメッセージを生成して提示部５に送る。これにより、提示部５から上記メッセージが音声または文字でユーザに提示される。

以上説明したように、この発明の実施の形態２に係る音声認識装置によれば、上述した実施の形態１に係る音声認識装置による効果に加え、下記の効果を奏する。すなわち、カーナビゲーション装置のジャンルデータベースで検索不可能な語が発話された場合に、その語を検索キーとして、ジャンルデータベース６ａとは別に用意された名称データベース６ｂを検索し、この検索により得られた語をユーザに提示することができる。したがって、例えば「学校」というジャンルと異なるジャンルに「学校」という名称を含む語が存在する場合は、その語をユーザに提示することができるので、より細かい検索ができるという利点がある。

実施の形態３．
図５は、この発明の実施の形態３に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態１に係る音声認識装置に、通信部８が追加されて構成されている。通信部８は、ネットワーク９に接続されている。以下、実施の形態１と相違する部分を中心に説明する。

通信部８は、対話制御部４からの指示に応じて、例えばネットワーク検索エンジンを使用してネットワーク９上のサイトを検索し、この検索により得られた語を対話制御部４に送る。ネットワーク９としては、例えばインターネットを用いることができる。

次に、上記のように構成される、この発明の実施の形態３に係る音声認識装置の動作を、対話制御部４で行われる対話制御処理を中心に、図６に示すフローチャートを参照しながら説明する。なお、実施の形態１に係る音声認識装置と同様の処理が行われるステップには実施の形態１で用いた符号と同一の符号を付して、説明を簡略化する。

上記ステップＳＴ１２において、認識結果がナビ検索対象ジャンルの語でないことを示していることが判断されると、認識結果の語をキーワードとしてネットワーク９が検索される（ステップＳＴ３１）。すなわち、対話制御部４は、認識結果の語を通信部８に送る。通信部８は、対話制御部４から受け取った語をキーワードとして、例えばネットワーク検索エンジンを使用してネットワーク９を検索する。そして、この検索により得られた語を対話制御部４に返す。

次いで、検索結果が出力される（ステップＳＴ３２）。すなわち、対話制御部４は、通信部８から検索結果として受け取った語を、提示部５に送る。これにより、提示部５は、対話制御部４から受け取った検索結果を表す語をスピーカから音声で出力し、または、ディスプレイの画面に文字で表示する。その後、音声認識装置の動作は終了する。

上述した処理により実現される具体例を説明する。例えば、カーナビゲーション装置のジャンルデータベース６ａに格納されていないジャンルの「学校」が発話された場合、音声認識部３は、第２音声認識辞書２ｂを用いて「学校」を正しく認識し、この認識結果を対話制御部４に送る。この認識結果を受けた対話制御部４は、検索部７に「学校」をキーワードとしてネットワーク９を検索するように指示する。通信部８は、ネットワーク９を検索することにより名称に「学校」が含まれる語を取得し、対話制御部４に送る。対話制御部４は、名称に「学校」が含まれる語を示すメッセージを生成して提示部５に送る。これにより、提示部５から上記メッセージが音声または文字でユーザに提示される。

以上説明したように、この発明の実施の形態３に係る音声認識装置によれば、上述した実施の形態１に係る音声認識装置による効果に加え、下記の効果を奏する。すなわち、カーナビゲーション装置のジャンルデータベースで検索不可能な語が発話された場合に、その語をキーワードとして、ネットワーク９を検索し、この検索により得られた語をユーザに提示することができる。したがって、カーナビゲーション装置のジャンルデータベースに格納されていないジャンルの語が発話された場合でも、関連する情報をユーザに提示できるという利点がある。

実施の形態４．
図７は、この発明の実施の形態４に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態１に係る音声認識装置に、辞書更新部１０が追加されて構成されている。辞書更新部１０には、ＰＣカード１１が装着される。以下、実施の形態１と相違する部分を中心に説明する。

ＰＣカード１１には、第２音声認識辞書２ｂを更新するための更新用音声認識辞書１１ａが格納されている。更新用音声認識辞書１１ａは、カーナビゲーション装置で検索対象外とされるナビ検索対象外ジャンルの語彙であって、既存の第２音声認識辞書２ｂに対する追加または削除を行った後の語彙を格納している。図７は、実施の形態１に係る第２音声認識辞書２ｂに、「靴屋」という新たな語が追加された更新用音声認識辞書１１ａの例を示している。

辞書更新部１０は、ＰＣカード１１が装着されることにより、既存の第２音声認識辞書２ｂを、ＰＣカード１１から読み出した更新用音声認識辞書１１ａで置き換え、新たな第２音声認識辞書２ｂとする。

次に、上記のように構成される、この発明の実施の形態４に係る音声認識装置の動作を辞書更新部１０で行われる辞書更新処理を中心に、図８に示すフローチャートを参照しながら説明する。なお、辞書更新処理以外の動作は、実施の形態１に係る音声認識装置の動作と同じである。

辞書更新処理では、まず、更新対象辞書の確認が行われる（ステップＳＴ４１）。すなわち、辞書更新部１０は、第２音声認識辞書２ｂのバージョンと、ＰＣカード１１から読み込んだ更新用音声認識辞書１１ａのバージョンを確認する。次いで、更新が必要であるかどうかが調べられる（ステップＳＴ４２）。すなわち、辞書更新部１０は、第２音声認識辞書２ｂのバージョンが、ＰＣカード１１から読み込んだ更新用音声認識辞書１１ａのバージョンより古いかどうかを調べる。

このステップＳＴ４２において、更新が必要でないことが判断されると、辞書更新処理は終了する。一方、ステップＳＴ４２において更新が必要であることが判断されると、次いで、旧辞書が新辞書に置き換えられる（ステップＳＴ４３）。すなわち、辞書更新部１０は、既存の第２音声認識辞書２ｂを、ＰＣカード１１から読み込んだ更新用音声認識辞書１１ａで置き換え、新たな第２音声認識辞書２ｂとする。その後、辞書更新処理は終了する。

以上説明したように、この発明の実施の形態４に係る音声認識装置によれば、第２音声認識辞書２ｂを更新できるように構成したので、この更新により、古い第２音声認識辞書２ｂでは認識できなかったナビ検索対象外ジャンルの語、例えば「靴屋」を認識できるようになる。したがって、ユーザが発話しそうなナビ検索対象外ジャンルの語彙を追加することができるので、時代の変化等によって新しいジャンルが発生した場合などは、その新しいジャンルを追加することが可能になる。

実施の形態５．
図９は、この発明の実施の形態５に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態４に係る音声認識装置に、通信部８、訂正スイッチ１２およびネットワーク９に接続された音声認識サーバ１３が追加されるとともに、対話制御部４および辞書更新部１０の機能が変更されて構成されている。以下、実施の形態４と相違する部分を中心に説明する。

訂正スイッチ１２は、音声認識部３における認識結果の訂正を指示するために使用される。この訂正スイッチ１２の操作の有無を表す操作信号は、対話制御部４に送られる。対話制御部４は、訂正スイッチ１２から送られてくる操作信号が、訂正スイッチ１２が操作されていないことを示している場合は、実施の形態１に係る音声認識装置のそれと同様の動作を行う。一方、訂正スイッチ１２から送られてくる操作信号が、訂正スイッチ１２が操作されたことを示している場合は、対話制御部４は、音声認識部３に保持されている発話データを取り出して通信部８に送るとともに、通信部８から送られてくる更新用音声認識辞書（後述する）を辞書更新部１０に送る。

通信部８は、対話制御部４からの指示に応じて、ネットワーク９を介して音声認識サーバ１３との間の通信を制御する。具体的には、通信部８は、対話制御部４から送られてくる発話データおよび第２音声認識辞書２ｂを、ネットワーク９を介して音声認識サーバ１３に送るとともに、音声認識サーバ１３から送られてくる更新用音声認識辞書を対話制御部４に送る。辞書更新部１０は、既存の第２音声認識辞書２ｂを、対話制御部４から送られてくる更新用音声認識辞書で置き換え、新たな第２音声認識辞書２ｂとする。

音声認識サーバ１３は、音声認識部１３ａと音声認識辞書１３ｂとを備えている。音声認識辞書１３ｂは、第２音声認識辞書２ｂに格納されているナビ検索対象外ジャンルの語彙に加え、さらに他のジャンルの語彙（以下、「サーバ用ジャンル」という）を記憶している。図９は、実施の形態１に係る第２音声認識辞書２ｂの語彙に、「靴屋」、「花屋」といったジャンルが追加されている例を示している。

音声認識部１３ａは、通信部８からネットワーク９を介して送られてくる発話データと、音声認識辞書１３ｂに格納されている語彙と照合することにより、発話データによって示された音声を認識する。この音声認識部１３ａにおいて、発話データによって示された音声を認識することができ、かつ、その発話データに対応する語彙が、通信部８からネットワーク９を介して受け取った音声認識装置の第２音声認識辞書２ｂに含まれていない場合は、発話データに対する音声認識に使用した語彙を含む更新用音声認識辞書を生成し、ネットワーク９を介して通信部８に送信する。

次に、上記のように構成される、この発明の実施の形態５に係る音声認識装置の動作を説明する。まず、対話制御部４で行われる対話制御処理を中心に、図１０に示すフローチャートを参照しながら説明する。なお、実施の形態１に係る音声認識装置と同様の処理が行われるステップには実施の形態１で用いた符号と同一の符号を付して、説明を簡略化する。

対話制御処理では、まず、認識結果が受領される（ステップＳＴ１１）。次いで、認識結果が訂正されたかどうかが調べられる（ステップＳＴ５１）。すなわち、対話制御部４は、訂正スイッチ１２から送られてくる操作信号が、訂正スイッチ１２が操作されたことを示しているかどうかを調べる。このステップＳＴ５１において、認識結果が訂正されていないことが判断されると、認識結果が提示される（ステップＳＴ５４）。その後、音声認識装置の動作は終了する。

一方、ステップＳＴ５１において、認識結果が訂正されたことが判断されると、発話データおよび第２音声認識辞書が送信される（ステップＳＴ５２）。すなわち、対話制御部４は、音声認識部３に保持されている発話データおよび第２音声認識辞書２ｂを取得し、通信部８に送る。通信部８は、対話制御部４から送られてきた発話データおよび第２音声認識辞書２ｂを、ネットワーク９を介して音声認識サーバ１３に送る。これに応答して、音声認識サーバ１３は、更新用音声認識辞書を生成し、ネットワーク９を介して通信部８に送信する。この音声認識サーバ１３で行われる処理の詳細は後述する。

次いで、第２音声認識辞書が更新される（ステップＳＴ５３）。すなわち、通信部８は、音声認識サーバ１３からネットワーク９を介して送られてくる更新用音声認識辞書を伴った辞書更新依頼を受信し、対話制御部４に送る。対話制御部４は、通信部８から受け取った更新用音声認識辞書を辞書更新部１０に送る。辞書更新部１０は、既存の第２音声認識辞書２ｂを、対話制御部４から送られてくる更新用音声認識辞書で置き換え、新たな第２音声認識辞書２ｂとする。その後、音声認識装置の動作は終了する。

次に、音声認識サーバ１３で行われる処理の詳細を、図１１に示すフローチャートを参照しながら説明する。音声認識サーバ１３では、まず、発話データおよび第２音声認識辞書が受領される（ステップＳＴ６１）。すなわち、音声認識サーバ１３は、音声認識装置の通信部８からネットワーク９を介して送られてくる発話データおよび第２音声認識辞書２ｂを受信する。これら発話データおよび第２音声認識辞書２ｂは、音声認識部１３ａに送られる。

次いで、認識処理が実行される（ステップＳＴ６２）。すなわち、音声認識部１３ａは、ステップＳＴ６１で受領した発話データと、音声認識辞書１３ｂに格納されている語彙と照合することにより、発話データによって示された音声を認識する。次いで、ステップＳＴ６２における認識結果が受領した第２音声認識辞書の語彙に含まれるかどうかが調べられる（ステップＳＴ６３）。すなわち、音声認識部１３ａは、ステップＳＴ６２で認識された語が、ステップＳＴ６１で受領された第２音声認識辞書２ｂに含まれるかどうかを調べる。このステップＳＴ６３において、認識結果が受領した第２音声認識辞書の語彙に含まれることが判断されると、音声認識装置において単なる認識エラーが発生したものと認識され、シーケンスはステップＳＴ６１に戻って上述した処理が繰り返される。

一方、ステップＳＴ６３において、ステップＳＴ６２における認識結果が受領した第２音声認識辞書の語彙に含まれないことが判断されると、辞書更新依頼が送信される（ステップＳＴ６４）。すなわち、音声認識部１３ａは、認識結果の語彙を含む更新用音声認識辞書を作成し、これを添付して辞書更新依頼を音声認識装置に送信する。その後、シーケンスはステップＳＴ６１に戻る。以上により、音声認識サーバ１３における処理は終了する。

上述した処理により実現される具体例を説明する。例えば、カーナビゲーション装置のジャンルデータベース６ａに格納されていないジャンルの「靴屋」が発話された場合、音声認識部３は、第２音声認識辞書２ｂに「靴屋」が含まれていなければ、発話された「靴屋」を認識することができない。この場合、ユーザは、訂正スイッチ１２を操作して、訂正を指示する。これにより、「靴屋」を表す発話データおよび第２音声認識辞書２ｂが音声認識サーバ１３に送信される。音声認識サーバ１３では、発話データに対する音声認識処理を実行する。ここで、認識結果として得られた語「靴屋」が音声認識装置から受領した第２音声認識辞書２ｂの語彙に含まれない場合は、その語「靴屋」を含む更新用音声認識辞書が作成され、音声認識装置に送信される。音声認識装置では、既存の第２音声認識辞書２ｂを、受信した更新用音声認識辞書で置き換えることにより、新しい第２音声認識辞書２ｂとする。これにより、音声認識装置では、以後は、「靴屋」を正しく認識できるようになる。

以上説明したように、この発明の実施の形態５に係る音声認識装置によれば、入力された発話が正しく認識されなかった場合は、その発話を表す発話データを音声認識サーバ１３で認識させて発話内容を推定し、その語彙を含む更新用音声認識辞書を作成し、辞書更新部１０の機能を用いてカーナビゲーション装置の音声認識装置の第２音声認識辞書２ｂとして登録することができる。これにより、カーナビゲーション装置の第２音声認識辞書２ｂを無駄なく、効率的に更新できる。

なお、上述した実施の形態５に係る音声認識装置では、発話データおよび第２音声認識辞書２ｂを音声認識サーバ１３に送信し、音声認識サーバ１３においてサーバ用ジャンルの音声認識辞書を用いて音声認識処理を実行し、発話データを認識できた場合に、その認識された語を含む更新用音声認識辞書を作成して音声認識装置に返信するように構成したが、音声認識装置は、発話データのみを音声認識サーバ１３に送信し、音声認識サーバ１３は、サーバ用ジャンルの音声認識辞書を用いて音声認識処理を実行し、発話データを認識できた場合に、その認識された語を音声認識装置に返信し、音声認識装置は、この返信された語を含む更新用音声認識辞書を作成して第２音声認識辞書２ｂを更新するように構成することもできる。この構成によれば、音声認識装置と音声認識サーバ１３との間で送受されるデータ量を減らすことができる。

以上のように、この発明に係る音声認識装置は、発話された音声を、検索対象のジャンルの語彙を格納した第１音声認識辞書と、検索対象としないジャンルの語彙を格納した第２音声認識辞書とで照合して、第２音声認識辞書に含まれる語彙であると認識した場合は、その旨のメッセージを提示して、ユーザが違和感なく音声認識機能を使用できるようにしたことにより、車載用カーナビゲーション装置などに用いるのに適している。

Claims

検索対象とされる語彙がジャンル毎に格納されたジャンルデータベースを備えた車載機器用の音声認識装置であって、
発話された音声を電気信号に変換し、発話データとして出力するマイクロフォンと、
前記ジャンルデータベースで検索対象とされるジャンルの語彙を認識するための第１音声認識辞書と、
前記ジャンルデータベースで検索対象外とされるジャンルの語彙を認識するための第２音声認識辞書と、
前記マイクロフォンから送られてくる発話データと前記第１音声認識辞書および前記第２音声認識辞書に含まれる語彙とを照合することにより、発話された音声を認識する音声認識部と、
前記音声認識部から認識結果として送られてくる語が、前記第２音声認識辞書に含まれる語彙と照合することにより得られた語である場合は、検索対象とされるジャンルの語でない旨を表すメッセージを提示情報として出力する対話制御部と、
前記対話制御部から送られてくる提示情報を外部に提示する提示部
とを備えた音声認識装置。
検索対象とされる語彙を名称別に格納した名称データベースと、
対話制御部から送られてくる語を検索キーとして前記名称データベースを検索し、該検索により得られた前記検索キーを名称に含む語を前記対話制御部に返す検索部を備え、
前記対話制御部は、音声認識部から認識結果として送られてくる語が、第２音声認識辞書に含まれる語彙と照合することにより得られた語である場合は、該語を前記検索部に送って検索を指示し、該指示に応答して前記検索部から返される前記検索キーを名称に含む語を提示情報として出力する
ことを特徴とする請求項１記載の音声認識装置。
対話制御部から送られてくる語をキーワードとしてネットワーク検索を実行し、該ネットワーク検索により得られた前記キーワードを含む語を前記対話制御部に返す通信部を備え、
前記対話制御部は、音声認識部から認識結果として送られてくる語が、第２音声認識辞書に含まれる語彙と照合することにより得られた語である場合は、該語を前記通信部に送ってネットワーク検索を指示し、該指示に応答して前記検索部から返される前記キーワードを含む語を提示情報として出力する
ことを特徴とする請求項１記載の音声認識装置。
既存の第２音声認識辞書を、外部から取得した更新用音声認識辞書で置き換えることにより新しい第２音声認識辞書とする辞書更新部
を備えたことを特徴とする請求項１記載の音声認識装置。
音声認識部から送られてくる認識結果の訂正を指示する認識訂正手段と、
前記認識訂正手段からの指示に応じて、マイクロフォンから対話制御部を介して送られてくる発話データを、ネットワークを介して音声認識サーバに送信し、該音声認識サーバにおいて該発話データを認識できた場合に使用された語彙を含むように生成された更新用音声認識辞書を前記音声認識サーバからネットワークを介して受信して前記対話制御部に返す通信部を備え、
辞書更新部は、前記対話制御部から更新用音声認識辞書を取得し、該取得した更新用音声認識辞書で既存の第２音声認識辞書を置き換えることにより新しい第２音声認識辞書とする
ことを特徴とする請求項４記載の音声認識装置。