JP2012168349A

JP2012168349A - 音声認識システムおよびこれを用いた検索システム

Info

Publication number: JP2012168349A
Application number: JP2011029301A
Authority: JP
Inventors: Toru Marumoto; 徹丸本
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2011-02-15
Filing date: 2011-02-15
Publication date: 2012-09-06
Anticipated expiration: 2031-02-15
Also published as: JP5606951B2

Abstract

【課題】認識精度を向上させることができるとともに正しい認識結果を得るまでの操作を簡略化することができる音声認識システムを提供すること。
【解決手段】車載装置１００は、話者が発声した音声を保存する音声保存バッファ１１２と、認識辞書１１６を用いて、音声保存バッファ１１２に保存された音声に対して音声認識処理を行う音声認識部１１４とを備える。施設検索サーバ１５０は、認識辞書１１６と異なる認識辞書１６２を用いて、音声保存バッファ１１２に保存された音声に対して音声認識処理を行う音声認識部１６０とを備える。車載装置１００に備わった優先度調整部１２２は、２つの音声認識部１１４、１６０の認識結果に基づいて、音声保存バッファ１１２に保存された音声に対応する認識候補を決定する。
【選択図】図１

Description

本発明は、使用者の発声した音声に対して音声認識処理を行う音声認識システムおよびこれを用いた検索システムに関する。

従来から、利用者が発声した音声に対して音声認識処理を行う際に、年間行事を含むカレンダーデータベースを用いてこのカレンダーデータベースに記録されている行事に関連する語彙を優先語彙として決定し、この語彙を優先的に認識処理を行うように認識辞書での語彙配列の内容を更新するようにした音声認識装置が知られている（例えば、特許文献１参照）。

特開２００７−１８７９７５号公報（第８−１９頁、図１−２０）

ところで、上述した特許文献１に用いられる音声認識装置では、カレンダーデータベースに記録されている行事に関連する語彙が優先されるが、利用者が発生する音声は、必ずしも行事に関連するものとは限らないため、行事に関連しない音声に対して音声認識の精度が低いという問題があった。音声認識処理によって１つの語彙が抽出されたときに、誤認識が生じると、発声からやりなおす必要があるため、操作が煩雑になる。また、音声認識処理によって１つの語彙に絞り込むことができず認識候補として複数の語彙が抽出されると、その中からいずれかを利用者が選択する必要が生じるため、やはり操作が煩雑になる。特に、この音声認識装置を車両に搭載してナビゲーション装置等の施設検索に用いる場合には、施設検索のキーワードとしての語彙が適切に決まらないことになり、所望の施設情報が得られるまでの操作が煩雑になったり時間がかかるという問題があった。

本発明は、このような点に鑑みて創作されたものであり、その目的は、認識精度を向上させることができるとともに正しい認識結果を得るまでの操作を簡略化することができる音声認識システムを提供することにある。また、本発明の他の目的は、音声認識処理を用いて検索キーワードを指定してコンテンツ検索を行う場合に、コンテンツ情報が得られるまでの操作を簡略化することができる検索システムを提供することにある。

上述した課題を解決するために、本発明の音声認識システムは、話者が発声した音声を保存する音声保存手段と、第１の認識辞書を用いて、音声保存手段に保存された音声に対して音声認識処理を行う第１の音声認識手段と、第１の認識辞書と異なる第２の認識辞書を用いて、音声保存手段に保存された音声に対して音声認識処理を行う第２の音声認識手段と、第１および第２の音声認識手段の認識結果に基づいて、音声保存手段に保存された音声に対応する認識候補を決定する認識結果決定手段とを備えている。

２組の認識辞書と音声認識手段を用いて同じ音声に対して音声認識処理を行うことにより、認識精度を上げることが可能となる。これにより、１つの認識候補としての語彙を決定する可能性が高まり、複数の語彙の中から利用者自身が正解となる語彙を指示する機会が減るため、操作の簡略化が可能となる。

また、上述した第１の音声認識手段による音声認識処理の処理時間は、第２の音声認識処理手段による音声認識処理の処理時間よりも短く、第２の音声認識手段による音声認識処理の認識精度は、第１の音声認識処理手段による音声認識処理の認識精度よりも高いことが望ましい。これにより、処理時間と認識精度の異なる２種類の音声認識処理を組み合わせることにより、必要に応じて認識精度を上げることが可能となる。

また、上述した第１および第２の音声認識手段による音声認識処理は、互いに異なる音響モデルおよび照合アルゴリズムを用いて行われることが望ましい。これにより、音響モデルと照合アルゴリズムが異なる２種類の音声認識処理を組み合わせることにより、同時に誤認識が発生する可能性が低くなるため、認識精度を上げることができる。

また、上述した音声保存手段、第１の音声認識手段、認識結果決定手段は、車両に設けられており、第２の音声認識手段は、ネットワークを介して接続された車両外部のサーバに設けられていることが望ましい。これにより、車両に設けられた第１の音声認識手段による音声認識処理だけでなく、車両外部のサーバに設けられた第２の音声認識手段による音声認識処理を併用することができるため、必要に応じて認識精度を上げることが可能となる。

また、上述した第２の音声認識手段による音声認識処理によって複数の認識候補に絞られたときに、これら複数の認識候補に対応する第１の認識辞書を作成する辞書作成手段をさらに備え、認識結果決定手段は、辞書作成手段によって作成された第１の認識辞書を用いた第１の音声認識手段の認識結果を用いて、音声保存手段に保存された音声に対応する認識候補を決定することが望ましい。第２の音声認識手段の音声認識処理によって複数の認識候補を抽出した後、第１の音声認識手段の音声認識処理によってこれら複数の認識候補の中から入力音声に最も近いものを抽出することができるため、一方の音声認識手段のみで認識候補を決定する場合に比べて大幅に認識精度を向上させることができる。

また、上述した認識結果決定手段は、第２の音声認識手段による音声認識処理によって１つの認識候補に絞られたときに、この認識候補を、音声保存手段に保存された音声に対応する認識候補として決定することが望ましい。これにより、不要な処理を削減して最終的な認識候補を決定するまでの時間を短縮することができる。

また、上述した辞書作成手段は、複数の認識候補のそれぞれに対応する読みを書記素−音素変換により生成し、この読みを音声波形に変換することにより、第１の認識辞書を動的に作成することが望ましい。これにより、複数の認識候補の中から入力音声に最も類似するものを正確に決定することができる。

また、上述した認識結果決定手段は、第１の音声認識手段による認識結果が誤りであった場合に、第２の音声認識手段による音声認識処理を依頼することが望ましい。これにより、必要に応じて第２の音声認識手段による音声認識処理を実施して認識候補を得ることにより、認識精度を上げることができる。また、入力音声については、音声保存手段に保存されたものを用いることができるため、発声を繰り返す必要がなく、これに伴う操作の簡略化および処理時間の短縮が可能となる。

また、上述した第１の音声認識手段による認識結果を利用者に通知する通知手段と、通知手段による通知に応じて、認識結果が誤りであった場合にその旨を利用者が指示する操作手段とをさらに備えることが望ましい。これにより、認識結果が誤っているか否かを利用者自身が直接指示することになるため、認識誤りが確実な場合に限って第２の音声認識手段による音声認識処理を実施することにより、処理の簡略化による処理時間の短縮が可能となる。

また、本発明の検索システムでは、上述したサーバは、複数のコンテンツに関する情報が格納されたコンテンツデータベースと、認識結果決定手段によって決定された認識候補を検索キーワードとして複数のコンテンツの中から一つあるいは複数のコンテンツに関する情報を検索するコンテンツ検索手段とを備えている。上述した認識精度が高く操作が簡単な音声認識システムをコンテンツ検索に適用することにより、コンテンツ情報が得られるまでの操作を簡略化することができる。また、サーバ側でコンテンツ検索を行うことにより、車両側で同様のコンテンツ検索を行う場合に比べて、検索対象となるコンテンツの数を増加させるとともに最新のコンテンツ情報を得ることが可能となる。

また、過去に第２の音声認識手段による音声認識処理によって抽出された認識候補であって、正しいことが確かめられた認識候補に対応する第１の認識辞書を作成する辞書作成手段をさらに備え、認識結果決定手段は、辞書作成手段によって作成された第１の認識辞書を用いた第１の音声認識手段の認識結果を用いて、音声保存手段に保存された音声に対応する認識候補を決定することが望ましい。これにより、サーバ側の音声認識処理によって正しい認識結果が得られた音声について、次回以降に車両側でも認識精度を上げることが可能となる。また、次回以降はサーバ側での音声認識処理が不要となるため、認識候補を得るまでの時間を短縮することができる。

また、上述した辞書作成手段は、複数の認識候補のそれぞれに対応する読みを書記素−音素変換により生成し、この読みを音声波形に変換することにより、第１の認識辞書を動的に作成することが望ましい。正しいことが確かめられた認識候補に専用の認識辞書を作成することにより、繰り返し入力される音声に対しての認識精度を大幅に上げることができるとともに、認識候補を得るまでの時間を短縮することができる。

また、本発明の検索システムでは、上述した認識結果決定手段は、音声保存手段に保存された音声に対応する認識候補とともにこの認識候補に対応する文字情報を決定し、サーバは、複数のコンテンツに関する情報が格納されたコンテンツデータベースと、認識結果決定手段によって決定された文字情報を検索キーワードとして複数のコンテンツの中から一つあるいは複数のコンテンツに関する情報を検索するコンテンツ検索手段とを備えている。上述した認識精度が高く操作が簡単な音声認識システムをコンテンツ検索に適用することにより、コンテンツ情報が得られるまでの操作を簡略化することができる。また、サーバ側でコンテンツ検索を行うことにより、車両側で同様のコンテンツ検索を行う場合に比べて、検索対象となるコンテンツの数を増加させるとともに最新のコンテンツ情報を得ることが可能となる。さらに、文字情報を検索キーワードとして用いることにより、コンテンツ検索処理を簡略化することができる。

また、本発明の検索システムでは、上述した車両には、複数のコンテンツに関する情報が格納された第１のコンテンツデータベースと、第１の音声認識手段による音声認識処理によって得られた認識結果を検索キーワードとしてコンテンツに関する情報を検索する第１のコンテンツ検索手段と、第１のコンテンツ検索手段による検索結果としてのコンテンツに関する情報を表示する表示手段とが設けられており、サーバには、複数のコンテンツに関する情報が格納された第２のコンテンツデータベースと、第２の音声認識手段による音声認識処理によって得られた認識結果を検索キーワードとしてコンテンツに関する情報を検索する第２のコンテンツ検索手段とが備わっており、第２のコンテンツ検索手段による検索結果としてのコンテンツに関する情報が得られるまでは、表示手段に第１のコンテンツ検索手段による検索結果としてのコンテンツに関する情報が表示され、第２のコンテンツ検索手段による検索結果としてのコンテンツに関する情報が得られた後はこのコンテンツに関する情報が表示手段に表示される。

これにより、車両側において行われる音声認識処理によって抽出された認識候補を用いたコンテンツ検索を行うことにより、速やかにコンテンツ情報を表示させることができ、その後サーバ側において行われる音声認識処理によって抽出された認識候補を用いたコンテンツ検索によるコンテンツ情報が得られたときに、この新たに得られたコンテンツ情報に表示内容を変更することで検索精度を向上させることができる。しかも、これら一連の動作を実施する際に特別な操作が不要であって操作の簡略化が可能となる。

第１の実施形態の施設検索システムの構成を示す図である。利用者が発声した音声を取り込んでこの音声に対応する施設検索結果を表示するまでの第１の実施形態の一連の動作手順を示す流れ図である。第２の実施形態の施設検索システムの構成を示す図である。利用者が発声した音声を取り込んでこの音声に対応する施設検索結果を表示するまでの第２の実施形態の一連の動作手順を示す流れ図である。第３の実施形態の施設検索システムの構成を示す図である。利用者が発声した音声を取り込んでこの音声に対応する施設検索結果を表示するまでの第３の実施形態の一連の動作手順を示す流れ図である。第４の実施形態の施設検索システムの構成を示す図である。利用者が発声した音声を取り込んでこの音声に対応する施設検索結果を表示するまでの第４の実施形態の一連の動作手順を示す流れ図である。

以下、本発明を適用した一実施形態の施設検索システムについて、図面を参照しながら説明する。

（第１の実施形態）
図１は、第１の実施形態の施設検索システムの構成を示す図である。本実施形態の施設検索システムは、車載装置１００と施設検索サーバ１５０とを備えている。車載装置１００は車両に搭載されている。また、施設検索サーバ１５０は、車両外部に設けられており、車載装置１００と無線回線を介して接続されている。具体的には、車載装置１００は、携帯電話機および基地局を介してインターネット経由で施設検索サーバ１５０に接続される場合の他、無線ＬＡＮ用の通信装置およびアクセスポイントを介してインターネット経由で施設検索サーバ１５０に接続される場合などが考えられる。

車載装置１００は、マイクロホン１１０、音声保存バッファ１１２、音声認識部１１４、認識辞書１１６、辞書生成部１１８、認識結果保存バッファ１２０、優先度調整部１２２、操作部１２４、認識結果表示処理部１２６、表示装置１２８、検索結果保存バッファ１３０、検索結果表示処理部１３２、通信部１３４を備えている。

マイクロホン１１０は、利用者（話者）が発声する音声を集音する。集音された音声は、デジタルの音声データに変換された後、音声保存バッファ１１２に保存される。音声認識部１１４は、認識辞書１１６を用いて、音声保存バッファ１１２に保存された音声に対して音声認識処理を行う。辞書生成部１１８は、認識辞書１１６を作成する。辞書生成部１１８による認識辞書作成動作については後述する。

認識結果保存バッファ１２０は、施設検索サーバ１５０側において行われる音声認識処理によって得られた１あるいは複数の認識候補を受信したときにこれらを保存する。優先度調整部１２２は、施設検索サーバ１５０側あるいは車載装置１００において行われる音声認識処理によって複数の認識候補が得られたときに、この中から優先順位が高い認識候補を選択する。いずれの認識候補を選択するかは、例えば、操作部１２４を操作した利用者によって指示される。

認識結果表示処理部１２６は、音声認識処理によって得られた認識候補を表示装置１２８に表示する。検索結果保存バッファ１３０は、施設検索サーバ１５０側において行われる施設検索によって得られた施設情報を受信したときにこれを保存する。検索結果表示処理部１３２は、検索結果保存バッファ１３０に保持された施設情報を表示装置１２８に表示する。通信部１３４は、施設検索サーバ１５０との間で各種データ（音声、認識候補、施設情報や各種の制御データなど）を送信あるいは受信する。

また、施設検索サーバ１５０は、音声認識部１６０、認識辞書１６２、施設検索部１６４、施設ＤＢ（データベース）１６６、通信部１６８を備えている。

音声認識部１６０は、認識辞書１６２を用いて、車両側から送られてくる音声（音声保存バッファ１１２に保存された音声）に対して音声認識処理を行う。なお、車載装置１００側で行われる音声認識処理と、施設検索サーバ１５０側で行われる音声認識処理とは、望ましくは、互いに異なる音響モデルおよび照合アルゴリズムを用いて行われる。

施設検索部１６４は、車載装置１００側あるいは施設検索サーバ１５０側で行われる音声認識処理によって抽出された認識候補に対応する施設情報を、施設ＤＢ１６６から検索する。施設ＤＢ１６６は、検索候補となる施設情報を格納する。また、施設ＤＢ１６６に格納された施設情報は、定期的あるいは不定期的に更新されており、必要に応じて内容変更、追加、削除が適宜行われる。通信部１６８は、車載装置１００との間で各種データ（音声、認識候補、施設情報や各種の制御データなど）を送信あるいは受信する。

上述した音声保存バッファ１１２が音声保存手段に、認識辞書１１６が第１の認識辞書に、音声認識部１１４が第１の音声認識手段に、認識辞書１６２が第２の認識辞書に、音声認識部１６０が第２の音声認識手段に、優先度調整部１２２が認識結果決定手段に、辞書生成部１１８が辞書作成手段にそれぞれ対応する。また、上述した施設検索部１６４がコンテンツ検索手段に、施設ＤＢ１６６がコンテンツデータベースにそれぞれ対応する。

第１の実施形態の施設検索システムはこのような構成を有しており、次にその動作を説明する。図２は、利用者が発声した音声を取り込んでこの音声に対応する施設検索結果を表示するまでの第１の実施形態の一連の動作手順を示す流れ図である。

利用者が施設検索用の音声を発声すると、この音声がマイクロホン１１０によって取り込まれ、対応する音声（音声データ）が音声保存バッファ１１２に保存される（ステップ１００）。この保存された音声は、通信部１３４によって施設検索サーバ１５０に向けて送信される（ステップ１０２）。

施設検索サーバ１５０側では、通信部１６８によって、車載装置１００から送られてきた音声を受信すると、音声認識部１６０は、認識辞書１６２を用いてこの受信した音声に対して音声認識処理を行う（ステップ１０４）。この音声認識処理では、受信音声と認識辞書１６２に格納された複数の認識候補のそれぞれとの間で類似度が判定され、最大３つの認識候補が抽出される。なお、１つの認識候補の類似度が他の認識候補の類似度に比べて極端に大きい場合に（どの程度大きい場合に極端に大きいとするかは、設計時に適宜決めればよい）、この類似度が大きい１つの認識候補のみが抽出され、それ以外の場合には類似度が大きい順に３つの認識候補が抽出される。このようにして抽出された認識候補は通信部１６８によって車載装置１００側に送信される。

車載装置１００側では、通信部１３４によって、施設検索サーバ１５０から送られてきた認識結果を受信する（ステップ１０６）。受信した認識結果は、認識結果保存バッファ１２０に保存される。次に、優先度調整部１２２は、認識結果保存バッファ１２０に保存された認識結果が複数か否かを判定する（ステップ１０８）。複数の場合には肯定判断が行われ、次に、辞書生成部１１８は、認識結果としての文字列に対してＧＴＰ（Grapheme To Phoneme、書記素−音素変換）処理を行って、文字列の「よみ情報」を作成する（ステップ１１０）。また、辞書生成部１１８は、このよみ情報から音声認識処理用の動的な認識辞書を作成する（ステップ１１２）。例えば、よみ情報に対してＴＴＳ（Text-to-Speech）処理を行って音声波形を生成し、この音声波形について音声認識処理用の特徴抽出を行うことにより動的な認識辞書の作成が行われる。作成された認識辞書は、認識辞書１１６に追加、格納される。

次に、音声認識部１１４は、このようにして作成された動的な認識辞書を用いて、音声保存バッファ１１２に保存されている音声に対して音声認識処理を行う（ステップ１１４）。一般に、施設検索サーバ１５０側の音声認識処理と車載装置１００側の音声認識処理とを比較すると、コストや処理能力の制限が少ない分施設検索サーバ１５０側の音声認識処理の方が認識精度が高いといえる。しかし、車載装置１００から施設検索サーバ１５０に対して音声を送受信する際の帯域が狭いことや、車載装置１００側の処理ではロードノイズ等の影響を考慮した車載装置特有の音声認識処理を実現することができることなどから必ずしも車載装置１００側の音声認識処理の方が精度が低いとは限らない。特に、上述したように、少ない認識候補に対応した動的な認識辞書を作成した場合には、これらの認識候補については認識精度をかなり高めることができると考えられる。

次に、優先度調整部１２２は、ステップ１１４の音声認識処理によって複数の認識候補が得られたか否かを判定する（ステップ１１６）。この時点でも複数の認識候補の類似度が近く、１つの認識候補に絞り込めない場合には肯定判断が行われる。この場合には、優先度調整部１２２は、これら複数の認識候補について、音声保存バッファ１１２に保存された音声との類似度が大きい順に並べ替えを行い、最も類似度が大きい認識候補の表示位置が最も上位であって、しかも、強調表示となるように、これら複数の認識候補が選択肢として含まれる選択画面を認識結果表示処理部１２６によって表示装置１２８に表示させる（ステップ１１８）。このようにして選択画面が表示された状態で、優先度調整部１２２は、利用者が操作部１２４を操作することによりこの選択画面に含まれるいずれかの認識候補が選択されたか否かを判定する（ステップ１２０）。選択されるまで否定判断が行われ、ステップ１１８の表示が行われる。

また、利用者によって認識候補が選択されるとステップ１２０の判定において肯定判断が行われる。この場合には、あるいは、ステップ１１４の音声認識処理において１つの認識候補が抽出されてステップ１１６の判定において否定判断が行われた場合には、次に、優先度調整部１２２は、この選択された、あるいは、抽出された１つの選択候補を通信部１３４を介して施設検索サーバ１５０に向けて送信する（ステップ１２２）。

施設検索サーバ１５０では、通信部１６８によって、車載装置１００から送られてくる１つの認識候補を受信すると、施設検索部１６４は、この認識候補を検索キーワードとして施設検索を行い、施設ＤＢ１６６に格納された施設情報の中から１あるいは複数の施設に関する施設情報を抽出する（ステップ１２４）。抽出された施設情報は通信部１６８から車載装置１００に向けて送信される。車載装置１００では、通信部１３４によって、施設検索サーバ１５０から送られてきた施設情報を受信する（ステップ１２６）。この受信した施設情報は、検索結果保存バッファ１３０に一旦保存された後、検索結果表示処理部１３２によって読み出されてその内容が表示装置１２８に表示される（ステップ１２８）。なお、施設検索サーバ１５０による音声認識処理によって１つの認識結果のみが抽出された場合（ステップ１０８の判定において否定判断された場合）には、車載装置１００における動的な認識辞書による音声認識処理は省略され、ただちにステップ１２４の施設検索が実施される。

このように、本実施形態の施設検索システムでは、２組の認識辞書と音声認識部を用いて同じ音声に対して音声認識処理を行うことにより、認識精度を上げることが可能となる。これにより、１つの認識候補（語彙）を決定する可能性が高まり、複数の認識候補の中から利用者自身が正解となる認識候補を選択する機会が減るため、操作の簡略化が可能となる。

また、車載装置１００と施設検索サーバ１５０とで、処理時間と認識精度の異なる２種類の音声認識処理を組み合わせることになり、必要に応じて認識精度を上げることが可能となる。特に、音響モデルと照合アルゴリズムが異なる２種類の音声認識処理を組み合わせることにより、同時に誤認識が発生する可能性が低くなるため、認識精度を上げることができる。また、車両（車載装置１００）に設けられた音声認識部１１４による音声認識処理と、施設検索サーバ１５０に設けられた音声認識部１６０による音声認識処理とを併用することにより、必要に応じて認識精度を上げることが可能となる。

また、施設検索サーバ１５０側の音声認識処理によって複数の認識候補を抽出した後、車載装置１００側の音声認識処理によってこれら複数の認識候補の中から入力音声に最も近いものを抽出することができるため、一方の音声認識部１６０のみで認識候補を決定する場合に比べて大幅に認識精度を向上させることができる。また、施設検索サーバ１５０側の音声認識処理によって１つの認識候補に絞られたときに、入力音声に対応する最終的な認識候補として決定することにより、不要な処理（車載装置１００側の音声認識処理）を削減して最終的な認識候補を決定するまでの時間を短縮することができる。

また、上述した辞書作成手段は、複数の認識候補のそれぞれに対応する読みを書記素−音素変換により生成し、この読みを音声波形に変換することにより、第１の認識辞書を作成することが望ましい。これにより、複数の認識候補の中から入力音声に最も類似するものを正確に決定することができる。

また、上述したような認識精度が高く操作が簡単な音声認識手法を施設検索システムに適用することにより、施設情報が得られるまでの操作を簡略化することができる。また、施設検索サーバ１５０側で施設検索を行うことにより、車載装置側で同様の施設検索を行う場合に比べて、検索対象となる施設の数を増加させるとともに最新の施設情報を得ることが可能となる。

（第２の実施形態）
次に、第２の実施形態の施設検索システムについて説明する。本実施形態の施設検索システムでは、車載装置側で入力音声に対して音声認識処理を行うが、その認識結果が誤りであった場合に、施設検索サーバ側に同じ入力音声についての音声認識処理を依頼する。

図３は、第２の実施形態の施設検索システムの構成を示す図である。本実施形態の施設検索システムは、車載装置１００Ａと施設検索サーバ１５０Ａとを備えている。これらに含まれる各構成は、図１に示した車載装置１００と施設検索サーバ１５０に含まれる各構成と基本的に共通するものであり、一部が削除されるとともに信号の入出力経路が一部変更されているが、基本的な動作が共通するものについては説明は省略するものとする。車載装置１００Ａに含まれる認識結果表示処理部１２６、表示装置１２８が通知手段に、操作部１２４が操作手段にそれぞれ対応する。

図４は、利用者が発声した音声を取り込んでこの音声に対応する施設検索結果を表示するまでの第２の実施形態の一連の動作手順を示す流れ図である。

利用者が施設検索用の音声を発声すると、この音声がマイクロホン１１０によって取り込まれ、対応する音声（音声データ）が音声保存バッファ１１２に保存される（ステップ２００）。次に、音声認識部１１４は、認識辞書１１６を用いて、音声保存バッファ１１２に保存されている音声に対して音声認識処理を行う（ステップ２０２）。この音声認識処理によって、入力音声との類似度が最も大きい１つの認識候補が抽出される。なお、第１の実施形態では、認識辞書１１６に含まれる動的な認識辞書を用いて音声認識処理が行われたが、ステップ２０２の音声認識処理は、予め作成された一般的な内容を有する認識辞書１１６を用いて行われる。優先度調整部１２２は、抽出された認識候補が含まれる確認画面を認識結果表示処理部１２６によって表示装置１２８に表示させる（ステップ２０４）。このようにして確認画面が表示された状態で、優先度調整部１２２は、利用者が操作部１２４を操作することによりこの確認画面に含まれる認識候補が正解であることを示す所定の操作がなされたか否かを判定する（ステップ２０６）。正解でない場合（認識候補が誤りである場合）には否定判断が行われる。

次に、優先度調整部１２２は、音声保存バッファ１１２に保存された音声を通信部１３４によって施設検索サーバ１５０Ａに向けて送信する（ステップ２０８）。施設検索サーバ１５０Ａ側では、通信部１６８によって、車載装置１００Ａから送られてきた音声を受信すると、音声認識部１６０は、認識辞書１６２を用いてこの受信した音声に対して音声認識処理を行う（ステップ２１０）。この音声認識処理では、受信音声と認識辞書１６２に格納された複数の認識候補のそれぞれとの間で類似度が判定され、最大で所定個数の認識候補が抽出される。なお、１つの認識候補の類似度が他の認識候補の類似度に比べて極端に大きい場合に、この類似度が大きい１つの認識候補のみが抽出され、それ以外の場合には類似度が大きい順に複数の認識候補が抽出される。このようにして抽出された認識候補は通信部１６８によって車載装置１００Ａ側に送信される。

車載装置１００Ａ側では、通信部１３４によって、施設検索サーバ１５０Ａから送られてきた認識結果を受信する（ステップ２１２）。受信した認識結果は、認識結果保存バッファ１２０に保存される。次に、優先度調整部１２２は、認識結果保存バッファ１２０に保存された認識結果が複数か否かを判定する（ステップ２１４）。複数の場合には肯定判断が行われる。この場合には、優先度調整部１２２は、これら複数の認識候補が選択肢として含まれる選択画面を認識結果表示処理部１２６によって表示装置１２８に表示させる（ステップ２１６）。このようにして選択画面が表示された状態で、優先度調整部１２２は、利用者が操作部１２４を操作することによりこの選択画面に含まれるいずれかの認識候補が選択されたか否かを判定する（ステップ２１８）。選択されるまで否定判断が行われ、ステップ２１６の表示が行われる。

また、利用者によって認識候補が選択されるとステップ２１８の判定において肯定判断が行われる。この場合には、あるいは、ステップ２０６の正解判定で肯定判断が行われた場合には、次に、優先度調整部１２２は、この選択された、あるいは、正しいと判定された１つの認識候補を通信部１３４を介して施設検索サーバ１５０Ａに向けて送信する（ステップ２２０）。

施設検索サーバ１５０Ａでは、通信部１６８によって、車載装置１００Ａから送られてくる１つの認識候補を受信すると、施設検索部１６４は、この認識候補を検索キーワードとして施設検索を行い、施設ＤＢ１６６に格納された施設情報の中から１あるいは複数の施設に関する施設情報を抽出する（ステップ２２２）。抽出された施設情報は通信部１６８から車載装置１００Ａに向けて送信される。車載装置１００Ａでは、通信部１３４によって、施設検索サーバ１５０Ａから送られてきた施設情報を受信する（ステップ２２４）。この受信した施設情報は、検索結果保存バッファ１３０に一旦保存された後、検索結果表示処理部１３２によって読み出されてその内容が表示装置１２８に表示される（ステップ２２６）。なお、施設検索サーバ１５０Ａによる音声認識処理によって１つの認識結果のみが抽出された場合（ステップ２１４の判定において否定判断）には、車載装置１００Ａにおける選択画面表示による認識候補の選択動作等は省略され、ただちにステップ２２２の施設検索が実施される。

このように、本実施形態の施設検索システムでは、車載装置１００Ａ側の認識結果が誤りであった場合に、施設検索サーバ１５０Ａ側に音声認識処理を依頼しており、必要に応じて施設検索サーバ１５０Ａ側の音声認識処理を実施して認識候補を得ることにより、認識精度を上げることができる。また、入力音声については、車載装置１００Ａの音声保存バッファ１１２に保存されたものを用いることができるため、発声を繰り返す必要がなく、これに伴う操作の簡略化および処理時間の短縮が可能となる。また、車載装置１００Ａ側の音声認識処理の認識結果が誤っているか否かを利用者自身が操作部１２４を操作して直接指示することになるため、認識誤りが確実な場合に限って施設検索サーバ１５０Ａによる音声認識処理を実施することにより、処理の簡略化による処理時間の短縮が可能となる。

（第３の実施形態）
次に、第３の実施形態の施設検索システムについて説明する。本実施形態の施設検索システムでは、施設検索サーバ側の音声認識処理によって得られた認識候補が正しいことが確かめられ後に、この認識候補に対応して第１の実施形態と同様の動的な認識辞書を作成して車載装置側で音声認識処理を行う。

図５は、第２の実施形態の施設検索システムの構成を示す図である。本実施形態の施設検索システムは、車載装置１００Ｂと施設検索サーバ１５０Ｂとを備えている。これらに含まれる各構成は、図１に示した車載装置１００と施設検索サーバ１５０に含まれる各構成と基本的に共通するものであり、信号の入出力経路が一部変更されているが、基本的な動作が共通するものについては説明は省略するものとする。

図６は、利用者が発声した音声を取り込んでこの音声に対応する施設検索結果を表示するまでの第３の実施形態の一連の動作手順を示す流れ図である。

利用者が施設検索用の音声を発声すると、この音声がマイクロホン１１０によって取り込まれ、対応する音声（音声データ）が音声保存バッファ１１２に保存される（ステップ３００）。次に、音声認識部１１４は、認識辞書１１６に含まれる動的な認識辞書（後述するステップ３２２で作成される）を用いて、音声保存バッファ１１２に保存されている音声に対して音声認識処理を行う（ステップ３０２）。優先度調整部１２２は、この音声認識処理の結果に基づいて、過去に施設検索サーバ１５０Ｂによる音声認識処理によって抽出された認識候補が正しいことが確かめられた音声と今回音声認識処理の対象になっている音声とが同一であるか否かを判定する（ステップ３０４）。ステップ３０２の音声認識処理において、既に作成されている動的な認識辞書が存在する音声は、過去に施設検索サーバ１５０Ｂによる音声認識処理によって抽出された認識候補が正しいことが確かめられた音声であるといえる。反対に、対応する動的な認識辞書が存在しない音声が音声認識処理の対象である場合にはステップ３０４の判定において否定判断が行われる。

ステップ３０４の判定において否定判断がなされると、次に、優先度調整部１２２は、音声保存バッファ１１２に保存された音声を通信部１３４によって施設検索サーバ１５０Ｂに向けて送信する（ステップ３０６）。施設検索サーバ１５０Ｂ側では、通信部１６８によって、車載装置１００Ｂから送られてきた音声を受信すると、音声認識部１６０は、認識辞書１６２を用いてこの受信した音声に対して音声認識処理を行う（ステップ３０８）。この音声認識処理では、受信音声と認識辞書１６２に格納された複数の認識候補のそれぞれとの間で類似度が判定され、最大で所定個数の認識候補が抽出される。なお、１つの認識候補の類似度が他の認識候補の類似度に比べて極端に大きい場合に、この類似度が大きい１つの認識候補のみが抽出され、それ以外の場合には類似度が大きい順に複数の認識候補が抽出される。このようにして抽出された認識候補は通信部１６８によって車載装置１００Ｂ側に送信される。

車載装置１００Ｂ側では、通信部１３４によって、施設検索サーバ１５０Ｂから送られてきた認識結果を受信する（ステップ３１０）。受信した認識結果は、認識結果保存バッファ１２０に保存される。次に、優先度調整部１２２は、認識結果保存バッファ１２０に保存された認識結果が複数か否かを判定する（ステップ３１２）。複数の場合には肯定判断が行われる。この場合には、優先度調整部１２２は、これら複数の認識候補が選択肢として含まれる選択画面を認識結果表示処理部１２６によって表示装置１２８に表示させる（ステップ３１４）。このようにして選択画面が表示された状態で、優先度調整部１２２は、利用者が操作部１２４を操作することによりこの選択画面に含まれるいずれかの認識候補が選択されたか否かを判定する（ステップ３１６）。選択されるまで否定判断が行われ、ステップ３１４の表示が行われる。

また、利用者によって認識候補が選択されるとステップ３１６の判定において肯定判断が行われる。次に、優先度調整部１２２は、この選択された認識候補を通信部１３４を介して施設検索サーバ１５０Ｂに向けて送信する（ステップ３１８）。

次に、ステップ３１６で選択された１つの認識候補について、あるいは、施設検索サーバ１５０Ｂから受信した認識候補が１つだった場合（ステップ３１２の判定において否定判断）にはその認識候補について、辞書生成部１１８は、認識結果としての文字列に対してＧＴＰ処理を行って、文字列の「よみ情報」を作成する（ステップ３２０）。また、辞書生成部１１８は、このよみ情報から音声認識処理用の動的な認識辞書とこのよみ情報に対応する文字情報（よみ情報そのものを文字情報として用いるが場合や、ＧＴＰ処理を行う前の認識結果としての文字列を文字情報として用いる場合などが考えられる）を作成する（ステップ３２２）。作成された動的な認識辞書は、認識辞書１１６に追加、格納される。

なお、作成された文字情報は、動的な認識辞書に対応づけられて認識辞書１１６の一部に保存されており、いずれかの動的な認識辞書を用いて認識候補の抽出が行われたときに、この動的な認識辞書に対応する文字情報も同時に認識辞書１１６から読み出され、音声認識部１１４から優先度調整部１２２に入力されるようになっている。したがって、優先度調整部１２２は、この文字情報の有無を調べるだけでステップ３０４の判定を行うことができる。

対応する文字情報が存在する場合にはステップ３０４の判定において肯定判断が行われる。この場合には、優先度調整部１２２は、入力された文字情報を通信部１３４によって施設検索サーバ１５０Ｂに向けて送信する（ステップ３２４）。

施設検索サーバ１５０Ｂでは、通信部１６８によって、車載装置１００Ｂから送られてくる１つの認識候補（ステップ３１８で送信）や文字情報（ステップ３２４で送信）を受信すると、施設検索部１６４は、この認識候補あるいは文字情報を検索キーワードとして施設検索を行い、施設ＤＢ１６６に格納された施設情報の中から１あるいは複数の施設に関する施設情報を抽出する（ステップ３２６）。抽出された施設情報は通信部１６８から車載装置１００Ｂに向けて送信される。車載装置１００Ｂでは、通信部１３４によって、施設検索サーバ１５０Ｂから送られてきた施設情報を受信する（ステップ３２８）。この受信した施設情報は、検索結果保存バッファ１３０に一旦保存された後、検索結果表示処理部１３２によって読み出されてその内容が表示装置１２８に表示される（ステップ３３０）。

このように、本実施形態の施設検索システムでは、施設検索サーバ１５０Ｂ側の音声認識処理によって正しい認識結果が得られた音声について車載装置１００Ｂ側において動的な認識辞書が作成されるため、この音声については次回以降に車載装置１００Ｂ側の音声認識処理の認識精度を上げることが可能となる。また、この音声については、次回以降は、施設検索サーバ１５０Ｂ側における音声認識処理が不要となるため、施設検索に要する時間を短縮することができる。特に、文字情報を検索キーワードとして用いることにより、施設検索サーバ１５０Ｂにおける施設検索処理を簡略化することができる。

（第４の実施形態）
次に、第４の実施形態の施設検索システムについて説明する。本実施形態の施設検索システムでは、車載装置と施設検索サーバの両方において、入力音声に対する音声認識処理およびその認識結果を用いた施設検索処理を並行して行い、結果が先に得られる車載装置側の検索結果を先に表示し、結果が後から得られる施設検索サーバ側の検索結果については必要に応じて表示するようにした。

図７は、第４の実施形態の施設検索システムの構成を示す図である。本実施形態の施設検索システムは、車載装置１００Ｃと施設検索サーバ１５０Ｃとを備えている。これらに含まれる各構成は、図１に示した車載装置１００と施設検索サーバ１５０に含まれる各構成と基本的に共通するものであり、一部が削除あるいは追加されるとともに信号の入出力経路が一部変更されているが、基本的な動作が共通するものについては説明は省略するものとする。車載装置１００Ｃに含まれる施設検索部１４０が第１のコンテンツ検索手段に、施設ＤＢ１４２が第１のコンテンツデータベースに、施設検索サーバ１５０Ｃに含まれる施設検索部１６４が第２のコンテンツ検索手段に、施設ＤＢ１６６が第２のコンテンツデータベースにそれぞれ対応する。車載装置１００Ｃ内の施設検索部１４０および施設ＤＢ１４２は、施設検索サーバ１５０Ｃ内の施設検索部１６４および施設ＤＢ１６６と比べて基本的に同じものである。また、検索結果保存バッファ１４４には、施設検索部１４０の施設検索によって抽出された施設情報が保存される。

図８は、利用者が発声した音声を取り込んでこの音声に対応する施設検索結果を表示するまでの第４の実施形態の一連の動作手順を示す流れ図である。

利用者が施設検索用の音声を発声すると、この音声がマイクロホン１１０によって取り込まれ、対応する音声（音声データ）が音声保存バッファ１１２に保存される（ステップ４００）。次に、音声認識部１１４は、認識辞書１１６を用いて、音声保存バッファ１１２に保存されている音声に対して音声認識処理を行う（ステップ４０２）。この音声認識処理によって、入力音声との類似度が最も大きい１つの認識候補が抽出される。なお、第１の実施形態では、認識辞書１１６に含まれる動的な認識辞書を用いて音声認識処理が行われたが、ステップ４０２の音声認識処理は、予め作成された一般的な内容を有する認識辞書１１６を用いて行われる。

次に、施設検索部１４０は、音声認識部１１４によって抽出された認識候補を検索キーワードとして施設検索を行い、施設ＤＢ１４２に格納された施設情報の中から１あるいは複数の施設に関する施設情報を抽出する（ステップ４０４）。この抽出された施設情報は、検索結果表示処理部１３２によってその内容が表示装置１２８に表示される（ステップ４０６）。

また、音声保存バッファ１１２に保存された音声は、通信部１３４によって施設検索サーバ１５０Ｃに向けて送信される（ステップ４０８）。施設検索サーバ１５０Ｃ側では、通信部１６８によって、車載装置１００Ｃから送られてきた音声を受信すると、音声認識部１６０は、認識辞書１６２を用いてこの受信した音声に対して音声認識処理を行う（ステップ４１０）。この音声認識処理では、受信音声と認識辞書１６２に格納された複数の認識候補のそれぞれとの間で類似度が判定され、１つの認識候補が抽出される。

また、施設検索部１６４は、この認識候補を検索キーワードとして施設検索を行い、施設ＤＢ１６６に格納された施設情報の中から１あるいは複数の施設に関する施設情報を抽出する（ステップ４１２）。ステップ４１０の音声認識処理によって抽出された１つの認識候補と、ステップ４１２の施設検索処理によって抽出された施設情報は、ともに通信部１６８から車載装置１００Ｃに向けて送信される。車載装置１００Ｃでは、通信部１３４によって、施設検索サーバ１５０Ｃから送られてきた認識候補と施設情報を受信する（ステップ４１４）。その後、検索結果表示処理部１３２によって、この新たに受信した施設情報の内容が表示装置１２８に表示され、表示内容の変更が行われる（ステップ４１６）。

なお、この例では、施設検索サーバ１５０Ｃから施設情報を受信したときに、それまで表示していた車載装置１００Ｃ側の施設情報に代えて、この新たに受信した施設情報を表示するようにしたが、この表示切り替え等については各種の変形例が考えられる。例えば、車載装置１００Ｃと施設検索サーバ１５０Ｃのそれぞれの音声認識処理によって同一の認識候補が得られた場合には、上述した場合と同様に施設検索サーバ１５０Ｃ側の施設情報に表示を切り替える。一方、認識候補が異なる場合には、車載装置１００Ｃ側の認識候補を用いて再度施設検索サーバ１５０Ｃ側で施設検索を行い、検索により抽出された施設情報を取得して車載装置１００Ｃの表示装置１２８に表示するようにしてもよい。認識候補が同じであるか否かは優先度調整部１２２によって判定することができる。

このように、本実施形態の施設検索システムでは、車載装置１００Ｃ側において行われる音声認識処理によって抽出された認識候補を用いた施設検索を行うことにより、速やかに施設情報を表示させることができ、その後、施設検索サーバ１５０Ｃ側において行われる音声認識処理によって抽出された認識候補を用いた施設検索による施設情報が得られたときに、この新たに得られた施設情報に表示内容を変更することで検索精度を向上させることができる。しかも、これら一連の動作を実施する際に特別な操作が不要であって操作の簡略化が可能となる。

なお、本発明は上記実施形態に限定されるものではなく、本発明の要旨の範囲内において種々の変形実施が可能である。上述した実施形態では、施設検索サーバ１５０等において施設情報を検索する場合について説明したが、音声認識処理によって抽出された認識候補を検索キーワードとして検索する対象は、施設を含むあるいは施設以外の広い概念としてのコンテンツとすることができる。

また、上述した実施形態では、音声認識処理によって抽出された認識候補を検索キーワードとして施設情報を検索する施設検索システムについて本発明を適用したが、音声認識処理に関する構成に着目した「音声認識システム」としてもよい。

上述したように、本発明によれば、２組の認識辞書と音声認識部を用いて同じ音声に対して音声認識処理を行うことにより、認識精度を上げることが可能となる。これにより、１つの認識候補（語彙）を決定する可能性が高まり、複数の認識候補の中から利用者自身が正解となる認識候補を選択する機会が減るため、操作の簡略化が可能となる。

１００車載装置
１５０施設検索サーバ
１１０マイクロホン
１１２音声保存バッファ
１１４、１６０音声認識部
１１６、１６２認識辞書
１１８辞書生成部
１２０認識結果保存バッファ
１２２優先度調整部
１２４操作部
１２６認識結果表示処理部
１２８表示装置
１３０検索結果保存バッファ
１３２検索結果表示処理部
１３４、１６８通信部
１６４施設検索部
１６６施設ＤＢ（データベース）

Claims

話者が発声した音声を保存する音声保存手段と、
第１の認識辞書を用いて、前記音声保存手段に保存された音声に対して音声認識処理を行う第１の音声認識手段と、
前記第１の認識辞書と異なる第２の認識辞書を用いて、前記音声保存手段に保存された音声に対して音声認識処理を行う第２の音声認識手段と、
前記第１および第２の音声認識手段の認識結果に基づいて、前記音声保存手段に保存された音声に対応する認識候補を決定する認識結果決定手段と、
を備えることを特徴とする音声認識システム。
請求項１において、
前記第１の音声認識手段による音声認識処理の処理時間は、前記第２の音声認識処理手段による音声認識処理の処理時間よりも短く、
前記第２の音声認識手段による音声認識処理の認識精度は、前記第１の音声認識処理手段による音声認識処理の認識精度よりも高いことを特徴とする音声認識システム。
請求項１または２において、
前記第１および第２の音声認識手段による音声認識処理は、互いに異なる音響モデルおよび照合アルゴリズムを用いて行われることを特徴とする音声認識システム。
請求項１〜３のいずれかにおいて、
前記音声保存手段、前記第１の音声認識手段、前記認識結果決定手段は、車両に設けられており、
前記第２の音声認識手段は、ネットワークを介して接続された車両外部のサーバに設けられていることを特徴とする音声認識システム。
請求項４において、
前記第２の音声認識手段による音声認識処理によって複数の認識候補に絞られたときに、これら複数の認識候補に対応する前記第１の認識辞書を作成する辞書作成手段をさらに備え、
前記認識結果決定手段は、前記辞書作成手段によって作成された前記第１の認識辞書を用いた前記第１の音声認識手段の認識結果を用いて、前記音声保存手段に保存された音声に対応する認識候補を決定することを特徴とする音声認識システム。
請求項５において、
前記認識結果決定手段は、前記第２の音声認識手段による音声認識処理によって１つの認識候補に絞られたときに、この認識候補を、前記音声保存手段に保存された音声に対応する認識候補として決定することを特徴とする音声認識システム。
請求項５または６において、
前記辞書作成手段は、前記複数の認識候補のそれぞれに対応する読みを書記素−音素変換により生成し、この読みを音声波形に変換することにより、前記第１の認識辞書を作成することを特徴とする音声認識システム。
請求項５〜７のいずれかに記載の前記サーバは、複数のコンテンツに関する情報が格納されたコンテンツデータベースと、前記認識結果決定手段によって決定された認識候補を検索キーワードとして前記複数のコンテンツの中から一つあるいは複数のコンテンツに関する情報を検索するコンテンツ検索手段とを備えることを特徴とする検索システム。
請求項４において、
前記認識結果決定手段は、前記第１の音声認識手段による認識結果が誤りであった場合に、前記第２の音声認識手段による音声認識処理を依頼することを特徴とする音声認識システム。
請求項９において、
前記第１の音声認識手段による認識結果を利用者に通知する通知手段と、
前記通知手段による通知に応じて、認識結果が誤りであった場合にその旨を利用者が指示する操作手段と、
をさらに備えることを特徴とする音声認識システム。
請求項９または１０に記載の前記サーバは、複数のコンテンツに関する情報が格納されたコンテンツデータベースと、前記認識結果決定手段によって決定された認識候補を検索キーワードとして前記複数のコンテンツの中から一つあるいは複数のコンテンツに関する情報を検索するコンテンツ検索手段とを備えることを特徴とする検索システム。
請求項４において、
過去に前記第２の音声認識手段による音声認識処理によって抽出された認識候補であって、正しいことが確かめられた認識候補に対応する前記第１の認識辞書を作成する辞書作成手段をさらに備え、
前記認識結果決定手段は、前記辞書作成手段によって作成された前記第１の認識辞書を用いた前記第１の音声認識手段の認識結果を用いて、前記音声保存手段に保存された音声に対応する認識候補を決定することを特徴とする音声認識システム。
請求項１２において、
前記辞書作成手段は、前記複数の認識候補のそれぞれに対応する読みを書記素−音素変換により生成し、この読みを音声波形に変換することにより、前記第１の認識辞書を作成することを特徴とする音声認識システム。
請求項１２または１３に記載の前記認識結果決定手段は、前記音声保存手段に保存された音声に対応する認識候補とともにこの認識候補に対応する文字情報を決定し、
前記サーバは、複数のコンテンツに関する情報が格納されたコンテンツデータベースと、前記認識結果決定手段によって決定された前記文字情報を検索キーワードとして前記複数のコンテンツの中から一つあるいは複数のコンテンツに関する情報を検索するコンテンツ検索手段とを備えることを特徴とする検索システム。
請求項４に記載の前記車両には、複数のコンテンツに関する情報が格納された第１のコンテンツデータベースと、前記第１の音声認識手段による音声認識処理によって得られた認識結果を検索キーワードとしてコンテンツに関する情報を検索する第１のコンテンツ検索手段と、前記第１のコンテンツ検索手段による検索結果としてのコンテンツに関する情報を表示する表示手段とが設けられており、
前記サーバには、複数のコンテンツに関する情報が格納された第２のコンテンツデータベースと、前記第２の音声認識手段による音声認識処理によって得られた認識結果を検索キーワードとしてコンテンツに関する情報を検索する第２のコンテンツ検索手段とが備わっており、
前記第２のコンテンツ検索手段による検索結果としてのコンテンツに関する情報が得られるまでは、前記表示手段に前記第１のコンテンツ検索手段による検索結果としてのコンテンツに関する情報が表示され、前記第２のコンテンツ検索手段による検索結果としてのコンテンツに関する情報が得られた後はこのコンテンツに関する情報が前記表示手段に表示されることを特徴とする検索システム。