JP5772214B2

JP5772214B2 - 音声認識装置

Info

Publication number: JP5772214B2
Application number: JP2011115081A
Authority: JP
Inventors: 信矢小嶋
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2010-05-24
Filing date: 2011-05-23
Publication date: 2015-09-02
Anticipated expiration: 2031-05-23
Also published as: JP2012008554A

Description

本発明は、ユーザが発話する音声を認識する音声認識装置に関する。

従来、ユーザが発話する音声を音声認識する場合、辞書などの言語モデルにおいて、発話に出現する語彙の確率分布である発話出現確率分布を設定し、音声認識するときの語彙の探索空間を予め限定しておくことが考えられる。この場合の言語モデルは、あり得そうな発話の統計モデルとして表現される。つまり、あり得そうな発話には出現確率が与えられ、それ以外の発話の出現確率は０に設定される。

ところで、発話出現確率分布は、話題、分野、時期、ユーザによる操作等の発話の状況であるトピックに応じて変動する。したがって、固定された発話出現確率分布に基づいて音声認識を高精度に行うことは困難である。

例えば、音声認識機能付きのカーナビゲーション装置では、「目的地に関する操作」または「音楽再生に関する操作」のどちらも発話される可能性がある。そして、車両の乗員の話題が「目的地に関する」ときには、「目的地に関する操作」についての発話の出現確率は高く、「音楽再生に関する操作」についての発話の出現確率は低いと推測される。

したがって、この場合には、「目的地に関する操作」についての発話出現確率を高くし、「音楽再生に関する操作」についての発話出現確率を低く設定した発話出現確率分布に切り替えて音声認識を実行することが望ましい。

逆に、車両の乗員の話題が「音楽再生に関する」ときには、「音楽再生に関する操作」についての発話の出現確率を高くし、「目的地に関する操作」についての発話の出現確率を低く設定した発話出現確率分布に切り替えて音声認識を実行することが望ましい。

このように、トピックに応じて予め設定した発話出現確率分布を選択し、音声認識に使用する発話確率分布を切り替える技術として、特許文献１では、リモコン等の遠隔操作機器が向けられている操作対象機器に関する語彙の重み付けを、他の操作対象機器に関する語彙よりも大きくし、操作対象機器が変る毎に語彙の重み付けを切り替える技術が開示されている。

また、特許文献２には、音声認識する際に、トピックとして例えば県名毎に、認識対象とする企業名に対して出現確率が重み付けされた辞書を切り替えて音声認識に使用する技術が開示されている。

このように、トピックに応じて予め設定された発話出現確率分布に切り替える技術に対し、例えば、トリガーとなる発話が検出されると、関連する発話の出現確率を上昇させるなどして、トピックに応じて発話出現確率分布を徐々に変化させていく方式が知られている（例えば、非特許文献１参照。）。

この方式によれば、トピックが別のトピックに変る場合には、発話出現確率分布は時間経過とともにトピックに応じた分布に徐々に変っていく。

特開２００２−１１６７９１号公報特開２００３−１５０１８９号公報

Rosenfeld R.、"A maximum entropy approach to adaptive statistical language modeling"、（オランダ）、Computer Speech and Language、Academic Press、1996、Vol.10、Number 3、p.187-228

ところで、トピックに応じて出現確率が適切に設定された発話出現確率分布には、確率分布の偏り方に違いはあるものの、所定値以上の確率分布の偏りが生じているはずである。

しかしながら、トピックに応じて予め設定された発話出現確率分布に切り替える場合、発話出現確率分布が適切に設定されておらず、確率分布の偏りが小さい発話出現確率分布が選択されると、音声認識を適切に実行できない。

また、トピックに応じて発話出現確率分布を徐々に変化させる場合、変化途中の発話出現確率分布には、変化前後のどちらのトピックにも対応しておらず偏りの小さい分布状態が生じることがある。発話出現確率分布がこのような状態のときにユーザが発話すると、やはり音声認識を適切に実行できない。

このように、発話出現確率分布の分布状態によっては、トピックに適応しておらず音声認識を適切に実行できないことがある。
本発明は、このような問題を解決するためになされたものであり、トピックに対する発話出現確率分布の適応度を判定する音声認識装置を提供することを目的とする。

請求項１に記載の発明によると、分布設定手段がトピックに応じて変化させる発話出現確率分布の偏りを分布偏り算出手段が算出し、算出された発話出現確率分布の偏りに基づいて、トピックに対する発話出現確率分布の適応度を適応判定手段が判定する。

これにより、例えば発話出現確率分布の偏りが所定値以上であれば、発話出現確率分布はトピックに適応しており、所定値よりも小さい場合はトピックに適応していないと判定できる。このように、トピックに対する発話出現確率分布の適応度を音声認識装置が判定するので、音声認識装置は、トピックに対する発話出現確率分布の適応度に基づいて適切な処理を実行できる。

さらに、請求項１に記載の発明によると、分布設定手段は、トピックに応じて発話出現確率分布を徐々に変化させる。
このように、トピックに応じて発話出現確率分布を徐々に変化させる場合、変化途中の発話出現確率分布には、確率分布の偏りが小さく変化前後のどちらのトピックに対する適応度も低い状態が生じることがある。したがって、発話出現確率分布の偏りが小さくトピックに対する適応度が低い状態を判定することにより、トピックに対する適応度に基づいて適切な処理を実行できる。

請求項２に記載の発明によると、分布設定手段は、適応判定手段の判定結果に基づいて発話出現確率分布を設定する。
これにより、例えば、トピックに対する発話出現確率分布の適応度が低いと適応判定手
段が判定する場合には、発話出現確率分布を適切な分布に変更することができる。

請求項３に記載の発明によると、一つ以上の特定のトピックにそれぞれ対応する発話出現確率の特定分布が分布記憶手段に記憶されており、分布設定手段は、使用中の発話出現確率分布がトピックに適応していないと適応判定手段が判定すると、分布記憶手段に記憶されている特定分布のうち使用中の発話出現確率分布に最も近い分布を有する特定分布を、使用する発話出現確率分布として設定する。

このように、発話出現確率分布がトピックに適応していない場合には、使用中の発話出現確率分布に最も近い分布状態の特定分布を、使用する発話出現確率分布として設定することにより、音声認識の精度が低下することを抑制できる。

請求項４に記載の発明によると、トピックに適応していると適応判定手段が最後に判定した発話出現確率分布である適応分布が分布記憶手段に記憶されており、分布設定手段は、使用中の発話出現確率分布がトピックに適応していないと適応判定手段が判定すると、使用する発話出現確率分布として分布記憶手段に記憶されている適応分布を設定する。

これにより、例えば一時的にトピックが変ったために、使用中の発話出現確率分布がトピックに適応しなくなったが、すぐに元のトピックに戻る場合に、元のトピックに適応していた適応分布が発話出現確率分布として設定されるので、音声認識の精度が低下することを抑制できる。

請求項５に記載の発明によると、一つ以上の特定のトピックにそれぞれ対応する発話出現確率の特定分布が分布記憶手段に記憶されており、適応判定手段は、発話出現確率分布がトピックに適応していないと判定すると、ユーザによるトピックの選択を指令する。そして、分布設定手段は、ユーザが選択したトピックに対応する特定分布を分布記憶手段から選択し、使用する発話出現確率分布として設定する。

これにより、発話出現確率分布がトピックに適応していない場合には、ユーザにより適切なトピックが選択されるので、音声認識の精度が低下することを抑制できる。
請求項６に記載の発明によると、適応判定手段は、トピックに対する発話出現確率分布の適応度をユーザに報知するよう指令する。

これにより、トピックに対する発話出現確率分布の適応度をユーザが知ることができるので、例えば、音声認識の精度が低下している場合に、その原因が発話出現確率分布の適応度の低下にあることをユーザが知ることができる。

ところで、音声認識の起動時に、発話出現確率分布を所定の初期分布に設定する場合、音声認識が起動され、初期分布からトピックに応じた発話出現確率分布が設定される途中では、初期分布と発話出現確率分布との間の分布の変化量が小さく、適切な発話出現確率分布が設定されている状態ではない。一方、適切な発話出現確率分布が設定されると、初期分布と発話出現確率分布との間の分布の変化量は大きくなる。

そこで、請求項７に記載の発明によると、分布設定手段は、音声認識の起動時に発話出現確率を初期分布に設定し、適応判定手段は、初期分布に対する使用中の発話出現確率分布の分布変化量に基づいて、トピックに対する発話出現確率分布の適応度を判定する。

このように、初期分布に対する使用中の発話出現確率分布の分布変化量に基づいて、トピックに対する発話出現確率分布の適応度を判定することにより、初期分布に対する使用中の発話出現確率分布の分布変化量が小さい場合には、例えば、ユーザにトピックを選択してもらう等の適切な処理を実行できる。

請求項８に記載の発明によると、分布設定手段は、適応クリアスイッチが操作されると、使用する発話出現確率分布として所定の発話出現確率分布を設定する。
これにより、例えば音声認識装置による音声認識結果が発話のトピックに適応していないとユーザが判断すると、ユーザが適応クリアスイッチを操作することにより、現在使用されている発話出現確率分布を所定の分布状態に設定できる。その結果、発話出現確率分布を発話のトピックに適応させる処理をやり直すことができる。所定の分布状態の発話出現確率分布とは、音声認識起動時に発話出現確率分布として設定される初期分布でもよいし、特定のトピックに適応した確率分布でもよい。

請求項９に記載の発明によると、音声認識手段は発話される音声を発話出現確率分布に基づいて認識し、コマンド設定手段は、発話出現確率分布がトピックに適応していると適応判定手段が判定すると、音声認識手段による音声認識の結果を音声コマンドとして設定する。

これにより、発話出現確率分布がトピックに適応している場合、ユーザから音声認識を指令するスイッチ操作がなくても、音声認識装置が自動的に音声認識結果をコマンドとして設定できる。したがって、ユーザのスイッチ操作の手間を省略できる。

請求項１０に記載の発明によると、音声認識手段は発話される音声を発話出現確率分布に基づいて認識し、音声認識指令手段は、発話出現確率分布がトピックに適応していると適応判定手段が判定すると、音声認識手段に音声認識の開始を指令する。

これにより、音声認識指令手段は、発話出現確率分布がトピックに適応していない場合、音声認識手段に音声認識を指令しない。その結果、音声認識手段による音声認識の処理負荷が低減する。

また、発話出現確率分布がトピックに適応している場合、ユーザから音声認識を指令するスイッチ操作がなくても、音声認識指令手段からの指令により、音声認識手段は発話される音声を自動的に音声認識できる。したがって、ユーザのスイッチ操作の手間を省略できる。

請求項１１に記載の発明によると、適応判定手段は、分布偏り算出手段が算出する発話出現確率分布の偏りが有意であるか否かを判定し、有意ではない場合、発話出現確率分布がトピックに適応していないと判定する。

これにより、例えば、発話出現確率分布の偏りが所定値以上であっても、その確率分布に特定のトピックに適応しているという意味がなければ、トピックに適応していると判定されない。したがって、トピックに対する発話出現確率分布の適応度を誤判定することを防止できる。

請求項１２に記載の発明によると、分布偏り算出手段は平滑化手段により平滑化された発話出現確率分布の平滑分布の偏りを算出する。そして、適応判定手段は、分布偏り算出手段が算出する平滑分布の偏りに基づいて発話出現確率分布の偏りが有意であるか否かを判定し、有意ではない場合、発話出現確率分布がトピックに適応していないと判定する。

これにより、複数のトピックに分散して偏りを有する発話出現確率分布であれば、偏りが平滑化されて小さくなるので、発話出現確率分布がトピックに適応していないと判定できる。一方、一つのトピックに対して偏りを有する発話確率分布であれば、平滑化しても一つのトピックに対して偏りを有するので、発話出現確率分布がトピックに適応していると判定できる。

尚、発話出現確率分布の平滑化としては種々の方式が考えられる。例えば、発話出現確率分布を構成する各語彙の出現確率ついて、各語彙と、その周囲の所定数の語彙の出現確率との平均を、語彙毎に順次算出することが考えられる。

請求項１３に記載の発明によると、分布偏り手段は、発話出現確率分布のエントロピーまたは最大値に基づいて平滑分布の偏りを算出する。
エントロピーまたは最大値であれば、平滑化すると偏りが平均化されて小さくなっている発話出現確率分布に対して、偏りが小さいために発話出現確率分布がトピックに適応していないと判定できる。

請求項１４に記載の発明によると、適応判定手段は、分布偏り算出手段が算出する発話出現確率分布の偏りが所定値以上の場合、発話出現確率分布と分布記憶手段に記憶されている特定分布との類似度に基づいて発話出現確率分布の偏りが有意であるか否かを判定し、有意ではない場合、発話出現確率分布がトピックに適応していないと判定する。

これにより、複数のトピックに分散して偏りを有する発話出現確率分布であれば、特定分布との類似度は低いので、発話出現確率分布がトピックに適応していないと判定できる。一方、一つのトピックに対して偏りを有する発話確率分布であれば、特定分布との類似度は高いので、発話出現確率分布がトピックに適応していると判定できる。

請求項１５に記載の発明によると、固定認識手段は、発話される音声を分布設定手段により分布状態を変化させられない固定の発話出現確率分布に基づいて認識し、可変認識手段は、発話される音声を分布設定手段により分布状態を変化させられる可変の発話出現確率分布に基づいて認識する。そして、適応判定手段は、可変の発話出現確率分布がトピックに適応していると判定すると、固定認識手段による音声認識結果に加え、可変認識手段による音声認識結果をユーザに報知するよう指令する。

これにより、ユーザは、固定認識手段と可変認識手段とによる音声認識結果を比較することができる。
請求項１６に記載の発明によると、適応判定手段の指令により報知された可変認識手段による音声認識結果をユーザが選択できる選択スイッチを備える。

これにより、固定認識手段による音声認識結果よりも可変認識手段による音声認識結果が発話のトピックに適応しているとユーザが判断すると、可変認識手段による音声認識結果を選択できる。

第１実施形態による音声認識機能を有するナビゲーションシステムの構成を示すブロック図。第１実施形態による音声認識装置の音声認識部および対話制御部の構成を示すブロック図。第１実施形態による発話出現確率分布の状態を示す説明図。第１実施形態による音声認識処理の一例を示すフローチャート。第１実施形態による音声認識処理の他の例を示すフローチャート。第１実施形態によるトピックの選択画面を示す説明図。第１実施形態による音声認識処理の他の例を示すフローチャート。第２実施形態による音声認識装置の音声認識部および対話制御部の構成を示すブロック図。第３実施形態による音声認識装置の構成を示すブロック図。第３実施形態による音声認識処理の一例を示すフローチャート。第４実施形態による音声認識装置の音声認識部および対話制御部の構成を示すブロック図。第４実施形態による発話出現確率分布の平滑化処理を示す説明図。第４実施形態による音声認識処理の一例を示すフローチャート。第５実施形態による音声認識装置の音声認識部および対話制御部の構成を示すブロック図。第５実施形態による発話出現確率分布の類似判定処理を示す説明図。第５実施形態による音声認識処理の一例を示すフローチャート。第６実施形態による音声認識装置の音声認識部および対話制御部の構成を示すブロック図。第６実施形態による表示画面を示す説明図。第６実施形態による音声認識処理の一例を示すフローチャート。

以下、本発明の実施形態を図に基づいて説明する。
［第１実施形態］
図１は、第１実施形態による音声認識機能を持たせたナビゲーションシステム２の概略構成を示すブロック図である。

（ナビゲーションシステム２）
ナビゲーションシステム２は、車両に搭載されて用いられるいわゆるカーナビゲーションシステムであり、制御回路１０、通信装置１２、外部メモリ１４、表示装置１６、リモコンセンサ１８、位置検出器２０、データ入力器３０、操作スイッチ群３２、および音声認識装置４０を備えている。尚、制御回路１０および音声認識装置４０はそれぞれ通常のマイクロコンピュータとして構成されており、内部には、周知のＣＰＵ、ＲＯＭ、ＲＡＭ、Ｉ／Ｏおよびこれらの構成を接続するバスラインが備えられている。

通信装置１２は、設定された連絡先通信情報によって特定される連絡先との通信を行うためのものであり、例えば携帯電話機等の移動体通信機によって構成される。
表示装置１６は、例えばカラー画像表示装置であり、表示装置１６の画面には、位置検出器２０から入力された車両現在位置マークと、データ入力器３０より入力された地図データと、さらに地図上に表示する誘導経路や設定地点の目印等の付加データとを重ねて表示することができる。また、複数の選択肢を表示するメニュー画面やその中の選択肢を選んだ場合に、さらに複数の選択肢を表示するコマンド入力画面なども表示することができる。

また、表示装置１６は、後述するトピック適応度、トピック選択画面を表示することができる。トピック適応度を表示する装置として、表示装置１６とは別体のＬＥＤ等を使用してもよい。尚、トピックは、話題、分野、時期、ユーザによる操作等の発話の状況を表すものである。

位置検出器２０は、周知のジャイロスコープ２２、距離センサ２４および衛星からの電波に基づいて車両の位置を検出するためのＧＰＳ受信機２６を有している。これらのジャイロスコープ２２、距離センサ２４およびＧＰＳ受信機２６等は、各々が性質の異なる誤差を持っているため、それぞれ補間しながら使用するように構成されている。尚、精度によっては上述した内の一部で位置検出器２０を構成してもよく、さらに、ステアリングの回転センサ、各転動輪の車輪センサ等を用いてもよい。

データ入力器３０は、位置検出の精度向上のためのいわゆるマップマッチング用データ、地図データおよび目印データを含むナビゲーション用の各種データに加えて、音声認識装置４０において認識処理を行う際に用いる辞書データを入力するための装置である。記憶媒体としては、データ量から判断してハードディスクやＤＶＤを用いるのが一般的であると考えられるが、ＣＤ−ＲＯＭ等の他の媒体を用いてもよい。データ記憶媒体としてＤＶＤを用いた場合には、このデータ入力器３０はＤＶＤプレーヤとしても使用できる。

ナビゲーションシステム２は、リモートコントロール端末（以下、リモコンと称する。）３４を介してリモコンセンサ１８から、あるいは操作スイッチ群３２により目的地の位置が入力されると、現在位置からその目的地までの最適な経路を自動的に選択して誘導経路を形成し表示する、いわゆる経路案内機能も備えている。このような自動的に最適な経路を設定する手法は、ダイクストラ法等の手法が知られている。操作スイッチ群３２は、例えば、表示装置１６と一体になったタッチスイッチもしくはメカニカルなスイッチ等が用いられ、各種コマンドの入力に利用される。

音声認識装置４０は、上記操作スイッチ群３２あるいはリモコン３４が手動操作により各種コマンド入力のために用いられるのに対して、利用者が音声で入力することによっても同様に各種コマンドを入力できるようにするための装置である。

（音声認識装置４０）
音声認識装置４０は、音声抽出部４２と、音声認識部４４と、対話制御部４６と、音声合成部４８と、マイク５０と、スピーカ５２と、スイッチ５４と、制御部５６とを備えている。音声認識装置４０は、記憶装置に記憶されている処理プログラムを実行することにおり、ユーザによる発話を音声認識する。

音声抽出部４２は、マイク５０にて取り込んだ周囲の音声をデジタルデータに変換して音声認識部４４に出力するものである。詳しくは、入力した音声の特徴量を分析するため、例えば数１０ｍｓ程度の区間のフレーム信号を一定間隔で切り出し、その入力信号が、音声の含まれている音声区間であるのか音声の含まれていない雑音区間であるのか判定する。

マイク５０から入力される信号は、認識対象の音声だけでなく雑音も混在したものであるため、音声区間と雑音区間の判定を行う。この判定方法としては従来、多くの手法が提案されており、例えば入力信号の短時間パワーを一定時間毎に抽出していき、所定の閾値以上の短時間パワーが一定以上継続したか否かによって音声区間であるか雑音区間であるかを判定する手法がよく採用されている。そして、音声区間であると判定された場合には、その入力信号が音声認識部４４に出力されることとなる。

音声認識部４４は、音声抽出部４２から入力された音声データに対して音声認識処理を行い、その認識結果を対話制御部４６に出力する。すなわち、音声抽出部４２から取得した音声データに対し、記憶している辞書データを用いて照合を行い、複数の比較対象パターン候補と比較して一致度の高い上位比較対象パターンを対話制御部４６へ出力する。

入力音声中の単語系列の認識は、音声抽出部４２から入力された音声データを音響モデルと順次音響分析して音響的特徴量（例えばケプストラム）を抽出し、この音響分析によって得られた音響的特徴量時系列データを得ることにより行われる。そして、周知のＨＭＭ（隠れマルコフモデル）、ＤＰマッチング法あるいはニューラルネットなどによって、この時系列データをいくつかの区間に分け、各区間が辞書データ等として格納されたどの単語に対応しているかを求める。

対話制御部４６は、音声認識部４４における認識結果や制御部５６からの指示に基づき、音声合成部４８への応答音声の出力指示、あるいは、ナビゲーションシステム自体の処理を実行する制御回路１０に対して、例えばナビゲート処理のために必要なコマンドを通知してコマンドを実行させるよう指示する処理を行う。このような処理の結果として、この音声認識装置４０を利用すれば、上記操作スイッチ群３２あるいはリモコン３４を手動しなくても、音声入力によりナビゲーションシステム２に対する目的地の指示などが可能となる。

尚、音声合成部４８は、波形データベース内に格納されている音声波形を用い、対話制御部４６からの応答音声の出力指示に基づく音声を合成する。この合成音声がスピーカ５２から出力されることとなる。

本実施形態においては、利用者がスイッチ５４を押しているかいないかに関わらず、音声認識部４４はマイク５０を介して入力した音声を音声認識し、対話制御部４６に音声認識結果を出力する。対話制御部４６は、スイッチ５４が押されているときには、音声認識部４４による認識結果をコマンドとして制御回路１０に通知し、スイッチ５４が押されていないときには、音声認識部４４による認識結果をコマンドとしてではなく単に認識結果として制御回路１０に通知する。

このような構成を有することによって、本実施形態のナビゲーションシステム２では、操作スイッチ群３２、リモコン３４または音声によりユーザがコマンドを入力することによって、経路設定や経路案内あるいは施設検索や施設表示など各種の処理を実行することができる。

（音声認識部４４と対話制御部４６）
次に、音声認識部４４と対話制御部４６についてさらに説明する。
図２に示すように、音声認識部４４は、抽出結果記憶部４４２と照合部４４４と発話出現確率分布格納部４４６とを有している。対話制御部４６は、処理部４６２と入力部４６４と発話出現確率分布制御部４６６と分布記憶部４６８と分布偏り算出部４７０とトピック適応判定部４７２とを有している。

音声認識部４４においては、抽出結果記憶部４４２が音声抽出部４２から出力された抽出結果を記憶しておき、その記憶された抽出結果に対し、照合部４４４が、発話出現確率分布格納部４４６に格納されている発話出現確率分布において出現確率が設定されている発話との照合を行う。そして、照合部４４４にて抽出結果記憶部４４２に記憶されている抽出結果との一致度（尤度）が高く、かつ発話出現確率分布格納部４４６に格納されている発話出現確率分布において出現確率が高く設定されている発話の上位が、認識結果として対話制御部４６の処理部４６２へ出力される。処理部４６２は、その認識結果を制御回路１０へ出力する。

そして、前述したように、対話制御部４６は、スイッチ５４が押されているときだけ、音声認識部４４による認識結果をコマンドとして制御回路１０に通知する。
一方、制御回路１０は、ユーザからの操作またはコマンド指示を操作スイッチ群３２や音声認識装置４０を介して受け付ける。そして、制御回路１０は、ユーザからの操作またはコマンド指示に基づく発話出現確率分布に対する制御指示を対話制御部４６へ出力する。

また、制御回路１０は、音声認識部４４が認識した発話の認識結果を対話制御部４６から受け付けるとともに、音声認識部４４による認識結果を対話制御部４６に戻す。
対話制御部４６の処理部４６２は、音声認識部４４が認識した発話の認識結果を制御回路１０に出力する。また、入力部４６４は、制御回路１０から入力する発話出現確率分布に対する制御指示または音声認識部４４による認識結果を発話出現確率分布制御部４６６に出力する。

発話出現確率分布制御部４６６は、入力部４６４が出力する制御指示または音声認識結果等のトピックに応じて、音声認識部４４の発話出現確率分布格納部４４６に格納されている発話出現確率分布に対して、確率分布を徐々に変化させたり、特定の確率分布に切り替えたりする。

分布記憶部４６８には、一つ以上の特定のトピックにそれぞれ対応し、分布の偏りが所定値以上である発話出現確率の特定分布が記憶されている。特定のトピックとは、「目的地」、「音楽」、「テレビ」、「情報検索」等である。分布記憶部４６８には、発話出現確率の特定分布以外にも、音声認識処理が起動されるときの初期状態の発話出現確率分布である初期分布が記憶されている。

初期分布としては、例えば、”目的地設定”、”現在地”、”自宅へ帰る”など、通常よく発話されるナビ操作コマンドにのみ一様に出現確率を与え、その他は全て０であるような分布が設定される。重視すべきトピックが明白である場合は、そのトピックに対応する分布を初期分布として設定してもよい。

発話出現確率分布制御部４６６は、発話出現確率分布格納部４４６に格納されている発話出現確率分布がトピックに適応していない場合には、発話出現確率分布格納部４４６に格納されている発話出現確率分布を、分布記憶部４６８に記憶されている適切な発話出現確率の特定分布に切り替える。

また、発話出現確率分布制御部４６６は、特定の発話出現確率分布に切り替えられる前に発話出現確率分布格納部４４６に格納されていた発話出現確率分布を分布記憶部４６８にコピーする。そして、発話出現確率分布制御部４６６は、発話出現確率分布格納部４４６に格納した特定の発話出現確率分布の設定は変更せず、分布記憶部４６８にコピーした発話出現確率分布の設定を、制御回路１０からの発話出現確率分布に対する制御指示または音声認識部４４による認識結果等のトピックに応じて変更する。

発話出現確率分布制御部４６６は、発話出現確率分布格納部４４６に格納されていた発話出現確率分布を特定の発話出現確率分布に切り替えると、発話出現確率分布格納部４４６の発話出現確率分布ではなく、分布記憶部４６８にコピーして記憶している発話出現確率分布の偏りを算出するように分布偏り算出部４７０に指示する。

そして、分布記憶部４６８にコピーして記憶している発話出現確率分布の偏りが所定値以上になったとトピック適応判定部４７２が判定し、その判定結果を制御回路１０から入力すると、発話出現確率分布制御部４６６は、発話出現確率分布格納部４４６に格納されている発話出現確率分布を分布記憶部４６８に記憶している発話出現確率分布に切り替える。

（発話出現確率分布とトピックとの対応）
次に、発話出現確率分布とトピックとの対応について説明する。
発話出現確率分布格納部４４６は、ユーザから音声入力される発話の出現確率分布データを発話出現確率分布として格納している。発話出現確率分布は、例えば、一つ以上の辞書を重み付け結合したものや、ｎ−グラムモデルなどの言語モデルによって表現される。

発話出現確率分布制御部４６６は、発話出現確率分布格納部４４６に格納されている発話出現確率分布に対し、重み付け結合された辞書の重み係数を変更したり、ｎ−グラムモデルを変更するなどにより、発話出現確率分布をトピックに応じて設定する。尚、前述したように、発話出現確率分布格納部４４６に格納されていた発話出現確率分布を特定の発話出現確率分布に切り替えると、発話出現確率分布制御部４６６は、発話出現確率分布格納部４４６の発話出現確率分布ではなく、分布記憶部４６８にコピーして記憶している発話出現確率分布をトピックに応じて設定する。

分布偏り算出部４７０は、発話出現確率分布格納部４４６に格納されている発話出現確率分布、あるいは発話出現確率分布格納部４４６から分布記憶部４６８にコピーして記憶している発話出現確率分布の偏りを算出する。確率分布の偏りは、エントロピー、最大値、重心などを計算することにより算出される。

トピック適応判定部４７２では、分布偏り算出部４７０で算出された値を閾値処理するなどしてトピック適応判定を実施する。トピック適応判定部４７２によるトピック適応判定の結果は、制御回路１０に出力される。

例えば、図３の（Ａ）に示す発話出現確率分布では、”自宅へ帰る”、”現在地”、”渋滞情報”等の「道路」に関する発話の出現確率が高く、”ＣＤ”、”再生”等の「音楽」に関する発話の出現確率が低くなっている。このように、発話出現確率分布の偏りが大きい場合には、図３の（Ａ）に示す発話出現確率分布は、「道路」に関するトピックに対応して適切に設定されていると判定できる。

ここで、発話のトピックが「道路」から「音楽」に移行すると、発話出現確率分布制御部４６６は、「音楽」に関連する発話の出現確率を上昇させ、「道路」に関連する発話の出現確率を低下させるなどして、トピックに応じて発話出現確率分布を徐々に変化させていく。そして、図３の（Ｂ）に示す分布状態を経過して、図３の（Ｃ）に示すように、”ＣＤ”、”再生”等の「音楽」に関する発話の出現確率が高くなり、”自宅へ帰る”、”現在地”、”渋滞情報”等の「道路」に関する語彙の出現確率が低くなる。

図３の（Ｂ）に示す発話出現確率分布は、確率分布の偏りが小さいので、特定のトピックに対応していると判定されない。
これに対し、図３の（Ｃ）に示すように発話出現確率分布の偏りが大きくなると、発話出現確率分布は、「音楽」に関するトピックに対応して適切に設定されていると判定できる。

（音声認識処理１）
本実施形態のナビゲーションシステム２において実行される音声認識処理１について、図４のフローチャートを参照して説明する。図４に示すフローチャートは、音声認識部４４および対話制御部４６にて常時実行される。

Ｓ５００において分布偏り算出部４７０は、発話出現確率分布格納部４４６に格納されている発話出現確率分布の偏りを算出する。前述したように、発話出現確率分布の偏りは、エントロピー、最大値、重心などを計算することにより行われる。

Ｓ５０２においてトピック適応判定部４７２は、分布偏り算出部４７０が算出した発話出現確率分布の偏りを判定する。トピック適応判定部４７２は、発話出現確率分布の偏りが所定値以上であればトピックに適応していると判定し、発話出現確率分布の偏りが所定値より小さい場合にはトピックに適応していないと判定する。

そして、Ｓ５０４においてトピック適応判定部４７２は、発話出現確率分布の偏りの判定結果を制御回路１０に出力し、制御回路１０に対して発話出現確率分布の偏りの判定結果をユーザに報知するよう指令する。

制御回路１０は、発話出現確率分布の偏りの判定結果を報知する指令をトピック適応判定部４７２から受けると、発話出現確率分布がトピックに適応している場合には、適応していることと、適応しているトピック名とを表示装置１６に表示する。また、発話出現確率分布がトピックに適応していない場合には、適応していないことを表示装置１６に表示する。この場合、制御回路１０は、報知制御手段として機能する。

表示装置１６に代えて、ＬＥＤ等の表示灯の点灯、消灯によりトピック適応の判定結果を表示してもよいし、トピック毎に対応するＬＥＤを設置し、該当するＬＥＤの点灯、消灯によりトピック適応の判定結果を表示してもよい。また、音によりトピック適応の判定結果を報知してもよい。

尚、図４のフローチャートに示す処理と並行して、発話出現確率分布制御部４６６は、制御回路１０から入力する発話出現確率分布に対する制御指示または音声認識部４４による認識結果等のトピックに応じて、発話出現確率分布格納部４４６に格納されている発話出現確率分布の重み係数を設定する。

（音声認識処理２）
本実施形態のナビゲーションシステム２において実行される音声認識処理の他の例について、図５のフローチャートを参照して説明する。図５に示すフローチャートは、スイッチ５４が押されている間、音声認識部４４および対話制御部４６にて実行される。

まず、Ｓ５１０において、トピック適応判定部４７２は、音声認識処理の起動時に発話出現確率分布制御部４６６により発話出現確率分布格納部４４６に設定される発話出現確率分布の所定の初期分布と、トピックに応じて徐々に変化する発話出現確率分布格納部４４６の発話出現確率分布との距離を算出し、初期分布からの発話出現確率分布の分布変化量を算出する。この場合の距離は、カルバック・ライブラー（ＫＬ）距離などによって算出する。

尚、発話出現確率分布制御部４６６は、スイッチ５４が押される度に分布記憶部４６８に記憶されている初期分布を発話出現確率分布格納部４４６に設定する方式でもよいし、最初にスイッチ５４が押されてから２回目以降にスイッチ５４が押される場合には、発話出現確率分布を初期分布に設定しない方式でもよい。

スイッチ５４が２回目以降に押されても発話出現確率分布を初期分布に設定せず、最後に使用していた発話出現確率分布を使用する場合、発話出現確率分布格納部４４６は、エンジンが停止しても記憶内容を保持できる記憶装置として構成されている。

算出された距離が所定距離より小さい場合には（Ｓ５１２：Ｎｏ）、トピック適応判定部４７２は、発話出現確率分布が初期分布からトピックに対応した適切な分布状態に移行していない恐れがあると判断し、トピック確定フラグがオンであるか否かを判定する（Ｓ５１４）。トピック確定フラグは、発話出現確率分布が初期分布に設定されるときにオフに設定される。

トピック確定フラグがオフの場合（Ｓ５１４：Ｎｏ）、トピック適応判定部４７２は、発話出現確率分布が初期分布からトピックに対応した適切な分布状態に移行していないことを制御回路１０に通知し、発話出現確率分布が初期分布であることをユーザに報知するよう制御回路１０に指令する。

制御回路１０は、発話出現確率分布が初期分布であることを報知するよう指令されると、発話出現確率分布が初期分布であることを表示装置１６またはＬＥＤ等の点灯装置により報知する。ユーザは、発話出現確率分布が初期分布であることが報知されると、例えば図６に示すように、表示装置１６に表示されるトピック選択画面から、適切なトピックを選択する。

トピック適応判定部４７２は、ユーザによりトピックが選択されたことを制御回路１０から通知されると（Ｓ５１８：Ｙｅｓ）、トピック確定フラグをオンにする。ユーザによりトピックがまだ選択されていない場合（Ｓ５１８：Ｎｏ）、本処理は終了する。

算出された距離が所定距離以上の場合（Ｓ５１２：Ｙｅｓ）、トピック適応判定部４７２は、使用中の発話出現確率分布は初期分布から移行してトピックに適応した分布状態にあると判断し、Ｓ５２２に処理を移行する。

また、トピック確定フラグがオンの場合（Ｓ５１４：Ｙｅｓ）、トピック適応判定部４７２は、発話出現確率分布が初期分布から移行し、少なくとも１回はトピックに対応した分布状態になったと判断し、Ｓ５２２に処理を移行する。

Ｓ５２２において、分布偏り算出部４７０は、発話出現確率分布の偏りを算出する。前述したように、発話出現確率分布の偏りは、エントロピー、最大値、重心などを計算することにより行われる。

発話出現確率分布の偏りが所定値より小さい場合（Ｓ５２４：Ｎｏ）、トピック適応判定部４７２は、使用中の発話出現確率分布はトピックに適応しておらず、発話出現確率分布に基づいて音声認識を高精度に処理できないと判定し、判定結果を制御回路１０に通知する（Ｓ５２６）。

発話出現確率分布制御部４６６は、発話出現確率分布格納部４４６に格納されている使用中の発話出現確率分布がトピックに適応していないことを入力部４６４を介して制御回路１０から通知されると、使用中の発話出現確率分布を、分布記憶部４６８に記憶されている特定分布のうち、使用中の発話出現確率分布に最も距離の近い特定分布に切り替える（Ｓ５２８）。

これにより、確率分布の偏りが所定値以上であり、使用中の発話出現確率分布に最も距離が近い特定分布で音声認識できるので、音声認識の精度が低下することを抑制できる。
Ｓ５２８における上記処理に代えて、発話出現確率分布制御部４６６は、分布の偏りが所定値以上であり、最後にトピックに適応していると判定された発話出現確率の適応分布を分布記憶部４６８に記憶しておき、使用中の発話出現確率分布がトピックに適応していない場合には、発話出現確率分布格納部４４６に格納されている発話出現確率分布をこの適応分布に切り替えてもよい。

これにより、例えば一時的にトピックが変ったために、使用中の発話出現確率分布がトピックに適応しなくなったが、すぐに元のトピックに戻る場合に、元のトピックに適応していた適応分布に切り替えることにより、音声認識の精度が低下することを抑制できる。

また、発話出現確率分布制御部４６６は、分布の偏りが所定値以上である発話出現確率の標準分布を分布記憶部４６８に記憶しておき、使用中の発話出現確率分布がトピックに適応していない場合には、発話出現確率分布格納部４４６に格納されている発話出現確率分布をこの標準分布に切り替えてもよい。標準分布としては、例えば、「道路」に関する確率分布が採用される。

発話出現確率分布格納部４４６に格納されている発話出現確率分布が、上記の特定分布、適応分布または標準分布に切り替わると、Ｓ５３０に処理が移行する。
確率分布の偏りが所定値以上の場合（Ｓ５２４：Ｙｅｓ）、トピック適応判定部４７２は、使用中の発話出現確率分布はトピックに対する適応度が高く、発話出現確率分布に基づいて音声認識を高精度に処理できると判断し、Ｓ５３０に処理を移行する。

Ｓ５３０において、トピック適応判定部４７２は、処理部４６２から出力される音声認識結果をコマンドとして採用可能であると制御回路１０に通知する。これにより、制御回路１０は、音声認識装置４０による認識結果をコマンドとして解釈し、コマンドに基づいて所定の処理を実行する。

（音声認識処理３）
第１実施形態のナビゲーションシステム２において実行される音声認識処理の他の例について、図７のフローチャートを参照して説明する。図７に示すフローチャートは、スイッチ５４が押されていないときに、音声認識部４４および対話制御部４６にて実行される。

Ｓ５５０において分布偏り算出部４７０は、発話出現確率分布格納部４４６に格納されている発話出現確率分布の偏りを算出する。前述したように、発話出現確率分布の偏りは、エントロピー、最大値、重心などを計算することにより行われる。

トピック適応判定部４７２は、Ｓ５５２において、分布偏り算出部４７０が算出した発話出現確率分布の偏りが所定値以上であるか否かを判定する。
偏りが所定値以上であれば（Ｓ５５２：Ｙｅｓ）、トピック適応判定部４７２は、発話出現確率分布がトピックに適応していると判定し、処理部４６２から出力される音声認識結果をコマンドとして採用可能であると制御回路１０に報知する（Ｓ５５４）。これにより、制御回路１０は、音声認識装置４０による認識結果をコマンドとして解釈し、コマンドに基づいて所定の処理を実行する。

以上説明した第１実施形態では、発話出現確率分布の偏りを算出し、算出した偏りに基づいて、トピックに対する発話出現確率分布の適応度を判定するので、適応度に応じて適切な処理を実施できる。例えば、上記実施形態で説明したように、使用中の発話出現確率分布がトピックに適応していない場合には、ユーザが選択するか、音声認識装置４０が自動的に選択した他の発話出現確率分布に切り替えることにより、音声認識精度の低下を抑制できる。

また、使用中の発話出現確率分布がトピックに適応していないことをユーザに報知するように指令することにより、使用中の発話出現確率分布がトピックに適応していないことをユーザが知ることができる。

また、図７に示す音声認識処理３においては、スイッチ５４が押されていない場合であっても、発話出現確率分布がトピックに適応している場合には、照合部４４４による音声認識結果を処理部４６２を介して音声コマンドとして出力できる。これにより、ユーザのスイッチ操作の手間を省略できる。

尚、第１実施形態の音声認識装置４０は本発明の音声認識装置に相当し、分布記憶部４６８が分布記憶手段に相当する。また、音声認識部４４は本発明の音声認識手段に相当し、発話出現確率分布制御部４６６は本発明の分布設定手段に相当し、分布偏り算出部４７０は本発明の分布偏り算出手段に相当し、トピック適応判定部４７２は本発明の適応判定手段およびコマンド設定手段に相当する。そして、音声認識装置４０は、本発明の分布設定手段、分布偏り算出手段、適応判定手段、音声認識手段、およびコマンド設定手段として機能する。

また、図４のＳ５００の処理が本発明の分布偏り算出手段が実行する機能に相当し、Ｓ５０２およびＳ５０４が適応判定手段が実行する機能に相当する。
また、図５のＳ５１０〜Ｓ５１６、Ｓ５２４の処理が本発明の適応判定手段が実行する機能に相当し、Ｓ５２２が分布偏り算出手段が実行する機能に相当し、Ｓ５２８が分布設定手段が実行する機能に相当する。

また、図７のＳ５５０の処理が本発明の分布偏り算出手段が実行する機能に相当し、Ｓ５５２の処理が本発明の適応判定手段が実行する機能に相当し、Ｓ５５４の処理が本発明のコマンド設定手段が実行する機能に相当する。

［第２実施形態］
図８に、第２実施形態による音声認識装置の音声認識部４４および対話制御部６０の構成を示す。図８の構成では、トピック適応判定部４７４から照合部４４４に音声認識実行指令が出力されている点が図２の構成と異なっている。その他、図８において図２と実質的に同一構成部分には同一符号を付している。

第２実施形態では、分布偏り算出部４７０で算出された値を閾値処理するなどして、発話出現確率分布がトピックに適応していると判定すると、トピック適応判定部４７４は、ユーザからスイッチ５４（図１参照）を押す等の音声認識の実行指令がなくても、音声認識部４４に指令して音声認識処理を実行させる。

具体的には、発話出現確率分布がトピックに適応していると判定すると、トピック適応判定部４７４は、例えば照合部４４４に指令して、音声抽出部４２から入力された音声データと、発話出現確率分布格納部４４６に格納されている発話出現確率分布において出現確率が設定されている発話との照合を行う音声認識処理を実行させる。

一方、発話出現確率分布がトピックに適応していないと判定すると、トピック適応判定部４７４は、音声認識部４４に指令して音声認識処理を中止させる。
具体的には、発話出現確率分布がトピックに適応していないと判定すると、トピック適応判定部４７４は、例えば照合部４４４に指令して、音声抽出部４２から入力された音声データと、発話出現確率分布格納部４４６に格納されている発話出現確率分布において出現確率が設定されている発話との照合を行う音声認識処理を中止させる。

第２実施形態では、発話出現確率分布がトピックに適応していない場合には、トピック適応判定部４７４が音声認識部４４に指令して音声認識処理を中止させるので、音声認識部４４における音声認識の処理負荷を低減できる。

一方、発話出現確率分布がトピックに適応している場合には、トピック適応判定部４７４は、ユーザから音声認識の実行指令がなくても、音声認識部４４に指令して音声認識処理を実行させるので、ユーザのスイッチ操作の手間を省略できる。

第２実施形態では、トピック適応判定部４７４が適応判定手段および音声認識指令手段に相当する。
［第３実施形態］
図９に、第３実施形態による音声認識装置７０の構成を示し、図１０に、第３実施形態による音声認識処理のフローチャートを示す。

図９では、適応クリアスイッチ７２が追加されている以外は、図１の音声認識装置４０と実質的に同一の構成である。尚、認識開始スイッチ５４は、図１に示すスイッチ５４と実質的に同じ機能を有するスイッチであり、適応クリアスイッチ７２と区別するために名称だけを変更している。

適応クリアスイッチ７２が押されると、音声認識装置７０は、使用中の発話出現確率分布を、所定の発話出現確率分布に切り替える。所定の発話出現確率分布は、特定のトピックに対応した確率分布であり、例えば音声認識処理が起動されるときの初期状態の発話出現確率分布でもよい。

（音声認識処理）
図１０のＳ５４０〜Ｓ５４４の処理は、図４のＳ５００〜Ｓ５０４の処理と実質的に同一である。

Ｓ５４４において、トピック適応判定部４７２がトピック適応の判定結果を表示装置１６に表示してユーザに報知するように制御回路１０に指令すると、音声認識装置７０は、適応クリアスイッチ７２が押されてオンになっているか否かを判定する（Ｓ５４６）。適応クリアスイッチ７２がオフの場合（Ｓ５４６：Ｎｏ）、音声認識装置７０はＳ５４０に処理を戻す。

適応クリアスイッチ７２がオンの場合（Ｓ５４６：Ｙｅｓ）、音声認識装置７０は，使用中の発話出現確率分布を初期状態の発話出現確率分布に切り替え（Ｓ５４８）、Ｓ５４０に処理を戻す。

ユーザは、音声認識がトピックに適応していないことを表示装置１６の表示により知ると、適応クリアスイッチ７２を押す。表示装置１６の表示がなくても、例えば、音声認識装置７０の認識結果によるナビゲーションシステムの作動が発話中のトピックに適応していないと判断すると、ユーザは適応クリアスイッチ７２を押してもよい。

これにより、音声認識装置７０による判断ではなく、ユーザの判断により、トピックに対する発話出現確率分布の適応状態をクリアできる。
第３実施形態では、適応クリアスイッチ７２が本発明の適応クリアスイッチに相当する。

また、図１０のＳ５４０が分布偏り算出手段が実行する機能に相当し、Ｓ５４２、Ｓ５４４の処理が本発明の適応判定手段が実行する機能に相当し、Ｓ５４６、Ｓ５４８の処理が本発明の分布設定手段が実行する機能に相当する。

［第４実施形態］
図１１に、第４実施形態による音声認識装置の音声認識部４４および対話制御部８０の構成を示す。図１１の構成では、分布偏り算出部４７０の前に分布平滑化処理部４７６が設けられている点が図２の構成と異なっている。その他、図１１において図２と実質的に同一構成部分には同一符号を付している。

分布平滑化処理部４７６は、発話出現確率分布格納部４４６に格納されている発話出現確率分布を構成する各語彙の出現確率ついて、例えば、各語彙と、その周囲の所定数の語彙の出現確率との平均を、語彙毎に順次算出して発話出現確率分布を平滑化する。

平滑化して各語彙の出現確率を算出する場合、該当する位置の語彙の出現確率は含めず、その周囲の語彙の出現確率だけを平均してもよい。
図１２の（Ａ）、（Ｂ）の上段に示す平滑化前の確率分布は、このままの分布状態でエントロピーまたは最大値を算出することにより確率分布の偏りを算出すると、偏りが所定値以上になるので、トピック適応判定部４７２は、両方の確率分布は特定のトピックに対応していると判定する。

図１２の（Ａ）については、平滑化前の上段に示す確率分布において、”音量”、”再生”、”ＣＤ”等の「音楽」に関する発話の出現確率が高くなっており、その他のトピックに関する発話の出現確率が低くなっているので、平滑化されても「音楽」に関する発話の出現確率だけが高くなる。その結果、平滑化後の下段に示す確率分布においても、「音楽」に関する発話の出現確率は高くなる。

したがって、図１２の（Ａ）については、平滑化後の確率分布でエントロピーまたは最大値を算出することにより確率分布の偏りを算出しても偏りが所定値以上になるので、トピック適応判定部４７２は、特定のトピックに対応していると判定する。

一方、図１２の（Ｂ）については、平滑化前の上段に示す確率分布において、”目的地設定”、”ＣＤ”、”ＤＶＤ”の出現確率が高くなっており、その他の発話の出現確率が低くなっている。つまり、「道路」と「音楽」との２種類のトピックについて、出現確率が高くなっている。

その結果、平滑化すると、「道路」および「音楽」のトピックについて、平滑化出後の出現確率が平均化され、全体の出現確率が低くなる。その結果、図１２の（Ｂ）については、平滑後の確率分布でエントロピーまたは最大値を算出することにより確率分布の偏りを算出すると、偏りが所定値未満になるので、トピック適応判定部４７２は、発話出現確率分布が特定のトピックに対応していないと判定する。

（音声認識処理）
次に、第４実施形態による音声認識処理の例について、図１３のフローチャートを参照して説明する。

分布平滑化処理部４７６は、発話出現確率分布格納部４４６に格納されている発話出現確率分布を平滑化し（Ｓ５６０）、分布偏り算出部４７０は、平滑化された発話出現確率分布の平滑分布でエントロピーまたは最大値を算出することにより確率分布の偏りを算出する（Ｓ５６２）。

トピック適応判定部４７２は、平滑分布の偏りが所定値以上であるか否かを判定し（Ｓ５６４）、偏りが所定値以上の場合（Ｓ５６４：Ｙｅｓ）、Ｓ５６６に処理を移行する。
偏りが所定値未満の場合（Ｓ５６４：Ｎｏ）、トピック適応判定部４７２は、使用中の発話出現確率分布はトピックに適応していないという判定結果を制御回路１０に通知する（Ｓ５６８）。

Ｓ５７０において発話出現確率分布制御部４６６は、発話出現確率分布格納部４４６に格納されている使用中の発話出現確率分布がトピックに適応していないことを入力部４６４を介して制御回路１０から通知されると、使用中の発話出現確率分布を、分布記憶部４６８に記憶されている特定分布のうち、使用中の発話出現確率分布に最も距離の近い特定分布に切り替える。

使用中の発話出現確率分布に最も距離の近い特定分布に切り替えることにより、確率分布の偏りが所定値以上であり、使用中の発話出現確率分布に最も距離が近い特定分布で音声認識できるので、Ｓ５６６に処理が移行される。

Ｓ５６６においてトピック適応判定部４７２は、処理部４６２から出力される音声認識結果をコマンドとして採用可能であると制御回路１０に通知する。これにより、制御回路１０は、音声認識装置４０による認識結果をコマンドとして解釈し、コマンドに基づいて所定の処理を実行する。

以上説明した第４実施形態によると、発話出現確率分布を平滑化してから偏りを算出することによりトピックに適応しているか否かを判定するので、平滑化前の状態では偏りが所定値以上であり、トピックに適応していると判定される確率分布であっても、複数のトピックにまたがって偏りを有し、一つのトピックだけに適応していない点で確率分布が有意ではない発話出現確率分布を除外し、一つのトピックに偏りを有する有意な確率分布だけを、トピックに適応していると判定できる。

これにより、複数のトピックにまたがって偏りを有する確率分布がトピックに適応していると誤判定することを防止できる。
第４実施形態では、分布平滑化処理部４７６が本発明の平滑化手段に相当する。

また、図１３のＳ５６０の処理が本発明の平滑化手段が実行する機能に相当し、Ｓ５６２の処理が本発明の分布偏り算出手段が実行する機能に相当し、Ｓ５６４〜Ｓ５６８の処理が本発明の適応判定手段が実行する機能に相当し、Ｓ５７０の処理が本発明の分布設定手段が実行する機能に相当する。

［第５実施形態］
図１４に、第５実施形態による音声認識装置の音声認識部４４および対話制御部９０の構成を示す。図１４の構成では、分布偏り算出部４７０が算出する発話出現確率分布の偏りに基づき、発話出現確率分布格納部４４６に格納されている発話出現確率分布が特定のトピックに適応している発話出現確率分布の特定分布と類似しているか否かをトピック適応判定部４７８が判定する点が図２の構成と異なっている。その他、図１４において図２と実質的に同一構成部分には同一符号を付している。

図１５の（Ａ）に示す確率分布において、”目的地設定”、”ＣＤ”、”ＤＶＤ”の出現確率が高くなっており、その他の発話の出現確率が低くなっている。つまり、図１５の（Ａ）に示す発話出現確率分布は、「道路」と「音楽」との２種類のトピックについて出現確率が高くなっているので、トピックに適応した有意な確率分布ではない。

しかしながら、分布偏り算出部４７０が図１５の（Ａ）に示す発話出現確率分布の偏りをエントロピーまたは最大値等により算出すると、偏りが所定値以上になる。
そこで、第５実施形態では、分布偏り算出部４７０が算出する発話出現確率分布の偏りが所定値以上の場合、トピック適応判定部４７８は、発話出現確率分布格納部４４６に格納されている発話出現確率分布と、図１５の（Ｂ）、（Ｃ）に示すように特定のトピックに適応した発話出現確率分布の特定分布との類似度を判定し、類似度が高ければ発話出現確率分布はトピックに適応していると判定する。発話出現確率分布の特定分布は分布記憶部４６８に記憶されている。

図１５の（Ａ）に示す発話出現確率分布の場合、分布偏り算出部４７０が算出する偏りは所定値以上になるが、トピック適応判定部４７８が判定する特定分布との類似度は低いため、トピックに適応していないと判定される。

（音声認識処理）
次に、第５実施形態による音声認識処理の例について、図１６のフローチャートを参照して説明する。

Ｓ５８０において分布偏り算出部４７０は、発話出現確率分布格納部４４６に格納されている発話出現確率分布の偏りを算出する。前述したように、発話出現確率分布の偏りは、エントロピー、最大値、重心などを計算することにより行われる。

トピック適応判定部４７８は、分布偏り算出部４７０が算出した発話出現確率分布の偏りが所定値以上の場合（Ｓ５８２：Ｙｅｓ）、発話出現確率分布格納部４４６に格納されている発話出現確率分布と特定分布（特性モデル）との類似度を判定する（Ｓ５８４）。一方、発話出現確率分布の偏りが所定値未満の場合（Ｓ５８２：Ｎｏ）、Ｓ５８８に処理が移行される。

発話出現確率分布が特定分布に類似している場合（Ｓ５８４：Ｙｅｓ）、トピック適応判定手段４７８はＳ５８６に処理を移行する。発話出現確率分布が特定分布に類似していない場合（Ｓ５８４：Ｎｏ）、トピック適応判定手段４７８はＳ５８８に処理を移行する。

Ｓ５８８においてトピック適応判定部４７８は、使用中の発話出現確率分布はトピックに適応していないという判定結果を制御回路１０に通知する（Ｓ５８８）。
Ｓ５９０において発話出現確率分布制御部４６６は、発話出現確率分布格納部４４６に格納されている使用中の発話出現確率分布がトピックに適応していないことを入力部４６４を介して制御回路１０から通知されると、使用中の発話出現確率分布を、分布記憶部４６８に記憶されている特定分布のうち、使用中の発話出現確率分布に最も距離の近い特定分布に切り替える。

使用中の発話出現確率分布に最も距離の近い特定分布に切り替えることにより、確率分布の偏りが所定値以上であり、使用中の発話出現確率分布に最も距離が近い特定分布で音声認識できるので、Ｓ５８６に処理が移行される。

Ｓ５８６においてトピック適応判定部４７８は、処理部４６２から出力される音声認識結果をコマンドとして採用可能であると制御回路１０に通知する。これにより、制御回路１０は、音声認識装置４０による認識結果をコマンドとして解釈し、コマンドに基づいて所定の処理を実行する。

以上説明した第５実施形態によると、そのままの状態では偏りが所定値以上であり、トピックに適応していると判定される確率分布であっても、特定のトピックに適応した特定分布との類似度を判定することにより、複数のトピックにまたがって偏りを有しているために特定のトピックに適応しておらず有意ではない場合、トピックに適応していないと判定できる。

これにより、複数のトピックにまたがって偏りを有する確率分布がトピックに適応していると誤判定することを防止できる。
第５実施形態では、トピック適応判定部４７８が本発明の適応判定手段およびコマンド設定手段に相当する。

また、図１６のＳ５８０の処理が本発明の分布偏り算出手段が実行する機能に相当し、Ｓ５８２〜Ｓ５８８の処理が本発明の適応判定手段が実行する機能に相当し、Ｓ５９０の処理が本発明の分布設定手段が実行する機能に相当する。

［第６実施形態］
図１７に、第６実施形態による音声認識装置の音声認識部１００および対話制御部１１０の構成を示す。図１７において、図２と実質的に同一構成部分には同一符号を付している。

音声認識部１００には、固定確率分布格納部４４８と可変確率分布格納部４５０とが設けられている。固定確率分布格納部４４８には、固定のトピックに適応した発話出現確率分布として、例えば「道路」に適応した確率分布が予め格納されている。

可変確率分布格納部４５０には、発話のトピックに応じて発話出現確率分布制御部４６６により分布状態を可変に変更される発話出現確率分布が格納されている。
照合部４４４は、音声抽出部４２から入力された音声データに対して、通常、固定確率分布格納部４４８に格納されている固定確率分布において出現確率が設定されている発話との照合を行う。

ただし、照合部４４４は、トピック適応判定部４８０から指令されると、音声抽出部４２から入力された音声データに対して、可変確率分布格納部４５０に格納されている可変確率分布において出現確率が設定されている発話との照合も行う。

処理部４６２は、照合部４４４において照合された発話の音声認識結果を制御回路１０へ出力する。処理部４６２から出力される音声認識結果は、固定確率分布だけによる音声認識結果の場合と、固定確率分布および可変確率分布の両方による音声認識結果の場合とがある。

トピック適応判定部４８０は、分布偏り算出部４７０が算出する可変確率分布の偏りを判定し、可変確率分布格納部４５０に格納されている可変確率分布がトピックに適応しているか否かを判定する。

トピック適応判定部４８０は、可変確率分布がトピックに適応している場合、照合部４４４に、可変確率分布による音声認識を指令し、処理部４６２が出力する固定確率分布および可変確率分布による音声認識結果を制御回路１０から入力する。そして、固定確率分布による音声認識結果と可変確率分布による音声認識結果とが異なっている場合、図１８に示すように、固定確率分布による音声認識結果に加えて、可変確率分布による音声認識結果を表示装置１６に表示するように制御回路１０に指令する。

図１８において、「目的地を設定しました」は固定確率分布による音声認識結果の表示であり、「もしかして音量設定」は可変確率分布による音声認識結果の表示である。表示装置１６において、「音量設定」の表示部分は選択スイッチになっている。ユーザが「音量設定」の表示部分をタッチして選択することにより、制御回路１０は、処理部４６２から出力される音声認識結果のうち、固定確率分布ではなく可変確率分布による音声認識結果を採用する。

（音声認識処理）
次に、第６実施形態による音声認識処理の例について、図１９のフローチャートを参照して説明する。

図１９のＳ６００において照合部４４４は、固定確率分布により音声認識を実行し、制御回路１０は、処理部４６２が出力する固定確率分布による音声認識結果を表示装置１６に表示する（Ｓ６０２）。分布偏り算出部４７０は可変確率分布の偏りを算出する（Ｓ６０４）。

トピック適応判定部４８０は可変確率分布の偏りが所定値以上であるか否かを判定し（Ｓ６０６）、偏りが所定値未満であれば（Ｓ６０６：Ｎｏ）、本処理を終了する。
偏りが所定値以上であれば（Ｓ６０６：Ｙｅｓ）、トピック適応判定部４８０は、可変確率分布はトピックに適応していると判断する。そして、照合部４４４は、トピック適応判定部４８０からの指令により可変確率分布による音声認識を実行する（Ｓ６０８)。

固定確率分布による音声認識結果と可変確率分布による音声認識結果とが同じ場合（Ｓ６１０：Ｎｏ）、トピック適応判定部４８０は、可変確率分布による音声認識結果を表示する必要はないと判断し、本処理を終了する。

固定確率分布による音声認識結果と可変確率分布による音声認識結果とが異なる場合（Ｓ６１０：Ｙｅｓ）、トピック適応判定部４８０は、可変確率分布による音声認識結果を表示するよう制御回路１０に指令し（Ｓ６１２）、本処理を終了する。

以上説明した第６実施形態では、通常は固定確率分布による音声認識結果だけを表示し、可変確率分布の偏りが所定値以上であり、固定確率分布による音声認識結果と可変確率分布による音声認識結果とが異なる場合に、固定確率分布による音声認識結果に加えて可変確率分布による音声認識結果も表示する。そして、表示された可変確率分布による音声認識結果は、ユーザにより選択できる選択スイッチになっている。

これにより、ユーザは、可変確率分布による音声認識結果がトピックに対応していると判断すれば、可変確率分布による音声認識結果を選択できる。
第６実施形態では、固定確率分布格納部４４８に格納されている固定確率分布により音声認識を実行する場合の音声認識部１００が本発明の固定認識手段に相当し、可変確率分布格納部４５０に格納されている可変確率分布により音声認識を実行する場合の音声認識部１００が本発明の可変認識手段に相当する。また、トピック適応判定部４８０が本発明の適応判定手段に相当する。

また、図１９のＳ６００の処理が本発明の固定認識手段が実行する機能に相当し、Ｓ６０４の処理が本発明の分布偏り算出手段が実行する機能に相当し、Ｓ６０６、Ｓ６１０およびＳ６１２の処理が本発明の適応判定手段が実行する機能に相当し、Ｓ６０８の処理が本発明の可変認識手段が実行する機能に相当する。

[他の実施形態］
上記実施形態では、トピックに応じて発話出現確率分布を徐々に変化させ、変化中の発話出現確率分布の偏りを算出することにより、トピックに対する発話出現確率分布の適応度を判定した。これに対し、トピックが変化すると、トピック毎に設定された特定の発話出現確率分布に切り替える場合にも、切り替えられた発話出現確率分布の偏りに基づいてトピックに対する適応度を判定することにより、適切な発話出現確率分布に切り替えられたか否かを判定できる。したがって、適応度の判定結果に基づいて適切な処理を実行できる。

また、上記実施形態では、発話出現確率分布がトピックに適応していないことを、ナビゲーション側の制御回路１０によりユーザに通知させた。これに対し、音声認識装置４０自体が、発話出現確率分布がトピックに適応していないことをユーザに通知してもよい。

また、発話出現確率分布がトピックに適応していない場合に、ユーザがトピックを選択できる機能を音声認識装置４０に設けてもよい。
また、音声認識部４４による音声認識の結果を、ナビゲーション側の制御回路１０を介さずに発話出現確率分布制御部４６６が受け付ける構成にしてもよい。

また、上記実施形態では、車両に搭載されるナビゲーションシステム２に本発明の音声認識装置４０を適用した。これに対し、ナビゲーションシステムに限らず、ユーザによる発話を音声認識するために使用する発話出現確率分布のトピックに対する適応度を判定するのであれば、どのような分野に本発明の音声認識装置を適用してもよい。

上記実施形態では、分布設定手段、分布偏り算出手段、適応判定手段、音声認識手段、音声認識指令手段、コマンド設定手段、平滑化手段、固定認識手段および可変認識手段の機能を、音声認識の処理プログラムにより機能が特定される音声認識装置により実現している。これに対し、上記複数の手段の機能の少なくとも一部を、回路構成自体で機能が特定されるハードウェアで実現してもよい。

このように、本発明は、上記実施形態に限定されるものではなく、その要旨を逸脱しない範囲で種々の実施形態に適用可能である。

２：ナビゲーションシステム、４０、７０：音声認識装置（分布設定手段、分布偏り算出手段、適応判定手段）、４４、１００：音声認識部（音声認識手段、固定認識手段、可変認識手段）、４６、６０、８０、９０、１１０：対話制御部、７２：適応クリアスイッチ、４６８：分布記憶部（分布記憶手段）、４６６：発話出現確率分布制御部（分布設定手段）、４７０：分布偏り算出部（分布偏り算出手段）、４７２、４７８：トピック適応判定部（適応判定手段、コマンド設定手段）、４７４：トピック適応判定部（適応判定手段、音声認識指令手段）、４７６：分布平滑化処理部（平滑化手段）、４８０：トピック適応判定部（適応判定手段）

Claims

発話に出現する語彙の確率分布である発話出現確率分布に基づいて、発話される音声を認識する音声認識装置において、
前記発話の状況であるトピックに応じて前記発話出現確率分布を徐々に変化させる分布設定手段と、
前記発話出現確率分布の偏りを算出する分布偏り算出手段と、
前記分布偏り算出手段が算出する偏りに基づいて、前記トピックに対する前記発話出現確率分布の適応度を判定する適応判定手段と、
を備えることを特徴とする音声認識装置。
前記分布設定手段は、前記適応判定手段の判定結果に基づいて前記発話出現確率分布を設定することを特徴とする請求項１に記載の音声認識装置。
一つ以上の特定の前記トピックにそれぞれ対応する発話出現確率の特定分布が記憶されている分布記憶手段を備え、
前記分布設定手段は、使用中の前記発話出現確率分布が前記トピックに適応していないと前記適応判定手段が判定すると、前記分布記憶手段に記憶されている前記特定分布のうち使用中の前記発話出現確率分布に最も近い分布を有する前記特定分布を、使用する前記発話出現確率分布として設定する、
ことを特徴とする請求項２に記載の音声認識装置。
前記トピックに適応していると前記適応判定手段が最後に判定した前記発話出現確率分布である適応分布が記憶されている分布記憶手段を備え、
前記分布設定手段は、使用中の前記発話出現確率分布が前記トピックに適応していないと前記適応判定手段が判定すると、使用する前記発話出現確率分布として前記分布記憶手段に記憶されている前記適応分布を設定する、
ことを特徴とする請求項２に記載の音声認識装置。
一つ以上の特定の前記トピックにそれぞれ対応する発話出現確率の特定分布が記憶されている分布記憶手段を備え、
前記適応判定手段は、前記発話出現確率分布が前記トピックに適応していないと判定すると、ユーザによる前記トピックの選択を指令し、
前記分布設定手段は、ユーザが選択した前記トピックに対応する前記特定分布を前記分布記憶手段から選択し、使用する前記発話出現確率分布として設定する、
ことを特徴とする請求項２に記載の音声認識装置。
前記適応判定手段は、前記トピックに対する前記発話出現確率分布の適応度をユーザに報知するよう指令することを特徴とする請求項１から５のいずれか一項に記載の音声認識装置。
前記分布設定手段は、音声認識の起動時に発話出現確率分布を初期分布に設定し、
前記適応判定手段は、前記初期分布に対する使用中の前記発話出現確率分布の分布変化量に基づいて、前記トピックに対する前記発話出現確率分布の適応度を判定することを特徴とする請求項１から６のいずれか一項に記載の音声認識装置。
ユーザが操作する適応クリアスイッチを備え、
前記分布設定手段は、前記適応クリアスイッチが操作されると、使用する前記発話出現確率分布として所定の発話出現確率分布を設定する、
ことを特徴とする請求項１から７のいずれか一項に記載の音声認識装置。
発話される音声を前記発話出現確率分布に基づいて認識する音声認識手段と、
前記発話出現確率分布が前記トピックに適応していると前記適応判定手段が判定すると、前記音声認識手段による音声認識の結果を音声コマンドとして設定するコマンド設定手段と、
を備えることを特徴とする請求項１から８のいずれか一項に記載の音声認識装置。
発話される音声を前記発話出現確率分布に基づいて認識する音声認識手段と、
前記発話出現確率分布が前記トピックに適応していると前記適応判定手段が判定すると、前記音声認識手段に音声認識の開始を指令する音声認識指令手段と、
を備えることを特徴とする請求項１から８のいずれか一項に記載の音声認識装置。
前記適応判定手段は、前記分布偏り算出手段が算出する前記発話出現確率分布の偏りが有意であるか否かを判定し、有意ではない場合、前記発話出現確率分布が前記トピックに適応していないと判定することを特徴とする請求項１から１０のいずれか一項に記載の音声認識装置。
前記発話出現確率分布を平滑化する平滑化手段を備え、
前記分布偏り算出手段は前記平滑化手段により平滑化された前記発話出現確率分布の平滑分布の偏りを算出し、
前記適応判定手段は、前記分布偏り算出手段が算出する前記平滑分布の偏りに基づいて、前記発話出現確率分布の偏りが有意であるか否かを判定し、有意ではない場合、前記発話出現確率分布が前記トピックに適応していないと判定する、
ことを特徴とする請求項１１に記載の音声認識装置。
前記分布偏り手段は、前記発話出現確率分布のエントロピーまたは最大値に基づいて前記平滑分布の偏りを算出することを特徴とする請求項１２に記載の音声認識装置。
一つ以上の特定の前記トピックにそれぞれ対応する発話出現確率の特定分布が記憶されている分布記憶手段を備え、
前記適応判定手段は、前記分布偏り算出手段が算出する前記発話出現確率分布の偏りが所定値以上の場合、前記発話出現確率分布と前記特定分布との類似度に基づいて前記発話出現確率分布の偏りが有意であるか否かを判定し、有意ではない場合、前記発話出現確率分布が前記トピックに適応していないと判定する、
ことを特徴とする請求項１１に記載の音声認識装置。
発話される音声を前記分布設定手段により分布状態を変化させられない固定の前記発話出現確率分布に基づいて認識する固定認識手段と、
発話される音声を前記分布設定手段により分布状態を変化させられる可変の前記発話出現確率分布に基づいて認識する可変認識手段と、
前記適応判定手段は、可変の前記発話出現確率分布が前記トピックに適応していると判定すると、前記固定認識手段による音声認識結果に加え、前記可変認識手段による音声認識結果をユーザに報知するよう指令する、
ことを特徴とする請求項１から１４のいずれか一項に記載の音声認識装置。
前記適応判定手段の指令により報知された前記可変認識手段による音声認識結果をユーザが選択できる選択スイッチを備えることを特徴とする請求項１５に記載の音声認識装置
。