JP5772214B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP5772214B2
JP5772214B2 JP2011115081A JP2011115081A JP5772214B2 JP 5772214 B2 JP5772214 B2 JP 5772214B2 JP 2011115081 A JP2011115081 A JP 2011115081A JP 2011115081 A JP2011115081 A JP 2011115081A JP 5772214 B2 JP5772214 B2 JP 5772214B2
Authority
JP
Japan
Prior art keywords
utterance
distribution
probability distribution
appearance probability
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011115081A
Other languages
English (en)
Other versions
JP2012008554A (ja
Inventor
信矢 小嶋
信矢 小嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2011115081A priority Critical patent/JP5772214B2/ja
Publication of JP2012008554A publication Critical patent/JP2012008554A/ja
Application granted granted Critical
Publication of JP5772214B2 publication Critical patent/JP5772214B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、ユーザが発話する音声を認識する音声認識装置に関する。
従来、ユーザが発話する音声を音声認識する場合、辞書などの言語モデルにおいて、発話に出現する語彙の確率分布である発話出現確率分布を設定し、音声認識するときの語彙の探索空間を予め限定しておくことが考えられる。この場合の言語モデルは、あり得そうな発話の統計モデルとして表現される。つまり、あり得そうな発話には出現確率が与えられ、それ以外の発話の出現確率は0に設定される。
ところで、発話出現確率分布は、話題、分野、時期、ユーザによる操作等の発話の状況であるトピックに応じて変動する。したがって、固定された発話出現確率分布に基づいて音声認識を高精度に行うことは困難である。
例えば、音声認識機能付きのカーナビゲーション装置では、「目的地に関する操作」または「音楽再生に関する操作」のどちらも発話される可能性がある。そして、車両の乗員の話題が「目的地に関する」ときには、「目的地に関する操作」についての発話の出現確率は高く、「音楽再生に関する操作」についての発話の出現確率は低いと推測される。
したがって、この場合には、「目的地に関する操作」についての発話出現確率を高くし、「音楽再生に関する操作」についての発話出現確率を低く設定した発話出現確率分布に切り替えて音声認識を実行することが望ましい。
逆に、車両の乗員の話題が「音楽再生に関する」ときには、「音楽再生に関する操作」についての発話の出現確率を高くし、「目的地に関する操作」についての発話の出現確率を低く設定した発話出現確率分布に切り替えて音声認識を実行することが望ましい。
このように、トピックに応じて予め設定した発話出現確率分布を選択し、音声認識に使用する発話確率分布を切り替える技術として、特許文献1では、リモコン等の遠隔操作機器が向けられている操作対象機器に関する語彙の重み付けを、他の操作対象機器に関する語彙よりも大きくし、操作対象機器が変る毎に語彙の重み付けを切り替える技術が開示されている。
また、特許文献2には、音声認識する際に、トピックとして例えば県名毎に、認識対象とする企業名に対して出現確率が重み付けされた辞書を切り替えて音声認識に使用する技術が開示されている。
このように、トピックに応じて予め設定された発話出現確率分布に切り替える技術に対し、例えば、トリガーとなる発話が検出されると、関連する発話の出現確率を上昇させるなどして、トピックに応じて発話出現確率分布を徐々に変化させていく方式が知られている(例えば、非特許文献1参照。)。
この方式によれば、トピックが別のトピックに変る場合には、発話出現確率分布は時間経過とともにトピックに応じた分布に徐々に変っていく。
特開2002−116791号公報 特開2003−150189号公報
Rosenfeld R.、"A maximum entropy approach to adaptive statistical language modeling"、(オランダ)、Computer Speech and Language、Academic Press、1996、Vol.10、Number 3、p.187-228
ところで、トピックに応じて出現確率が適切に設定された発話出現確率分布には、確率分布の偏り方に違いはあるものの、所定値以上の確率分布の偏りが生じているはずである。
しかしながら、トピックに応じて予め設定された発話出現確率分布に切り替える場合、発話出現確率分布が適切に設定されておらず、確率分布の偏りが小さい発話出現確率分布が選択されると、音声認識を適切に実行できない。
また、トピックに応じて発話出現確率分布を徐々に変化させる場合、変化途中の発話出現確率分布には、変化前後のどちらのトピックにも対応しておらず偏りの小さい分布状態が生じることがある。発話出現確率分布がこのような状態のときにユーザが発話すると、やはり音声認識を適切に実行できない。
このように、発話出現確率分布の分布状態によっては、トピックに適応しておらず音声認識を適切に実行できないことがある。
本発明は、このような問題を解決するためになされたものであり、トピックに対する発話出現確率分布の適応度を判定する音声認識装置を提供することを目的とする。
請求項1に記載の発明によると、分布設定手段がトピックに応じて変化させる発話出現確率分布の偏りを分布偏り算出手段が算出し、算出された発話出現確率分布の偏りに基づいて、トピックに対する発話出現確率分布の適応度を適応判定手段が判定する。
これにより、例えば発話出現確率分布の偏りが所定値以上であれば、発話出現確率分布はトピックに適応しており、所定値よりも小さい場合はトピックに適応していないと判定できる。このように、トピックに対する発話出現確率分布の適応度を音声認識装置が判定するので、音声認識装置は、トピックに対する発話出現確率分布の適応度に基づいて適切な処理を実行できる。
さらに、請求項1に記載の発明によると、分布設定手段は、トピックに応じて発話出現確率分布を徐々に変化させる。
このように、トピックに応じて発話出現確率分布を徐々に変化させる場合、変化途中の発話出現確率分布には、確率分布の偏りが小さく変化前後のどちらのトピックに対する適応度も低い状態が生じることがある。したがって、発話出現確率分布の偏りが小さくトピックに対する適応度が低い状態を判定することにより、トピックに対する適応度に基づいて適切な処理を実行できる。
請求項2に記載の発明によると、分布設定手段は、適応判定手段の判定結果に基づいて発話出現確率分布を設定する。
これにより、例えば、トピックに対する発話出現確率分布の適応度が低いと適応判定手
段が判定する場合には、発話出現確率分布を適切な分布に変更することができる。
請求項3に記載の発明によると、一つ以上の特定のトピックにそれぞれ対応する発話出現確率の特定分布が分布記憶手段に記憶されており、分布設定手段は、使用中の発話出現確率分布がトピックに適応していないと適応判定手段が判定すると、分布記憶手段に記憶されている特定分布のうち使用中の発話出現確率分布に最も近い分布を有する特定分布を、使用する発話出現確率分布として設定する。
このように、発話出現確率分布がトピックに適応していない場合には、使用中の発話出現確率分布に最も近い分布状態の特定分布を、使用する発話出現確率分布として設定することにより、音声認識の精度が低下することを抑制できる。
請求項4に記載の発明によると、トピックに適応していると適応判定手段が最後に判定した発話出現確率分布である適応分布が分布記憶手段に記憶されており、分布設定手段は、使用中の発話出現確率分布がトピックに適応していないと適応判定手段が判定すると、使用する発話出現確率分布として分布記憶手段に記憶されている適応分布を設定する。
これにより、例えば一時的にトピックが変ったために、使用中の発話出現確率分布がトピックに適応しなくなったが、すぐに元のトピックに戻る場合に、元のトピックに適応していた適応分布が発話出現確率分布として設定されるので、音声認識の精度が低下することを抑制できる。
請求項5に記載の発明によると、一つ以上の特定のトピックにそれぞれ対応する発話出現確率の特定分布が分布記憶手段に記憶されており、適応判定手段は、発話出現確率分布がトピックに適応していないと判定すると、ユーザによるトピックの選択を指令する。そして、分布設定手段は、ユーザが選択したトピックに対応する特定分布を分布記憶手段から選択し、使用する発話出現確率分布として設定する。
これにより、発話出現確率分布がトピックに適応していない場合には、ユーザにより適切なトピックが選択されるので、音声認識の精度が低下することを抑制できる。
請求項6に記載の発明によると、適応判定手段は、トピックに対する発話出現確率分布の適応度をユーザに報知するよう指令する。
これにより、トピックに対する発話出現確率分布の適応度をユーザが知ることができるので、例えば、音声認識の精度が低下している場合に、その原因が発話出現確率分布の適応度の低下にあることをユーザが知ることができる。
ところで、音声認識の起動時に、発話出現確率分布を所定の初期分布に設定する場合、音声認識が起動され、初期分布からトピックに応じた発話出現確率分布が設定される途中では、初期分布と発話出現確率分布との間の分布の変化量が小さく、適切な発話出現確率分布が設定されている状態ではない。一方、適切な発話出現確率分布が設定されると、初期分布と発話出現確率分布との間の分布の変化量は大きくなる。
そこで、請求項7に記載の発明によると、分布設定手段は、音声認識の起動時に発話出現確率を初期分布に設定し、適応判定手段は、初期分布に対する使用中の発話出現確率分布の分布変化量に基づいて、トピックに対する発話出現確率分布の適応度を判定する。
このように、初期分布に対する使用中の発話出現確率分布の分布変化量に基づいて、トピックに対する発話出現確率分布の適応度を判定することにより、初期分布に対する使用中の発話出現確率分布の分布変化量が小さい場合には、例えば、ユーザにトピックを選択してもらう等の適切な処理を実行できる。
請求項8に記載の発明によると、分布設定手段は、適応クリアスイッチが操作されると、使用する発話出現確率分布として所定の発話出現確率分布を設定する。
これにより、例えば音声認識装置による音声認識結果が発話のトピックに適応していないとユーザが判断すると、ユーザが適応クリアスイッチを操作することにより、現在使用されている発話出現確率分布を所定の分布状態に設定できる。その結果、発話出現確率分布を発話のトピックに適応させる処理をやり直すことができる。所定の分布状態の発話出現確率分布とは、音声認識起動時に発話出現確率分布として設定される初期分布でもよいし、特定のトピックに適応した確率分布でもよい。
請求項9に記載の発明によると、音声認識手段は発話される音声を発話出現確率分布に基づいて認識し、コマンド設定手段は、発話出現確率分布がトピックに適応していると適応判定手段が判定すると、音声認識手段による音声認識の結果を音声コマンドとして設定する。
これにより、発話出現確率分布がトピックに適応している場合、ユーザから音声認識を指令するスイッチ操作がなくても、音声認識装置が自動的に音声認識結果をコマンドとして設定できる。したがって、ユーザのスイッチ操作の手間を省略できる。
請求項10に記載の発明によると、音声認識手段は発話される音声を発話出現確率分布に基づいて認識し、音声認識指令手段は、発話出現確率分布がトピックに適応していると適応判定手段が判定すると、音声認識手段に音声認識の開始を指令する。
これにより、音声認識指令手段は、発話出現確率分布がトピックに適応していない場合、音声認識手段に音声認識を指令しない。その結果、音声認識手段による音声認識の処理負荷が低減する。
また、発話出現確率分布がトピックに適応している場合、ユーザから音声認識を指令するスイッチ操作がなくても、音声認識指令手段からの指令により、音声認識手段は発話される音声を自動的に音声認識できる。したがって、ユーザのスイッチ操作の手間を省略できる。
請求項11に記載の発明によると、適応判定手段は、分布偏り算出手段が算出する発話出現確率分布の偏りが有意であるか否かを判定し、有意ではない場合、発話出現確率分布がトピックに適応していないと判定する。
これにより、例えば、発話出現確率分布の偏りが所定値以上であっても、その確率分布に特定のトピックに適応しているという意味がなければ、トピックに適応していると判定されない。したがって、トピックに対する発話出現確率分布の適応度を誤判定することを防止できる。
請求項12に記載の発明によると、分布偏り算出手段は平滑化手段により平滑化された発話出現確率分布の平滑分布の偏りを算出する。そして、適応判定手段は、分布偏り算出手段が算出する平滑分布の偏りに基づいて発話出現確率分布の偏りが有意であるか否かを判定し、有意ではない場合、発話出現確率分布がトピックに適応していないと判定する。
これにより、複数のトピックに分散して偏りを有する発話出現確率分布であれば、偏りが平滑化されて小さくなるので、発話出現確率分布がトピックに適応していないと判定できる。一方、一つのトピックに対して偏りを有する発話確率分布であれば、平滑化しても一つのトピックに対して偏りを有するので、発話出現確率分布がトピックに適応していると判定できる。
尚、発話出現確率分布の平滑化としては種々の方式が考えられる。例えば、発話出現確率分布を構成する各語彙の出現確率ついて、各語彙と、その周囲の所定数の語彙の出現確率との平均を、語彙毎に順次算出することが考えられる。
請求項13に記載の発明によると、分布偏り手段は、発話出現確率分布のエントロピーまたは最大値に基づいて平滑分布の偏りを算出する。
エントロピーまたは最大値であれば、平滑化すると偏りが平均化されて小さくなっている発話出現確率分布に対して、偏りが小さいために発話出現確率分布がトピックに適応していないと判定できる。
請求項14に記載の発明によると、適応判定手段は、分布偏り算出手段が算出する発話出現確率分布の偏りが所定値以上の場合、発話出現確率分布と分布記憶手段に記憶されている特定分布との類似度に基づいて発話出現確率分布の偏りが有意であるか否かを判定し、有意ではない場合、発話出現確率分布がトピックに適応していないと判定する。
これにより、複数のトピックに分散して偏りを有する発話出現確率分布であれば、特定分布との類似度は低いので、発話出現確率分布がトピックに適応していないと判定できる。一方、一つのトピックに対して偏りを有する発話確率分布であれば、特定分布との類似度は高いので、発話出現確率分布がトピックに適応していると判定できる。
請求項15に記載の発明によると、固定認識手段は、発話される音声を分布設定手段により分布状態を変化させられない固定の発話出現確率分布に基づいて認識し、可変認識手段は、発話される音声を分布設定手段により分布状態を変化させられる可変の発話出現確率分布に基づいて認識する。そして、適応判定手段は、可変の発話出現確率分布がトピックに適応していると判定すると、固定認識手段による音声認識結果に加え、可変認識手段による音声認識結果をユーザに報知するよう指令する。
これにより、ユーザは、固定認識手段と可変認識手段とによる音声認識結果を比較することができる。
請求項16に記載の発明によると、適応判定手段の指令により報知された可変認識手段による音声認識結果をユーザが選択できる選択スイッチを備える。
これにより、固定認識手段による音声認識結果よりも可変認識手段による音声認識結果が発話のトピックに適応しているとユーザが判断すると、可変認識手段による音声認識結果を選択できる。
第1実施形態による音声認識機能を有するナビゲーションシステムの構成を示すブロック図。 第1実施形態による音声認識装置の音声認識部および対話制御部の構成を示すブロック図。 第1実施形態による発話出現確率分布の状態を示す説明図。 第1実施形態による音声認識処理の一例を示すフローチャート。 第1実施形態による音声認識処理の他の例を示すフローチャート。 第1実施形態によるトピックの選択画面を示す説明図。 第1実施形態による音声認識処理の他の例を示すフローチャート。 第2実施形態による音声認識装置の音声認識部および対話制御部の構成を示すブロック図。 第3実施形態による音声認識装置の構成を示すブロック図。 第3実施形態による音声認識処理の一例を示すフローチャート。 第4実施形態による音声認識装置の音声認識部および対話制御部の構成を示すブロック図。 第4実施形態による発話出現確率分布の平滑化処理を示す説明図。 第4実施形態による音声認識処理の一例を示すフローチャート。 第5実施形態による音声認識装置の音声認識部および対話制御部の構成を示すブロック図。 第5実施形態による発話出現確率分布の類似判定処理を示す説明図。 第5実施形態による音声認識処理の一例を示すフローチャート。 第6実施形態による音声認識装置の音声認識部および対話制御部の構成を示すブロック図。 第6実施形態による表示画面を示す説明図。 第6実施形態による音声認識処理の一例を示すフローチャート。
以下、本発明の実施形態を図に基づいて説明する。
[第1実施形態]
図1は、第1実施形態による音声認識機能を持たせたナビゲーションシステム2の概略構成を示すブロック図である。
(ナビゲーションシステム2)
ナビゲーションシステム2は、車両に搭載されて用いられるいわゆるカーナビゲーションシステムであり、制御回路10、通信装置12、外部メモリ14、表示装置16、リモコンセンサ18、位置検出器20、データ入力器30、操作スイッチ群32、および音声認識装置40を備えている。尚、制御回路10および音声認識装置40はそれぞれ通常のマイクロコンピュータとして構成されており、内部には、周知のCPU、ROM、RAM、I/Oおよびこれらの構成を接続するバスラインが備えられている。
通信装置12は、設定された連絡先通信情報によって特定される連絡先との通信を行うためのものであり、例えば携帯電話機等の移動体通信機によって構成される。
表示装置16は、例えばカラー画像表示装置であり、表示装置16の画面には、位置検出器20から入力された車両現在位置マークと、データ入力器30より入力された地図データと、さらに地図上に表示する誘導経路や設定地点の目印等の付加データとを重ねて表示することができる。また、複数の選択肢を表示するメニュー画面やその中の選択肢を選んだ場合に、さらに複数の選択肢を表示するコマンド入力画面なども表示することができる。
また、表示装置16は、後述するトピック適応度、トピック選択画面を表示することができる。トピック適応度を表示する装置として、表示装置16とは別体のLED等を使用してもよい。尚、トピックは、話題、分野、時期、ユーザによる操作等の発話の状況を表すものである。
位置検出器20は、周知のジャイロスコープ22、距離センサ24および衛星からの電波に基づいて車両の位置を検出するためのGPS受信機26を有している。これらのジャイロスコープ22、距離センサ24およびGPS受信機26等は、各々が性質の異なる誤差を持っているため、それぞれ補間しながら使用するように構成されている。尚、精度によっては上述した内の一部で位置検出器20を構成してもよく、さらに、ステアリングの回転センサ、各転動輪の車輪センサ等を用いてもよい。
データ入力器30は、位置検出の精度向上のためのいわゆるマップマッチング用データ、地図データおよび目印データを含むナビゲーション用の各種データに加えて、音声認識装置40において認識処理を行う際に用いる辞書データを入力するための装置である。記憶媒体としては、データ量から判断してハードディスクやDVDを用いるのが一般的であると考えられるが、CD−ROM等の他の媒体を用いてもよい。データ記憶媒体としてDVDを用いた場合には、このデータ入力器30はDVDプレーヤとしても使用できる。
ナビゲーションシステム2は、リモートコントロール端末(以下、リモコンと称する。)34を介してリモコンセンサ18から、あるいは操作スイッチ群32により目的地の位置が入力されると、現在位置からその目的地までの最適な経路を自動的に選択して誘導経路を形成し表示する、いわゆる経路案内機能も備えている。このような自動的に最適な経路を設定する手法は、ダイクストラ法等の手法が知られている。操作スイッチ群32は、例えば、表示装置16と一体になったタッチスイッチもしくはメカニカルなスイッチ等が用いられ、各種コマンドの入力に利用される。
音声認識装置40は、上記操作スイッチ群32あるいはリモコン34が手動操作により各種コマンド入力のために用いられるのに対して、利用者が音声で入力することによっても同様に各種コマンドを入力できるようにするための装置である。
(音声認識装置40)
音声認識装置40は、音声抽出部42と、音声認識部44と、対話制御部46と、音声合成部48と、マイク50と、スピーカ52と、スイッチ54と、制御部56とを備えている。音声認識装置40は、記憶装置に記憶されている処理プログラムを実行することにおり、ユーザによる発話を音声認識する。
音声抽出部42は、マイク50にて取り込んだ周囲の音声をデジタルデータに変換して音声認識部44に出力するものである。詳しくは、入力した音声の特徴量を分析するため、例えば数10ms程度の区間のフレーム信号を一定間隔で切り出し、その入力信号が、音声の含まれている音声区間であるのか音声の含まれていない雑音区間であるのか判定する。
マイク50から入力される信号は、認識対象の音声だけでなく雑音も混在したものであるため、音声区間と雑音区間の判定を行う。この判定方法としては従来、多くの手法が提案されており、例えば入力信号の短時間パワーを一定時間毎に抽出していき、所定の閾値以上の短時間パワーが一定以上継続したか否かによって音声区間であるか雑音区間であるかを判定する手法がよく採用されている。そして、音声区間であると判定された場合には、その入力信号が音声認識部44に出力されることとなる。
音声認識部44は、音声抽出部42から入力された音声データに対して音声認識処理を行い、その認識結果を対話制御部46に出力する。すなわち、音声抽出部42から取得した音声データに対し、記憶している辞書データを用いて照合を行い、複数の比較対象パターン候補と比較して一致度の高い上位比較対象パターンを対話制御部46へ出力する。
入力音声中の単語系列の認識は、音声抽出部42から入力された音声データを音響モデルと順次音響分析して音響的特徴量(例えばケプストラム)を抽出し、この音響分析によって得られた音響的特徴量時系列データを得ることにより行われる。そして、周知のHMM(隠れマルコフモデル)、DPマッチング法あるいはニューラルネットなどによって、この時系列データをいくつかの区間に分け、各区間が辞書データ等として格納されたどの単語に対応しているかを求める。
対話制御部46は、音声認識部44における認識結果や制御部56からの指示に基づき、音声合成部48への応答音声の出力指示、あるいは、ナビゲーションシステム自体の処理を実行する制御回路10に対して、例えばナビゲート処理のために必要なコマンドを通知してコマンドを実行させるよう指示する処理を行う。このような処理の結果として、この音声認識装置40を利用すれば、上記操作スイッチ群32あるいはリモコン34を手動しなくても、音声入力によりナビゲーションシステム2に対する目的地の指示などが可能となる。
尚、音声合成部48は、波形データベース内に格納されている音声波形を用い、対話制御部46からの応答音声の出力指示に基づく音声を合成する。この合成音声がスピーカ52から出力されることとなる。
本実施形態においては、利用者がスイッチ54を押しているかいないかに関わらず、音声認識部44はマイク50を介して入力した音声を音声認識し、対話制御部46に音声認識結果を出力する。対話制御部46は、スイッチ54が押されているときには、音声認識部44による認識結果をコマンドとして制御回路10に通知し、スイッチ54が押されていないときには、音声認識部44による認識結果をコマンドとしてではなく単に認識結果として制御回路10に通知する。
このような構成を有することによって、本実施形態のナビゲーションシステム2では、操作スイッチ群32、リモコン34または音声によりユーザがコマンドを入力することによって、経路設定や経路案内あるいは施設検索や施設表示など各種の処理を実行することができる。
(音声認識部44と対話制御部46)
次に、音声認識部44と対話制御部46についてさらに説明する。
図2に示すように、音声認識部44は、抽出結果記憶部442と照合部444と発話出現確率分布格納部446とを有している。対話制御部46は、処理部462と入力部464と発話出現確率分布制御部466と分布記憶部468と分布偏り算出部470とトピック適応判定部472とを有している。
音声認識部44においては、抽出結果記憶部442が音声抽出部42から出力された抽出結果を記憶しておき、その記憶された抽出結果に対し、照合部444が、発話出現確率分布格納部446に格納されている発話出現確率分布において出現確率が設定されている発話との照合を行う。そして、照合部444にて抽出結果記憶部442に記憶されている抽出結果との一致度(尤度)が高く、かつ発話出現確率分布格納部446に格納されている発話出現確率分布において出現確率が高く設定されている発話の上位が、認識結果として対話制御部46の処理部462へ出力される。処理部462は、その認識結果を制御回路10へ出力する。
そして、前述したように、対話制御部46は、スイッチ54が押されているときだけ、音声認識部44による認識結果をコマンドとして制御回路10に通知する。
一方、制御回路10は、ユーザからの操作またはコマンド指示を操作スイッチ群32や音声認識装置40を介して受け付ける。そして、制御回路10は、ユーザからの操作またはコマンド指示に基づく発話出現確率分布に対する制御指示を対話制御部46へ出力する。
また、制御回路10は、音声認識部44が認識した発話の認識結果を対話制御部46から受け付けるとともに、音声認識部44による認識結果を対話制御部46に戻す。
対話制御部46の処理部462は、音声認識部44が認識した発話の認識結果を制御回路10に出力する。また、入力部464は、制御回路10から入力する発話出現確率分布に対する制御指示または音声認識部44による認識結果を発話出現確率分布制御部466に出力する。
発話出現確率分布制御部466は、入力部464が出力する制御指示または音声認識結果等のトピックに応じて、音声認識部44の発話出現確率分布格納部446に格納されている発話出現確率分布に対して、確率分布を徐々に変化させたり、特定の確率分布に切り替えたりする。
分布記憶部468には、一つ以上の特定のトピックにそれぞれ対応し、分布の偏りが所定値以上である発話出現確率の特定分布が記憶されている。特定のトピックとは、「目的地」、「音楽」、「テレビ」、「情報検索」等である。分布記憶部468には、発話出現確率の特定分布以外にも、音声認識処理が起動されるときの初期状態の発話出現確率分布である初期分布が記憶されている。
初期分布としては、例えば、”目的地設定”、”現在地”、”自宅へ帰る”など、通常よく発話されるナビ操作コマンドにのみ一様に出現確率を与え、その他は全て0であるような分布が設定される。重視すべきトピックが明白である場合は、そのトピックに対応する分布を初期分布として設定してもよい。
発話出現確率分布制御部466は、発話出現確率分布格納部446に格納されている発話出現確率分布がトピックに適応していない場合には、発話出現確率分布格納部446に格納されている発話出現確率分布を、分布記憶部468に記憶されている適切な発話出現確率の特定分布に切り替える。
また、発話出現確率分布制御部466は、特定の発話出現確率分布に切り替えられる前に発話出現確率分布格納部446に格納されていた発話出現確率分布を分布記憶部468にコピーする。そして、発話出現確率分布制御部466は、発話出現確率分布格納部446に格納した特定の発話出現確率分布の設定は変更せず、分布記憶部468にコピーした発話出現確率分布の設定を、制御回路10からの発話出現確率分布に対する制御指示または音声認識部44による認識結果等のトピックに応じて変更する。
発話出現確率分布制御部466は、発話出現確率分布格納部446に格納されていた発話出現確率分布を特定の発話出現確率分布に切り替えると、発話出現確率分布格納部446の発話出現確率分布ではなく、分布記憶部468にコピーして記憶している発話出現確率分布の偏りを算出するように分布偏り算出部470に指示する。
そして、分布記憶部468にコピーして記憶している発話出現確率分布の偏りが所定値以上になったとトピック適応判定部472が判定し、その判定結果を制御回路10から入力すると、発話出現確率分布制御部466は、発話出現確率分布格納部446に格納されている発話出現確率分布を分布記憶部468に記憶している発話出現確率分布に切り替える。
(発話出現確率分布とトピックとの対応)
次に、発話出現確率分布とトピックとの対応について説明する。
発話出現確率分布格納部446は、ユーザから音声入力される発話の出現確率分布データを発話出現確率分布として格納している。発話出現確率分布は、例えば、一つ以上の辞書を重み付け結合したものや、n−グラムモデルなどの言語モデルによって表現される。
発話出現確率分布制御部466は、発話出現確率分布格納部446に格納されている発話出現確率分布に対し、重み付け結合された辞書の重み係数を変更したり、n−グラムモデルを変更するなどにより、発話出現確率分布をトピックに応じて設定する。尚、前述したように、発話出現確率分布格納部446に格納されていた発話出現確率分布を特定の発話出現確率分布に切り替えると、発話出現確率分布制御部466は、発話出現確率分布格納部446の発話出現確率分布ではなく、分布記憶部468にコピーして記憶している発話出現確率分布をトピックに応じて設定する。
分布偏り算出部470は、発話出現確率分布格納部446に格納されている発話出現確率分布、あるいは発話出現確率分布格納部446から分布記憶部468にコピーして記憶している発話出現確率分布の偏りを算出する。確率分布の偏りは、エントロピー、最大値、重心などを計算することにより算出される。
トピック適応判定部472では、分布偏り算出部470で算出された値を閾値処理するなどしてトピック適応判定を実施する。トピック適応判定部472によるトピック適応判定の結果は、制御回路10に出力される。
例えば、図3の(A)に示す発話出現確率分布では、”自宅へ帰る”、”現在地”、”渋滞情報”等の「道路」に関する発話の出現確率が高く、”CD”、”再生”等の「音楽」に関する発話の出現確率が低くなっている。このように、発話出現確率分布の偏りが大きい場合には、図3の(A)に示す発話出現確率分布は、「道路」に関するトピックに対応して適切に設定されていると判定できる。
ここで、発話のトピックが「道路」から「音楽」に移行すると、発話出現確率分布制御部466は、「音楽」に関連する発話の出現確率を上昇させ、「道路」に関連する発話の出現確率を低下させるなどして、トピックに応じて発話出現確率分布を徐々に変化させていく。そして、図3の(B)に示す分布状態を経過して、図3の(C)に示すように、”CD”、”再生”等の「音楽」に関する発話の出現確率が高くなり、”自宅へ帰る”、”現在地”、”渋滞情報”等の「道路」に関する語彙の出現確率が低くなる。
図3の(B)に示す発話出現確率分布は、確率分布の偏りが小さいので、特定のトピックに対応していると判定されない。
これに対し、図3の(C)に示すように発話出現確率分布の偏りが大きくなると、発話出現確率分布は、「音楽」に関するトピックに対応して適切に設定されていると判定できる。
(音声認識処理1)
本実施形態のナビゲーションシステム2において実行される音声認識処理1について、図4のフローチャートを参照して説明する。図4に示すフローチャートは、音声認識部44および対話制御部46にて常時実行される。
S500において分布偏り算出部470は、発話出現確率分布格納部446に格納されている発話出現確率分布の偏りを算出する。前述したように、発話出現確率分布の偏りは、エントロピー、最大値、重心などを計算することにより行われる。
S502においてトピック適応判定部472は、分布偏り算出部470が算出した発話出現確率分布の偏りを判定する。トピック適応判定部472は、発話出現確率分布の偏りが所定値以上であればトピックに適応していると判定し、発話出現確率分布の偏りが所定値より小さい場合にはトピックに適応していないと判定する。
そして、S504においてトピック適応判定部472は、発話出現確率分布の偏りの判定結果を制御回路10に出力し、制御回路10に対して発話出現確率分布の偏りの判定結果をユーザに報知するよう指令する。
制御回路10は、発話出現確率分布の偏りの判定結果を報知する指令をトピック適応判定部472から受けると、発話出現確率分布がトピックに適応している場合には、適応していることと、適応しているトピック名とを表示装置16に表示する。また、発話出現確率分布がトピックに適応していない場合には、適応していないことを表示装置16に表示する。この場合、制御回路10は、報知制御手段として機能する。
表示装置16に代えて、LED等の表示灯の点灯、消灯によりトピック適応の判定結果を表示してもよいし、トピック毎に対応するLEDを設置し、該当するLEDの点灯、消灯によりトピック適応の判定結果を表示してもよい。また、音によりトピック適応の判定結果を報知してもよい。
尚、図4のフローチャートに示す処理と並行して、発話出現確率分布制御部466は、制御回路10から入力する発話出現確率分布に対する制御指示または音声認識部44による認識結果等のトピックに応じて、発話出現確率分布格納部446に格納されている発話出現確率分布の重み係数を設定する。
(音声認識処理2)
本実施形態のナビゲーションシステム2において実行される音声認識処理の他の例について、図5のフローチャートを参照して説明する。図5に示すフローチャートは、スイッチ54が押されている間、音声認識部44および対話制御部46にて実行される。
まず、S510において、トピック適応判定部472は、音声認識処理の起動時に発話出現確率分布制御部466により発話出現確率分布格納部446に設定される発話出現確率分布の所定の初期分布と、トピックに応じて徐々に変化する発話出現確率分布格納部446の発話出現確率分布との距離を算出し、初期分布からの発話出現確率分布の分布変化量を算出する。この場合の距離は、カルバック・ライブラー(KL)距離などによって算出する。
尚、発話出現確率分布制御部466は、スイッチ54が押される度に分布記憶部468に記憶されている初期分布を発話出現確率分布格納部446に設定する方式でもよいし、最初にスイッチ54が押されてから2回目以降にスイッチ54が押される場合には、発話出現確率分布を初期分布に設定しない方式でもよい。
スイッチ54が2回目以降に押されても発話出現確率分布を初期分布に設定せず、最後に使用していた発話出現確率分布を使用する場合、発話出現確率分布格納部446は、エンジンが停止しても記憶内容を保持できる記憶装置として構成されている。
算出された距離が所定距離より小さい場合には(S512:No)、トピック適応判定部472は、発話出現確率分布が初期分布からトピックに対応した適切な分布状態に移行していない恐れがあると判断し、トピック確定フラグがオンであるか否かを判定する(S514)。トピック確定フラグは、発話出現確率分布が初期分布に設定されるときにオフに設定される。
トピック確定フラグがオフの場合(S514:No)、トピック適応判定部472は、発話出現確率分布が初期分布からトピックに対応した適切な分布状態に移行していないことを制御回路10に通知し、発話出現確率分布が初期分布であることをユーザに報知するよう制御回路10に指令する。
制御回路10は、発話出現確率分布が初期分布であることを報知するよう指令されると、発話出現確率分布が初期分布であることを表示装置16またはLED等の点灯装置により報知する。ユーザは、発話出現確率分布が初期分布であることが報知されると、例えば図6に示すように、表示装置16に表示されるトピック選択画面から、適切なトピックを選択する。
トピック適応判定部472は、ユーザによりトピックが選択されたことを制御回路10から通知されると(S518:Yes)、トピック確定フラグをオンにする。ユーザによりトピックがまだ選択されていない場合(S518:No)、本処理は終了する。
算出された距離が所定距離以上の場合(S512:Yes)、トピック適応判定部472は、使用中の発話出現確率分布は初期分布から移行してトピックに適応した分布状態にあると判断し、S522に処理を移行する。
また、トピック確定フラグがオンの場合(S514:Yes)、トピック適応判定部472は、発話出現確率分布が初期分布から移行し、少なくとも1回はトピックに対応した分布状態になったと判断し、S522に処理を移行する。
S522において、分布偏り算出部470は、発話出現確率分布の偏りを算出する。前述したように、発話出現確率分布の偏りは、エントロピー、最大値、重心などを計算することにより行われる。
発話出現確率分布の偏りが所定値より小さい場合(S524:No)、トピック適応判定部472は、使用中の発話出現確率分布はトピックに適応しておらず、発話出現確率分布に基づいて音声認識を高精度に処理できないと判定し、判定結果を制御回路10に通知する(S526)。
発話出現確率分布制御部466は、発話出現確率分布格納部446に格納されている使用中の発話出現確率分布がトピックに適応していないことを入力部464を介して制御回路10から通知されると、使用中の発話出現確率分布を、分布記憶部468に記憶されている特定分布のうち、使用中の発話出現確率分布に最も距離の近い特定分布に切り替える(S528)。
これにより、確率分布の偏りが所定値以上であり、使用中の発話出現確率分布に最も距離が近い特定分布で音声認識できるので、音声認識の精度が低下することを抑制できる。
S528における上記処理に代えて、発話出現確率分布制御部466は、分布の偏りが所定値以上であり、最後にトピックに適応していると判定された発話出現確率の適応分布を分布記憶部468に記憶しておき、使用中の発話出現確率分布がトピックに適応していない場合には、発話出現確率分布格納部446に格納されている発話出現確率分布をこの適応分布に切り替えてもよい。
これにより、例えば一時的にトピックが変ったために、使用中の発話出現確率分布がトピックに適応しなくなったが、すぐに元のトピックに戻る場合に、元のトピックに適応していた適応分布に切り替えることにより、音声認識の精度が低下することを抑制できる。
また、発話出現確率分布制御部466は、分布の偏りが所定値以上である発話出現確率の標準分布を分布記憶部468に記憶しておき、使用中の発話出現確率分布がトピックに適応していない場合には、発話出現確率分布格納部446に格納されている発話出現確率分布をこの標準分布に切り替えてもよい。標準分布としては、例えば、「道路」に関する確率分布が採用される。
発話出現確率分布格納部446に格納されている発話出現確率分布が、上記の特定分布、適応分布または標準分布に切り替わると、S530に処理が移行する。
確率分布の偏りが所定値以上の場合(S524:Yes)、トピック適応判定部472は、使用中の発話出現確率分布はトピックに対する適応度が高く、発話出現確率分布に基づいて音声認識を高精度に処理できると判断し、S530に処理を移行する。
S530において、トピック適応判定部472は、処理部462から出力される音声認識結果をコマンドとして採用可能であると制御回路10に通知する。これにより、制御回路10は、音声認識装置40による認識結果をコマンドとして解釈し、コマンドに基づいて所定の処理を実行する。
(音声認識処理3)
第1実施形態のナビゲーションシステム2において実行される音声認識処理の他の例について、図7のフローチャートを参照して説明する。図7に示すフローチャートは、スイッチ54が押されていないときに、音声認識部44および対話制御部46にて実行される。
S550において分布偏り算出部470は、発話出現確率分布格納部446に格納されている発話出現確率分布の偏りを算出する。前述したように、発話出現確率分布の偏りは、エントロピー、最大値、重心などを計算することにより行われる。
トピック適応判定部472は、S552において、分布偏り算出部470が算出した発話出現確率分布の偏りが所定値以上であるか否かを判定する。
偏りが所定値以上であれば(S552:Yes)、トピック適応判定部472は、発話出現確率分布がトピックに適応していると判定し、処理部462から出力される音声認識結果をコマンドとして採用可能であると制御回路10に報知する(S554)。これにより、制御回路10は、音声認識装置40による認識結果をコマンドとして解釈し、コマンドに基づいて所定の処理を実行する。
以上説明した第1実施形態では、発話出現確率分布の偏りを算出し、算出した偏りに基づいて、トピックに対する発話出現確率分布の適応度を判定するので、適応度に応じて適切な処理を実施できる。例えば、上記実施形態で説明したように、使用中の発話出現確率分布がトピックに適応していない場合には、ユーザが選択するか、音声認識装置40が自動的に選択した他の発話出現確率分布に切り替えることにより、音声認識精度の低下を抑制できる。
また、使用中の発話出現確率分布がトピックに適応していないことをユーザに報知するように指令することにより、使用中の発話出現確率分布がトピックに適応していないことをユーザが知ることができる。
また、図7に示す音声認識処理3においては、スイッチ54が押されていない場合であっても、発話出現確率分布がトピックに適応している場合には、照合部444による音声認識結果を処理部462を介して音声コマンドとして出力できる。これにより、ユーザのスイッチ操作の手間を省略できる。
尚、第1実施形態の音声認識装置40は本発明の音声認識装置に相当し、分布記憶部468が分布記憶手段に相当する。また、音声認識部44は本発明の音声認識手段に相当し、発話出現確率分布制御部466は本発明の分布設定手段に相当し、分布偏り算出部470は本発明の分布偏り算出手段に相当し、トピック適応判定部472は本発明の適応判定手段およびコマンド設定手段に相当する。そして、音声認識装置40は、本発明の分布設定手段、分布偏り算出手段、適応判定手段、音声認識手段、およびコマンド設定手段として機能する。
また、図4のS500の処理が本発明の分布偏り算出手段が実行する機能に相当し、S502およびS504が適応判定手段が実行する機能に相当する。
また、図5のS510〜S516、S524の処理が本発明の適応判定手段が実行する機能に相当し、S522が分布偏り算出手段が実行する機能に相当し、S528が分布設定手段が実行する機能に相当する。
また、図7のS550の処理が本発明の分布偏り算出手段が実行する機能に相当し、S552の処理が本発明の適応判定手段が実行する機能に相当し、S554の処理が本発明のコマンド設定手段が実行する機能に相当する。
[第2実施形態]
図8に、第2実施形態による音声認識装置の音声認識部44および対話制御部60の構成を示す。図8の構成では、トピック適応判定部474から照合部444に音声認識実行指令が出力されている点が図2の構成と異なっている。その他、図8において図2と実質的に同一構成部分には同一符号を付している。
第2実施形態では、分布偏り算出部470で算出された値を閾値処理するなどして、発話出現確率分布がトピックに適応していると判定すると、トピック適応判定部474は、ユーザからスイッチ54(図1参照)を押す等の音声認識の実行指令がなくても、音声認識部44に指令して音声認識処理を実行させる。
具体的には、発話出現確率分布がトピックに適応していると判定すると、トピック適応判定部474は、例えば照合部444に指令して、音声抽出部42から入力された音声データと、発話出現確率分布格納部446に格納されている発話出現確率分布において出現確率が設定されている発話との照合を行う音声認識処理を実行させる。
一方、発話出現確率分布がトピックに適応していないと判定すると、トピック適応判定部474は、音声認識部44に指令して音声認識処理を中止させる。
具体的には、発話出現確率分布がトピックに適応していないと判定すると、トピック適応判定部474は、例えば照合部444に指令して、音声抽出部42から入力された音声データと、発話出現確率分布格納部446に格納されている発話出現確率分布において出現確率が設定されている発話との照合を行う音声認識処理を中止させる。
第2実施形態では、発話出現確率分布がトピックに適応していない場合には、トピック適応判定部474が音声認識部44に指令して音声認識処理を中止させるので、音声認識部44における音声認識の処理負荷を低減できる。
一方、発話出現確率分布がトピックに適応している場合には、トピック適応判定部474は、ユーザから音声認識の実行指令がなくても、音声認識部44に指令して音声認識処理を実行させるので、ユーザのスイッチ操作の手間を省略できる。
第2実施形態では、トピック適応判定部474が適応判定手段および音声認識指令手段に相当する。
[第3実施形態]
図9に、第3実施形態による音声認識装置70の構成を示し、図10に、第3実施形態による音声認識処理のフローチャートを示す。
図9では、適応クリアスイッチ72が追加されている以外は、図1の音声認識装置40と実質的に同一の構成である。尚、認識開始スイッチ54は、図1に示すスイッチ54と実質的に同じ機能を有するスイッチであり、適応クリアスイッチ72と区別するために名称だけを変更している。
適応クリアスイッチ72が押されると、音声認識装置70は、使用中の発話出現確率分布を、所定の発話出現確率分布に切り替える。所定の発話出現確率分布は、特定のトピックに対応した確率分布であり、例えば音声認識処理が起動されるときの初期状態の発話出現確率分布でもよい。
(音声認識処理)
図10のS540〜S544の処理は、図4のS500〜S504の処理と実質的に同一である。
S544において、トピック適応判定部472がトピック適応の判定結果を表示装置16に表示してユーザに報知するように制御回路10に指令すると、音声認識装置70は、適応クリアスイッチ72が押されてオンになっているか否かを判定する(S546)。適応クリアスイッチ72がオフの場合(S546:No)、音声認識装置70はS540に処理を戻す。
適応クリアスイッチ72がオンの場合(S546:Yes)、音声認識装置70は,使用中の発話出現確率分布を初期状態の発話出現確率分布に切り替え(S548)、S540に処理を戻す。
ユーザは、音声認識がトピックに適応していないことを表示装置16の表示により知ると、適応クリアスイッチ72を押す。表示装置16の表示がなくても、例えば、音声認識装置70の認識結果によるナビゲーションシステムの作動が発話中のトピックに適応していないと判断すると、ユーザは適応クリアスイッチ72を押してもよい。
これにより、音声認識装置70による判断ではなく、ユーザの判断により、トピックに対する発話出現確率分布の適応状態をクリアできる。
第3実施形態では、適応クリアスイッチ72が本発明の適応クリアスイッチに相当する。
また、図10のS540が分布偏り算出手段が実行する機能に相当し、S542、S544の処理が本発明の適応判定手段が実行する機能に相当し、S546、S548の処理が本発明の分布設定手段が実行する機能に相当する。
[第4実施形態]
図11に、第4実施形態による音声認識装置の音声認識部44および対話制御部80の構成を示す。図11の構成では、分布偏り算出部470の前に分布平滑化処理部476が設けられている点が図2の構成と異なっている。その他、図11において図2と実質的に同一構成部分には同一符号を付している。
分布平滑化処理部476は、発話出現確率分布格納部446に格納されている発話出現確率分布を構成する各語彙の出現確率ついて、例えば、各語彙と、その周囲の所定数の語彙の出現確率との平均を、語彙毎に順次算出して発話出現確率分布を平滑化する。
平滑化して各語彙の出現確率を算出する場合、該当する位置の語彙の出現確率は含めず、その周囲の語彙の出現確率だけを平均してもよい。
図12の(A)、(B)の上段に示す平滑化前の確率分布は、このままの分布状態でエントロピーまたは最大値を算出することにより確率分布の偏りを算出すると、偏りが所定値以上になるので、トピック適応判定部472は、両方の確率分布は特定のトピックに対応していると判定する。
図12の(A)については、平滑化前の上段に示す確率分布において、”音量”、”再生”、”CD”等の「音楽」に関する発話の出現確率が高くなっており、その他のトピックに関する発話の出現確率が低くなっているので、平滑化されても「音楽」に関する発話の出現確率だけが高くなる。その結果、平滑化後の下段に示す確率分布においても、「音楽」に関する発話の出現確率は高くなる。
したがって、図12の(A)については、平滑化後の確率分布でエントロピーまたは最大値を算出することにより確率分布の偏りを算出しても偏りが所定値以上になるので、トピック適応判定部472は、特定のトピックに対応していると判定する。
一方、図12の(B)については、平滑化前の上段に示す確率分布において、”目的地設定”、”CD”、”DVD”の出現確率が高くなっており、その他の発話の出現確率が低くなっている。つまり、「道路」と「音楽」との2種類のトピックについて、出現確率が高くなっている。
その結果、平滑化すると、「道路」および「音楽」のトピックについて、平滑化出後の出現確率が平均化され、全体の出現確率が低くなる。その結果、図12の(B)については、平滑後の確率分布でエントロピーまたは最大値を算出することにより確率分布の偏りを算出すると、偏りが所定値未満になるので、トピック適応判定部472は、発話出現確率分布が特定のトピックに対応していないと判定する。
(音声認識処理)
次に、第4実施形態による音声認識処理の例について、図13のフローチャートを参照して説明する。
分布平滑化処理部476は、発話出現確率分布格納部446に格納されている発話出現確率分布を平滑化し(S560)、分布偏り算出部470は、平滑化された発話出現確率分布の平滑分布でエントロピーまたは最大値を算出することにより確率分布の偏りを算出する(S562)。
トピック適応判定部472は、平滑分布の偏りが所定値以上であるか否かを判定し(S564)、偏りが所定値以上の場合(S564:Yes)、S566に処理を移行する。
偏りが所定値未満の場合(S564:No)、トピック適応判定部472は、使用中の発話出現確率分布はトピックに適応していないという判定結果を制御回路10に通知する(S568)。
S570において発話出現確率分布制御部466は、発話出現確率分布格納部446に格納されている使用中の発話出現確率分布がトピックに適応していないことを入力部464を介して制御回路10から通知されると、使用中の発話出現確率分布を、分布記憶部468に記憶されている特定分布のうち、使用中の発話出現確率分布に最も距離の近い特定分布に切り替える。
使用中の発話出現確率分布に最も距離の近い特定分布に切り替えることにより、確率分布の偏りが所定値以上であり、使用中の発話出現確率分布に最も距離が近い特定分布で音声認識できるので、S566に処理が移行される。
S566においてトピック適応判定部472は、処理部462から出力される音声認識結果をコマンドとして採用可能であると制御回路10に通知する。これにより、制御回路10は、音声認識装置40による認識結果をコマンドとして解釈し、コマンドに基づいて所定の処理を実行する。
以上説明した第4実施形態によると、発話出現確率分布を平滑化してから偏りを算出することによりトピックに適応しているか否かを判定するので、平滑化前の状態では偏りが所定値以上であり、トピックに適応していると判定される確率分布であっても、複数のトピックにまたがって偏りを有し、一つのトピックだけに適応していない点で確率分布が有意ではない発話出現確率分布を除外し、一つのトピックに偏りを有する有意な確率分布だけを、トピックに適応していると判定できる。
これにより、複数のトピックにまたがって偏りを有する確率分布がトピックに適応していると誤判定することを防止できる。
第4実施形態では、分布平滑化処理部476が本発明の平滑化手段に相当する。
また、図13のS560の処理が本発明の平滑化手段が実行する機能に相当し、S562の処理が本発明の分布偏り算出手段が実行する機能に相当し、S564〜S568の処理が本発明の適応判定手段が実行する機能に相当し、S570の処理が本発明の分布設定手段が実行する機能に相当する。
[第5実施形態]
図14に、第5実施形態による音声認識装置の音声認識部44および対話制御部90の構成を示す。図14の構成では、分布偏り算出部470が算出する発話出現確率分布の偏りに基づき、発話出現確率分布格納部446に格納されている発話出現確率分布が特定のトピックに適応している発話出現確率分布の特定分布と類似しているか否かをトピック適応判定部478が判定する点が図2の構成と異なっている。その他、図14において図2と実質的に同一構成部分には同一符号を付している。
図15の(A)に示す確率分布において、”目的地設定”、”CD”、”DVD”の出現確率が高くなっており、その他の発話の出現確率が低くなっている。つまり、図15の(A)に示す発話出現確率分布は、「道路」と「音楽」との2種類のトピックについて出現確率が高くなっているので、トピックに適応した有意な確率分布ではない。
しかしながら、分布偏り算出部470が図15の(A)に示す発話出現確率分布の偏りをエントロピーまたは最大値等により算出すると、偏りが所定値以上になる。
そこで、第5実施形態では、分布偏り算出部470が算出する発話出現確率分布の偏りが所定値以上の場合、トピック適応判定部478は、発話出現確率分布格納部446に格納されている発話出現確率分布と、図15の(B)、(C)に示すように特定のトピックに適応した発話出現確率分布の特定分布との類似度を判定し、類似度が高ければ発話出現確率分布はトピックに適応していると判定する。発話出現確率分布の特定分布は分布記憶部468に記憶されている。
図15の(A)に示す発話出現確率分布の場合、分布偏り算出部470が算出する偏りは所定値以上になるが、トピック適応判定部478が判定する特定分布との類似度は低いため、トピックに適応していないと判定される。
(音声認識処理)
次に、第5実施形態による音声認識処理の例について、図16のフローチャートを参照して説明する。
S580において分布偏り算出部470は、発話出現確率分布格納部446に格納されている発話出現確率分布の偏りを算出する。前述したように、発話出現確率分布の偏りは、エントロピー、最大値、重心などを計算することにより行われる。
トピック適応判定部478は、分布偏り算出部470が算出した発話出現確率分布の偏りが所定値以上の場合(S582:Yes)、発話出現確率分布格納部446に格納されている発話出現確率分布と特定分布(特性モデル)との類似度を判定する(S584)。一方、発話出現確率分布の偏りが所定値未満の場合(S582:No)、S588に処理が移行される。
発話出現確率分布が特定分布に類似している場合(S584:Yes)、トピック適応判定手段478はS586に処理を移行する。発話出現確率分布が特定分布に類似していない場合(S584:No)、トピック適応判定手段478はS588に処理を移行する。
S588においてトピック適応判定部478は、使用中の発話出現確率分布はトピックに適応していないという判定結果を制御回路10に通知する(S588)。
S590において発話出現確率分布制御部466は、発話出現確率分布格納部446に格納されている使用中の発話出現確率分布がトピックに適応していないことを入力部464を介して制御回路10から通知されると、使用中の発話出現確率分布を、分布記憶部468に記憶されている特定分布のうち、使用中の発話出現確率分布に最も距離の近い特定分布に切り替える。
使用中の発話出現確率分布に最も距離の近い特定分布に切り替えることにより、確率分布の偏りが所定値以上であり、使用中の発話出現確率分布に最も距離が近い特定分布で音声認識できるので、S586に処理が移行される。
S586においてトピック適応判定部478は、処理部462から出力される音声認識結果をコマンドとして採用可能であると制御回路10に通知する。これにより、制御回路10は、音声認識装置40による認識結果をコマンドとして解釈し、コマンドに基づいて所定の処理を実行する。
以上説明した第5実施形態によると、そのままの状態では偏りが所定値以上であり、トピックに適応していると判定される確率分布であっても、特定のトピックに適応した特定分布との類似度を判定することにより、複数のトピックにまたがって偏りを有しているために特定のトピックに適応しておらず有意ではない場合、トピックに適応していないと判定できる。
これにより、複数のトピックにまたがって偏りを有する確率分布がトピックに適応していると誤判定することを防止できる。
第5実施形態では、トピック適応判定部478が本発明の適応判定手段およびコマンド設定手段に相当する。
また、図16のS580の処理が本発明の分布偏り算出手段が実行する機能に相当し、S582〜S588の処理が本発明の適応判定手段が実行する機能に相当し、S590の処理が本発明の分布設定手段が実行する機能に相当する。
[第6実施形態]
図17に、第6実施形態による音声認識装置の音声認識部100および対話制御部110の構成を示す。図17において、図2と実質的に同一構成部分には同一符号を付している。
音声認識部100には、固定確率分布格納部448と可変確率分布格納部450とが設けられている。固定確率分布格納部448には、固定のトピックに適応した発話出現確率分布として、例えば「道路」に適応した確率分布が予め格納されている。
可変確率分布格納部450には、発話のトピックに応じて発話出現確率分布制御部466により分布状態を可変に変更される発話出現確率分布が格納されている。
照合部444は、音声抽出部42から入力された音声データに対して、通常、固定確率分布格納部448に格納されている固定確率分布において出現確率が設定されている発話との照合を行う。
ただし、照合部444は、トピック適応判定部480から指令されると、音声抽出部42から入力された音声データに対して、可変確率分布格納部450に格納されている可変確率分布において出現確率が設定されている発話との照合も行う。
処理部462は、照合部444において照合された発話の音声認識結果を制御回路10へ出力する。処理部462から出力される音声認識結果は、固定確率分布だけによる音声認識結果の場合と、固定確率分布および可変確率分布の両方による音声認識結果の場合とがある。
トピック適応判定部480は、分布偏り算出部470が算出する可変確率分布の偏りを判定し、可変確率分布格納部450に格納されている可変確率分布がトピックに適応しているか否かを判定する。
トピック適応判定部480は、可変確率分布がトピックに適応している場合、照合部444に、可変確率分布による音声認識を指令し、処理部462が出力する固定確率分布および可変確率分布による音声認識結果を制御回路10から入力する。そして、固定確率分布による音声認識結果と可変確率分布による音声認識結果とが異なっている場合、図18に示すように、固定確率分布による音声認識結果に加えて、可変確率分布による音声認識結果を表示装置16に表示するように制御回路10に指令する。
図18において、「目的地を設定しました」は固定確率分布による音声認識結果の表示であり、「もしかして音量設定」は可変確率分布による音声認識結果の表示である。表示装置16において、「音量設定」の表示部分は選択スイッチになっている。ユーザが「音量設定」の表示部分をタッチして選択することにより、制御回路10は、処理部462から出力される音声認識結果のうち、固定確率分布ではなく可変確率分布による音声認識結果を採用する。
(音声認識処理)
次に、第6実施形態による音声認識処理の例について、図19のフローチャートを参照して説明する。
図19のS600において照合部444は、固定確率分布により音声認識を実行し、制御回路10は、処理部462が出力する固定確率分布による音声認識結果を表示装置16に表示する(S602)。分布偏り算出部470は可変確率分布の偏りを算出する(S604)。
トピック適応判定部480は可変確率分布の偏りが所定値以上であるか否かを判定し(S606)、偏りが所定値未満であれば(S606:No)、本処理を終了する。
偏りが所定値以上であれば(S606:Yes)、トピック適応判定部480は、可変確率分布はトピックに適応していると判断する。そして、照合部444は、トピック適応判定部480からの指令により可変確率分布による音声認識を実行する(S608)。
固定確率分布による音声認識結果と可変確率分布による音声認識結果とが同じ場合(S610:No)、トピック適応判定部480は、可変確率分布による音声認識結果を表示する必要はないと判断し、本処理を終了する。
固定確率分布による音声認識結果と可変確率分布による音声認識結果とが異なる場合(S610:Yes)、トピック適応判定部480は、可変確率分布による音声認識結果を表示するよう制御回路10に指令し(S612)、本処理を終了する。
以上説明した第6実施形態では、通常は固定確率分布による音声認識結果だけを表示し、可変確率分布の偏りが所定値以上であり、固定確率分布による音声認識結果と可変確率分布による音声認識結果とが異なる場合に、固定確率分布による音声認識結果に加えて可変確率分布による音声認識結果も表示する。そして、表示された可変確率分布による音声認識結果は、ユーザにより選択できる選択スイッチになっている。
これにより、ユーザは、可変確率分布による音声認識結果がトピックに対応していると判断すれば、可変確率分布による音声認識結果を選択できる。
第6実施形態では、固定確率分布格納部448に格納されている固定確率分布により音声認識を実行する場合の音声認識部100が本発明の固定認識手段に相当し、可変確率分布格納部450に格納されている可変確率分布により音声認識を実行する場合の音声認識部100が本発明の可変認識手段に相当する。また、トピック適応判定部480が本発明の適応判定手段に相当する。
また、図19のS600の処理が本発明の固定認識手段が実行する機能に相当し、S604の処理が本発明の分布偏り算出手段が実行する機能に相当し、S606、S610およびS612の処理が本発明の適応判定手段が実行する機能に相当し、S608の処理が本発明の可変認識手段が実行する機能に相当する。
[他の実施形態]
上記実施形態では、トピックに応じて発話出現確率分布を徐々に変化させ、変化中の発話出現確率分布の偏りを算出することにより、トピックに対する発話出現確率分布の適応度を判定した。これに対し、トピックが変化すると、トピック毎に設定された特定の発話出現確率分布に切り替える場合にも、切り替えられた発話出現確率分布の偏りに基づいてトピックに対する適応度を判定することにより、適切な発話出現確率分布に切り替えられたか否かを判定できる。したがって、適応度の判定結果に基づいて適切な処理を実行できる。
また、上記実施形態では、発話出現確率分布がトピックに適応していないことを、ナビゲーション側の制御回路10によりユーザに通知させた。これに対し、音声認識装置40自体が、発話出現確率分布がトピックに適応していないことをユーザに通知してもよい。
また、発話出現確率分布がトピックに適応していない場合に、ユーザがトピックを選択できる機能を音声認識装置40に設けてもよい。
また、音声認識部44による音声認識の結果を、ナビゲーション側の制御回路10を介さずに発話出現確率分布制御部466が受け付ける構成にしてもよい。
また、上記実施形態では、車両に搭載されるナビゲーションシステム2に本発明の音声認識装置40を適用した。これに対し、ナビゲーションシステムに限らず、ユーザによる発話を音声認識するために使用する発話出現確率分布のトピックに対する適応度を判定するのであれば、どのような分野に本発明の音声認識装置を適用してもよい。
上記実施形態では、分布設定手段、分布偏り算出手段、適応判定手段、音声認識手段、音声認識指令手段、コマンド設定手段、平滑化手段、固定認識手段および可変認識手段の機能を、音声認識の処理プログラムにより機能が特定される音声認識装置により実現している。これに対し、上記複数の手段の機能の少なくとも一部を、回路構成自体で機能が特定されるハードウェアで実現してもよい。
このように、本発明は、上記実施形態に限定されるものではなく、その要旨を逸脱しない範囲で種々の実施形態に適用可能である。
2:ナビゲーションシステム、40、70:音声認識装置(分布設定手段、分布偏り算出手段、適応判定手段)、44、100:音声認識部(音声認識手段、固定認識手段、可変認識手段)、46、60、80、90、110:対話制御部、72:適応クリアスイッチ、468:分布記憶部(分布記憶手段)、466:発話出現確率分布制御部(分布設定手段)、470:分布偏り算出部(分布偏り算出手段)、472、478:トピック適応判定部(適応判定手段、コマンド設定手段)、474:トピック適応判定部(適応判定手段、音声認識指令手段)、476:分布平滑化処理部(平滑化手段)、480:トピック適応判定部(適応判定手段)

Claims (16)

  1. 発話に出現する語彙の確率分布である発話出現確率分布に基づいて、発話される音声を認識する音声認識装置において、
    前記発話の状況であるトピックに応じて前記発話出現確率分布を徐々に変化させる分布設定手段と、
    前記発話出現確率分布の偏りを算出する分布偏り算出手段と、
    前記分布偏り算出手段が算出する偏りに基づいて、前記トピックに対する前記発話出現確率分布の適応度を判定する適応判定手段と、
    を備えることを特徴とする音声認識装置。
  2. 前記分布設定手段は、前記適応判定手段の判定結果に基づいて前記発話出現確率分布を設定することを特徴とする請求項1に記載の音声認識装置。
  3. 一つ以上の特定の前記トピックにそれぞれ対応する発話出現確率の特定分布が記憶されている分布記憶手段を備え、
    前記分布設定手段は、使用中の前記発話出現確率分布が前記トピックに適応していないと前記適応判定手段が判定すると、前記分布記憶手段に記憶されている前記特定分布のうち使用中の前記発話出現確率分布に最も近い分布を有する前記特定分布を、使用する前記発話出現確率分布として設定する、
    ことを特徴とする請求項2に記載の音声認識装置。
  4. 前記トピックに適応していると前記適応判定手段が最後に判定した前記発話出現確率分布である適応分布が記憶されている分布記憶手段を備え、
    前記分布設定手段は、使用中の前記発話出現確率分布が前記トピックに適応していないと前記適応判定手段が判定すると、使用する前記発話出現確率分布として前記分布記憶手段に記憶されている前記適応分布を設定する、
    ことを特徴とする請求項2に記載の音声認識装置。
  5. 一つ以上の特定の前記トピックにそれぞれ対応する発話出現確率の特定分布が記憶されている分布記憶手段を備え、
    前記適応判定手段は、前記発話出現確率分布が前記トピックに適応していないと判定すると、ユーザによる前記トピックの選択を指令し、
    前記分布設定手段は、ユーザが選択した前記トピックに対応する前記特定分布を前記分布記憶手段から選択し、使用する前記発話出現確率分布として設定する、
    ことを特徴とする請求項2に記載の音声認識装置。
  6. 前記適応判定手段は、前記トピックに対する前記発話出現確率分布の適応度をユーザに報知するよう指令することを特徴とする請求項1から5のいずれか一項に記載の音声認識装置。
  7. 前記分布設定手段は、音声認識の起動時に発話出現確率分布を初期分布に設定し、
    前記適応判定手段は、前記初期分布に対する使用中の前記発話出現確率分布の分布変化量に基づいて、前記トピックに対する前記発話出現確率分布の適応度を判定することを特徴とする請求項1から6のいずれか一項に記載の音声認識装置。
  8. ユーザが操作する適応クリアスイッチを備え、
    前記分布設定手段は、前記適応クリアスイッチが操作されると、使用する前記発話出現確率分布として所定の発話出現確率分布を設定する、
    ことを特徴とする請求項1から7のいずれか一項に記載の音声認識装置。
  9. 発話される音声を前記発話出現確率分布に基づいて認識する音声認識手段と、
    前記発話出現確率分布が前記トピックに適応していると前記適応判定手段が判定すると、前記音声認識手段による音声認識の結果を音声コマンドとして設定するコマンド設定手段と、
    を備えることを特徴とする請求項1から8のいずれか一項に記載の音声認識装置。
  10. 発話される音声を前記発話出現確率分布に基づいて認識する音声認識手段と、
    前記発話出現確率分布が前記トピックに適応していると前記適応判定手段が判定すると、前記音声認識手段に音声認識の開始を指令する音声認識指令手段と、
    を備えることを特徴とする請求項1から8のいずれか一項に記載の音声認識装置。
  11. 前記適応判定手段は、前記分布偏り算出手段が算出する前記発話出現確率分布の偏りが有意であるか否かを判定し、有意ではない場合、前記発話出現確率分布が前記トピックに適応していないと判定することを特徴とする請求項1から10のいずれか一項に記載の音声認識装置。
  12. 前記発話出現確率分布を平滑化する平滑化手段を備え、
    前記分布偏り算出手段は前記平滑化手段により平滑化された前記発話出現確率分布の平滑分布の偏りを算出し、
    前記適応判定手段は、前記分布偏り算出手段が算出する前記平滑分布の偏りに基づいて、前記発話出現確率分布の偏りが有意であるか否かを判定し、有意ではない場合、前記発話出現確率分布が前記トピックに適応していないと判定する、
    ことを特徴とする請求項11に記載の音声認識装置。
  13. 前記分布偏り手段は、前記発話出現確率分布のエントロピーまたは最大値に基づいて前記平滑分布の偏りを算出することを特徴とする請求項12に記載の音声認識装置。
  14. 一つ以上の特定の前記トピックにそれぞれ対応する発話出現確率の特定分布が記憶されている分布記憶手段を備え、
    前記適応判定手段は、前記分布偏り算出手段が算出する前記発話出現確率分布の偏りが所定値以上の場合、前記発話出現確率分布と前記特定分布との類似度に基づいて前記発話出現確率分布の偏りが有意であるか否かを判定し、有意ではない場合、前記発話出現確率分布が前記トピックに適応していないと判定する、
    ことを特徴とする請求項11に記載の音声認識装置。
  15. 発話される音声を前記分布設定手段により分布状態を変化させられない固定の前記発話出現確率分布に基づいて認識する固定認識手段と、
    発話される音声を前記分布設定手段により分布状態を変化させられる可変の前記発話出現確率分布に基づいて認識する可変認識手段と、
    前記適応判定手段は、可変の前記発話出現確率分布が前記トピックに適応していると判定すると、前記固定認識手段による音声認識結果に加え、前記可変認識手段による音声認識結果をユーザに報知するよう指令する、
    ことを特徴とする請求項1から14のいずれか一項に記載の音声認識装置。
  16. 前記適応判定手段の指令により報知された前記可変認識手段による音声認識結果をユーザが選択できる選択スイッチを備えることを特徴とする請求項15に記載の音声認識装置
JP2011115081A 2010-05-24 2011-05-23 音声認識装置 Expired - Fee Related JP5772214B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011115081A JP5772214B2 (ja) 2010-05-24 2011-05-23 音声認識装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010118473 2010-05-24
JP2010118473 2010-05-24
JP2011115081A JP5772214B2 (ja) 2010-05-24 2011-05-23 音声認識装置

Publications (2)

Publication Number Publication Date
JP2012008554A JP2012008554A (ja) 2012-01-12
JP5772214B2 true JP5772214B2 (ja) 2015-09-02

Family

ID=45539090

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011115081A Expired - Fee Related JP5772214B2 (ja) 2010-05-24 2011-05-23 音声認識装置

Country Status (1)

Country Link
JP (1) JP5772214B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6220694B2 (ja) * 2013-10-31 2017-10-25 日本電信電話株式会社 モデル処理装置、その方法、およびプログラム
JP2015129793A (ja) * 2014-01-06 2015-07-16 株式会社デンソー 音声認識装置
US20150370787A1 (en) * 2014-06-18 2015-12-24 Microsoft Corporation Session Context Modeling For Conversational Understanding Systems

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001101187A (ja) * 1999-09-30 2001-04-13 Sony Corp 翻訳装置および翻訳方法、並びに記録媒体
JP3923513B2 (ja) * 2004-06-08 2007-06-06 松下電器産業株式会社 音声認識装置および音声認識方法
US7739286B2 (en) * 2005-03-17 2010-06-15 University Of Southern California Topic specific language models built from large numbers of documents
CN101034390A (zh) * 2006-03-10 2007-09-12 日电(中国)有限公司 用于语言模型切换和自适应的装置和方法
JP2010078934A (ja) * 2008-09-26 2010-04-08 Brother Ind Ltd 音声認識装置、音声認識方法、及び音声認識プログラム

Also Published As

Publication number Publication date
JP2012008554A (ja) 2012-01-12

Similar Documents

Publication Publication Date Title
CN106796786B (zh) 语音识别系统
JP4304952B2 (ja) 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム
US8005673B2 (en) Voice recognition device, voice recognition method, and voice recognition program
US10446155B2 (en) Voice recognition device
US6937982B2 (en) Speech recognition apparatus and method using two opposite words
WO2013005248A1 (ja) 音声認識装置およびナビゲーション装置
JP4859982B2 (ja) 音声認識装置
JP5677650B2 (ja) 音声認識装置
JP4357867B2 (ja) 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体
JP4940887B2 (ja) 音声入力支援プログラム、音声入力支援装置、音声入力支援方法
JP5772214B2 (ja) 音声認識装置
JP2009230068A (ja) 音声認識装置及びナビゲーションシステム
JP2008076811A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP4639094B2 (ja) 音声認識システム、音声認識装置及び音声認識プログラム
JP4770374B2 (ja) 音声認識装置
JP4938719B2 (ja) 車載情報システム
US20110218809A1 (en) Voice synthesis device, navigation device having the same, and method for synthesizing voice message
JP3700533B2 (ja) 音声認識装置及び処理システム
JP2007256643A (ja) 音声認識装置及びナビゲーションシステム
JP4941494B2 (ja) 音声認識システム
JP2004309862A (ja) 音声認識装置及びナビゲーションシステム
JP2010175921A (ja) 音声認識装置
JPWO2013005248A1 (ja) 音声認識装置およびナビゲーション装置
JP2007206524A (ja) 音声検出装置及び音声検出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150615

LAPS Cancellation because of no payment of annual fees