JP4453377B2

JP4453377B2 - 音声認識装置、プログラム及びナビゲーション装置

Info

Publication number: JP4453377B2
Application number: JP2004023881A
Authority: JP
Inventors: 竜一鈴木; 邦雄横井; 一郎赤堀; 誠坂井; 聖史鈴木; 雅彦立石
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2004-01-30
Filing date: 2004-01-30
Publication date: 2010-04-21
Anticipated expiration: 2024-01-30
Also published as: KR20050078195A; KR100677711B1; JP2005215474A

Description

本発明は、話者によって入力された音声に基づいて、話者の意図する単音節を決定する音声認識装置等に関する。

話者によって入力された音声に基づいて、話者の意図する単音節を一単音節ずつ決定する音声認識装置が広く知られている。このようなタイプの音声認識装置は、単語（複数の単音節からなる語）単位の音声認識を行う音声認識装置のように音声認識を行う単語全てに対応する単語辞書を予め備えている必要がないため、最終的な認識結果の集合（例えば文）としては事実上、どのようなものでも認識させることができるという利点がある。

しかし、単音節の音声を認識する場合は、単語単位の音声認識に比較して認識手がかりが少ないため、一般的に認識率が低い。そのため、このような単音節の音声を認識する音声認識装置では、より認識精度を向上させるために様々な工夫が施されている。例えば、話者が発話方法を工夫して入力することにより認識精度を向上させるようになっていたり、音声認識装置が認識した単音節を音声出力（トークバック）することにより話者に確認させて最終的な認識精度を向上させるようになっている。

ここで前者の方法について採り上げる。特許文献１に示す音声認識装置は、話者が例えば「あいうえおのあ」と入力することによって単音節の音声「あ」を認識するものである。このように話者が単音節よりも長い単音節認識用特定語を入力することにより、単に単音節を入力する場合と比較して音声認識装置の認識精度を向上させることができる。
特開平１１−１８４４９５号公報

ところが、このような音声認識手法を用いた音声認識装置であっても、話者の話し方（いわゆる癖）や発話時の騒音環境等により、誤認識を完全に防ぐことは難しいのが実情である。また、単音節の音声を認識する音声認識装置の場合は、話者が一音節一音節毎に修正や確定を行う必要があり、誤認識があると更に話者に手間をかけさせるといった問題がある。

本発明は、このような問題に鑑みなされたものであり、話者にとってできるだけ使い勝手の良い音声認識装置等を提供することを目的とする。

上記課題を解決するためになされた請求項１に記載の音声認識装置は、音声入力手段と、音声認識手段と、受付手段と、制御手段とを備える。音声入力手段は話者の発声した音声を入力し、音声認識手段は入力手段が入力した音声を分析して候補単音節を特定し、報知手段は指定された情報を報知し、受付手段は話者の操作を受け付ける。また、制御手段は、音声認識手段が特定した候補単音節の中で最も尤度が高い候補単音節を報知手段に報知させる報知処理を実行し、話者より決定を意味する操作を受付手段が受け付けた場合は直前の報知処理の際に報知させた候補単音節を話者の意図する単音節として確定する確定処理を実行し、話者から新たな音声が音声入力手段に入力されて音声認識手段が候補単音節を特定した場合は前記報知処理の実行に戻ると共に、確定処理を実行することなく報知処理を連続して２回以上実行する場合、報知処理によって過去に報知した候補単音節を報知する候補単音節から除外して最も尤度の高い候補単音節を報知手段に報知させる。なお、ここで言う候補単音節というのは、字のごとく単音節の候補であり、音声認識手段が特定する候補単音節は１つであってもよいし複数であってもよい。
ここで、本発明の音声認識装置においては、制御手段が、上記の除外について、確定処理を実行することなく繰り返し実行した報知処理のうち直前を除く所定回数以前に実行した報知処理によって報知した候補単音節は除外しないことを要旨とする。

請求項１に記載の音声認識装置によれば、話者は発話した単音節が正しく認識された場合のみ操作を行い単音節を確定させ、正しく認識されていない場合には何ら操作なく正しく認識されるまで続けて単音節を発話することができる。このため話者は、認識が正しくなされなかった場合に何度も再入力指示をすることなく、続けて再発話するだけでよい。つまり、使い勝手が良い。

また、請求項２に記載の音声認識装置は、音声入力手段と、音声認識手段と、報知手段と、制御手段とを備える。音声入力手段は話者の発声した音声を入力し、音声認識手段は入力手段が入力した音声を分析して候補単音節を特定すると共に確定を意味する確定語を認識し、報知手段は指定された情報を報知する。また、制御手段は、音声認識手段が特定した候補単音節の中で最も尤度が高い候補単音節を報知手段に報知させる報知処理を実行し、話者から新たな音声が音声入力手段に入力されて音声認識手段が確定語を認識した場合は直前の報知処理の際に報知させた候補単音節を話者の意図する単音節として確定する確定処理を実行し、話者から新たな音声が音声入力手段に入力されて音声認識手段が候補単音節を特定した場合は報知処理の実行に戻ると共に、確定処理を実行することなく報知処理を連続して２回以上実行する場合、報知処理によって過去に報知した候補単音節を報知する候補単音節から除外して最も尤度の高い候補単音節を報知手段に報知させる。なお、ここで言う候補単音節というのは、字のごとく単音節の候補であり、音声認識手段が特定する候補単音節は１つであってもよいし複数であってもよい。
ここで、本発明の音声認識装置においては、制御手段が、上記の除外について、確定処理を実行することなく繰り返し実行した報知処理のうち直前を除く所定回数以前に実行した報知処理によって報知した候補単音節は除外しないことを要旨とする。

請求項２に記載の音声認識装置によれば、話者は発話した単音節が正しく認識された場合のみ確定語（例えば「次」や「次へ」や「次は」等）を発話して単音節を確定させ、正しく認識されていない場合には何ら特別な操作や発話することなく正しく認識されるまで認識させたい単音節を続けて発話することができる。このため話者は、認識が正しくなされなかった場合に何度も再入力指示をすることなく、続けて再発話するだけでよい。つまり、使い勝手がよい。

ところで、認識された単音節が正しくない場合、話者が再発話した際も再び前回と同じ不適切な候補単音節が報知される可能性がある。このようなこと防止するには、請求項１又は請求項２に記載のように、制御手段が、確定処理を実行することなく報知処理を連続して２回以上実行する場合、報知処理によって過去に報知した候補単音節を報知する候補単音節から除外して最も尤度の高い候補単音節を報知するようになっているとよい。

このようになっていれば、再発話の際に再び前回と同じ不適切な候補単音節が報知されることがなくなり、話者にとって使い勝手が向上する。
しかし、本当は正しい候補単音節が報知されたにもかかわらず、間違えて再発話してしまう場合も考えられる。このように間違えてしまうと、二度と正しい候補単音節が報知されなくなってしまうという不都合が生じる。このような不都合が生じることを防止するためには、請求項１又は請求項２に記載のように、所定回数、再発話があった際には、候補単音節の除外を解除するようになっているとよい。つまり、制御手段が、前記除外について、確定処理を実行することなく繰り返し実行した報知処理のうち直前を除く所定回数以前に実行した報知処理によって報知した候補単音節は除外しないようになっているとよい。

なお、この所定回数の最適値としては、請求項３に記載のように３回であるとよい。つまり、制御手段が、除外について、確定処理を実行することなく繰り返し実行した報知処理のうち過去３回以前に実行した報知処理によって報知した候補単音節は除外しないようになっているとよい。この数字の根拠は、本願発明者らが行った実験（本実験の詳細は実施の形態の欄で説明）によると、発話回数４回までに正しい候補単音節が報知される確率は９８％であり、それ以上発話回数を重ねてもそれ以降に正しい候補単音節が報知されるということはほとんどない。つまり、ほとんどの場合、再発話回数３回時点までに正しい単音節が一度は報知されていることを意味し、再発話回数が３回になった場合には、話者が正しい候補単音節を誤って除外してしまった可能性が高いことを意味する。

したがって、請求項３に記載のように、過去３回以前に実行した報知処理によって報知した候補単音節は除外しないようにすれば、上述したような二度と正しい候補単音節が報知されなくなってしまという不都合を防止することができる。

なお、この所定回数は、上述した通り実験的には３回が最適であるが、音声認識装置が用いられる環境や話者の話し方（くせ）等の要因により、稀ではあるが変更したほうが良い場合も考えられる。そのため、請求項４に記載のように、制御手段は、受付手段が受け付けた話者の操作に基づいて所定回数を変更するようになっているとよい。このようになっていれば、音声認識装置が用いられる環境や話者の話し方（くせ）等に合わせて話者が所定回数を変更することができる。

ところで、請求項５に記載のような、請求項１〜請求項４の何れかに記載の音声認識装置における音声認識手段及び制御手段の少なくとも一方として機能させるプログラムを、音声認識装置が内蔵するコンピュータに実行させるようになっていてもよい。このようになっていれば、例えば、フレキシブルディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ハードディスク、ＲＯＭ、ＲＡＭ等のコンピュータが読みとり可能な記録媒体にプログラムを記録し、そのプログラムを必要に応じてコンピュータにロードして起動することにより音声認識装置における音声認識手段及び制御手段の少なくとも一方として機能させることができる。また、プログラムはネットワーク等を用いて流通させることも可能であるため、音声認識装置の機能向上も容易である。

ところで、音声認識装置は、請求項６に記載のように、ナビゲーション装置と連携するようになっており、音声認識装置が得る単音節群をナビゲーション装置がナビゲーション処理を実行する際に用いるようになっているとよい。ここで言うナビゲーション処理というのは、例えば、地図を表示させて更にその地図上に現在地を表示させる処理や、設定された経路にしたがって経路案内を実行する経路案内処理等である。

このようになっていれば、ナビゲーション処理において利用者が行う各種操作を音声によって行うことができるようになり、ナビゲーション処理の使い勝手が向上する。

以下、本発明が適用された実施例について図面を用いて説明する。尚、本発明の実施の形態は、下記の実施例に何ら限定されることはなく、本発明の技術的範囲に属する限り種々の形態を採りうる。

［第１実施例］
図１は、音声認識機能を有するナビゲーション装置２０の構成を示すブロック図である。ナビゲーション装置２０は車両に搭載され、車両の現在位置を検出する位置検出器２１と、ユーザーからの各種指示を入力するための操作スイッチ群２２と、操作スイッチ群２２と同様に各種指示を入力可能であってナビゲーション装置２０とは別体となったリモートコントロール端末（以下、リモコンと称す）２３ａと、リモコン２３ａからの信号を入力するリモコンセンサ２３ｂと、地図データや各種の情報を記録した地図記憶媒体から地図データ等を入力する地図データ入力器２５と、地図や各種情報の表示を行うための表示部２６と、各種のガイド音声等を出力するための音声出力部２７と、音声を入力して音声情報を出力するマイクロフォン２８と、音声認識関連データを入出力する音声認識関連データ入出力器３０と、車内ＬＡＮと通信を行う車内ＬＡＮ通信部３１と、上述した位置検出器２１，操作スイッチ群２２，リモコンセンサ２３ｂ，地図データ入力器２５，マイクロフォン２８，音声認識関連データ入出力器３０，車内ＬＡＮ通信部３１からの入力に応じて各種処理を実行し、表示部２６，音声出力部２７，音声認識関連データ入出力器３０，車内ＬＡＮ通信部３１を制御する制御部２９とを備えている。

位置検出器２１は、ＧＰＳ（Global Positioning System）用の人工衛星からの送信電波をＧＰＳアンテナを介して受信し、車両の位置，方位，速度等を検出するＧＰＳ受信機２１ａと、車両に加えられる回転運動の大きさを検出するジャイロスコープ２１ｂと、車両の前後方向の加速度等から走行した距離を検出するための距離センサ２１ｃと、地磁気から進行方位を検出するための地磁気センサ２１ｄとを備えている。そして、これら各センサ等２１ａ〜２１ｄは、各々が性質の異なる誤差を有しているため、互いに補完しながら使用するように構成されている。

操作スイッチ群２２は、表示部２６の表示面と一体に構成されたタッチパネル及び表示部２６の周囲に設けられたメカニカルなキースイッチ等から構成される。尚、タッチパネルと表示部２６とは積層一体化されており、タッチパネルには、感圧方式，電磁誘導方式，静電容量方式，あるいはこれらを組み合わせた方式など各種の方式があるが、その何れを用いてもよい。

地図データ入力器２５は、図示しない地図記憶媒体に記憶された各種データを入力するための装置である。地図記憶媒体には、地図データ（道路データ、地形データ、マークデータ、交差点データ、施設のデータ等）、案内用の音声データ、音声認識データ等が記憶されている。このようなデータを記憶する地図記憶媒体の種類としては、ＣＤ−ＲＯＭやＤＶＤ等が一般的であるが、ハードディスクなどの磁気記憶装置やメモリカード等の媒体を用いても良い。

表示部２６は、カラー表示装置であり、液晶ディスプレイ，有機ＥＬディスプレイ，ＣＲＴなどがあるが、その何れを用いてもよい。表示部２６の表示画面には、位置検出器２１にて検出した車両の現在位置と地図データ入力器２５より入力された地図データとから特定した現在地を示すマーク、目的地までの誘導経路、名称、目印、各種施設のマーク等の付加データとを重ねて表示することができる。また、施設のガイド等も表示できる。

音声出力部２７は、地図データ入力器２５より入力した施設のガイドや各種案内の音声を出力することができる。
マイクロフォン２８は、利用者が音声を入力（発話）するとその入力した音声に基づく電気信号（音声信号）を制御部２９に出力するものである。利用者はこのマイクロフォン２８に様々な音声を入力することにより、ナビゲーション装置２０を操作することができる。

音声認識関連データ入出力器３０は、図示しない音声認識関連データ記憶媒体に記憶された各種データを入出力するための装置である。音声認識関連データ記憶媒体には、単音節を認識するための特徴パラメータ、単音節毎に対応づけられた複数音節からなる単音節認識用特定語によって構成される辞書、単音節毎に対応づけられた複数音節からなる確認用単語によって構成される辞書等を記憶されている。このようなデータを記憶する地図記憶媒体の種類としては、ハードディスクなどの磁気記憶装置やメモリカード等の媒体を用いると良い。

車内ＬＡＮ通信部３１は、車内ＬＡＮに接続され、その車内ＬＡＮに接続された各種ＥＣＵと通信を行うことができる。なお、車内ＬＡＮとしては、例えばＣＡＮ（Control Aria Network）が想定され、各種ＥＣＵの１つとしては、エンジンＥＣＵやＡＴ−ＥＣＵやボデーＥＣＵが想定される。

制御部２９は、ＣＰＵ，ＲＯＭ，ＲＡＭ，Ｉ／Ｏ及びこれらの構成を接続するバスラインなどからなる周知のマイクロコンピュータを中心に構成されており、ＲＯＭ及びＲＡＭに記憶されたプログラムに基づいて各種処理を実行する。例えば、位置検出器２１からの各検出信号に基づき座標及び進行方向の組として車両の現在位置を算出し、地図データ入力器２５を介して読み込んだ現在位置付近の地図等を表示部２６に表示する表示処理や、地図データ入力器２５に格納された地点データと、操作スイッチ群２２やリモコン２３ａ等の操作に従って設定された目的地とに基づいて、現在位置から目的地までの最適な経路を算出し、その算出した経路を案内する経路案内処理を行う。また、制御部２９は後述する音声認識処理を実行することができる。

ここまででナビゲーション装置２０の概略構成を説明したが、ナビゲーション装置２０の各部と特許請求の範囲に記載の用語との対応を示す。マイクロフォン２８が音声入力手段に相当し、音声出力部２７が報知手段に相当し、表示部２６が報知手段に相当し、操作スイッチ群２２及びリモコン２３ａが受付手段に相当し、制御部２９が音声認識手段及び制御手段に相当する。

次に制御部２９で実行される処理のうち、経路案内処理に先立って目的地等の名称を入力する際等に実行される音声認識処理１について図２のフローチャートを用いて説明する。音声認識処理１は、ナビゲーション装置２０への情報入力の際に音声入力が可能な状態で利用者が特に指示した際に実行が開始される。

制御部２９は実行を開始すると、まず、操作スイッチ群２２又はリモコン２３ａに設けられたトークＳＷが利用者によって押下されたか否かによって処理を分岐する（Ｓ１１０）。トークＳＷが利用者によって押下された場合は次の処理ステップに進み、そうでなければ本ステップにとどまる。

続くＳ１１５では、確認音（例えば「ピッ」という電子音や「音声を入力して下さい」という案内音声）を音声出力部２７に出力させる。
続くＳ１２０では、マイクロフォン２８を介して利用者の音声を入力する。

続くＳ１２５では、Ｓ１２０で入力した音声を分析（特徴パラメータ等を抽出）し、音声認識関連データ入出力器３０を介して取得した単音節の特徴パラメータ等と比較して候補単音節を候補順を付けて複数選択する。

続くＳ１３０では、Ｓ１２５で選択した候補単音節のうち、除外バッファ内にある候補単音節を除く。この除外バッファというのは制御部２９内に存在し、除外指定された候補単音節を３つ記憶することができるバッファである。なお、除外バッファは音声認識処理１の実行開始時に初期化される。

続くＳ１３５では、候補単音節のうち、最も候補順の高い候補単音節を表示部２６に表示させたり、音声出力部２７に音声出力させたりして報知する。
続いて、操作スイッチ群２２又はリモコン２３ａに設けられた確定ＳＷ（上述したトークＳＷと共用するようになっていても良い）が利用者によって押下されたか否か、又は利用者によって更に音声が入力されたかによって否かによって処理を分岐する（Ｓ１４０）。確定ＳＷが利用者によって押下された場合はＳ１４５に進み、確定ＳＷが利用者に操作されることなく、利用者によって更に音声が入力された場合はＳ１５０に進む。

Ｓ１４５では、Ｓ１３５で報知した候補単音節を確定単音節として確定し、既に確定した確定単音節群の最後に付加する。そして、除外バッファを初期化する（Ｓ１５３）。そして、除外バッファを初期化すると、操作スイッチ群２２又はリモコン２３ａに設けられた終了ＳＷが利用者によって操作されたか否かによって処理を分岐する（Ｓ１５５）。利用者によって終了ＳＷが操作された場合には本処理（音声認識処理１）を終了し、利用者によって終了ＳＷが操作されることがなければ、上述したＳ１１５に処理を戻す。

一方、Ｓ１５０では、Ｓ１３５で報知した候補単音節を除外バッファに入れる。この際、除外バッファの中に既に候補単音節が３つある場合は、最も過去に除外バッファに入れた候補単音節を消去し、新たにＳ１３５で報知した候補単音節を除外バッファに入れる。そして、上述したＳ１２５に処理を戻す。

なお、便宜的（説明を簡略化するため）に、終了ＳＷが操作されたか否かを判定するステップ（Ｓ１５５）でのみ、終了ＳＷの操作による音声認識処理１を終了するようになっているが、何れのステップにおいても、終了ＳＷが操作された際は直ちに音声認識処理１を終了するようになっている。また、音声の入力ステップ（Ｓ１２０，Ｓ１４０）や利用者の操作待ちステップ（Ｓ１４０）においてに、所定時間（例えば３０秒）、音声の入力や利用者の操作がなかった場合も、音声認識処理１を終了するようになっている。

ここまでで音声認識処理１について説明したが、このようにして確定した確定単音節群は、経路案内処理の際の目的地の名称として利用したり、施設の名称として利用したりする。

このようなナビゲーション装置２０によれば、利用者は発話した単音節が正しく認識された場合のみ操作を行い単音節を確定させ、正しく認識されていない場合には何ら操作なく正しく認識されるまで続けて単音節を発話することができる。このため利用者は、認識が正しくなされなかった場合に何度も再入力指示をすることなく、続けて再発話するだけでよい。つまり、使い勝手が良い。

また、除外バッファに記憶されている候補単音節は、再発話によって新たに選択された候補単音節から除外するようになっているため、再発話の際に再び前回と同じ不適切な候補単音節が報知されることがなくなり、利用者にとって使い勝手が良い。

なお、上述した除外バッファが候補単音節を３つだけ記憶することができるように構成した理由を説明する。
本願発明者らは次のような実験を行った。その実験は、停止した車室内において２０代から６０代までの各代の男女各２名（つまり計２０名）が、１人ずつ１０回繰り返し発話することを３度行う実験である。そしてその実験結果に基づいて、話者による入力回数を横軸とし、その入力回数までに正しい単音節が認識された確率を縦軸に示したグラフが図９に示すものである。このグラフからわかるように、３回目以降は、ほぼ認識率が一定になり（３回目は認識率９６％、４回目は認識率９８％、５回目は認識率９８％）、それ以降はほとんど変化がない。つまり、４回以上発話回数を重ねてもそれ以降に正しい候補単音節が報知されるということはほとんどない。つまり、ほとんどの場合、再発話回数３回時点までに正しい単音節が一度は報知されていることを意味し、再発話回数が３回になった場合には、話者が正しい候補単音節を誤って除外してしまった可能性が高いことを意味する。したがって、再発話回数が３回になった時には、一番はじめに認識されたものを再び認識候補として報知可能にするとよい。

このようになっていれば、候補単音節が報知されたにもかかわらず、利用者が間違えて再発話してしまった場合でも、除外された候補単音節が適切なタイミングで再び報知され得る状態に戻るため、二度と正しい候補単音節が報知されなくなってしまという不都合を防止することができる。

［第２実施例］
次に、第２実施例について説明する。第２実施例の音声認識機能を有するナビゲーション装置は、上述した第１実施例のナビゲーション装置２０と同様の構成を有するため、相違点についてのみ説明する。主な相違点は、制御部２９で実行される音声認識処理にある。以下、制御部２９で実行される音声認識処理２について図３のフローチャートを用いて説明する。

音声認識処理２は、ナビゲーション装置２０への情報入力の際に音声入力が可能な状態で利用者が特に指示した際に実行が開始される。
制御部２９は実行を開始すると、まず、操作スイッチ群２２又はリモコン２３ａに設けられたトークＳＷが利用者によって押下されたか否かによって処理を分岐する（Ｓ２１０）。トークＳＷが利用者によって押下された場合は次の処理ステップに進み、そうでなければ本ステップにとどまる。

続くＳ２１５では、確認音（例えば「ピッ」という電子音や「音声を入力して下さい」という案内音声）を音声出力部２７に出力させる。
続くＳ２２０では、マイクロフォン２８を介して利用者の音声を入力する。

続くＳ２２５では、Ｓ２２０で入力した音声を分析（特徴パラメータ等を抽出）し、音声認識関連データ入出力器３０を介して取得した単音節の特徴パラメータ等と比較して候補単音節を候補順を付けて複数選択する。また、Ｓ２２０で入力した音声が単音節ではなかった場合は、確定を意味する確定語（「次」や「次へ」や「次は」等）であるか否かを判断する。

続くＳ２３０では、Ｓ２２０で入力された音声が確定を意味する確定語であったか否かによって処理を分岐する。Ｓ２２０で入力された音声が確定語であった場合はＳ２５０に進み、Ｓ２２０で入力された音声が確定語でなければＳ２３５に進む。

Ｓ２３５では、Ｓ２２５で選択した候補単音節のうち、除外バッファ内にある候補単音節を除く。この除外バッファというのは制御部２９内に存在し、除外指定された候補単音節を３つ記憶することができるバッファである。なお、除外バッファは音声認識処理２の実行開始時に初期化される。

そしてＳ２４０では、候補単音節のうち、最も候補順の高い候補単音節を表示部２６に表示させたり、音声出力部２７に音声出力させたりして報知する。
そしてＳ２４５では、Ｓ２４０で報知した候補単音節を除外バッファに入れる。この際、除外バッファの中に既に候補単音節が３つある場合は、最も過去に除外バッファに入れた候補単音節を消去し、新たにＳ２４０で報知した候補単音節を除外バッファに入れる。そして、上述したＳ２２０に処理を戻す。

一方、Ｓ２３０において、Ｓ２２０で入力された音声が確定語であるとして進むＳ２５０では、前回報知した候補単音節を確定単音節として確定し、既に確定した確定単音節群の最後に付加する。そして、除外バッファを初期化する（Ｓ２５３）。そして、除外バッファを初期化すると、操作スイッチ群２２又はリモコン２３ａに設けられた終了ＳＷが利用者によって操作されたか否かによって処理を分岐する（Ｓ２５５）。利用者によって終了ＳＷが操作された場合には本処理（音声認識処理２）を終了し、利用者によって終了ＳＷが操作されることがなければ上述したＳ２１５に処理を戻す。

なお、便宜的（説明を簡略化するため）に、終了ＳＷが操作されたか否かを判定するステップ（Ｓ２５５）でのみ、終了ＳＷの操作による音声認識処理２を終了するようになっているが、何れのステップにおいても、終了ＳＷが操作された際は直ちに音声認識処理２を終了するようになっている。また、音声の入力ステップ（Ｓ２２０）において、所定時間（例えば３０秒）、音声の入力がなかった場合も、音声認識処理２を終了するようになっている。

ここまでで音声認識処理２について説明したが、このようにして確定した確定単音節群は、経路案内処理の際の目的地の名称として利用したり、施設の名称として利用したりする。

このようなナビゲーション装置２０によれば、利用者は発話した単音節が正しく認識された場合のみ確定語（「次へ」）を発話して単音節を確定させ、正しく認識されていない場合には何ら特別な操作や発話することなく正しく認識されるまで認識させたい単音節を続けて発話することができる。このため利用者は、認識が正しくなされなかった場合に何度も再入力指示をすることなく、続けて再発話するだけでよい。つまり、使い勝手がよい。

［第１参考例］
次に、第１参考例について説明する。第１参考例の音声認識機能を有するナビゲーション装置は、上述した第１実施例のナビゲーション装置２０と同様の構成を有するため、相違点についてのみ説明する。主な相違点は、制御部２９で実行される音声認識処理にある。以下、制御部２９で実行される音声認識処理３について図４のフローチャートを用いて説明する。

制御部２９は実行を開始すると、まず、操作スイッチ群２２又はリモコン２３ａに設けられたトークＳＷが利用者によって押下されたか否かによって処理を分岐する（Ｓ３１０）。トークＳＷが利用者によって押下された場合は次の処理ステップに進み、そうでなければ本ステップにとどまる。

続くＳ３１５では、確認音（例えば「ピッ」という電子音や「音声を入力して下さい」という案内音声）を音声出力部２７に出力させる。
続くＳ３２０では、マイクロフォン２８を介して利用者の音声を入力する。

続くＳ３２５では、Ｓ３２０で入力した音声を分析（特徴パラメータ等を抽出）し、音声認識関連データ入出力器３０を介して取得した単音節の特徴パラメータ等と比較して候補単音節を３つ選択する。

続くＳ３３０では、車内ＬＡＮ通信部３１を介して図示しないエンジンＥＣＵから車速情報を取得し、車両が走行中であるか否かによって処理を分岐する。車両が走行中であればＳ３３５に進み、車両が走行中でなければＳ３４０に進む。

Ｓ３３５では、Ｓ３２５で選択した候補単音節を表示部２６に表示領域内で最も大きなオブジェクト群として並べて表示させる。この表示の一例を図６に示す。図６に示すように、画面１００には、候補単音節オブジェクト１０１〜１０３が表示領域内の大部分を占めるように並べて表示されている。そして、候補単音節オブジェクト１０１よりも広い領域に点線（実際は表示されない、以下同様）で示す操作特定範囲１０４が設定されている。この操作特定範囲１０４は、利用者が操作特定範囲１０４をタッチした際に制御部２９が、候補単音節オブジェクト１０１が利用者によって選択されたと認識する範囲である。同様に、候補単音節オブジェクト１０２には操作特定範囲１０５が設定され、候補単音節オブジェクト１０３には操作特定範囲１０６が設定されている。

図４に戻り、一方Ｓ３４０では、表示部２６に５０音表を表示させ、更に、Ｓ３２５で選択した候補単音節のオブジェクトの枠を変える。この表示の一例を図７に示す。図７に示すように、画面１１１には、５０音一覧形式で各単音節がオブジェクトとして並べられ、その中でも「あ」，「は」，「ま」の候補単音節オブジェクト１１２〜１１４だけは、他の単音節オブジェクトの枠と異なる枠の太さ及び色となっている。

図４に戻り、続くＳ３４５では、表示部２６の表面と一体に構成されたタッチパネルから出力された信号に基づき、利用者によって何れかのオブジェクトが選択されたか否かによって処理を分岐する。利用者によって何れかのオブジェクトが選択された場合はＳ３５０に進み、利用者によって何れのオブジェクトも選択されることがなければ（例えば３０秒間）、上述したＳ３２０に処理を戻す。

利用者によって何れかのオブジェクトが選択された場合に進むＳ３５０では、選択されたオブジェクトに対応する候補単音節を確定単音節として決定し、既に決定済みの確定単音節群の最後に加える。なお、ここで言う「選択されたオブジェクト」というのは、上記Ｓ３４０で説明した表示（図７参照）を行った場合は、候補単音節のオブジェクトに限らず、利用者によって選択された単音節のオブジェクトの何れも対象とする。

続くＳ３５５では、操作スイッチ群２２又はリモコン２３ａに設けられた終了ＳＷが利用者によって操作されたか否かによって処理を分岐する。利用者によって終了ＳＷが操作された場合には本処理（音声認識処理３）を終了し、利用者によって終了ＳＷが操作されることがなければ、上述したＳ３１５に処理を戻す。

なお、便宜的（説明を簡略化するため）に、終了ＳＷが操作されたか否かを判定するステップ（Ｓ３５５）でのみ、終了ＳＷの操作による音声認識処理３を終了するようになっているが、何れのステップにおいても、終了ＳＷが操作された際は直ちに音声認識処理３を終了するようになっている。また、音声の入力ステップ（Ｓ３２０）において、所定時間（例えば３０秒）、音声の入力がなかった場合も、音声認識処理３を終了するようになっている。

ここまでで音声認識処理３について説明したが、このようにして確定した確定単音節群は、経路案内処理の際の目的地の名称として利用したり、施設の名称として利用したりする。

このようなナビゲーション装置２０によれば、車両が走行中の場合は、候補単音節が表示部２６の表示領域内で最も大きなオブジェクト群として並べて表示されているため、利用者は一瞥して候補単音節を確認することができる。その結果、利用者はスムーズに単音節を確定することができる。また、その場合、表示部２６の表示領域における各オブジェクトの占める表示範囲よりも、センサが感知した位置によって各オブジェクトを特定する特定範囲の方が広く扱うようになっているため、利用者はオブジェクトが表示された位置を正確にタッチする必要がなくなる。したがって、利用者が運転中であっても、利用者は所望の候補単音節を選択しやすい。

一方、車両が停止中の場合は、利用者は候補単音節以外の単音節も選択することができるため、より素早く単音節を確定することができる。
［第２参考例］
次に、第２参考例について説明する。第２参考例の音声認識機能を有するナビゲーション装置は、上述した第１実施例のナビゲーション装置２０と同様の構成を有するため、相違点についてのみ説明する。主な相違点は、制御部２９で実行される音声認識処理にある。以下、制御部２９で実行される音声認識処理４について図５のフローチャートを用いて説明する。

制御部２９は実行を開始すると、まず、操作スイッチ群２２又はリモコン２３ａに設けられたトークＳＷが利用者によって押下されたか否かによって処理を分岐する（Ｓ４１０）。トークＳＷが利用者によって押下された場合は次の処理ステップに進み、そうでなければ本ステップにとどまる。

続くＳ４１５では、確認音（例えば「ピッ」という電子音や「音声を入力して下さい」という案内音声）を音声出力部２７に出力させる。
続くＳ４２０では、マイクロフォン２８を介して利用者の音声を入力する。

続くＳ４２５では、Ｓ３２０で入力した音声を分析（特徴パラメータ等を抽出）し、音声認識関連データ入出力器３０を介して取得した単音節の特徴パラメータ等と比較して候補単音節を３つ選択する。

Ｓ４３５では、Ｓ４２５で選択した候補単音節に対応する確認用単語を、表示部２６の表示領域内にオブジェクト群として並べて表示させると共に音声出力部２７を介して音声として順に報知する。ここで言う確認用単語というのは、音声認識関連データ入出力器３０を介して取得できるものであり、各単音節に対応してその単音節を先頭に含む単語である。具体的には、例えば、単音節「あ」に対して確認用単語「あさひ」、単音節「は」に対して確認用単語「はがき」、単音節「ま」に対して「まつり」等である。この表示の一例を図８に示す。図８に示すように、画面１２１には、確認用単語オブジェクト１２２，１２３，１２４が表示領域内の大部分を占めるように並べて表示されている。そして、利用者が確認用単語オブジェクト１２２〜１２４の何れかをタッチした際には、制御部２９はタッチされた確認用単語オブジェクトが何れであるかを認識できるようになっている。

図５に戻り、Ｓ４４０では、マイクロフォン２８を介して利用者の音声を入力する。そして、Ｓ４４０で入力した音声を分析（特徴パラメータ等を抽出）し、Ｓ４３５で表示部２６に表示させた確認用単語の何れであるかの特定を試みる（Ｓ４４５）。

続くＳ４５０では、Ｓ４３５で表示部２６に表示させた確認用単語の何れであるかを特定できた場合はＳ４５５に進み、特定できなかった場合はＳ４２０に処理を戻す。
Ｓ４５５では、特定できた確認用単語に対応する候補単音節を確定単音節として、既に確定済みの確定単音節群の最後に加える。

続くＳ４６０では、操作スイッチ群２２又はリモコン２３ａに設けられた終了ＳＷが利用者によって操作されたか否かによって処理を分岐する。利用者によって終了ＳＷが操作された場合には本処理（音声認識処理４）を終了し、利用者によって終了ＳＷが操作されることがなければ、上述したＳ４１５に処理を戻す。

なお、便宜的（説明を簡略化するため）に、終了ＳＷが操作されたか否かを判定するステップ（Ｓ４６０）でのみ、終了ＳＷの操作による音声認識処理４を終了するようになっているが、何れのステップにおいても、終了ＳＷが操作された際は直ちに音声認識処理３を終了するようになっている。また、音声の入力ステップ（Ｓ４２０，Ｓ４４０）において、所定時間（例えば３０秒）、音声の入力がなかった場合も、音声認識処理４を終了するようになっている。

ここまでで音声認識処理４について説明したが、このようにして確定した確定単音節群は、経路案内処理の際の目的地の名称として利用したり、施設の名称として利用したりする。

このようなナビゲーション装置２０によれば、候補単音節を、確認用単語を用いて利用者に報知するようになっているため、利用者は単音節で報知されるよりも把握しやすい。また、候補の中から音声にて選択する際もその確認用単語を用いて選択できるため、選択を音声にて行った場合でも認識率が高い。

以下、他の参考例について述べる。
（１）上記参考例では、利用者は基本的に音声入力を単音節で行うようになっていたが、単音節に対応づけられた複数音節からなる単音節認識用特定語によって入力するようになっていてもよい。その場合、ナビゲーション装置２０は、音声認識関連データ入出力器３０を介して入力した音声認識関連データに基づいて、入力された単音節認識用特定語に対応する単音節を特定するようになっていればよい。そして、予め、様々なジャンル等によって分けられた単音節認識用特定語の辞書を音声認識関連データ記憶媒体に記憶させておき、利用者がその辞書を選択できるようになっていれば、利用者の好みによって辞書を選択できるため利用者は単音節認識用特定語を早く記憶して使いこなせるようになる。なお、この単音節認識用特定語は、利用者が登録できるようになっていると、さらに利用者は単音節認識用特定語を早く記憶して使いこなせるようになる。

（２）また、ナビゲーション装置２０は、音声を分析する際の手法として、入力した同一単音節からなる繰り返し音声を単音節毎の音声に分け、その各音声に基づいて利用者の意図する単音節を一つ決定するようになっていてもよい。つまり、利用者は単音節を連続して発話（例えば「あああ」）すると、「あ」という単音節が認識される。このようになっていれば、単に「あ」と利用者が発話する場合と比べ認識手がかりが増えるため認識率も向上する。

（３）また、ナビゲーション装置２０は、音声を分析する際の手法として、入力した単音節の音声が濁音、拗音、促音又は半濁音の何れかであった場合、その濁音、拗音、促音又は半濁音に対応する清音を利用者の意図する単音節として決定するようになっていてもよい。そして、その場合は更に入力した音声が、例えば、予め定められた濁音を意味する特定語であれば、直前に決定した単音節を対応する濁音の単音節に変更しするようになっているとよい。また、予め定められた拗音を意味する特定語であれば、直前に決定した単音節を対応する拗音の単音節に変更しするようになっているとよい。促音及び半濁音についても同様である。なお、ここで言う「清音」というのは、濁音、拗音、促音及び半濁音を除いた４５個（通常）の基本単音節群を意味する。

一般的に、ある単音節における濁音と濁音でないものを認識することは、異なる単音節同士を認識することよりも難しい。したがって、濁音と濁音でないものをひとくくりに認識し、後から濁音や拗音のものに変更するようになっていれば、認識率が向上する。後から変更するというのは、例えば、「てんてん」と利用者によって音声が入力された場合に直前に入力された単音節を濁音に変更するようにすればよい。拗音、促音及び半濁音についても同様である。

（４）また、ナビゲーション装置２０は、音声を分析する際の手法として、入力したローマ字読み音声に対応する単音節認識特定語の組み合わせに基づいて利用者の意図する単音節として決定するようになっていてもよい。具体例を挙げると、例えば「ケイ」（Ｋ）、「エイ」（Ａ）と利用者が入力すれば「か」と認識し、「ケイ」（Ｋ）、「アイ」（Ｉ）と利用者が発話すると「き」と認識するナビゲーション装置である。また、５０音表の行番号と列番号とに対応させて「イチ」（１）、「イチ」（１）と話者が発声すると「あ」と認識するようになっていてもよい。

このような音声認識装置は、認識対象の音声長及び音声数が増えるため、認識率が向上する。また、単音節全てに対して単音節認識用特定語を用意する必要がないため（上述した例の通り「ケイ」をカ行の全単音節を認識する際に利用できるため）、辞書の容量が削減されると共に、利用者も覚える単音節認識用特定語が減り使い勝手が向上する。

（５）また、ナビゲーション装置２０は、音声を入力した際にその音声が音声認識処理の終了を意味する単語（例えば「終了」、「完了」等）であった場合は、音声認識処理を終了するようになっているとよい。このようになっていれば、利用者は発話によっても音声認識処理を終了することができるため、使い勝手が向上する。

（６）上記第２参考例では、候補単音節そのものを報知する代わりに確認用単語を報知するようになっていたが、予め、様々なジャンル等によって分けられた確認用単語の辞書を音声認識関連データ記憶媒体に記憶させておき、利用者がその辞書を選択できるようになっていれば、利用者の好みによって辞書を選択できるため利用者は自分の好みの確認用単語を利用することができる。また、更に確認用単語を利用者が登録できるようになっていると、さらに利用者は自分の好みの確認用単語を利用することができる。

ナビゲーション装置の概略構成図である。音声認識処理１を説明するためのフローチャートである。音声認識処理２を説明するためのフローチャートである。音声認識処理３を説明するためのフローチャートである。音声認識処理４を説明するためのフローチャートである。画面イメージである。画面イメージである。画面イメージである。入力回数による認識率の変化を示すグラフである。

符号の説明

２０…ナビゲーション装置、２１…位置検出器、２１ａ…ＧＰＳ受信機、２１ｂ…ジャイロスコープ、２１ｃ…距離センサ、２１ｄ…地磁気センサ、２２…操作スイッチ群、２３ａ…リモコン、２３ｂ…リモコンセンサ、２５…地図データ入力器、２６…表示部、２７…音声出力部、２８…マイクロフォン、２９…制御部、３０…音声認識関連データ入出力器、３１…車内ＬＡＮ通信部。

Claims

話者の発声した音声を入力する音声入力手段と、
前記入力手段が入力した音声を分析して候補単音節を特定する音声認識手段と、
指定された情報を報知する報知手段と、
話者の操作を受け付ける受付手段と、
前記音声認識手段が特定した候補単音節の中で最も尤度が高い候補単音節を前記報知手段に報知させる報知処理を実行し、話者より決定を意味する操作を前記受付手段が受け付けた場合は直前の前記報知処理の際に報知させた前記候補単音節を話者の意図する単音節として確定する確定処理を実行し、話者から新たな音声が前記音声入力手段に入力されて前記音声認識手段が候補単音節を特定した場合は前記報知処理の実行に戻ると共に、前記確定処理を実行することなく前記報知処理を連続して２回以上実行する場合、前記報知処理によって過去に報知した前記候補単音節を報知する候補単音節から除外して最も尤度の高い前記候補単音節を前記報知手段に報知させる制御手段と、
を備え、話者によって入力された音声に基づいて話者の意図する単音節を決定する音声認識装置において、
前記制御手段は、前記除外について、前記確定処理を実行することなく繰り返し実行した前記報知処理のうち直前を除く所定回数以前に実行した前記報知処理によって報知した候補単音節は除外しないことを特徴とする音声認識装置。
話者の発声した音声を入力する音声入力手段と、
前記入力手段が入力した音声を分析して候補単音節を特定すると共に確定を意味する確定語を認識する音声認識手段と、
指定された情報を報知する報知手段と、
前記音声認識手段が特定した候補単音節の中で最も尤度が高い候補単音節を前記報知手段に報知させる報知処理を実行し、話者から新たな音声が前記音声入力手段に入力されて前記音声認識手段が前記確定語を認識した場合は直前の前記報知処理の際に報知させた前記候補単音節を話者の意図する単音節として確定する確定処理を実行し、話者から新たな音声が前記音声入力手段に入力されて前記音声認識手段が候補単音節を特定した場合は前記報知処理の実行に戻ると共に、前記確定処理を実行することなく前記報知処理を連続して２回以上実行する場合、前記報知処理によって過去に報知した前記候補単音節を報知する候補単音節から除外して最も尤度の高い前記候補単音節を前記報知手段に報知させる制御手段と、
を備え、話者によって入力された音声に基づいて話者の意図する単音節を決定する音声認識装置において、
前記制御手段は、前記除外について、前記確定処理を実行することなく繰り返し実行した前記報知処理のうち直前を除く所定回数以前に実行した前記報知処理によって報知した候補単音節は除外しないことを特徴とする音声認識装置。
請求項１又は請求項２に記載の音声認識装置において、
前記所定回数は、３回であることを特徴とする音声認識装置。
請求項１〜請求項３の何れかに記載の音声認識装置において、
更に、話者の操作を受け付ける受付手段を備えていなければ備え、
前記制御手段は、前記受付手段が受け付けた話者の操作に基づいて前記所定回数を変更することを特徴とする音声認識装置。
コンピュータを、請求項１〜請求項４の何れかに記載の音声認識装置における音声認識手段又は制御手段の少なくとも一方として機能させるためのプログラム。
所定のナビゲーション処理を実行するナビゲーション装置であって、
請求項１〜請求項４の何れかに記載の音声認識装置を備え、その音声認識装置によって得られた話者の意図する単音節群を前記ナビゲーション処理に用いることを特徴とするナビゲーション装置。