JP4453377B2 - 音声認識装置、プログラム及びナビゲーション装置 - Google Patents

音声認識装置、プログラム及びナビゲーション装置 Download PDF

Info

Publication number
JP4453377B2
JP4453377B2 JP2004023881A JP2004023881A JP4453377B2 JP 4453377 B2 JP4453377 B2 JP 4453377B2 JP 2004023881 A JP2004023881 A JP 2004023881A JP 2004023881 A JP2004023881 A JP 2004023881A JP 4453377 B2 JP4453377 B2 JP 4453377B2
Authority
JP
Japan
Prior art keywords
single syllable
means
candidate
voice
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004023881A
Other languages
English (en)
Other versions
JP2005215474A (ja
Inventor
誠 坂井
邦雄 横井
雅彦 立石
一郎 赤堀
竜一 鈴木
聖史 鈴木
Original Assignee
株式会社デンソー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社デンソー filed Critical 株式会社デンソー
Priority to JP2004023881A priority Critical patent/JP4453377B2/ja
Publication of JP2005215474A publication Critical patent/JP2005215474A/ja
Application granted granted Critical
Publication of JP4453377B2 publication Critical patent/JP4453377B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0968Systems involving transmission of navigation instructions to the vehicle
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Description

本発明は、話者によって入力された音声に基づいて、話者の意図する単音節を決定する音声認識装置等に関する。

話者によって入力された音声に基づいて、話者の意図する単音節を一単音節ずつ決定する音声認識装置が広く知られている。このようなタイプの音声認識装置は、単語(複数の単音節からなる語)単位の音声認識を行う音声認識装置のように音声認識を行う単語全てに対応する単語辞書を予め備えている必要がないため、最終的な認識結果の集合(例えば文)としては事実上、どのようなものでも認識させることができるという利点がある。

しかし、単音節の音声を認識する場合は、単語単位の音声認識に比較して認識手がかりが少ないため、一般的に認識率が低い。そのため、このような単音節の音声を認識する音声認識装置では、より認識精度を向上させるために様々な工夫が施されている。例えば、話者が発話方法を工夫して入力することにより認識精度を向上させるようになっていたり、音声認識装置が認識した単音節を音声出力(トークバック)することにより話者に確認させて最終的な認識精度を向上させるようになっている。

ここで前者の方法について採り上げる。特許文献1に示す音声認識装置は、話者が例えば「あいうえおのあ」と入力することによって単音節の音声「あ」を認識するものである。このように話者が単音節よりも長い単音節認識用特定語を入力することにより、単に単音節を入力する場合と比較して音声認識装置の認識精度を向上させることができる。
特開平11−184495号公報

ところが、このような音声認識手法を用いた音声認識装置であっても、話者の話し方(いわゆる癖)や発話時の騒音環境等により、誤認識を完全に防ぐことは難しいのが実情である。また、単音節の音声を認識する音声認識装置の場合は、話者が一音節一音節毎に修正や確定を行う必要があり、誤認識があると更に話者に手間をかけさせるといった問題がある。

本発明は、このような問題に鑑みなされたものであり、話者にとってできるだけ使い勝手の良い音声認識装置等を提供することを目的とする。

上記課題を解決するためになされた請求項1に記載の音声認識装置は、音声入力手段と、音声認識手段と、受付手段と、制御手段とを備える。音声入力手段は話者の発声した音声を入力し、音声認識手段は入力手段が入力した音声を分析して候補単音節を特定し、報知手段は指定された情報を報知し、受付手段は話者の操作を受け付ける。また、制御手段は、音声認識手段が特定した候補単音節の中で最も尤度が高い候補単音節を報知手段に報知させる報知処理を実行し、話者より決定を意味する操作を受付手段が受け付けた場合は直前の報知処理の際に報知させた候補単音節を話者の意図する単音節として確定する確定処理を実行し、話者から新たな音声が音声入力手段に入力されて音声認識手段が候補単音節を特定した場合は前記報知処理の実行に戻ると共に、確定処理を実行することなく報知処理を連続して2回以上実行する場合、報知処理によって過去に報知した候補単音節を報知する候補単音節から除外して最も尤度の高い候補単音節を報知手段に報知させる。なお、ここで言う候補単音節というのは、字のごとく単音節の候補であり、音声認識手段が特定する候補単音節は1つであってもよいし複数であってもよい。
ここで、本発明の音声認識装置においては、制御手段が、上記の除外について、確定処理を実行することなく繰り返し実行した報知処理のうち直前を除く所定回数以前に実行した報知処理によって報知した候補単音節は除外しないことを要旨とする。

請求項1に記載の音声認識装置によれば、話者は発話した単音節が正しく認識された場合のみ操作を行い単音節を確定させ、正しく認識されていない場合には何ら操作なく正しく認識されるまで続けて単音節を発話することができる。このため話者は、認識が正しくなされなかった場合に何度も再入力指示をすることなく、続けて再発話するだけでよい。つまり、使い勝手が良い。

また、請求項2に記載の音声認識装置は、音声入力手段と、音声認識手段と、報知手段と、制御手段とを備える。音声入力手段は話者の発声した音声を入力し、音声認識手段は入力手段が入力した音声を分析して候補単音節を特定すると共に確定を意味する確定語を認識し、報知手段は指定された情報を報知する。また、制御手段は、音声認識手段が特定した候補単音節の中で最も尤度が高い候補単音節を報知手段に報知させる報知処理を実行し、話者から新たな音声が音声入力手段に入力されて音声認識手段が確定語を認識した場合は直前の報知処理の際に報知させた候補単音節を話者の意図する単音節として確定する確定処理を実行し、話者から新たな音声が音声入力手段に入力されて音声認識手段が候補単音節を特定した場合は報知処理の実行に戻ると共に、確定処理を実行することなく報知処理を連続して2回以上実行する場合、報知処理によって過去に報知した候補単音節を報知する候補単音節から除外して最も尤度の高い候補単音節を報知手段に報知させる。なお、ここで言う候補単音節というのは、字のごとく単音節の候補であり、音声認識手段が特定する候補単音節は1つであってもよいし複数であってもよい。
ここで、本発明の音声認識装置においては、制御手段が、上記の除外について、確定処理を実行することなく繰り返し実行した報知処理のうち直前を除く所定回数以前に実行した報知処理によって報知した候補単音節は除外しないことを要旨とする。

請求項2に記載の音声認識装置によれば、話者は発話した単音節が正しく認識された場合のみ確定語(例えば「次」や「次へ」や「次は」等)を発話して単音節を確定させ、正しく認識されていない場合には何ら特別な操作や発話することなく正しく認識されるまで認識させたい単音節を続けて発話することができる。このため話者は、認識が正しくなされなかった場合に何度も再入力指示をすることなく、続けて再発話するだけでよい。つまり、使い勝手がよい。

ところで、認識された単音節が正しくない場合、話者が再発話した際も再び前回と同じ不適切な候補単音節が報知される可能性がある。このようなこと防止するには、請求項1又は請求項2に記載のように、制御手段が、確定処理を実行することなく報知処理を連続して2回以上実行する場合、報知処理によって過去に報知した候補単音節を報知する候補単音節から除外して最も尤度の高い候補単音節を報知するようになっているとよい。

このようになっていれば、再発話の際に再び前回と同じ不適切な候補単音節が報知されることがなくなり、話者にとって使い勝手が向上する。
しかし、本当は正しい候補単音節が報知されたにもかかわらず、間違えて再発話してしまう場合も考えられる。このように間違えてしまうと、二度と正しい候補単音節が報知されなくなってしまという不都合が生じる。このような不都合が生じることを防止するためには、請求項1又は請求項2に記載のように、所定回数、再発話があった際には、候補単音節の除外を解除するようになっているとよい。つまり、制御手段が、前記除外について、確定処理を実行することなく繰り返し実行した報知処理のうち直前を除く所定回数以前に実行した報知処理によって報知した候補単音節は除外しないようになっているとよい。

なお、この所定回数の最適値としては、請求項に記載のように3回であるとよい。つまり、制御手段が、除外について、確定処理を実行することなく繰り返し実行した報知処理のうち過去3回以前に実行した報知処理によって報知した候補単音節は除外しないようになっているとよい。この数字の根拠は、本願発明者らが行った実験(本実験の詳細は実施の形態の欄で説明)によると、発話回数4回までに正しい候補単音節が報知される確率は98%であり、それ以上発話回数を重ねてもそれ以降に正しい候補単音節が報知されるということはほとんどない。つまり、ほとんどの場合、再発話回数3回時点までに正しい単音節が一度は報知されていることを意味し、再発話回数が3回になった場合には、話者が正しい候補単音節を誤って除外してしまった可能性が高いことを意味する。

したがって、請求項に記載のように、過去3回以前に実行した報知処理によって報知した候補単音節は除外しないようにすれば、上述したような二度と正しい候補単音節が報知されなくなってしまという不都合を防止することができる。

なお、この所定回数は、上述した通り実験的には3回が最適であるが、音声認識装置が用いられる環境や話者の話し方(くせ)等の要因により、稀ではあるが変更したほうが良い場合も考えられる。そのため、請求項に記載のように、制御手段は、受付手段が受け付けた話者の操作に基づいて所定回数を変更するようになっているとよい。このようになっていれば、音声認識装置が用いられる環境や話者の話し方(くせ)等に合わせて話者が所定回数を変更することができる。

ころで、請求項に記載のような、請求項1〜請求項4の何れかに記載の音声認識装置における音声認識手段及び制御手段の少なくとも一方として機能させるプログラムを、音声認識装置が内蔵するコンピュータに実行させるようになっていてもよい。このようになっていれば、例えば、フレキシブルディスク、光磁気ディスク、CD−ROM、ハードディスク、ROM、RAM等のコンピュータが読みとり可能な記録媒体にプログラムを記録し、そのプログラムを必要に応じてコンピュータにロードして起動することにより音声認識装置における音声認識手段及び制御手段の少なくとも一方として機能させることができる。また、プログラムはネットワーク等を用いて流通させることも可能であるため、音声認識装置の機能向上も容易である。

ところで、音声認識装置は、請求項に記載のように、ナビゲーション装置と連携するようになっており、音声認識装置が得る単音節群をナビゲーション装置がナビゲーション処理を実行する際に用いるようになっているとよい。ここで言うナビゲーション処理というのは、例えば、地図を表示させて更にその地図上に現在地を表示させる処理や、設定された経路にしたがって経路案内を実行する経路案内処理等である。

このようになっていれば、ナビゲーション処理において利用者が行う各種操作を音声によって行うことができるようになり、ナビゲーション処理の使い勝手が向上する。

以下、本発明が適用された実施例について図面を用いて説明する。尚、本発明の実施の形態は、下記の実施例に何ら限定されることはなく、本発明の技術的範囲に属する限り種々の形態を採りうる。

[第1実施例]
図1は、音声認識機能を有するナビゲーション装置20の構成を示すブロック図である。ナビゲーション装置20は車両に搭載され、車両の現在位置を検出する位置検出器21と、ユーザーからの各種指示を入力するための操作スイッチ群22と、操作スイッチ群22と同様に各種指示を入力可能であってナビゲーション装置20とは別体となったリモートコントロール端末(以下、リモコンと称す)23aと、リモコン23aからの信号を入力するリモコンセンサ23bと、地図データや各種の情報を記録した地図記憶媒体から地図データ等を入力する地図データ入力器25と、地図や各種情報の表示を行うための表示部26と、各種のガイド音声等を出力するための音声出力部27と、音声を入力して音声情報を出力するマイクロフォン28と、音声認識関連データを入出力する音声認識関連データ入出力器30と、車内LANと通信を行う車内LAN通信部31と、上述した位置検出器21,操作スイッチ群22,リモコンセンサ23b,地図データ入力器25,マイクロフォン28,音声認識関連データ入出力器30,車内LAN通信部31からの入力に応じて各種処理を実行し、表示部26,音声出力部27,音声認識関連データ入出力器30,車内LAN通信部31を制御する制御部29とを備えている。

位置検出器21は、GPS(Global Positioning System)用の人工衛星からの送信電波をGPSアンテナを介して受信し、車両の位置,方位,速度等を検出するGPS受信機21aと、車両に加えられる回転運動の大きさを検出するジャイロスコープ21bと、車両の前後方向の加速度等から走行した距離を検出するための距離センサ21cと、地磁気から進行方位を検出するための地磁気センサ21dとを備えている。そして、これら各センサ等21a〜21dは、各々が性質の異なる誤差を有しているため、互いに補完しながら使用するように構成されている。

操作スイッチ群22は、表示部26の表示面と一体に構成されたタッチパネル及び表示部26の周囲に設けられたメカニカルなキースイッチ等から構成される。尚、タッチパネルと表示部26とは積層一体化されており、タッチパネルには、感圧方式,電磁誘導方式,静電容量方式,あるいはこれらを組み合わせた方式など各種の方式があるが、その何れを用いてもよい。

地図データ入力器25は、図示しない地図記憶媒体に記憶された各種データを入力するための装置である。地図記憶媒体には、地図データ(道路データ、地形データ、マークデータ、交差点データ、施設のデータ等)、案内用の音声データ、音声認識データ等が記憶されている。このようなデータを記憶する地図記憶媒体の種類としては、CD−ROMやDVD等が一般的であるが、ハードディスクなどの磁気記憶装置やメモリカード等の媒体を用いても良い。

表示部26は、カラー表示装置であり、液晶ディスプレイ,有機ELディスプレイ,CRTなどがあるが、その何れを用いてもよい。表示部26の表示画面には、位置検出器21にて検出した車両の現在位置と地図データ入力器25より入力された地図データとから特定した現在地を示すマーク、目的地までの誘導経路、名称、目印、各種施設のマーク等の付加データとを重ねて表示することができる。また、施設のガイド等も表示できる。

音声出力部27は、地図データ入力器25より入力した施設のガイドや各種案内の音声を出力することができる。
マイクロフォン28は、利用者が音声を入力(発話)するとその入力した音声に基づく電気信号(音声信号)を制御部29に出力するものである。利用者はこのマイクロフォン28に様々な音声を入力することにより、ナビゲーション装置20を操作することができる。

音声認識関連データ入出力器30は、図示しない音声認識関連データ記憶媒体に記憶された各種データを入出力するための装置である。音声認識関連データ記憶媒体には、単音節を認識するための特徴パラメータ、単音節毎に対応づけられた複数音節からなる単音節認識用特定語によって構成される辞書、単音節毎に対応づけられた複数音節からなる確認用単語によって構成される辞書等を記憶されている。このようなデータを記憶する地図記憶媒体の種類としては、ハードディスクなどの磁気記憶装置やメモリカード等の媒体を用いると良い。

車内LAN通信部31は、車内LANに接続され、その車内LANに接続された各種ECUと通信を行うことができる。なお、車内LANとしては、例えばCAN(Control Aria Network)が想定され、各種ECUの1つとしては、エンジンECUやAT−ECUやボデーECUが想定される。

制御部29は、CPU,ROM,RAM,I/O及びこれらの構成を接続するバスラインなどからなる周知のマイクロコンピュータを中心に構成されており、ROM及びRAMに記憶されたプログラムに基づいて各種処理を実行する。例えば、位置検出器21からの各検出信号に基づき座標及び進行方向の組として車両の現在位置を算出し、地図データ入力器25を介して読み込んだ現在位置付近の地図等を表示部26に表示する表示処理や、地図データ入力器25に格納された地点データと、操作スイッチ群22やリモコン23a等の操作に従って設定された目的地とに基づいて、現在位置から目的地までの最適な経路を算出し、その算出した経路を案内する経路案内処理を行う。また、制御部29は後述する音声認識処理を実行することができる。

ここまででナビゲーション装置20の概略構成を説明したが、ナビゲーション装置20の各部と特許請求の範囲に記載の用語との対応を示す。マイクロフォン28が音声入力手段に相当し、音声出力部27が報知手段に相当し、表示部26が報知手段に相当し、操作スイッチ群22及びリモコン23aが受付手段に相当し、制御部29が音声認識手段及び制御手段に当する。

次に制御部29で実行される処理のうち、経路案内処理に先立って目的地等の名称を入力する際等に実行される音声認識処理1について図2のフローチャートを用いて説明する。音声認識処理1は、ナビゲーション装置20への情報入力の際に音声入力が可能な状態で利用者が特に指示した際に実行が開始される。

制御部29は実行を開始すると、まず、操作スイッチ群22又はリモコン23aに設けられたトークSWが利用者によって押下されたか否かによって処理を分岐する(S110)。トークSWが利用者によって押下された場合は次の処理ステップに進み、そうでなければ本ステップにとどまる。

続くS115では、確認音(例えば「ピッ」という電子音や「音声を入力して下さい」という案内音声)を音声出力部27に出力させる。
続くS120では、マイクロフォン28を介して利用者の音声を入力する。

続くS125では、S120で入力した音声を分析(特徴パラメータ等を抽出)し、音声認識関連データ入出力器30を介して取得した単音節の特徴パラメータ等と比較して候補単音節を候補順を付けて複数選択する。

続くS130では、S125で選択した候補単音節のうち、除外バッファ内にある候補単音節を除く。この除外バッファというのは制御部29内に存在し、除外指定された候補単音節を3つ記憶することができるバッファである。なお、除外バッファは音声認識処理1の実行開始時に初期化される。

続くS135では、候補単音節のうち、最も候補順の高い候補単音節を表示部26に表示させたり、音声出力部27に音声出力させたりして報知する。
続いて、操作スイッチ群22又はリモコン23aに設けられた確定SW(上述したトークSWと共用するようになっていても良い)が利用者によって押下されたか否か、又は利用者によって更に音声が入力されたかによって否かによって処理を分岐する(S140)。確定SWが利用者によって押下された場合はS145に進み、確定SWが利用者に操作されることなく、利用者によって更に音声が入力された場合はS150に進む。

S145では、S135で報知した候補単音節を確定単音節として確定し、既に確定した確定単音節群の最後に付加する。そして、除外バッファを初期化する(S153)。そして、除外バッファを初期化すると、操作スイッチ群22又はリモコン23aに設けられた終了SWが利用者によって操作されたか否かによって処理を分岐する(S155)。利用者によって終了SWが操作された場合には本処理(音声認識処理1)を終了し、利用者によって終了SWが操作されることがなければ、上述したS115に処理を戻す。

一方、S150では、S135で報知した候補単音節を除外バッファに入れる。この際、除外バッファの中に既に候補単音節が3つある場合は、最も過去に除外バッファに入れた候補単音節を消去し、新たにS135で報知した候補単音節を除外バッファに入れる。そして、上述したS125に処理を戻す。

なお、便宜的(説明を簡略化するため)に、終了SWが操作されたか否かを判定するステップ(S155)でのみ、終了SWの操作による音声認識処理1を終了するようになっているが、何れのステップにおいても、終了SWが操作された際は直ちに音声認識処理1を終了するようになっている。また、音声の入力ステップ(S120,S140)や利用者の操作待ちステップ(S140)においてに、所定時間(例えば30秒)、音声の入力や利用者の操作がなかった場合も、音声認識処理1を終了するようになっている。

ここまでで音声認識処理1について説明したが、このようにして確定した確定単音節群は、経路案内処理の際の目的地の名称として利用したり、施設の名称として利用したりする。

このようなナビゲーション装置20によれば、利用者は発話した単音節が正しく認識された場合のみ操作を行い単音節を確定させ、正しく認識されていない場合には何ら操作なく正しく認識されるまで続けて単音節を発話することができる。このため利用者は、認識が正しくなされなかった場合に何度も再入力指示をすることなく、続けて再発話するだけでよい。つまり、使い勝手が良い。

また、除外バッファに記憶されている候補単音節は、再発話によって新たに選択された候補単音節から除外するようになっているため、再発話の際に再び前回と同じ不適切な候補単音節が報知されることがなくなり、利用者にとって使い勝手が良い。

なお、上述した除外バッファが候補単音節を3つだけ記憶することができるように構成した理由を説明する。
本願発明者らは次のような実験を行った。その実験は、停止した車室内において20代から60代までの各代の男女各2名(つまり計20名)が、1人ずつ10回繰り返し発話することを3度行う実験である。そしてその実験結果に基づいて、話者による入力回数を横軸とし、その入力回数までに正しい単音節が認識された確率を縦軸に示したグラフが図9に示すものである。このグラフからわかるように、3回目以降は、ほぼ認識率が一定になり(3回目は認識率96%、4回目は認識率98%、5回目は認識率98%)、それ以降はほとんど変化がない。つまり、4回以上発話回数を重ねてもそれ以降に正しい候補単音節が報知されるということはほとんどない。つまり、ほとんどの場合、再発話回数3回時点までに正しい単音節が一度は報知されていることを意味し、再発話回数が3回になった場合には、話者が正しい候補単音節を誤って除外してしまった可能性が高いことを意味する。したがって、再発話回数が3回になった時には、一番はじめに認識されたものを再び認識候補として報知可能にするとよい。

このようになっていれば、候補単音節が報知されたにもかかわらず、利用者が間違えて再発話してしまった場合でも、除外された候補単音節が適切なタイミングで再び報知され得る状態に戻るため、二度と正しい候補単音節が報知されなくなってしまという不都合を防止することができる。

[第2実施例]
次に、第2実施例について説明する。第2実施例の音声認識機能を有するナビゲーション装置は、上述した第1実施例のナビゲーション装置20と同様の構成を有するため、相違点についてのみ説明する。主な相違点は、制御部29で実行される音声認識処理にある。以下、制御部29で実行される音声認識処理2について図3のフローチャートを用いて説明する。

音声認識処理2は、ナビゲーション装置20への情報入力の際に音声入力が可能な状態で利用者が特に指示した際に実行が開始される。
制御部29は実行を開始すると、まず、操作スイッチ群22又はリモコン23aに設けられたトークSWが利用者によって押下されたか否かによって処理を分岐する(S210)。トークSWが利用者によって押下された場合は次の処理ステップに進み、そうでなければ本ステップにとどまる。

続くS215では、確認音(例えば「ピッ」という電子音や「音声を入力して下さい」という案内音声)を音声出力部27に出力させる。
続くS220では、マイクロフォン28を介して利用者の音声を入力する。

続くS225では、S220で入力した音声を分析(特徴パラメータ等を抽出)し、音声認識関連データ入出力器30を介して取得した単音節の特徴パラメータ等と比較して候補単音節を候補順を付けて複数選択する。また、S220で入力した音声が単音節ではなかった場合は、確定を意味する確定語(「次」や「次へ」や「次は」等)であるか否かを判断する。

続くS230では、S220で入力された音声が確定を意味する確定語であったか否かによって処理を分岐する。S220で入力された音声が確定語であった場合はS250に進み、S220で入力された音声が確定語でなければS235に進む。

S235では、S225で選択した候補単音節のうち、除外バッファ内にある候補単音節を除く。この除外バッファというのは制御部29内に存在し、除外指定された候補単音節を3つ記憶することができるバッファである。なお、除外バッファは音声認識処理2の実行開始時に初期化される。

そしてS240では、候補単音節のうち、最も候補順の高い候補単音節を表示部26に表示させたり、音声出力部27に音声出力させたりして報知する。
そしてS245では、S240で報知した候補単音節を除外バッファに入れる。この際、除外バッファの中に既に候補単音節が3つある場合は、最も過去に除外バッファに入れた候補単音節を消去し、新たにS240で報知した候補単音節を除外バッファに入れる。そして、上述したS220に処理を戻す。

一方、S230において、S220で入力された音声が確定語であるとして進むS250では、前回報知した候補単音節を確定単音節として確定し、既に確定した確定単音節群の最後に付加する。そして、除外バッファを初期化する(S253)。そして、除外バッファを初期化すると、操作スイッチ群22又はリモコン23aに設けられた終了SWが利用者によって操作されたか否かによって処理を分岐する(S255)。利用者によって終了SWが操作された場合には本処理(音声認識処理2)を終了し、利用者によって終了SWが操作されることがなければ上述したS215に処理を戻す。

なお、便宜的(説明を簡略化するため)に、終了SWが操作されたか否かを判定するステップ(S255)でのみ、終了SWの操作による音声認識処理2を終了するようになっているが、何れのステップにおいても、終了SWが操作された際は直ちに音声認識処理2を終了するようになっている。また、音声の入力ステップ(S220)において、所定時間(例えば30秒)、音声の入力がなかった場合も、音声認識処理2を終了するようになっている。

ここまでで音声認識処理2について説明したが、このようにして確定した確定単音節群は、経路案内処理の際の目的地の名称として利用したり、施設の名称として利用したりする。

このようなナビゲーション装置20によれば、利用者は発話した単音節が正しく認識された場合のみ確定語(「次へ」)を発話して単音節を確定させ、正しく認識されていない場合には何ら特別な操作や発話することなく正しく認識されるまで認識させたい単音節を続けて発話することができる。このため利用者は、認識が正しくなされなかった場合に何度も再入力指示をすることなく、続けて再発話するだけでよい。つまり、使い勝手がよい。

[第1参考例]
次に、第1参考例について説明する。第1参考例の音声認識機能を有するナビゲーション装置は、上述した第1実施例のナビゲーション装置20と同様の構成を有するため、相違点についてのみ説明する。主な相違点は、制御部29で実行される音声認識処理にある。以下、制御部29で実行される音声認識処理3について図4のフローチャートを用いて説明する。

制御部29は実行を開始すると、まず、操作スイッチ群22又はリモコン23aに設けられたトークSWが利用者によって押下されたか否かによって処理を分岐する(S310)。トークSWが利用者によって押下された場合は次の処理ステップに進み、そうでなければ本ステップにとどまる。

続くS315では、確認音(例えば「ピッ」という電子音や「音声を入力して下さい」という案内音声)を音声出力部27に出力させる。
続くS320では、マイクロフォン28を介して利用者の音声を入力する。

続くS325では、S320で入力した音声を分析(特徴パラメータ等を抽出)し、音声認識関連データ入出力器30を介して取得した単音節の特徴パラメータ等と比較して候補単音節を3つ選択する。

続くS330では、車内LAN通信部31を介して図示しないエンジンECUから車速情報を取得し、車両が走行中であるか否かによって処理を分岐する。車両が走行中であればS335に進み、車両が走行中でなければS340に進む。

S335では、S325で選択した候補単音節を表示部26に表示領域内で最も大きなオブジェクト群として並べて表示させる。この表示の一例を図6に示す。図6に示すように、画面100には、候補単音節オブジェクト101〜103が表示領域内の大部分を占めるように並べて表示されている。そして、候補単音節オブジェクト101よりも広い領域に点線(実際は表示されない、以下同様)で示す操作特定範囲104が設定されている。この操作特定範囲104は、利用者が操作特定範囲104をタッチした際に制御部29が、候補単音節オブジェクト101が利用者によって選択されたと認識する範囲である。同様に、候補単音節オブジェクト102には操作特定範囲105が設定され、候補単音節オブジェクト103には操作特定範囲106が設定されている。

図4に戻り、一方S340では、表示部26に50音表を表示させ、更に、S325で選択した候補単音節のオブジェクトの枠を変える。この表示の一例を図7に示す。図7に示すように、画面111には、50音一覧形式で各単音節がオブジェクトとして並べられ、その中でも「あ」,「は」,「ま」の候補単音節オブジェクト112〜114だけは、他の単音節オブジェクトの枠と異なる枠の太さ及び色となっている。

図4に戻り、続くS345では、表示部26の表面と一体に構成されたタッチパネルから出力された信号に基づき、利用者によって何れかのオブジェクトが選択されたか否かによって処理を分岐する。利用者によって何れかのオブジェクトが選択された場合はS350に進み、利用者によって何れのオブジェクトも選択されることがなければ(例えば30秒間)、上述したS320に処理を戻す。

利用者によって何れかのオブジェクトが選択された場合に進むS350では、選択されたオブジェクトに対応する候補単音節を確定単音節として決定し、既に決定済みの確定単音節群の最後に加える。なお、ここで言う「選択されたオブジェクト」というのは、上記S340で説明した表示(図7参照)を行った場合は、候補単音節のオブジェクトに限らず、利用者によって選択された単音節のオブジェクトの何れも対象とする。

続くS355では、操作スイッチ群22又はリモコン23aに設けられた終了SWが利用者によって操作されたか否かによって処理を分岐する。利用者によって終了SWが操作された場合には本処理(音声認識処理3)を終了し、利用者によって終了SWが操作されることがなければ、上述したS315に処理を戻す。

なお、便宜的(説明を簡略化するため)に、終了SWが操作されたか否かを判定するステップ(S355)でのみ、終了SWの操作による音声認識処理3を終了するようになっているが、何れのステップにおいても、終了SWが操作された際は直ちに音声認識処理3を終了するようになっている。また、音声の入力ステップ(S320)において、所定時間(例えば30秒)、音声の入力がなかった場合も、音声認識処理3を終了するようになっている。

ここまでで音声認識処理3について説明したが、このようにして確定した確定単音節群は、経路案内処理の際の目的地の名称として利用したり、施設の名称として利用したりする。

このようなナビゲーション装置20によれば、車両が走行中の場合は、候補単音節が表示部26の表示領域内で最も大きなオブジェクト群として並べて表示されているため、利用者は一瞥して候補単音節を確認することができる。その結果、利用者はスムーズに単音節を確定することができる。また、その場合、表示部26の表示領域における各オブジェクトの占める表示範囲よりも、センサが感知した位置によって各オブジェクトを特定する特定範囲の方が広く扱うようになっているため、利用者はオブジェクトが表示された位置を正確にタッチする必要がなくなる。したがって、利用者が運転中であっても、利用者は所望の候補単音節を選択しやすい。

一方、車両が停止中の場合は、利用者は候補単音節以外の単音節も選択することができるため、より素早く単音節を確定することができる。
[第2参考例]
次に、第2参考例について説明する。第2参考例の音声認識機能を有するナビゲーション装置は、上述した第1実施例のナビゲーション装置20と同様の構成を有するため、相違点についてのみ説明する。主な相違点は、制御部29で実行される音声認識処理にある。以下、制御部29で実行される音声認識処理4について図5のフローチャートを用いて説明する。

制御部29は実行を開始すると、まず、操作スイッチ群22又はリモコン23aに設けられたトークSWが利用者によって押下されたか否かによって処理を分岐する(S410)。トークSWが利用者によって押下された場合は次の処理ステップに進み、そうでなければ本ステップにとどまる。

続くS415では、確認音(例えば「ピッ」という電子音や「音声を入力して下さい」という案内音声)を音声出力部27に出力させる。
続くS420では、マイクロフォン28を介して利用者の音声を入力する。

続くS425では、S320で入力した音声を分析(特徴パラメータ等を抽出)し、音声認識関連データ入出力器30を介して取得した単音節の特徴パラメータ等と比較して候補単音節を3つ選択する。

S435では、S425で選択した候補単音節に対応する確認用単語を、表示部26の表示領域内にオブジェクト群として並べて表示させると共に音声出力部27を介して音声として順に報知する。ここで言う確認用単語というのは、音声認識関連データ入出力器30を介して取得できるものであり、各単音節に対応してその単音節を先頭に含む単語である。具体的には、例えば、単音節「あ」に対して確認用単語「あさひ」、単音節「は」に対して確認用単語「はがき」、単音節「ま」に対して「まつり」等である。この表示の一例を図8に示す。図8に示すように、画面121には、確認用単語オブジェクト122,123,124が表示領域内の大部分を占めるように並べて表示されている。そして、利用者が確認用単語オブジェクト122〜124の何れかをタッチした際には、制御部29はタッチされた確認用単語オブジェクトが何れであるかを認識できるようになっている。

図5に戻り、S440では、マイクロフォン28を介して利用者の音声を入力する。そして、S440で入力した音声を分析(特徴パラメータ等を抽出)し、S435で表示部26に表示させた確認用単語の何れであるかの特定を試みる(S445)。

続くS450では、S435で表示部26に表示させた確認用単語の何れであるかを特定できた場合はS455に進み、特定できなかった場合はS420に処理を戻す。
S455では、特定できた確認用単語に対応する候補単音節を確定単音節として、既に確定済みの確定単音節群の最後に加える。

続くS460では、操作スイッチ群22又はリモコン23aに設けられた終了SWが利用者によって操作されたか否かによって処理を分岐する。利用者によって終了SWが操作された場合には本処理(音声認識処理4)を終了し、利用者によって終了SWが操作されることがなければ、上述したS415に処理を戻す。

なお、便宜的(説明を簡略化するため)に、終了SWが操作されたか否かを判定するステップ(S460)でのみ、終了SWの操作による音声認識処理4を終了するようになっているが、何れのステップにおいても、終了SWが操作された際は直ちに音声認識処理3を終了するようになっている。また、音声の入力ステップ(S420,S440)において、所定時間(例えば30秒)、音声の入力がなかった場合も、音声認識処理4を終了するようになっている。

ここまでで音声認識処理4について説明したが、このようにして確定した確定単音節群は、経路案内処理の際の目的地の名称として利用したり、施設の名称として利用したりする。

このようなナビゲーション装置20によれば、候補単音節を、確認用単語を用いて利用者に報知するようになっているため、利用者は単音節で報知されるよりも把握しやすい。また、候補の中から音声にて選択する際もその確認用単語を用いて選択できるため、選択を音声にて行った場合でも認識率が高い。

以下、他の参考例について述べる。
(1)上記参考例では、利用者は基本的に音声入力を単音節で行うようになっていたが、単音節に対応づけられた複数音節からなる単音節認識用特定語によって入力するようになっていてもよい。その場合、ナビゲーション装置20は、音声認識関連データ入出力器30を介して入力した音声認識関連データに基づいて、入力された単音節認識用特定語に対応する単音節を特定するようになっていればよい。そして、予め、様々なジャンル等によって分けられた単音節認識用特定語の辞書を音声認識関連データ記憶媒体に記憶させておき、利用者がその辞書を選択できるようになっていれば、利用者の好みによって辞書を選択できるため利用者は単音節認識用特定語を早く記憶して使いこなせるようになる。なお、この単音節認識用特定語は、利用者が登録できるようになっていると、さらに利用者は単音節認識用特定語を早く記憶して使いこなせるようになる。

(2)また、ナビゲーション装置20は、音声を分析する際の手法として、入力した同一単音節からなる繰り返し音声を単音節毎の音声に分け、その各音声に基づいて利用者の意図する単音節を一つ決定するようになっていてもよい。つまり、利用者は単音節を連続して発話(例えば「あああ」)すると、「あ」という単音節が認識される。このようになっていれば、単に「あ」と利用者が発話する場合と比べ認識手がかりが増えるため認識率も向上する。

(3)また、ナビゲーション装置20は、音声を分析する際の手法として、入力した単音節の音声が濁音、拗音、促音又は半濁音の何れかであった場合、その濁音、拗音、促音又は半濁音に対応する清音を利用者の意図する単音節として決定するようになっていてもよい。そして、その場合は更に入力した音声が、例えば、予め定められた濁音を意味する特定語であれば、直前に決定した単音節を対応する濁音の単音節に変更しするようになっているとよい。また、予め定められた拗音を意味する特定語であれば、直前に決定した単音節を対応する拗音の単音節に変更しするようになっているとよい。促音及び半濁音についても同様である。なお、ここで言う「清音」というのは、濁音、拗音、促音及び半濁音を除いた45個(通常)の基本単音節群を意味する。

一般的に、ある単音節における濁音と濁音でないものを認識することは、異なる単音節同士を認識することよりも難しい。したがって、濁音と濁音でないものをひとくくりに認識し、後から濁音や拗音のものに変更するようになっていれば、認識率が向上する。後から変更するというのは、例えば、「てんてん」と利用者によって音声が入力された場合に直前に入力された単音節を濁音に変更するようにすればよい。拗音、促音及び半濁音についても同様である。

(4)また、ナビゲーション装置20は、音声を分析する際の手法として、入力したローマ字読み音声に対応する単音節認識特定語の組み合わせに基づいて利用者の意図する単音節として決定するようになっていてもよい。具体例を挙げると、例えば「ケイ」(K)、「エイ」(A)と利用者が入力すれば「か」と認識し、「ケイ」(K)、「アイ」(I)と利用者が発話すると「き」と認識するナビゲーション装置である。また、50音表の行番号と列番号とに対応させて「イチ」(1)、「イチ」(1)と話者が発声すると「あ」と認識するようになっていてもよい。

このような音声認識装置は、認識対象の音声長及び音声数が増えるため、認識率が向上する。また、単音節全てに対して単音節認識用特定語を用意する必要がないため(上述した例の通り「ケイ」をカ行の全単音節を認識する際に利用できるため)、辞書の容量が削減されると共に、利用者も覚える単音節認識用特定語が減り使い勝手が向上する。

(5)また、ナビゲーション装置20は、音声を入力した際にその音声が音声認識処理の終了を意味する単語(例えば「終了」、「完了」等)であった場合は、音声認識処理を終了するようになっているとよい。このようになっていれば、利用者は発話によっても音声認識処理を終了することができるため、使い勝手が向上する。

(6)上記第2参考例では、候補単音節そのものを報知する代わりに確認用単語を報知するようになっていたが、予め、様々なジャンル等によって分けられた確認用単語の辞書を音声認識関連データ記憶媒体に記憶させておき、利用者がその辞書を選択できるようになっていれば、利用者の好みによって辞書を選択できるため利用者は自分の好みの確認用単語を利用することができる。また、更に確認用単語を利用者が登録できるようになっていると、さらに利用者は自分の好みの確認用単語を利用することができる。

ナビゲーション装置の概略構成図である。 音声認識処理1を説明するためのフローチャートである。 音声認識処理2を説明するためのフローチャートである。 音声認識処理3を説明するためのフローチャートである。 音声認識処理4を説明するためのフローチャートである。 画面イメージである。 画面イメージである。 画面イメージである。 入力回数による認識率の変化を示すグラフである。

符号の説明

20…ナビゲーション装置、21…位置検出器、21a…GPS受信機、21b…ジャイロスコープ、21c…距離センサ、21d…地磁気センサ、22…操作スイッチ群、23a…リモコン、23b…リモコンセンサ、25…地図データ入力器、26…表示部、27…音声出力部、28…マイクロフォン、29…制御部、30…音声認識関連データ入出力器、31…車内LAN通信部。

Claims (6)

  1. 者の発声した音声を入力する音声入力手段と、
    前記入力手段が入力した音声を分析して候補単音節を特定する音声認識手段と、
    指定された情報を報知する報知手段と、
    話者の操作を受け付ける受付手段と、
    前記音声認識手段が特定した候補単音節の中で最も尤度が高い候補単音節を前記報知手段に報知させる報知処理を実行し、話者より決定を意味する操作を前記受付手段が受け付けた場合は直前の前記報知処理の際に報知させた前記候補単音節を話者の意図する単音節として確定する確定処理を実行し、話者から新たな音声が前記音声入力手段に入力されて前記音声認識手段が候補単音節を特定した場合は前記報知処理の実行に戻ると共に、前記確定処理を実行することなく前記報知処理を連続して2回以上実行する場合、前記報知処理によって過去に報知した前記候補単音節を報知する候補単音節から除外して最も尤度の高い前記候補単音節を前記報知手段に報知させる制御手段と、
    を備え、話者によって入力された音声に基づいて話者の意図する単音節を決定する音声認識装置において、
    前記制御手段は、前記除外について、前記確定処理を実行することなく繰り返し実行した前記報知処理のうち直前を除く所定回数以前に実行した前記報知処理によって報知した候補単音節は除外しないことを特徴とする音声認識装置。
  2. 者の発声した音声を入力する音声入力手段と、
    前記入力手段が入力した音声を分析して候補単音節を特定すると共に確定を意味する確定語を認識する音声認識手段と、
    指定された情報を報知する報知手段と、
    前記音声認識手段が特定した候補単音節の中で最も尤度が高い候補単音節を前記報知手段に報知させる報知処理を実行し、話者から新たな音声が前記音声入力手段に入力されて前記音声認識手段が前記確定語を認識した場合は直前の前記報知処理の際に報知させた前記候補単音節を話者の意図する単音節として確定する確定処理を実行し、話者から新たな音声が前記音声入力手段に入力されて前記音声認識手段が候補単音節を特定した場合は前記報知処理の実行に戻ると共に、前記確定処理を実行することなく前記報知処理を連続して2回以上実行する場合、前記報知処理によって過去に報知した前記候補単音節を報知する候補単音節から除外して最も尤度の高い前記候補単音節を前記報知手段に報知させる制御手段と、
    を備え、話者によって入力された音声に基づいて話者の意図する単音節を決定する音声認識装置において、
    前記制御手段は、前記除外について、前記確定処理を実行することなく繰り返し実行した前記報知処理のうち直前を除く所定回数以前に実行した前記報知処理によって報知した候補単音節は除外しないことを特徴とする音声認識装置。
  3. 請求項1又は請求項2に記載の音声認識装置において、
    前記所定回数は、3回であることを特徴とする音声認識装置。
  4. 請求項1〜請求項3の何れかに記載の音声認識装置において、
    更に、話者の操作を受け付ける受付手段を備えていなければ備え、
    前記制御手段は、前記受付手段が受け付けた話者の操作に基づいて前記所定回数を変更することを特徴とする音声認識装置。
  5. コンピュータを、請求項1〜請求項4の何れかに記載の音声認識装置における音声認識手段又は制御手段の少なくとも一方として機能させるためのプログラム。
  6. 所定のナビゲーション処理を実行するナビゲーション装置であって、
    請求項1〜請求項の何れかに記載の音声認識装置を備え、その音声認識装置によって得られた話者の意図する単音節群を前記ナビゲーション処理に用いることを特徴とするナビゲーション装置。
JP2004023881A 2004-01-30 2004-01-30 音声認識装置、プログラム及びナビゲーション装置 Expired - Fee Related JP4453377B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004023881A JP4453377B2 (ja) 2004-01-30 2004-01-30 音声認識装置、プログラム及びナビゲーション装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004023881A JP4453377B2 (ja) 2004-01-30 2004-01-30 音声認識装置、プログラム及びナビゲーション装置
KR1020040110491A KR100677711B1 (ko) 2004-01-30 2004-12-22 음성 인식 장치, 기억 매체 및 네비게이션 장치

Publications (2)

Publication Number Publication Date
JP2005215474A JP2005215474A (ja) 2005-08-11
JP4453377B2 true JP4453377B2 (ja) 2010-04-21

Family

ID=34906753

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004023881A Expired - Fee Related JP4453377B2 (ja) 2004-01-30 2004-01-30 音声認識装置、プログラム及びナビゲーション装置

Country Status (2)

Country Link
JP (1) JP4453377B2 (ja)
KR (1) KR100677711B1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8473295B2 (en) * 2005-08-05 2013-06-25 Microsoft Corporation Redictation of misrecognized words using a list of alternatives
GB2440766B (en) 2006-08-10 2011-02-16 Denso Corp Control system
JP5458470B2 (ja) * 2007-03-19 2014-04-02 日本電気株式会社 入力文字候補を音声により変換する機能を備える情報処理装置及びその文字入力プログラム
JP2013045282A (ja) * 2011-08-24 2013-03-04 Kyushu Institute Of Technology コミュニケーション支援システム

Also Published As

Publication number Publication date
KR20050078195A (ko) 2005-08-04
KR100677711B1 (ko) 2007-02-02
JP2005215474A (ja) 2005-08-11

Similar Documents

Publication Publication Date Title
US8954329B2 (en) Methods and apparatus for acoustic disambiguation by insertion of disambiguating textual information
JP4412504B2 (ja) 音声認識装置、音声認識方法、及び音声認識用プログラム
US8521539B1 (en) Method for chinese point-of-interest search
JP4666648B2 (ja) 音声応答システム、音声応答プログラム
JP5315289B2 (ja) オペレーティングシステム及びオペレーティング方法
DE19709518C1 (de) Verfahren und Vorrichtung zur Spracheingabe einer Zieladresse in ein Zielführungssystem im Echtzeitbetrieb
JP4131978B2 (ja) 音声認識機器制御装置
JP4805279B2 (ja) 移動体用入力装置、及び方法
US7434178B2 (en) Multi-view vehicular navigation apparatus with communication device
EP1187099B1 (en) Voice recognition apparatus
JP5183176B2 (ja) 双方向スピーチ認識システム
JP3724461B2 (ja) 音声制御装置
JP4551961B2 (ja) 音声入力支援装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、ナビゲーション装置
JP2010008330A (ja) 車両ナビゲーションシステム
JP3948441B2 (ja) 音声認識方法及び、車載装置
JP5821639B2 (ja) 音声認識装置
JP4304952B2 (ja) 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム
DE10134908B4 (de) Spracherkennungsvorrichtung und Verfahren, welche zwei gegenteilige Wörter verwenden
JP2013068532A (ja) 情報端末、サーバー装置、検索システムおよびその検索方法
US6108631A (en) Input system for at least location and/or street names
JP3702867B2 (ja) 音声制御装置
JP4260788B2 (ja) 音声認識機器制御装置
EP1793371B1 (de) Verfahren zur Spracherkennung
JP2005292970A (ja) 施設検索装置、プログラム、ナビゲーション装置、及び施設検索方法
JP2008064885A (ja) 音声認識装置、音声認識方法、及び音声認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090303

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090317

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100112

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100125

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130212

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130212

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140212

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees