JP4203984B2 - 音声入力装置及び音声入力受付方法 - Google Patents
音声入力装置及び音声入力受付方法 Download PDFInfo
- Publication number
- JP4203984B2 JP4203984B2 JP2002224332A JP2002224332A JP4203984B2 JP 4203984 B2 JP4203984 B2 JP 4203984B2 JP 2002224332 A JP2002224332 A JP 2002224332A JP 2002224332 A JP2002224332 A JP 2002224332A JP 4203984 B2 JP4203984 B2 JP 4203984B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- string
- character
- user
- correction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、音声認識の技術に関し、特に、ユーザの複数桁の数字や文字の音声入力を容易化する技術に関するものである。
【0002】
【従来の技術】
現在、コンピュータを初めとする様々な電子装置において、音声認識技術を利用した音声入力の技術が用いられている。
たとえば、自動車に搭載されるナビゲーション装置の分野においては、ユーザから目的地の設定を、目的地の地名や目的地の電話番号の音声入力により受け付ける技術などが知られている。
【0003】
【発明が解決しようとする課題】
さて、電話番号等の複数桁の数字を音声によって入力する際に、ユーザが誤った数字を発声してしまう場合や音声認識によって誤った数字が認識されてしまう場合がある。そして、このような場合に改めて正しい数字を入力するために、数字の最後に近い桁のみに誤りあった場合にも始めの桁から数字を発声し直さなければならないことは、数字の桁数が多い場合などにはユーザにとって負担が大きいものとなる。
【0004】
また、一般に、複数桁の数字の音声認識は、桁数が予め定まっていない場合、桁数が予め定まっている場合に比べ、その数字の音声認識の成功率は低下する。一方で、所定の桁数毎に数字の入力を受け付けるようにすれば、音声認識の成功率は向上するが、当該所定の桁数毎に数字を区切って発声しなければならないために、ユーザにとっての入力の作業が煩雑となる。
【0005】
そこで、本発明は、ユーザの複数桁の数字や文字の音声による入力を容易化することを課題とする。
【0006】
【課題を解決するための手段】
前記課題達成のために、本発明は、ユーザが発声した音声が表す所定字数の字列を音声認識する音声入力装置に、ユーザが発声した音声が表す字列を認識する音声認識手段と、字列を保持する字列保持手段と、修正の指示に応じて前記音声認識手段が認識した字列を修正する修正制御手段と、字列修正手段とを設け、前記修正制御手段において、前記所定字数の字列の音声認識を行う場合に、前記修正が指示される前のユーザの発声に対して前記音声認識手段が認識した字列を前記字列保持手段に保持させ、前記修正が指示される前の発声に対して前記音声認識手段が認識した字列の修正を指示された場合に、修正を指示された後のユーザの発声に対して前記音声認識手段が認識した字列によって、前記字列保持手段に保持させた字列を修正した前記所定字数の修正字列を、前記字列修正手段に生成させ、前記字列修正手段において、前記修正が指示される前のユーザの発声に対して前記音声認識手段が認識し前記字列保持手段に保持された字列を第1の字列とし当該第1の字列の桁数をnとし、修正を指示された後のユーザの発声に対して前記音声認識手段が認識した字列を第2の字列とし当該第2の字列の桁数mとして、前記修正字列を、当該修正字列の下位m桁の字列を第2の字列と同じ字列とし、当該修正字列の上位n桁のうちの当該修正字列の下位m桁を除く各桁の字を、当該字の前記修正字列上の桁を上位i桁目として、前記第1の字列の上位i桁目の字とすることにより生成するようにしたものである。なお、前記字列は、文字の列または数字の列または文字と数字が混在した列であってよい。
【0007】
このような音声入力装置によれば、ユーザは、ある桁の字を間違って発声してしまったり、音声認識によってある桁の字が間違って認識されてしまった場合に、ユーザは、その間違った桁から発声するだけで、発声した字列によって修正前の字列の間違った桁より下位の字列を修正することができる。したがって、ユーザは、認識字列の修正のために初めの桁から字列を発声し直す必要がない。したがって、ユーザの複数桁の字列の入力が容易化される。
【0008】
また、前記課題達成のために、本発明は、ユーザが発声した音声が表す所定字数の字列を音声認識する音声入力装置に、ユーザが発声した音声が表す字列を認識する音声認識手段と、修正の指示に応じて前記音声認識手段が認識した字列を修正する修正制御手段とを備え、前記修正制御手段において、前記所定字数の字列の音声認識を行う場合に、ユーザの発声に対して前記音声認識手段に前記所定字数または任意字数の字列を対象とする字列の認識を行わせ、前記音声認識手段が認識した字列の修正を指示された場合に、修正を指示された後のユーザの発声に対して、記音声認識手段に、前記所定字数の字列の部分を対象とする、前記所定字数より小さい字数を上限とする固定字数範囲の字列の認識を行わせるようにしたものである。なお、前記字列は、文字の列または数字の列または文字と数字が混在した列であってよい。
【0009】
このような音声入力装置によれば、音声認識によってある桁の字が間違って認識されてしまったなどの理由により字列の修正を行う場合には、前記所定字数の字列の音声認識や任意字数の音声認識に比べ、より音声認識成功率の高い、前記所定字数の字列の部分を対象とする、前記所定字数より小さい字数を上限とする固定字数範囲の字列の認識を行うモードに、自動的に遷移する。よって、修正時において再度音声認識を失敗してしまうことを抑止できるので、ユーザの複数桁の字列の入力が容易化される。
【0010】
ここで、このような音声入力装置には、さらに字列を保持する字列保持手段と、字列修正手段とを備え、前記修正制御手段において、前記修正を指示される前の前記ユーザの発声に対して前記音声認識手段が認識した字列を前記字列保持手段に保持させ、前記修正を指示された後のユーザの発声に対して前記音声認識手段が認識した字列によって、前記字列保持手段に保持させた字列を修正した前記所定字数の修正字列を、前記字列修正手段に生成させ、前記字列修正手段において、前記修正が指示される前のユーザの発声に対して前記音声認識手段が認識し前記字列保持手段に保持された字列を第1の字列とし当該第1の字列の桁数をnとし、修正を指示された後のユーザの発声に対して前記音声認識手段が認識した字列を第2の字列とし当該第2の字列の桁数mとして、前記修正字列を、当該修正字列の下位m桁の字列を第2の字列と同じ字列とし、当該修正字列の上位n桁のうちの当該修正字列の下位m桁を除く各桁の字を、当該字の前記修正字列上の桁を上位i桁目として、前記第1の字列の上位i桁目の字とすることにより生成するようにしてもよい。すなわち、たとえば、前記所定字数の電話番号の音声入力を行う場合には、初めに電話番号全桁または任意桁範囲の数字列の音声入力を受付け、修正が指示された場合には、市外局番や、市内局番や、電話番号の市外局番や市内局番を除く番号部分からの数字列の音声入力を受付け、修正指示後に受け付けた数字列で、初めに音声入力を受け付けた数字列の下位桁を、修正指示後に受け付けた数字列の桁数分修正するようにしてもよい。
【0011】
このようにすることにより、前述の如く、ユーザは、ある桁の字を間違って発声してしまったり、音声認識によってある桁の字が間違って認識されてしまった場合であっても、ユーザは、認識字列の修正のために初めの桁から字列を発声し直す必要がなくなる。
【0012】
【発明の実施の形態】
以下、本発明の実施形態についてナビゲーション装置への適用を例にとり説明する。
まず、第1の実施形態について説明する。
図1に、本実施形態に係るナビゲーション装置の構成を示す。
図示するように、本ナビゲーション装置は、制御装置1、地図データを格納したDVD-ROMドやハードディスク等の記憶媒体21にアクセスするための記録媒体ドライブ2、GPS受信機3、角加速度センサや車速センサなどの車両の走行状態を検知する走行状態センサ4、ユーザよりの入力を受け付けるリモコン5(リモートコントローラ)、表示装置6、スピーカ7、マイクロフォン8を備えている。
【0013】
また、制御装置1は、地図データ読出処理部102、現在位置算出部103、ルート探索部104、ナビゲート画像生成部105、メモリ106、主制御部107、GUI制御部108、音声認識エンジン109、音声合成エンジン110を備えている。
【0014】
但し、以上の制御装置1は、ハードウエア的には、マイクロプロセッサや、メモリや、その他のグラフィックプロセッサやジオメトリックプロセッサ等の周辺デバイスを有する一般的な構成を備えたCPU回路であって良く、この場合、以上に示した制御装置1の各部は、マイクロプロセッサが予め用意されたプログラムを実行することにより具現化するプロセスとして実現されるものであって良い。また、この場合、このようなプログラムは、記憶媒体21や通信路を介して、制御装置1に提供されるものであって良い。
【0015】
次に、図2に、地図データベースに格納される地図データを示す。
図示するように、地図データは地図データユニットと地点データユニットとを含む。
そして、地図データユニットは、ノードリストとリンクリストを含む。ここで、地図データユニットでは、道路を直線であるリンクの集合として表現しており、この各リンクの端点がノードである。このようなノードは、交差点等の道路の接続点などに設けられる。さて、ノードリストはノード毎に対応して設けたノードレコードを有し、各ノードレコードには、対応するノードのノード番号とノードの経緯度座標を有する。また、リンクリストは、リンク毎に対応して設けたリンクレコードを有し、各リンクレコードには、対応するリンクのリンク番号と、対応するリンクの端点となる2つのノードのノード番号である端点ノード番号1と端点ノード番号2を有する。
【0016】
一方、地点データユニットは、各地点(個人宅、施設、会社等)毎に設けた地点レコードを有し、各地点レコードには、対応する地点の電話番号と、対応する地点の名称を表すテキストである地名テキストと、その地点の座標、その地点最寄りのリンクのリンク番号を表す対応リンク、その地点最寄りのリンク上の当該地点最寄りの位置を表す対応リンク上座標とを有する。
【0017】
さて、このようなナビゲーション装置の構成において、地図データ読出処理部102は、主制御部107の制御下で所要地理的範囲に対応する地図データユニットのデータを地図データベースから読み出して、各部に供給する処理を行う。現在位置算出部103は、走行状態センサ4やGPS受信機3の出力から推定される現在位置に対して、地図データユニットが表す地図とのマップマッチング処理などを施して現在位置を算出する。
【0018】
主制御部107は、リモコン5、GUI制御部108を介して、ユーザより、目的地設定の要求があるとユーザより目的地の設定を受けつけ、メモリ106にセットする。本実施形態では、目的地の設定は、後述するナビーゲート画面が表す地図上の目的地とする地点の指定によって受け付ける他、目的地とする地点の電話番号の指定によっても受け付ける。この電話番号の指定による目的地の設定は、後述する目的地設定受付処理によって行う。
【0019】
さて、目的地の設定を受け付けたならば、ルート探索部104は、地図データユニットを参照し、現在位置からメモリ106にセットされた目的地の座標までのルートを探索し、メモリ106にセットする。ナビゲート画像生成部109は、メモリ106にセットされたルートに基づき、地図データユニットが表す地図上に現在位置から目的地までのルートを表した、ナビゲート画面を生成し、GUI制御部108を介して表示装置6に表示する。なお、ナビゲート画像生成部109は、メモリ106にルートがセットされていない場合には、ルートの表示のない地図をナビゲート画面として生成し、GUI制御部108を介して表示装置6に表示する。
【0020】
以下、前述した電話番号によって目的地の設定を受け付ける目的地設定受付処理の詳細について説明する。
図3に、目的地設定受付処理の手順を示す。
図示するように、この処理では、主制御部107は、まず、GUI制御部108を介して表示装置6に図4aに示す電話番号受付画面表示を表示する(ステップ302)。
図4aに示すに示すように、この電話番号受付画面では、リモコン5を介して0〜9までの数字キー401の操作があった場合には(ステップ304)、数字キー401の選択によって0〜9までの数字を順次受付け(ステップ338)、受け付けた数字列を入力ボックス402に入力し表示する。そして、リモコン5を介して検索ボタン403が操作された場合には(ステップ340)、電話番号入力ボックス402に入力されている数字列を検索電話番号として、検索電話番号と同じ電話番号を持つ地点レコードを、地図データ読出処理部102を介して、地図データの地点データユニットから探索し(ステップ342)、探索した地点レコードに格納された対応リンクと対応リンク上座標より求まるリンク上位置を目的地として設定する(ステップ326)。
【0021】
一方、電話番号受付画面で、発話ボタン404が操作された場合には(ステップ30)、図4bに示す音声入力受付画面を表示する(ステップ308)。
そして、メモリ106上に設けたXレジスタとYレジスタをクリアし、初回フラグをオンに設定する(ステップ310)。ここで、XレジスタとYレジスタは、各々10桁の数字列を格納するレジスタである。
次に、主制御部107は、音声認識エンジン109にマイクロフォン8から入力する音声の認識を開始させる(ステップ312)。そして、音声認識エンジン109が認識した数字列をYレジスタに右詰めで格納し、Yレジスタに格納した数字列を音声入力受付画面の入力ボックス411に表示する処理(ステップ314)を、音声認識エンジン109が電話番号の最大桁数である10桁の数字列を認識するか、所定時間以上のユーザの無発声(無音)を検出するまで(ステップ316)行う。ここで、ステップ314で音声認識エンジン109が認識した数字列をYレジスタに格納する際に既にYレジスタに数字列が格納されている場合には、格納されている数字列を音声認識エンジン109が認識した数字列の桁数分だけ上位桁側にシフトした上で、認識した数字列を右詰めで格納する。したがって、ステップ312〜316において、ユーザは電話番号の発声を任意桁毎に区切って行うことができる。すなわち、ステップ312〜316では、自由区切りの音声認識が行われる。なお、ステップ314で、Yレジスタに格納した数字列を音声入力受付画面の入力ボックス411に表示する際には、音声合成エンジン110でYレジスタに格納した数字列を読み上げる音声を生成しスピーカ7から出力するようにしてもよい。
【0022】
ここで、図5aは、音声認識エンジン109によって認識された"02463541"がYレジスタに右詰めで格納されたようすを表している。
次に、主制御部107は、ユーザが戻るボタン412を操作するか(ステップ318)、検索ボタン413を操作する(ステップ320)のを待つ。そして、戻るボタン412が操作された場合には、初回フラグがオンであるかどうかを調べ(ステップ328)、オンであれば、Yレジスタに格納されている数字列をXレジスタに転送し左詰めで格納し、Yレジスタをクリアし(ステップ330)、初回フラグをオフにクリアする(ステップ332)。そして、Xレジスタに格納された数字列を電話番号ボックス414に表示する(ステップ334)。ここで、図5bは、図5aでYレジスタに格納されていた数字列がXレジスタに転送されて左詰めで格納されたようすを示している。
【0023】
そして、ステップ312に戻り、再度音声認識エンジン109による音声の認識を行い、先程と同様に、Yレジスタに右詰めで格納し、Yレジスタに格納した数字列を音声入力受付画面の入力ボックス411に表示し、ユーザが戻るボタンを412操作するか、検索ボタン413を操作するのを待つ(ステップ312〜320)。ここで、図5cは、このような2回目の音声認識によって"364111"が認識され、Yレジスタに格納されたようすを示している。
【0024】
さて、ステップ318で、戻るボタン412が操作された場合であって、初回フラグがオンでない場合(ステップ328)には、Yレジスタに格納されている数字列と、Xレジスタに格納されている数字列を、Yレジスタに数字が格納されている桁についてはYレジスタに格納されている数字を当該桁の数字とし、Yレジスタに数字が格納されていない桁についてはXレジスタに格納されている数字を当該桁の数字とすることによりマージし、マージした数字列でXレジスタを更新すると共に、Yレジスタをクリアする(ステップ336)。そして、Xレジスタに格納された数字列を音声入力受付画面の電話番号ボックス414に表示する(ステップ334)。ここで、図5dは、図5cの2回目の音声認識後のXレジスタとYレジスタの数字列をマージし、Xレジスタに格納したようすを示している。
【0025】
そして、ステップ312に戻り、先程と同様に、再度音声認識エンジン109による音声の認識と、Yレジスタへの数字列の格納と、Yレジスタに格納した数字列の音声入力受付画面の入力ボックス411への表示を行い、ユーザが戻るボタンを412操作するか、検索ボタン413を操作するのを待つ(ステップ312〜320)。
【0026】
以下、同様に、戻るボタン412が操作されるたびに同様の処理を行う。
一方、ステップ320において、検索ボタン413が操作された場合には、その時点でYレジスタに格納されている数字列と、Xレジスタに格納されている数字列をステップ336と同様にマージしてXレジスタに格納し、Yレジスタをクリアする(ステップ322)。そして、Xレジスタに格納されている数字列を、検索電話番号として、検索電話番号と同じ電話番号を持つ地点レコードを、地図データ読出処理部102を介して、地図データの地点データユニットから探索し(ステップ324)、探索した地点レコードに格納された対応リンクと対応リンク上座標より求まるリンク上位置を目的地として設定する(ステップ326)。ここで、図5eは、3回目の音声認識で"21"が認識された時のXレジスタとYレジスタの内容を示し、図5fは、3回目の音声認識で"21"が認識された後に戻るボタンではなく検索ボタンが操作され、XレジスタとYレジスタの数字列がマージされ、Xレジスタに格納されたようすを示している。
【0027】
さて、図5より理解されるように、本第1実施形態によれば、ユーザは、複数桁の数字列の音声入力において、ある桁の数字を間違って発声してしまったり、音声認識エンジン109がある桁の数字を間違って認識してしまった場合には、その間違った桁以降(桁数が小さくなる方向)の数字または数字列のみを発声することにより、先に認識された数字列に対して、間違った桁より後部分のみの修正を行うことができる。
【0028】
たとえば、図6fに示すように入力の目的となる数字列が "02463641121"であった場合に、図6aに示すように、"02462641"と上4桁目が誤って認識されてしまった場合には、ユーザは上4桁目から正しく"3641121"と下7桁を発声すれば、入力数字列を、目的とする数字列 "02463641121"に修正することができる。
【0029】
また、図6cに示すように、この下7桁の発声に対して下2桁目が誤って"3641111"と認識されてしまった場合には、図6eに示すようにユーザは下2桁目から正しく"21"と下2桁を発声すれば、図6fに示すように、入力数字列を、目的とする数字列 "02463641121"に修正することができる。
【0030】
このように、本実施形態によれば、ユーザは、ある桁の数字を間違って発声してしまったり、音声認識エンジン109がある桁の数字を間違って認識してしまった場合に、初めの桁から数字列を発声し直す必要がない。したがって、ユーザの複数桁の数字列の入力が容易化される。
【0031】
以上、本発明の第1実施形態について説明した。
以下、本発明の第2の実施形態について説明する。
本第2実施形態は、前記第1実施形態における目的地設定受付処理を、図6に示す目的地設定受付処理に置き換えたものである。
図示するように、本第2実施形態では、目的地設定受付処理において、主制御部107は、前記第1実施形態と同様に、GUI制御部108を介して表示装置6に図4aに示す電話番号受付画面を表示する(ステップ602)。そして、リモコン5を介して、数字キー401による数字列入力(ステップ604、672)と、検索ボタン403が操作が行われた場合には(ステップ674)、電話番号入力ボックス402に入力されている数字列を検索電話番号として、検索電話番号と同じ電話番号を持つ地点レコードを、地図データ読出処理部102を介して、地図データの地点データユニットから探索し(ステップ676)、探索した地点レコードに格納された対応リンクと対応リンク上座標より求まるリンク上位置を目的地として設定する。(ステップ634)
一方、電話番号受付画面で、発話ボタン404が操作された場合には(ステップ608)、図4bに示す音声入力受付画面を表示する(ステップ608)。
【0032】
そして、メモリ106上に設けたXレジスタとYレジスタとZシフトレジスタをクリアし(ステップ610)、モードを無制限モードに設定する(ステップ612)。ここで、XレジスタとYレジスタとZシフトレジスタは、各々10桁の数字列を格納するレジスタである。また、本第2実施形態では、モードとして無制限モードと、市外局番モードと、市内局番モードと、番号モードの4つのモードを設けている。そして、予め各モードに対して認識桁数範囲を定義している。すなわち、無制限モードに対しては1桁から電話番号の最大桁数である10桁までの範囲を認識桁数範囲として定義し、市外局番モードに対しては電話番号の市外局番の桁数範囲である2〜6桁の範囲を認識桁数範囲として定義し、市内局番モードに対しては電話番号の市内局番の桁数範囲である1〜4桁の範囲を認識桁数範囲として定義し、番号モードに対しては電話番号の番号部の桁数である4桁を認識桁数範囲として定義している。
【0033】
さて、次に、主制御部107は、音声認識エンジン109にマイクロフォン8から入力する音声の認識を開始させる(ステップ614)。そして、音声認識エンジン109が認識した数字列をYレジスタに右詰めで格納し、Yレジスタに格納した数字列を音声入力受付画面の入力ボックス411に表示する処理(ステップ616)を、音声認識エンジン109がモードに対して定まる認識桁数範囲内の最大の桁数を数字列を認識するか、所定時間以上のユーザの無発声(無音)を検出するまで(ステップ618)行う。ここで、ステップ616で音声認識エンジン109が認識した数字列をYレジスタに格納する際に既にYレジスタに数字列が格納されている場合には、格納されている数字列を音声認識エンジン109が認識した数字列の桁数分だけ上位桁側にシフトした上で、認識した数字列を右詰めで格納する。したがって、ステップ614〜618において、ユーザは電話番号の発声を任意桁毎に区切って行うことができる。すなわち、ステップ614では、ステップ614実行の度に、連続的に入力する一連の音声に対して、電話番号の最大桁数である10桁以下の不定長の音声認識を行う。
【0034】
なお、ステップ616において、Yレジスタに格納した数字列を、音声入力受付画面または後述する桁指定入力画面の入力ボックス411、431に表示する際に、併せて音声合成エンジン110でYレジスタに格納した数字列を読み上げる音声を生成しスピーカ7から出力するようにしてもよい。
【0035】
次に、主制御部107は、モードが無制限モードであるので(ステップ622、624)、ユーザが戻るボタン412を操作するか(ステップ620)、検索ボタン413(ステップ626)を操作するのを待つ。そして、戻るボタン412が操作された場合には(ステップ620)、無制限モードであるかどうかを調べ(ステップ636)、無制限モードであれば、Yレジスタに格納されている数字列をXレジスタに転送し左詰めで格納し(ステップ638)、Xレジスタに格納された数字列を電話番号ボックス414に表示した上で、Yレジスタをクリアする(ステップ640)。ただし、本第2実施形態では、音声入力受付画面の電話番号ボックス414は設けなくても良い。
【0036】
さて、次に、主制御部107は、図4cに示す桁指定画面を表示し、Xレジスタに格納された数字列を電話番号ボックス421に表示(ステップ642)した上で、ユーザから市外局番からの入力を行うか、市内局番からの入力を行うか、電話番号の番号部(電話番号の下4桁の部分)の入力を行うかの指定を、ボタン422〜424によって受け付ける(ステップ644〜648)。そして、市外局番からの入力が指定された場合にはモードを市外局番モードに設定し(ステップ650)、市内局番からの入力が指定された場合にはモードを市内局番モードに設定し(ステップ652)、番号部の入力が指定された場合にはモードを番号モードに設定する(ステップ654)。その上で、モードが市外局番モードの場合には図4dに示す指定桁入力画面を、モードが市内局番モードの場合には図4eに示す指定桁入力画面を、モードが番号モードの場合は図4fに示す指定桁入力画面を表示し、指定桁入力画面の電話番号ボックス432にXレジスタに格納された数字列を電話番号ボックスに表示する(ステップ656)。そして、ステップ614に戻って再度音声認識エンジン109による音声の認識と、Yレジスタへの文字列の格納と、Yレジスタに格納した数字列の指定桁入力画面の入力ボックス431への表示を行う(ステップ614〜618)。ここで、このとき、音声認識エンジン109は、入力する音声を、その時点のモードに対応する認識桁数範囲内の桁数の数字列の発声と見なして音声認識を行う。なお、このように入力する音声が表す数字列の桁数範囲を固定することにより、その桁数範囲内の数字列を発声した音声に対する音声認識の成功率は向上する。
【0037】
そして、主制御部107は、モードが市外局番モードか市内局番モードの場合には(ステップ622)、戻るボタン433か(ステップ620)、発話ボタン434が操作される(ステップ660)のを待ち、モードが番号モードのときには(ステップ624)、戻るボタン433か(ステップ620)検索ボタン435が操作される(ステップ626)のを待つ。そして、戻るボタン433が操作された場合には(ステップ620)、モードが無制限モードかどうかを調べ(ステップ636)、無制限モードでなければYレジスタに格納されている数字列をクリア(ステップ658)した上で、再度ステップ614からの音声認識に戻る。
【0038】
一方、発話ボタン434が操作された場合(ステップ660)において、モードが市外局番モードの場合に(ステップ662)は、モードを市内局番モードに変更し(ステップ664)、市内局番モード用の指定桁入力画面(図4e)を表示し(ステップ668)、発話ボタン434が操作された場合(ステップ660)において、モードが市内局番モードの場合(ステップ662)は、モードを番号モードに変更し(ステップ666)、番号モード用の指定桁入力画面(図4f)を表示する(ステップ668)。そして、Yレジスタに格納された数字列をZシフトレジスタに下位桁側からシフトインしYレジスタをクリアし(ステップ670)、ステップ614の音声認識に戻り、音声認識エンジン109で変更後のモードの認識桁数範囲に応じた音声認識を行う。ここで、Zシフトレジスタは、新たな数字列が下位桁側からシフトインされると、既に格納されている数字列をシフトインされた数字列の桁数分だけ上位桁側にシフトし、シフトインされた数字列を右詰めで格納するレジスタである。すなわち、たとえば、Zシフトレジスタに"-------445"が格納されているときに、333がシフトインされると、Zシフトレジスタの内容は"----445333"となる。
【0039】
さて、残る番号モードの場合において、図4fの指定桁入力画面の検索ボタン435が操作された場合、または、無制限モードにおいて、図4bの音声入力受付画面の検索ボタン413が操作された場合(ステップ626)には、まず、Yレジスタに格納された数字列をZシフトレジスタに下位桁側からシフトインしYレジスタをクリアする(ステップ628)。そして、Xレジスタに格納されている数字列とZシフトレジスタに格納されている数字列とを、Zシフトレジスタに数字が格納されている桁についてはZシフトレジスタに格納されている数字を当該桁の数字とし、Zシフトレジスタに数字が格納されていない桁についてはXレジスタに格納されている数字を当該桁の数字とすることによりマージし、マージした数字列でXレジスタを更新し、Zシフトレジスタをクリアする(ステップ630)。
【0040】
そして、Xレジスタに格納されている数字列を、検索電話番号として、検索電話番号と同じ電話番号を持つ地点レコードを、地図データ読出処理部102を介して、地図データの地点データユニットから探索し(ステップ632)、探索した地点レコードに格納された対応リンクと対応リンク上座標より求まるリンク上位置を目的地として設定する(ステップ634)。
【0041】
ここで、図7に以上の目的地設定受付処理の具体的な処理例を示す。
まず、ユーザは図4aの電話番号受付画面で発話ボタン404を操作した(ステップ608)後に発声した音声が"02463442"と音声認識エンジン109により認識されると、Yレジスタに図7aに示すように右詰めで"02463442"が格納される(ステップ616)。そして、このときに、ユーザが、ステップ608で表示された音声入力受付画面の検索ボタン413を操作すると、このYレジスタに格納されていた"02463442"がZシフトレジスタ、Xレジスタと転送され(ステップ628、730)、最終的にXレジスタに格納された"02463442"が検索電話番号となる(ステップ632)。
【0042】
一方、ユーザが音声入力受付画面の戻るボタン412を操作すると(ステップ620)、この時点では無制限モードであることより(ステップ636)、図7bに示すように、Yレジスタに格納されていた"02463442"が、Xレジスタに左詰めで格納され(ステップ638)、図4cの桁指定画面の電話番号ボックス421に表示される(ステップ642)。
【0043】
いま、ユーザが入力しようとする電話番号の市外局番が"0463、市内局番が"36"、番号が"4121"であるとすると、音声認識された数字列中は市外局番が正しく、市内局番が"34"と間違っているので、ユーザは、市内局番から音声による入力をやり直すために、ユーザは桁指定画面で、市内局番から”ボタン423を操作する(ステップ646)。そして、市内局番を発声する。
【0044】
この市内局番の発声に対して、ステップ652で設定される市内局番モードの認識桁数範囲に基づいて音声認識エンジン109が"36"と正しく認識した場合、Yレジスタには図7cに示すように、"36"が右詰めで格納される(ステップ616)。
【0045】
この場合、市内局番モード用の桁指定画面(図4e ) の入力ボックス431の表示より、市内局番が正しく認識されたことを確認したユーザは、次に電話番号の番号部を入力するために発話ボタン434を操作する(ステップ660)。すると、モードが番号モードに変更され(ステップ666)、番号モード用の桁指定画面(図4f)が表示され(ステップ668)、図7dに示すように、Zシフトレジスタに、Yレジスタに格納されていた"36"が転送され、その後、Yレジスタがクリアされる(ステップ670)。
【0046】
そして、発話ボタン434を操作したユーザの番号部の発声に対して、番号モードの認識桁数範囲に基づいて音声認識エンジン109が"4121"と正しく認識した場合、Yレジスタには図7eに示すように、"4121"が右詰めで格納される(ステップ616)。
【0047】
この場合、番号モード用の桁指定画面(図4f)の入力ボックス431の表示より、番号部が正しく認識されたことを確認したユーザは、最後まで電話番号が正しく認識されたので、この電話番号による目的地を設定するために、検索ボタン435を操作する(ステップ626)。
【0048】
すると、図7fに示すように、Zシフトレジスタに、Yレジスタに格納されていた"------4121"が転送され、その後、Yレジスタがクリアされる(ステップ628)。この結果、Zシフトレジスタの内容は、先に転送された"36"の後に今回転送された"4121"が連結された"----364121"となる。そして、次に、このZシフトレジスタに格納された"----364111"は、Xレジスタに格納されている文字列"02463442--"と上述のようにマージされ(ステップ630)、結果Xレジスタの内容は、図7gに示すように、ユーザの目的とする"02463364121"となり(ステップ630)、この数字列が検索電話番号として用いられる(ステップ632)。
【0049】
以上のように、本第2実施形態によれば、ユーザは、ある桁の数字を間違って発声してしまったり、音声認識エンジン109がある桁の数字を間違って認識してしまった場合に、初めの桁から数字列を発声し直す必要がない。また、認識桁数範囲を電話番号の桁数より小さい桁数範囲に固定した、より音声認識成功率が高い音声認識を行うモードに、自動的に遷移する。したがって、これら二つの作用により、ユーザの複数桁の数字列の入力が容易化される。
【0050】
なお、以上では、ナビゲーション装置における目的地設定のための電話番号の音声認識への適用を例にとり説明したが、本実施形態における数字列途中からの発声による認識数字列の修正は、桁数が定まっている任意の種類の数字列や、文字数が定まっている任意のアルファベット列やアルファベットの数字の組み合わせ列などの音声認識に同様に適用可能である。すなわち、本実施形態は、郵便番号の音声認識、固定文字数のIDやパスワードの音声認識などに同様に適用可能である。
【0051】
また、本実施形態における、認識数字列修正時に自動的に、認識桁数範囲を、認識数字列の桁数より小さく固定する技術も、桁数が定まっている任意の種類の数字列や、文字数が定まっているアルファベット列やアルファベットの数字の組み合わせ列などの音声認識に同様に適用可能である。たとえば、郵便番号の音声認識に適用する場合は、修正時には、表記時にハイフンで分離される上3桁と下4桁をそれぞれ音声認識するようにして良いし、固定文字数のIDやパスワードの場合は、修正時には、たとえば、3文字毎に発声するようにユーザに通知した上で、3文字づつそれぞれ音声認識するようにして良い。
【0052】
【発明の効果】
以上のように、本発明によれば、ユーザの複数桁の数字や文字の音声による入力を容易化することができる。
【図面の簡単な説明】
【図1】本発明の実施形態に係るナビゲーション装置の構成を示すブロック図である。
【図2】本発明の実施形態に係る地図データを示す図である。
【図3】本発明の第1実施形態に係る目的地設定処理の手順を示すフローチャートである。
【図4】本発明の実施形態において表示する表示画面を示す図である。
【図5】本発明の第1実施形態に係る目的地設定処理の具体例を示す図である。
【図6】本発明の第2実施形態に係る目的地設定処理の手順を示すフローチャートである。
【図7】本発明の第2実施形態に係る目的地設定処理の具体例を示す図である。
【符号の説明】
1:制御装置、2:記録媒体ドライブ、3:GPS受信機、4:走行状態センサ、5:リモコン、6:表示装置、7:スピーカ、8:マイクロフォン、21:記憶媒体、102:地図データ読出処理部、103:現在位置算出部、104:ルート探索部、105:ナビゲート画像生成部、106:メモリ、107:主制御部、108:GUI制御部、109:音声認識エンジン、110:音声合成エンジン。
Claims (8)
- ユーザが発声した音声が表す所定字数の字列を音声認識する音声入力装置であって、
前記字列は、文字の列または数字の列または文字と数字が混在した列であり、
前記音声入力装置は、
ユーザが発声した音声が表す字列を認識する音声認識手段と、字列を保持する字列保持手段と、修正の指示に応じて前記音声認識手段が認識した字列を修正する修正制御手段と、字列修正手段とを有し、
前記修正制御手段は、前記所定字数の字列の音声認識を行う場合に、前記修正が指示される前のユーザの発声に対して前記音声認識手段が認識した字列を前記字列保持手段に保持させ、前記修正が指示される前の発声に対して前記音声認識手段が認識した字列の修正を指示された場合に、修正を指示された後のユーザの発声に対して前記音声認識手段が認識した字列によって、前記字列保持手段に保持させた字列を修正した前記所定字数の修正字列を、前記字列修正手段に生成させ、
前記字列修正手段は、前記修正が指示される前のユーザの発声に対して前記音声認識手段が認識し前記字列保持手段に保持された字列を第1の字列とし当該第1の字列の桁数をnとし、修正を指示された後のユーザの発声に対して前記音声認識手段が認識した字列を第2の字列とし当該第2の字列の桁数をmとして、前記修正字列を、当該修正字列の下位m桁の字列を第2の字列と同じ字列とし、当該修正字列の上位n桁のうちの当該修正字列の下位m桁を除く各桁の字を、当該字の前記修正字列上の桁を上位i桁目として、前記第1の字列の上位i桁目の字とすることにより生成することを特徴とする音声入力装置。 - ユーザが発声した音声が表す所定字数の字列を音声認識する音声入力装置であって、
前記字列は、文字の列または数字の列または文字と数字が混在した列であり、
前記音声入力装置は、
ユーザが発声した音声が表す字列を認識する音声認識手段と、修正の指示に応じて前記音声認識手段が認識した字列を修正する修正制御手段とを有し、
前記修正制御手段は、前記所定字数の字列の音声認識を行う場合に、ユーザの発声に対して前記音声認識手段に前記所定字数の字列又は任意字数の字列を対象とする字列の認識を行わせ、前記音声認識手段が認識した字列の修正を指示された場合に、修正を指示された後のユーザの発声に対して、前記音声認識手段に、ユーザの指示に応じて定まる前記所定字数の字列の部分を対象とする、前記所定字数より小さい字数となる当該部分の字数を、認識する字列の字数の上限とする字列の認識を行わせることを特徴とする音声入力装置。 - 請求項2記載の音声入力装置であって、
前記ユーザの指示に応じて定まる前記所定字数の字列の部分は、前記所定字数の字列の後尾部分であって、
字列を保持する字列保持手段と、字列修正手段とを有し、
前記修正制御手段は、前記修正を指示される前の前記ユーザの発声に対して前記音声認識手段が認識した字列を前記字列保持手段に保持させ、前記修正を指示された後のユーザの発声に対して前記音声認識手段が認識した字列によって、前記字列保持手段に保持させた字列を修正した前記所定字数の修正字列を、前記字列修正手段に生成させ、
前記字列修正手段は、前記修正が指示される前のユーザの発声に対して前記音声認識手段が認識し前記字列保持手段に保持された字列を第1の字列とし当該第1の字列の桁数をnとし、修正を指示された後のユーザの発声に対して前記音声認識手段が認識した字列を第2の字列とし当該第2の字列の桁数をmとして、前記修正字列を、当該修正字列の下位m桁の字列を第2の字列と同じ字列とし、当該修正字列の上位n桁のうちの当該修正字列の下位m桁を除く各桁の字を、当該字の前記修正字列上の桁を上位i桁目として、前記第1の字列の上位i桁目の字とすることにより生成することを特徴とする音声入力装置。 - ユーザが発声した音声が表す電話番号を音声認識する音声入力装置であって、
前記音声入力装置は、
ユーザが発声した音声が表す数字列を認識する音声認識手段と、数字列を保持する数字列保持手段と、修正の指示に応じて前記音声認識手段が認識した数字列を修正する修正制御手段と、電話番号修正手段とを有し、
前記修正制御手段は、前記電話番号の音声認識を行う場合に、ユーザの発声に対して前記音声認識手段に電話番号の全桁を対象とする認識を行わせ、前記修正制御手段は、前記修正を指示される前の前記ユーザの発声に対して前記音声認識手段が認識した数字列を前記字列保持手段に保持させ、前記音声認識手段が認識した数字列の修正を指示された場合に、市外局番部分、市内局番部分、電話番号の市外局番と市内局番を除く番号部分のいずれから入力するかをユーザに問い合わせ、市外局番部分から入力することを指示された場合には、市外局番部分、市内局番部分、前記番号部分の順に、順次、ユーザの発声に対して前記音声認識手段に数字列の認識を行わせ、市内局番部分から入力することを指示された場合には、市内局番部分、前記番号部分の順に、順次、ユーザの発声に対して前記音声認識手段に数字列の認識を行わせ、前記番号部分から入力することを指示された場合には、ユーザの発声に対して前記音声認識手段に前記番号部分の数字列の認識を行わせ、前記修正を指示された後のユーザの発声に対して前記音声認識手段が認識した数字列を、前記数字列保持手段に保持させた数字列によって修正した修正数字列を、前記電話番号修正手段に生成させ、
前記字列修正手段は、前記修正を指示される前のユーザの発声に対して前記音声認識手段が認識し前記数字列保持手段に保持されているn桁の数字列を、前記電話番号と同桁数の第1の数字列の最初のn桁の数字列とし、修正を指示された後のユーザの発声に対して前記音声認識手段が認識した数字列を連結したm桁の数字列を第2の字列として、前記修正数字列を、当該修正数字列の下位m桁の字列を第2の数字列とし、当該修正数字列の他の各桁の字を、少なくとも前記第1の数字列の当該桁と同じ桁の字が前記数字列保持手段に保持されていた字である場合には、前記第1の数字列の当該桁と同じ桁の字とすることにより生成することを特徴とする音声入力装置。 - 電子装置において、ユーザが発声した音声が表す所定字数の字列を音声認識し、修正の指示に応じて音声認識した字列を、前記修正を指示された後のユーザの発声に対して音声認識した字列を用いて修正する音声入力受付方法であって、
前記所定字数の字列の音声認識を行う場合に、ユーザの修正が指示される前の発声に対して音声認識を行い、認識した字列を保持するステップと、
前記修正が指示される前の発声に対して認識した字列の修正を指示された場合に、前記修正を指示された後のユーザの発声に対して音声認識を行い、認識した字列によって、保持している字列を修正した前記所定字数の修正字列を生成するステップとを有し、
前記修正字列の生成は、前記修正が指示される前のユーザの発声に対して認識し前記字列保持手段に保持した字列を第1の字列とし当該第1の字列の桁数をnとし、修正を指示された後のユーザの発声に対して認識した字列を第2の字列とし当該第2の字列の桁数をmとして、前記修正字列を、当該修正字列の下位m桁の字列を第2の字列と同じ字列とし、当該修正字列の上位n桁のうちの当該修正字列の下位m桁を除く各桁の字を、当該字の前記修正字列上の桁を上位i桁目として、前記第1の字列の上位i桁目の字とすることにより生成し、
前記字列は、文字の列または数字の列または文字と数字が混在した列であることを特徴とする音声入力受付方法。 - 電子装置において、ユーザが発声した音声が表す所定字数の字列を音声認識する音声入力受付方法であって、
前記所定字数の字列の音声認識を行う場合に、ユーザの発声に対して音声認識によって前記所定字数または任意字数の字列を対象とする字列の認識を行うステップと、
前記が認識した字列の修正を指示された場合に、修正を指示された後のユーザの発声に対して、ユーザの指示に応じて定まる前記所定字数の字列の部分を対象とする、前記所定字数より小さい字数となる当該部分の字数を、認識する字列の字数の上限とする音声認識を行うステップとを有することを特徴とする音声入力受付方法。 - コンピュータによって読み取られ実行されるコンピュータプログラムであって、
当該コンピュータプログラムは、前記コンピュータに、
所定字数の字列の音声認識を行う場合に、ユーザの発声に対して音声認識を行い、認識した字列を保持するステップと、
修正の指示を受け付けるステップと、
前記修正が指示される前の発声に対して認識した字列の修正を指示された場合に、前記修正を指示された後のユーザの発声に対して音声認識を行い、認識した字列によって保持している字列を修正した前記所定字数の修正字列を生成するステップとを実行させ、
前記修正字列の生成は、前記修正が指示される前のユーザの発声に対して認識し前記字列保持手段に保持した字列を第1の字列とし当該第1の字列の桁数をnとし、修正を指示された後のユーザの発声に対して認識した字列を第2の字列とし当該第2の字列の桁数をmとして、前記修正字列を、当該修正字列の下位m桁の字列を第2の字列と同じ字列とし、当該修正字列の上位n桁のうちの当該修正字列の下位m桁を除く各桁の字を、当該字の前記修正字列上の桁を上位i桁目として、前記第1の字列の上位i桁目の字とすることにより生成し、
前記字列は、文字の列または数字の列または文字と数字が混在した列であることを特徴とするコンピュータプログラム。 - コンピュータによって読み取られ実行されるコンピュータプログラムであって、
当該コンピュータプログラムは、前記コンピュータに、
所定字数の字列の音声認識を行う場合に、ユーザの発声に対して音声認識によって前記所定字数または任意字数の字列を対象とする字列の認識を行うステップと、
前記が認識した字列の修正を指示された場合に、修正を指示された後のユーザの発声に対して、ユーザの指示に応じて定まる前記所定字数の字列の部分を対象とする、前記所定字数より小さい字数となる当該部分の字数を、認識する字列の字数の上限とする音声認識を行うステップとを実行させることを特徴とするコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002224332A JP4203984B2 (ja) | 2002-08-01 | 2002-08-01 | 音声入力装置及び音声入力受付方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002224332A JP4203984B2 (ja) | 2002-08-01 | 2002-08-01 | 音声入力装置及び音声入力受付方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004069719A JP2004069719A (ja) | 2004-03-04 |
JP4203984B2 true JP4203984B2 (ja) | 2009-01-07 |
Family
ID=32012318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002224332A Expired - Fee Related JP4203984B2 (ja) | 2002-08-01 | 2002-08-01 | 音声入力装置及び音声入力受付方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4203984B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4672686B2 (ja) | 2007-02-16 | 2011-04-20 | 株式会社デンソー | 音声認識装置及びナビゲーション装置 |
JP2021086390A (ja) * | 2019-11-27 | 2021-06-03 | 株式会社 ゆうちょ銀行 | 被照会金額表示装置、被照会金額表示方法および被照会金額表示プログラム |
-
2002
- 2002-08-01 JP JP2002224332A patent/JP4203984B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004069719A (ja) | 2004-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5419136B2 (ja) | 音声出力装置 | |
JP3967046B2 (ja) | 電話番号による地点検索出力装置及び記録媒体 | |
JP2007255897A (ja) | ナビゲーションシステム並びに装置、その制御方法及び制御プログラム | |
JP4064748B2 (ja) | 音声発生装置、音声発生方法及びナビゲーション装置 | |
JP4785568B2 (ja) | 電子機器および操作ヘルプ提示方法 | |
JP4203984B2 (ja) | 音声入力装置及び音声入力受付方法 | |
JP2009116787A (ja) | 情報提供装置及び方法 | |
JP2005275228A (ja) | ナビゲーション装置 | |
JP2009140287A (ja) | 検索結果表示装置 | |
US20040015354A1 (en) | Voice recognition system allowing different number-reading manners | |
JP5455355B2 (ja) | 音声認識装置及びプログラム | |
JP3890774B2 (ja) | ナビゲーションシステム | |
JP3718088B2 (ja) | 音声認識修正方式 | |
JP4268325B2 (ja) | 音声操作語句の提示装置及び提示方法 | |
JPH0961186A (ja) | ナビゲーション装置 | |
JP2003005783A (ja) | ナビゲーションシステムおよびその目的地入力方法 | |
JP4273559B2 (ja) | 検索装置 | |
JP2004093698A (ja) | 音声入力方法 | |
JP3726907B2 (ja) | ナビゲーション装置 | |
JP2003140682A (ja) | 音声認識装置及び音声辞書作成方法 | |
JP3911835B2 (ja) | 音声認識装置及びナビゲーションシステム | |
JP4293260B2 (ja) | データ検索方法、データ検索装置およびナビゲーション装置 | |
JP5522679B2 (ja) | 検索装置 | |
JPH07141472A (ja) | 文字列認識装置 | |
JP3656730B2 (ja) | 電話番号による地点検索出力装置及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050328 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070731 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070807 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070919 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081007 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081009 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111024 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4203984 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111024 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121024 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121024 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131024 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |