JP2004053620A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2004053620A
JP2004053620A JP2002206553A JP2002206553A JP2004053620A JP 2004053620 A JP2004053620 A JP 2004053620A JP 2002206553 A JP2002206553 A JP 2002206553A JP 2002206553 A JP2002206553 A JP 2002206553A JP 2004053620 A JP2004053620 A JP 2004053620A
Authority
JP
Japan
Prior art keywords
digit
recognition
reading
voice
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002206553A
Other languages
English (en)
Other versions
JP3726783B2 (ja
Inventor
Hideo Miyauchi
宮内 英夫
Makoto Sakai
坂井 誠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2002206553A priority Critical patent/JP3726783B2/ja
Priority to US10/434,209 priority patent/US20040015354A1/en
Priority to DE10327943.1A priority patent/DE10327943B4/de
Publication of JP2004053620A publication Critical patent/JP2004053620A/ja
Application granted granted Critical
Publication of JP3726783B2 publication Critical patent/JP3726783B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Abstract

【課題】ユーザにとって読みやすい電話番号の読み方を音声認識することが可能な音声認識装置を提供する。
【解決手段】認識辞書記憶部104が記憶する認識辞書は、1桁の数字とこの数字の読みの発声内容とを関連付けて記憶するとともに、複数桁の数字列とこの数字列を各数字に桁の単位を付して読みあげる桁読みの発声内容とを関連付けて記憶する。これにより、例えば、ユーザが電話番号の市内局番「12」を「いちに」と棒読みしたり、或いは、これを「じゅうに」と桁読みしたりする場合でも、「12」という同一の数字列を音声認識することができる。その結果、ユーザにとって読みやすい電話番号の読み方を音声認識することが可能となる。
【選択図】    図2

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識装置に関するものである。
【0002】
【従来の技術】
従来、話者の発する音声を認識して電話番号の入力を行う音声認識装置がある。この音声認識装置において、ユーザが電話番号を入力する場合には、所望の電話番号の個々の数字を単位として連続して読みあげる(以後、棒読みと呼ぶ)。例えば、市外局番「0566」、市内局番「12」、加入者番号「3456」からなる電話番号「0566−12−3456」を音声によって入力する場合には、ユーザは、市外局番「0566」を「ぜろごうろくろく」、市内局番「12」を「いちにい」、及び加入者番号「3456」を「さんよんごうろく」というように棒読みして入力する。そして、この入力を受けた音声認識装置は、ユーザによって棒読みされた電話番号を認識して、認識結果に対応する数字列を入力する。
【0003】
このように、従来の音声認識装置では、ユーザによって棒読みされる電話番号を認識することで、電話番号に対応する数字列を入力する。
【0004】
【発明が解決しようとする課題】
ユーザは、電話番号を読みあげる際、上述の棒読み以外に、特に市内局番については異なる読み方をすることがある。すなわち、市内局番をその数字列の桁の単位を付して読みあげる(以後、桁読みと呼ぶ)ことがある。例えば、上述の市内局番「12」を「じゅうに」と桁読みしたりする。しかしながら、従来の音声認識装置は、上述のような桁読みを認識することができなかった。
【0005】
本発明は、かかる問題を鑑みてなされたもので、ユーザにとって読みやすい電話番号の読み方を音声認識することが可能な音声認識装置を提供することを目的とする。
【0006】
【課題を解決するための手段】
請求項1に記載の音声認識装置は、ユーザが発声した音声を入力する入力手段と、1桁の各数字と各数字の読みの発声内容とを関連付けて記憶する第1の記憶手段と、複数桁の数字列と数字列を各数字に桁の単位を付して読みあげる桁読みの発声内容とを関連付けて記憶する第2の記憶手段と、ユーザによって電話番号が音声にて入力されたとき、第1及び第2の記憶手段に記憶された発声内容との照合の下に、音声入力された電話番号を認識する認識手段とを備えることを特徴とする。
【0007】
このように、本発明の音声認識装置は、ユーザによる棒読み及び桁読みを認識することができる。これにより、例えば、ユーザが「12」という市内局番を棒読みして「いちにい」と読んだり、或いは桁読みして「じゅうに」と読んだりした場合でも、「12」という同一の市内局番を認識することができるようになる。その結果、電話番号の音声認識において、ユーザが読みやすい電話番号の読み方を認識することが可能となる。
【0008】
請求項2に記載の音声認識装置では、ユーザが発声した音声を入力する入力手段と、電話番号を市外局番、市内局番及び加入者番号ごとに音声入力するように指示する入力指示手段と、市外局番、市内局番及び加入者番号ごとに、ユーザの発声内容と数字とを対応付けた認識用辞書を記憶する記憶手段と、入力指示手段による指示に従って音声入力された市外局番、市内局番及び加入者番号を、対応する認識用辞書を用いて認識する認識手段とを備え、市内局番認識用辞書は、1桁の各数字と各数字を読みあげる棒読みの発声内容とが関連付けて記憶されているとともに、複数桁の数字列と数字列を各数字に桁の単位を付して読みあげる桁読みの発声内容とが関連付けて記憶されていることを特徴とする。
【0009】
このように、ユーザによって音声入力される市内局番の認識については、棒読みと桁読みの両方の読み方に対応した市内局番辞書から、市内局番に対応する数字列を認識する。これにより、ユーザが市内局番を棒読みしたり、桁読みしたりする場合でも、同一の市内局番を認識することができる。
【0010】
請求項3に記載の音声認識装置では、加入者番号認識用辞書は、1桁の各数字と各数字を読みあげる棒読みの発声内容とが関連付けて記憶されているとともに、複数桁の数字列と数字列を各数字に桁の単位を付して読みあげる桁読みの発声内容とが関連付けて記憶されていることを特徴とする。
【0011】
例えば、加入者番号が「1000」であるような語呂のよい4桁の数字の場合、ユーザは、これを「いちぜろぜろぜろ」と棒読みしたり、「せん」と桁読みしたりすることがある。従って、加入者番号認識用辞書についても、棒読みと桁読みの両方の読み方に対応させることで、ユーザの読みやすい電話番号を認識することが可能となる。
【0012】
請求項4に記載の音声認識装置は、市外局番認識用辞書は、1桁の各数字と各数字を読みあげる棒読みの発声内容とが関連付けて記憶されていることを特徴とする。市外局番は、一般に「0」が先頭の番号となるので、ユーザによって桁読みされることが少ない。従って、市外局番認識用辞書については、棒読みの読み方のみ対応させておくことで、認識する発声内容が限定されるため、電話番号の認識率の低下を抑制する効果が期待できる。
【0013】
請求項5に記載の音声認識装置は、入力指示手段は、市外局番、市内局番、及び加入者番号の入力内容に対応するメッセージを記憶するメッセージ記憶手段と、市外局番、市内局番、及び加入者番号の音声入力の内容に従って、メッセージをメッセージ記憶手段から抽出するメッセージ抽出手段と、この抽出したメッセージを報知する報知手段とを備えることを特徴とする。このように、入力内容に応じたメッセージを報知することで、ユーザとって分かりやすい、電話番号の入力案内をすることが可能となる。
【0014】
【発明の実施の形態】
以下、本発明の実施の形態における音声認識装置に関して、図面に基づいて説明する。なお、本実施形態では、本発明の音声認識装置をカーナビゲーション装置に適用した例について説明する。
【0015】
図1は、本実施形態に係わるカーナビゲーション装置の概略構成を示すブロック図である。同図に示すように、本実施形態のカーナビゲーション装置1は、音声認識部10、経路案内部11、車両位置・車両向き計算部12から構成されている。また、カーナビゲーション装置1は、図示しない道路地図描画部等を有している。さらに、カーナビゲーション装置1は、音声入力に用いられるマイク2及びトークスイッチ3、表示装置4、スピーカ5、GPS受信機6、車速センサ7、ヨーレートセンサ8、及び地図データベース9等と接続されている。
【0016】
マイク2及びトークスイッチ3は、音声入力に用いられる装置である。音声を入力する場合には、例えば、トークスイッチ3の押しボタンを押すことで、入力トリガ信号が後述する音声認識部10に送信され、この音声認識部10は、入力トリガ信号を受信すると、マイク2から音声入力を受け付けるモードに変更される。
【0017】
この音声入力を受け付けるモードのとき、ユーザによって音声が入力されると、その音声がマイク2によって音声信号に変換され、音声認識部10に送られる。音声認識部10は、この音声信号を認識して、音声に対応する数字やコマンドに変換して経路案内部11に与える。例えば、「いちにい」と認識された音声は、「1」、「2」という数字に変換される。この数字を受ける経路案内部11は、市外局番、市内局番、及び加入者番号からなる電話番号を受信した後、この電話番号に対応する地点を検索し、検索した地点を表示装置4に表示する。
【0018】
表示装置4は、道路地図等を表示する液晶ディスプレイによって構成される。また、表示装置4のディスプレイにタッチパネルが採用されるものであっても良い。
【0019】
スピーカ5は、音声案内や各種警告音等の出力に使用されるものであり、例えば、車両に装備されたスピーカであっても良いし、カーナビゲーション装置1に内蔵されたものであっても良い。
【0020】
GPS受信機6、車速センサ7、及びヨーレートセンサ8は、周知のごとく、車両の現在位置や車両進行方向等を算出するのに必要な信号(以下、センサ信号と呼ぶ)を生成するものである。生成されたセンサ信号は、車両位置・車両向き計算部12に送られる。
【0021】
地図データベース9は、図示しない記憶媒体に格納されるもので、地図情報、道路情報からなる。なお、記憶媒体としては、そのデータ量からCD−ROMやDVD−ROMを用いるのが一般的であるが、メモリカードやハードディスクなどの媒体を用いてもよい。また、地図情報とは、表示装置4に表示するランドマーク等を描画するために必要なデータであり、施設名称、住所、電話番号、及び地図上の座標等を関連付けたデータから構成される。
【0022】
次に、カーナビゲーション装置1に内蔵される音声認識部10について、図2を用いて説明する。同図に示すように音声認識部10は、AD変換回路101、認識プログラム処理部102、音響モデル記憶部103、及び認識辞書記憶部104等によって構成される。
【0023】
AD変換回路101は、マイク2を介して入力されるアナログの音声信号を受信し、この信号をデジタル化した信号に変換する。変換されたデジタル音声信号は、認識プログラム処理部102に送信される。
【0024】
認識プログラム処理部102は、音響モデル記憶部103、及び認識辞書記憶部104を用いて、デジタル音声信号を数字やコマンドに変換するものである。まず、認識プログラム処理部102は、音響モデル記憶部103に記憶される、例えば、周知の隠れマルコフモデル(Hidden Markov Model)等の手法を用いて、デジタル音声信号106に対応する発話内容(以後、認識語読みと呼ぶ)を解析する。この解析された認識語読みは、認識辞書記憶部104に記憶される認識語と照合され、最も確からしい認識語、及びその認識語に対応する数字が抽出される。
【0025】
ここで、認識辞書記憶部104について説明する。この認識辞書記憶部104は、図4に示す認識辞書を構成しており、認識語と1桁或いは複数桁の数字とを関連付けて記憶している。なお、1桁の数字には棒読みの認識語が対応しており、複数桁の数字には桁読みの認識語が対応している。例えば、2桁の数字「12」に対して、認識語「じゅうに」が関連付けて記憶している。さらに、4桁の数字「1000」に対しては、認識語「せん」が関連付けて記憶している。
【0026】
このように、認識辞書記憶部104は、1桁の数字に対して棒読みの認識語を記憶し、また複数桁の数字に対して桁読みの認識語を記憶している。なお、認識プログラム処理部102によって、認識語読みに対応する数字やコマンドが抽出されると、抽出された数字やコマンドに対応する信号が経路案内部11に送信される。
【0027】
続いて、カーナビゲーション装置1の経路案内部11について、図3を用いて説明する。同図に示すように経路案内部11は、機能実行部110、メッセージ出力部111、及びメッセージ記憶部112から構成される。
【0028】
機能実行部110は、現在地周辺の道路地図を表示する機能や、電話番号入力による地点検索機能等を実行する。例えば、現在地周辺の道路地図を表示する機能では、音声認識部10から現在地道路地図表示のコマンドを受信すると、機能実行部10は、車両位置・車両向き計算部12から車両位置・車両の進行方向信号を受信し、地図データベース9から車両位置周辺の地図データを読み出し、画像信号15に変換して表示装置4に表示したりする。また、機能実行部110は、実行する機能に応じたコマンドコードを、メッセージ出力部111に送信する。
【0029】
また、電話番号入力による地点検索機能では、入力された電話番号に対応する施設等とその周辺の道路地図を報知するものである。例えば、機能実行部110は、音声認識部10から、市外局番、市内局番、加入者番号からなる電話番号を全て受信すると、受信した電話番号に対応する地点の施設名称、住所、座標を地図データベース9から抽出し、さらに、抽出した座標周辺の地図情報や道路情報を読み出す。その後、読み出した情報を画像信号に変換して、表示装置4に電話番号に対応する地点やその周辺の道路地図を表示させる。
【0030】
メッセージ出力部111は、機能実行部110からのコマンドコードを受信し、このコマンドコードに対応するメッセージをメッセージ記憶部112から抽出して、表示装置4のディスプレイに表示したり、スピーカ5へ出力したりする。図7に、メッセージ記憶部112が記憶するメッセージを示す。同図に示すように、各々のメッセージは、コマンドコードに対応したものとなっている。例えば、現在地周辺の道路地図を表示する機能において、機能実行部110からコマンドコードC0001が送信された場合には、メッセージ出力部111は、このコマンドコードC0001に対応する「現在地を表示します」というメッセージを報知する。
【0031】
次に、上述のカーナビゲーション装置1において、音声入力による電話番号からの地点検索が行われる地点検索機能の処理について、図5及び図6のフローチャートを用いて説明する。なお、具体的な例として、ユーザによって、「0220−12−1000」という電話番号が音声入力される場合を想定して説明を進める。
【0032】
先ず、図5に示すステップS1は、トークスイッチ3がユーザに押されるまで待機状態を継続し、トークスイッチ3が押された場合には、ステップS2に処理を進める。ステップS2では、音声認識部10が入力モードに切り換わり、音声の入力を受け付ける状態となる。
【0033】
次に、ステップS3における電話番号の音声認識処理を、図6のフローチャートを用いて説明する。先ず、ステップS30では、例えば、目的の地点を検索するために「電話番号で探す」なる音声が入力されたか否かを判断し、「電話番号で探す」なる音声が入力された場合には、ステップS31に処理を進め、これに該当しない場合には、音声が入力されるまで待機状態となる。
【0034】
ステップS31では、入力された音声から認識語読みを解析する。この解析の結果、入力された音声が「ぜろにいにいぜろじゅうにせん」という認識語読みが解析されたとする。
【0035】
ステップS32では、この解析された認識語読みに対して、最も確からしい認識語を、認識辞書記憶部104の認識辞書における認識語から照合する。ステップS33においては、照合した認識語に対応する数字を抽出する。なお、本実施形態では、複数の数字「0、2、2、0、12、1000」が抽出される。
【0036】
ステップS34は、抽出した複数の数字に対応する信号を、経路案内部11の機能実行部110へ送信する。なお、抽出した数字は、各々を組み合わせた形式に変換してから送信される。つまり、10桁の数字「0220121000」なる数字が送信される。この信号が送信されると、本音声認識処理が終了する。
【0037】
続いて、図5のステップS4では、音声認識部10から送信された10桁の数字の電話番号に対応する地点の施設名称、住所、座標等の各データを、地図データベース9から抽出する。さらに、抽出した座標周辺の地図情報や道路情報を抽出する。そして、ステップS5は、抽出した各データや情報を画像信号に変換して、表示装置4へ音声入力された電話番号に対応する地点やその周辺の道路地図を表示する。
【0038】
このように、本発明の音声認識装置は、電話番号の音声認識に際して、棒読み、及び桁読みの発声内容を記憶する認識辞書から発声内容を照合している。これにより、ユーザが2桁の数字「12」を棒読みして「いちにい」と読んだり、或いは桁読みして「じゅうに」と読んだりした場合でも、「12」という同一の数字を認識することができる。
【0039】
また、ユーザが「1000」であるような語呂のよい4桁の数字を「いちぜろぜろぜろ」と棒読みしたり、「せん」と桁読みしたりする場合でも、「1000」という同一の数字を認識することができる。その結果、ユーザが読みやすい電話番号の読み方を認識することができる。
【0040】
さらに、本発明の適用範囲は、カーナビゲーション装置の地点検索機能に限定されるものではなく、電話番号から目的地を入力する機能や、携帯電話における固定電話への電話番号入力機能等にも適用できる。
【0041】
(第2実施形態)
第2の実施形態は、第1の実施形態によるものと共通するところが多いので、以下、共通部分についての詳しい説明は省略し、異なる部分を重点的に説明する。
【0042】
第2の実施形態において第1の実施形態と異なる点は、認識辞書記憶部104を、市外局番の認識に用いる市外局番辞書、市内局番の認識に用いる市内局番辞書、及び加入者番号の認識に用いる加入者番号辞書の3つの認識辞書から構成する点、メッセージ記憶部112が記憶するメッセージに、電話番号の入力内容に対応するメッセージを記憶させる点、及び、ユーザに対して、市外局番、市内局番、及び加入者番号を音声入力する際に、上述のメッセージを報知して音声入力の案内をする点にある。
【0043】
以下、これら3つの異なる点について、図8〜図10の3つの辞書を示す図、図11のメッセージ記憶部112が記憶するメッセージを示す図、及び図12の電話番号の音声認識処理のフローチャートを用いて説明する。
【0044】
本実施形態における認識辞書記憶部104は、図8〜図10に示す3つの認識辞書から構成されている。図8は、市外局番の音声認識の際に用いる認識辞書(以下、市外局番辞書と呼ぶ)であり、認識語と1桁の数字とを関連付けて記憶している。なお、各数字には棒読みの認識語が対応している。
【0045】
図9は、市内局番の音声認識の際に用いる認識辞書(以下、市内局番辞書と呼ぶ)であり、認識語と1桁、及び複数桁の数字とを関連付けて記憶している。1桁の各数字には棒読みの認識語が対応しているが、複数桁の各数字には桁読みの認識語が対応している。例えば、2桁の数字「12」に対して、認識語「じゅうに」が関連付けて記憶している。
【0046】
図10は、加入者番号の音声認識の際に用いる認識辞書(以下、加入者番号辞書と呼ぶ)であり、認識語と1桁、及び4桁の数字とを関連付けて記憶している。1桁の各数字には棒読みの認識語が対応しているが、4桁の各数字には桁読みの認識語が対応している。例えば、4桁の数字「1000」に対して、認識語「せん」が関連付けて記憶している。
【0047】
このように、本実施形態の認識辞書記憶部104は、3つの認識辞書から構成されており、さらに、市内局番辞書、及び加入者番号辞書には、1桁の数字に対する棒読みの認識語と複数桁の数字に対する桁読みの認識語を記憶している。
【0048】
図11は、本実施形態におけるメッセージ記憶部112が記憶するメッセージである。同図に示すように、コマンドコードC1001以降から、電話番号入力による地点検索機能に対応するメッセージが記憶されている。そして、本実施形態におけるメッセージ出力部111は、電話番号の入力順序に応じたコマンドコードを機能実行部110から受信し、この受信したコマンドコードに対応するメッセージを、メッセージ記憶部112から抽出する。そして、抽出したメッセージを表示装置4やスピーカ5から出力して、ユーザに対して音声入力の案内をする。
【0049】
次に、この音声入力の案内の処理について、図12のフローチャートを用いて説明する。なお、この入力案内処理は、第1の実施形態において説明した電話番号の音声認識処理(図5のステップS3)において実行するものであるため、この音声認識処理の部分についてのみ説明する。また、本実施形態では、ユーザによって、「0220−12−1000」という電話番号が音声入力される場合を想定して説明を進める。
【0050】
先ず、ステップS300では、例えば、目的の地点を検索するために「電話番号で探す」なる音声が入力されたか否かを判断し、「電話番号で探す」なる音声が入力された場合には、ステップS301に処理を進め、これに該当しない場合には、音声が入力されるまで待機状態となる。
【0051】
ステップS301では、後述するステップS303における認識語読みに対する認識語の照合、及びこの認識語に対応する数字の抽出を、市外局番辞書から実行するように、認識辞書記憶部104の認識辞書を設定する。
【0052】
ステップS302では、認識辞書として市外局番辞書が設定されたことを通知する信号を機能実行部110へ送信する。この信号を受けた機能実行部110は、メッセージ出力部111に対して、市外局番に対応するコマンドコードC1001を送信する。このコマンドコードC1001を受信したメッセージ出力部は、メッセージ記憶部112に記憶されているコマンドコードC1001に対応するメッセージを抽出し、このメッセージを表示装置4やスピーカ5から出力する。すると、「市外局番を入力して下さい」というメッセージが、ユーザに対して報知される。
【0053】
ステップS303においては、ユーザは、ステップS302において報知されたメッセージを受けて市外局番を発声する。そして、この発声した音声から認識語読みを解析する。その解析の結果、入力された音声が「ぜろにいにいぜろ」という読みであったとする。
【0054】
ステップS304では、この解析された認識語読みに対して、最も確からしい認識語を、認識辞書記憶部104の市外局番辞書における認識語から照合する。そして、照合した認識語に対応する数字を抽出する。なお、本実施形態では、「ぜろ」、「にい」、「にい」、「ぜろ」の各認識語に対する「0」、「2」、「2」、「0」の各数字が抽出されたとする。
【0055】
ステップS305では、この抽出した各数字「0」、「2」、「2」、「0」に対応する信号を経路案内部11へ送信する。なお、抽出した数字は、各々を組み合わせた形式に変換してから送信される。つまり、4桁の数字「0220」なる数字が送信される。この信号を受けた経路案内部11は、表示装置4に受信した数字を表示したりする。
【0056】
ステップS306において、加入者番号の抽出を行ったか否かを判断し、加入者番号の抽出を行った場合には、本音声認識処理を終了し、これに該当しない場合には、ステップS301へ処理を移行する。本実施形態では、市外局番の抽出まで終えていると判断されるため、ステップS301へ処理を移行する。
【0057】
再び、ステップS301では、電話番号の入力順序に基づいて、市外局番の次に入力すべき市内局番に対応する市内局番辞書を設定する。ステップS302では、上述と同様に、機能実行部110からメッセージ出力部111に対して、市外局番に対応するコマンドコードC1002を送信され、メッセージ出力部は、メッセージ記憶部112に記憶されているコマンドコードC1002に対応するメッセージを抽出し、このメッセージを表示装置4やスピーカ5から出力する。すると、「市内局番を入力して下さい」というメッセージが、ユーザに対して報知される。
【0058】
ステップS303においては、ユーザは、ステップS302において報知されたメッセージを受けて市内局番を発声する。そして、この発声した音声から認識語読みを解析する。その解析の結果、入力された音声が「じゅうに」という読みであったとする。ステップS304では、上述と同様な処理が行われ、本実施形態では、「じゅうに」の認識語に対する2桁の数字「12」が抽出されたとする。
【0059】
ステップS305では、この抽出した数字「12」に対応する信号を経路案内部11へ送信する。この信号を受けた経路案内部11は、表示装置4に受信した数字を表示したりする。
【0060】
ステップS306において、再度、加入者番号の抽出を行ったか否かを判断し、加入者番号の抽出を行った場合には、本音声認識処理を終了し、これに該当しない場合には、ステップS301へ処理を移行する。本実施形態では、市内局番の抽出まで終えていると判断されるため、ステップS301へ処理を移行する。
【0061】
再び、ステップS301では、電話番号の入力順序に基づいて、市内局番の次に入力すべき加入者番号に対応する加入者番号辞書を設定する。ステップS302では、上述と同様に、機能実行部110は、メッセージ出力部111に対して、加入者番号に対応するコマンドコードC1003を送信する。メッセージ出力部は、メッセージ記憶部112に記憶されているコマンドコードC1003に対応するメッセージを抽出し、このメッセージを表示装置4やスピーカ5から出力する。すると、「下四桁を入力して下さい」というメッセージが、ユーザに対して報知される。
【0062】
ステップS303においては、ユーザは、ステップS302において報知されたメッセージを受けて加入者番号を発声する。そして、この発声した音声から認識語読みを解析する。その解析の結果、入力された音声が「せん」という読みであったとする。ステップS304では、上述と同様な処理が行われ、本実施形態では、「せん」の認識語に対する4桁の数字「1000」が抽出されたとする。
【0063】
ステップS305では、この抽出した数字「1000」に対応する信号を経路案内部11へ送信する。この信号を受けた経路案内部11は、表示装置4に受信した数字を表示したりする。そして、ステップS306において、加入者番号の抽出を行ったと判断されるため、本音声認識処理を終了する。
【0064】
このように、本実施形態の音声認識装置は、ユーザの電話番号の入力内容に応じて音声認識する認識辞書を切り換えている。これにより、照合する発声内容が限定されるため、電話番号の認識率の低下を抑制する効果が期待できる。
【0065】
また、市内局番、及び加入者番号の音声認識については、棒読みと桁読みの両方の認識を可能にすることで、ユーザの読みやすい電話番号の読み方を認識することができる。なお、市外局番は、一般に「0」が先頭の番号となるので、ユーザによって桁読みされることが少ない。従って、市外局番辞書については、棒読みに対応する認識語と数字とを関連付けて記憶させることで、照合する発声内容が限定され、電話番号の認識率の低下を抑制する効果が期待できる。
【0066】
さらに、市外局番、市内局番、及び加入者番号の音声入力の内容に従って、入力内容に対応したメッセージを報知することで、ユーザとって分かりやすい、電話番号の入力案内をすることが可能となる。
【0067】
なお、本実施形態の認識辞書は、市外局番辞書、市内局番辞書及び加入者番号辞書の3つの独立した辞書から構成されているが、各々の辞書において、1桁の数字と棒読みに対応する認識語の関連付けについては共通して記憶している。従って、認識辞書を上述のような3つの辞書から構成する以外に、例えば、棒読み用辞書と桁読み用辞書の2つの辞書から構成し、市外局番の音声入力については、棒読み用辞書から認識し、市内局番及び加入者番号については、棒読み用辞書と桁読み用辞書とから認識するようにしても良い。
【図面の簡単な説明】
【図1】第1、及び第2の実施形態に係わる、カーナビゲーション装置1の概略構成を示すブロック図である。
【図2】第1、及び第2の実施形態に係わる、音声認識部10の構成を示すブロック図である。
【図3】第1、及び第2の実施形態に係わる、経路案内部11の構成を示すブロック図である。
【図4】第1の実施形態に係わる、認識辞書記憶部104が記憶する認識辞書を示す図である。
【図5】第1、及び第2の実施形態に係わる、カーナビゲーション装置1の全体の処理の流れを示すフローチャートである。
【図6】第1の実施形態に係わる、電話番号の音声認識処理の流れを示すフローチャートである。
【図7】第1の実施形態に係わる、メッセージ記憶部112が記憶するメッセージを示す図である。
【図8】第2の実施形態に係わる、市外局番辞書を示す図である。
【図9】第2の実施形態に係わる、市内局番辞書を示す図である。
【図10】第2の実施形態に係わる、加入者番号辞書を示す図である。
【図11】第2の実施形態に係わる、メッセージ記憶部112が記憶するメッセージを示す図である。
【図12】第2の実施形態に係わる、電話番号の音声認識処理の流れを示すフローチャートである。
【符号の説明】
1 カーナビゲーション装置
2 マイク
3 トークスイッチ
4 表示装置
5 スピーカ
6 GPS受信機
7 車速センサ
8 ヨーレートセンサ
9 地図データベース
10 音声認識部
11 経路案内部
12 車両位置・車両向き計算部

Claims (5)

  1. ユーザが発声した音声を入力する入力手段と、
    1桁の各数字と前記各数字の読みの発声内容とを関連付けて記憶する第1の記憶手段と、
    複数桁の数字列と前記数字列を各数字に桁の単位を付して読みあげる桁読みの発声内容とを関連付けて記憶する第2の記憶手段と、
    ユーザによって電話番号が音声にて入力されたとき、前記第1及び第2の記憶手段に記憶された発声内容との照合の下に、音声入力された電話番号を認識する認識手段とを備えることを特徴とする音声認識装置。
  2. ユーザが発声した音声を入力する入力手段と、
    電話番号を市外局番、市内局番及び加入者番号ごとに音声入力するように指示する入力指示手段と、
    前記市外局番、市内局番及び加入者番号ごとに、ユーザの発声内容と数字とを対応付けた認識用辞書を記憶する記憶手段と、
    前記入力指示手段による指示に従って音声入力された市外局番、市内局番及び加入者番号を、対応する認識用辞書を用いて認識する認識手段とを備え、
    前記市内局番認識用辞書は、1桁の各数字と前記各数字を読みあげる棒読みの発声内容とが関連付けて記憶されているとともに、複数桁の数字列と前記数字列を各数字に桁の単位を付して読みあげる桁読みの発声内容とが関連付けて記憶されていることを特徴とする音声認識装置。
  3. 前記加入者番号認識用辞書は、前記1桁の各数字と前記各数字を読みあげる棒読みの発声内容とが関連付けて記憶されているとともに、前記複数桁の数字列と前記数字列を各数字に桁の単位を付して読みあげる桁読みの発声内容とが関連付けて記憶されていることを特徴とする請求項2記載の音声認識装置。
  4. 前記市外局番認識用辞書は、前記1桁の各数字と前記各数字を読みあげる棒読みの発声内容とが関連付けて記憶されていることを特徴とする請求項2又は3記載の音声認識装置。
  5. 前記入力指示手段は、前記市外局番、市内局番、及び加入者番号の入力内容に対応するメッセージを記憶するメッセージ記憶手段と、
    前記市外局番、市内局番、及び加入者番号の音声入力の内容に従って、前記メッセージを前記メッセージ記憶手段から抽出するメッセージ抽出手段と、
    該抽出したメッセージを報知する報知手段とを備えることを特徴とする請求項2〜4のいずれかに記載の音声認識装置。
JP2002206553A 2002-07-16 2002-07-16 音声認識装置 Expired - Fee Related JP3726783B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2002206553A JP3726783B2 (ja) 2002-07-16 2002-07-16 音声認識装置
US10/434,209 US20040015354A1 (en) 2002-07-16 2003-05-09 Voice recognition system allowing different number-reading manners
DE10327943.1A DE10327943B4 (de) 2002-07-16 2003-06-20 Unterschiedliche Zahlenleseweisen zulassendes Spracherkennungssystem

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002206553A JP3726783B2 (ja) 2002-07-16 2002-07-16 音声認識装置

Publications (2)

Publication Number Publication Date
JP2004053620A true JP2004053620A (ja) 2004-02-19
JP3726783B2 JP3726783B2 (ja) 2005-12-14

Family

ID=30112799

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002206553A Expired - Fee Related JP3726783B2 (ja) 2002-07-16 2002-07-16 音声認識装置

Country Status (3)

Country Link
US (1) US20040015354A1 (ja)
JP (1) JP3726783B2 (ja)
DE (1) DE10327943B4 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006090790A (ja) * 2004-09-22 2006-04-06 Toyota Motor Corp 運転支援装置
JP2008203296A (ja) * 2007-02-16 2008-09-04 Denso Corp 音声認識装置及びナビゲーション装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9639554B2 (en) * 2004-12-17 2017-05-02 Microsoft Technology Licensing, Llc Extensible file system
JP2007256643A (ja) * 2006-03-23 2007-10-04 Denso Corp 音声認識装置及びナビゲーションシステム
US7831431B2 (en) * 2006-10-31 2010-11-09 Honda Motor Co., Ltd. Voice recognition updates via remote broadcast signal
KR100883105B1 (ko) 2007-03-30 2009-02-11 삼성전자주식회사 휴대단말기에서 음성인식을 이용한 다이얼링 방법 및 장치
US10522141B2 (en) * 2015-10-28 2019-12-31 Ford Global Technologies, Llc Vehicle voice recognition including a wearable device
US10580405B1 (en) * 2016-12-27 2020-03-03 Amazon Technologies, Inc. Voice control of remote device

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5157719A (en) * 1990-03-12 1992-10-20 Advanced Cellular Telcom Corp. Automatic area code dialing apparatus and methods particularly adapted for cellular or other types of telephone systems
DE4225475A1 (de) * 1992-08-01 1994-02-03 Philips Patentverwaltung Einrichtung zur Spracherkennung
US5566272A (en) * 1993-10-27 1996-10-15 Lucent Technologies Inc. Automatic speech recognition (ASR) processing using confidence measures
FI111673B (fi) * 1997-05-06 2003-08-29 Nokia Corp Menetelmä puhelinnumeron valitsemiseksi puhekomennoilla ja puhekomennoilla ohjattava telepäätelaite
GB2325112B (en) * 1997-05-06 2002-07-31 Ibm Voice processing system
US6119087A (en) * 1998-03-13 2000-09-12 Nuance Communications System architecture for and method of voice processing
DE19937490B4 (de) * 1999-08-07 2018-11-29 Volkswagen Ag Verfahren und Vorrichtung zur Eingabe von Steuerungsbefehlen für Komfortgeräte, insbesondere in Kraftfahrzeugen
JP4486235B2 (ja) * 2000-08-31 2010-06-23 パイオニア株式会社 音声認識装置
US20020042709A1 (en) * 2000-09-29 2002-04-11 Rainer Klisch Method and device for analyzing a spoken sequence of numbers

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006090790A (ja) * 2004-09-22 2006-04-06 Toyota Motor Corp 運転支援装置
JP4556586B2 (ja) * 2004-09-22 2010-10-06 トヨタ自動車株式会社 運転支援装置
JP2008203296A (ja) * 2007-02-16 2008-09-04 Denso Corp 音声認識装置及びナビゲーション装置
JP4672686B2 (ja) * 2007-02-16 2011-04-20 株式会社デンソー 音声認識装置及びナビゲーション装置

Also Published As

Publication number Publication date
DE10327943A1 (de) 2004-02-05
US20040015354A1 (en) 2004-01-22
DE10327943B4 (de) 2014-10-02
JP3726783B2 (ja) 2005-12-14

Similar Documents

Publication Publication Date Title
JP4292646B2 (ja) ユーザインタフェース装置、ナビゲーションシステム、情報処理装置及び記録媒体
JP3964734B2 (ja) ナビゲ−ション装置
JP2010224236A (ja) 音声出力装置
US9123327B2 (en) Voice recognition apparatus for recognizing a command portion and a data portion of a voice input
JP2009169139A (ja) 音声認識装置
JP3702867B2 (ja) 音声制御装置
JP4064748B2 (ja) 音声発生装置、音声発生方法及びナビゲーション装置
WO2016174955A1 (ja) 情報処理装置、及び、情報処理方法
JP4914632B2 (ja) ナビゲーション装置
JP3726783B2 (ja) 音声認識装置
WO2000010160A1 (fr) Dispositif et procede de reconnaissance vocale, dispositif de navigation, telephone portable et processeur d'informations
CN112906369A (zh) 一种歌词文件生成方法及装置
US20110022390A1 (en) Speech device, speech control program, and speech control method
JP4525376B2 (ja) 音声−数字変換装置および音声−数字変換プログラム
JP2011232668A (ja) 音声認識機能を備えたナビゲーション装置およびその検出結果提示方法
JP2008014756A (ja) ナビゲーション装置及びその音声出力方法
JP2008021235A (ja) 読み登録システム及び読み登録プログラム
US20110218809A1 (en) Voice synthesis device, navigation device having the same, and method for synthesizing voice message
JP4859642B2 (ja) 音声情報管理装置
JP2004061754A (ja) 音声制御装置
JP4093394B2 (ja) 音声認識装置
JP2005114964A (ja) 音声認識方法および音声認識処理装置
JP4645708B2 (ja) コード認識装置および経路探索装置
JPH11325946A (ja) 車載用ナビゲーション装置
JP5522679B2 (ja) 検索装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050906

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050919

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081007

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091007

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101007

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101007

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111007

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121007

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121007

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131007

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees