JP3830124B2 - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP3830124B2 JP3830124B2 JP33689999A JP33689999A JP3830124B2 JP 3830124 B2 JP3830124 B2 JP 3830124B2 JP 33689999 A JP33689999 A JP 33689999A JP 33689999 A JP33689999 A JP 33689999A JP 3830124 B2 JP3830124 B2 JP 3830124B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- data
- input
- unit
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、音声を認識して各種機器を作動させるための音声認識装置に関し、特に、住所に関する音声の認識に際して、都道府県等の広域側から話す日本と、ストリート名等の、狭域側から話す米国等の外国のいずれで使用しても、効率よく認識処理することができる音声認識装置に関する。
【0002】
【従来の技術】
近年、各種機器の作動を音声により指示し、音声認識装置によりこれを認識して機器の作動制御を行うことが、パソコンを初めとして一般家庭用機器等の各種の分野で広く行われており、その研究開発が急速に進められている。このような音声により機器の作動を制御する分野の一つとして、各種の車載機器を音声により操作することが注目されている。即ち、車載機器の多くは運転者が操作する場合が多く、一方、運転者は安全運転のために、できる限り車載機器の操作に注意をそらせることは好ましくない。
【0003】
近年の車載機器はオーディオ装置の高度化、ナビゲーション装置の機能の多様化等のため、これらの機器に対して各種の作動指示を行うことが多くなっている。この対策として、上記音声認識装置を用い、運転者は前方を注視したままで、例えばオーディオ機器を音声により操作すること、あるいは、ナビゲーション装置において近隣施設検索を音声で指示し、ナビゲーション装置では音声でこれに応える、というシステムが考えられており、一部実用化され、車載用のユーザーインターフェースとして脚光を浴びている。
【0004】
現在の音声認識システムでは、離散単語認識、連続単語認識の技術が確立されてきている。即ち、離散単語認識は認識させる単語を一つづつ音声入力し、その一つずつを音声認識処理するもので、各種製品の操作などに以前から使用されていた。ここで処理される単語については、近年、大語彙認識が可能になり、比較的長い単語でも正確に認識できるようになり、カーナビゲーションでも採用されている。
【0005】
一方、連続単語認識は、認識させたい単語を複数連続して発生しても各単語を分解して認識可能なシステムで、例えば地名を入力する際に、「東京都港区青山」と発生すると、入力された言葉は「東京都」「港区」「青山」で構成されことを識別し、各単語を順次認識するものであり、音声認識装置としては非常に使いやすいシステムということができる。このような連続単語認識は、特にカーナビゲーション装置において比較的語彙数の限られている、地名や施設の検索に有効であるといわれており、実用化されつつある。
【0006】
しかし、上記のような連続単語認識は、連続して入力される複数の単語を適切な部分で分離する必要があり、きわめて多くの辞書から適切と思われる単語を検索することを繰り返す必要があり、きわめて多くのデータ処理を行う必要があるため、高速の演算性能を備えたMPUが必要となり、非常に高価なシステムになってしまうという欠点があった。
【0007】
それに対して、離散単語認識は一つの単語であることをユーザが指定して入力するので上記のような単語を分離するデータ処理が不要となり、比較的安価なハードウェアでも正確な認識が実現可能となり、したがって、現在は未だこのような離散単語認識を用いて入力する方式が多い。このような離散単語認識を用いて例えば地名などを入力する場合には、日本のユーザーは「都道府県名」「市区町村名」「丁字」の、広域の地名から狭域の地名の階層順に地名を入力し、各単語入力毎に音声認識開始トリガースイッチを押下することにより音声認識を実現している。
【0008】
上記のように、地名の入力に際して、都道府県名から入力するのは、単に日本の地名がこの順に表現されるからのみではなく、地名の音声認識処理が早くなり、且つ認識精度が向上するからである。即ち、当然のこととして、広域の地名である各都道府県の1つ1つに市区町村が存在し、更に各市区町村の1つ1つに狭域の地名である丁字が存在するため、最初に都道府県名を認識すると、その認識された都道府県の中の市区町村が抽出されて次に入力される単語の候補となり、全国の市区町村全体の中では限られたもののみが候補として絞られる。次に市区町村名を認識すると、その認識された市区町村の中の丁字が抽出されて次に入力される単語の候補となり、これも同様に全国のきわめて多く存在する丁字の中では限られたもののみが候補として絞られることとなる。
【0009】
このように、地名の音声認識は、通常の会話の音声認識と異なり、その階層構造を利用して比較的容易に音声認識を行うことができる特性を備えている。そのため、音声認識に際して地名の音声認識を行うことが決定されると、以降は、広域側の地名から順に認識することが決められれば、認識する単語の候補はきわめて限られ、比較的処理速度の遅いMPUを用いても高速に、しかも正確に認識することができる。
【0010】
【発明が解決しようとする課題】
上記のように、地名の音声認識処理は一般会話等の音声認識処理に比較してきわめて容易であるにもかかわらず、前記離散単語認識の方式では、都道府県名を発音した後、音声認識開始用SWを操作し、データ変換部による音声認識結果を確認した後次の市区町村名を発声するという操作を繰り返すこととなり、操作が煩わしいという問題点があった。
【0011】
一方、海外の地名についてみると、例えば米国においては、広域の地名としては「州」が存在し、以降は「シティー」等に細分化された地名、狭域の地名として「ストリート」等の道路名と「番地」が存在し、その地名データ量は当然前記日本の場合と同様に、広域地名の数は少なく、狭域地名の数は多大のものとなる。しかしながら、通常の地名の表示、及び会話に際しては、日本とは逆に、狭域側である「ストリート」から示し、最後に広域側の「州」を示す習慣となっている。
【0012】
上記米国のように地名を狭域側から広域側に示す海外諸国においては、前記日本のように最初に示したものからそのまま音声認識する方式では、最初に莫大な数の地名候補が存在する狭域の地名群の中から、示された地名を選択する必要があり、データ処理量がきわめて多くなり、多くの時間がかかると共に認識の正解率が低下する。そのため、このような国における地名の音声認識において、従来の音声認識装置を使用する際には、通常言い慣れた「ストリート」等の狭域側から地名を示すことは好ましくなく、逆に「州」の広域側から地名を示すことが好ましいこととなり、使いにくい音声認識装置とならざるを得ない。
【0013】
また、上記のような従来の離散単語認識方式を用いると、地名を「州」側から発声して音声入力を行って音声認識開始用SWを操作して音声認識結果の確認処理を待ち、その後に次に続く地名の発声を行うという操作を繰り返す必要があり、前記日本の場合と同様に、その操作が煩わしいという問題点も存在する。
【0014】
したがって、本発明は、地名の音声認識に際して、離散単語認識方式の音声認識装置においても、連続単語認識システムと同様に近い使い勝手の良い音声認識装置とすることができ、また、海外でこの音声認識装置を使用する際に、地名の狭域側のストリートから広域側の州に向けて発声しても、逆の広域側から音声認識処理を行うことができ、それによりデータ変換処理を高速で行うことができると共に、音声認識の正解率を向上させることができる音声認識装置を提供することを主たる目的としている。
【0015】
【課題を解決するための手段】
本発明は、上記課題を解決するため、住所の音声を順に入力する音声入力部と、音声入力の区切りを検出する音声区切り検出部と、入力した音声データを該音声区切り検出部の信号により区切って順に蓄える複数のメモリ領域を備えた音声データ蓄積部と、該複数のメモリ領域の音声データを所定の順序で読み出す音声データ読出部と、前記音声データ読出部において、前記音声データ蓄積部で複数のメモリに順に蓄えた音声データを、蓄積順と順方向と逆方向のいずれかを選択して読み出す設定を行う読出順設定部と、読み出された音声データを順にデータ変換するデータ変換部と、変換したデータを外部機器の制御部に出力する出力部と、を備えたことを特徴とする音声認識装置としたものである。
【0017】
また、請求項2に係る発明は、前記音声区切り検出部は、スイッチの押下を検出する請求項1記載の音声認識装置としたものである。
【0018】
また、請求項3に係る発明は、前記音声区切り検出部は、入力した音声の無音入力時間により検出する請求項1記載の音声認識装置としたものである。
【0019】
また、請求項4に係る発明は、前記データ変換部は、入力した音声の無音入力時間が所定時間以上であることを検出してデータ変換を開始する請求項1記載の音声認識装置としたものである。
【0020】
また、請求項5に係る発明は、複数のメモリ領域を切り替える際に、次の音声入力を促す信号を出力する請求項3記載の音声認識装置としたものである。
【0021】
また、請求項6に係る発明は、前記次の音声入力を促す信号が、次に音声入力する単語のカテゴリーを示す請求項5記載の音声認識装置としたものである。
【0022】
また、請求項7に係る発明は、データ変換部には広域辞書から狭域辞書まで階層別に展開された地名辞書を接続し、音声データ蓄積部のメモリ領域から広域順に読み出される音声データに対応して所定の地名辞書を選択する変換辞書選択部を備えた請求項1記載の音声認識装置としたものである。
【0023】
【発明の実施の形態】
本発明の実施の形態を図面に沿って説明する。なお、図1は本発明の音声認識装置の機能ブロック図を示し、図2は本発明の音声認識装置の主として音声入力部を示す作動フロー図を示し、図3は本発明の音声認識装置の主として音声認識部を示す作動フロー図であり、図4は音声認識装置に用いる地名変換辞書の構成図であり、図5は本発明の音声データ蓄積部を構成するメモリ領域内のメモリ内容を示す図である。
【0024】
本発明の音声認識装置は、図1に示すように、マイク10からの音声信号を入力する音声入力部11と、入力した音声を各種機器作動用の信号に変換する音声認識部12とから構成されている。
【0025】
音声入力部11は、前記マイクのからのアナログ信号をアナログ・ディジタル変換器(A/D)13により、信号処理の行いやすいディジタル信号に変換する。
このディジタル信号は、図示されないMPU、プログラムを格納したROM等とデータの授受を行うA/Dインターフェース回路(I/F)14を介して、音声データ蓄積部としての音声データ蓄積部14に入力する。音声データ蓄積部15にはn個のメモリ領域が存在し、音声区切り検出部16からの信号により、メモリ領域切替部18が入力した音声データをメモリ領域1から順に、メモリ領域2,メモリ領域3の順序でメモリし領域を切り替えて蓄積する。
【0026】
このようにメモリ領域を複数備えると、各メモリ領域には、後述するように地名データの単語を分割して入力し、これを読み出す際に任意の順序で読み出すことができるようにするために特に有効であるが、このような地名の入力以外の一般的な音声入力においても、単語毎に区切ってそれぞれの領域に順に蓄積し、データ変換に際しては順にこれを読み出してデータ変換を行い、最終的に全データを自動的に変換するために使用することも可能である。
【0027】
前記音声区切り検出部16は、音声データ蓄積部15に入力される音声信号を検出し、一時的に入力音が途切れたことを検出し、あるいは音声認識装置の外部に設けた音声区切トリガースイッチ17を利用者が操作したことを検出することにより、入力される音声の単語が区切られていることを検出する。なお、前記メモリ領域切替部18には、その切替が終了したことにより次の音声入力が可能となったことを利用者に知らせるための、切替終了出力部を接続することもできる。
【0028】
音声認識部12には音声認識開始信号検出部19と読出順切替部21で制御される音声データ読出制御部20を備えている。音声認識開始信号検出部19では、音声データ蓄積部15に入力される音声信号を監視して、入力音が所定時間以上とぎれたことを検出することにより、音声入力が少なくとも一時的に停止し、音声認識の開始を待つ状態であると推定し、或いは必要に応じて音声認識装置の外部に設けられ、利用者により操作される音声認識開始トリガースイッチ23が操作されたことを検出し、それにより音声データ読出制御部20によって音声データ蓄積部15内の音声データの読み出しを開始させる。
【0029】
また、音声データ読出制御検出部20には読出順指定部21が接続され、予め工場の生産ラインで設定され、或いは利用者が適宜設定する音声認識装置の外部に設けた読出順設定部22からの信号を検出して、音声データ読出制御部20が音声データ蓄積部15内のメモリ領域1乃至nの音声データを読み出す順序を任意に指定することができるようにしている。それにより、後述するように、使用される地域が日本の場合には、地名に関する音声認識のためにメモリ領域1から3に向けて順に読み出すように設定し、また米国等の海外で使用する際には、その国の地名の表現方式に対応して、メモリ領域nから1に向けて順に読み出すように設定することができる。
【0030】
前記読出順指定部21には、図示実施例においては変換辞書選択部25からの信号を入力できるようにしており、後述するようにデータ変換部24において、これから入力される音声データは地名データであることが識別され、変換辞書選択部25に対して変換辞書部26において地名辞書を選択する指示が行われた時に、その信号を入力する。それにより、地名データの変換モードにおいて、音声データ蓄積部15からの通常の使用状態と異なる読み出し順とするときには、その読み出し順とする指定信号を出力する。
【0031】
また、音声データ読出制御部20はデータ変換部24から、先に入力した音声単語データの変換が終了した旨の信号を受け、指定された順序で音声データ蓄積部15の次のメモリ領域の音声データを読み出すことができるようにしている。
【0032】
データ変換部24は音声データ読出制御部20により順に読み出される音声データを一つづつ入力し、変換辞書選択部25により選択された変換辞書部26の所定の辞書データを用いてデータ変換を行う。図1に示す実施例における変換辞書部26は、本発明が特に有用である地名検索を行うための地名変換辞書部分を代表例として示しており、この地名辞書内は「広域」「中域」「狭域」更に必要に応じてこれを展開している「細展開域」等の複数の階層に展開している。なお、図示実施例においては前記のように3つの階層に展開した例を示しているが、前記音声データ蓄積部15と同様に、4個、5個等任意の階層に展開して構成しておくこともできる。
【0033】
変換辞書部26には、例えば「ちめい」等の言葉を認識することができる、図中「その他の辞書」として示している辞書部分も備えている。それにより、音声認識の開始時において変換辞書選択部25は「その他の辞書」を選択しておくことにより、「ちめい」等の音声が入力されるとき、これをその他のモードの辞書から検索し、以降は地名入力がおこなわれることが認識される。それにより、変換辞書選択部25は、以降は変換辞書部26の地名辞書を用いることを指示するとともに、音声データ読出制御部20から入力される音声の1番目の単語については「広域」の辞書から検索を行うことも指示する。上記地名の入力は、例えばナビゲーション装置において、目的地や経由地の設定、所在地のわかっている地点や施設の検索等に用いられる。
【0034】
このような設定状態において、データ変換部24には音声データ読出部20から前記設定された順序で音声データ蓄積部15内のメモリ領域から最初の音声データが読み出され、前記のようにして選択された変換辞書部26における地名モード中の広域の部分の辞書を検索し、データの変換処理を行う。変換終了後データ変換部24は、音声データ読出制御部20に次のメモリ領域の音声データの読み出しの指示を行い、同時に変換辞書選択部25には変換辞書部26における前回に使用された広域のデータのうち、前記認識された広域の地名の下位に展開されている「中域」の辞書を選択するよう指示する。
【0035】
同様にして、前記設定された順序で音声データ蓄積部15の次のメモリ領域から音声データを読み出し、前記のように選択された変換辞書部26の地名モードにおける中域の辞書に基づいてデータの変換を行う。この変換終了後データ変換部は、前記と同様に音声データ読出制御部20に対して、次のメモリ領域から音声データを読み出すことを指示し、読み出された音声データを入力する。また、変換辞書選択部25に対して前記と同様に、認識された中域の地名の下位に展開されている狭域のデータを読み出すことを指示する。このようにして地名の音声データは、データ変換部24で前記のように選択された狭域の辞書に基づいてデータの変換が行われる。以下、必要に応じて次のメモリ領域から音声データを読み出し、細展開域の地名辞書を用いて順にデータ変換を行う。
【0036】
データ変換部24で上記のようにして変換された音声データは、通信インターフェース(I/F)27を介して、ナビゲーション装置等、この音声認識装置により作動が制御される機器の制御部に対して出力する。このデータの出力に際しては、データ変換部24で変換された順序に外部に出力することができる一方、データ変換部等にメモリを設け、前記実施例において地名に関するデータの変換を全て終了した後に外部に出力することができる。それにより、例えばナビゲーション装置においては、地名とその地名を代表する地点の緯度・経度データの対応表等にアクセスし、音声入力された地名の位置データを得ることができ、これを目的地や経由地等のデータとして用いることができる。
【0037】
上記のように構成される機能部を備えた本発明の音声認識装置は、本発明が有効な代表的例である地名の音声認識処理に際して、図2に示すフローによって作動することができる。即ち、最初、音声認識装置に対して地名入力を行うことを示すため、例えば「ちめい」等の音声を発すると、最初は図1の変換辞書部26における「その他の辞書」を選択するようにしているので、その辞書を用いてデータ変換し、以降は地名の入力モードに切り替えられる(ステップS1)。それにより、変換辞書切替部25が変換辞書部26においてそれ以降は地名辞書を選択するように切り替える(ステップ2)。
【0038】
このようにして音声認識変換辞書を地名辞書に切り替える手段としては、前記のような音声の他、例えば装置の外部に設けたスイッチの操作、タッチパネルの操作、ナビゲーション装置における目的地入力モードとなったことの検出等、種々の方式により地名音声入力を行うことを検出し、それらによっても地名辞書の選択を行うことができる。上記のようにして変換辞書における地名辞書を選択することにより、明確に階層構造となっているこの辞書を、地名音声入力時に確実に選択して使用することができる。
【0039】
続いて利用者が地名の入力のため、例えば「東京都・千代田区・霞ヶ関」を音声入力するときには、最初「とうきょうと」と発声する(ステップS3)。この音声は今回の音声認識における最初の単語であるので(ステップS4)、図1の音声データ蓄積部15における最初の領域、図示の例においてはメモリ領域1にメモリされる(ステップS5)。このように、最初の単語は常にメモリ領域1に入力され、以降の音声データはメモリ領域2から順に入力される。
【0040】
最初の音声信号の入力直後から、その音声データのメモリ期間中において、入力される音声信号中に、単語の区切りを意味する例えば1秒等の無音区間等の音声単語区切り信号が存在するか否かを判別しており、存在しない場合は一つの単語が継続しているとして、メモリ内へのデータの蓄積を継続する。しかしながら例えば1秒間以上の無音期間が存在することを検出すると、今回音声データを蓄積しているメモリ領域は、音声データ蓄積部の中の最後のメモリ領域であるか否かを判別し(ステップS7)、この例の場合は最初のメモリ領域であるので、メモリ領域切替部のメモリ領域を次の領域に切り替え(ステップS8)、次に入ってくる音声データのメモリ先を定める。なお、音声単語区切り信号としては、前記のような無音期間の他、図1に示すような音声区切トリガースイッチ17を備え、これを利用者が操作する場合は、利用者が単語の区切りであることを示すためにこのスイッチを操作した信号を入力することにより、確実に単語の区切りの信号を検出することができる。
【0041】
マイクからの音声信号はアナログディジタル変換等の処理を行った後に、前記のようにメモリ領域への書き込みが行われるので、その処理は高速で行われるもののある程度の時間を要するので、確実に単語一つ分の音声データがメモリ領域に蓄積された後に、次のデータ蓄積のためのメモリ領域の切り替えが行われる。その切り換えは、音声データ蓄積部のメモリ領域において領域1,2,3のように昇順等の所定の順番に切り替えられる。この切り替え操作が終了したか否かを判別し、終了するまで待つ(ステップS9)。終了したならば、この音声認識装置においては、利用者に対して次の音声入力を促す信号を出力するようにしている(ステップS10)。
【0042】
なお、次の音声入力を促す信号としては、スピーカからその旨を出力することができ、その際には例えば「次に市区町村を言って下さい。」等のように、次に入力する地名のカテゴリーを示すように構成することもでき、このようにすることによりより確実な音声入力を行うことができる。また、次の音声入力を促す信号としては、上記のような音声のほか、例えば緑ランプの点灯、或いは赤ランプから緑ランプへの表示切り替え等の出力を行うこともできる。
【0043】
その後、音声入力が終了したことを示す信号が検出されたか否かの判別を行う(ステップS11)。このような音声入力が終了したか否かの信号としては、例えば、音声入力を促す信号を出力しても、所定時間以上音声入力が行われなかったこと、即ち所定時間以上の無音時間が存在することを検出した信号を用いることができ、また、図1に示す音声認識開始トリガースイッチ23を利用者が操作したことを検出するようにしてもよい。前記音声入力においは、「とうきょうと」と入力したのみであるので、次の「千代田区」を入力するためステップ3に戻る。同様にして「ちよだく」と発声すると、この音声入力が最初の単語であるか否かを判別し、今回の音声入力は2番目の単語であるので、先に切り替えたメモリ領域2内にこの音声データをメモリする(ステップS12)。
【0044】
以降は前記と同様に、音声単語区切り信号の検出、メモリ領域を次の領域に切り替え、次の入力を促す信号の出力等の作動を行い、再び音声入力終了信号を検出したか否かの判別に至る(ステップS13)。上記実施例においては、次に「霞ヶ関」を入力する必要があるので、ステップS3に再び戻り、ここで「かすみがせき」と発声する。以下も同様に、切り替えた領域にこれをメモリするが、この時はメモリ領域3にメモリされることとなる。音声データ蓄積部に3個のメモリ領域しか持っていないときには、ステップS7において、メモリした領域は最後の領域か否かの判別において、最後の領域と判別され、ステップS13に進み、次の作動である音声認識が開始される。
【0045】
なお、音声データ蓄積部15内に上記のような3個以上の更に多数のメモリ領域が存在するときには、前記判別の後上記作動を繰り返す。しかし、この実施例においてはこの「霞ヶ関」の単語が最後の単語であるため、ステップS10において次の信号を促す信号を出力したにもかかわらず音声信号を入力しないので、所定時間以上の無音時間が存在することを検出して次の作動である音声認識を開始することができる。また、音声認識開始トリガースイッチ23が操作されたときにも同様に音声認識が開始される。
【0046】
音声認識に際しては、図3のフローに示すような作動が行われる。最初、図1の読出順指定部21で指定した読み出し順が、メモリ領域の番号の昇順であるか否かが判別される。
【0047】
ここで、入力された地名音声が、例えば日本における通常の地名表現方法に沿い「東京都・千代田区・霞ヶ関」と、「東京都」の広域側から「霞ヶ関」の狭域側に向けた順序で発声されるときには、前記音声データ蓄積部15には発声順にメモリ領域1から順にメモリされているので、読み出し順指定部21はメモリ領域番号の昇順、即ちメモリ領域1から順に読み出すように指定している。したがって、この音声認識装置を用いている機器を日本人が使用するときには、上記のように指定しているので、読出順指定はメモリ領域の昇順であると判別される(ステップS21)。
【0048】
次いで、この音声データの読み出しが最初の読み出しであるか否かが判別され(ステップS22)、この場合は最初の読み出しであるので、メモリ領域1にメモリされた音声データを読み出す(ステップS24)。この音声データは図1のデータ変換部24に入力され、データ変換部24は入力した音声データが最初のデータであることにより変換辞書選択部25に、変換辞書部26における地名辞書の広域辞書を選択するように指示する。それによりデータ変換部は、広域辞書のデータにアクセスして検索することができる。
【0049】
上記変換辞書部26における地名辞書には、例えば図4に示すようなデータが格納されている。即ち、同図には日本の地名の地名認識辞書の例を示しており、広域としての都道府県データ部分には、「北海道「から「沖縄」まで47のデータが入っている。また、中域としての市区町村の階層には、図示の例では「東京都」について示しているように、「足立区」から「目黒区」までの区部と、「秋川市」等の市部と、「八丈町」等の町部と、「青ヶ島村」等の村部が存在し、64の市区町村が存在している。更に、狭域としての丁字の階層には、図示の例では「千代田区」について示しているように、「飯田橋」から「六番町」までに約60の丁字が存在している。なお、これら各域における地名の配列順は、五十音順、或いは音声波形順等、任意の配列としておくことができる。
【0050】
また、例えば「一番町」のようにその下に「・・丁目」が存在しない場合と、「飯田橋」の場合のように「・・丁目」が存在する場合とがあるが、丁字の階層にはこの「・・丁目」のデータもを含めて配置しておくことができる。また、この部分は更に下位に展開した辞書としてもつこともでき、また、この部分については地名辞書を用いることなく、この段階で変換辞書選択部25により辞書を「その他の辞書」に切り替えて一般の辞書を用いることもできる。
【0051】
前記のようにして広域辞書が選択されると(ステップS24)、入力した音声データと、この広域辞書に含まれる辞書データと比較して一致するものを検索し、そのデータを通信I/F27を介して各種機器制御部28に出力する。なお、この時変換したデータのバッファを設けておくことにより、音声データ蓄積部のメモリ領域に入力された一連のデータが全て変換するまで順に保存しておき、その変換が終了した後に、一度に通信I/Fから各種機器の制御部に出力するようにしてもよい。
【0052】
最初の音声データの変換が終了すると、データ変換部24では前記地名辞書中に、先に変換した地名に対して下位の階層に展開している地名辞書が存在するか否かを判別する(ステップS26)。上記例の場合は「東京都」の下位に中域辞書が存在するので、変換した地名の下位に展開している辞書を選択するように、変換辞書選択部25に出力し、変換辞書選択部25では前記中域の階層の地名辞書を選択する。(ステップS27)。
【0053】
次いで、全ての音声データの変換が終了したか否かの判別が行われ、前記例の場合は1番最初の音声データであり、未だメモリ領域に音声データが残っているのでステップS21に戻り、同様の作動を行う。この時、図1のデータ変換部24は音声データ読出制御部20に変換が終了したので次のデータの出力を指示する信号を送る。
【0054】
図2の作動フローにおける、ステップ21の読出順指定はメモリ領域の昇順か否かの判別においては、読出順指定部21は特に指定の変更を行う必要ががないので、前回と同様に昇順とされている。次いで、ステップS22においてこの読み出しが最初の読み出しであるか否かが判別され、この例では2回目の読み出しであるので[N]となり、ステップ29に進み、次のメモリ領域、即ちメモリ領域2から音声データの読み出しを行う。この領域2には前記例の場合は「ちよだく」の音声データがメモリされており、これが読み出されて変換部24に入力される。
【0055】
この時のデータ変換に際しては(ステップS25)、先に変換辞書部26における地名辞書中において、「東京都」の市区町村の展開がなされている図4に示すようなデータの入った中域辞書が選択されているので、この辞書データと入力された「ちよだく」の音声データとを比較してデータの変換を行う。その結果、上記例の場合は千代田区であることが認識される。
【0056】
上記「千代田区」の認識の結果に基づき、前回と同様に、この地名に対して下位の階層に展開している地名辞書が存在するか否かが判別される(ステップ26)。上記例の場合は「千代田区」の下位に狭域辞書が存在するので、千代田区の丁字を展開している狭域辞書を地名辞書の中から選択するように変換辞書選択部25に出力し、変換辞書選択部25では前記狭域の階層の地名辞書を選択する(ステップS27)。
【0057】
その後、全音声データの変換が終了したか否かの判別が行われ、前記例の場合はメモリ領域3に読み出されていないデータが残っているので、再びステップS21に戻る。この時、前記と同様に、変換した音声データを直接外部に出力することもでき、また、データバッファに先の変換データと共に蓄えておき、全て変換されてから出力することもできる。
【0058】
以下同様の作動を行い、読み出し順指定はメモリ領域の昇順のままであるので、最初の読み出しかの判別の後(ステップS22)、次のメモリ領域からの読み出しを行う(ステップS29)。先に読み出されたメモリ領域は領域2であったので、次のメモリ領域3の音声データが読み出される。前記の例の場合は「かすみがせき」の音声データがメモリされており、これが読み出されて変換部24に入力される。
【0059】
この時のデータ変換に際しては(ステップS25)、先の変換辞書部26における地名辞書中において、「千代田区」の丁字の展開がなされている図4に示すようなデータの入った狭域辞書が選択されているので、この辞書データと入力された「かすみがせき」の音声データとを比較してデータの変換を行い、その結果、「霞ヶ関」であることが認識される。
【0060】
この変換結果に基づいて、変換辞書中に認識した地名に対し、更に展開した地名辞書が存在するか否かが判別される(ステップS26)。地名辞書にこれ以上の展開が存在しないときには、その他の辞書の選択を行う(ステップS30)。この時、例えば図4の狭域辞書部分に示すように、霞ヶ関については1丁目から3丁目まで存在するので、この下位に更に展開した地名辞書を備える場合には、前記判別において変換地名の下位展開の辞書はある、として前回と同様にステップS27に進む。
【0061】
また、この時、音声データ蓄積部15中にメモリ領域4が存在し、ここに「・・丁目」の音声データをメモリした場合には、全音声データの変換は終了していないとして、再びステップ21に戻ることとなる。なお、メモリ領域4に「・・丁目」の音声データが入力された場合であって、地名辞書に「・・丁目」等の下位の展開地名辞書が存在しない場合には、その他の辞書を選択した後(ステップS30)、全音声データの変換が終了しないとして(ステップS28)ステップ21に戻り、データの変換時に、一般的な音声変換用の辞書であるその他の辞書のデータに基づいて「・・ちょうめ」の音声認識が行われることとなるが、この音声データは通常頻繁に使われるので、これを一般的な辞書に基づいて変換しても容易に、且つ正確に変換することができる。
【0062】
前記実施例においては、例えば音声データ蓄積部15のメモリ領域が3個しか存在せず、また、変換辞書部26の地名辞書も3つの階層しか存在しない場合は、前記のようにその他の辞書を選択した後、全音声データの変換終了したか否かの判別において(ステップS28)、終了したと判別され音声認識の作動は終了する。この時、前記のように音声認識データの出力を行うが、認識したデータを一時的に蓄えておくバッファが存在し、ここに先のデータも蓄えられていたときには、ここで外部の機器の制御部にこれをまとめて出力しする。それにより、例えばナビゲーション装置における目的地設定に際して、前記データにより指定された地点を代表する緯度と経度を他のデータから読み出し、その地点を目的地として設定し、また、その地点の地図を表示する等の作動を行うことができる。
【0063】
上記実施例においては、日本の地名の音声認識に際しても、従来の装置のようにメモリ領域を1つしか持たず離散単語認識を行うものよりも、はるかに使用性を向上することができ、且つ正確な音声認識を行うことができるものであるが、更に、例えばストリート名から先に表現する等、狭域側から表現する米国等の海外の地名を音声認識する際に特に有効となる。
【0064】
例えば、米国内で車を運転しているとき、ニューヨーク(New York)州(State)のニューヨーク市(City)におけるパークアベニュー(Park Avenue)299番という所在地がわかっている、日本大使館の在ニューヨーク日本総領事館を探すため、ナビゲーション装置に対してその所在地を音声認識装置により入力し、その地点をナビゲーション装置の画面上に表示させたいとする。そのときに、ナビゲーション装置に本発明の音声認識装置を搭載していると、前記のように狭域側から表現する米国の通常の地名表記方式のままでこれを読み上げると、音声認識装置は自動的に広域側から音声認識のデータ変換を行い、効率が良く正確な音声認識を行うことが可能となる。
【0065】
即ち、上記のような場合、図1に示す読出順設定部22によって、予め音声データ蓄積部15のメモリ領域n側からメモリ領域1に向けて、換言するとメモリ領域の降順に読み出すように読出順指定部21にセットしておく。この状態で音声認識装置を作動し、前記図2に示すフローにより音声データを音声データ蓄積部15に蓄積させる。この時、利用者は「299」「Park Avenue」「New York City」「New York State」と通常の地名表記方式のとおりに発声する。それにより前記日本の地名の作動と全く同一に作動を行い、メモリ領域1に「299」が、メモリ領域2に「Park Avenue」が、メモリ領域3に「New York City」が、メモリ領域4に「New York State」がメモリされることとなる。
【0066】
このようにして、全ての音声データが単語毎に音声データ蓄積部15にメモリされた後、図3に示すフローに沿ってデータの変換が行われる。即ち、読出順指定はメモリ領域の昇順かの判別において、前記のように読み出し順指定部21において降順になるようにセットしているので「N」となり、ステップ30に進んで最初の読み出しか否かが判別される。ここでは最初の読み出しであるのでメモリ領域nから読み出しが行われる(ステップS31)。なお、音声データ蓄積部15に例えば10個のメモリ領域が存在するときには、メモリ領域10から読み出しが行われることとなるが、この部分にはデータが存在しないのでメモリ領域9にアクセスし、以下同様の作動によりメモリ領域4にアクセスしたときに初めて音声データが存在するので、メモリ領域4から最初の音声データである「New York State」を読み出すこととなる。
【0067】
この音声データはデータ変換部において、前記日本の地名の音声認識と同様に、変換辞書部26の地名辞書における広域辞書が選択され(ステップS24)、データの変換がなされる(ステップS25)。地名辞書においては、前記日本の地名と同様に、「State」等の広域の地名の下に「City」等の中域の地名、その下に「Avenue」や「Street」等の狭域の地名、その下に必要に応じて細展開域の地名を備えている階層構造を備えている。
【0068】
以降は前記日本の地名の音声認識と全く同様に作動するので、その詳細な作動の説明は省略するが、日本の地名の音声認識と異なる点は、前記のようにメモリ領域の番号を降順に読み出す点のみである。それにより、上記のように狭域側から発声した地名音声は、前記日本の場合と同じく広域側から順に読み出され、同様に広域側から順に読み出される地名辞書に基づいて変換することができる。このようにすることにより、従来の音声認識装置においては音声データ蓄積部のメモリ領域が1つしかないため、発声順序の狭域側から順に音声認識処理を行うと、最初は莫大な数の地名候補が存在する狭域側の全ての地名データから入力した音声データと一致するものを選択することとなり、多くの処理時間を必要とし且つ認識率も低下するが、上記音声認識装置においては、狭域側から音声データを入力しても、広域側からデータ変換処理を行うことができ、処理速度が速く、しかも確実にデータ変換処理を行うことができる。
【0070】
本願の請求項1に係る発明は、単語音声を1語ずつ認識処理する離散単語入力方式であるにもかかわらず、1語1語のデータ変換処理を待つことなく音声入力することができ、複数の音声単語の入力が終了した後に音声認識処理を行うことができるので、安価なMPUを備えた音声認識装置でも、連続単語入力方式のように操作性の良い装置とすることができる。特に、複数のメモリ領域の音声データを所定の順序で読み出す音声データ読出部を備えているので、発声順にメモリ領域にメモリした音声データでも、変換辞書の構成等に合わせてデータ変換を行いやすい順序で読み出してデータ処理を行うことができ、種々の入力形式、入力順序をもつ音声認識装置にも広く対応することができる。
また、「音声データ読出部において、前記音声データ蓄積部で複数のメモリに順に蓄えた音声データを、蓄積順と順方向と逆方向のいずれかを選択して読み出す設定を行う読出順設定部」を備えているので、住所検索特有の課題である、米国等の外国のように挟域から広域に入力する住所の音声を認識する際、住所検索辞書に記憶されている広域から挟域へ絞り込むためのデータを用いることが困難であるという問題を、上記のようにして容易に解決することができるばかりでなく、日本のように広域から挟域に入力する住所の音声認識においても、読み出し順設定部の設定によって容易に切り替えて用いることができ、且つ処理速度が速く、且つ正確な音声認識を行うことができる。
【0072】
請求項2に係る発明は、前記音声区切り検出部は、トリガースイッチの押下を検出するので、音声単語の区切りを確実に検出することができ、認識処理を正確に行うことができる。
【0073】
請求項3に係る発明は、前記音声区切り検出部は、入力した音声の無音入力時間により検出するので、利用者は何らの操作も行うこと無しに単に単語と単語の間に一時的な無音期間をおくだけで一連の音声認識処理を行うことができ、離散単語認識処理を行うにも関わらず、連続単語認識処理を行う音声認識装置と同様に、操作性の良い音声認識装置とすることができる。
【0074】
請求項4に係る発明は、前記データ変換部は、入力した音声の無音入力時間が所定時間以上であることを検出してデータ変換を開始するので、利用者は何らの操作も行うこと無しに、自動的にデータ変換処理を開始させることができ、操作性の良い音声認識装置とすることができる。
【0075】
請求項5に係る発明は、複数のメモリ領域を切り替える際に、次の音声入力を促す信号を出力するので、利用者は音声認識装置装置の指示に従って音生入力するのみで確実なデータ変換処理を行わせることができ、利用性の良い音声認識装置とすることができる。
【0076】
請求項6に係る発明は、前記次の音声入力を促す信号が、次に音声入力する単語のカテゴリーを示すので、利用者は音声認識装置装置の指示に従って音生入力するのみでより、利用する音声認識辞書に合わせて入力することができ、確実なデータ変換処理を行わせることができ、また、利用性の良い音声認識装置とすることができる。
【0077】
請求項7に係る発明は、データ変換部には広域辞書から狭域辞書まで階層別に展開された地名辞書を接続し、音声データ蓄積部のメモリ領域から広域順に読み出される音声データに対応して所定の地名辞書を選択する変換辞書選択部を備えているので、地名の音声入力に際して、例えば海外での地名の表現方式のように、狭域側から順に音声入力を行っても、広域側からデータ変換を行うことができ、広域側から階層別に使用しやすいように展開されている地名辞書を用いて、高速で、確実にデータ変換処理を行うことができる。
【図面の簡単な説明】
【図1】本発明の実施例の機能ブロック図である。
【図2】本発明の実施例の音声認識処理において、音声入力処理部分を中心として示す作動フロー図である。
【図3】本発明の実施例の音声認識処理において、データ変換部分を中心として示す作動フロー図である。
【図4】本発明の音声認識装置に用いられる地名認識用辞書の一例を示す構成図である。
【図5】本発明の音声認識装置に用いられる音声データ蓄積部のメモリ領域とメモリされる地名音声データの内容を示す説明図である。
【符号の説明】
10 マイク
15 音声データ蓄積部
19 音声認識開始信号検出部
20 音声データ読出制御部
21 読出順指定部
24 データ変換部
25 変換辞書選択部
26 変換辞書部
Claims (7)
- 住所の音声を順に入力する音声入力部と、
音声入力の区切りを検出する音声区切り検出部と、
入力した音声データを該音声区切り検出部の信号により区切って順に蓄える複数のメモリ領域を備えた音声データ蓄積部と、
該複数のメモリ領域の音声データを所定の順序で読み出す音声データ読出部と、
前記音声データ読出部において、前記音声データ蓄積部で複数のメモリに順に蓄えた音声データを、蓄積順と順方向と逆方向のいずれかを選択して読み出す設定を行う読出順設定部と、
読み出された音声データを順にデータ変換するデータ変換部と、
変換したデータを外部機器の制御部に出力する出力部と、
を備えたことを特徴とする音声認識装置。 - 前記音声区切り検出部は、スイッチの押下を検出する請求項1記載の音声認識装置。
- 前記音声区切り検出部は、入力した音声の無音入力時間により検出する請求項1記載の音声認識装置。
- 前記データ変換部は、入力した音声の無音入力時間が所定時間以上であることを検出してデータ変換を開始する請求項1記載の音声認識装置。
- 複数のメモリ領域を切り替える際に、次の音声入力を促す信号を出力する請求項3記載の音声認識装置。
- 前記次の音声入力を促す信号が、次に音声入力する単語のカテゴリーを示す請求項5記載の音声認識装置。
- データ変換部には広域辞書から狭域辞書まで階層別に展開された地名辞書を接続し、音声データ蓄積部のメモリ領域から広域順に読み出される音声データに対応して所定の地名辞書を選択する変換辞書選択部を備えた請求項1記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP33689999A JP3830124B2 (ja) | 1999-11-26 | 1999-11-26 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP33689999A JP3830124B2 (ja) | 1999-11-26 | 1999-11-26 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001154691A JP2001154691A (ja) | 2001-06-08 |
JP3830124B2 true JP3830124B2 (ja) | 2006-10-04 |
Family
ID=18303680
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP33689999A Expired - Fee Related JP3830124B2 (ja) | 1999-11-26 | 1999-11-26 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3830124B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4104313B2 (ja) | 2001-10-03 | 2008-06-18 | 株式会社デンソー | 音声認識装置、プログラム及びナビゲーションシステム |
JP4869642B2 (ja) * | 2005-06-21 | 2012-02-08 | アルパイン株式会社 | 音声認識装置及びこれを備えた車両用走行誘導装置 |
JP2007271876A (ja) | 2006-03-31 | 2007-10-18 | Denso Corp | 音声認識装置および音声認識用のプログラム |
JP4672686B2 (ja) * | 2007-02-16 | 2011-04-20 | 株式会社デンソー | 音声認識装置及びナビゲーション装置 |
JP2014043964A (ja) * | 2012-08-24 | 2014-03-13 | Toshiba Home Technology Corp | 加熱調理器 |
WO2017039219A1 (ko) | 2015-09-03 | 2017-03-09 | 삼성전자주식회사 | 냉장고 |
DE112017007852B4 (de) | 2017-09-11 | 2023-05-17 | Mitsubishi Electric Corporation | Spracherkennung-Wörterbuchdaten-Konstruktionsvorrichtung, Spracherkennungsvorrichtung, Spracherkennung-Wörterbuchdaten-Konstruktionsverfahren |
-
1999
- 1999-11-26 JP JP33689999A patent/JP3830124B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001154691A (ja) | 2001-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100556050B1 (ko) | 적어도위치및/또는거리이름들을위한입력시스템 | |
EP1307810B1 (en) | User interface for telematics systems | |
US9805722B2 (en) | Interactive speech recognition system | |
JP4466379B2 (ja) | 車載音声認識装置 | |
JPH10503033A (ja) | 新ワードのモデル化に基づく音声認識方法及びその装置 | |
JP2002123290A (ja) | 音声認識装置ならびに音声認識方法 | |
JP3830124B2 (ja) | 音声認識装置 | |
US6721702B2 (en) | Speech recognition method and device | |
JP4262837B2 (ja) | 音声認識機能を用いたナビゲーション方法 | |
JP2006058390A (ja) | 音声認識装置 | |
JP3726783B2 (ja) | 音声認識装置 | |
JP3337083B2 (ja) | 車載用ナビゲート装置 | |
JP4684583B2 (ja) | 対話装置 | |
JP3296783B2 (ja) | 車載用ナビゲーション装置および音声認識方法 | |
JP3759313B2 (ja) | 車載用ナビゲーション装置 | |
KR101063159B1 (ko) | 명령횟수를 줄일 수 있는 음성 인식을 이용한 주소 검색 방법 | |
JP2006220761A (ja) | 音声−数字変換装置および音声−数字変換プログラム | |
JPH08328584A (ja) | 音声認識装置、音声認識方法及びナビゲーション装置 | |
JP6987447B2 (ja) | 音声認識装置 | |
JP2002062893A (ja) | 車載ナビゲーション装置 | |
JP2000181485A (ja) | 音声認識装置及び方法 | |
JP2003005781A (ja) | 音声認識機能付き制御装置及びプログラム | |
JP4093394B2 (ja) | 音声認識装置 | |
JP2003330488A (ja) | 音声認識装置 | |
JP2000089782A (ja) | 音声認識装置と方法、ナビゲーションシステム、及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040729 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060424 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060613 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060707 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060710 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100721 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100721 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110721 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120721 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120721 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130721 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130721 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140721 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |