JP3830124B2

JP3830124B2 - 音声認識装置

Info

Publication number: JP3830124B2
Application number: JP33689999A
Authority: JP
Inventors: 一樹松田
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 1999-11-26
Filing date: 1999-11-26
Publication date: 2006-10-04
Anticipated expiration: 2019-11-26
Also published as: JP2001154691A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声を認識して各種機器を作動させるための音声認識装置に関し、特に、住所に関する音声の認識に際して、都道府県等の広域側から話す日本と、ストリート名等の、狭域側から話す米国等の外国のいずれで使用しても、効率よく認識処理することができる音声認識装置に関する。
【０００２】
【従来の技術】
近年、各種機器の作動を音声により指示し、音声認識装置によりこれを認識して機器の作動制御を行うことが、パソコンを初めとして一般家庭用機器等の各種の分野で広く行われており、その研究開発が急速に進められている。このような音声により機器の作動を制御する分野の一つとして、各種の車載機器を音声により操作することが注目されている。即ち、車載機器の多くは運転者が操作する場合が多く、一方、運転者は安全運転のために、できる限り車載機器の操作に注意をそらせることは好ましくない。
【０００３】
近年の車載機器はオーディオ装置の高度化、ナビゲーション装置の機能の多様化等のため、これらの機器に対して各種の作動指示を行うことが多くなっている。この対策として、上記音声認識装置を用い、運転者は前方を注視したままで、例えばオーディオ機器を音声により操作すること、あるいは、ナビゲーション装置において近隣施設検索を音声で指示し、ナビゲーション装置では音声でこれに応える、というシステムが考えられており、一部実用化され、車載用のユーザーインターフェースとして脚光を浴びている。
【０００４】
現在の音声認識システムでは、離散単語認識、連続単語認識の技術が確立されてきている。即ち、離散単語認識は認識させる単語を一つづつ音声入力し、その一つずつを音声認識処理するもので、各種製品の操作などに以前から使用されていた。ここで処理される単語については、近年、大語彙認識が可能になり、比較的長い単語でも正確に認識できるようになり、カーナビゲーションでも採用されている。
【０００５】
一方、連続単語認識は、認識させたい単語を複数連続して発生しても各単語を分解して認識可能なシステムで、例えば地名を入力する際に、「東京都港区青山」と発生すると、入力された言葉は「東京都」「港区」「青山」で構成されことを識別し、各単語を順次認識するものであり、音声認識装置としては非常に使いやすいシステムということができる。このような連続単語認識は、特にカーナビゲーション装置において比較的語彙数の限られている、地名や施設の検索に有効であるといわれており、実用化されつつある。
【０００６】
しかし、上記のような連続単語認識は、連続して入力される複数の単語を適切な部分で分離する必要があり、きわめて多くの辞書から適切と思われる単語を検索することを繰り返す必要があり、きわめて多くのデータ処理を行う必要があるため、高速の演算性能を備えたＭＰＵが必要となり、非常に高価なシステムになってしまうという欠点があった。
【０００７】
それに対して、離散単語認識は一つの単語であることをユーザが指定して入力するので上記のような単語を分離するデータ処理が不要となり、比較的安価なハードウェアでも正確な認識が実現可能となり、したがって、現在は未だこのような離散単語認識を用いて入力する方式が多い。このような離散単語認識を用いて例えば地名などを入力する場合には、日本のユーザーは「都道府県名」「市区町村名」「丁字」の、広域の地名から狭域の地名の階層順に地名を入力し、各単語入力毎に音声認識開始トリガースイッチを押下することにより音声認識を実現している。
【０００８】
上記のように、地名の入力に際して、都道府県名から入力するのは、単に日本の地名がこの順に表現されるからのみではなく、地名の音声認識処理が早くなり、且つ認識精度が向上するからである。即ち、当然のこととして、広域の地名である各都道府県の１つ１つに市区町村が存在し、更に各市区町村の１つ１つに狭域の地名である丁字が存在するため、最初に都道府県名を認識すると、その認識された都道府県の中の市区町村が抽出されて次に入力される単語の候補となり、全国の市区町村全体の中では限られたもののみが候補として絞られる。次に市区町村名を認識すると、その認識された市区町村の中の丁字が抽出されて次に入力される単語の候補となり、これも同様に全国のきわめて多く存在する丁字の中では限られたもののみが候補として絞られることとなる。
【０００９】
このように、地名の音声認識は、通常の会話の音声認識と異なり、その階層構造を利用して比較的容易に音声認識を行うことができる特性を備えている。そのため、音声認識に際して地名の音声認識を行うことが決定されると、以降は、広域側の地名から順に認識することが決められれば、認識する単語の候補はきわめて限られ、比較的処理速度の遅いＭＰＵを用いても高速に、しかも正確に認識することができる。
【００１０】
【発明が解決しようとする課題】
上記のように、地名の音声認識処理は一般会話等の音声認識処理に比較してきわめて容易であるにもかかわらず、前記離散単語認識の方式では、都道府県名を発音した後、音声認識開始用ＳＷを操作し、データ変換部による音声認識結果を確認した後次の市区町村名を発声するという操作を繰り返すこととなり、操作が煩わしいという問題点があった。
【００１１】
一方、海外の地名についてみると、例えば米国においては、広域の地名としては「州」が存在し、以降は「シティー」等に細分化された地名、狭域の地名として「ストリート」等の道路名と「番地」が存在し、その地名データ量は当然前記日本の場合と同様に、広域地名の数は少なく、狭域地名の数は多大のものとなる。しかしながら、通常の地名の表示、及び会話に際しては、日本とは逆に、狭域側である「ストリート」から示し、最後に広域側の「州」を示す習慣となっている。
【００１２】
上記米国のように地名を狭域側から広域側に示す海外諸国においては、前記日本のように最初に示したものからそのまま音声認識する方式では、最初に莫大な数の地名候補が存在する狭域の地名群の中から、示された地名を選択する必要があり、データ処理量がきわめて多くなり、多くの時間がかかると共に認識の正解率が低下する。そのため、このような国における地名の音声認識において、従来の音声認識装置を使用する際には、通常言い慣れた「ストリート」等の狭域側から地名を示すことは好ましくなく、逆に「州」の広域側から地名を示すことが好ましいこととなり、使いにくい音声認識装置とならざるを得ない。
【００１３】
また、上記のような従来の離散単語認識方式を用いると、地名を「州」側から発声して音声入力を行って音声認識開始用ＳＷを操作して音声認識結果の確認処理を待ち、その後に次に続く地名の発声を行うという操作を繰り返す必要があり、前記日本の場合と同様に、その操作が煩わしいという問題点も存在する。
【００１４】
したがって、本発明は、地名の音声認識に際して、離散単語認識方式の音声認識装置においても、連続単語認識システムと同様に近い使い勝手の良い音声認識装置とすることができ、また、海外でこの音声認識装置を使用する際に、地名の狭域側のストリートから広域側の州に向けて発声しても、逆の広域側から音声認識処理を行うことができ、それによりデータ変換処理を高速で行うことができると共に、音声認識の正解率を向上させることができる音声認識装置を提供することを主たる目的としている。
【００１５】
【課題を解決するための手段】
本発明は、上記課題を解決するため、住所の音声を順に入力する音声入力部と、音声入力の区切りを検出する音声区切り検出部と、入力した音声データを該音声区切り検出部の信号により区切って順に蓄える複数のメモリ領域を備えた音声データ蓄積部と、該複数のメモリ領域の音声データを所定の順序で読み出す音声データ読出部と、前記音声データ読出部において、前記音声データ蓄積部で複数のメモリに順に蓄えた音声データを、蓄積順と順方向と逆方向のいずれかを選択して読み出す設定を行う読出順設定部と、読み出された音声データを順にデータ変換するデータ変換部と、変換したデータを外部機器の制御部に出力する出力部と、を備えたことを特徴とする音声認識装置としたものである。
【００１７】
また、請求項２に係る発明は、前記音声区切り検出部は、スイッチの押下を検出する請求項１記載の音声認識装置としたものである。
【００１８】
また、請求項３に係る発明は、前記音声区切り検出部は、入力した音声の無音入力時間により検出する請求項１記載の音声認識装置としたものである。
【００１９】
また、請求項４に係る発明は、前記データ変換部は、入力した音声の無音入力時間が所定時間以上であることを検出してデータ変換を開始する請求項１記載の音声認識装置としたものである。
【００２０】
また、請求項５に係る発明は、複数のメモリ領域を切り替える際に、次の音声入力を促す信号を出力する請求項３記載の音声認識装置としたものである。
【００２１】
また、請求項６に係る発明は、前記次の音声入力を促す信号が、次に音声入力する単語のカテゴリーを示す請求項５記載の音声認識装置としたものである。
【００２２】
また、請求項７に係る発明は、データ変換部には広域辞書から狭域辞書まで階層別に展開された地名辞書を接続し、音声データ蓄積部のメモリ領域から広域順に読み出される音声データに対応して所定の地名辞書を選択する変換辞書選択部を備えた請求項１記載の音声認識装置としたものである。
【００２３】
【発明の実施の形態】
本発明の実施の形態を図面に沿って説明する。なお、図１は本発明の音声認識装置の機能ブロック図を示し、図２は本発明の音声認識装置の主として音声入力部を示す作動フロー図を示し、図３は本発明の音声認識装置の主として音声認識部を示す作動フロー図であり、図４は音声認識装置に用いる地名変換辞書の構成図であり、図５は本発明の音声データ蓄積部を構成するメモリ領域内のメモリ内容を示す図である。
【００２４】
本発明の音声認識装置は、図１に示すように、マイク１０からの音声信号を入力する音声入力部１１と、入力した音声を各種機器作動用の信号に変換する音声認識部１２とから構成されている。
【００２５】
音声入力部１１は、前記マイクのからのアナログ信号をアナログ・ディジタル変換器（Ａ／Ｄ）１３により、信号処理の行いやすいディジタル信号に変換する。
このディジタル信号は、図示されないＭＰＵ、プログラムを格納したＲＯＭ等とデータの授受を行うＡ／Ｄインターフェース回路（Ｉ／Ｆ）１４を介して、音声データ蓄積部としての音声データ蓄積部１４に入力する。音声データ蓄積部１５にはｎ個のメモリ領域が存在し、音声区切り検出部１６からの信号により、メモリ領域切替部１８が入力した音声データをメモリ領域１から順に、メモリ領域２，メモリ領域３の順序でメモリし領域を切り替えて蓄積する。
【００２６】
このようにメモリ領域を複数備えると、各メモリ領域には、後述するように地名データの単語を分割して入力し、これを読み出す際に任意の順序で読み出すことができるようにするために特に有効であるが、このような地名の入力以外の一般的な音声入力においても、単語毎に区切ってそれぞれの領域に順に蓄積し、データ変換に際しては順にこれを読み出してデータ変換を行い、最終的に全データを自動的に変換するために使用することも可能である。
【００２７】
前記音声区切り検出部１６は、音声データ蓄積部１５に入力される音声信号を検出し、一時的に入力音が途切れたことを検出し、あるいは音声認識装置の外部に設けた音声区切トリガースイッチ１７を利用者が操作したことを検出することにより、入力される音声の単語が区切られていることを検出する。なお、前記メモリ領域切替部１８には、その切替が終了したことにより次の音声入力が可能となったことを利用者に知らせるための、切替終了出力部を接続することもできる。
【００２８】
音声認識部１２には音声認識開始信号検出部１９と読出順切替部２１で制御される音声データ読出制御部２０を備えている。音声認識開始信号検出部１９では、音声データ蓄積部１５に入力される音声信号を監視して、入力音が所定時間以上とぎれたことを検出することにより、音声入力が少なくとも一時的に停止し、音声認識の開始を待つ状態であると推定し、或いは必要に応じて音声認識装置の外部に設けられ、利用者により操作される音声認識開始トリガースイッチ２３が操作されたことを検出し、それにより音声データ読出制御部２０によって音声データ蓄積部１５内の音声データの読み出しを開始させる。
【００２９】
また、音声データ読出制御検出部２０には読出順指定部２１が接続され、予め工場の生産ラインで設定され、或いは利用者が適宜設定する音声認識装置の外部に設けた読出順設定部２２からの信号を検出して、音声データ読出制御部２０が音声データ蓄積部１５内のメモリ領域１乃至ｎの音声データを読み出す順序を任意に指定することができるようにしている。それにより、後述するように、使用される地域が日本の場合には、地名に関する音声認識のためにメモリ領域１から３に向けて順に読み出すように設定し、また米国等の海外で使用する際には、その国の地名の表現方式に対応して、メモリ領域ｎから１に向けて順に読み出すように設定することができる。
【００３０】
前記読出順指定部２１には、図示実施例においては変換辞書選択部２５からの信号を入力できるようにしており、後述するようにデータ変換部２４において、これから入力される音声データは地名データであることが識別され、変換辞書選択部２５に対して変換辞書部２６において地名辞書を選択する指示が行われた時に、その信号を入力する。それにより、地名データの変換モードにおいて、音声データ蓄積部１５からの通常の使用状態と異なる読み出し順とするときには、その読み出し順とする指定信号を出力する。
【００３１】
また、音声データ読出制御部２０はデータ変換部２４から、先に入力した音声単語データの変換が終了した旨の信号を受け、指定された順序で音声データ蓄積部１５の次のメモリ領域の音声データを読み出すことができるようにしている。
【００３２】
データ変換部２４は音声データ読出制御部２０により順に読み出される音声データを一つづつ入力し、変換辞書選択部２５により選択された変換辞書部２６の所定の辞書データを用いてデータ変換を行う。図１に示す実施例における変換辞書部２６は、本発明が特に有用である地名検索を行うための地名変換辞書部分を代表例として示しており、この地名辞書内は「広域」「中域」「狭域」更に必要に応じてこれを展開している「細展開域」等の複数の階層に展開している。なお、図示実施例においては前記のように３つの階層に展開した例を示しているが、前記音声データ蓄積部１５と同様に、４個、５個等任意の階層に展開して構成しておくこともできる。
【００３３】
変換辞書部２６には、例えば「ちめい」等の言葉を認識することができる、図中「その他の辞書」として示している辞書部分も備えている。それにより、音声認識の開始時において変換辞書選択部２５は「その他の辞書」を選択しておくことにより、「ちめい」等の音声が入力されるとき、これをその他のモードの辞書から検索し、以降は地名入力がおこなわれることが認識される。それにより、変換辞書選択部２５は、以降は変換辞書部２６の地名辞書を用いることを指示するとともに、音声データ読出制御部２０から入力される音声の１番目の単語については「広域」の辞書から検索を行うことも指示する。上記地名の入力は、例えばナビゲーション装置において、目的地や経由地の設定、所在地のわかっている地点や施設の検索等に用いられる。
【００３４】
このような設定状態において、データ変換部２４には音声データ読出部２０から前記設定された順序で音声データ蓄積部１５内のメモリ領域から最初の音声データが読み出され、前記のようにして選択された変換辞書部２６における地名モード中の広域の部分の辞書を検索し、データの変換処理を行う。変換終了後データ変換部２４は、音声データ読出制御部２０に次のメモリ領域の音声データの読み出しの指示を行い、同時に変換辞書選択部２５には変換辞書部２６における前回に使用された広域のデータのうち、前記認識された広域の地名の下位に展開されている「中域」の辞書を選択するよう指示する。
【００３５】
同様にして、前記設定された順序で音声データ蓄積部１５の次のメモリ領域から音声データを読み出し、前記のように選択された変換辞書部２６の地名モードにおける中域の辞書に基づいてデータの変換を行う。この変換終了後データ変換部は、前記と同様に音声データ読出制御部２０に対して、次のメモリ領域から音声データを読み出すことを指示し、読み出された音声データを入力する。また、変換辞書選択部２５に対して前記と同様に、認識された中域の地名の下位に展開されている狭域のデータを読み出すことを指示する。このようにして地名の音声データは、データ変換部２４で前記のように選択された狭域の辞書に基づいてデータの変換が行われる。以下、必要に応じて次のメモリ領域から音声データを読み出し、細展開域の地名辞書を用いて順にデータ変換を行う。
【００３６】
データ変換部２４で上記のようにして変換された音声データは、通信インターフェース（Ｉ／Ｆ）２７を介して、ナビゲーション装置等、この音声認識装置により作動が制御される機器の制御部に対して出力する。このデータの出力に際しては、データ変換部２４で変換された順序に外部に出力することができる一方、データ変換部等にメモリを設け、前記実施例において地名に関するデータの変換を全て終了した後に外部に出力することができる。それにより、例えばナビゲーション装置においては、地名とその地名を代表する地点の緯度・経度データの対応表等にアクセスし、音声入力された地名の位置データを得ることができ、これを目的地や経由地等のデータとして用いることができる。
【００３７】
上記のように構成される機能部を備えた本発明の音声認識装置は、本発明が有効な代表的例である地名の音声認識処理に際して、図２に示すフローによって作動することができる。即ち、最初、音声認識装置に対して地名入力を行うことを示すため、例えば「ちめい」等の音声を発すると、最初は図１の変換辞書部２６における「その他の辞書」を選択するようにしているので、その辞書を用いてデータ変換し、以降は地名の入力モードに切り替えられる（ステップＳ１）。それにより、変換辞書切替部２５が変換辞書部２６においてそれ以降は地名辞書を選択するように切り替える（ステップ２）。
【００３８】
このようにして音声認識変換辞書を地名辞書に切り替える手段としては、前記のような音声の他、例えば装置の外部に設けたスイッチの操作、タッチパネルの操作、ナビゲーション装置における目的地入力モードとなったことの検出等、種々の方式により地名音声入力を行うことを検出し、それらによっても地名辞書の選択を行うことができる。上記のようにして変換辞書における地名辞書を選択することにより、明確に階層構造となっているこの辞書を、地名音声入力時に確実に選択して使用することができる。
【００３９】
続いて利用者が地名の入力のため、例えば「東京都・千代田区・霞ヶ関」を音声入力するときには、最初「とうきょうと」と発声する（ステップＳ３）。この音声は今回の音声認識における最初の単語であるので（ステップＳ４）、図１の音声データ蓄積部１５における最初の領域、図示の例においてはメモリ領域１にメモリされる（ステップＳ５）。このように、最初の単語は常にメモリ領域１に入力され、以降の音声データはメモリ領域２から順に入力される。
【００４０】
最初の音声信号の入力直後から、その音声データのメモリ期間中において、入力される音声信号中に、単語の区切りを意味する例えば１秒等の無音区間等の音声単語区切り信号が存在するか否かを判別しており、存在しない場合は一つの単語が継続しているとして、メモリ内へのデータの蓄積を継続する。しかしながら例えば１秒間以上の無音期間が存在することを検出すると、今回音声データを蓄積しているメモリ領域は、音声データ蓄積部の中の最後のメモリ領域であるか否かを判別し（ステップＳ７）、この例の場合は最初のメモリ領域であるので、メモリ領域切替部のメモリ領域を次の領域に切り替え（ステップＳ８）、次に入ってくる音声データのメモリ先を定める。なお、音声単語区切り信号としては、前記のような無音期間の他、図１に示すような音声区切トリガースイッチ１７を備え、これを利用者が操作する場合は、利用者が単語の区切りであることを示すためにこのスイッチを操作した信号を入力することにより、確実に単語の区切りの信号を検出することができる。
【００４１】
マイクからの音声信号はアナログディジタル変換等の処理を行った後に、前記のようにメモリ領域への書き込みが行われるので、その処理は高速で行われるもののある程度の時間を要するので、確実に単語一つ分の音声データがメモリ領域に蓄積された後に、次のデータ蓄積のためのメモリ領域の切り替えが行われる。その切り換えは、音声データ蓄積部のメモリ領域において領域１，２，３のように昇順等の所定の順番に切り替えられる。この切り替え操作が終了したか否かを判別し、終了するまで待つ（ステップＳ９）。終了したならば、この音声認識装置においては、利用者に対して次の音声入力を促す信号を出力するようにしている（ステップＳ１０）。
【００４２】
なお、次の音声入力を促す信号としては、スピーカからその旨を出力することができ、その際には例えば「次に市区町村を言って下さい。」等のように、次に入力する地名のカテゴリーを示すように構成することもでき、このようにすることによりより確実な音声入力を行うことができる。また、次の音声入力を促す信号としては、上記のような音声のほか、例えば緑ランプの点灯、或いは赤ランプから緑ランプへの表示切り替え等の出力を行うこともできる。
【００４３】
その後、音声入力が終了したことを示す信号が検出されたか否かの判別を行う（ステップＳ１１）。このような音声入力が終了したか否かの信号としては、例えば、音声入力を促す信号を出力しても、所定時間以上音声入力が行われなかったこと、即ち所定時間以上の無音時間が存在することを検出した信号を用いることができ、また、図１に示す音声認識開始トリガースイッチ２３を利用者が操作したことを検出するようにしてもよい。前記音声入力においは、「とうきょうと」と入力したのみであるので、次の「千代田区」を入力するためステップ３に戻る。同様にして「ちよだく」と発声すると、この音声入力が最初の単語であるか否かを判別し、今回の音声入力は２番目の単語であるので、先に切り替えたメモリ領域２内にこの音声データをメモリする（ステップＳ１２）。
【００４４】
以降は前記と同様に、音声単語区切り信号の検出、メモリ領域を次の領域に切り替え、次の入力を促す信号の出力等の作動を行い、再び音声入力終了信号を検出したか否かの判別に至る（ステップＳ１３）。上記実施例においては、次に「霞ヶ関」を入力する必要があるので、ステップＳ３に再び戻り、ここで「かすみがせき」と発声する。以下も同様に、切り替えた領域にこれをメモリするが、この時はメモリ領域３にメモリされることとなる。音声データ蓄積部に３個のメモリ領域しか持っていないときには、ステップＳ７において、メモリした領域は最後の領域か否かの判別において、最後の領域と判別され、ステップＳ１３に進み、次の作動である音声認識が開始される。
【００４５】
なお、音声データ蓄積部１５内に上記のような３個以上の更に多数のメモリ領域が存在するときには、前記判別の後上記作動を繰り返す。しかし、この実施例においてはこの「霞ヶ関」の単語が最後の単語であるため、ステップＳ１０において次の信号を促す信号を出力したにもかかわらず音声信号を入力しないので、所定時間以上の無音時間が存在することを検出して次の作動である音声認識を開始することができる。また、音声認識開始トリガースイッチ２３が操作されたときにも同様に音声認識が開始される。
【００４６】
音声認識に際しては、図３のフローに示すような作動が行われる。最初、図１の読出順指定部２１で指定した読み出し順が、メモリ領域の番号の昇順であるか否かが判別される。
【００４７】
ここで、入力された地名音声が、例えば日本における通常の地名表現方法に沿い「東京都・千代田区・霞ヶ関」と、「東京都」の広域側から「霞ヶ関」の狭域側に向けた順序で発声されるときには、前記音声データ蓄積部１５には発声順にメモリ領域１から順にメモリされているので、読み出し順指定部２１はメモリ領域番号の昇順、即ちメモリ領域１から順に読み出すように指定している。したがって、この音声認識装置を用いている機器を日本人が使用するときには、上記のように指定しているので、読出順指定はメモリ領域の昇順であると判別される（ステップＳ２１）。
【００４８】
次いで、この音声データの読み出しが最初の読み出しであるか否かが判別され（ステップＳ２２）、この場合は最初の読み出しであるので、メモリ領域１にメモリされた音声データを読み出す（ステップＳ２４）。この音声データは図１のデータ変換部２４に入力され、データ変換部２４は入力した音声データが最初のデータであることにより変換辞書選択部２５に、変換辞書部２６における地名辞書の広域辞書を選択するように指示する。それによりデータ変換部は、広域辞書のデータにアクセスして検索することができる。
【００４９】
上記変換辞書部２６における地名辞書には、例えば図４に示すようなデータが格納されている。即ち、同図には日本の地名の地名認識辞書の例を示しており、広域としての都道府県データ部分には、「北海道「から「沖縄」まで４７のデータが入っている。また、中域としての市区町村の階層には、図示の例では「東京都」について示しているように、「足立区」から「目黒区」までの区部と、「秋川市」等の市部と、「八丈町」等の町部と、「青ヶ島村」等の村部が存在し、６４の市区町村が存在している。更に、狭域としての丁字の階層には、図示の例では「千代田区」について示しているように、「飯田橋」から「六番町」までに約６０の丁字が存在している。なお、これら各域における地名の配列順は、五十音順、或いは音声波形順等、任意の配列としておくことができる。
【００５０】
また、例えば「一番町」のようにその下に「・・丁目」が存在しない場合と、「飯田橋」の場合のように「・・丁目」が存在する場合とがあるが、丁字の階層にはこの「・・丁目」のデータもを含めて配置しておくことができる。また、この部分は更に下位に展開した辞書としてもつこともでき、また、この部分については地名辞書を用いることなく、この段階で変換辞書選択部２５により辞書を「その他の辞書」に切り替えて一般の辞書を用いることもできる。
【００５１】
前記のようにして広域辞書が選択されると（ステップＳ２４）、入力した音声データと、この広域辞書に含まれる辞書データと比較して一致するものを検索し、そのデータを通信Ｉ／Ｆ２７を介して各種機器制御部２８に出力する。なお、この時変換したデータのバッファを設けておくことにより、音声データ蓄積部のメモリ領域に入力された一連のデータが全て変換するまで順に保存しておき、その変換が終了した後に、一度に通信Ｉ／Ｆから各種機器の制御部に出力するようにしてもよい。
【００５２】
最初の音声データの変換が終了すると、データ変換部２４では前記地名辞書中に、先に変換した地名に対して下位の階層に展開している地名辞書が存在するか否かを判別する（ステップＳ２６）。上記例の場合は「東京都」の下位に中域辞書が存在するので、変換した地名の下位に展開している辞書を選択するように、変換辞書選択部２５に出力し、変換辞書選択部２５では前記中域の階層の地名辞書を選択する。（ステップＳ２７）。
【００５３】
次いで、全ての音声データの変換が終了したか否かの判別が行われ、前記例の場合は１番最初の音声データであり、未だメモリ領域に音声データが残っているのでステップＳ２１に戻り、同様の作動を行う。この時、図１のデータ変換部２４は音声データ読出制御部２０に変換が終了したので次のデータの出力を指示する信号を送る。
【００５４】
図２の作動フローにおける、ステップ２１の読出順指定はメモリ領域の昇順か否かの判別においては、読出順指定部２１は特に指定の変更を行う必要ががないので、前回と同様に昇順とされている。次いで、ステップＳ２２においてこの読み出しが最初の読み出しであるか否かが判別され、この例では２回目の読み出しであるので［Ｎ］となり、ステップ２９に進み、次のメモリ領域、即ちメモリ領域２から音声データの読み出しを行う。この領域２には前記例の場合は「ちよだく」の音声データがメモリされており、これが読み出されて変換部２４に入力される。
【００５５】
この時のデータ変換に際しては（ステップＳ２５）、先に変換辞書部２６における地名辞書中において、「東京都」の市区町村の展開がなされている図４に示すようなデータの入った中域辞書が選択されているので、この辞書データと入力された「ちよだく」の音声データとを比較してデータの変換を行う。その結果、上記例の場合は千代田区であることが認識される。
【００５６】
上記「千代田区」の認識の結果に基づき、前回と同様に、この地名に対して下位の階層に展開している地名辞書が存在するか否かが判別される（ステップ２６）。上記例の場合は「千代田区」の下位に狭域辞書が存在するので、千代田区の丁字を展開している狭域辞書を地名辞書の中から選択するように変換辞書選択部２５に出力し、変換辞書選択部２５では前記狭域の階層の地名辞書を選択する（ステップＳ２７）。
【００５７】
その後、全音声データの変換が終了したか否かの判別が行われ、前記例の場合はメモリ領域３に読み出されていないデータが残っているので、再びステップＳ２１に戻る。この時、前記と同様に、変換した音声データを直接外部に出力することもでき、また、データバッファに先の変換データと共に蓄えておき、全て変換されてから出力することもできる。
【００５８】
以下同様の作動を行い、読み出し順指定はメモリ領域の昇順のままであるので、最初の読み出しかの判別の後（ステップＳ２２）、次のメモリ領域からの読み出しを行う（ステップＳ２９）。先に読み出されたメモリ領域は領域２であったので、次のメモリ領域３の音声データが読み出される。前記の例の場合は「かすみがせき」の音声データがメモリされており、これが読み出されて変換部２４に入力される。
【００５９】
この時のデータ変換に際しては（ステップＳ２５）、先の変換辞書部２６における地名辞書中において、「千代田区」の丁字の展開がなされている図４に示すようなデータの入った狭域辞書が選択されているので、この辞書データと入力された「かすみがせき」の音声データとを比較してデータの変換を行い、その結果、「霞ヶ関」であることが認識される。
【００６０】
この変換結果に基づいて、変換辞書中に認識した地名に対し、更に展開した地名辞書が存在するか否かが判別される（ステップＳ２６）。地名辞書にこれ以上の展開が存在しないときには、その他の辞書の選択を行う（ステップＳ３０）。この時、例えば図４の狭域辞書部分に示すように、霞ヶ関については１丁目から３丁目まで存在するので、この下位に更に展開した地名辞書を備える場合には、前記判別において変換地名の下位展開の辞書はある、として前回と同様にステップＳ２７に進む。
【００６１】
また、この時、音声データ蓄積部１５中にメモリ領域４が存在し、ここに「・・丁目」の音声データをメモリした場合には、全音声データの変換は終了していないとして、再びステップ２１に戻ることとなる。なお、メモリ領域４に「・・丁目」の音声データが入力された場合であって、地名辞書に「・・丁目」等の下位の展開地名辞書が存在しない場合には、その他の辞書を選択した後（ステップＳ３０）、全音声データの変換が終了しないとして（ステップＳ２８）ステップ２１に戻り、データの変換時に、一般的な音声変換用の辞書であるその他の辞書のデータに基づいて「・・ちょうめ」の音声認識が行われることとなるが、この音声データは通常頻繁に使われるので、これを一般的な辞書に基づいて変換しても容易に、且つ正確に変換することができる。
【００６２】
前記実施例においては、例えば音声データ蓄積部１５のメモリ領域が３個しか存在せず、また、変換辞書部２６の地名辞書も３つの階層しか存在しない場合は、前記のようにその他の辞書を選択した後、全音声データの変換終了したか否かの判別において（ステップＳ２８）、終了したと判別され音声認識の作動は終了する。この時、前記のように音声認識データの出力を行うが、認識したデータを一時的に蓄えておくバッファが存在し、ここに先のデータも蓄えられていたときには、ここで外部の機器の制御部にこれをまとめて出力しする。それにより、例えばナビゲーション装置における目的地設定に際して、前記データにより指定された地点を代表する緯度と経度を他のデータから読み出し、その地点を目的地として設定し、また、その地点の地図を表示する等の作動を行うことができる。
【００６３】
上記実施例においては、日本の地名の音声認識に際しても、従来の装置のようにメモリ領域を１つしか持たず離散単語認識を行うものよりも、はるかに使用性を向上することができ、且つ正確な音声認識を行うことができるものであるが、更に、例えばストリート名から先に表現する等、狭域側から表現する米国等の海外の地名を音声認識する際に特に有効となる。
【００６４】
例えば、米国内で車を運転しているとき、ニューヨーク（New York）州（State)のニューヨーク市（City)におけるパークアベニュー（Park Avenue）２９９番という所在地がわかっている、日本大使館の在ニューヨーク日本総領事館を探すため、ナビゲーション装置に対してその所在地を音声認識装置により入力し、その地点をナビゲーション装置の画面上に表示させたいとする。そのときに、ナビゲーション装置に本発明の音声認識装置を搭載していると、前記のように狭域側から表現する米国の通常の地名表記方式のままでこれを読み上げると、音声認識装置は自動的に広域側から音声認識のデータ変換を行い、効率が良く正確な音声認識を行うことが可能となる。
【００６５】
即ち、上記のような場合、図１に示す読出順設定部２２によって、予め音声データ蓄積部１５のメモリ領域ｎ側からメモリ領域１に向けて、換言するとメモリ領域の降順に読み出すように読出順指定部２１にセットしておく。この状態で音声認識装置を作動し、前記図２に示すフローにより音声データを音声データ蓄積部１５に蓄積させる。この時、利用者は「２９９」「Park Avenue」「New York City」「New York State」と通常の地名表記方式のとおりに発声する。それにより前記日本の地名の作動と全く同一に作動を行い、メモリ領域１に「２９９」が、メモリ領域２に「Park Avenue」が、メモリ領域３に「New York City」が、メモリ領域４に「New York State」がメモリされることとなる。
【００６６】
このようにして、全ての音声データが単語毎に音声データ蓄積部１５にメモリされた後、図３に示すフローに沿ってデータの変換が行われる。即ち、読出順指定はメモリ領域の昇順かの判別において、前記のように読み出し順指定部２１において降順になるようにセットしているので「Ｎ」となり、ステップ３０に進んで最初の読み出しか否かが判別される。ここでは最初の読み出しであるのでメモリ領域ｎから読み出しが行われる（ステップＳ３１）。なお、音声データ蓄積部１５に例えば１０個のメモリ領域が存在するときには、メモリ領域１０から読み出しが行われることとなるが、この部分にはデータが存在しないのでメモリ領域９にアクセスし、以下同様の作動によりメモリ領域４にアクセスしたときに初めて音声データが存在するので、メモリ領域４から最初の音声データである「New York State」を読み出すこととなる。
【００６７】
この音声データはデータ変換部において、前記日本の地名の音声認識と同様に、変換辞書部２６の地名辞書における広域辞書が選択され（ステップＳ２４）、データの変換がなされる（ステップＳ２５）。地名辞書においては、前記日本の地名と同様に、「State」等の広域の地名の下に「City」等の中域の地名、その下に「Avenue」や「Street」等の狭域の地名、その下に必要に応じて細展開域の地名を備えている階層構造を備えている。
【００６８】
以降は前記日本の地名の音声認識と全く同様に作動するので、その詳細な作動の説明は省略するが、日本の地名の音声認識と異なる点は、前記のようにメモリ領域の番号を降順に読み出す点のみである。それにより、上記のように狭域側から発声した地名音声は、前記日本の場合と同じく広域側から順に読み出され、同様に広域側から順に読み出される地名辞書に基づいて変換することができる。このようにすることにより、従来の音声認識装置においては音声データ蓄積部のメモリ領域が１つしかないため、発声順序の狭域側から順に音声認識処理を行うと、最初は莫大な数の地名候補が存在する狭域側の全ての地名データから入力した音声データと一致するものを選択することとなり、多くの処理時間を必要とし且つ認識率も低下するが、上記音声認識装置においては、狭域側から音声データを入力しても、広域側からデータ変換処理を行うことができ、処理速度が速く、しかも確実にデータ変換処理を行うことができる。
【００７０】
本願の請求項１に係る発明は、単語音声を１語ずつ認識処理する離散単語入力方式であるにもかかわらず、１語１語のデータ変換処理を待つことなく音声入力することができ、複数の音声単語の入力が終了した後に音声認識処理を行うことができるので、安価なＭＰＵを備えた音声認識装置でも、連続単語入力方式のように操作性の良い装置とすることができる。特に、複数のメモリ領域の音声データを所定の順序で読み出す音声データ読出部を備えているので、発声順にメモリ領域にメモリした音声データでも、変換辞書の構成等に合わせてデータ変換を行いやすい順序で読み出してデータ処理を行うことができ、種々の入力形式、入力順序をもつ音声認識装置にも広く対応することができる。
また、「音声データ読出部において、前記音声データ蓄積部で複数のメモリに順に蓄えた音声データを、蓄積順と順方向と逆方向のいずれかを選択して読み出す設定を行う読出順設定部」を備えているので、住所検索特有の課題である、米国等の外国のように挟域から広域に入力する住所の音声を認識する際、住所検索辞書に記憶されている広域から挟域へ絞り込むためのデータを用いることが困難であるという問題を、上記のようにして容易に解決することができるばかりでなく、日本のように広域から挟域に入力する住所の音声認識においても、読み出し順設定部の設定によって容易に切り替えて用いることができ、且つ処理速度が速く、且つ正確な音声認識を行うことができる。
【００７２】
請求項２に係る発明は、前記音声区切り検出部は、トリガースイッチの押下を検出するので、音声単語の区切りを確実に検出することができ、認識処理を正確に行うことができる。
【００７３】
請求項３に係る発明は、前記音声区切り検出部は、入力した音声の無音入力時間により検出するので、利用者は何らの操作も行うこと無しに単に単語と単語の間に一時的な無音期間をおくだけで一連の音声認識処理を行うことができ、離散単語認識処理を行うにも関わらず、連続単語認識処理を行う音声認識装置と同様に、操作性の良い音声認識装置とすることができる。
【００７４】
請求項４に係る発明は、前記データ変換部は、入力した音声の無音入力時間が所定時間以上であることを検出してデータ変換を開始するので、利用者は何らの操作も行うこと無しに、自動的にデータ変換処理を開始させることができ、操作性の良い音声認識装置とすることができる。
【００７５】
請求項５に係る発明は、複数のメモリ領域を切り替える際に、次の音声入力を促す信号を出力するので、利用者は音声認識装置装置の指示に従って音生入力するのみで確実なデータ変換処理を行わせることができ、利用性の良い音声認識装置とすることができる。
【００７６】
請求項６に係る発明は、前記次の音声入力を促す信号が、次に音声入力する単語のカテゴリーを示すので、利用者は音声認識装置装置の指示に従って音生入力するのみでより、利用する音声認識辞書に合わせて入力することができ、確実なデータ変換処理を行わせることができ、また、利用性の良い音声認識装置とすることができる。
【００７７】
請求項７に係る発明は、データ変換部には広域辞書から狭域辞書まで階層別に展開された地名辞書を接続し、音声データ蓄積部のメモリ領域から広域順に読み出される音声データに対応して所定の地名辞書を選択する変換辞書選択部を備えているので、地名の音声入力に際して、例えば海外での地名の表現方式のように、狭域側から順に音声入力を行っても、広域側からデータ変換を行うことができ、広域側から階層別に使用しやすいように展開されている地名辞書を用いて、高速で、確実にデータ変換処理を行うことができる。
【図面の簡単な説明】
【図１】本発明の実施例の機能ブロック図である。
【図２】本発明の実施例の音声認識処理において、音声入力処理部分を中心として示す作動フロー図である。
【図３】本発明の実施例の音声認識処理において、データ変換部分を中心として示す作動フロー図である。
【図４】本発明の音声認識装置に用いられる地名認識用辞書の一例を示す構成図である。
【図５】本発明の音声認識装置に用いられる音声データ蓄積部のメモリ領域とメモリされる地名音声データの内容を示す説明図である。
【符号の説明】
１０マイク
１５音声データ蓄積部
１９音声認識開始信号検出部
２０音声データ読出制御部
２１読出順指定部
２４データ変換部
２５変換辞書選択部
２６変換辞書部

Claims

住所の音声を順に入力する音声入力部と、
音声入力の区切りを検出する音声区切り検出部と、
入力した音声データを該音声区切り検出部の信号により区切って順に蓄える複数のメモリ領域を備えた音声データ蓄積部と、
該複数のメモリ領域の音声データを所定の順序で読み出す音声データ読出部と、
前記音声データ読出部において、前記音声データ蓄積部で複数のメモリに順に蓄えた音声データを、蓄積順と順方向と逆方向のいずれかを選択して読み出す設定を行う読出順設定部と、
読み出された音声データを順にデータ変換するデータ変換部と、
変換したデータを外部機器の制御部に出力する出力部と、
を備えたことを特徴とする音声認識装置。
前記音声区切り検出部は、スイッチの押下を検出する請求項１記載の音声認識装置。
前記音声区切り検出部は、入力した音声の無音入力時間により検出する請求項１記載の音声認識装置。
前記データ変換部は、入力した音声の無音入力時間が所定時間以上であることを検出してデータ変換を開始する請求項１記載の音声認識装置。
複数のメモリ領域を切り替える際に、次の音声入力を促す信号を出力する請求項３記載の音声認識装置。
前記次の音声入力を促す信号が、次に音声入力する単語のカテゴリーを示す請求項５記載の音声認識装置。
データ変換部には広域辞書から狭域辞書まで階層別に展開された地名辞書を接続し、音声データ蓄積部のメモリ領域から広域順に読み出される音声データに対応して所定の地名辞書を選択する変換辞書選択部を備えた請求項１記載の音声認識装置。