JP2001154691A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP2001154691A JP2001154691A JP33689999A JP33689999A JP2001154691A JP 2001154691 A JP2001154691 A JP 2001154691A JP 33689999 A JP33689999 A JP 33689999A JP 33689999 A JP33689999 A JP 33689999A JP 2001154691 A JP2001154691 A JP 2001154691A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- data
- input
- unit
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Traffic Control Systems (AREA)
- Navigation (AREA)
Abstract
タ変換を行う離散単語認識は操作性が悪く、単語を連続
して入力し、一括してデータ変換する連続単語認識は高
性能のMPUが必要である。 【解決手段】 音声データ蓄積部15には複数のメモリ
領域1〜nを設ける。マイク10から地名等を入力する
とき、1語ずつ区切って各領域に順に入力する。音声認
識開始信号検出部19等で単語入力の終了を検出する
と、音声データ読出部20が、読出順指定部21の指示
の順序でメモリ領域の昇順か降順に1語ずつ読み出す。
この時、前記日本の地名の場合は昇順に、米国等の海外
の地名の場合は降順に読み出す。データ変換部24で
は、読み出した音声データを1語ずつ変換辞書部26の
辞書を用いてデータ変換し、全て変換されるとこれを各
種機器制御部28に出力する。
Description
種機器を作動させるための音声認識装置に関し、特に、
住所に関する音声の認識に際して、都道府県等の広域側
から話す日本と、ストリート名等の、狭域側から話す米
国等の外国のいずれで使用しても、効率よく認識処理す
ることができる音声認識装置に関する。
し、音声認識装置によりこれを認識して機器の作動制御
を行うことが、パソコンを初めとして一般家庭用機器等
の各種の分野で広く行われており、その研究開発が急速
に進められている。このような音声により機器の作動を
制御する分野の一つとして、各種の車載機器を音声によ
り操作することが注目されている。即ち、車載機器の多
くは運転者が操作する場合が多く、一方、運転者は安全
運転のために、できる限り車載機器の操作に注意をそら
せることは好ましくない。
化、ナビゲーション装置の機能の多様化等のため、これ
らの機器に対して各種の作動指示を行うことが多くなっ
ている。この対策として、上記音声認識装置を用い、運
転者は前方を注視したままで、例えばオーディオ機器を
音声により操作すること、あるいは、ナビゲーション装
置において近隣施設検索を音声で指示し、ナビゲーショ
ン装置では音声でこれに応える、というシステムが考え
られており、一部実用化され、車載用のユーザーインタ
ーフェースとして脚光を浴びている。
識、連続単語認識の技術が確立されてきている。即ち、
離散単語認識は認識させる単語を一つづつ音声入力し、
その一つずつを音声認識処理するもので、各種製品の操
作などに以前から使用されていた。ここで処理される単
語については、近年、大語彙認識が可能になり、比較的
長い単語でも正確に認識できるようになり、カーナビゲ
ーションでも採用されている。
を複数連続して発生しても各単語を分解して認識可能な
システムで、例えば地名を入力する際に、「東京都港区
青山」と発生すると、入力された言葉は「東京都」「港
区」「青山」で構成されことを識別し、各単語を順次認
識するものであり、音声認識装置としては非常に使いや
すいシステムということができる。このような連続単語
認識は、特にカーナビゲーション装置において比較的語
彙数の限られている、地名や施設の検索に有効であると
いわれており、実用化されつつある。
続して入力される複数の単語を適切な部分で分離する必
要があり、きわめて多くの辞書から適切と思われる単語
を検索することを繰り返す必要があり、きわめて多くの
データ処理を行う必要があるため、高速の演算性能を備
えたMPUが必要となり、非常に高価なシステムになっ
てしまうという欠点があった。
であることをユーザが指定して入力するので上記のよう
な単語を分離するデータ処理が不要となり、比較的安価
なハードウェアでも正確な認識が実現可能となり、した
がって、現在は未だこのような離散単語認識を用いて入
力する方式が多い。このような離散単語認識を用いて例
えば地名などを入力する場合には、日本のユーザーは
「都道府県名」「市区町村名」「丁字」の、広域の地名
から狭域の地名の階層順に地名を入力し、各単語入力毎
に音声認識開始トリガースイッチを押下することにより
音声認識を実現している。
府県名から入力するのは、単に日本の地名がこの順に表
現されるからのみではなく、地名の音声認識処理が早く
なり、且つ認識精度が向上するからである。即ち、当然
のこととして、広域の地名である各都道府県の1つ1つ
に市区町村が存在し、更に各市区町村の1つ1つに狭域
の地名である丁字が存在するため、最初に都道府県名を
認識すると、その認識された都道府県の中の市区町村が
抽出されて次に入力される単語の候補となり、全国の市
区町村全体の中では限られたもののみが候補として絞ら
れる。次に市区町村名を認識すると、その認識された市
区町村の中の丁字が抽出されて次に入力される単語の候
補となり、これも同様に全国のきわめて多く存在する丁
字の中では限られたもののみが候補として絞られること
となる。
話の音声認識と異なり、その階層構造を利用して比較的
容易に音声認識を行うことができる特性を備えている。
そのため、音声認識に際して地名の音声認識を行うこと
が決定されると、以降は、広域側の地名から順に認識す
ることが決められれば、認識する単語の候補はきわめて
限られ、比較的処理速度の遅いMPUを用いても高速
に、しかも正確に認識することができる。
音声認識処理は一般会話等の音声認識処理に比較してき
わめて容易であるにもかかわらず、前記離散単語認識の
方式では、都道府県名を発音した後、音声認識開始用S
Wを操作し、データ変換部による音声認識結果を確認し
た後次の市区町村名を発声するという操作を繰り返すこ
ととなり、操作が煩わしいという問題点があった。
米国においては、広域の地名としては「州」が存在し、
以降は「シティー」等に細分化された地名、狭域の地名
として「ストリート」等の道路名と「番地」が存在し、
その地名データ量は当然前記日本の場合と同様に、広域
地名の数は少なく、狭域地名の数は多大のものとなる。
しかしながら、通常の地名の表示、及び会話に際して
は、日本とは逆に、狭域側である「ストリート」から示
し、最後に広域側の「州」を示す習慣となっている。
に示す海外諸国においては、前記日本のように最初に示
したものからそのまま音声認識する方式では、最初に莫
大な数の地名候補が存在する狭域の地名群の中から、示
された地名を選択する必要があり、データ処理量がきわ
めて多くなり、多くの時間がかかると共に認識の正解率
が低下する。そのため、このような国における地名の音
声認識において、従来の音声認識装置を使用する際に
は、通常言い慣れた「ストリート」等の狭域側から地名
を示すことは好ましくなく、逆に「州」の広域側から地
名を示すことが好ましいこととなり、使いにくい音声認
識装置とならざるを得ない。
式を用いると、地名を「州」側から発声して音声入力を
行って音声認識開始用SWを操作して音声認識結果の確
認処理を待ち、その後に次に続く地名の発声を行うとい
う操作を繰り返す必要があり、前記日本の場合と同様
に、その操作が煩わしいという問題点も存在する。
際して、離散単語認識方式の音声認識装置においても、
連続単語認識システムと同様に近い使い勝手の良い音声
認識装置とすることができ、また、海外でこの音声認識
装置を使用する際に、地名の狭域側のストリートから広
域側の州に向けて発声しても、逆の広域側から音声認識
処理を行うことができ、それによりデータ変換処理を高
速で行うことができると共に、音声認識の正解率を向上
させることができる音声認識装置を提供することを主た
る目的としている。
決するため、音声入力部と、音声入力の区切りを検出す
る音声区切り検出部と、入力した音声データを該音声区
切り検出部の信号により順に切り替えて蓄える複数のメ
モリ領域を備えた音声データ蓄積部と、該複数のメモリ
領域の音声データを所定の順序で読み出す音声データ読
出部と、読み出された音声データを順にデータ変換する
データ変換部と、変換したデータを外部機器の制御部に
出力する出力部とを備えたことを特徴とする音声認識装
置としたものである。
と、音声入力の区切りを検出する音声区切り検出部と、
入力した音声データを該音声区切り検出部の信号により
順に切り替えて蓄える複数のメモリ領域を備えた音声デ
ータ蓄積部と、該複数のメモリ領域の音声データを蓄積
順とは逆の順序で読み出す音声データ読出部と、読み出
された音声データを順にデータ変換するデータ変換部
と、変換したデータを外部機器の制御部に出力する出力
部とを備えたことを特徴とする音声認識装置としたもの
である。
切り検出部は、スイッチの押下を検出する請求項1また
は請求項2記載の音声認識装置としたものである。
切り検出部は、入力した音声の無音入力時間により検出
する請求項1または請求項2記載の音声認識装置とした
ものである。
変換部は、入力した音声の無音入力時間が所定時間以上
であることを検出してデータ変換を開始する請求項1ま
たは請求項2記載の音声認識装置としたものである。
リ領域を切り替える際に、次の音声入力を促す信号を出
力する請求項4記載の音声認識装置としたものである。
声入力を促す信号が、次に音声入力する単語のカテゴリ
ーを示す請求項6記載の音声認識装置としたものであ
る。
部には広域辞書から狭域辞書まで階層別に展開された地
名辞書を接続し、音声データ蓄積部のメモリ領域から広
域順に読み出される音声データに対応して所定の地名辞
書を選択する変換辞書選択部を備えた請求項1または請
求項2記載の音声認識装置としたものである。
て説明する。なお、図1は本発明の音声認識装置の機能
ブロック図を示し、図2は本発明の音声認識装置の主と
して音声入力部を示す作動フロー図を示し、図3は本発
明の音声認識装置の主として音声認識部を示す作動フロ
ー図であり、図4は音声認識装置に用いる地名変換辞書
の構成図であり、図5は本発明の音声データ蓄積部を構
成するメモリ領域内のメモリ内容を示す図である。
に、マイク10からの音声信号を入力する音声入力部1
1と、入力した音声を各種機器作動用の信号に変換する
音声認識部12とから構成されている。
ナログ信号をアナログ・ディジタル変換器(A/D)1
3により、信号処理の行いやすいディジタル信号に変換
する。このディジタル信号は、図示されないMPU、プ
ログラムを格納したROM等とデータの授受を行うA/
Dインターフェース回路(I/F)14を介して、音声
データ蓄積部としての音声データ蓄積部14に入力す
る。音声データ蓄積部15にはn個のメモリ領域が存在
し、音声区切り検出部16からの信号により、メモリ領
域切替部18が入力した音声データをメモリ領域1から
順に、メモリ領域2,メモリ領域3の順序でメモリし領
域を切り替えて蓄積する。
メモリ領域には、後述するように地名データの単語を分
割して入力し、これを読み出す際に任意の順序で読み出
すことができるようにするために特に有効であるが、こ
のような地名の入力以外の一般的な音声入力において
も、単語毎に区切ってそれぞれの領域に順に蓄積し、デ
ータ変換に際しては順にこれを読み出してデータ変換を
行い、最終的に全データを自動的に変換するために使用
することも可能である。
蓄積部15に入力される音声信号を検出し、一時的に入
力音が途切れたことを検出し、あるいは音声認識装置の
外部に設けた音声区切トリガースイッチ17を利用者が
操作したことを検出することにより、入力される音声の
単語が区切られていることを検出する。なお、前記メモ
リ領域切替部18には、その切替が終了したことにより
次の音声入力が可能となったことを利用者に知らせるた
めの、切替終了出力部を接続することもできる。
部19と読出順切替部21で制御される音声データ読出
制御部20を備えている。音声認識開始信号検出部19
では、音声データ蓄積部15に入力される音声信号を監
視して、入力音が所定時間以上とぎれたことを検出する
ことにより、音声入力が少なくとも一時的に停止し、音
声認識の開始を待つ状態であると推定し、或いは必要に
応じて音声認識装置の外部に設けられ、利用者により操
作される音声認識開始トリガースイッチ23が操作され
たことを検出し、それにより音声データ読出制御部20
によって音声データ蓄積部15内の音声データの読み出
しを開始させる。
読出順指定部21が接続され、予め工場の生産ラインで
設定され、或いは利用者が適宜設定する音声認識装置の
外部に設けた読出順設定部22からの信号を検出して、
音声データ読出制御部20が音声データ蓄積部15内の
メモリ領域1乃至nの音声データを読み出す順序を任意
に指定することができるようにしている。それにより、
後述するように、使用される地域が日本の場合には、地
名に関する音声認識のためにメモリ領域1から3に向け
て順に読み出すように設定し、また米国等の海外で使用
する際には、その国の地名の表現方式に対応して、メモ
リ領域nから1に向けて順に読み出すように設定するこ
とができる。
おいては変換辞書選択部25からの信号を入力できるよ
うにしており、後述するようにデータ変換部24におい
て、これから入力される音声データは地名データである
ことが識別され、変換辞書選択部25に対して変換辞書
部26において地名辞書を選択する指示が行われた時
に、その信号を入力する。それにより、地名データの変
換モードにおいて、音声データ蓄積部15からの通常の
使用状態と異なる読み出し順とするときには、その読み
出し順とする指定信号を出力する。
変換部24から、先に入力した音声単語データの変換が
終了した旨の信号を受け、指定された順序で音声データ
蓄積部15の次のメモリ領域の音声データを読み出すこ
とができるようにしている。
20により順に読み出される音声データを一つづつ入力
し、変換辞書選択部25により選択された変換辞書部2
6の所定の辞書データを用いてデータ変換を行う。図1
に示す実施例における変換辞書部26は、本発明が特に
有用である地名検索を行うための地名変換辞書部分を代
表例として示しており、この地名辞書内は「広域」「中
域」「狭域」更に必要に応じてこれを展開している「細
展開域」等の複数の階層に展開している。なお、図示実
施例においては前記のように3つの階層に展開した例を
示しているが、前記音声データ蓄積部15と同様に、4
個、5個等任意の階層に展開して構成しておくこともで
きる。
の言葉を認識することができる、図中「その他の辞書」
として示している辞書部分も備えている。それにより、
音声認識の開始時において変換辞書選択部25は「その
他の辞書」を選択しておくことにより、「ちめい」等の
音声が入力されるとき、これをその他のモードの辞書か
ら検索し、以降は地名入力がおこなわれることが認識さ
れる。それにより、変換辞書選択部25は、以降は変換
辞書部26の地名辞書を用いることを指示するととも
に、音声データ読出制御部20から入力される音声の1
番目の単語については「広域」の辞書から検索を行うこ
とも指示する。上記地名の入力は、例えばナビゲーショ
ン装置において、目的地や経由地の設定、所在地のわか
っている地点や施設の検索等に用いられる。
部24には音声データ読出部20から前記設定された順
序で音声データ蓄積部15内のメモリ領域から最初の音
声データが読み出され、前記のようにして選択された変
換辞書部26における地名モード中の広域の部分の辞書
を検索し、データの変換処理を行う。変換終了後データ
変換部24は、音声データ読出制御部20に次のメモリ
領域の音声データの読み出しの指示を行い、同時に変換
辞書選択部25には変換辞書部26における前回に使用
された広域のデータのうち、前記認識された広域の地名
の下位に展開されている「中域」の辞書を選択するよう
指示する。
ータ蓄積部15の次のメモリ領域から音声データを読み
出し、前記のように選択された変換辞書部26の地名モ
ードにおける中域の辞書に基づいてデータの変換を行
う。この変換終了後データ変換部は、前記と同様に音声
データ読出制御部20に対して、次のメモリ領域から音
声データを読み出すことを指示し、読み出された音声デ
ータを入力する。また、変換辞書選択部25に対して前
記と同様に、認識された中域の地名の下位に展開されて
いる狭域のデータを読み出すことを指示する。このよう
にして地名の音声データは、データ変換部24で前記の
ように選択された狭域の辞書に基づいてデータの変換が
行われる。以下、必要に応じて次のメモリ領域から音声
データを読み出し、細展開域の地名辞書を用いて順にデ
ータ変換を行う。
された音声データは、通信インターフェース(I/F)
27を介して、ナビゲーション装置等、この音声認識装
置により作動が制御される機器の制御部に対して出力す
る。このデータの出力に際しては、データ変換部24で
変換された順序に外部に出力することができる一方、デ
ータ変換部等にメモリを設け、前記実施例において地名
に関するデータの変換を全て終了した後に外部に出力す
ることができる。それにより、例えばナビゲーション装
置においては、地名とその地名を代表する地点の緯度・
経度データの対応表等にアクセスし、音声入力された地
名の位置データを得ることができ、これを目的地や経由
地等のデータとして用いることができる。
発明の音声認識装置は、本発明が有効な代表的例である
地名の音声認識処理に際して、図2に示すフローによっ
て作動することができる。即ち、最初、音声認識装置に
対して地名入力を行うことを示すため、例えば「ちめ
い」等の音声を発すると、最初は図1の変換辞書部26
における「その他の辞書」を選択するようにしているの
で、その辞書を用いてデータ変換し、以降は地名の入力
モードに切り替えられる(ステップS1)。それによ
り、変換辞書切替部25が変換辞書部26においてそれ
以降は地名辞書を選択するように切り替える(ステップ
2)。
書に切り替える手段としては、前記のような音声の他、
例えば装置の外部に設けたスイッチの操作、タッチパネ
ルの操作、ナビゲーション装置における目的地入力モー
ドとなったことの検出等、種々の方式により地名音声入
力を行うことを検出し、それらによっても地名辞書の選
択を行うことができる。上記のようにして変換辞書にお
ける地名辞書を選択することにより、明確に階層構造と
なっているこの辞書を、地名音声入力時に確実に選択し
て使用することができる。
「東京都・千代田区・霞ヶ関」を音声入力するときに
は、最初「とうきょうと」と発声する(ステップS
3)。この音声は今回の音声認識における最初の単語で
あるので(ステップS4)、図1の音声データ蓄積部1
5における最初の領域、図示の例においてはメモリ領域
1にメモリされる(ステップS5)。このように、最初
の単語は常にメモリ領域1に入力され、以降の音声デー
タはメモリ領域2から順に入力される。
データのメモリ期間中において、入力される音声信号中
に、単語の区切りを意味する例えば1秒等の無音区間等
の音声単語区切り信号が存在するか否かを判別してお
り、存在しない場合は一つの単語が継続しているとし
て、メモリ内へのデータの蓄積を継続する。しかしなが
ら例えば1秒間以上の無音期間が存在することを検出す
ると、今回音声データを蓄積しているメモリ領域は、音
声データ蓄積部の中の最後のメモリ領域であるか否かを
判別し(ステップS7)、この例の場合は最初のメモリ
領域であるので、メモリ領域切替部のメモリ領域を次の
領域に切り替え(ステップS8)、次に入ってくる音声
データのメモリ先を定める。なお、音声単語区切り信号
としては、前記のような無音期間の他、図1に示すよう
な音声区切トリガースイッチ17を備え、これを利用者
が操作する場合は、利用者が単語の区切りであることを
示すためにこのスイッチを操作した信号を入力すること
により、確実に単語の区切りの信号を検出することがで
きる。
ル変換等の処理を行った後に、前記のようにメモリ領域
への書き込みが行われるので、その処理は高速で行われ
るもののある程度の時間を要するので、確実に単語一つ
分の音声データがメモリ領域に蓄積された後に、次のデ
ータ蓄積のためのメモリ領域の切り替えが行われる。そ
の切り換えは、音声データ蓄積部のメモリ領域において
領域1,2,3のように昇順等の所定の順番に切り替え
られる。この切り替え操作が終了したか否かを判別し、
終了するまで待つ(ステップS9)。終了したならば、
この音声認識装置においては、利用者に対して次の音声
入力を促す信号を出力するようにしている(ステップS
10)。
スピーカからその旨を出力することができ、その際には
例えば「次に市区町村を言って下さい。」等のように、
次に入力する地名のカテゴリーを示すように構成するこ
ともでき、このようにすることによりより確実な音声入
力を行うことができる。また、次の音声入力を促す信号
としては、上記のような音声のほか、例えば緑ランプの
点灯、或いは赤ランプから緑ランプへの表示切り替え等
の出力を行うこともできる。
号が検出されたか否かの判別を行う(ステップS1
1)。このような音声入力が終了したか否かの信号とし
ては、例えば、音声入力を促す信号を出力しても、所定
時間以上音声入力が行われなかったこと、即ち所定時間
以上の無音時間が存在することを検出した信号を用いる
ことができ、また、図1に示す音声認識開始トリガース
イッチ23を利用者が操作したことを検出するようにし
てもよい。前記音声入力においは、「とうきょうと」と
入力したのみであるので、次の「千代田区」を入力する
ためステップ3に戻る。同様にして「ちよだく」と発声
すると、この音声入力が最初の単語であるか否かを判別
し、今回の音声入力は2番目の単語であるので、先に切
り替えたメモリ領域2内にこの音声データをメモリする
(ステップS12)。
の検出、メモリ領域を次の領域に切り替え、次の入力を
促す信号の出力等の作動を行い、再び音声入力終了信号
を検出したか否かの判別に至る(ステップS13)。上
記実施例においては、次に「霞ヶ関」を入力する必要が
あるので、ステップS3に再び戻り、ここで「かすみが
せき」と発声する。以下も同様に、切り替えた領域にこ
れをメモリするが、この時はメモリ領域3にメモリされ
ることとなる。音声データ蓄積部に3個のメモリ領域し
か持っていないときには、ステップS7において、メモ
リした領域は最後の領域か否かの判別において、最後の
領域と判別され、ステップS13に進み、次の作動であ
る音声認識が開始される。
うな3個以上の更に多数のメモリ領域が存在するときに
は、前記判別の後上記作動を繰り返す。しかし、この実
施例においてはこの「霞ヶ関」の単語が最後の単語であ
るため、ステップS10において次の信号を促す信号を
出力したにもかかわらず音声信号を入力しないので、所
定時間以上の無音時間が存在することを検出して次の作
動である音声認識を開始することができる。また、音声
認識開始トリガースイッチ23が操作されたときにも同
様に音声認識が開始される。
ような作動が行われる。最初、図1の読出順指定部21
で指定した読み出し順が、メモリ領域の番号の昇順であ
るか否かが判別される。なお、この実施例において、読
出順指定部21では、単に昇順か降順かを指定するもの
として示しているが、任意の順番に読み出すように設定
しておくこともできる。
本における通常の地名表現方法に沿い「東京都・千代田
区・霞ヶ関」と、「東京都」の広域側から「霞ヶ関」の
狭域側に向けた順序で発声されるときには、前記音声デ
ータ蓄積部15には発声順にメモリ領域1から順にメモ
リされているので、読み出し順指定部21はメモリ領域
番号の昇順、即ちメモリ領域1から順に読み出すように
指定している。したがって、この音声認識装置を用いて
いる機器を日本人が使用するときには、上記のように指
定しているので、読出順指定はメモリ領域の昇順である
と判別される(ステップS21)。
の読み出しであるか否かが判別され(ステップS2
2)、この場合は最初の読み出しであるので、メモリ領
域1にメモリされた音声データを読み出す(ステップS
24)。この音声データは図1のデータ変換部24に入
力され、データ変換部24は入力した音声データが最初
のデータであることにより変換辞書選択部25に、変換
辞書部26における地名辞書の広域辞書を選択するよう
に指示する。それによりデータ変換部は、広域辞書のデ
ータにアクセスして検索することができる。
は、例えば図4に示すようなデータが格納されている。
即ち、同図には日本の地名の地名認識辞書の例を示して
おり、広域としての都道府県データ部分には、「北海道
「から「沖縄」まで47のデータが入っている。また、
中域としての市区町村の階層には、図示の例では「東京
都」について示しているように、「足立区」から「目黒
区」までの区部と、「秋川市」等の市部と、「八丈町」
等の町部と、「青ヶ島村」等の村部が存在し、64の市
区町村が存在している。更に、狭域としての丁字の階層
には、図示の例では「千代田区」について示しているよ
うに、「飯田橋」から「六番町」までに約60の丁字が
存在している。なお、これら各域における地名の配列順
は、五十音順、或いは音声波形順等、任意の配列として
おくことができる。
「・・丁目」が存在しない場合と、「飯田橋」の場合の
ように「・・丁目」が存在する場合とがあるが、丁字の
階層にはこの「・・丁目」のデータもを含めて配置して
おくことができる。また、この部分は更に下位に展開し
た辞書としてもつこともでき、また、この部分について
は地名辞書を用いることなく、この段階で変換辞書選択
部25により辞書を「その他の辞書」に切り替えて一般
の辞書を用いることもできる。
(ステップS24)、入力した音声データと、この広域
辞書に含まれる辞書データと比較して一致するものを検
索し、そのデータを通信I/F27を介して各種機器制
御部28に出力する。なお、この時変換したデータのバ
ッファを設けておくことにより、音声データ蓄積部のメ
モリ領域に入力された一連のデータが全て変換するまで
順に保存しておき、その変換が終了した後に、一度に通
信I/Fから各種機器の制御部に出力するようにしても
よい。
ータ変換部24では前記地名辞書中に、先に変換した地
名に対して下位の階層に展開している地名辞書が存在す
るか否かを判別する(ステップS26)。上記例の場合
は「東京都」の下位に中域辞書が存在するので、変換し
た地名の下位に展開している辞書を選択するように、変
換辞書選択部25に出力し、変換辞書選択部25では前
記中域の階層の地名辞書を選択する。(ステップS2
7)。
たか否かの判別が行われ、前記例の場合は1番最初の音
声データであり、未だメモリ領域に音声データが残って
いるのでステップS21に戻り、同様の作動を行う。こ
の時、図1のデータ変換部24は音声データ読出制御部
20に変換が終了したので次のデータの出力を指示する
信号を送る。
の読出順指定はメモリ領域の昇順か否かの判別において
は、読出順指定部21は特に指定の変更を行う必要がが
ないので、前回と同様に昇順とされている。次いで、ス
テップS22においてこの読み出しが最初の読み出しで
あるか否かが判別され、この例では2回目の読み出しで
あるので[N]となり、ステップ29に進み、次のメモ
リ領域、即ちメモリ領域2から音声データの読み出しを
行う。この領域2には前記例の場合は「ちよだく」の音
声データがメモリされており、これが読み出されて変換
部24に入力される。
S25)、先に変換辞書部26における地名辞書中にお
いて、「東京都」の市区町村の展開がなされている図4
に示すようなデータの入った中域辞書が選択されている
ので、この辞書データと入力された「ちよだく」の音声
データとを比較してデータの変換を行う。その結果、上
記例の場合は千代田区であることが認識される。
前回と同様に、この地名に対して下位の階層に展開して
いる地名辞書が存在するか否かが判別される(ステップ
26)。上記例の場合は「千代田区」の下位に狭域辞書
が存在するので、千代田区の丁字を展開している狭域辞
書を地名辞書の中から選択するように変換辞書選択部2
5に出力し、変換辞書選択部25では前記狭域の階層の
地名辞書を選択する(ステップS27)。
否かの判別が行われ、前記例の場合はメモリ領域3に読
み出されていないデータが残っているので、再びステッ
プS21に戻る。この時、前記と同様に、変換した音声
データを直接外部に出力することもでき、また、データ
バッファに先の変換データと共に蓄えておき、全て変換
されてから出力することもできる。
メモリ領域の昇順のままであるので、最初の読み出しか
の判別の後(ステップS22)、次のメモリ領域からの
読み出しを行う(ステップS29)。先に読み出された
メモリ領域は領域2であったので、次のメモリ領域3の
音声データが読み出される。前記の例の場合は「かすみ
がせき」の音声データがメモリされており、これが読み
出されて変換部24に入力される。
S25)、先の変換辞書部26における地名辞書中にお
いて、「千代田区」の丁字の展開がなされている図4に
示すようなデータの入った狭域辞書が選択されているの
で、この辞書データと入力された「かすみがせき」の音
声データとを比較してデータの変換を行い、その結果、
「霞ヶ関」であることが認識される。
識した地名に対し、更に展開した地名辞書が存在するか
否かが判別される(ステップS26)。地名辞書にこれ
以上の展開が存在しないときには、その他の辞書の選択
を行う(ステップS30)。この時、例えば図4の狭域
辞書部分に示すように、霞ヶ関については1丁目から3
丁目まで存在するので、この下位に更に展開した地名辞
書を備える場合には、前記判別において変換地名の下位
展開の辞書はある、として前回と同様にステップS27
に進む。
メモリ領域4が存在し、ここに「・・丁目」の音声デー
タをメモリした場合には、全音声データの変換は終了し
ていないとして、再びステップ21に戻ることとなる。
なお、メモリ領域4に「・・丁目」の音声データが入力
された場合であって、地名辞書に「・・丁目」等の下位
の展開地名辞書が存在しない場合には、その他の辞書を
選択した後(ステップS30)、全音声データの変換が
終了しないとして(ステップS28)ステップ21に戻
り、データの変換時に、一般的な音声変換用の辞書であ
るその他の辞書のデータに基づいて「・・ちょうめ」の
音声認識が行われることとなるが、この音声データは通
常頻繁に使われるので、これを一般的な辞書に基づいて
変換しても容易に、且つ正確に変換することができる。
蓄積部15のメモリ領域が3個しか存在せず、また、変
換辞書部26の地名辞書も3つの階層しか存在しない場
合は、前記のようにその他の辞書を選択した後、全音声
データの変換終了したか否かの判別において(ステップ
S28)、終了したと判別され音声認識の作動は終了す
る。この時、前記のように音声認識データの出力を行う
が、認識したデータを一時的に蓄えておくバッファが存
在し、ここに先のデータも蓄えられていたときには、こ
こで外部の機器の制御部にこれをまとめて出力しする。
それにより、例えばナビゲーション装置における目的地
設定に際して、前記データにより指定された地点を代表
する緯度と経度を他のデータから読み出し、その地点を
目的地として設定し、また、その地点の地図を表示する
等の作動を行うことができる。
認識に際しても、従来の装置のようにメモリ領域を1つ
しか持たず離散単語認識を行うものよりも、はるかに使
用性を向上することができ、且つ正確な音声認識を行う
ことができるものであるが、更に、例えばストリート名
から先に表現する等、狭域側から表現する米国等の海外
の地名を音声認識する際に特に有効となる。
ニューヨーク(New York)州(State)のニューヨーク市
(City)におけるパークアベニュー(Park Avenue)29
9番という所在地がわかっている、日本大使館の在ニュ
ーヨーク日本総領事館を探すため、ナビゲーション装置
に対してその所在地を音声認識装置により入力し、その
地点をナビゲーション装置の画面上に表示させたいとす
る。そのときに、ナビゲーション装置に本発明の音声認
識装置を搭載していると、前記のように狭域側から表現
する米国の通常の地名表記方式のままでこれを読み上げ
ると、音声認識装置は自動的に広域側から音声認識のデ
ータ変換を行い、効率が良く正確な音声認識を行うこと
が可能となる。
順設定部22によって、予め音声データ蓄積部15のメ
モリ領域n側からメモリ領域1に向けて、換言するとメ
モリ領域の降順に読み出すように読出順指定部21にセ
ットしておく。この状態で音声認識装置を作動し、前記
図2に示すフローにより音声データを音声データ蓄積部
15に蓄積させる。この時、利用者は「299」「Park
Avenue」「New YorkCity」「New York State」と通常
の地名表記方式のとおりに発声する。それにより前記日
本の地名の作動と全く同一に作動を行い、メモリ領域1
に「299」が、メモリ領域2に「Park Avenue」が、
メモリ領域3に「New York City」が、メモリ領域4に
「New York State」がメモリされることとなる。
毎に音声データ蓄積部15にメモリされた後、図3に示
すフローに沿ってデータの変換が行われる。即ち、読出
順指定はメモリ領域の昇順かの判別において、前記のよ
うに読み出し順指定部21において降順になるようにセ
ットしているので「N」となり、ステップ30に進んで
最初の読み出しか否かが判別される。ここでは最初の読
み出しであるのでメモリ領域nから読み出しが行われる
(ステップS31)。なお、音声データ蓄積部15に例
えば10個のメモリ領域が存在するときには、メモリ領
域10から読み出しが行われることとなるが、この部分
にはデータが存在しないのでメモリ領域9にアクセス
し、以下同様の作動によりメモリ領域4にアクセスした
ときに初めて音声データが存在するので、メモリ領域4
から最初の音声データである「NewYork State」を読み
出すこととなる。
前記日本の地名の音声認識と同様に、変換辞書部26の
地名辞書における広域辞書が選択され(ステップS2
4)、データの変換がなされる(ステップS25)。地
名辞書においては、前記日本の地名と同様に、「Stat
e」等の広域の地名の下に「City」等の中域の地名、そ
の下に「Avenue」や「Street」等の狭域の地名、その下
に必要に応じて細展開域の地名を備えている階層構造を
備えている。
様に作動するので、その詳細な作動の説明は省略する
が、日本の地名の音声認識と異なる点は、前記のように
メモリ領域の番号を降順に読み出す点のみである。それ
により、上記のように狭域側から発声した地名音声は、
前記日本の場合と同じく広域側から順に読み出され、同
様に広域側から順に読み出される地名辞書に基づいて変
換することができる。このようにすることにより、従来
の音声認識装置においては音声データ蓄積部のメモリ領
域が1つしかないため、発声順序の狭域側から順に音声
認識処理を行うと、最初は莫大な数の地名候補が存在す
る狭域側の全ての地名データから入力した音声データと
一致するものを選択することとなり、多くの処理時間を
必要とし且つ認識率も低下するが、上記音声認識装置に
おいては、狭域側から音声データを入力しても、広域側
からデータ変換処理を行うことができ、処理速度が速
く、しかも確実にデータ変換処理を行うことができる。
声認識装置を地名の入力に用いた例を示したが、それ以
外に、通常の機器操作や会話の音声認識にも同様に使用
することができ、そのときにおいても、複数の単語を1
語ずつメモリ領域に入力することにより、全ての音声入
力終了後に音声認識処理を連続して行うことができるよ
うになる。
を1語ずつ認識処理する離散単語入力方式であるにもか
かわらず、1語1語のデータ変換処理を待つことなく音
声入力することができ、複数の音声単語の入力が終了し
た後に音声認識処理を行うことができるので、安価なM
PUを備えた音声認識装置でも、連続単語入力方式のよ
うに操作性の良い装置とすることができる。特に、複数
のメモリ領域の音声データを所定の順序で読み出す音声
データ読出部を備えているので、発声順にメモリ領域に
メモリした音声データでも、変換辞書の構成等に合わせ
てデータ変換を行いやすい順序で読み出してデータ処理
を行うことができ、種々の入力形式、入力順序をもつ音
声認識装置にも広く対応することができる。
の音声データを蓄積順とは逆の順序で読み出す音声デー
タ読出部を備えているので、例えば海外向けの音声認識
装置に用いた際に、地名の表現が狭域側から広域側に入
力される場合でも、広域側からデータ変換処理を行うこ
とができるので、処理速度が速く、且つ正確な音声認識
を行うことができる。
出部は、トリガースイッチの押下を検出するので、音声
単語の区切りを確実に検出することができ、認識処理を
正確に行うことができる。
出部は、入力した音声の無音入力時間により検出するの
で、利用者は何らの操作も行うこと無しに単に単語と単
語の間に一時的な無音期間をおくだけで一連の音声認識
処理を行うことができ、離散単語認識処理を行うにも関
わらず、連続単語認識処理を行う音声認識装置と同様
に、操作性の良い音声認識装置とすることができる。
は、入力した音声の無音入力時間が所定時間以上である
ことを検出してデータ変換を開始するので、利用者は何
らの操作も行うこと無しに、自動的にデータ変換処理を
開始させることができ、操作性の良い音声認識装置とす
ることができる。
を切り替える際に、次の音声入力を促す信号を出力する
ので、利用者は音声認識装置装置の指示に従って音生入
力するのみで確実なデータ変換処理を行わせることがで
き、利用性の良い音声認識装置とすることができる。
を促す信号が、次に音声入力する単語のカテゴリーを示
すので、利用者は音声認識装置装置の指示に従って音生
入力するのみでより、利用する音声認識辞書に合わせて
入力することができ、確実なデータ変換処理を行わせる
ことができ、また、利用性の良い音声認識装置とするこ
とができる。。
広域辞書から狭域辞書まで階層別に展開された地名辞書
を接続し、音声データ蓄積部のメモリ領域から広域順に
読み出される音声データに対応して所定の地名辞書を選
択する変換辞書選択部を備えているので、地名の音声入
力に際して、例えば海外での地名の表現方式のように、
狭域側から順に音声入力を行っても、広域側からデータ
変換を行うことができ、広域側から階層別に使用しやす
いように展開されている地名辞書を用いて、高速で、確
実にデータ変換処理を行うことができる。
入力処理部分を中心として示す作動フロー図である。
タ変換部分を中心として示す作動フロー図である。
辞書の一例を示す構成図である。
蓄積部のメモリ領域とメモリされる地名音声データの内
容を示す説明図である。
Claims (8)
- 【請求項1】 音声入力部と、音声入力の区切りを検出
する音声区切り検出部と、入力した音声データを該音声
区切り検出部の信号により順に切り替えて蓄える複数の
メモリ領域を備えた音声データ蓄積部と、該複数のメモ
リ領域の音声データを所定の順序で読み出す音声データ
読出部と、読み出された音声データを順にデータ変換す
るデータ変換部と、変換したデータを外部機器の制御部
に出力する出力部とを備えたことを特徴とする音声認識
装置。 - 【請求項2】 音声入力部と、音声入力の区切りを検出
する音声区切り検出部と、入力した音声データを該音声
区切り検出部の信号により順に切り替えて蓄える複数の
メモリ領域を備えた音声データ蓄積部と、該複数のメモ
リ領域の音声データを蓄積順とは逆の順序で読み出す音
声データ読出部と、読み出された音声データを順にデー
タ変換するデータ変換部と、変換したデータを外部機器
の制御部に出力する出力部とを備えたことを特徴とする
音声認識装置。 - 【請求項3】 前記音声区切り検出部は、スイッチの押
下を検出する請求項1または請求項2記載の音声認識装
置。 - 【請求項4】 前記音声区切り検出部は、入力した音声
の無音入力時間により検出する請求項1または請求項2
記載の音声認識装置。 - 【請求項5】 前記データ変換部は、入力した音声の無
音入力時間が所定時間以上であることを検出してデータ
変換を開始する請求項1または請求項2記載の音声認識
装置。 - 【請求項6】 複数のメモリ領域を切り替える際に、次
の音声入力を促す信号を出力する請求項4記載の音声認
識装置。 - 【請求項7】 前記次の音声入力を促す信号が、次に音
声入力する単語のカテゴリーを示す請求項6記載の音声
認識装置。 - 【請求項8】 データ変換部には広域辞書から狭域辞書
まで階層別に展開された地名辞書を接続し、音声データ
蓄積部のメモリ領域から広域順に読み出される音声デー
タに対応して所定の地名辞書を選択する変換辞書選択部
を備えた請求項1または請求項2記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP33689999A JP3830124B2 (ja) | 1999-11-26 | 1999-11-26 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP33689999A JP3830124B2 (ja) | 1999-11-26 | 1999-11-26 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001154691A true JP2001154691A (ja) | 2001-06-08 |
JP3830124B2 JP3830124B2 (ja) | 2006-10-04 |
Family
ID=18303680
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP33689999A Expired - Fee Related JP3830124B2 (ja) | 1999-11-26 | 1999-11-26 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3830124B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007003602A (ja) * | 2005-06-21 | 2007-01-11 | Alpine Electronics Inc | 音声認識装置及びこれを備えた車両用走行誘導装置 |
US7240008B2 (en) | 2001-10-03 | 2007-07-03 | Denso Corporation | Speech recognition system, program and navigation system |
JP2008203296A (ja) * | 2007-02-16 | 2008-09-04 | Denso Corp | 音声認識装置及びナビゲーション装置 |
US7818171B2 (en) | 2006-03-31 | 2010-10-19 | Denso Corporation | Speech recognition apparatus and speech recognition program |
JP2014043964A (ja) * | 2012-08-24 | 2014-03-13 | Toshiba Home Technology Corp | 加熱調理器 |
US11361752B2 (en) | 2017-09-11 | 2022-06-14 | Mitsubishi Electric Corporation | Voice recognition dictionary data construction apparatus and voice recognition apparatus |
US11898788B2 (en) | 2015-09-03 | 2024-02-13 | Samsung Electronics Co., Ltd. | Refrigerator |
-
1999
- 1999-11-26 JP JP33689999A patent/JP3830124B2/ja not_active Expired - Fee Related
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7240008B2 (en) | 2001-10-03 | 2007-07-03 | Denso Corporation | Speech recognition system, program and navigation system |
JP2007003602A (ja) * | 2005-06-21 | 2007-01-11 | Alpine Electronics Inc | 音声認識装置及びこれを備えた車両用走行誘導装置 |
US7818171B2 (en) | 2006-03-31 | 2010-10-19 | Denso Corporation | Speech recognition apparatus and speech recognition program |
JP2008203296A (ja) * | 2007-02-16 | 2008-09-04 | Denso Corp | 音声認識装置及びナビゲーション装置 |
JP4672686B2 (ja) * | 2007-02-16 | 2011-04-20 | 株式会社デンソー | 音声認識装置及びナビゲーション装置 |
US8145487B2 (en) | 2007-02-16 | 2012-03-27 | Denso Corporation | Voice recognition apparatus and navigation apparatus |
JP2014043964A (ja) * | 2012-08-24 | 2014-03-13 | Toshiba Home Technology Corp | 加熱調理器 |
US11898788B2 (en) | 2015-09-03 | 2024-02-13 | Samsung Electronics Co., Ltd. | Refrigerator |
US11361752B2 (en) | 2017-09-11 | 2022-06-14 | Mitsubishi Electric Corporation | Voice recognition dictionary data construction apparatus and voice recognition apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP3830124B2 (ja) | 2006-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4116233B2 (ja) | 音声認識装置ならびにその方法 | |
US9805722B2 (en) | Interactive speech recognition system | |
US9177545B2 (en) | Recognition dictionary creating device, voice recognition device, and voice synthesizer | |
US8099290B2 (en) | Voice recognition device | |
US20140100847A1 (en) | Voice recognition device and navigation device | |
JP4466379B2 (ja) | 車載音声認識装置 | |
JPH10503033A (ja) | 新ワードのモデル化に基づく音声認識方法及びその装置 | |
US20130166290A1 (en) | Voice recognition apparatus | |
JP2007535731A (ja) | 殊に自動車のためのリスト項目選択方法および情報システムまたは娯楽システム | |
JP2013512476A (ja) | 複数の辞書を用いたスピーチ認識 | |
JP3830124B2 (ja) | 音声認識装置 | |
US20140067400A1 (en) | Phonetic information generating device, vehicle-mounted information device, and database generation method | |
US6721702B2 (en) | Speech recognition method and device | |
JP6100101B2 (ja) | 音声認識を利用した候補選択装置および候補選択方法 | |
JP3726783B2 (ja) | 音声認識装置 | |
KR101944303B1 (ko) | 음성인식을 이용한 자동 음원 선곡이 가능한 자동차 오디오 시스템 제어방법 | |
JP3296783B2 (ja) | 車載用ナビゲーション装置および音声認識方法 | |
JP3759313B2 (ja) | 車載用ナビゲーション装置 | |
KR101063159B1 (ko) | 명령횟수를 줄일 수 있는 음성 인식을 이용한 주소 검색 방법 | |
JP2010128144A (ja) | 音声認識装置及びプログラム | |
JP4498906B2 (ja) | 音声認識装置 | |
JPH08328584A (ja) | 音声認識装置、音声認識方法及びナビゲーション装置 | |
JP2000089782A (ja) | 音声認識装置と方法、ナビゲーションシステム、及び記録媒体 | |
JP2007193184A (ja) | 音声住所認識装置 | |
JP4093394B2 (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040729 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060424 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060613 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060707 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060710 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100721 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100721 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110721 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120721 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120721 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130721 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130721 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140721 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |