JP2001154691A

JP2001154691A - 音声認識装置

Info

Publication number: JP2001154691A
Application number: JP33689999A
Authority: JP
Inventors: Kazuki Matsuda; 一樹松田
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 1999-11-26
Filing date: 1999-11-26
Publication date: 2001-06-08
Anticipated expiration: 2019-11-26
Also published as: JP3830124B2

Abstract

(57)【要約】【課題】音声認識装置において、単語を１語ずつデー
タ変換を行う離散単語認識は操作性が悪く、単語を連続
して入力し、一括してデータ変換する連続単語認識は高
性能のＭＰＵが必要である。【解決手段】音声データ蓄積部１５には複数のメモリ
領域１〜ｎを設ける。マイク１０から地名等を入力する
とき、１語ずつ区切って各領域に順に入力する。音声認
識開始信号検出部１９等で単語入力の終了を検出する
と、音声データ読出部２０が、読出順指定部２１の指示
の順序でメモリ領域の昇順か降順に１語ずつ読み出す。
この時、前記日本の地名の場合は昇順に、米国等の海外
の地名の場合は降順に読み出す。データ変換部２４で
は、読み出した音声データを１語ずつ変換辞書部２６の
辞書を用いてデータ変換し、全て変換されるとこれを各
種機器制御部２８に出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声を認識して各
種機器を作動させるための音声認識装置に関し、特に、
住所に関する音声の認識に際して、都道府県等の広域側
から話す日本と、ストリート名等の、狭域側から話す米
国等の外国のいずれで使用しても、効率よく認識処理す
ることができる音声認識装置に関する。

【０００２】

【従来の技術】近年、各種機器の作動を音声により指示
し、音声認識装置によりこれを認識して機器の作動制御
を行うことが、パソコンを初めとして一般家庭用機器等
の各種の分野で広く行われており、その研究開発が急速
に進められている。このような音声により機器の作動を
制御する分野の一つとして、各種の車載機器を音声によ
り操作することが注目されている。即ち、車載機器の多
くは運転者が操作する場合が多く、一方、運転者は安全
運転のために、できる限り車載機器の操作に注意をそら
せることは好ましくない。

【０００３】近年の車載機器はオーディオ装置の高度
化、ナビゲーション装置の機能の多様化等のため、これ
らの機器に対して各種の作動指示を行うことが多くなっ
ている。この対策として、上記音声認識装置を用い、運
転者は前方を注視したままで、例えばオーディオ機器を
音声により操作すること、あるいは、ナビゲーション装
置において近隣施設検索を音声で指示し、ナビゲーショ
ン装置では音声でこれに応える、というシステムが考え
られており、一部実用化され、車載用のユーザーインタ
ーフェースとして脚光を浴びている。

【０００４】現在の音声認識システムでは、離散単語認
識、連続単語認識の技術が確立されてきている。即ち、
離散単語認識は認識させる単語を一つづつ音声入力し、
その一つずつを音声認識処理するもので、各種製品の操
作などに以前から使用されていた。ここで処理される単
語については、近年、大語彙認識が可能になり、比較的
長い単語でも正確に認識できるようになり、カーナビゲ
ーションでも採用されている。

【０００５】一方、連続単語認識は、認識させたい単語
を複数連続して発生しても各単語を分解して認識可能な
システムで、例えば地名を入力する際に、「東京都港区
青山」と発生すると、入力された言葉は「東京都」「港
区」「青山」で構成されことを識別し、各単語を順次認
識するものであり、音声認識装置としては非常に使いや
すいシステムということができる。このような連続単語
認識は、特にカーナビゲーション装置において比較的語
彙数の限られている、地名や施設の検索に有効であると
いわれており、実用化されつつある。

【０００６】しかし、上記のような連続単語認識は、連
続して入力される複数の単語を適切な部分で分離する必
要があり、きわめて多くの辞書から適切と思われる単語
を検索することを繰り返す必要があり、きわめて多くの
データ処理を行う必要があるため、高速の演算性能を備
えたＭＰＵが必要となり、非常に高価なシステムになっ
てしまうという欠点があった。

【０００７】それに対して、離散単語認識は一つの単語
であることをユーザが指定して入力するので上記のよう
な単語を分離するデータ処理が不要となり、比較的安価
なハードウェアでも正確な認識が実現可能となり、した
がって、現在は未だこのような離散単語認識を用いて入
力する方式が多い。このような離散単語認識を用いて例
えば地名などを入力する場合には、日本のユーザーは
「都道府県名」「市区町村名」「丁字」の、広域の地名
から狭域の地名の階層順に地名を入力し、各単語入力毎
に音声認識開始トリガースイッチを押下することにより
音声認識を実現している。

【０００８】上記のように、地名の入力に際して、都道
府県名から入力するのは、単に日本の地名がこの順に表
現されるからのみではなく、地名の音声認識処理が早く
なり、且つ認識精度が向上するからである。即ち、当然
のこととして、広域の地名である各都道府県の１つ１つ
に市区町村が存在し、更に各市区町村の１つ１つに狭域
の地名である丁字が存在するため、最初に都道府県名を
認識すると、その認識された都道府県の中の市区町村が
抽出されて次に入力される単語の候補となり、全国の市
区町村全体の中では限られたもののみが候補として絞ら
れる。次に市区町村名を認識すると、その認識された市
区町村の中の丁字が抽出されて次に入力される単語の候
補となり、これも同様に全国のきわめて多く存在する丁
字の中では限られたもののみが候補として絞られること
となる。

【０００９】このように、地名の音声認識は、通常の会
話の音声認識と異なり、その階層構造を利用して比較的
容易に音声認識を行うことができる特性を備えている。
そのため、音声認識に際して地名の音声認識を行うこと
が決定されると、以降は、広域側の地名から順に認識す
ることが決められれば、認識する単語の候補はきわめて
限られ、比較的処理速度の遅いＭＰＵを用いても高速
に、しかも正確に認識することができる。

【００１０】

【発明が解決しようとする課題】上記のように、地名の
音声認識処理は一般会話等の音声認識処理に比較してき
わめて容易であるにもかかわらず、前記離散単語認識の
方式では、都道府県名を発音した後、音声認識開始用Ｓ
Ｗを操作し、データ変換部による音声認識結果を確認し
た後次の市区町村名を発声するという操作を繰り返すこ
ととなり、操作が煩わしいという問題点があった。

【００１１】一方、海外の地名についてみると、例えば
米国においては、広域の地名としては「州」が存在し、
以降は「シティー」等に細分化された地名、狭域の地名
として「ストリート」等の道路名と「番地」が存在し、
その地名データ量は当然前記日本の場合と同様に、広域
地名の数は少なく、狭域地名の数は多大のものとなる。
しかしながら、通常の地名の表示、及び会話に際して
は、日本とは逆に、狭域側である「ストリート」から示
し、最後に広域側の「州」を示す習慣となっている。

【００１２】上記米国のように地名を狭域側から広域側
に示す海外諸国においては、前記日本のように最初に示
したものからそのまま音声認識する方式では、最初に莫
大な数の地名候補が存在する狭域の地名群の中から、示
された地名を選択する必要があり、データ処理量がきわ
めて多くなり、多くの時間がかかると共に認識の正解率
が低下する。そのため、このような国における地名の音
声認識において、従来の音声認識装置を使用する際に
は、通常言い慣れた「ストリート」等の狭域側から地名
を示すことは好ましくなく、逆に「州」の広域側から地
名を示すことが好ましいこととなり、使いにくい音声認
識装置とならざるを得ない。

【００１３】また、上記のような従来の離散単語認識方
式を用いると、地名を「州」側から発声して音声入力を
行って音声認識開始用ＳＷを操作して音声認識結果の確
認処理を待ち、その後に次に続く地名の発声を行うとい
う操作を繰り返す必要があり、前記日本の場合と同様
に、その操作が煩わしいという問題点も存在する。

【００１４】したがって、本発明は、地名の音声認識に
際して、離散単語認識方式の音声認識装置においても、
連続単語認識システムと同様に近い使い勝手の良い音声
認識装置とすることができ、また、海外でこの音声認識
装置を使用する際に、地名の狭域側のストリートから広
域側の州に向けて発声しても、逆の広域側から音声認識
処理を行うことができ、それによりデータ変換処理を高
速で行うことができると共に、音声認識の正解率を向上
させることができる音声認識装置を提供することを主た
る目的としている。

【００１５】

【課題を解決するための手段】本発明は、上記課題を解
決するため、音声入力部と、音声入力の区切りを検出す
る音声区切り検出部と、入力した音声データを該音声区
切り検出部の信号により順に切り替えて蓄える複数のメ
モリ領域を備えた音声データ蓄積部と、該複数のメモリ
領域の音声データを所定の順序で読み出す音声データ読
出部と、読み出された音声データを順にデータ変換する
データ変換部と、変換したデータを外部機器の制御部に
出力する出力部とを備えたことを特徴とする音声認識装
置としたものである。

【００１６】また、請求項２に係る発明は、音声入力部
と、音声入力の区切りを検出する音声区切り検出部と、
入力した音声データを該音声区切り検出部の信号により
順に切り替えて蓄える複数のメモリ領域を備えた音声デ
ータ蓄積部と、該複数のメモリ領域の音声データを蓄積
順とは逆の順序で読み出す音声データ読出部と、読み出
された音声データを順にデータ変換するデータ変換部
と、変換したデータを外部機器の制御部に出力する出力
部とを備えたことを特徴とする音声認識装置としたもの
である。

【００１７】また、請求項３に係る発明は、前記音声区
切り検出部は、スイッチの押下を検出する請求項１また
は請求項２記載の音声認識装置としたものである。

【００１８】また、請求項４に係る発明は、前記音声区
切り検出部は、入力した音声の無音入力時間により検出
する請求項１または請求項２記載の音声認識装置とした
ものである。

【００１９】また、請求項５に係る発明は、前記データ
変換部は、入力した音声の無音入力時間が所定時間以上
であることを検出してデータ変換を開始する請求項１ま
たは請求項２記載の音声認識装置としたものである。

【００２０】また、請求項６に係る発明は、複数のメモ
リ領域を切り替える際に、次の音声入力を促す信号を出
力する請求項４記載の音声認識装置としたものである。

【００２１】また、請求項７に係る発明は、前記次の音
声入力を促す信号が、次に音声入力する単語のカテゴリ
ーを示す請求項６記載の音声認識装置としたものであ
る。

【００２２】また、請求項８に係る発明は、データ変換
部には広域辞書から狭域辞書まで階層別に展開された地
名辞書を接続し、音声データ蓄積部のメモリ領域から広
域順に読み出される音声データに対応して所定の地名辞
書を選択する変換辞書選択部を備えた請求項１または請
求項２記載の音声認識装置としたものである。

【００２３】

【発明の実施の形態】本発明の実施の形態を図面に沿っ
て説明する。なお、図１は本発明の音声認識装置の機能
ブロック図を示し、図２は本発明の音声認識装置の主と
して音声入力部を示す作動フロー図を示し、図３は本発
明の音声認識装置の主として音声認識部を示す作動フロ
ー図であり、図４は音声認識装置に用いる地名変換辞書
の構成図であり、図５は本発明の音声データ蓄積部を構
成するメモリ領域内のメモリ内容を示す図である。

【００２４】本発明の音声認識装置は、図１に示すよう
に、マイク１０からの音声信号を入力する音声入力部１
１と、入力した音声を各種機器作動用の信号に変換する
音声認識部１２とから構成されている。

【００２５】音声入力部１１は、前記マイクのからのア
ナログ信号をアナログ・ディジタル変換器（Ａ／Ｄ）１
３により、信号処理の行いやすいディジタル信号に変換
する。このディジタル信号は、図示されないＭＰＵ、プ
ログラムを格納したＲＯＭ等とデータの授受を行うＡ／
Ｄインターフェース回路（Ｉ／Ｆ）１４を介して、音声
データ蓄積部としての音声データ蓄積部１４に入力す
る。音声データ蓄積部１５にはｎ個のメモリ領域が存在
し、音声区切り検出部１６からの信号により、メモリ領
域切替部１８が入力した音声データをメモリ領域１から
順に、メモリ領域２，メモリ領域３の順序でメモリし領
域を切り替えて蓄積する。

【００２６】このようにメモリ領域を複数備えると、各
メモリ領域には、後述するように地名データの単語を分
割して入力し、これを読み出す際に任意の順序で読み出
すことができるようにするために特に有効であるが、こ
のような地名の入力以外の一般的な音声入力において
も、単語毎に区切ってそれぞれの領域に順に蓄積し、デ
ータ変換に際しては順にこれを読み出してデータ変換を
行い、最終的に全データを自動的に変換するために使用
することも可能である。

【００２７】前記音声区切り検出部１６は、音声データ
蓄積部１５に入力される音声信号を検出し、一時的に入
力音が途切れたことを検出し、あるいは音声認識装置の
外部に設けた音声区切トリガースイッチ１７を利用者が
操作したことを検出することにより、入力される音声の
単語が区切られていることを検出する。なお、前記メモ
リ領域切替部１８には、その切替が終了したことにより
次の音声入力が可能となったことを利用者に知らせるた
めの、切替終了出力部を接続することもできる。

【００２８】音声認識部１２には音声認識開始信号検出
部１９と読出順切替部２１で制御される音声データ読出
制御部２０を備えている。音声認識開始信号検出部１９
では、音声データ蓄積部１５に入力される音声信号を監
視して、入力音が所定時間以上とぎれたことを検出する
ことにより、音声入力が少なくとも一時的に停止し、音
声認識の開始を待つ状態であると推定し、或いは必要に
応じて音声認識装置の外部に設けられ、利用者により操
作される音声認識開始トリガースイッチ２３が操作され
たことを検出し、それにより音声データ読出制御部２０
によって音声データ蓄積部１５内の音声データの読み出
しを開始させる。

【００２９】また、音声データ読出制御検出部２０には
読出順指定部２１が接続され、予め工場の生産ラインで
設定され、或いは利用者が適宜設定する音声認識装置の
外部に設けた読出順設定部２２からの信号を検出して、
音声データ読出制御部２０が音声データ蓄積部１５内の
メモリ領域１乃至ｎの音声データを読み出す順序を任意
に指定することができるようにしている。それにより、
後述するように、使用される地域が日本の場合には、地
名に関する音声認識のためにメモリ領域１から３に向け
て順に読み出すように設定し、また米国等の海外で使用
する際には、その国の地名の表現方式に対応して、メモ
リ領域ｎから１に向けて順に読み出すように設定するこ
とができる。

【００３０】前記読出順指定部２１には、図示実施例に
おいては変換辞書選択部２５からの信号を入力できるよ
うにしており、後述するようにデータ変換部２４におい
て、これから入力される音声データは地名データである
ことが識別され、変換辞書選択部２５に対して変換辞書
部２６において地名辞書を選択する指示が行われた時
に、その信号を入力する。それにより、地名データの変
換モードにおいて、音声データ蓄積部１５からの通常の
使用状態と異なる読み出し順とするときには、その読み
出し順とする指定信号を出力する。

【００３１】また、音声データ読出制御部２０はデータ
変換部２４から、先に入力した音声単語データの変換が
終了した旨の信号を受け、指定された順序で音声データ
蓄積部１５の次のメモリ領域の音声データを読み出すこ
とができるようにしている。

【００３２】データ変換部２４は音声データ読出制御部
２０により順に読み出される音声データを一つづつ入力
し、変換辞書選択部２５により選択された変換辞書部２
６の所定の辞書データを用いてデータ変換を行う。図１
に示す実施例における変換辞書部２６は、本発明が特に
有用である地名検索を行うための地名変換辞書部分を代
表例として示しており、この地名辞書内は「広域」「中
域」「狭域」更に必要に応じてこれを展開している「細
展開域」等の複数の階層に展開している。なお、図示実
施例においては前記のように３つの階層に展開した例を
示しているが、前記音声データ蓄積部１５と同様に、４
個、５個等任意の階層に展開して構成しておくこともで
きる。

【００３３】変換辞書部２６には、例えば「ちめい」等
の言葉を認識することができる、図中「その他の辞書」
として示している辞書部分も備えている。それにより、
音声認識の開始時において変換辞書選択部２５は「その
他の辞書」を選択しておくことにより、「ちめい」等の
音声が入力されるとき、これをその他のモードの辞書か
ら検索し、以降は地名入力がおこなわれることが認識さ
れる。それにより、変換辞書選択部２５は、以降は変換
辞書部２６の地名辞書を用いることを指示するととも
に、音声データ読出制御部２０から入力される音声の１
番目の単語については「広域」の辞書から検索を行うこ
とも指示する。上記地名の入力は、例えばナビゲーショ
ン装置において、目的地や経由地の設定、所在地のわか
っている地点や施設の検索等に用いられる。

【００３４】このような設定状態において、データ変換
部２４には音声データ読出部２０から前記設定された順
序で音声データ蓄積部１５内のメモリ領域から最初の音
声データが読み出され、前記のようにして選択された変
換辞書部２６における地名モード中の広域の部分の辞書
を検索し、データの変換処理を行う。変換終了後データ
変換部２４は、音声データ読出制御部２０に次のメモリ
領域の音声データの読み出しの指示を行い、同時に変換
辞書選択部２５には変換辞書部２６における前回に使用
された広域のデータのうち、前記認識された広域の地名
の下位に展開されている「中域」の辞書を選択するよう
指示する。

【００３５】同様にして、前記設定された順序で音声デ
ータ蓄積部１５の次のメモリ領域から音声データを読み
出し、前記のように選択された変換辞書部２６の地名モ
ードにおける中域の辞書に基づいてデータの変換を行
う。この変換終了後データ変換部は、前記と同様に音声
データ読出制御部２０に対して、次のメモリ領域から音
声データを読み出すことを指示し、読み出された音声デ
ータを入力する。また、変換辞書選択部２５に対して前
記と同様に、認識された中域の地名の下位に展開されて
いる狭域のデータを読み出すことを指示する。このよう
にして地名の音声データは、データ変換部２４で前記の
ように選択された狭域の辞書に基づいてデータの変換が
行われる。以下、必要に応じて次のメモリ領域から音声
データを読み出し、細展開域の地名辞書を用いて順にデ
ータ変換を行う。

【００３６】データ変換部２４で上記のようにして変換
された音声データは、通信インターフェース（Ｉ／Ｆ）
２７を介して、ナビゲーション装置等、この音声認識装
置により作動が制御される機器の制御部に対して出力す
る。このデータの出力に際しては、データ変換部２４で
変換された順序に外部に出力することができる一方、デ
ータ変換部等にメモリを設け、前記実施例において地名
に関するデータの変換を全て終了した後に外部に出力す
ることができる。それにより、例えばナビゲーション装
置においては、地名とその地名を代表する地点の緯度・
経度データの対応表等にアクセスし、音声入力された地
名の位置データを得ることができ、これを目的地や経由
地等のデータとして用いることができる。

【００３７】上記のように構成される機能部を備えた本
発明の音声認識装置は、本発明が有効な代表的例である
地名の音声認識処理に際して、図２に示すフローによっ
て作動することができる。即ち、最初、音声認識装置に
対して地名入力を行うことを示すため、例えば「ちめ
い」等の音声を発すると、最初は図１の変換辞書部２６
における「その他の辞書」を選択するようにしているの
で、その辞書を用いてデータ変換し、以降は地名の入力
モードに切り替えられる（ステップＳ１）。それによ
り、変換辞書切替部２５が変換辞書部２６においてそれ
以降は地名辞書を選択するように切り替える（ステップ
２）。

【００３８】このようにして音声認識変換辞書を地名辞
書に切り替える手段としては、前記のような音声の他、
例えば装置の外部に設けたスイッチの操作、タッチパネ
ルの操作、ナビゲーション装置における目的地入力モー
ドとなったことの検出等、種々の方式により地名音声入
力を行うことを検出し、それらによっても地名辞書の選
択を行うことができる。上記のようにして変換辞書にお
ける地名辞書を選択することにより、明確に階層構造と
なっているこの辞書を、地名音声入力時に確実に選択し
て使用することができる。

【００３９】続いて利用者が地名の入力のため、例えば
「東京都・千代田区・霞ヶ関」を音声入力するときに
は、最初「とうきょうと」と発声する（ステップＳ
３）。この音声は今回の音声認識における最初の単語で
あるので（ステップＳ４）、図１の音声データ蓄積部１
５における最初の領域、図示の例においてはメモリ領域
１にメモリされる（ステップＳ５）。このように、最初
の単語は常にメモリ領域１に入力され、以降の音声デー
タはメモリ領域２から順に入力される。

【００４０】最初の音声信号の入力直後から、その音声
データのメモリ期間中において、入力される音声信号中
に、単語の区切りを意味する例えば１秒等の無音区間等
の音声単語区切り信号が存在するか否かを判別してお
り、存在しない場合は一つの単語が継続しているとし
て、メモリ内へのデータの蓄積を継続する。しかしなが
ら例えば１秒間以上の無音期間が存在することを検出す
ると、今回音声データを蓄積しているメモリ領域は、音
声データ蓄積部の中の最後のメモリ領域であるか否かを
判別し（ステップＳ７）、この例の場合は最初のメモリ
領域であるので、メモリ領域切替部のメモリ領域を次の
領域に切り替え（ステップＳ８）、次に入ってくる音声
データのメモリ先を定める。なお、音声単語区切り信号
としては、前記のような無音期間の他、図１に示すよう
な音声区切トリガースイッチ１７を備え、これを利用者
が操作する場合は、利用者が単語の区切りであることを
示すためにこのスイッチを操作した信号を入力すること
により、確実に単語の区切りの信号を検出することがで
きる。

【００４１】マイクからの音声信号はアナログディジタ
ル変換等の処理を行った後に、前記のようにメモリ領域
への書き込みが行われるので、その処理は高速で行われ
るもののある程度の時間を要するので、確実に単語一つ
分の音声データがメモリ領域に蓄積された後に、次のデ
ータ蓄積のためのメモリ領域の切り替えが行われる。そ
の切り換えは、音声データ蓄積部のメモリ領域において
領域１，２，３のように昇順等の所定の順番に切り替え
られる。この切り替え操作が終了したか否かを判別し、
終了するまで待つ（ステップＳ９）。終了したならば、
この音声認識装置においては、利用者に対して次の音声
入力を促す信号を出力するようにしている（ステップＳ
１０）。

【００４２】なお、次の音声入力を促す信号としては、
スピーカからその旨を出力することができ、その際には
例えば「次に市区町村を言って下さい。」等のように、
次に入力する地名のカテゴリーを示すように構成するこ
ともでき、このようにすることによりより確実な音声入
力を行うことができる。また、次の音声入力を促す信号
としては、上記のような音声のほか、例えば緑ランプの
点灯、或いは赤ランプから緑ランプへの表示切り替え等
の出力を行うこともできる。

【００４３】その後、音声入力が終了したことを示す信
号が検出されたか否かの判別を行う（ステップＳ１
１）。このような音声入力が終了したか否かの信号とし
ては、例えば、音声入力を促す信号を出力しても、所定
時間以上音声入力が行われなかったこと、即ち所定時間
以上の無音時間が存在することを検出した信号を用いる
ことができ、また、図１に示す音声認識開始トリガース
イッチ２３を利用者が操作したことを検出するようにし
てもよい。前記音声入力においは、「とうきょうと」と
入力したのみであるので、次の「千代田区」を入力する
ためステップ３に戻る。同様にして「ちよだく」と発声
すると、この音声入力が最初の単語であるか否かを判別
し、今回の音声入力は２番目の単語であるので、先に切
り替えたメモリ領域２内にこの音声データをメモリする
（ステップＳ１２）。

【００４４】以降は前記と同様に、音声単語区切り信号
の検出、メモリ領域を次の領域に切り替え、次の入力を
促す信号の出力等の作動を行い、再び音声入力終了信号
を検出したか否かの判別に至る（ステップＳ１３）。上
記実施例においては、次に「霞ヶ関」を入力する必要が
あるので、ステップＳ３に再び戻り、ここで「かすみが
せき」と発声する。以下も同様に、切り替えた領域にこ
れをメモリするが、この時はメモリ領域３にメモリされ
ることとなる。音声データ蓄積部に３個のメモリ領域し
か持っていないときには、ステップＳ７において、メモ
リした領域は最後の領域か否かの判別において、最後の
領域と判別され、ステップＳ１３に進み、次の作動であ
る音声認識が開始される。

【００４５】なお、音声データ蓄積部１５内に上記のよ
うな３個以上の更に多数のメモリ領域が存在するときに
は、前記判別の後上記作動を繰り返す。しかし、この実
施例においてはこの「霞ヶ関」の単語が最後の単語であ
るため、ステップＳ１０において次の信号を促す信号を
出力したにもかかわらず音声信号を入力しないので、所
定時間以上の無音時間が存在することを検出して次の作
動である音声認識を開始することができる。また、音声
認識開始トリガースイッチ２３が操作されたときにも同
様に音声認識が開始される。

【００４６】音声認識に際しては、図３のフローに示す
ような作動が行われる。最初、図１の読出順指定部２１
で指定した読み出し順が、メモリ領域の番号の昇順であ
るか否かが判別される。なお、この実施例において、読
出順指定部２１では、単に昇順か降順かを指定するもの
として示しているが、任意の順番に読み出すように設定
しておくこともできる。

【００４７】ここで、入力された地名音声が、例えば日
本における通常の地名表現方法に沿い「東京都・千代田
区・霞ヶ関」と、「東京都」の広域側から「霞ヶ関」の
狭域側に向けた順序で発声されるときには、前記音声デ
ータ蓄積部１５には発声順にメモリ領域１から順にメモ
リされているので、読み出し順指定部２１はメモリ領域
番号の昇順、即ちメモリ領域１から順に読み出すように
指定している。したがって、この音声認識装置を用いて
いる機器を日本人が使用するときには、上記のように指
定しているので、読出順指定はメモリ領域の昇順である
と判別される（ステップＳ２１）。

【００４８】次いで、この音声データの読み出しが最初
の読み出しであるか否かが判別され（ステップＳ２
２）、この場合は最初の読み出しであるので、メモリ領
域１にメモリされた音声データを読み出す（ステップＳ
２４）。この音声データは図１のデータ変換部２４に入
力され、データ変換部２４は入力した音声データが最初
のデータであることにより変換辞書選択部２５に、変換
辞書部２６における地名辞書の広域辞書を選択するよう
に指示する。それによりデータ変換部は、広域辞書のデ
ータにアクセスして検索することができる。

【００４９】上記変換辞書部２６における地名辞書に
は、例えば図４に示すようなデータが格納されている。
即ち、同図には日本の地名の地名認識辞書の例を示して
おり、広域としての都道府県データ部分には、「北海道
「から「沖縄」まで４７のデータが入っている。また、
中域としての市区町村の階層には、図示の例では「東京
都」について示しているように、「足立区」から「目黒
区」までの区部と、「秋川市」等の市部と、「八丈町」
等の町部と、「青ヶ島村」等の村部が存在し、６４の市
区町村が存在している。更に、狭域としての丁字の階層
には、図示の例では「千代田区」について示しているよ
うに、「飯田橋」から「六番町」までに約６０の丁字が
存在している。なお、これら各域における地名の配列順
は、五十音順、或いは音声波形順等、任意の配列として
おくことができる。

【００５０】また、例えば「一番町」のようにその下に
「・・丁目」が存在しない場合と、「飯田橋」の場合の
ように「・・丁目」が存在する場合とがあるが、丁字の
階層にはこの「・・丁目」のデータもを含めて配置して
おくことができる。また、この部分は更に下位に展開し
た辞書としてもつこともでき、また、この部分について
は地名辞書を用いることなく、この段階で変換辞書選択
部２５により辞書を「その他の辞書」に切り替えて一般
の辞書を用いることもできる。

【００５１】前記のようにして広域辞書が選択されると
（ステップＳ２４）、入力した音声データと、この広域
辞書に含まれる辞書データと比較して一致するものを検
索し、そのデータを通信Ｉ／Ｆ２７を介して各種機器制
御部２８に出力する。なお、この時変換したデータのバ
ッファを設けておくことにより、音声データ蓄積部のメ
モリ領域に入力された一連のデータが全て変換するまで
順に保存しておき、その変換が終了した後に、一度に通
信Ｉ／Ｆから各種機器の制御部に出力するようにしても
よい。

【００５２】最初の音声データの変換が終了すると、デ
ータ変換部２４では前記地名辞書中に、先に変換した地
名に対して下位の階層に展開している地名辞書が存在す
るか否かを判別する（ステップＳ２６）。上記例の場合
は「東京都」の下位に中域辞書が存在するので、変換し
た地名の下位に展開している辞書を選択するように、変
換辞書選択部２５に出力し、変換辞書選択部２５では前
記中域の階層の地名辞書を選択する。（ステップＳ２
７）。

【００５３】次いで、全ての音声データの変換が終了し
たか否かの判別が行われ、前記例の場合は１番最初の音
声データであり、未だメモリ領域に音声データが残って
いるのでステップＳ２１に戻り、同様の作動を行う。こ
の時、図１のデータ変換部２４は音声データ読出制御部
２０に変換が終了したので次のデータの出力を指示する
信号を送る。

【００５４】図２の作動フローにおける、ステップ２１
の読出順指定はメモリ領域の昇順か否かの判別において
は、読出順指定部２１は特に指定の変更を行う必要がが
ないので、前回と同様に昇順とされている。次いで、ス
テップＳ２２においてこの読み出しが最初の読み出しで
あるか否かが判別され、この例では２回目の読み出しで
あるので［Ｎ］となり、ステップ２９に進み、次のメモ
リ領域、即ちメモリ領域２から音声データの読み出しを
行う。この領域２には前記例の場合は「ちよだく」の音
声データがメモリされており、これが読み出されて変換
部２４に入力される。

【００５５】この時のデータ変換に際しては（ステップ
Ｓ２５）、先に変換辞書部２６における地名辞書中にお
いて、「東京都」の市区町村の展開がなされている図４
に示すようなデータの入った中域辞書が選択されている
ので、この辞書データと入力された「ちよだく」の音声
データとを比較してデータの変換を行う。その結果、上
記例の場合は千代田区であることが認識される。

【００５６】上記「千代田区」の認識の結果に基づき、
前回と同様に、この地名に対して下位の階層に展開して
いる地名辞書が存在するか否かが判別される（ステップ
２６）。上記例の場合は「千代田区」の下位に狭域辞書
が存在するので、千代田区の丁字を展開している狭域辞
書を地名辞書の中から選択するように変換辞書選択部２
５に出力し、変換辞書選択部２５では前記狭域の階層の
地名辞書を選択する（ステップＳ２７）。

【００５７】その後、全音声データの変換が終了したか
否かの判別が行われ、前記例の場合はメモリ領域３に読
み出されていないデータが残っているので、再びステッ
プＳ２１に戻る。この時、前記と同様に、変換した音声
データを直接外部に出力することもでき、また、データ
バッファに先の変換データと共に蓄えておき、全て変換
されてから出力することもできる。

【００５８】以下同様の作動を行い、読み出し順指定は
メモリ領域の昇順のままであるので、最初の読み出しか
の判別の後（ステップＳ２２）、次のメモリ領域からの
読み出しを行う（ステップＳ２９）。先に読み出された
メモリ領域は領域２であったので、次のメモリ領域３の
音声データが読み出される。前記の例の場合は「かすみ
がせき」の音声データがメモリされており、これが読み
出されて変換部２４に入力される。

【００５９】この時のデータ変換に際しては（ステップ
Ｓ２５）、先の変換辞書部２６における地名辞書中にお
いて、「千代田区」の丁字の展開がなされている図４に
示すようなデータの入った狭域辞書が選択されているの
で、この辞書データと入力された「かすみがせき」の音
声データとを比較してデータの変換を行い、その結果、
「霞ヶ関」であることが認識される。

【００６０】この変換結果に基づいて、変換辞書中に認
識した地名に対し、更に展開した地名辞書が存在するか
否かが判別される（ステップＳ２６）。地名辞書にこれ
以上の展開が存在しないときには、その他の辞書の選択
を行う（ステップＳ３０）。この時、例えば図４の狭域
辞書部分に示すように、霞ヶ関については１丁目から３
丁目まで存在するので、この下位に更に展開した地名辞
書を備える場合には、前記判別において変換地名の下位
展開の辞書はある、として前回と同様にステップＳ２７
に進む。

【００６１】また、この時、音声データ蓄積部１５中に
メモリ領域４が存在し、ここに「・・丁目」の音声デー
タをメモリした場合には、全音声データの変換は終了し
ていないとして、再びステップ２１に戻ることとなる。
なお、メモリ領域４に「・・丁目」の音声データが入力
された場合であって、地名辞書に「・・丁目」等の下位
の展開地名辞書が存在しない場合には、その他の辞書を
選択した後（ステップＳ３０）、全音声データの変換が
終了しないとして（ステップＳ２８）ステップ２１に戻
り、データの変換時に、一般的な音声変換用の辞書であ
るその他の辞書のデータに基づいて「・・ちょうめ」の
音声認識が行われることとなるが、この音声データは通
常頻繁に使われるので、これを一般的な辞書に基づいて
変換しても容易に、且つ正確に変換することができる。

【００６２】前記実施例においては、例えば音声データ
蓄積部１５のメモリ領域が３個しか存在せず、また、変
換辞書部２６の地名辞書も３つの階層しか存在しない場
合は、前記のようにその他の辞書を選択した後、全音声
データの変換終了したか否かの判別において（ステップ
Ｓ２８）、終了したと判別され音声認識の作動は終了す
る。この時、前記のように音声認識データの出力を行う
が、認識したデータを一時的に蓄えておくバッファが存
在し、ここに先のデータも蓄えられていたときには、こ
こで外部の機器の制御部にこれをまとめて出力しする。
それにより、例えばナビゲーション装置における目的地
設定に際して、前記データにより指定された地点を代表
する緯度と経度を他のデータから読み出し、その地点を
目的地として設定し、また、その地点の地図を表示する
等の作動を行うことができる。

【００６３】上記実施例においては、日本の地名の音声
認識に際しても、従来の装置のようにメモリ領域を１つ
しか持たず離散単語認識を行うものよりも、はるかに使
用性を向上することができ、且つ正確な音声認識を行う
ことができるものであるが、更に、例えばストリート名
から先に表現する等、狭域側から表現する米国等の海外
の地名を音声認識する際に特に有効となる。

【００６４】例えば、米国内で車を運転しているとき、
ニューヨーク（New York）州（State)のニューヨーク市
（City)におけるパークアベニュー（Park Avenue）２９
９番という所在地がわかっている、日本大使館の在ニュ
ーヨーク日本総領事館を探すため、ナビゲーション装置
に対してその所在地を音声認識装置により入力し、その
地点をナビゲーション装置の画面上に表示させたいとす
る。そのときに、ナビゲーション装置に本発明の音声認
識装置を搭載していると、前記のように狭域側から表現
する米国の通常の地名表記方式のままでこれを読み上げ
ると、音声認識装置は自動的に広域側から音声認識のデ
ータ変換を行い、効率が良く正確な音声認識を行うこと
が可能となる。

【００６５】即ち、上記のような場合、図１に示す読出
順設定部２２によって、予め音声データ蓄積部１５のメ
モリ領域ｎ側からメモリ領域１に向けて、換言するとメ
モリ領域の降順に読み出すように読出順指定部２１にセ
ットしておく。この状態で音声認識装置を作動し、前記
図２に示すフローにより音声データを音声データ蓄積部
１５に蓄積させる。この時、利用者は「２９９」「Park
Avenue」「New YorkCity」「New York State」と通常
の地名表記方式のとおりに発声する。それにより前記日
本の地名の作動と全く同一に作動を行い、メモリ領域１
に「２９９」が、メモリ領域２に「Park Avenue」が、
メモリ領域３に「New York City」が、メモリ領域４に
「New York State」がメモリされることとなる。

【００６６】このようにして、全ての音声データが単語
毎に音声データ蓄積部１５にメモリされた後、図３に示
すフローに沿ってデータの変換が行われる。即ち、読出
順指定はメモリ領域の昇順かの判別において、前記のよ
うに読み出し順指定部２１において降順になるようにセ
ットしているので「Ｎ」となり、ステップ３０に進んで
最初の読み出しか否かが判別される。ここでは最初の読
み出しであるのでメモリ領域ｎから読み出しが行われる
（ステップＳ３１）。なお、音声データ蓄積部１５に例
えば１０個のメモリ領域が存在するときには、メモリ領
域１０から読み出しが行われることとなるが、この部分
にはデータが存在しないのでメモリ領域９にアクセス
し、以下同様の作動によりメモリ領域４にアクセスした
ときに初めて音声データが存在するので、メモリ領域４
から最初の音声データである「NewYork State」を読み
出すこととなる。

【００６７】この音声データはデータ変換部において、
前記日本の地名の音声認識と同様に、変換辞書部２６の
地名辞書における広域辞書が選択され（ステップＳ２
４）、データの変換がなされる（ステップＳ２５）。地
名辞書においては、前記日本の地名と同様に、「Stat
e」等の広域の地名の下に「City」等の中域の地名、そ
の下に「Avenue」や「Street」等の狭域の地名、その下
に必要に応じて細展開域の地名を備えている階層構造を
備えている。

【００６８】以降は前記日本の地名の音声認識と全く同
様に作動するので、その詳細な作動の説明は省略する
が、日本の地名の音声認識と異なる点は、前記のように
メモリ領域の番号を降順に読み出す点のみである。それ
により、上記のように狭域側から発声した地名音声は、
前記日本の場合と同じく広域側から順に読み出され、同
様に広域側から順に読み出される地名辞書に基づいて変
換することができる。このようにすることにより、従来
の音声認識装置においては音声データ蓄積部のメモリ領
域が１つしかないため、発声順序の狭域側から順に音声
認識処理を行うと、最初は莫大な数の地名候補が存在す
る狭域側の全ての地名データから入力した音声データと
一致するものを選択することとなり、多くの処理時間を
必要とし且つ認識率も低下するが、上記音声認識装置に
おいては、狭域側から音声データを入力しても、広域側
からデータ変換処理を行うことができ、処理速度が速
く、しかも確実にデータ変換処理を行うことができる。

【００６９】なお、上記実施例においては、本発明の音
声認識装置を地名の入力に用いた例を示したが、それ以
外に、通常の機器操作や会話の音声認識にも同様に使用
することができ、そのときにおいても、複数の単語を１
語ずつメモリ領域に入力することにより、全ての音声入
力終了後に音声認識処理を連続して行うことができるよ
うになる。

【００７０】

【発明の効果】本願の請求項１に係る発明は、単語音声
を１語ずつ認識処理する離散単語入力方式であるにもか
かわらず、１語１語のデータ変換処理を待つことなく音
声入力することができ、複数の音声単語の入力が終了し
た後に音声認識処理を行うことができるので、安価なＭ
ＰＵを備えた音声認識装置でも、連続単語入力方式のよ
うに操作性の良い装置とすることができる。特に、複数
のメモリ領域の音声データを所定の順序で読み出す音声
データ読出部を備えているので、発声順にメモリ領域に
メモリした音声データでも、変換辞書の構成等に合わせ
てデータ変換を行いやすい順序で読み出してデータ処理
を行うことができ、種々の入力形式、入力順序をもつ音
声認識装置にも広く対応することができる。

【００７１】請求項２に係る発明は、複数のメモリ領域
の音声データを蓄積順とは逆の順序で読み出す音声デー
タ読出部を備えているので、例えば海外向けの音声認識
装置に用いた際に、地名の表現が狭域側から広域側に入
力される場合でも、広域側からデータ変換処理を行うこ
とができるので、処理速度が速く、且つ正確な音声認識
を行うことができる。

【００７２】請求項３に係る発明は、前記音声区切り検
出部は、トリガースイッチの押下を検出するので、音声
単語の区切りを確実に検出することができ、認識処理を
正確に行うことができる。

【００７３】請求項４に係る発明は、前記音声区切り検
出部は、入力した音声の無音入力時間により検出するの
で、利用者は何らの操作も行うこと無しに単に単語と単
語の間に一時的な無音期間をおくだけで一連の音声認識
処理を行うことができ、離散単語認識処理を行うにも関
わらず、連続単語認識処理を行う音声認識装置と同様
に、操作性の良い音声認識装置とすることができる。

【００７４】請求項５に係る発明は、前記データ変換部
は、入力した音声の無音入力時間が所定時間以上である
ことを検出してデータ変換を開始するので、利用者は何
らの操作も行うこと無しに、自動的にデータ変換処理を
開始させることができ、操作性の良い音声認識装置とす
ることができる。

【００７５】請求項６に係る発明は、複数のメモリ領域
を切り替える際に、次の音声入力を促す信号を出力する
ので、利用者は音声認識装置装置の指示に従って音生入
力するのみで確実なデータ変換処理を行わせることがで
き、利用性の良い音声認識装置とすることができる。

【００７６】請求項７に係る発明は、前記次の音声入力
を促す信号が、次に音声入力する単語のカテゴリーを示
すので、利用者は音声認識装置装置の指示に従って音生
入力するのみでより、利用する音声認識辞書に合わせて
入力することができ、確実なデータ変換処理を行わせる
ことができ、また、利用性の良い音声認識装置とするこ
とができる。。

【００７７】請求項８に係る発明は、データ変換部には
広域辞書から狭域辞書まで階層別に展開された地名辞書
を接続し、音声データ蓄積部のメモリ領域から広域順に
読み出される音声データに対応して所定の地名辞書を選
択する変換辞書選択部を備えているので、地名の音声入
力に際して、例えば海外での地名の表現方式のように、
狭域側から順に音声入力を行っても、広域側からデータ
変換を行うことができ、広域側から階層別に使用しやす
いように展開されている地名辞書を用いて、高速で、確
実にデータ変換処理を行うことができる。

【図面の簡単な説明】

【図１】本発明の実施例の機能ブロック図である。

【図２】本発明の実施例の音声認識処理において、音声
入力処理部分を中心として示す作動フロー図である。

【図３】本発明の実施例の音声認識処理において、デー
タ変換部分を中心として示す作動フロー図である。

【図４】本発明の音声認識装置に用いられる地名認識用
辞書の一例を示す構成図である。

【図５】本発明の音声認識装置に用いられる音声データ
蓄積部のメモリ領域とメモリされる地名音声データの内
容を示す説明図である。

【符号の説明】

１０マイク１５音声データ蓄積部１９音声認識開始信号検出部２０音声データ読出制御部２１読出順指定部２４データ変換部２５変換辞書選択部２６変換辞書部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 3/00 ５５１Ｑ

Claims

【特許請求の範囲】

【請求項１】音声入力部と、音声入力の区切りを検出
する音声区切り検出部と、入力した音声データを該音声
区切り検出部の信号により順に切り替えて蓄える複数の
メモリ領域を備えた音声データ蓄積部と、該複数のメモ
リ領域の音声データを所定の順序で読み出す音声データ
読出部と、読み出された音声データを順にデータ変換す
るデータ変換部と、変換したデータを外部機器の制御部
に出力する出力部とを備えたことを特徴とする音声認識
装置。
【請求項２】音声入力部と、音声入力の区切りを検出
する音声区切り検出部と、入力した音声データを該音声
区切り検出部の信号により順に切り替えて蓄える複数の
メモリ領域を備えた音声データ蓄積部と、該複数のメモ
リ領域の音声データを蓄積順とは逆の順序で読み出す音
声データ読出部と、読み出された音声データを順にデー
タ変換するデータ変換部と、変換したデータを外部機器
の制御部に出力する出力部とを備えたことを特徴とする
音声認識装置。
【請求項３】前記音声区切り検出部は、スイッチの押
下を検出する請求項１または請求項２記載の音声認識装
置。
【請求項４】前記音声区切り検出部は、入力した音声
の無音入力時間により検出する請求項１または請求項２
記載の音声認識装置。
【請求項５】前記データ変換部は、入力した音声の無
音入力時間が所定時間以上であることを検出してデータ
変換を開始する請求項１または請求項２記載の音声認識
装置。
【請求項６】複数のメモリ領域を切り替える際に、次
の音声入力を促す信号を出力する請求項４記載の音声認
識装置。
【請求項７】前記次の音声入力を促す信号が、次に音
声入力する単語のカテゴリーを示す請求項６記載の音声
認識装置。
【請求項８】データ変換部には広域辞書から狭域辞書
まで階層別に展開された地名辞書を接続し、音声データ
蓄積部のメモリ領域から広域順に読み出される音声デー
タに対応して所定の地名辞書を選択する変換辞書選択部
を備えた請求項１または請求項２記載の音声認識装置。