JPH1062199A

JPH1062199A - 音声認識装置

Info

Publication number: JPH1062199A
Application number: JP8222651A
Authority: JP
Inventors: Shigeo Onoki; 重夫大野木
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 1996-08-23
Filing date: 1996-08-23
Publication date: 1998-03-06

Abstract

(57)【要約】【課題】従来は、音声辞書の登録内容を地域でグルー
プ分けした上で、現在位置に基づく優先順位で音声辞書
のグループを決定しているために、優先順位の低いグル
ープとされた内容を音声入力しようとする場合、音声認
識を早急に行うことができない。【解決手段】複数の認識対象語、又はこの複数の認識
対象語に加えて複数の認識対象語を所定ルールでまとめ
る複数の総括語とよりなる音声認識辞書Ｍ０を生成する
辞書生成手段Ｍ２を有し、音声入力が総括語と認識され
たとき、認識された総括語でまとめられている複数の認
識対象語、又はこの複数の認識対象語に加えて複数の認
識対象語をまとめる下位の複数の総括語とよりなる音声
認識辞書Ｍ０を生成して多層構造の音声認識辞書を用い
て音声認識を行う。このため、１つの音声認識辞書の語
彙数が少なくなり、音声入力の認識率が向上する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声認識装置に関
し、音声入力を認識する装置に関する。

【０００２】

【従来の技術】従来より、音声によって入力される指示
を認識し、その指示で車載用ナビゲーション装置を操作
する音声認識装置がある。例えば特開平７−６４４８０
号公報には、音声による入力語のデータと、音声辞書に
複数登録されているナビゲーション用地図の表示内容な
どの車載情報処理装置の操作内容に係る語彙の基準デー
タとを比較照合して、両データの一致度をみて入力語を
認識する車載情報処理用音声認識装置で、地域に応じて
登録内容がグループ分けされた音声辞書と、車両の地図
上における現在位置を求めるナビゲーション装置と、そ
のナビゲーション装置によって求められている現在位置
に対する距離にもとづいて、入力語を認識する際に用い
る音声辞書のグループを優先順位をもって決定する音声
辞書アクセス制御手段を用いることが記載されている。

【０００３】

【発明が解決しようとする課題】従来装置では、音声辞
書の登録内容を地域でグループ分けした上で、ナビゲー
ション装置で求められた現在位置に基づく優先順位で音
声辞書のグループを決定しているために、優先順位の低
いグループとされた内容を音声入力しようとする場合、
音声認識を早急に行うことができず、操作性が悪化する
という問題があった。

【０００４】本発明は、上記の点に鑑みなされたもの
で、音声認識辞書を多層構造とすることで音声認識率が
高く、早急かつ確実に音声入力を認識できる音声認識装
置を提供することを目的とする。

【０００５】

【課題を解決するための手段】請求項１に記載の発明
は、図１（Ａ）に示すように、認識手段Ｍ１で、音声入
力を音声認識辞書Ｍ０とマッチングして認識する音声認
識装置において、複数の認識対象語、又はこの複数の認
識対象語に加えて複数の認識対象語を所定ルールでまと
める複数の総括語とよりなる音声認識辞書Ｍ０を生成す
る辞書生成手段Ｍ２を有し、音声入力が上記総括語と認
識されたとき、認識された総括語でまとめられている複
数の認識対象語、又はこの複数の認識対象語に加えて複
数の認識対象語をまとめる下位の複数の総括語とよりな
る音声認識辞書Ｍ０を生成して多層構造の音声認識辞書
を用いて音声認識を行う。

【０００６】このように、複数の認識対象語と複数の総
括語とよりなる音声認識辞書とを生成し、音声入力が総
括語のときはその総括語から複数の認識対象語と下位の
複数の総括語とよりなる音声認識辞書を生成することに
より多層構造の音声認識辞書を用いるため、１つの音声
認識辞書の語彙数が少なくなり、音声入力の認識率が向
上して音声入力を早急かつ確実に認識できる。

【０００７】請求項２に記載の発明は、図１（Ｂ）に示
すように、請求項１記載の音声認識装置において、前記
辞書生成手段で生成する複数の対象語、又はこの複数の
認識対象語と複数の総括語に対応して音声入力に対する
案内を行う案内手段Ｍ３を有する。

【０００８】このように、生成する音声認識辞書に対応
して、どのような音声入力を行うかを案内するため、音
声認識辞書に合わせた音声を入力することができ、更に
音声入力の認識率が向上する。請求項３に記載の発明
は、請求項１又は２記載の音声認識装置において、前記
辞書生成手段Ｍ２は、現在位置に基づき目的地の候補名
を複数の認識対象語として生成する。

【０００９】このため、現在位置に近い目的地について
は少ない回数の音声認識で認識できる。

【００１０】

【発明の実施の形態】図２は本発明装置を適用した車載
ナビゲーション装置の一実施例のブロック図を示す。同
図中、ＣＤ−ＲＯＭ装置１０は音声認識辞書データベー
スのＣＤ−ＲＯＭ１２及び地図データベースのＣＤ−Ｒ
ＯＭ１４を内蔵している。制御部１６の制御により、Ｃ
Ｄ−ＲＯＭ装置１０がＣＤ−ＲＯＭ１２から読み出した
音声認識辞書データはメモリ１８に格納され、またＣＤ
−ＲＯＭ装置１０がＣＤ−ＲＯＭ１４から読み出した地
図データはメモリ２０に格納される。

【００１１】現在位置標定部２２はＧＰＳアンテナ２３
を含むＧＰＳ（グローバル・ポジショニング・システ
ム）装置と、車速センサや車輪速センサや地磁気センサ
等の各種自律走行用センサ部とより構成されている。Ｇ
ＰＳ装置は少なくとも３個のＧＰＳ衛星からの信号を受
信して、各衛星の位置及び各衛星までの距離を算出し、
三角測量の原理によって自車の緯度経度を標定する。ま
た、自律走行用センサ部の各センサの出力に基づいて、
ＧＰＳ衛星からの信号が受信できなくなっても自車両の
位置を算出することができる。例えば、車輪速センサ出
力により自車両が単位時間にどのくらい移動したかを算
出し、車輪速センサと地磁気センサの出力により自車両
がどのくらい進行方向を変化させたかを算出する。また
進行方向の変化はジャイロシステムによって行っても良
い。この現在位置標定部２２で得た現在位置は制御部１
６に通知される。

【００１２】マイクロホン２４は運転者の発声した音声
入力を音声信号に変換する。この音声信号はＡ／Ｄコン
バータ２６でディジタル化されて制御部１６に供給され
る。制御部１６は上記の音声入力データが入力される
と、メモリ１８に格納されている音声認識辞書データに
基づいて音声認識を行う。また、制御部１６は操作部２
８よりのコマンド入力及び音声認識結果に基づいて音声
合成部３０に対して音声出力の指示を行う。音声合成部
３０はこの指示に従って音声信号を合成して出力する。
この音声信号はアンプ３２で増幅されてスピーカ３４に
供給され、発音される。

【００１３】また、制御部１６は現在位置標定部２２で
得た現在位置や音声認識で得た目的地の位置を表示する
ための地図データをＣＤ−ＲＯＭ１４からメモリ２０に
読み出し、メモリ２０から画像生成部３８に供給する。
画像生成部３８は供給される地図データから表示用の映
像信号を生成してディスプレイ４０に供給し、ディスプ
レイ４０に地図が表示される。

【００１４】操作部２８は例えば図３に示す如く、ステ
アリングホイール５０の側部に取り付けられている。操
作部２８にはトリガスイッチ２８ａ，リターンスイッチ
２８ｂ，アップスイッチ２８ｃ，ダウンスイッチ２８ｄ
が設けられている。トリガスイッチ２８ａは決定を入力
するためのスイッチである。リターンスイッチ２８ｂは
上の階層に戻ることを入力するためのスイッチである。
アップスイッチ２８ｃ及びダウンスイッチ２８ｄは複数
の候補のうちのいずれか１つを選択する場合に、アップ
スイッチ２８ｃで１つ前の候補に選択を移行させるとき
に使用し、ダウンスイッチ２８ｄで１つ後の候補に選択
を移行させるときに使用する。

【００１５】ここで、本発明においては例えば図４に示
す如く３階層に分けて音声認識を行う。これは音声入力
とマッチングされる音声認識辞書の語彙数が多くなると
認識率が悪化するため階層構造として１階層当りの語彙
数を少なくしている。階層１では認識対象語として車両
の現在位置を中心とする所定距離Ｋ１（例えばＫ１は３
０km）内の近隣施設名と、複数の認識対象語をまとめる
総括語として施設ジャンル名とを持つ音声認識辞書を用
いる。

【００１６】近隣施設名としては、駅、役所、警察、病
院、デパート、ホール、インターチェンジ、サービスエ
リア、パーキングエリア等であり、これらの施設名には
夫々の位置情報（例えば緯度経度）が付加されている。
施設ジャンル名としては、空港、ゴルフ場、動植物園、
公園、美術館、博物館、水族館、名所、温泉、スキー
場、寺社、遊園地、ホテル、キャンプ場等であり、これ
らは各ジャンルについて複数の施設があるため位置情報
は付加されてない。

【００１７】このように階層１は位置情報を持つ施設名
と、位置情報を持たない施設ジャンル名とから構成され
ているため、施設名が音声入力された場合はその位置情
報から地図表示が可能であるが、施設ジャンル名が音声
入力された場合には、その入力された施設ジャンルの内
のどの施設かを特定するために階層２に進む。また、上
記の階層１の音声入力を促すために例えば「お近くの利
用施設名又は利用される施設の種類を発声して下さ
い。」等のガイドアナウンスを行う。

【００１８】次に階層２では認識対象語として車両の現
在位置を中心とする所定距離Ｋ２（Ｋ２≧Ｋ１であり、
例えばＫ２＝１００km）内の音声入力で選択されたジャ
ンルの施設名と、総括語として全国の都道府県名とを持
つ音声認識辞書を用いる。選択されたジャンルが駅であ
り、現在位置が皇居付近であれば、選択されたジャンル
の施設名としては東京駅、有楽町駅、新橋駅等であり、
これらの施設名には夫々の位置情報（例えば緯度経度）
が付加されている。都道府県名は東京、神奈川、千葉等
であり、これらの地域には複数の施設があるため位置情
報は付加されてない。

【００１９】このように階層２は位置情報を持つ施設名
と、位置情報を持たない都道府県名とから構成されてい
るため、施設名が音声入力された場合はその位置情報か
ら地図表示が可能であるが、都道府県名が音声入力され
た場合には、その入力された都道府県の内のどの施設か
を特定するために階層３に進む。また、上記の階層２の
音声入力を促すために例えば「お近くの利用施設名又は
都道府県名を発声して下さい。」等のガイドアナウンス
を行う。なお、都道府県名を選択しただけでは選択しよ
うとする施設の数が多すぎる場合には市区群名まで選択
するようにしても良い。

【００２０】次に階層３では認識対象語として音声入力
で選択されたジャンル及び都道府県等の地域の施設名の
音声認識辞書を用いる。選択されたジャンルが駅であ
り、都道府県名が東京都であれば、施設名としては東京
駅、有楽町駅、新橋駅等であり、これらの施設名には夫
々の位置情報（例えば緯度経度）が付加されている。

【００２１】このように階層３は位置情報を持つ施設名
から構成されているため、施設名が音声入力された場合
はその位置情報から地図表示が可能である。また、上記
の階層３の音声入力を促すために例えば「利用される施
設名を発声して下さい。」等のガイドアナウンスを行
う。

【００２２】図５は制御部１６が実行する音声認識処理
のフローチャートを示す。この処理は電源の投入により
開始する。同図中、ステップＳ１０では現在位置標定部
２２で得た現在位置を読み取る。また、ステップＳ１２
で階層ｉに１をセットする。次にステップＳ１４に進ん
で階層ｉのガイドアナウンスを行うための指示を音声合
成部３０に対して出力し、ガイドアナウンスを発音させ
る。また、ステップＳ１６で階層ｉの音声認識辞書を生
成するためＣＤ−ＲＯＭ装置１０をアクセスしてＣＤ−
ＲＯＭ１２から必要な音声認識辞書データを読み出し、
生成された音声認識辞書はメモリ１８に格納される。

【００２３】この後、ステップＳ１８で操作部２８のト
リガスイッチ２８ａが押されるのを待つ。トリガスイッ
チ２８ａが押されてオンとなると、ステップＳ２０で、
このトリガスイッチ２８ａが押されている間にマイク２
４で収音された音声の音声入力データが取り込まれる。
そしてステップＳ２２で取り込まれた音声入力データが
メモリ１８に格納されている階層ｉの音声認識辞書とマ
ッチングされて音声認識が行われる。次のステップＳ２
４では音声入力が認識されたか否かを判別し、認識され
なかった場合はステップＳ２６で「もう一度繰り返し発
声して下さい」等の再トライアナウンスを行うための指
示を音声合成部３０に対して出力し、このアナウンスを
発音させてステップＳ２４に進む。

【００２４】ステップＳ２４で音声入力が認識された場
合はステップＳ２８に進み、「○○を入力しました」等
の確認アナウンスを行うための指示を音声合成部３０に
対して出力し、この確認アナウンスを発声させる。これ
と共に、認識結果の取り込みを行う。ここで、施設名が
音声入力された場合にはその施設名の選択が行われる。
なお、確認アナウンス内の○○は認識した音声入力その
ものである。

【００２５】ステップＳ２８を実行するとステップＳ３
０に進み、認識された音声入力が位置情報を持つ施設名
であるか否かを判別する。音声入力が施設名の場合はス
テップＳ３２に進んで地図表示を行い、音声入力が施設
名でない場合はステップＳ３４に進む。音声入力が設定
名でない、つまり、施設ジャンル名、又は都道府県名の
場合は階層ｉが１又は２であるためステップＳ３４で階
層ｉを１だけインクリメントしてステップＳ１４に進
む。

【００２６】ステップＳ３２では認識された施設名に付
加された位置情報からこの位置を中心とする地図を表示
するためＣＤ−ＲＯＭ装置１０をアクセスしてＣＤ−Ｒ
ＯＭ１４から上記の地図データを読み出してメモリ２０
に格納し、画像生成部３８にメモリ２０の地図データを
ディスプレイ４０に表示するよう指示を出す。これによ
って音声入力された施設を中心とする地図がディスプレ
イ４０に表示され、制御部１６は処理を終了する。

【００２７】ところで、ステップＳ３２の前処理とし
て、例えば階層２又は３における音声入力で施設名「東
京駅」、「上野駅」、「新宿駅」等の候補の中から「東
京駅」が認識された場合、ディスプレイ４０に図６に示
すように候補の施設名６０〜６２を表示し、音声入力に
より選択した施設名６０を例えば反転表示する。この状
態で図３に示すダウンスイッチ２８ｄを押して１つ後
（下方）の施設名６１に選択変更し、またアップスイッ
チ２８ｃを押して１つ前（上方）の施設名に選択変更す
る。そしてトリガスイッチ２８ａを押すことにより選択
している施設名の地図表示を決定する構成としても良
い。なお、選択変更された施設名の確認アナウンスを行
っても良い。

【００２８】上記のステップＳ１４が案内手段Ｍ３に対
応し、ステップＳ１６が辞書生成手段Ｍ２に対応し、ス
テップＳ２２が認識手段Ｍ１に対応する。このように、
複数の認識対象語としての施設名と複数の総括語として
の施設ジャンル名や都道府県名とよりなる音声認識辞書
とを生成し、音声入力が総括語のときはその総括語から
複数の認識対象語と下位の複数の総括語とよりなる音声
認識辞書を生成することにより多層構造の音声認識辞書
を用いるため、１つの音声認識辞書の語彙数が少なくな
り、音声入力の認識率が向上して音声入力を早急かつ確
実に認識できる。

【００２９】また、生成する音声認識辞書に対応して、
どのような音声入力を行うかを案内するため、音声認識
辞書に合わせた音声を入力することができ、更に音声入
力の認識率が向上する。更に、音声認識辞書には、現在
位置から所定距離内の施設名が認識対象語として含まれ
ているので、現在位置に近い目的地については少ない回
数の音声認識で認識できる。

【００３０】

【発明の効果】上述の如く、請求項１に記載の発明は、
音声入力を音声認識辞書とマッチングして認識する音声
認識装置において、複数の認識対象語、又はこの複数の
認識対象語に加えて複数の認識対象語を所定ルールでま
とめる複数の総括語とよりなる音声認識辞書を生成する
辞書生成手段を有し、音声入力が上記総括語と認識され
たとき、認識された総括語でまとめられている複数の認
識対象語、又はこの複数の認識対象語に加えて複数の認
識対象語をまとめる、下位の複数の総括語とよりなる音
声認識辞書を生成して多層構造の音声認識辞書を用いて
音声認識を行う。

【００３１】このように、複数の認識対象語と複数の総
括語とよりなる音声認識辞書とを生成し、音声入力が総
括語のときはその総括語から複数の認識対象語と下位の
複数の総括語とよりなる音声認識辞書を生成することに
より多層構造の音声認識辞書を用いるため、１つの音声
認識辞書の語彙数が少なくなり、音声入力の認識率が向
上して音声入力を早急かつ確実に認識できる。

【００３２】また、請求項２に記載の発明は、請求項１
記載の音声認識装置において、前記辞書生成手段で生成
する複数の対象語、又はこの複数の認識対象語と複数の
総括語に対応して音声入力に対する案内を行う案内手段
を有する。このように、生成する音声認識辞書に対応し
て、どのような音声入力を行うかを案内するため、音声
認識辞書に合わせた音声を入力することができ、更に音
声入力の認識率が向上する。

【００３３】また、請求項３に記載の発明は、請求項１
又は２記載の音声認識装置において、前記辞書生成手段
Ｍ２は、現在位置に基づき目的地の候補名を複数の認識
対象語として生成する。このため、現在位置に近い目的
地については少ない回数の音声認識で認識できる。

【図面の簡単な説明】

【図１】本発明の原理図である。

【図２】本発明装置のブロック図である。

【図３】操作部の平面図である。

【図４】音声認識辞書データの階層構造を説明するため
の図である。

【図５】音声認識処理のフローチャートである。

【図６】画像表示を示す図である。

【符号の説明】

１０ＣＤ−ＲＯＭ装置１２，１４ＣＤ−ＲＯＭ１６制御部１８，２０メモリ２２現在位置標定部２４マイクロホン２６Ａ／Ｄコンバータ２８操作部３０音声合成部３２アンプ３４スピーカ３８画像生成部４０ディスプレイＭ０音声認識辞書Ｍ１認識手段Ｍ２辞書生成手段Ｍ３案内手段

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号庁内整理番号ＦＩ技術表示箇所Ｇ１０Ｌ 3/00 ５６１Ｇ１０Ｌ 3/00 ５６１Ｇ

Claims

【特許請求の範囲】

【請求項１】音声入力を音声認識辞書とマッチングし
て認識する音声認識装置において、複数の認識対象語、又はこの複数の認識対象語に加えて
複数の認識対象語を所定ルールでまとめる複数の総括語
とよりなる音声認識辞書を生成する辞書生成手段を有
し、音声入力が上記総括語と認識されたとき、認識された総
括語でまとめられている複数の認識対象語、又はこの複
数の認識対象語に加えて複数の認識対象語をまとめる下
位の複数の総括語とよりなる音声認識辞書を生成して多
層構造の音声認識辞書を用いて音声認識を行うことを特
徴とする音声認識装置。
【請求項２】請求項１記載の音声認識装置において、前記辞書生成手段で生成する複数の対象語、又はこの複
数の認識対象語と複数の総括語に対応して音声入力に対
する案内を行う案内手段を有することを特徴とする音声
認識装置。
【請求項３】請求項１又は２記載の音声認識装置にお
いて、前記辞書生成手段は、現在位置に基づき目的地名を複数
の認識対象語として生成することを特徴とする音声認識
装置。