JPH11202891A

JPH11202891A - 音声認識装置

Info

Publication number: JPH11202891A
Application number: JP10004018A
Authority: JP
Inventors: Ryuji Yamaguchi; 竜司山口
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 1998-01-12
Filing date: 1998-01-12
Publication date: 1999-07-30

Abstract

(57)【要約】【課題】１つの対象を表す複数の単語をすべて登録、
記憶しておかなければ、それらの単語の１つが発声され
たときの音声認識ができない。【解決手段】地図データ記憶手段は、各施設の正式名
称を基本単語として記憶している。音声認識ユニット１
４では、基本単語内の派生キー文字列が検出され、この
キー文字列を用いて基本単語が部分的に変形される。こ
れにより基本単語と同じ施設を他の表現で表す派生単語
が自動生成される。例えば、基本単語「静岡県立裾野高
等学校」には、キー文字列「静岡県立」「高等学校」が
含まれる。そして、派生単語「裾野高等学校」や「裾野
高校」が生成される。このような派生単語および基本単
語を認識対象に用いて音声認識が行われる。従って、各
対象ごとに１つの単語を記憶しておけばよくなる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置、特
に、施設名等の入力対象が不正確に発声された場合でも
好適な音声認識ができる装置に関する。

【０００２】

【従来の技術】従来より、人間の発声した音声を認識す
る音声認識装置が周知である。音声認識装置が単語認識
機能をもつ場合、認識対象の単語（以下、認識対象単語
という）が予め複数個設定されている。そして、話者が
発声した単語を認識対象単語と比較することにより、音
声認識が行われる。例えば、各認識対象単語のテンプレ
ートが用意される。そして、入力音声データと各テンプ
レートのパターンマッチングが行われ、最も一致度（類
似度）の高い認識対象単語が選ばれる。このようにし
て、入力された単語がどの認識対象単語と一致するかが
求められる。

【０００３】上記の音声認識装置を移動体用ナビゲーシ
ョン装置に搭載することも提案されている。ここでは、
代表的な移動体としての車両を取り上げて説明する。音
声認識機能が設けられていれば、運転者は、音声を発声
することによりナビゲーション装置を操作できる。手で
スイッチ操作をする必要がないので、ナビゲーション装
置を容易に操作することができる。特に、車両走行中に
おいても、運転しながらナビゲーション装置を操作でき
る、という利点がある。

【０００４】ナビゲーション装置に対してユーザが入力
する項目には、目的地や、地図表示場所が含まれる。こ
の種の入力項目は、地名というかたちで入力されたり、
施設名（建築物の名称や公園の名称など）というかたち
で入力される。このような入力項目も音声認識の対象と
することが望まれる。ここでは、施設名を取り上げて説
明する。

【０００５】施設名は複数の呼称で呼ばれることがあ
り、そのため、一つの名称だけを認識対象単語として用
意しておいても、入力音声を良好に認識できないことが
ある。例えば、「静岡市立日本平動物園」という施設が
あり、この正式名称が認識対象単語として音声認識装置
に用意されているとする。一般ユーザは、この動物園を
「日本平動物園」と呼ぶ。この動物園が静岡市立なの
か、清水市立なのか、あるいは静岡県立なのかを知って
いるユーザは多くない。そして、ユーザが「日本平動物
園」と発声しても、音声認識装置はこれを認識できな
い。

【０００６】このような問題を避けるため、例えば、特
開平９−４２９８８号公報に記載の車載用地図表示装置
では、地名等の正式な呼称に加えて、多用される不正確
な呼称を記憶したデータベースが設けられている。そし
て、これらの呼称を認識対象にして音声認識が行われ
る。従って、不正確な呼称を話者が使ったときであって
も音声認識が可能となる。

【０００７】

【発明が解決しようとする課題】しかし、入力対象にな
る施設は多数にのぼる。従来は、各施設について、正式
名称以外に実際にどのような呼び名が使われるのかを、
人手によって調査したり、推定しなければならない。そ
して、調査結果や推定結果を用いて、正式名称を表す単
語と、他の呼び名を表す単語を含んだ辞書を構築しなけ
ればならない。しかし、施設が多数にのぼることから、
上記の調査、推定や辞書構築には多大な労力が必要であ
る。

【０００８】また、従来技術では、音声認識の認識対象
単語はＣＤ−ＲＯＭ等の記憶媒体に格納され、この記憶
媒体が認識装置に備えられる。しかし、施設数だけでも
多数であるのに、各施設を表す複数の単語を記憶すると
なると、記憶すべき単語数が増大し、大量の単語データ
を記憶できる記憶容量を用意しなければならない。特
に、音声認識機能をもたないナビゲーション装置は各施
設ごとに一つの名称を記憶していればよいことと比較す
ると、音声認識装置では、記憶すべき単語数が大幅に増
大してしまうという不利がある。

【０００９】上記の問題は、ナビゲーション装置に施設
名を音声入力する場合には限られない。ナビゲーション
装置以外の装置であって音声認識機能を備えたものにも
同様の問題がある。また、施設名以外の入力対象を入力
する場合にも同様であることももちろんである。

【００１０】本発明は上記課題に鑑みてなされたもので
あり、その目的は、上述のような労力をかけないでも、
一つの入力対象を表す複数の単語を良好に認識できる音
声認識装置を提供することにある。本発明のさらなる目
的は、少ない単語記憶量にて、上記複数の単語を良好に
認識できる音声認識装置を提供することにある。

【００１１】

【課題を解決するための手段】（１）本発明の音声認識
装置は、話者の発声した音声を入力する音声入力手段
と、音声認識する単語として基本単語を記憶する基本単
語記憶手段と、前記基本単語を所定の処理によって部分
的に変形し、前記基本単語と同じ入力対象を他の表現で
表す単語である派生単語を生成する派生単語生成手段
と、前記基本単語および前記派生単語を認識対象として
音声認識を実行する認識処理手段と、を含む。

【００１２】本発明によれば、派生単語生成手段により
派生単語が自動的に生成される。派生単語は、基本単語
を部分的に変形したものである。例えば、基本単語が
「静岡市立日本平動物園」である場合に、派生単語は
「日本平動物園」である。また、例えば、基本単語が
「静岡県立裾野高等学校」である場合に、派生単語は
「裾野高等学校」や「裾野高校」である。自動生成され
た派生単語を認識対象にして音声認識が行われる。従っ
て、手間をかけて派生単語の辞書を構築しなくても派生
単語を音声認識に利用でき、この派生単語の利用により
認識性能を向上でき、ユーザの使い勝手も向上できる。

【００１３】なお、本発明において、１回自動生成した
派生単語は、認識装置内で保持されてもよい。例えば、
新しい基本単語を格納したＣＤ−ＲＯＭが装着される
と、その新しい基本単語の派生単語が生成されてハード
ディスクに格納される。そして、以降、ＣＤ−ＲＯＭの
基本単語とハードディスクの派生単語が音声認識に使わ
れる。従って、基本単語を格納したＣＤ−ＲＯＭを装着
するだけで、派生単語も認識することができる。また一
方、この態様と異なる別の態様では、下記の（２）に示
すように、毎回の音声認識で派生単語を生成し、使用後
に不要となった派生単語を破棄してもよい。

【００１４】（２）本発明の一態様の音声認識装置は、
話者の発声した音声を入力する音声入力手段と、音声認
識する単語として基本単語を記憶する基本単語記憶手段
と、前記基本単語記憶手段に記憶された基本単語から次
回の音声認識の認識対象にする基本単語を選択する認識
対象設定手段と、選択された基本単語を所定の処理によ
って部分的に変形し、前記基本単語と同じ入力対象を他
の表現で表す単語である派生単語を生成する派生単語生
成手段と、前記選択された基本単語および前記派生単語
生成手段により生成された派生単語を認識対象として音
声認識を実行する認識処理手段と、音声認識の終了後に
前記派生単語を消去する消去手段と、を含む。

【００１５】この態様によれば、次回の音声認識で使用
する基本単語から派生単語が生成される。すなわち、音
声入力の度に必要な派生単語が自動生成され、その派生
単語は使用後に消去される。派生単語を予め記憶してお
く必要がない。従って、多数の単語を記憶しておかなく
ても、一つの入力対象を表す複数の単語を良好に認識で
きる。そして、メモリ容量も少なく抑えることが可能と
なる。

【００１６】（３）好ましくは、前記派生単語生成手段
は、所定の派生キー文字列を記憶するキー文字列記憶手
段と、前記基本単語に含まれる派生キー文字列を検出す
るキー文字列検出手段と、検出された派生キー文字列に
基づいて、基本単語中の変形対象部位を決定する変形部
決定手段と、を含み、前記変形対象部位に対して前記派
生キー文字列に応じた所定の変形を施すことにより、派
生単語を生成する。

【００１７】例えば、派生キー文字列として、「県立」
や「市立」といった文字列が設定されている。そして、
「静岡市立日本平動物園」という基本単語から、キー文
字列「市立」が検出される。このキー文字列「市立」を
基に、変形対象部位が「静岡市立」に決定される。そし
て、変形対象部位に対する変形処理として、「静岡市
立」を省略することにより、派生単語「日本平動物園」
が生成される。

【００１８】このように、本態様によれば、派生キー文
字列を用いた処理により、合理的な派生単語を効率的に
自動生成することが可能である。これにより、一つ一つ
の入力対象（施設等）が実際にどのような呼び名で呼ば
れているかを調査しなくともよくなる。

【００１９】

【発明の実施の形態】以下、本発明の好適な実施の形態
（以下、実施形態という）について、図面を参照し説明
する。本実施形態では、車両用のナビゲーション装置に
本発明の音声認識装置が設けられる。

【００２０】図１は、ナビゲーション装置の全体構成を
示すブロック図である。ナビゲーション装置１０にはナ
ビゲーションＥＣＵ１２が設けられており、ナビゲーシ
ョンＥＣＵ１２は装置全体を制御している。ナビゲーシ
ョンＥＣＵ１２には、音声認識ユニット１４が接続され
ている。音声認識ユニット１４は、ナビゲーション装置
１０の入力手段として機能し、ユーザは音声認識ユニッ
ト１４を介してナビゲーション装置１０に対して各種の
指示を入力する。また、ナビゲーションＥＣＵ１２には
操作スイッチ１６が接続されており、操作スイッチ１６
は、ユーザにより手動で操作される入力手段として機能
する。さらにナビゲーションＥＣＵ１２には、出力手段
としてのディスプレイ１８およびスピーカ２０が接続さ
れている。

【００２１】また、ＧＰＳ（グローバルポジショニング
システム）装置２２は、人工衛星から送られた電波を基
に車両の現在位置を検出してナビゲーションＥＣＵ１２
に送る。地図データ記憶部２４は、ＣＤ−ＲＯＭ等の記
憶媒体を含み、全国の道路形状などの地図情報を記憶し
ている。記憶部２４には、地図情報の一部として、全国
の地名や施設名称が、それらの位置する場所（座標）と
対応づけて記憶されている。地図情報は、ナビゲーショ
ンＥＣＵ１２により、経路案内に関する各種の処理に利
用される。例えば、現在位置周辺の地図が地図データ記
憶部２４から読み出され、ディスプレイ１８に表示され
る。目的地が設定されると、地図情報を用いて目的地ま
での経路を探索する経路計算が行われる。計算結果の経
路を用いて経路案内が行われる。

【００２２】前述のように、音声認識ユニット１４はナ
ビゲーション装置１０の入力装置として機能する。音声
認識ユニット１４を用いて、ユーザにより音声というか
たちでナビゲーション装置１０に対する各種の指示が入
力される。例えば、上記の経路案内用の目的地が入力さ
れる。この入力処理のため、適宜、音声認識ユニット１
４は、ナビゲーションＥＣＵ１２をはじめとする他の構
成と一体になって機能する。また、音声認識ユニット１
４をナビゲーションＥＣＵ１２の内部に組み込むことも
好適である。

【００２３】図２は、音声認識ユニット１４の構成を示
すブロック図である。音声認識ユニット１４には信号処
理制御部３０が設けられている。信号処理制御部３０は
ＣＰＵを有し、ユニット１４全体を制御している。

【００２４】信号処理制御部３０には音響処理部３２が
接続され、音響処理部３２にはマイク３４が接続されて
いる。ユーザが発声した音声は、マイク３４にてアナロ
グ電気信号に変換され、音響処理部３２に入力される。
音響処理部３２では、音声データがデジタル信号に変換
される。さらに、音響処理部３２では、音声認識に必要
なデータ処理が施される。本実施形態では、窓関数処理
やフーリエ変換処理が行われ、音声データのケプストラ
ムが求められる。処理後の音声データは信号処理制御部
３０へ出力される。

【００２５】信号処理制御部３０にはトリガースイッチ
１６ａが接続されている。トリガースイッチ１６ａはユ
ーザにより操作される。信号処理制御部３０は、トリガ
ースイッチ１６ａが押されると、その後に発声された音
声のデータを、マイク３４から音響処理部３２を経由し
て取り込む。変形例として、トリガースイッチ１６ａの
代わりに、いわゆるプレス・トークスイッチが設けられ
てもよい。プレス・トークスイッチを押し続けている間
に発声された音声が、マイク３４から信号処理制御部３
０に取り込まれる。また、別の変形例として、音声認識
装置が、常時認識タイプの装置であってもよい。トリガ
ースイッチやプレス・トークスイッチの操作がなくと
も、ユーザによる発声の有無が監視され、検出される。

【００２６】また、信号処理制御部３０には音声認識部
３６が接続されている。信号処理制御部３０は、音響処
理部３２から取り込んだ音声データを音声認識部３６に
送る。音声認識部３６はいわゆるＤＳＰであり、ユーザ
の発声した音声データを解析して、音声認識を行う。認
識辞書メモリ３８はＲＡＭからなり、複数の認識対象単
語を記憶する。各認識対象単語のテンプレートデータ
（標準データ）が用意される。音声認識部３６は、入力
音声データと、一つ一つの認識対象単語のテンプレート
データとのパターンマッチングを行う。マッチング結果
の最もよい単語が、入力された単語であると決定され
る。その単語を示す情報が、認識結果として、信号処理
制御部３０へ送られる。これにより、信号処理制御部３
０は、ユーザが何をいったのかが分かる。さらに、認識
された単語を示す情報が、ナビゲーションＥＣＵ１２に
出力される。ナビゲーションＥＣＵ１２は、入力情報に
基づいたナビゲーション処理を行う。例えば、目的地が
入力されると、目的地までの経路計算を行う。また、地
図を表示したい場所が入力されると、その場所の地図が
検索され、表示される。

【００２７】なお、本実施形態においては、任意の音声
認識技術を適用可能である。例えば、ダイナミックプロ
グラミング法（動的計画法、ＤＰ法）や、ヒドンマルコ
フモデル（隠れマルコフモデル、ＨＭＭ）を使う確率手
法が適用可能である。

【００２８】音声入力処理は、原則として、まず、ユー
ザに対して発声すべき音声内容を指示し、これに応えて
入力された音声を認識する、という手順で行われる。ナ
ビゲーションＥＣＵ１２は、次にどのような単語の発声
をユーザに要求するか（入力項目）を決定する。ナビゲ
ーションＥＣＵ１２の認識対象単語設定部４０は、決定
された入力項目に対応する単語を、地図データ記憶部２
４から検索する。検索された単語は、認識対象単語に設
定される。

【００２９】上記の決定された入力項目が音声認識ユニ
ット１４の信号処理制御部３０に通知される。このと
き、設定された認識対象単語も送られる（辞書転送）。
制御部３０は、音声合成部４２に対して、入力項目を示
す合成音声を生成させ、生成された合成音声はスピーカ
２０から出力される。このようにして、音声入力がユー
ザに要求される。また、制御部３０は、認識対象単語を
認識辞書メモリ３８に書き込む。音素データを組み立て
ることによって認識対象単語のテンプレートデータが作
成される。要求に応えてユーザが発声すると、入力音声
データと上記テンプレートデータのパターンマッチング
によって、音声認識が行われる。

【００３０】音声合成部４２は、上記の発声要求の他、
ユーザに対する各種の音声案内にも用いられる。音声合
成部４２は、トークバック用の合成音声の生成にも利用
される。トークバック音声においては、音声認識部３６
により認識された音声の内容が反復される。トークバッ
ク音声の出力により、装置内での認識結果がユーザに提
示される。

【００３１】「施設名の音声認識」ここでは、目的地の
設定のために施設名を入力する場合に着目して説明す
る。一つの施設が複数の呼び名をもつ場合には、一つの
呼び名を認識対象単語に設定しても、良好な音声認識が
できない。ユーザが、設定外の呼び名を使う可能性があ
るからである。この問題は、本実施形態では、下記のよ
うにして解決される。

【００３２】図３は、施設名を音声認識する処理を示し
ている。ユーザによりトリガースイッチ１６ａが押され
た後、ナビゲーションＥＣＵ１２では、認識対象単語設
定部４０が、地図データ記憶部２４から施設名の単語を
読み出す。地図データ記憶部２４には、一つの施設につ
き一つの名称（正式名称）が記憶されている。本実施形
態では、地図データ記憶部２４が基本単語記憶手段に相
当し、記憶部２４に記憶された正式名称が、本発明の基
本単語に相当する。認識対象単語設定部４０は、読み出
した施設名を認識対象に設定する。そして、施設名は音
声認識ユニット１４に送られ（辞書転送）、認識辞書メ
モリ３８に書き込まれる（Ｓ１０）。

【００３３】信号処理制御部３０は、認識辞書メモリ３
８内の辞書を展開する（Ｓ１２）。ここでは、基本単語
としての正式名称を所定の処理により部分的に変形する
ことにより、基本単語と同じ施設を別の表現で表す派生
単語が生成される。このように、本実施形態では、信号
処理制御部３０が、派生単語生成手段として機能する。
Ｓ１２の詳細な処理については後述する。

【００３４】信号処理制御部３０は、音声合成部４２を
用いて、施設名の発声を促す発声要求メッセージを生成
する。メッセージがスピーカ２０から出力され、このメ
ッセージに応えてユーザが施設名を発声する（Ｓ１
４）。

【００３５】入力音声データは、音響処理を経て音声認
識部３６へ送られる。音声認識部３６では、認識辞書メ
モリ３８内の基本単語と、Ｓ１２で生成された派生単語
の両方を認識対象にして、音声認識が行われる（Ｓ１
６）。すなわち、音声認識部３６では、基本単語のテン
プレートデータと派生単語のテンプレートデータが用意
される。そして、入力音声データとこれらのテンプレー
トデータとのパターンマッチングが行われる。

【００３６】認識結果を表すメッセージが音声合成部４
２により生成され、スピーカ２０から出力される（トー
クバック）。ユーザが言い直しを指示しなければ、認識
結果はナビゲーションＥＣＵ１２へ出力される（Ｓ１
８）。ナビゲーションＥＣＵ１２では、入力された施設
名に対応する施設が目的地に設定され、経路計算や経路
案内等の以降の処理が行われる。

【００３７】信号処理制御部３０は、Ｓ１２で生成した
派生単語を破棄する（Ｓ２０）。派生単語は、音声認識
の終了直後に破棄されてもよく、また、音声認識が終了
してからしばらくたってから適当なタイミングで破棄さ
れてもよい。例えば、今回の派生単語の上に次回に生成
した派生単語が上書きされ、この上書きの際にＳ２０の
破棄が行われてもよい。

【００３８】次に、図４および図５を参照し、図３のＳ
１２の辞書展開処理について説明する。音声認識ユニッ
ト１４内の図示しないＲＯＭ等の記憶手段には、下記の
（１）（２）の２種類の派生キー文字列（以下、キー文
字列という）が記憶されている。；（１）「県立」「都立」「道立」「府立」「市立」「町
立」「村立」「共立」等（２）「高等学校」「中学校」「工業大学」等辞書展開では、まず、検索処理により、基本単語である
正式名称に含まれているキー文字列が求められる。そし
て、検出されたキー文字列を基に変形対象部位が定めら
れ、その対象部位に対して変形が施される。（１）のキ
ー文字列が検出された場合、そのキー文字列以前の部分
が変形対象部位に設定され、この対象部位が省略され
て、派生単語が生成される。（２）のキー文字列が検出
された場合には、そのキー文字列の部分が変形対象部位
に設定され、この対象部位が他の表現に置き換えられ
る。すなわち、高等学校は高校に、中学校は中学に、工
業大学は工大に置き換えられる。

【００３９】図４は、基本単語と派生単語の具体例を示
している。「静岡市立日本平動物園」には「市立」が含
まれている。そこで、「市立」以前の部分「静岡市立」
が変形対象部位に設定され、この部分が削除され、派生
単語「日本平動物園」が生成される。また、「裾野市立
鈴木図書館」もキー文字列「市立」を含むので、動物園
と同様にして、派生単語「鈴木図書館」が生成される。

【００４０】「静岡県立裾野高等学校」は、キー文字列
「県立」「高等学校」を含んでいるので、「県立」以前
の「静岡県立」と、「高等学校」そのものとが変形対象
部位に設定される。「静岡県立」は削除される。「高等
学校」は「高校」に置き換えられる。２つの変形の一方
のみが適用された派生単語も生成される。結果として、
図示のように、「裾野高等学校」「静岡県立裾野高校」
「裾野高校」の３つの派生単語が生成される。

【００４１】例外として、「大阪府立大学」には、キー
文字列「府立」が含まれるが、そのキー文字列の後には
一般的な施設名である「大学」のみが存在する。このよ
うに、キー文字列の後に一般的な施設名が続く場合には
派生単語を生成しない。派生単語が、一般的施設名のみ
にならないようにするためである。「静岡県立美術館」
についても同様に派生単語は生成されない。

【００４２】図５は、図３のＳ１２において派生単語を
自動的に生成する処理を示している。まず、施設名の正
式名称（基本単語）が読み込まれ（Ｓ３０）、この基本
単語に「県立」等のキー文字列が含まれているか否かが
判定される（Ｓ３２）。「県立」等が存在する場合に
は、その「県立」等およびその前の文字が削除され、こ
れにより派生単語が生成される（Ｓ３４）。そしてさら
に、基本単語に「高等学校」等のキー文字列が含まれて
いるか否かが判定される（Ｓ３６）。「高等学校」等が
含まれていなければ派生単語生成処理（着目している基
本単語についての辞書展開）は終了する。「高等学校」
等が存在する場合には、２つの派生単語が生成される。
１つは、Ｓ３８にて、基本単語を基にして、単語内の
「高等学校」等を省略形に置き換えることにより生成さ
れる派生単語である。２つ目の派生単語は、Ｓ３４で生
成された派生単語を基にして、単語内の「高等学校」等
を省略形に置き換えることにより生成される（Ｓ４
０）。すなわち、Ｓ４０で生成された派生単語は、基本
単語内の２つの部位を変形した結果得られたものであ
る。

【００４３】Ｓ３２にて「県立」等のキー文字列が検出
されない場合には、基本単語内に「高等学校」等のキー
文字列が含まれているか否かが判定される（Ｓ４２）。
「高等学校」等が含まれていれば、Ｓ３８と同様に、基
本単語単語内の「高等学校」等が省略形に置き換えら
れ、これにより派生単語が生成される（Ｓ４４）。Ｓ４
２で「高等学校」等が含まれていなければ、派生単語生
成処理は終了する。

【００４４】上記の派生単語生成処理は、ナビゲーショ
ンＥＣＵ１２から転送されてきたすべての基本単語を対
象として行われる。そして、前述のように、基本単語と
派生単語の両方を認識対象単語にして、施設名の音声認
識が行われる。

【００４５】以上、本発明の好適な実施形態を説明し
た。本実施形態によれば、予めナビゲーション装置に登
録された正式名称以外の名前で施設名の発声が行われた
場合でも、この正式名称以外の名前の音声データを好適
に認識可能である。これにより認識性能を飛躍的に向上
できるとともに、ユーザにとってはナビゲーション装置
の使い勝手が格段に向上する。特に、図３、図４を用い
て説明したような効率的な処理により、正式名称以外の
名前を示す的確な派生単語が自動生成される。従って、
施設がどのように呼ばれるかの調査や推定を行って、派
生単語の辞書を構築し、これをＣＤ−ＲＯＭ等に格納し
てナビゲーション装置に装着する、といったような手間
のかかる作業が不要である。

【００４６】また、本実施形態によれば、地図データ記
憶部２４には、施設名の正式名称（基本単語）のみが記
憶されている。派生単語は必要に応じて生成され、音声
認識に使った後に消去される。このように、派生単語を
予め記憶部２４内に登録しておく必要がなくなり、音声
認識用に施設名を記憶するためのメモリ容量を少なく抑
えることが可能となっている。

【００４７】なお、本実施形態では上記のように派生単
語は使用後に消去されるが、下記のような変形例も好適
である。ＣＤ−ＲＯＭがナビゲーション装置に装着され
ると、ＣＤ−ＲＯＭ内に格納された基本単語が読み出さ
れる。そして、読み出した基本単語を基に派生単語が生
成され、派生単語はハードディスク等の読み書き可能な
記憶媒体に格納される。以降、基本単語および派生単語
が音声認識に用いられる。派生単語の生成や保持は、ナ
ビゲーションＥＣＵ１２側で行われても、音声認識ユニ
ット１４側で行われてもよい。その他の変形例では、予
め音声認識装置の製作段階で、上記の自動生成手法で派
生単語を生成し、この派生単語を基本単語とともにＣＤ
−ＲＯＭ等に格納し、音声認識装置に組み込んでもよ
い。

【００４８】また、派生単語のバリエーションは、上記
の実施形態で例示したものには限定されない。例えば、
下記のような派生単語を使うことも好適である。基本単
語「静岡市立日本平動物園」に対して、派生単語「静岡
の動物園」が生成される。ユーザにより「静岡の動物
園」が発声されると、認識結果は「静岡市立日本平動物
園」になる。この認識結果はトークバックによりユーザ
に提示される。図６には、このような派生単語が例示さ
れている。ここでは、基本単語内の地名（静岡や裾野）
が派生キー文字列になっている。また、動物園、図書
館、高等学校といった一般的な施設表示単語が、地名と
ともに、派生キー文字列になっている。

【００４９】ただし、この変形例では、静岡（県あるい
は市）内に複数の動物園が存在することを考慮すべきで
ある。そこで、好ましくは、静岡内の複数の動物園に対
応する基本単語から、同じ派生単語「静岡の動物園」が
生成される。ユーザにより「静岡の動物園」が発声され
ると、複数の動物園のリストがディスプレイ１８に表示
され、ユーザに１つの動物園の選択が促される。そし
て、ユーザの選択により、入力される動物園が特定され
る。

【００５０】また、本実施形態の音声認識部等の各種の
構成は、ハードウエアによって実現されても、ソフトウ
エアによって実現されてもよい。

【００５１】また、本発明の音声認識装置をナビゲーシ
ョン装置以外の装置に適用可能であることはもちろんで
ある。また、施設名以外の入力対象の入力に本発明を適
用可能であることももちろんである。

【図面の簡単な説明】

【図１】本発明の実施形態のナビゲーション装置の全
体構成を示すブロック図である。

【図２】図１のナビゲーション装置の音声認識ユニッ
トの構成を示すブロック図である。

【図３】施設名の認識処理を示すフローチャートであ
る。

【図４】本実施形態において基本単語から生成される
派生単語の例を示す図である。

【図５】図４の派生単語を生成する処理を示すフロー
チャートである。

【図６】本実施形態において基本単語から生成される
派生単語の他の例を示す図である。

【符号の説明】

１０ナビゲーション装置、１２ナビゲーションＥＣ
Ｕ、１４音声認識ユニット、２０スピーカ、２４
地図データ記憶部、３０信号処理制御部、３２音響
処理部、３４マイク、３６音声認識部、３８認識
辞書メモリ、４０認識対象単語設定部、４２音声合
成部。

Claims

【特許請求の範囲】

【請求項１】話者の発声した音声を入力する音声入力
手段と、音声認識する単語として基本単語を記憶する基本単語記
憶手段と、前記基本単語を所定の処理によって部分的に変形し、前
記基本単語と同じ入力対象を他の表現で表す単語である
派生単語を生成する派生単語生成手段と、前記基本単語および前記派生単語を認識対象として音声
認識を実行する認識処理手段と、を含むことを特徴とする音声認識装置。
【請求項２】話者の発声した音声を入力する音声入力
手段と、音声認識する単語として基本単語を記憶する基本単語記
憶手段と、前記基本単語記憶手段に記憶された基本単語から次回の
音声認識の認識対象にする基本単語を選択する認識対象
設定手段と、選択された基本単語を所定の処理によって部分的に変形
し、前記基本単語と同じ入力対象を他の表現で表す単語
である派生単語を生成する派生単語生成手段と、前記選択された基本単語および前記派生単語生成手段に
より生成された派生単語を認識対象として音声認識を実
行する認識処理手段と、音声認識の終了後に前記派生単語を消去する消去手段
と、を含むことを特徴とする音声認識装置。
【請求項３】請求項１または２のいずれかに記載の装
置において、前記派生単語生成手段は、所定の派生キー文字列を記憶するキー文字列記憶手段
と、前記基本単語に含まれる派生キー文字列を検出するキー
文字列検出手段と、検出された派生キー文字列に基づいて、基本単語中の変
形対象部位を決定する変形部決定手段と、を含み、前記変形対象部位に対して前記派生キー文字列
に応じた所定の変形を施すことにより、派生単語を生成
することを特徴とする音声認識装置。