JPH11202891A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH11202891A
JPH11202891A JP10004018A JP401898A JPH11202891A JP H11202891 A JPH11202891 A JP H11202891A JP 10004018 A JP10004018 A JP 10004018A JP 401898 A JP401898 A JP 401898A JP H11202891 A JPH11202891 A JP H11202891A
Authority
JP
Japan
Prior art keywords
word
derived
recognition
basic
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10004018A
Other languages
English (en)
Inventor
Ryuji Yamaguchi
竜司 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP10004018A priority Critical patent/JPH11202891A/ja
Publication of JPH11202891A publication Critical patent/JPH11202891A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Navigation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 1つの対象を表す複数の単語をすべて登録、
記憶しておかなければ、それらの単語の1つが発声され
たときの音声認識ができない。 【解決手段】 地図データ記憶手段は、各施設の正式名
称を基本単語として記憶している。音声認識ユニット1
4では、基本単語内の派生キー文字列が検出され、この
キー文字列を用いて基本単語が部分的に変形される。こ
れにより基本単語と同じ施設を他の表現で表す派生単語
が自動生成される。例えば、基本単語「静岡県立裾野高
等学校」には、キー文字列「静岡県立」「高等学校」が
含まれる。そして、派生単語「裾野高等学校」や「裾野
高校」が生成される。このような派生単語および基本単
語を認識対象に用いて音声認識が行われる。従って、各
対象ごとに1つの単語を記憶しておけばよくなる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置、特
に、施設名等の入力対象が不正確に発声された場合でも
好適な音声認識ができる装置に関する。
【0002】
【従来の技術】従来より、人間の発声した音声を認識す
る音声認識装置が周知である。音声認識装置が単語認識
機能をもつ場合、認識対象の単語(以下、認識対象単語
という)が予め複数個設定されている。そして、話者が
発声した単語を認識対象単語と比較することにより、音
声認識が行われる。例えば、各認識対象単語のテンプレ
ートが用意される。そして、入力音声データと各テンプ
レートのパターンマッチングが行われ、最も一致度(類
似度)の高い認識対象単語が選ばれる。このようにし
て、入力された単語がどの認識対象単語と一致するかが
求められる。
【0003】上記の音声認識装置を移動体用ナビゲーシ
ョン装置に搭載することも提案されている。ここでは、
代表的な移動体としての車両を取り上げて説明する。音
声認識機能が設けられていれば、運転者は、音声を発声
することによりナビゲーション装置を操作できる。手で
スイッチ操作をする必要がないので、ナビゲーション装
置を容易に操作することができる。特に、車両走行中に
おいても、運転しながらナビゲーション装置を操作でき
る、という利点がある。
【0004】ナビゲーション装置に対してユーザが入力
する項目には、目的地や、地図表示場所が含まれる。こ
の種の入力項目は、地名というかたちで入力されたり、
施設名(建築物の名称や公園の名称など)というかたち
で入力される。このような入力項目も音声認識の対象と
することが望まれる。ここでは、施設名を取り上げて説
明する。
【0005】施設名は複数の呼称で呼ばれることがあ
り、そのため、一つの名称だけを認識対象単語として用
意しておいても、入力音声を良好に認識できないことが
ある。例えば、「静岡市立日本平動物園」という施設が
あり、この正式名称が認識対象単語として音声認識装置
に用意されているとする。一般ユーザは、この動物園を
「日本平動物園」と呼ぶ。この動物園が静岡市立なの
か、清水市立なのか、あるいは静岡県立なのかを知って
いるユーザは多くない。そして、ユーザが「日本平動物
園」と発声しても、音声認識装置はこれを認識できな
い。
【0006】このような問題を避けるため、例えば、特
開平9−42988号公報に記載の車載用地図表示装置
では、地名等の正式な呼称に加えて、多用される不正確
な呼称を記憶したデータベースが設けられている。そし
て、これらの呼称を認識対象にして音声認識が行われ
る。従って、不正確な呼称を話者が使ったときであって
も音声認識が可能となる。
【0007】
【発明が解決しようとする課題】しかし、入力対象にな
る施設は多数にのぼる。従来は、各施設について、正式
名称以外に実際にどのような呼び名が使われるのかを、
人手によって調査したり、推定しなければならない。そ
して、調査結果や推定結果を用いて、正式名称を表す単
語と、他の呼び名を表す単語を含んだ辞書を構築しなけ
ればならない。しかし、施設が多数にのぼることから、
上記の調査、推定や辞書構築には多大な労力が必要であ
る。
【0008】また、従来技術では、音声認識の認識対象
単語はCD−ROM等の記憶媒体に格納され、この記憶
媒体が認識装置に備えられる。しかし、施設数だけでも
多数であるのに、各施設を表す複数の単語を記憶すると
なると、記憶すべき単語数が増大し、大量の単語データ
を記憶できる記憶容量を用意しなければならない。特
に、音声認識機能をもたないナビゲーション装置は各施
設ごとに一つの名称を記憶していればよいことと比較す
ると、音声認識装置では、記憶すべき単語数が大幅に増
大してしまうという不利がある。
【0009】上記の問題は、ナビゲーション装置に施設
名を音声入力する場合には限られない。ナビゲーション
装置以外の装置であって音声認識機能を備えたものにも
同様の問題がある。また、施設名以外の入力対象を入力
する場合にも同様であることももちろんである。
【0010】本発明は上記課題に鑑みてなされたもので
あり、その目的は、上述のような労力をかけないでも、
一つの入力対象を表す複数の単語を良好に認識できる音
声認識装置を提供することにある。本発明のさらなる目
的は、少ない単語記憶量にて、上記複数の単語を良好に
認識できる音声認識装置を提供することにある。
【0011】
【課題を解決するための手段】(1)本発明の音声認識
装置は、話者の発声した音声を入力する音声入力手段
と、音声認識する単語として基本単語を記憶する基本単
語記憶手段と、前記基本単語を所定の処理によって部分
的に変形し、前記基本単語と同じ入力対象を他の表現で
表す単語である派生単語を生成する派生単語生成手段
と、前記基本単語および前記派生単語を認識対象として
音声認識を実行する認識処理手段と、を含む。
【0012】本発明によれば、派生単語生成手段により
派生単語が自動的に生成される。派生単語は、基本単語
を部分的に変形したものである。例えば、基本単語が
「静岡市立日本平動物園」である場合に、派生単語は
「日本平動物園」である。また、例えば、基本単語が
「静岡県立裾野高等学校」である場合に、派生単語は
「裾野高等学校」や「裾野高校」である。自動生成され
た派生単語を認識対象にして音声認識が行われる。従っ
て、手間をかけて派生単語の辞書を構築しなくても派生
単語を音声認識に利用でき、この派生単語の利用により
認識性能を向上でき、ユーザの使い勝手も向上できる。
【0013】なお、本発明において、1回自動生成した
派生単語は、認識装置内で保持されてもよい。例えば、
新しい基本単語を格納したCD−ROMが装着される
と、その新しい基本単語の派生単語が生成されてハード
ディスクに格納される。そして、以降、CD−ROMの
基本単語とハードディスクの派生単語が音声認識に使わ
れる。従って、基本単語を格納したCD−ROMを装着
するだけで、派生単語も認識することができる。また一
方、この態様と異なる別の態様では、下記の(2)に示
すように、毎回の音声認識で派生単語を生成し、使用後
に不要となった派生単語を破棄してもよい。
【0014】(2)本発明の一態様の音声認識装置は、
話者の発声した音声を入力する音声入力手段と、音声認
識する単語として基本単語を記憶する基本単語記憶手段
と、前記基本単語記憶手段に記憶された基本単語から次
回の音声認識の認識対象にする基本単語を選択する認識
対象設定手段と、選択された基本単語を所定の処理によ
って部分的に変形し、前記基本単語と同じ入力対象を他
の表現で表す単語である派生単語を生成する派生単語生
成手段と、前記選択された基本単語および前記派生単語
生成手段により生成された派生単語を認識対象として音
声認識を実行する認識処理手段と、音声認識の終了後に
前記派生単語を消去する消去手段と、を含む。
【0015】この態様によれば、次回の音声認識で使用
する基本単語から派生単語が生成される。すなわち、音
声入力の度に必要な派生単語が自動生成され、その派生
単語は使用後に消去される。派生単語を予め記憶してお
く必要がない。従って、多数の単語を記憶しておかなく
ても、一つの入力対象を表す複数の単語を良好に認識で
きる。そして、メモリ容量も少なく抑えることが可能と
なる。
【0016】(3)好ましくは、前記派生単語生成手段
は、所定の派生キー文字列を記憶するキー文字列記憶手
段と、前記基本単語に含まれる派生キー文字列を検出す
るキー文字列検出手段と、検出された派生キー文字列に
基づいて、基本単語中の変形対象部位を決定する変形部
決定手段と、を含み、前記変形対象部位に対して前記派
生キー文字列に応じた所定の変形を施すことにより、派
生単語を生成する。
【0017】例えば、派生キー文字列として、「県立」
や「市立」といった文字列が設定されている。そして、
「静岡市立日本平動物園」という基本単語から、キー文
字列「市立」が検出される。このキー文字列「市立」を
基に、変形対象部位が「静岡市立」に決定される。そし
て、変形対象部位に対する変形処理として、「静岡市
立」を省略することにより、派生単語「日本平動物園」
が生成される。
【0018】このように、本態様によれば、派生キー文
字列を用いた処理により、合理的な派生単語を効率的に
自動生成することが可能である。これにより、一つ一つ
の入力対象(施設等)が実際にどのような呼び名で呼ば
れているかを調査しなくともよくなる。
【0019】
【発明の実施の形態】以下、本発明の好適な実施の形態
(以下、実施形態という)について、図面を参照し説明
する。本実施形態では、車両用のナビゲーション装置に
本発明の音声認識装置が設けられる。
【0020】図1は、ナビゲーション装置の全体構成を
示すブロック図である。ナビゲーション装置10にはナ
ビゲーションECU12が設けられており、ナビゲーシ
ョンECU12は装置全体を制御している。ナビゲーシ
ョンECU12には、音声認識ユニット14が接続され
ている。音声認識ユニット14は、ナビゲーション装置
10の入力手段として機能し、ユーザは音声認識ユニッ
ト14を介してナビゲーション装置10に対して各種の
指示を入力する。また、ナビゲーションECU12には
操作スイッチ16が接続されており、操作スイッチ16
は、ユーザにより手動で操作される入力手段として機能
する。さらにナビゲーションECU12には、出力手段
としてのディスプレイ18およびスピーカ20が接続さ
れている。
【0021】また、GPS(グローバルポジショニング
システム)装置22は、人工衛星から送られた電波を基
に車両の現在位置を検出してナビゲーションECU12
に送る。地図データ記憶部24は、CD−ROM等の記
憶媒体を含み、全国の道路形状などの地図情報を記憶し
ている。記憶部24には、地図情報の一部として、全国
の地名や施設名称が、それらの位置する場所(座標)と
対応づけて記憶されている。地図情報は、ナビゲーショ
ンECU12により、経路案内に関する各種の処理に利
用される。例えば、現在位置周辺の地図が地図データ記
憶部24から読み出され、ディスプレイ18に表示され
る。目的地が設定されると、地図情報を用いて目的地ま
での経路を探索する経路計算が行われる。計算結果の経
路を用いて経路案内が行われる。
【0022】前述のように、音声認識ユニット14はナ
ビゲーション装置10の入力装置として機能する。音声
認識ユニット14を用いて、ユーザにより音声というか
たちでナビゲーション装置10に対する各種の指示が入
力される。例えば、上記の経路案内用の目的地が入力さ
れる。この入力処理のため、適宜、音声認識ユニット1
4は、ナビゲーションECU12をはじめとする他の構
成と一体になって機能する。また、音声認識ユニット1
4をナビゲーションECU12の内部に組み込むことも
好適である。
【0023】図2は、音声認識ユニット14の構成を示
すブロック図である。音声認識ユニット14には信号処
理制御部30が設けられている。信号処理制御部30は
CPUを有し、ユニット14全体を制御している。
【0024】信号処理制御部30には音響処理部32が
接続され、音響処理部32にはマイク34が接続されて
いる。ユーザが発声した音声は、マイク34にてアナロ
グ電気信号に変換され、音響処理部32に入力される。
音響処理部32では、音声データがデジタル信号に変換
される。さらに、音響処理部32では、音声認識に必要
なデータ処理が施される。本実施形態では、窓関数処理
やフーリエ変換処理が行われ、音声データのケプストラ
ムが求められる。処理後の音声データは信号処理制御部
30へ出力される。
【0025】信号処理制御部30にはトリガースイッチ
16aが接続されている。トリガースイッチ16aはユ
ーザにより操作される。信号処理制御部30は、トリガ
ースイッチ16aが押されると、その後に発声された音
声のデータを、マイク34から音響処理部32を経由し
て取り込む。変形例として、トリガースイッチ16aの
代わりに、いわゆるプレス・トークスイッチが設けられ
てもよい。プレス・トークスイッチを押し続けている間
に発声された音声が、マイク34から信号処理制御部3
0に取り込まれる。また、別の変形例として、音声認識
装置が、常時認識タイプの装置であってもよい。トリガ
ースイッチやプレス・トークスイッチの操作がなくと
も、ユーザによる発声の有無が監視され、検出される。
【0026】また、信号処理制御部30には音声認識部
36が接続されている。信号処理制御部30は、音響処
理部32から取り込んだ音声データを音声認識部36に
送る。音声認識部36はいわゆるDSPであり、ユーザ
の発声した音声データを解析して、音声認識を行う。認
識辞書メモリ38はRAMからなり、複数の認識対象単
語を記憶する。各認識対象単語のテンプレートデータ
(標準データ)が用意される。音声認識部36は、入力
音声データと、一つ一つの認識対象単語のテンプレート
データとのパターンマッチングを行う。マッチング結果
の最もよい単語が、入力された単語であると決定され
る。その単語を示す情報が、認識結果として、信号処理
制御部30へ送られる。これにより、信号処理制御部3
0は、ユーザが何をいったのかが分かる。さらに、認識
された単語を示す情報が、ナビゲーションECU12に
出力される。ナビゲーションECU12は、入力情報に
基づいたナビゲーション処理を行う。例えば、目的地が
入力されると、目的地までの経路計算を行う。また、地
図を表示したい場所が入力されると、その場所の地図が
検索され、表示される。
【0027】なお、本実施形態においては、任意の音声
認識技術を適用可能である。例えば、ダイナミックプロ
グラミング法(動的計画法、DP法)や、ヒドンマルコ
フモデル(隠れマルコフモデル、HMM)を使う確率手
法が適用可能である。
【0028】音声入力処理は、原則として、まず、ユー
ザに対して発声すべき音声内容を指示し、これに応えて
入力された音声を認識する、という手順で行われる。ナ
ビゲーションECU12は、次にどのような単語の発声
をユーザに要求するか(入力項目)を決定する。ナビゲ
ーションECU12の認識対象単語設定部40は、決定
された入力項目に対応する単語を、地図データ記憶部2
4から検索する。検索された単語は、認識対象単語に設
定される。
【0029】上記の決定された入力項目が音声認識ユニ
ット14の信号処理制御部30に通知される。このと
き、設定された認識対象単語も送られる(辞書転送)。
制御部30は、音声合成部42に対して、入力項目を示
す合成音声を生成させ、生成された合成音声はスピーカ
20から出力される。このようにして、音声入力がユー
ザに要求される。また、制御部30は、認識対象単語を
認識辞書メモリ38に書き込む。音素データを組み立て
ることによって認識対象単語のテンプレートデータが作
成される。要求に応えてユーザが発声すると、入力音声
データと上記テンプレートデータのパターンマッチング
によって、音声認識が行われる。
【0030】音声合成部42は、上記の発声要求の他、
ユーザに対する各種の音声案内にも用いられる。音声合
成部42は、トークバック用の合成音声の生成にも利用
される。トークバック音声においては、音声認識部36
により認識された音声の内容が反復される。トークバッ
ク音声の出力により、装置内での認識結果がユーザに提
示される。
【0031】「施設名の音声認識」ここでは、目的地の
設定のために施設名を入力する場合に着目して説明す
る。一つの施設が複数の呼び名をもつ場合には、一つの
呼び名を認識対象単語に設定しても、良好な音声認識が
できない。ユーザが、設定外の呼び名を使う可能性があ
るからである。この問題は、本実施形態では、下記のよ
うにして解決される。
【0032】図3は、施設名を音声認識する処理を示し
ている。ユーザによりトリガースイッチ16aが押され
た後、ナビゲーションECU12では、認識対象単語設
定部40が、地図データ記憶部24から施設名の単語を
読み出す。地図データ記憶部24には、一つの施設につ
き一つの名称(正式名称)が記憶されている。本実施形
態では、地図データ記憶部24が基本単語記憶手段に相
当し、記憶部24に記憶された正式名称が、本発明の基
本単語に相当する。認識対象単語設定部40は、読み出
した施設名を認識対象に設定する。そして、施設名は音
声認識ユニット14に送られ(辞書転送)、認識辞書メ
モリ38に書き込まれる(S10)。
【0033】信号処理制御部30は、認識辞書メモリ3
8内の辞書を展開する(S12)。ここでは、基本単語
としての正式名称を所定の処理により部分的に変形する
ことにより、基本単語と同じ施設を別の表現で表す派生
単語が生成される。このように、本実施形態では、信号
処理制御部30が、派生単語生成手段として機能する。
S12の詳細な処理については後述する。
【0034】信号処理制御部30は、音声合成部42を
用いて、施設名の発声を促す発声要求メッセージを生成
する。メッセージがスピーカ20から出力され、このメ
ッセージに応えてユーザが施設名を発声する(S1
4)。
【0035】入力音声データは、音響処理を経て音声認
識部36へ送られる。音声認識部36では、認識辞書メ
モリ38内の基本単語と、S12で生成された派生単語
の両方を認識対象にして、音声認識が行われる(S1
6)。すなわち、音声認識部36では、基本単語のテン
プレートデータと派生単語のテンプレートデータが用意
される。そして、入力音声データとこれらのテンプレー
トデータとのパターンマッチングが行われる。
【0036】認識結果を表すメッセージが音声合成部4
2により生成され、スピーカ20から出力される(トー
クバック)。ユーザが言い直しを指示しなければ、認識
結果はナビゲーションECU12へ出力される(S1
8)。ナビゲーションECU12では、入力された施設
名に対応する施設が目的地に設定され、経路計算や経路
案内等の以降の処理が行われる。
【0037】信号処理制御部30は、S12で生成した
派生単語を破棄する(S20)。派生単語は、音声認識
の終了直後に破棄されてもよく、また、音声認識が終了
してからしばらくたってから適当なタイミングで破棄さ
れてもよい。例えば、今回の派生単語の上に次回に生成
した派生単語が上書きされ、この上書きの際にS20の
破棄が行われてもよい。
【0038】次に、図4および図5を参照し、図3のS
12の辞書展開処理について説明する。音声認識ユニッ
ト14内の図示しないROM等の記憶手段には、下記の
(1)(2)の2種類の派生キー文字列(以下、キー文
字列という)が記憶されている。; (1)「県立」「都立」「道立」「府立」「市立」「町
立」「村立」「共立」等 (2)「高等学校」「中学校」「工業大学」等 辞書展開では、まず、検索処理により、基本単語である
正式名称に含まれているキー文字列が求められる。そし
て、検出されたキー文字列を基に変形対象部位が定めら
れ、その対象部位に対して変形が施される。(1)のキ
ー文字列が検出された場合、そのキー文字列以前の部分
が変形対象部位に設定され、この対象部位が省略され
て、派生単語が生成される。(2)のキー文字列が検出
された場合には、そのキー文字列の部分が変形対象部位
に設定され、この対象部位が他の表現に置き換えられ
る。すなわち、高等学校は高校に、中学校は中学に、工
業大学は工大に置き換えられる。
【0039】図4は、基本単語と派生単語の具体例を示
している。「静岡市立日本平動物園」には「市立」が含
まれている。そこで、「市立」以前の部分「静岡市立」
が変形対象部位に設定され、この部分が削除され、派生
単語「日本平動物園」が生成される。また、「裾野市立
鈴木図書館」もキー文字列「市立」を含むので、動物園
と同様にして、派生単語「鈴木図書館」が生成される。
【0040】「静岡県立裾野高等学校」は、キー文字列
「県立」「高等学校」を含んでいるので、「県立」以前
の「静岡県立」と、「高等学校」そのものとが変形対象
部位に設定される。「静岡県立」は削除される。「高等
学校」は「高校」に置き換えられる。2つの変形の一方
のみが適用された派生単語も生成される。結果として、
図示のように、「裾野高等学校」「静岡県立裾野高校」
「裾野高校」の3つの派生単語が生成される。
【0041】例外として、「大阪府立大学」には、キー
文字列「府立」が含まれるが、そのキー文字列の後には
一般的な施設名である「大学」のみが存在する。このよ
うに、キー文字列の後に一般的な施設名が続く場合には
派生単語を生成しない。派生単語が、一般的施設名のみ
にならないようにするためである。「静岡県立美術館」
についても同様に派生単語は生成されない。
【0042】図5は、図3のS12において派生単語を
自動的に生成する処理を示している。まず、施設名の正
式名称(基本単語)が読み込まれ(S30)、この基本
単語に「県立」等のキー文字列が含まれているか否かが
判定される(S32)。「県立」等が存在する場合に
は、その「県立」等およびその前の文字が削除され、こ
れにより派生単語が生成される(S34)。そしてさら
に、基本単語に「高等学校」等のキー文字列が含まれて
いるか否かが判定される(S36)。「高等学校」等が
含まれていなければ派生単語生成処理(着目している基
本単語についての辞書展開)は終了する。「高等学校」
等が存在する場合には、2つの派生単語が生成される。
1つは、S38にて、基本単語を基にして、単語内の
「高等学校」等を省略形に置き換えることにより生成さ
れる派生単語である。2つ目の派生単語は、S34で生
成された派生単語を基にして、単語内の「高等学校」等
を省略形に置き換えることにより生成される(S4
0)。すなわち、S40で生成された派生単語は、基本
単語内の2つの部位を変形した結果得られたものであ
る。
【0043】S32にて「県立」等のキー文字列が検出
されない場合には、基本単語内に「高等学校」等のキー
文字列が含まれているか否かが判定される(S42)。
「高等学校」等が含まれていれば、S38と同様に、基
本単語単語内の「高等学校」等が省略形に置き換えら
れ、これにより派生単語が生成される(S44)。S4
2で「高等学校」等が含まれていなければ、派生単語生
成処理は終了する。
【0044】上記の派生単語生成処理は、ナビゲーショ
ンECU12から転送されてきたすべての基本単語を対
象として行われる。そして、前述のように、基本単語と
派生単語の両方を認識対象単語にして、施設名の音声認
識が行われる。
【0045】以上、本発明の好適な実施形態を説明し
た。本実施形態によれば、予めナビゲーション装置に登
録された正式名称以外の名前で施設名の発声が行われた
場合でも、この正式名称以外の名前の音声データを好適
に認識可能である。これにより認識性能を飛躍的に向上
できるとともに、ユーザにとってはナビゲーション装置
の使い勝手が格段に向上する。特に、図3、図4を用い
て説明したような効率的な処理により、正式名称以外の
名前を示す的確な派生単語が自動生成される。従って、
施設がどのように呼ばれるかの調査や推定を行って、派
生単語の辞書を構築し、これをCD−ROM等に格納し
てナビゲーション装置に装着する、といったような手間
のかかる作業が不要である。
【0046】また、本実施形態によれば、地図データ記
憶部24には、施設名の正式名称(基本単語)のみが記
憶されている。派生単語は必要に応じて生成され、音声
認識に使った後に消去される。このように、派生単語を
予め記憶部24内に登録しておく必要がなくなり、音声
認識用に施設名を記憶するためのメモリ容量を少なく抑
えることが可能となっている。
【0047】なお、本実施形態では上記のように派生単
語は使用後に消去されるが、下記のような変形例も好適
である。CD−ROMがナビゲーション装置に装着され
ると、CD−ROM内に格納された基本単語が読み出さ
れる。そして、読み出した基本単語を基に派生単語が生
成され、派生単語はハードディスク等の読み書き可能な
記憶媒体に格納される。以降、基本単語および派生単語
が音声認識に用いられる。派生単語の生成や保持は、ナ
ビゲーションECU12側で行われても、音声認識ユニ
ット14側で行われてもよい。その他の変形例では、予
め音声認識装置の製作段階で、上記の自動生成手法で派
生単語を生成し、この派生単語を基本単語とともにCD
−ROM等に格納し、音声認識装置に組み込んでもよ
い。
【0048】また、派生単語のバリエーションは、上記
の実施形態で例示したものには限定されない。例えば、
下記のような派生単語を使うことも好適である。基本単
語「静岡市立日本平動物園」に対して、派生単語「静岡
の動物園」が生成される。ユーザにより「静岡の動物
園」が発声されると、認識結果は「静岡市立日本平動物
園」になる。この認識結果はトークバックによりユーザ
に提示される。図6には、このような派生単語が例示さ
れている。ここでは、基本単語内の地名(静岡や裾野)
が派生キー文字列になっている。また、動物園、図書
館、高等学校といった一般的な施設表示単語が、地名と
ともに、派生キー文字列になっている。
【0049】ただし、この変形例では、静岡(県あるい
は市)内に複数の動物園が存在することを考慮すべきで
ある。そこで、好ましくは、静岡内の複数の動物園に対
応する基本単語から、同じ派生単語「静岡の動物園」が
生成される。ユーザにより「静岡の動物園」が発声され
ると、複数の動物園のリストがディスプレイ18に表示
され、ユーザに1つの動物園の選択が促される。そし
て、ユーザの選択により、入力される動物園が特定され
る。
【0050】また、本実施形態の音声認識部等の各種の
構成は、ハードウエアによって実現されても、ソフトウ
エアによって実現されてもよい。
【0051】また、本発明の音声認識装置をナビゲーシ
ョン装置以外の装置に適用可能であることはもちろんで
ある。また、施設名以外の入力対象の入力に本発明を適
用可能であることももちろんである。
【図面の簡単な説明】
【図1】 本発明の実施形態のナビゲーション装置の全
体構成を示すブロック図である。
【図2】 図1のナビゲーション装置の音声認識ユニッ
トの構成を示すブロック図である。
【図3】 施設名の認識処理を示すフローチャートであ
る。
【図4】 本実施形態において基本単語から生成される
派生単語の例を示す図である。
【図5】 図4の派生単語を生成する処理を示すフロー
チャートである。
【図6】 本実施形態において基本単語から生成される
派生単語の他の例を示す図である。
【符号の説明】
10 ナビゲーション装置、12 ナビゲーションEC
U、14 音声認識ユニット、20 スピーカ、24
地図データ記憶部、30 信号処理制御部、32 音響
処理部、34 マイク、36 音声認識部、38 認識
辞書メモリ、40 認識対象単語設定部、42 音声合
成部。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 話者の発声した音声を入力する音声入力
    手段と、 音声認識する単語として基本単語を記憶する基本単語記
    憶手段と、 前記基本単語を所定の処理によって部分的に変形し、前
    記基本単語と同じ入力対象を他の表現で表す単語である
    派生単語を生成する派生単語生成手段と、 前記基本単語および前記派生単語を認識対象として音声
    認識を実行する認識処理手段と、 を含むことを特徴とする音声認識装置。
  2. 【請求項2】 話者の発声した音声を入力する音声入力
    手段と、 音声認識する単語として基本単語を記憶する基本単語記
    憶手段と、 前記基本単語記憶手段に記憶された基本単語から次回の
    音声認識の認識対象にする基本単語を選択する認識対象
    設定手段と、 選択された基本単語を所定の処理によって部分的に変形
    し、前記基本単語と同じ入力対象を他の表現で表す単語
    である派生単語を生成する派生単語生成手段と、 前記選択された基本単語および前記派生単語生成手段に
    より生成された派生単語を認識対象として音声認識を実
    行する認識処理手段と、 音声認識の終了後に前記派生単語を消去する消去手段
    と、 を含むことを特徴とする音声認識装置。
  3. 【請求項3】 請求項1または2のいずれかに記載の装
    置において、 前記派生単語生成手段は、 所定の派生キー文字列を記憶するキー文字列記憶手段
    と、 前記基本単語に含まれる派生キー文字列を検出するキー
    文字列検出手段と、 検出された派生キー文字列に基づいて、基本単語中の変
    形対象部位を決定する変形部決定手段と、 を含み、前記変形対象部位に対して前記派生キー文字列
    に応じた所定の変形を施すことにより、派生単語を生成
    することを特徴とする音声認識装置。
JP10004018A 1998-01-12 1998-01-12 音声認識装置 Pending JPH11202891A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10004018A JPH11202891A (ja) 1998-01-12 1998-01-12 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10004018A JPH11202891A (ja) 1998-01-12 1998-01-12 音声認識装置

Publications (1)

Publication Number Publication Date
JPH11202891A true JPH11202891A (ja) 1999-07-30

Family

ID=11573244

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10004018A Pending JPH11202891A (ja) 1998-01-12 1998-01-12 音声認識装置

Country Status (1)

Country Link
JP (1) JPH11202891A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006090790A (ja) * 2004-09-22 2006-04-06 Toyota Motor Corp 運転支援装置
DE112007002665T5 (de) 2006-12-15 2009-09-10 Mitsubishi Electric Corp. Spracherkennungssystem

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006090790A (ja) * 2004-09-22 2006-04-06 Toyota Motor Corp 運転支援装置
JP4556586B2 (ja) * 2004-09-22 2010-10-06 トヨタ自動車株式会社 運転支援装置
DE112007002665T5 (de) 2006-12-15 2009-09-10 Mitsubishi Electric Corp. Spracherkennungssystem
US8195461B2 (en) 2006-12-15 2012-06-05 Mitsubishi Electric Corporation Voice recognition system
DE112007002665B4 (de) 2006-12-15 2017-12-28 Mitsubishi Electric Corp. Spracherkennungssystem

Similar Documents

Publication Publication Date Title
US8538759B2 (en) Speech recognition system and data updating method
US7822613B2 (en) Vehicle-mounted control apparatus and program that causes computer to execute method of providing guidance on the operation of the vehicle-mounted control apparatus
JP4497834B2 (ja) 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体
JP4270611B2 (ja) 入力システム
JP3573907B2 (ja) 音声合成装置
EP1691343A1 (en) Audio device control device,audio device control method, and program
JP2002091466A (ja) 音声認識装置
JP2000510944A (ja) データ記憶のためにオーディオcdプレイヤーを利用するナビゲーションシステム
WO2008072413A1 (ja) 音声認識装置
US20120253822A1 (en) Systems and Methods for Managing Prompts for a Connected Vehicle
US20070136070A1 (en) Navigation system having name search function based on voice recognition, and method thereof
JP7198122B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JPH11202891A (ja) 音声認識装置
JPH07319383A (ja) 地図表示装置
JP3718088B2 (ja) 音声認識修正方式
JP3296783B2 (ja) 車載用ナビゲーション装置および音声認識方法
JP3849283B2 (ja) 音声認識装置
JP2000181485A (ja) 音声認識装置及び方法
JPWO2006028171A1 (ja) データ提示装置、データ提示方法、データ提示プログラムおよびそのプログラムを記録した記録媒体
JPH11184495A (ja) 音声認識装置
JP2003330488A (ja) 音声認識装置
JP4550207B2 (ja) 音声認識装置および音声認識ナビゲーション装置
JPH11325946A (ja) 車載用ナビゲーション装置
JP2008191581A (ja) 音声入力支援方法および装置、ならびにナビゲーションシステム
JP2877045B2 (ja) 音声認識装置,音声認識方法,ナビゲーション装置,ナビゲート方法及び自動車