JP2001022375A - 音声認識合成装置 - Google Patents

音声認識合成装置

Info

Publication number
JP2001022375A
JP2001022375A JP11192113A JP19211399A JP2001022375A JP 2001022375 A JP2001022375 A JP 2001022375A JP 11192113 A JP11192113 A JP 11192113A JP 19211399 A JP19211399 A JP 19211399A JP 2001022375 A JP2001022375 A JP 2001022375A
Authority
JP
Japan
Prior art keywords
synthesis
speech recognition
data
speech
memory card
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11192113A
Other languages
English (en)
Inventor
Toshimitsu Minowa
利光 蓑輪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP11192113A priority Critical patent/JP2001022375A/ja
Publication of JP2001022375A publication Critical patent/JP2001022375A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Navigation (AREA)
  • Traffic Control Systems (AREA)

Abstract

(57)【要約】 【課題】 カーナビゲーションシステムにおいて、低コ
ストで多言語の音声認識と音声合成を可能とする。 【解決手段】 カーナビゲーションシステムの多言語の
音声認識合成装置に、DVD−ROM1と、メモリカー
ド2を備える。使用する言語の音声素片などを、DVD
−ROM1からメモリカード2に転送しておく。音声認
識または音声合成に必要なデータのみを、その都度主記
憶装置5にロードして、音声認識処理または音声合成処
理を行う。小容量の主記憶装置5で高速に辞書にアクセ
スできるので、低コストで音声認識と音声合成ができ
る。新しい言語の辞書を携帯電話機を利用してインター
ネットからダウンロードすれば、DVD−ROM1を更
新する必要がない。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、カーナビゲーショ
ンの音声認識合成装置に関し、特に、メモリカードを利
用した音声認識合成装置に関する。
【0002】
【従来の技術】カーナビゲーションシステムでは、運転
中に装置を操作して道案内データを取り出すことは困難
であるし、危険でもあるので、音声認識と音声合成が利
用されている。音声で操作コマンドや目的地の地名を入
力し、合成音声で道案内をすれば、運転中でも安全に、
簡単に、ナビゲーションシステムを利用できる。
【0003】従来のカーナビゲーションシステムのハー
ドウエア基本要素を、図6(赤羽:日本音響学会誌Vol.
54,No.3,P.224(1998))を参照しながら説明する。G
PS受信部でGPS衛星からの電波を受信して、自車位
置を求める。その位置データを基に、CPU部でストレ
−ジデバイスにある地図から対応する地域の地図を選択
してディスプレイに表示する。VICS受信部で交通情
報などを受信して、地図に表示したり、音声合成装置を
利用してスピーカから音声で案内する。自律航法センサ
により、車両の動きを検出して、自車位置を修正した
り、目的地までの時間を計算する。ナビゲーションシス
テムの操作は、リモコン操作部で行うが、音声認識装置
を利用してマイクから音声で指示することもできる。
【0004】音声合成処理について、図7を参照しなが
ら説明する。音声出力する文字を入力すると、言語処理
部で、単語辞書と変換ルールを参照して、文字を読みに
変換する。読みをもとに、韻律設定部で、アクセントや
抑揚の物理的な周波数を決定する。一方、素片選択部
で、音声波形素片データベースを参照して、読みに対応
する音声素片を選択する。素片変形部で、アクセントや
抑揚に従って、音声素片の基本周波数(ピッチ周波数ま
たは声の高さ)を変更する。変更された音声素片を、素
片接続部で接続して、スピーカから出力する。プログラ
ムサイズは100kB程度であり、ワークRAMサイズは1
50kB程度である。必要な演算速度は、RISCで10M
IPS程度である。
【0005】音声認識処理について、図8を参照しなが
ら説明する。マイクロホンから入力された音声は、騒音
を除去された後、スペクトル分析される。マッチング処
理部で、入力音声のスペクトルパラメータを、認識用単
語標準パターンと比較する。単語標準パターンは、音声
素片パラメータの標準パターンデータベースから、文字
表記された認識辞書と、文字から読みへの変換ルールと
を参考にして作成される。単語標準パターンとの一致度
(尤度)が計算され、尤度判定部でどの単語と最も近い
か判定されて、最も近い単語が認識結果として出力され
る。認識辞書は、自車位置が変わったりカーナビの操作
内容が変わる度に、ディスクから主記憶装置に転送され
る。プログラムサイズは100kB程度であり、RAMサ
イズは2.5MB程度必要である。必要な演算速度は、R
ISCで100MIPS程度である。
【0006】音声認識機能を実装するハードウエア構成
について、図9を参照しながら説明する。音声認識専用
ハードウエアを使用する場合は、図9の左に示すよう
に、DSPでディジタル化音声信号を分析処理し、認識
処理を行う。認識結果は、DSPからCPUに通知され
る。専用ハードウエアを使用しない場合は、A/D変換
された音声信号をASIC経由でシステムRAMに置
き、汎用CPUを使ってソフトウエアで分析と認識を行
う。
【0007】従来のカーナビゲーションシステムにおけ
る音声認識合成装置では、図10に示すように、CD−
ROMやDVD−ROMから音声認識用データを主記憶
装置にロードして動作させている。また、フラッシュメ
モリやマスクROMに、音声認識プログラムと音声素片
パラメータを格納している場合もある。自車位置が変わ
ったり、ユーザとの対話の状況に応じて、ディスクから
RAMへ認識辞書が読み込まれる。
【0008】認識辞書中の「アサクサ」などの表記に従
って、音声素片パラメータをもとに「a+asa+ak
u+usa+a」のようにして、標準パターンを作成す
る。これと入力音声を比較し、似ている単語番号を出力
する。
【0009】ところで、従来技術を多言語の音声認識と
音声合成を行うシステムに適用することは簡単ではな
い。この場合の問題点について、図11を参照しながら
説明する。CD−ROMまたはDVD−ROMに、多言
語の音声認識用データを格納しておく。DVD−ROM
は大容量であるが、アクセス速度が遅いので音声認識の
場合は直接使えない。
【0010】必要となる言語の認識用データ、合成用デ
ータをフラッシュメモリに転送し、これを利用する。フ
ラッシュメモリを使わない場合は、貴重なRAMの大部
分を音声認識、合成用に使用しなければならない。いず
れにしろ、フラッシュメモリあるいはRAMを大容量の
音声認識用データ、合成用データが占有することにな
り、貴重な資源を他のアプリケーションが使えなくなっ
てしまう。
【0011】また、CDやDVDに必要な言語のプログ
ラム、素片などが予め入っていなければならないので、
使用できる言語の種類は、CD−ROMやDVD−RO
Mに格納されているものに限られる。別の言語を使用す
る場合は、CD−ROMやDVD−ROM全体を交換し
なければならないし、ある言語用技術が開発中の場合は
利用できない。
【0012】このため、従来のカーナビゲーションシス
テムでは、多言語対応の音声認識や音声合成を利用でき
なかった。仮に実現したとしても、非常にコストのかか
るシステムとなってしまう。
【0013】従来の音声合成装置の例としては、特開平
6-250691号公報に開示されている音声合成装置がある。
これは、合成パラメータに、自然音声から切り出された
波形素片を用い、入力文字列から合成音声を生成する音
声合成装置である。自然音声から切り出した波形素片、
韻律パラメータから接続合成することで、ファイル作成
に使用する話者データを意識することなしに、音質劣化
の少ない自然な合成音声を生成する。図12に示すよう
に、前処理部で分割された音韻連接に基づき、選択基準
パラメータ設定部は、合成パラメータである波形素片の
選択に用いる選択基準パラメタと、この波形素片の素片
パラメータを設定する。素片選択部では、設定された選
択基準パラメタと、素片パラメータテーブルから取り込
んだ素片パラメータとの間でその2乗誤差を算出し、こ
の2乗誤差が最小となる波形素片を当該音韻連接に対す
る最適素片として選択する。素片接続部は選択された最
適素片を素片ファイルから抽出し、音韻連接毎に素片接
続部で接続して合成音声とする。
【0014】従来の音声認識装置の例としては、特開平
10-39892号公報に開示されている音声認識装置がある。
これは、ナビゲーションシステムにおける目的地の設定
を音声によって入力する音声認識装置である。図13に
示すように、入力された音声データに対して、辞書部内
に記憶されている辞書データを用いて照合を行う。その
照合結果により定まった上位比較対象パターンを、対話
制御部の候補決定部へ通知する。候補決定部では、通知
された上位比較対象パターンに対し、記憶部に記憶され
ている除外パターンを削除して、最終的な認識結果とし
ての上位比較対象パターンを決定する。確定指示をする
までは、利用者が正しい地名を繰り返し音声入力するだ
けで、前回の認識結果である地名が自動的に除外パター
ンとなった状態で認識処理されるため、同じ誤認識は繰
り返されず、精度が向上する。
【0015】従来の音声認識装置の他の例としては、特
開平10-282987号公報に開示されている音声認識システ
ムがある。これは、図14に示すように、カーナビゲー
ションシステムなどで、地名、交差点名、通り名等によ
り、目的地等の音声検索、音声探索、音声認識誘導を行
うような膨大な単語の音声認識に用いる音声認識システ
ムである。音声認識の対象となる単語や文章を集めて辞
書として定義し、音声認識の結果として、それらの単語
や文章をピックアップする音声認識システムにおいて、
辞書を複数持たせ、辞書切換部により、複数の辞書より
一つの辞書を選択して、それを音声認識の対象として、
音声認識を行う。音声認識の結果を用いて、カーナビゲ
ーションシステムの地図上に、目的地までの距離、時
間、ルートなどを表示する。システム全体として音声認
識できる語彙数が増加しても、認識率や認識応答時間の
性能の低下がない。
【0016】複数の辞書を持ち、辞書切換情報を参照し
て、それを辞書切換部で適宜切り換えて、音声認識を行
う。辞書切換部は、辞書切換情報の内容に従って、音声
認識の候補として、複数の辞書から一つの辞書を選択す
るか切り換える。例えば、複数の辞書がフラッシュメモ
リで構成されたメモリカードやROMに格納されてい
て、音声認識するときに必要な辞書だけを、RAMに転
送して音声認識処理を行う。この複数の辞書を置くため
の記憶装置は、メモリカードやROMで構成し、複数の
辞書から一つの辞書を選択して格納するための記憶装置
は、RAMで構成することになる。また、複数の辞書を
格納しておくために、ハードディスクなどの補助記憶装
置も用いることができる。
【0017】
【発明が解決しようとする課題】しかし、上記従来の技
術では、多言語対応の音声認識合成装置を実現しようと
すると、大容量の主記憶装置やROMを必要とし、コス
トがかかるという問題があった。多言語対応の音声認識
音声合成装置を低コストで実現しようとすると、ディス
クの音声認識用データ、音声合成用データを主記憶装置
に転送することになり、実用的な時間で応答することが
不可能であった。
【0018】本発明は、上記従来の問題を解決し、低コ
ストで多言語の音声認識と音声合成を可能とすることを
目的とする。
【0019】
【課題を解決するための手段】上記の課題を解決するた
めに、本発明では、カーナビゲーションの音声認識合成
装置を、複数言語の音声認識合成用データを格納した着
脱可能なディスク記憶装置と、音声認識合成用データの
一部を格納できる着脱可能な不揮発性のメモリカード
と、主記憶装置と、演算処理装置と、ディスク記憶装置
に格納された音声認識合成用データの一部をメモリカー
ドに転送する第1の転送手段と、メモリーカードに格納
された音声認識合成用データの一部を主記憶装置に転送
する第2の転送手段と、主記憶装置に格納された音声認
識合成用データを使って演算処理装置により音声認識及
び音声合成を行う音声認識合成手段とを具備する構成と
した。
【0020】このように構成したことにより、小容量の
主記憶装置で高速に辞書データにアクセスでき、低コス
トで多言語対応の音声認識と音声合成ができる。
【0021】また、カーナビゲーションの音声認識合成
装置を、音声認識合成用データを格納できる着脱可能な
不揮発性のメモリカードと、主記憶装置と、演算処理装
置と、携帯用通信装置と、携帯用通信装置及びインター
ネットを介してWEBサーバに格納された複数言語の音
声認識合成用データの一部をメモリカードに転送する第
1の転送手段と、メモリカードに格納された音声認識合
成用データの一部を主記憶装置に転送する第2の転送手
段と、主記憶装置に格納された音声認識合成用データを
使って演算処理装置により音声認識及び音声合成を行う
音声認識合成手段とを具備する構成とした。
【0022】このように構成したことにより、新しい言
語の音声認識合成辞書データの追加が容易に行える。
【0023】
【発明の実施の形態】本発明の請求項1に記載の発明
は、複数言語の音声認識合成用データを格納した着脱可
能なディスク記憶装置と、前記音声認識合成用データの
一部を格納できる着脱可能な不揮発性のメモリカード
と、主記憶装置と、演算処理装置と、前記ディスク記憶
装置に格納された前記音声認識合成用データの一部を前
記メモリカードに転送する第1の転送手段と、前記メモ
リーカードに格納された前記音声認識合成用データの一
部を前記主記憶装置に転送する第2の転送手段と、前記
主記憶装置に格納された前記音声認識合成用データを使
って前記演算処理装置により音声認識及び音声合成を行
う音声認識合成手段とを具備するカーナビゲーションの
音声認識合成装置であり、データが必要になった都度、
メモリカードから主記憶装置に高速に転送して音声認識
合成を行うという作用を有する。
【0024】本発明の請求項2に記載の発明は、音声認
識合成用データを格納できる着脱可能な不揮発性のメモ
リカードと、主記憶装置と、演算処理装置と、携帯用通
信装置と、前記携帯用通信装置及びインターネットを介
してWEBサーバに格納された複数言語の音声認識合成
用データの一部を前記メモリカードに転送する第1の転
送手段と、前記メモリカードに格納された前記音声認識
合成用データの一部を前記主記憶装置に転送する第2の
転送手段と、前記主記憶装置に格納された前記音声認識
合成用データを使って前記演算処理装置により音声認識
及び音声合成を行う音声認識合成手段とを具備するカー
ナビゲーションの音声認識合成装置であり、新しいデー
タをWEBサーバからメモリカードにダウンロードして
追加するという作用を有する。
【0025】本発明の請求項3に記載の発明は、請求項
1又は請求項2記載のカーナビゲーションの音声認識合
成装置において、前記第1の転送手段は、前記音声認識
合成用データのうち個別の言語に特有のデータのみを転
送する手段であり、前記音声認識合成手段は、前記メモ
リカード又は前記主記憶装置に格納された前記音声認識
合成用データのうち複数言語に共通のデータ及び前記言
語特有のデータを使って音声認識及び音声合成を行う手
段であるものであり、個別の言語に特有の音声認識合成
用データのみをメモリカードに格納して、複数言語の音
声認識合成を行うという作用を有する。
【0026】本発明の請求項4に記載の発明は、ディス
ク記憶装置に格納された複数言語の音声認識合成用デー
タの一部を不揮発性のメモリカードに転送し、前記メモ
リカードに格納された前記音声認識合成用データの一部
を主記憶装置に転送し、前記主記憶装置に格納された前
記音声認識合成用データを使って演算処理を行うことに
より、音声認識及び音声合成を行う音声認識合成方法で
あり、データが必要になった都度、メモリカードから主
記憶装置に高速に転送して音声認識合成を行うという作
用を有する。
【0027】本発明の請求項5に記載の発明は、WEB
サーバに格納された複数言語の音声認識合成用データの
一部を、インターネットを介して不揮発性のメモリカー
ドに転送し、前記メモリカードに格納された前記音声認
識合成用データの一部を主記憶装置に転送し、前記主記
憶装置に格納された前記音声認識合成用データを使って
演算処理を行うことにより、音声認識及び音声合成を行
う音声認識合成方法であり、新しいデータをWEBサー
バからメモリカードにダウンロードして追加するという
作用を有する。
【0028】本発明の請求項6に記載の発明は、請求項
4又は請求項5記載の音声認識合成方法において、複数
言語の前記音声認識合成用データのうち言語特有のデー
タのみを不揮発性のメモリカードに転送し、前記メモリ
カード又は主記憶装置に格納された前記音声認識合成用
データのうち複数言語に共通のデータ及び前記言語特有
のデータを使って前記演算処理を行うものであり、個別
の言語に特有の音声認識合成用データのみをメモリカー
ドに格納して、複数言語の音声認識合成を行うという作
用を有する。
【0029】以下、本発明の実施の形態について、図1
〜図5を参照しながら詳細に説明する。
【0030】(第1の実施の形態)本発明の第1の実施
の形態は、カーナビのDVD−ROMに格納された複数
の言語の音声認識合成用データのうちから、使用する言
語のデータをメモリカードに転送して格納しておき、音
声素片などの必要な部分のデータのみをメモリカードか
ら主記憶装置に転送して音声認識合成を行う多言語対応
の音声認識合成装置である。
【0031】図1は、本発明の第1の実施の形態におけ
る音声認識合成装置の機能ブロック図である。図1にお
いて、ストレージデバイス1は、CD−ROMまたはD
VD−ROMなどの着脱可能な大容量記憶装置である。
メモリカード2は、大容量の書き換え可能で、不揮発性
の高速半導体メモリを使用した着脱可能なメモリカード
である。メモリカードスロット3は、メモリカードを本
体に接続するためのスロットである。CPU4は、32ビ
ットRISCプロセッサである。RAM5は、カーナビ
の主記憶装置である。マスクROM6は、プログラムや
共通データなどの固定データを格納してあるROMであ
る。DVDドライブ7は、ディスクデータを読み出す装
置である。A/D,D/A変換器8は、音声信号をアナ
ログとディジタルの間で相互変換する装置である。バス
9は、カーナビのシステムバスである。
【0032】上記のように構成された本発明の第1の実
施の形態における音声認識合成装置の動作を説明する。
図1には、カーナビの構成のうち、音声認識合成に関連
する部分のみを示してある。カーナビのDVD−ROM
1に、10ヶ国語程度の音声認識合成用データを格納して
おく。「音声認識合成用データ」は、「音声認識用デー
タ」及び「音声合成用データ」の2種類のデータで構成
される。「音声認識用データ」は、音声認識プログラ
ム、音声素片パラメータ、文字から読みへの変換ルール
で構成される。「音声合成用データ」は、音声合成プロ
グラム、音声合成素片、文字から読みへの変換ルール、
単語辞書で構成される。例えば、日本語、英語、フラン
ス語、ドイツ語、ロシア語、スペイン語、イタリア語、
オランダ語、ギリシャ語、ポルトガル語などの音声認識
用データ、音声合成用データを、DVD−ROM1に格
納しておく。音声認識用データや音声合成用データは、
1言語あたり、認識用に2MBと合成用に4MBで合計
6MBを占める。
【0033】必要となる言語の音声認識用データ、音声
合成用データを、DVD−ROM1からメモリカード2
に転送しておく。例えば、日本語と英語のデータなどを
メモリカード2に転送しておく。この転送処理は、通常
は最初の1回だけ行えばよい。メモリカード2は、記憶
容量が60MBで、データ転送速度は、ブロック転送で10
MB/s程度のものである。メモリカード2は、着脱可
能な不揮発性の半導体メモリカードである。最大で、10
ヶ国語程度の音声認識用データと音声合成用データを格
納できる。
【0034】主記憶装置のRAM5の容量は8MB程度
である。演算処理装置のCPU4は、32ビットのRIS
Cプロセッサである。これらは、カーナビゲーションシ
ステムの音声認識合成処理のみでなく、カーナビのその
他の情報処理も行う。マスクROM6の容量は6MBで
あり、音声認識用データ、音声合成用データのうち、各
国語に共通の部分が格納されている。各国語特有の部分
を、メモリカード2に格納しておく。
【0035】メモリカード2に格納された音声認識用デ
ータと音声合成用データの一部を主記憶装置RAM5に
転送する。メモリカード2は、アクセス速度はμs程度
であるので、DVD−ROM1から転送する場合よりは
るかに速く転送できる。しかし、メモリカード2をCP
U4で直接アクセスして音声認識合成処理をするには遅
すぎる。そのため、予め必要なデータをメモリカード2
からRAM5に転送して、RAM5上で音声認識合成処
理を行う。例えば、音声認識の応答用の音声合成に必要
となる素片データのみをRAM5に転送しておく。
【0036】主記憶装置RAM5とマスクROM6に格
納された音声認識合成用データを使って、演算処理装置
CPU4により音声認識と音声合成を行う。音声認識
は、不特定話者対応の単語認識である。音声で目的地を
入力し、ガイダンスを音声合成で出力する。目的地デー
タは20万件程度あり、自車の近くの例えば2000件の認識
辞書を、直ちに認識対象とできるようにRAM5に入れ
ておく。
【0037】多言語の音声認識処理について、図2を参
照しながら説明する。マイクロホンから入力された音声
は、音声認識エンジンで、騒音除去とスペクトル分析が
されてマッチング処理部に入力される。一方、言語特有
の音声素片パラメータ標準パターン(ただし、一部は複
数言語に共通)と、文字表記認識辞書と文字から読みへ
の変換ルールに基いて、認識用単語標準パターンが作成
される。入力音声のスペクトルパラメータが、この言語
特有の認識用単語標準パターンと比較され、単語標準パ
ターンとの一致度(尤度)が計算される。計算結果の尤
度から、アプリケーションソフトの尤度判定部で、どの
単語と最も近いか判定されて、最も近い単語が認識結果
として出力される。音声素片パラメータ標準パターンの
一部は複数言語に共通であるが、言語ごとに約1.5MBy
teある。文字表記認識辞書は、言語ごとに約40kByte
あり、文字から読みへの変換ルールは言語ごとに約100
kByteある。
【0038】複数言語の音声合成処理について、図3を
参照しながら説明する。音声出力する文字を入力する
と、言語処理部で、言語特有の単語辞書と文字から読み
への変換ルールを参照して、文字を読みに変換する。読
みをもとに、言語特有の韻律設定部で、アクセントや抑
揚の物理的な周波数を決定する。一方、素片選択部で、
言語特有の音声波形素片データベースを参照して、読み
に対応する音声素片を選択する。素片変形部で、アクセ
ントや抑揚に従って、音声素片の基本周波数(ピッチ周
波数または声の高さ)を変更する。変更された音声素片
を素片接続部で接続して、スピーカから出力する。言語
特有の単語辞書と文字から読みへの変換ルールは、約1.
5MByteある。音声波形素片データベースの一部は複数
言語に共通であるが、言語ごとに約2.5MByteある。
【0039】図4に、複数言語に共通な音声と、相違す
る音声の例を示す。共通部分は1つにしてマスクROM
6に格納しておき、言語ごとに異なる部分を、言語対応
のデータベースとしてメモリカード2に格納しておく。
【0040】上記のように、本発明の第1の実施の形態
では、多言語対応の音声認識合成装置を、カーナビのD
VD−ROMに格納された複数の言語の音声認識合成用
データのうちから、使用する言語のデータをメモリカー
ドに転送して格納しておき、音声素片などの必要な部分
のデータのみをメモリカードから主記憶装置に転送して
音声認識合成を行う構成としたので、小容量の主記憶装
置で多言語対応の音声認識と音声合成ができる。
【0041】(第2の実施の形態)本発明の第2の実施
の形態は、カーナビに接続可能な携帯電話を利用して、
新しい言語の音声認識合成用データをインターネット経
由でWEBサーバからメモリカードにダウンロードし、
自車位置などに応じて必要な部分のデータのみをメモリ
カードから主記憶装置に転送して音声認識合成を行う音
声認識合成装置である。
【0042】図5は、本発明の第2の実施の形態におけ
る音声認識合成装置の機能ブロック図である。図5にお
いて、アクセス装置10は、携帯電話機などのインターネ
ットにアクセスする装置である。アダプタ11は、携帯電
話機などを本体に接続する装置である。その他の構成
は、第1の実施の形態と同じである。
【0043】上記のように構成された本発明の第2の実
施の形態における音声認識合成装置の動作を説明する。
DVD−ROM1に格納された複数の言語の音声認識合
成用データのうちから、使用する言語のデータをメモリ
カード2に転送して格納しておき、音声素片などの必要
な部分のデータのみをメモリカード2から主記憶装置R
AM5に転送して音声認識合成を行うことは、第1の実
施の形態と同じである。
【0044】携帯電話機10を使って、インターネットに
アクセスし、新しい言語の音声認識合成用データを、W
EBサーバからダウンロードし、メモリカード2に格納
する。DVD−ROM1には、主要な国語の辞書、例え
ば、日本語、英語、フランス語、ドイツ語、ロシア語、
スペイン語、イタリア語、オランダ語、ギリシャ語、ポ
ルトガル語などの辞書データが格納されているが、中国
語やアラビア語やトルコ語やスウェーデン語やヘブライ
語などを使用したいときは、インターネットからダウン
ロードして、メモリカード2に格納する。あるいは、D
VD−ROM1を供給する際に用意できなかった言語の
データや、不充分であって拡充を必要としたデータをダ
ウンロードする。DVD−ROM1を再配布する必要が
なくなる。
【0045】上記のように、本発明の第2の実施の形態
では、多言語対応の音声認識合成装置を、カーナビの携
帯電話を利用して、新しい言語の音声認識合成用データ
をインターネット経由でWEBサーバからメモリカード
にダウンロードし、自車位置などに応じて必要な部分の
データのみをメモリカードから主記憶装置に転送して音
声認識合成を行う構成としたので、DVD−ROMを交
換することなく、新しい言語の音声認識合成を行うこと
ができる。
【0046】
【発明の効果】以上の説明から明らかなように、本発明
では、カーナビゲーションの音声認識合成装置を、複数
言語の音声認識合成用データを格納した着脱可能なディ
スク記憶装置と、音声認識合成用データの一部を格納で
きる着脱可能な不揮発性のメモリカードと、主記憶装置
と、演算処理装置と、ディスク記憶装置に格納された音
声認識合成用データの一部をメモリカードに転送する第
1の転送手段と、メモリーカードに格納された音声認識
合成用データの一部を主記憶装置に転送する第2の転送
手段と、主記憶装置に格納された音声認識合成用データ
を使って演算処理装置により音声認識及び音声合成を行
う音声認識合成手段とを具備する構成としたので、複数
言語対応の音声認識合成が低コストで実現できるという
効果が得られる。
【0047】また、カーナビゲーションの音声認識合成
装置を、音声認識合成用データを格納できる着脱可能な
不揮発性のメモリカードと、主記憶装置と、演算処理装
置と、携帯用通信装置と、携帯用通信装置及びインター
ネットを介してWEBサーバに格納された複数言語の音
声認識合成用データの一部をメモリカードに転送する第
1の転送手段と、メモリカードに格納された音声認識合
成用データの一部を主記憶装置に転送する第2の転送手
段と、主記憶装置に格納された音声認識合成用データを
使って演算処理装置により音声認識及び音声合成を行う
音声認識合成手段とを具備する構成としたので、DVD
−ROMを交換することなく、新しい言語の音声認識辞
書を簡単に追加できるという効果が得られる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態における音声認識合
成装置の機能ブロック図、
【図2】本発明の第1の実施の形態における音声認識装
置の共通部分と個別部分を示す図、
【図3】本発明の第1の実施の形態における音声合成装
置の共通部分と個別部分を示す図、
【図4】複数言語に共通の音を示す表、
【図5】本発明の第2の実施の形態における音声認識合
成装置の機能ブロック図、
【図6】従来のカーナビゲーションシステムの構成図、
【図7】従来の音声合成処理装置の構成図、
【図8】従来の音声認識処理装置の構成図、
【図9】従来の音声認識装置の実装構成図、
【図10】従来の1言語の音声認識合成装置の構成図、
【図11】従来の多言語の音声認識合成装置の構成図、
【図12】従来の音声合成装置の構成図、
【図13】従来の音声認識装置の構成図、
【図14】従来の音声認識装置の構成図である。
【符号の説明】
1 ストレージデバイス 2 メモリカード 3 メモリカードスロット 4 CPU 5 RAM 6 マスクROM 7 ドライブ 8 A/D,D/A変換器 9 バス
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/28 Fターム(参考) 2F029 AA02 AB01 AB07 AB09 AC01 AC02 AC04 AC18 5D015 GG01 KK01 5D045 AB17 5H180 AA01 BB02 BB04 BB05 BB12 BB13 FF04 FF05 FF12 FF13 FF22 FF25 FF27 FF32

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 複数言語の音声認識合成用データを格納
    した着脱可能なディスク記憶装置と、前記音声認識合成
    用データの一部を格納できる着脱可能な不揮発性のメモ
    リカードと、主記憶装置と、演算処理装置と、前記ディ
    スク記憶装置に格納された前記音声認識合成用データの
    一部を前記メモリカードに転送する第1の転送手段と、
    前記メモリーカードに格納された前記音声認識合成用デ
    ータの一部を前記主記憶装置に転送する第2の転送手段
    と、前記主記憶装置に格納された前記音声認識合成用デ
    ータを使って前記演算処理装置により音声認識及び音声
    合成を行う音声認識合成手段とを具備することを特徴と
    するカーナビゲーションの音声認識合成装置。
  2. 【請求項2】 音声認識合成用データを格納できる着脱
    可能な不揮発性のメモリカードと、主記憶装置と、演算
    処理装置と、携帯用通信装置と、前記携帯用通信装置及
    びインターネットを介してWEBサーバに格納された複
    数言語の音声認識合成用データの一部を前記メモリカー
    ドに転送する第1の転送手段と、前記メモリカードに格
    納された前記音声認識合成用データの一部を前記主記憶
    装置に転送する第2の転送手段と、前記主記憶装置に格
    納された前記音声認識合成用データを使って前記演算処
    理装置により音声認識及び音声合成を行う音声認識合成
    手段とを具備することを特徴とするカーナビゲーション
    の音声認識合成装置。
  3. 【請求項3】 前記第1の転送手段は、前記音声認識合
    成用データのうち個別の言語に特有のデータのみを転送
    する手段であり、前記音声認識合成手段は、前記メモリ
    カード又は前記主記憶装置に格納された前記音声認識合
    成用データのうち複数言語に共通のデータ及び前記言語
    特有のデータを使って音声認識及び音声合成を行う手段
    であることを特徴とする請求項1又は請求項2記載のカ
    ーナビゲーションの音声認識合成装置。
  4. 【請求項4】 ディスク記憶装置に格納された複数言語
    の音声認識合成用データの一部を不揮発性のメモリカー
    ドに転送し、前記メモリカードに格納された前記音声認
    識合成用データの一部を主記憶装置に転送し、前記主記
    憶装置に格納された前記音声認識合成用データを使って
    演算処理を行うことにより、音声認識及び音声合成を行
    うことを特徴とする音声認識合成方法。
  5. 【請求項5】 WEBサーバに格納された複数言語の音
    声認識合成用データの一部を、インターネットを介して
    不揮発性のメモリカードに転送し、前記メモリカードに
    格納された前記音声認識合成用データの一部を主記憶装
    置に転送し、前記主記憶装置に格納された前記音声認識
    合成用データを使って演算処理を行うことにより、音声
    認識及び音声合成を行うことを特徴とする音声認識合成
    方法。
  6. 【請求項6】 複数言語の前記音声認識合成用データの
    うち言語特有のデータのみを不揮発性のメモリカードに
    転送し、前記メモリカード又は主記憶装置に格納された
    前記音声認識合成用データのうち複数言語に共通のデー
    タ及び前記言語特有のデータを使って前記演算処理を行
    うことを特徴とする請求項4又は請求項5記載の音声認
    識合成方法。
JP11192113A 1999-07-06 1999-07-06 音声認識合成装置 Pending JP2001022375A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11192113A JP2001022375A (ja) 1999-07-06 1999-07-06 音声認識合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11192113A JP2001022375A (ja) 1999-07-06 1999-07-06 音声認識合成装置

Publications (1)

Publication Number Publication Date
JP2001022375A true JP2001022375A (ja) 2001-01-26

Family

ID=16285894

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11192113A Pending JP2001022375A (ja) 1999-07-06 1999-07-06 音声認識合成装置

Country Status (1)

Country Link
JP (1) JP2001022375A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002272139A (ja) * 2001-03-14 2002-09-20 Hitachi Ltd インバータ管理システム及びインバータ
JP2003177029A (ja) * 2001-12-12 2003-06-27 Navitime Japan Co Ltd 地図表示装置、地図表示システム
JP2004287444A (ja) * 2003-03-24 2004-10-14 Microsoft Corp 多言語テキスト音声変換システムのためのフロントエンドアーキテクチャ
JP2008040371A (ja) * 2006-08-10 2008-02-21 Hitachi Ltd 音声合成装置
JP2008130101A (ja) * 2006-11-16 2008-06-05 Kenwood Corp 光ディスク再生装置、待機状態設定方法及び待機状態設定プログラム
JP2010127770A (ja) * 2008-11-27 2010-06-10 Clarion Co Ltd ナビゲーション装置及びナビゲーション方法
JP2011033874A (ja) * 2009-08-03 2011-02-17 Alpine Electronics Inc 多言語音声認識装置及び多言語音声認識辞書作成方法
JP2012185356A (ja) * 2011-03-07 2012-09-27 Yamaha Corp 音声合成装置
JP2017058948A (ja) * 2015-09-16 2017-03-23 株式会社ゼンリンデータコム 情報処理装置、プログラム、情報処理システム、データ構造

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002272139A (ja) * 2001-03-14 2002-09-20 Hitachi Ltd インバータ管理システム及びインバータ
JP4490595B2 (ja) * 2001-03-14 2010-06-30 株式会社日立産機システム インバータ管理システム
JP2003177029A (ja) * 2001-12-12 2003-06-27 Navitime Japan Co Ltd 地図表示装置、地図表示システム
JP2004287444A (ja) * 2003-03-24 2004-10-14 Microsoft Corp 多言語テキスト音声変換システムのためのフロントエンドアーキテクチャ
JP2008040371A (ja) * 2006-08-10 2008-02-21 Hitachi Ltd 音声合成装置
JP2008130101A (ja) * 2006-11-16 2008-06-05 Kenwood Corp 光ディスク再生装置、待機状態設定方法及び待機状態設定プログラム
JP2010127770A (ja) * 2008-11-27 2010-06-10 Clarion Co Ltd ナビゲーション装置及びナビゲーション方法
US8560226B2 (en) 2008-11-27 2013-10-15 Clarion Co. Ltd. Navigation device and navigation method
JP2011033874A (ja) * 2009-08-03 2011-02-17 Alpine Electronics Inc 多言語音声認識装置及び多言語音声認識辞書作成方法
JP2012185356A (ja) * 2011-03-07 2012-09-27 Yamaha Corp 音声合成装置
JP2017058948A (ja) * 2015-09-16 2017-03-23 株式会社ゼンリンデータコム 情報処理装置、プログラム、情報処理システム、データ構造

Similar Documents

Publication Publication Date Title
JP2644376B2 (ja) 車両用音声ナビゲーション方法
JP3573907B2 (ja) 音声合成装置
US6112174A (en) Recognition dictionary system structure and changeover method of speech recognition system for car navigation
US8015011B2 (en) Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases
US8099290B2 (en) Voice recognition device
JP2001282279A (ja) 音声情報処理方法及び装置及び記憶媒体
JP2000510944A (ja) データ記憶のためにオーディオcdプレイヤーを利用するナビゲーションシステム
JPH1039895A (ja) 音声合成方法および装置
JP3884856B2 (ja) 音声合成用データ作成装置、音声合成装置及びそれらの方法、コンピュータ可読メモリ
JP2001022375A (ja) 音声認識合成装置
JP4966324B2 (ja) 音声翻訳装置、および方法
JP3645104B2 (ja) 辞書検索装置及び辞書検索プログラムを記録した記録媒体
JP3371761B2 (ja) 氏名読み音声合成装置
JP3513988B2 (ja) ナビゲーションシステム
JP2006330484A (ja) 音声案内装置及び音声案内プログラム
JPH0926799A (ja) 音声認識装置
JP2008021235A (ja) 読み登録システム及び読み登録プログラム
US6847932B1 (en) Speech synthesis device handling phoneme units of extended CV
JP4520555B2 (ja) 音声認識装置および音声認識ナビゲーション装置
JP2004171174A (ja) 文章読み上げ装置、読み上げのためのプログラム及び記録媒体
JPH09152884A (ja) 音声合成装置
JP2005114964A (ja) 音声認識方法および音声認識処理装置
JP4550207B2 (ja) 音声認識装置および音声認識ナビゲーション装置
JP2580565B2 (ja) 音声情報辞書作成装置
JP2001306088A (ja) 音声認識装置及び処理システム