JP2006330486A - 音声合成装置、この音声合成装置を備えるナビゲーション装置、音声合成プログラム及びこのプログラムを記憶した情報記憶媒体 - Google Patents

音声合成装置、この音声合成装置を備えるナビゲーション装置、音声合成プログラム及びこのプログラムを記憶した情報記憶媒体 Download PDF

Info

Publication number
JP2006330486A
JP2006330486A JP2005155854A JP2005155854A JP2006330486A JP 2006330486 A JP2006330486 A JP 2006330486A JP 2005155854 A JP2005155854 A JP 2005155854A JP 2005155854 A JP2005155854 A JP 2005155854A JP 2006330486 A JP2006330486 A JP 2006330486A
Authority
JP
Japan
Prior art keywords
piece data
speech
sound piece
data
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005155854A
Other languages
English (en)
Inventor
Kunihiro Suga
邦博 須賀
Minoru Shinkawa
実 新川
Atsushi Tsurumi
篤 鶴見
Sayuri Yuzukizaki
さゆり 柚木崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kenwood KK
Original Assignee
Kenwood KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kenwood KK filed Critical Kenwood KK
Priority to JP2005155854A priority Critical patent/JP2006330486A/ja
Publication of JP2006330486A publication Critical patent/JP2006330486A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Navigation (AREA)
  • Traffic Control Systems (AREA)

Abstract

【課題】複数種類のキャラクタによる音声データから各種の案内音声を合成し発声することで音声自体を目立たせて音声案内に対する注意を促す。
【解決手段】
複数キャラクタの対話調となっているテキストデータを入力し、各キャラクタに対応する音片データを記憶する記憶領域をそれぞれキャラクタ毎に備えて記憶する音片データ記憶手段と、テキストデータの各キャラクタに対応する音片データを検出する際、この音片データが記録された記憶領域を指示する記憶領域指定手段と、この記憶領域指定手段の指定に基づいて対応する音片データを検出して音声の合成を行う音片編集手段を備える。
【選択図】図1

Description

本発明は、音声データを複数のキャラクタ(人物、動物等の音声が有する性格等を意味するものである。)の音声データに切り替えて生成する音声合成装置、この装置を備えるナビゲーション装置、音声合成プログラム及びこのプログラムを記憶した情報記憶媒体に関する。
従来から、車等のナビゲーション装置、パーソナルコンピュータ、電子ゲーム機器、電話等を利用した自動案内システム、各種施設での案内放送システム等で合成音声を発声する技術が知られている。例えば、緊急通報時における出動指令等のメッセージを発声するための音声合成装置であって、予め人の発声により録音されたデータを記憶する音片データ格納部を備えて、入力されたテキストデータを変換処理部にて音声生成部が読み取り可能なデータ形式に変換しデータ格納部に蓄積された音片データを組み合わせて所期のメッセージ音声を合成する録音合成方式の音声合成装置が知られている(例えば、特許文献1)。
特開2002−156987号公報
しかしながら、音片データを格納するハードディスクの容量の問題から記憶する音片データの種類も制約され、実用レベルでは、アナウンサー調の画一化された声色で限られた情報を事務的に与えるだけのものであった。
特に、カーナビゲーション装置等の音声案内では、ユーザは車両の運行操作に専念する必要がある。このため各種の案内を表示するモニタを注視することはできず音声による案内が主となる。このようなときでも、音声による案内が単調なものであると無意識のうちに案内を聞き逃してしまうという問題がある。
本発明は、複数種類のキャラクタを用いて特徴的な音声ガイダンス等を生成し得る音声合成装置を提供することである。
上記課題を解決するために、請求項1に記載の発明は、
入力される文章データに含まれる表意文字列を表音文字列に変換する言語処理手段と、
複数のキャラクタの発声を表す音片データを、当該キャラクタ毎に分類された識別子を付して記憶する音片データ記憶手段と、
前記表音文字列に対応する音片データを前記音片データ記憶手段から検出する音片データ検出手段と、
前記音片データ検出手段が前記音片データ記憶手段から音片データを検出する際、前記音片データに付された識別子を指定する検索指定手段と、
前記音片データ検出手段が前記検索指定手段による識別子の指定に基づいて検出した音片データから音声を合成する音声編集手段を備えることを特徴とする音声合成装置である。
請求項2に記載の発明は、
複数のキャラクタ毎の固定メッセージを表す音片データに、それぞれ異なる識別子を付して記憶する音片データ記憶手段と、
入力される文章データと前記識別子との対応が予め定められたテーブルを備え、該テーブルに基づき前記文章データに対応する識別子を検索して音片データを検出する音片データ検出手段と、
前記音片データ検出手段により検出された音片データから音声を合成する音声編集手段を備えることを特徴とする音声合成装置である。
請求項3に記載の発明は、
請求項1又は2に記載の音声合成装置において、
前記複数のキャラクタにおける1つのキャラクタに対応する素片データを記憶する素片データ記憶手段と、
前記音片データ検出手段が対応する音片データを前記音片データ記憶手段から検出する際、対応する音片データがない場合に、前記素片データに基づいて前記音片データのない文章データの規則合成音声データを生成する音響処理手段とを更に備え、
前記音片編集手段は、前記音片データ記憶手段から検出した音片データと音響処理手段により生成された規則合成音声データとから音声を合成することを特徴とする。
請求項4に記載の発明は、
請求項1〜3のいずれか一項に記載の音声合成装置を備えることを特徴とするナビゲーション装置である。
請求項5に記載の発明は、コンピュータに、
入力される文章データに含まれる表意文字列を表音文字列に変換する言語処理機能と、
複数のキャラクタの発声を表す音片データを、当該キャラクタ毎に分類された識別子を付して記憶する音片データ記憶機能と、
前記表音文字列に対応する音片データを前記音片データ記憶機能により記憶された音片データから検出する音片データ検出機能と、
前記音片データ検出機能が前記音片データ記憶機能により記憶された音片データを検出する際、前記音片データに付された識別子を指定する検索指定機能と、
前記音片データ検出機能が前記検索指定機能による識別子の指定に基づいて検出した音片データから音声を合成する音声編集機能を実現することを特徴とするプログラム。
請求項6に記載の発明は、コンピュータに、
キャラクタ毎の固定メッセージを表す音片データに、それぞれ異なる識別子を付して記憶する音片データ記憶機能と、
入力された文章データと前記識別子との対応が予め定められたテーブルを備え、該テーブルに基づき前記文章データに対応する識別子を検索して音片データを検出する音片データ検出機能と、
前記音片データ検出機能により検出された音片データから音声を合成する音声編集機能を実現するプログラムである。
請求項7に記載の発明は、請求項5又は6に記載のプログラムにおいて、
前記複数のキャラクタにおける1つのキャラクタに対応する素片データを記憶する素片データ記憶機能と、
前記音片データ検出機構が対応する音片データを前記音片データ記憶機能により記憶された音片データから検出する際、音片データがない場合に、前記素片データに基づいて前記音片データのない表音文字列の規則合成音声データを生成する音響処理機能とを更に実現させ、
前記音片編集機能に、前記音片データ記憶手段から検出した音片データと音響処理手段により生成された規則合成音声データとから音声を合成させることを特徴とする。
請求項8に記載の発明は、請求項5〜7のいずれか1項に記載のプログラムを記憶するコンピュータ読み取り可能な情報記録媒体である。
〔第1の実施形態〕
次に、図を用いて本発明を実施するための最良の形態について説明する。
音声合成の技術分野では、予め人の発声により単語又は文節を録音した音片データから音片データベースを構築し、この音片データと発声を所望する内容を示したテキストデータとを対応させて音声合成を行う録音編集方式が利用されている。録音編集方式は実際の人の発声に近い音声を再生することができるため、機械式の合成音声に比して聞きやすいというメリットがある。
第1の実施形態では、この録音編集方式に機械式の音声合成方式(以下、単に「規則合成音声処理」という。)を加えた複合型の音声合成方式(以下、単に「ハイブリッド式音声合成方式」という。)を適用した音声合成装置を採用する。ハイブリッド式音声合成方式は、音片データと素片データとをそれぞれ異なる記憶装置又は領域に記憶し、発声を所望するテキストデータを両者のデータを組み合わせて音声合成を行うものである。
図1は、本発明を適用した音声合成装置1の機能的構成を示したブロック図である。
音声合成装置1は、制御部2、言語処理部3、音片編集部4、音響処理部5、キャラクタ切替処理部6、音片データ検索部7、素片データ検索部8、音片データベース9、素片データベース10及び音声出力部11から構成される。
制御部2は、CPU(Central Processing Unit)15、ROM(Read Only Memory)16及びRAM(Random Access Memory)17から構成される。CPU15は、RAM17に記憶されたオペレーションプログラムに従い、同じくROM16に記憶された各種のアプリケーションプログラムをワークエリアとしてのRAM17に展開し、音声合成装置1の全体制御を行う。なお、言語処理部3、音片編集部4、音響処理部5及びキャラクタ切替処理部6は、DSP(Digital Signal Processor)等の独立したプロセッサで制御する構成としてもよい。
ROM16には、音声としての発声を所望する内容を記述したテキストデータとこのテキストデータが予め記憶されている。CPU15は、ROM16からこのテキストデータを読み出し言語処理部3に送信する。
また、言語処理部3でテキストデータに含まれる表意文字列からその読みを表す表音文字に変換する際に検索が行われる単語辞書(不図示)が予め記憶されている。CPU15は、ROM16からこのテキストデータを読み出し言語処理部3に送信する。
なお、テキストデータは図示しない外部機器(カーナビゲーション装置や外部メモリ等)から入力する構成としてもキーボード等の入力装置を備えてユーザの操作により入力する構成としてもよい。
また、テキストデータには、その内容を発声する「キャラクタ音声」や「声の大きさ」等を定める制御文字列が含まれている。この制御文字列により、後述する音片データ及び素片データを発声するキャラクタの指定を行う。
ここで、「キャラクタ」とは音声の有する性格を意味するものであり、特徴的又は個性的な口調、役柄、声色又はこれらの組合せにより特有の性格を有するものである。例えば、口調に癖があり関西弁で発声する場合等である。また、キャラクタは人に限らず動物等やこれらを擬人化したものでもでもよい。例えば、犬の鳴き声等であっても良いし犬を擬人化して人間の言葉を発するものとしてもよいし既存のアニメ−ションキャラクタ等であってもよい。
言語処理部3は、入力された表意文字列の形態素解析を行い、単語単位あるいは単語に助詞や助動詞を付随させた文節単位に分割を行う。この分割した単語や文節に対し、ROM16に記憶された単語辞書(不図示)を参照しながら単語等の読み等を表す表音文字列へと変換を行う。単語辞書には漢字等の表意文字を含む単語等と、この単語等の読みを表す表音文字が記憶されている。
表音文字とは表意文字を音片編集部4で処理可能なデータ形式に変換したものであり、合成を所望する音声に関する各種の制御文字(記号)列や音声文字列等から構成される。図2に表音文字列のデータ構造の一例を模式的に示す。表音文字列は、制御文字列、音声文字列及び区切記号から構成される。
制御文字列は、声の種類、その大きさ、発声速度、音量、高域強調及び抑揚等の発声音声に関する各種の設定値を定めるデータである。例えば、図3の例では制御文字列として「3S5V7T02」としている。それぞれ「声の大きさ」は「(5段階中の)3」、発声速度「S」は「(5段階中の)5」、音量「V」が「10段階中の7」、「高音強調」は「0(=なし)」、抑揚「I」が「(3段階中の)2」を意味する。
音声文字列は、複数の音片が連続して発声されて得られる音声を表す連続音声データである。例えば、表意文字列が『明りょうな音声を合成します。』であるとした場合、上述した形態素解析や辞書変換により、図3に示すように、『メーリョーナ オ’ ンセイオ ゴーセーシマ’ ス%』のごとく変換される。「メーリョーナ」等の各音節記号(表意文字における文節)は、カタカナ、ローマ字、無声化記号としての「%」及び鼻濁音化記号としての「&」から構成される。また、アクセント記号として「’」(シングルクォート)は直前の音節にアクセントを付けることを示し、「*」(アスタリスク)は直前の音節に弱いアクセントを付けることを示し、「”」(ダブルクォート)は直前の音節に更に弱いアクセントを付けることを示す。
区切り記号は、句や文の終端や文中での発声の区切り等を意味するものである。例えば、疑問文であれば「?」、平叙文であれば「。」、文中であれば「、」等である。
このようにして変換された表音文字列は音片編集部4に供給される。
音片編集部4は、表音文字列に対応する音片データ及び/又は素片データをそれぞれ音片データベース9及び/又は素片データベース10から読み込み、表音文字列の順序で発声する合成音声データを生成する(即ち、ハイブリッド式音声合成。)。なお、音片編集部4が処理する音声合成手順については後述する。
音片データベース9は、ハードディスクやEEPROM(Electrically Erasable Programmable Read Only Memory)等の書換え可能な不揮発性メモリから構成される。所定の単語、文節又は文が人の発声により予め録音された音声データである音片データを記録したものである。第1の実施形態では、音片データベース9の記憶領域A1と記憶領域B1に異なるキャラクタの音片データが予め記憶されている。音片データは、記憶領域A1とB1とを示す識別子が付されて記憶されている。具体的には音片データベース9はディレクトリ構造をしており、音片データはこのディレクトリを示す識別子を有して記憶されている。
なお、音片データベース9はキャラクタ毎に異なる記憶素子から構成されてもよいし、単一の記憶素子から構成されてもよい。
音片データ検索部7は、音片編集部4から供給された表音文字列に対応する音片データを音片データベース9から検索して音片編集部4に供給する。検索に際しては、キャラクタ切替処理部6から供給されるアクセス指示信号によりアクセスするデータベースが指定される。具体的には、記憶領域A1とB1にアクセスするように指定された場合、先ず記憶領域A1の識別子を有する音片データ群からの検索を指示し、音片編集部4から供給された表音文字列の単語又は音節群と対応する音片データを検索する。このとき対象とする音片データがない場合、音片データ検索部7は、記憶領域B1にアクセスし、表音文字列に対応する音片データの検索を行う。このようにして検索を行い取得した音片データを音片編集部4に供給する。また、記憶領域A1とB1との何れにも対応する音片データがない場合には、音片データが存在しなかった音片(表音文字列)を音片編集部4に通知する。
音響処理部5は、音片編集部4から音片データ検索部7で対応する音片データがない表音文字列の供給を受け、規則合成音声処理を行う。即ち、表音文字列を素片に分割して素片データベース10に記録された素片データと対応付けて単語、文節又は文単位で合成音声データを生成する。なお、素片とは音声の最小単位であり、表音文字列を構成する表音文字が表す音素を構成する音声の1サイクル分の音声データである。また、音響処理部5はキャラクタ切替処理部6から供給されるアクセス指示信号に基づいて素片データの合成を行う。即ち、合成対象とする表音文字列がキャラクタAの表音文字列である場合に音声合成を行う。
素片データベース10は、RROM(Programmable Read Only Memory)やハードディスク等の不揮発性メモリから構成される。素片データが特定の表音文字と予め対応付けがなされて格納されている。素片は予め人の発声により録音されたものであり、素片データベース10に格納された素片は音片データベース9の記憶領域A1の音片データの発声を行ったキャラクタと同一のキャラクタにより発声されたもの(即ち、キャラクタAの音片データと同一の発声。)である。したがって、各素片データは音片データと基本的には同じ波形データを有するため声色等は両者でほぼ同一なものとなり、合成音声としたときに違和感のない発声を行うことができる。
素片データ検索部8は、音響処理部5で文字単位に分割された各表音文字のデータ供給を受け対象とする素片データの検索を行う。検索結果としての素片データは音響処理部5に供給される。
音声出力部11は、各種の増幅回路、フィルタ回路及びスピーカから構成される。音片編集部4にて合成された合成音声を発声する。
次に、図3示すフロー図を用いて上記構成を有する音声合成装置1の動作について説明する。なお、以下の処理はプログラムの指示にしたがってCPU15により制御処理されるものである。
CPU15は、ROM16から発声を行う内容を記述したテキストデータを取得し(ステップS101)、言語処理部3に供給する。
言語処理部3にて、供給されたテキストデータの形態素解析を行い単語又は文節へと分割を行う。この中に含まれる表意文字列をROM16に記録された単語辞書を参照して表音文字列に変換し音片編集部4に供給する(ステップS102)。
音片編集部4にて、表音文字列を音片データ検索部7に供給するとともに音片データベース9への検索を指示する検索指示データを送信する。音片データ検索部7は、キャラクタ切替処理部6から送信されるアクセス指示信号に基づいて音片データベース9の記憶領域A1にアクセスし、表音文字列の読みに対応する音片データの検索を行う(ステップS103)。
ここで、対象とする音片データが存在するときは(ステップS104:YES)、音片編集部4に該当する音片データを供給する(ステップS110)。
ステップS104の検索において対象とする音片データがない場合には(ステップS104:NO)、音片データ検索部7は記憶領域B1にアクセスし、対象とする音片データの検索を行う(ステップS105)。
ステップS105の検索において対象とする音片データがある場合には(ステップS106:YES)、音片編集部4に該当する音片データを供給する(ステップS110)。
ステップS105の検索において対象とする音片データがない場合には(ステップS106:NO)、表音文字列をそのまま音片編集部4に供給する。
音片編集部4では、音片データ検索部7から供給されたデータ群のうち対象とする音片データがない表音文字列を音響処理部5に供給する(ステップS107)。
音響処理部5では、キャラクタ切替処理部6から供給されたアクセス指示信号に基づいて、表音文字列がキャラクタAの発声によるものかが判断される(ステップS108)。
表音文字列がキャラクタAの表音文字列である場合には(ステップS108:YES)、規則合成音声処理を行い、規則合成データを生成し(ステップS109)音片編集部4に供給する(ステップS109)。また、S108でキャラクタA以外の表音文字列として表音文字列のまま音片編集部4に供給された表音文字列の音声合成は行わずに規則音声合成処理を終了する。
音片編集部4では、音片データあるいは音片データと規則合成データとから音声合成を行い、生成した合成音声を音声出力部11に出力し発声を行う(ステップS111)。
以上、本発明を適用した音声合成装置1によれば、異なるキャラクタの音片データを記憶領域A1とB1に予め記憶させ、音片データの検索時に記憶領域A1からB1へと検索を行うことで発声する音声のキャラクタを適宜切り替えることができ、合成音声の発声にバリエーションを加えることができる。即ち、記憶領域A1とB1とにキャラクタAとBとの会話となる音片データを記憶させることで、両キャラクタによる会話調の音声メッセージを発声することができる。
更には、素片データベース10を備え、音響処理部5にて規則合成音声処理を行う構成とすることで、単位表音文字列当たりの音片データの量を軽減することができ、より多くの音片データを記憶することができる。このため、より多くのキャラクタの音片データを記憶することもできる。
〔第2の実施形態〕
次に、本発明の第2の実施形態について説明する。第2の実施形態では音声合成装置をカーナビゲーション装置に搭載した例を説明する。なお、以下の説明で第1の実施形態に適用した音声合成装置1と同一の機能を有するものは同一符号を付して説明するものとし詳細な説明を省略する。
先ず、カーナビゲーション装置20の概要についてついて説明する。図4のブロック図にその概要を示す。
カーナビゲーション装置20は、制御部21、ナビゲーション部22、音声合成部23、入力部24、表示部25及び音声出力部11から構成される。
制御部21は、CPU27、ROM(Read Only Memory)28及びRAM(Random Access Memory)17から構成される。ROM28に予め記憶されたオペレーションプログラム及び各種のアプリケーションプログラムをワークエリアとしてのRAM17上に展開し、カーナビゲーション装置20の全体制御を行う。また、後述するナビゲーション部22及び入力部24から出力される種々の信号に基づいて各種処理を行う。この各種処理に連動して音声発声を行う為のテキストデータをROM28から読み出し音声合成部23に送信する。
ナビゲーション部22は、NAVSTAR(NAVigation System using Timing And Ranging)等の人工衛星から送信されるGPS(Global Positioning System)信号をGPS信号受信部30で受信して、カーナビゲーション装置20の現在位置(カーナビゲーション装置20を搭載した車両等の現在位置。)を演算により検出する。検出された現在位置データとメモリ(不図示)に記憶される地図データとを対応させ、制御部21からの表示指示に基づいて表示部25に現在位置の表示を行う。
表示部25は、LCD(Liquid Crystal Display)や有機EL(Electro Luminescence)等のFPD(flat Panel Display)から構成され、カーナビゲーション装置20で処理される地図情報や案内情報等の各種情報を表示する。なお、表示部25としてCRT(Cathode Ray Tube)を適用することも当然に可能である。
入力部24は、ユーザの操作により各種の入力を行うものである。表示部25に設けられたタッチパネル31や操作キー32により構成される。なお、外部機器からのデータを入力するインターフェイスを設ける構成としてもよい。
音声出力部11は、有線又は無線で接続された各種の車両搭載スピーカ(不図示)と接続され、後述する音声合成装置1で生成された合成音声データを音声として出力する。表示部25に表示される各種の映像と連動して発声する場合もあり、各種の音声案内のみを独立して発声する場合もある。
次に、音声合成部23について説明する。図5に音声合成部23の構成を示す。音声合成部23に適用する音声合成機構の方式としては、第1の実施形態における音声合成装置1と同様にハイブリッド型音声合成方式を適用する。
音声合成部23は、言語処理部3、音片編集部4、音響処理部5、キャラクタ切替処理部6、音片データ検索部7、音片データベース33a、音片でータベース33b、素片データ検索部8及び素片データベース34から構成される。
キャラクタ切替処理部6は、制御部21から供給されるテキストデータに予め付されたキャラクタ種別コードを管理する。キャラクタ種別コードとは、各テキストの発声を行うキャラクタの種類を示すものであり、このキャラクタ種別コードと音片データに付された識別子が予め対応するようになっている。キャラクタ種別コードにより音片データ検索部7、音響処理部5及び素片データ検索部8に対して、表音文字列毎に音片データベース33a、33b及び素片データベース34へのアクセス領域を指示する。
音片データベース33aは、同一内容を意味する音片データが記憶されたものである。しかしながらキャラクタ(口調や言い回しを含む。)が異なる音片データがそれぞれ記憶された記憶領域A1、A2、Anを有する。同様に、音片データベース33bも同一内容を意味する音片データが記憶されたものであるが、キャラクタ(口調や言い回しを含む。)の異なる音片データがそれぞれ記憶された記憶領域B1、B2、・・・Bnを有する。各記憶領域A1、A2、・・・Anに記憶された音片データは、音片データベース33bの各記憶領域B1、B2、・・・Bnに記憶された音片データとそれぞれ対話関係となる音片データが記憶されている。例えば、記憶領域A1に「(漫才の)ツッコミ」のキャラクタの音片データを記憶し、記憶領域B1に「(漫才の)ボケ」のキャラクタの音片データを記憶し、両者の合成により発声する内容が「関西弁の漫才コンビ」の対話調になるように記憶されている。
素片データベース34は、音片データベース33aの各記憶領域SA1、SB1、SAnに記憶されたキャラクタと同一のキャラクタにより発声された素片が記憶されたものである。各記憶領域A1、B1、Anに対応してSA1、SA2、SAnの記憶領域を有する。
次に、上記構成を有するカーナビゲーション装置の動作について図6に示すフロー図を用いて説明する。なお、音声合成部23により合成されるテキストデータは、ナビゲーション部22からのトリガー信号に基づいて制御部21から供給されるナビゲーション案内とする。例えば、通常右折の場合は『20m先、信号を、右方向です。』等であるが、カーナビゲーション装置20では、図7に示すように関西弁漫才コンビの漫才風に構成された「関西弁漫才コンビナビゲーション案内」とする。このため記憶領域A1に「ボケ」のキャラクタの音片データが記憶される。図7において『20m先、信号を、右や。』及び『あたり前やろ!ナビなんやから。』に対応する音片データは記憶領域A1に予め記憶される。記憶領域B1は、逆に「ツッコミ」のキャラクタの音片データが記憶される。『次どっち?』及び『よう知ってんな〜。』に対応する音片データは記憶領域B1に記憶される。
カーナビゲーション装置20のナビゲーション部22が起動中に右折ポイントを検出すると、制御部21にトリガー信号を送信する(ステップS201)。トリガー信号を受信した制御部21のCPU27は、表示部25に表示する案内画像データを出力する処理を行う。また同時に、ROM28からトリガー信号に対応する「関西弁漫才コンビナビゲーション案内」のテキストデータを読み出し音声合成部23の言語処理部3に供給するとともにキャラクタ切替処理部6にテキストデータのキャラクタ種別データを供給する(ステップS202)。
言語処理部3では、供給されたテキストデータに含まれる表意文字列の形態素解析を行ったり、辞書データを参照しながら表音文字列に変換する(ステップS203)。また、変換された表音文字列を音片編集部4に供給する。なお、このとき音片編集部4には、キャラクタ切替処理部6から表音文字列毎のキャラクタ種別コードが供給されている(例えば、「ボケ」=「11」、「ツッコミ」=「00」)。
音片編集部4では、キャラクタ切替処理部6から供給されたキャラクタ種別コード(例えば、「00」)に基づいて、音片データベース33bの記憶領域B1にアクセスし表音文字列の音声文字列『ツギドッチ?』に対応する音片データの検索を行う(ステップS204)。
ここで、対象とする音片データが存在するときは(ステップS205:YES)、音片編集部4に該当する音片データを供給する(ステップS209)。
更に、検索するデータが以上であるかの判断がなされる(ステップS210)。本例では「関西弁漫才コンビ風ナビゲーション案内を示すテキストデータの全ての検索が終わっていないのでステップS204の処理に戻る(ステップS210:NO)。
次いで、キャラクタ種別コード(例えば、「01」)に基づいて、音片データベース33aの記憶領域A1にアクセスし表音文字列の音声文字列『ニジュウメートルサキ、シンゴウヲ、ミギヤ。』に対応する音片データの検索を行う(ステップS204)。
ここで、対象とする音片データが存在するときは(ステップS205:YES)、音片編集部4に該当する音片データを供給する(ステップS209)。
続いて、次の音片データの検索に戻り(ステップS210:NO)、キャラクタ種別コード(例えば、「00」)に基づいて、音片データベース33bの記憶領域B1にアクセスし表音文字列の音声文字列『ヨ’ウ、シッテンナ*ア?』に対応する音片データの検索を行う(ステップS204)。ここで、対象とする音片データが存在するときは(ステップS205:YES)、音片編集部4に該当する音片データを供給する(ステップS209)。
続いて、次の音片データの検索に戻り、キャラクタ種別コード(例えば、「01」)に基づいて、音片データベース33aの記憶領域A1にアクセスし表音文字列の音声文字列『アタリマ’エ’ヤ*ロ*、ナ”ビナンヤ*カラ。』に対応する音片データの検索を行う(ステップS204)。ここで、対象とする音片データが存在するときは(ステップS205:YES)、音片編集部4に該当する音片データを供給する(ステップS209)。
ここで、対象とする音片データが存在するときは(ステップS205:YES)、音片編集部4に該当する音片データを供給する(ステップS209)。
ところで、ステップS204にて表音文字列に対象とする音片データが存在しない場合には(ステップS205:NO)、この表音文字列を音片編集部4を介して音響処理部5に供給する(ステップS206)。
音響処理部5では、供給された表音文字列のキャラクタ種別コードが、キャラクタA群のものであるかを判断する(ステップS207)。ステップS207にて、表音文字列がキャラクタA群の表音文字列である場合には(ステップS207:YES)、規則合成音声処理を行い生成した規則合成音声データを音片編集部4に供給する(ステップS208)。ステップS207にて、表音文字列がキャラクタA群の表音文字列でない場合には(ステップS207:NO)音片編集部4に規則合成音声を生成しない旨の信号を供給し、規則音声合成処理を終了する。
音片編集部4では音片データからあるいは音片データと規則合成音声データ処理とから音声合成を行い、合成音声データを音声出力部11に出力する(ステップS211)。
以上、本発明を適用したカーナビゲーション装置20によれば、予め音片データベース33aと33bとに異なるキャラクタ同士の会話を示す音片データを記憶することで、発声する音声のキャラクタを適宜切り替えて会話調のナビゲーション案内を行うことができる。車両等の運転中にナビゲーション画面を注視することは危険であり、視覚による情報の獲得には限界がある。また、音声案内も画一的な単一キャラクタの音声のみでは聞き逃すという問題もある。このような問題に対し、カーナビゲーション装置20は合成音声の発声にバリエーションを与え、合成音声の作用のみで運転中の案内や警告に一層注意を促すこともできる。
また、カーナビゲーションシステムの技術分野ではナビゲーション案内だけでなく、電子メール機能や映像音声出力機能等が負荷されて多機能化される傾向にある。これら機能が音声合成用に出力するテキストデータは多種多様になるが、カーナビゲーション装置20は複数キャラクタの音声合成を可能とし又ハイブリッド型音声合成方式を採用するため、これら各種の機能から出力される様々な口調や言い回しのテキストデータに容易に対応することができる。
なお、カーナビゲーション装置20を、記憶領域A1(ボケ)とB1(ツッコミ)とをコンビキャラクタとして対応付けるものとしたが、異なるキャラクタ同士をコンビとしてもよい。即ち、記憶領域A2及びB2にそれぞれ擬人化した犬と猫とのキャラクタの音片データを記憶し、キャラクタ切替処理部6にてキャラクタ種別コードを組替えて記憶領域A1(ボケ)と記憶領域B2(擬人化した猫)とをコンビキャラクタとして音声合成を行うようにする。このような組合せのパターンにより更にユニークなナビゲーション案内ができ、音声情報の注目度を向上させることができる。
なお、上述の実施の形態では、キャラクタ毎に表意文字列を生成し、音片編集部4に入力される表音文字列は、各キャラクタに対応した表音文字列であった。しかし、本発明の主旨はこれに限定されない。例えば、表意文字列を生成する際には、一般的な表現で生成し、音片データの表音文字列も一般的な表現で生成するようにしてもよい。具体的には、異なるキャラクタB1,B2,・・・Bnに対応して、複数の音片データをB1,B2,・・・Bnに記録するが、このとき、各音片データの表音文字列は統一する。すなわち、キャラクタB1の音声データは、「よう知ってまんな〜」であり、キャラクタB2の音声データは「よく知ってんな〜」であるが、いずれも表音文字列は「よく知ってますね」で統一する。このようにしておけば、カーナビゲーション装置20は、いずれのキャラクタで発話する場合でも、同じ表意文字列を出力すればよく、キャラクタ種別コードのみを制御すればよい。これによれば、カーナビゲーション装置20の必要メモリや処理負荷を大幅に低減することができる。
また、上記第1及び第2の実施形態では、キャラクタAに対してのみ素片データベースを設け、データベースで要するデータ容量を低減させていたが、キャラクタBに対しても素片データベースを設けてもよいことは勿論である。
〔第3の実施形態〕
次に、本発明を適用したカーナビゲーション装置38について説明する。一般にナビゲーション装置では、音声として案内するナビゲーション情報の内容が決まっている場合が多い。例えば、カーナビゲーション装置の分野では右折、左折、高速道路の出入口案内及びカーナビゲーション装置の操作案内等の定型文からなる案内である。第3の実施形態におけるカーナビゲーション装置38は、このように音声案内の内容が比較的定まっている場合の複数キャラクタによる音声案内に特に有効である。
図8にカーナビゲーション装置38の音声合成部39の構成を示す。なお、ナビゲーション部22、表示部25、入力部24及び音声出力部11については第2の実施形態におけるカーナビゲーション装置20と同様であることから図示を省略している。なお、同一機能を有するものは同一符号を用いて詳細な説明を省略する。
音声合成部39は、音片編集部42、音片データ検索部7、音片データベース40a及び音片データベース40bから構成される。音片データベース40aには、第2の実施形態と同様に同一内容を示す音片データをキャラクタ毎の音片データとして記憶する記憶領域A1、A2、Anを有する。また、音片データベース40bには、第2の実施形態と同様に同一内容を示す音片データをキャラクタ毎の音片データとして記憶する記憶領域B1、B2、Bnを有する。記憶領域A1、A2、Anに記憶される音片データのキャラクタと、記憶領域B1,B2、Bnに記憶される音片データのキャラクタとは、それぞれ所定の対応関係のあるキャラクタとする。例として、記憶領域A1とB1のキャラクタの対応関係を「関西弁漫才コンビ」とし、記憶領域A1に「ボケ」、記憶領域B1に「ツッコミ」のキャラクタの音片データを記憶する。同様に記憶領域A2に「(擬人化した)犬」、記憶領域B2に「(擬人化した)猫」、記憶領域Anに「博士」、記憶領域Bnに「助手」のキャラクタの音片データを記憶する。
なお、コンビキャラクタのキャラクタの組合せはユーザによって自由に設定する構成としてもよい。
制御部41のROM46には、キャラクタ毎の音片データと対応する識別子が予め記憶されている。識別子は音片データの重複を避け且つ記憶容量を大容量化するためにユニークなものが好ましい。第3の実施形態では識別子としてID(Identification)番号を適用し、記憶領域A1等のキャラクタ毎の単位で各音片データに付している。なお、識別子として各音片データのファイル番号を適用してもよい。
更に、ROM46には、各ID番号毎に予めキャラクタの組合せ(コンビキャラクタ)が対応付けられたテーブルが設けられている。図9にテーブルとコンビキャラクタの関係を模式的に示す。制御部41はナビゲーション部22等から送信されるトリガー信号を受信すると、このテーブルを参照して合成させる音声の順に各識別子のデータを音声合成部39に供給する。
以上の構成を有するカーナビゲーション装置38の動作について、図10に示すフロー図を用いて説明する。ナビゲーション部22等がトリガー信号を制御部41に送信すると、CPU45はテーブルを参照してトリガー信号に対応する音片データのID番号を取得し(ステップS301)、音片編集部42に供給される。
音片編集部42は、ID番号により特定される記憶領域に音片データ検索部を介してアクセスし、対応する音片データの検索を行う(ステップS302)。
音片編集部42では制御部41から供給されたID番号列の順番に従って音片データから合成音声データを生成する(ステップS303)。生成された合成音声データは音声出力部11に出力されて(ステップS304)複数キャラクタの対話調の音声を発声する(ステップS305)。
以上、第3の実施形態におけるカーナビゲーション装置38によれば、発声する音声のキャラクタを切り替えることで会話調のナビゲーション案内を行うことができ、音声情報に対する注意度を向上させることができる。特に、発声させる音声の種類が定まっている場合には装置の構成を簡素化するという効果もある。
以上、本発明を実施するための最良の形態について説明したが、本発明は上記種々の例に限定されるものではない。特に、第2及び第3の実施形態は、カーナビゲーション装置に適用した例を示したが、本発明はナビゲーションシステムとして船舶や航空機等のナビゲーション装置にも適用できるものである。
本発明を適用した音声合成装置の第1実施形態の機能的構成を示したブロック図である。 本発明を適用した音声合成装置及びナビゲーション装置の第1、第2及び第3実施形態における音片データのデータ構造を示した模式図である。 本発明を適用した音声合成装置の第1実施形態の動作を示したフロー図である。 本発明を適用したカーナビゲーション装置の第2実施形態の機能的構成を示したブロック図である。 図4で示した音声合成部の機能的構成を示したブロック図である。 本発明を適用したカーナビゲーション装置の動作を示したフロー図である。 図5で示した音声合成部で音声合成される内容の一例を示した図である。 本発明を適用したカーナビゲーション装置の機能的構成を示したブロック図である。 本発明の第3実施形態における音片データベースの対応付けを示した模式図である。 本発明を適用したカーナビゲーション装置の動作を示したフロー図である。
符号の説明
1 音声合成装置
2、21 制御部
3 言語処理部
4、42 音片編集部
5 音響処理部
6 キャラクタ切替処理部
7 音片データ検索部
8 素片データ検索部
9、43 音片データベース
10 素片データベース
11 音声出力部
15、27、45 CPU
16、28、46 ROM
17 RAM
20 カーナビゲーション装置
22 ナビゲーション部
23、39 音声合成部
24 入力部
25 表示部
26 音声出力部
30 GPS信号受信部
31 タッチパネル
32 操作キー
33a、33b、40a、40b 音片データベース
34 素片データベース
A1、A2、An、B1、B2、Bn、SA1、SA2、SAn 記憶領域

Claims (8)

  1. 入力される文章データに含まれる表意文字列を表音文字列に変換する言語処理手段と、
    複数のキャラクタの発声を表す音片データを、当該キャラクタ毎に分類された識別子を付して記憶する音片データ記憶手段と、
    前記表音文字列に対応する音片データを前記音片データ記憶手段から検出する音片データ検出手段と、
    前記音片データ検出手段が前記音片データ記憶手段から音片データを検出する際、前記音片データに付された識別子を指定する検索指定手段と、
    前記音片データ検出手段が前記検索指定手段による識別子の指定に基づいて検出した音片データから音声を合成する音声編集手段を備えることを特徴とする音声合成装置。
  2. 複数のキャラクタ毎の固定メッセージを表す音片データに、それぞれ異なる識別子を付して記憶する音片データ記憶手段と、
    入力される文章データと前記識別子との対応が予め定められたテーブルを備え、該テーブルに基づき前記文章データに対応する識別子を検索して音片データを検出する音片データ検出手段と、
    前記音片データ検出手段により検出された音片データから音声を合成する音声編集手段を備えることを特徴とする音声合成装置。
  3. 請求項1又は2に記載の音声合成装置において、
    前記複数のキャラクタにおける1つのキャラクタに対応する素片データを記憶する素片データ記憶手段と、
    前記音片データ検出手段が対応する音片データを前記音片データ記憶手段から検出する際、対応する音片データがない場合に、前記素片データに基づいて前記音片データのない文章データの規則合成音声データを生成する音響処理手段とを更に備え、
    前記音片編集手段は、前記音片データ記憶手段から検出した音片データと音響処理手段により生成された規則合成音声データとから音声を合成することを特徴とする音声合成装置。
  4. 請求項1〜3のいずれか一項に記載の音声合成装置を備えることを特徴とするナビゲーション装置。
  5. コンピュータに、
    入力される文章データに含まれる表意文字列を表音文字列に変換する言語処理機能と、
    複数のキャラクタの発声を表す音片データを、当該キャラクタ毎に分類された識別子を付して記憶する音片データ記憶機能と、
    前記表音文字列に対応する音片データを前記音片データ記憶機能により記憶された音片データから検出する音片データ検出機能と、
    前記音片データ検出機能が前記音片データ記憶機能により記憶された音片データを検出する際、前記音片データに付された識別子を指定する検索指定機能と、
    前記音片データ検出機能が前記検索指定機能による識別子の指定に基づいて検出した音片データから音声を合成する音声編集機能を実現することを特徴とするプログラム。
  6. コンピュータに、
    キャラクタ毎の固定メッセージを表す音片データに、それぞれ異なる識別子を付して記憶する音片データ記憶機能と、
    入力された文章データと前記識別子との対応が予め定められたテーブルを備え、該テーブルに基づき前記文章データに対応する識別子を検索して音片データを検出する音片データ検出機能と、
    前記音片データ検出機能により検出された音片データから音声を合成する音声編集機能を実現するプログラム。
  7. 請求項5又は6に記載のプログラムにおいて、
    前記複数のキャラクタにおける1つのキャラクタに対応する素片データを記憶する素片データ記憶機能と、
    前記音片データ検出機構が対応する音片データを前記音片データ記憶機能により記憶された音片データから検出する際、音片データがない場合に、前記素片データに基づいて前記音片データのない表音文字列の規則合成音声データを生成する音響処理機能とを更に実現させ、
    前記音片編集機能に、前記音片データ記憶手段から検出した音片データと音響処理手段により生成された規則合成音声データとから音声を合成させることを特徴とするプログラム。
  8. 請求項5〜7のいずれか一項に記載のプログラムを記憶するコンピュータ読み取り可能な情報記録媒体。
JP2005155854A 2005-05-27 2005-05-27 音声合成装置、この音声合成装置を備えるナビゲーション装置、音声合成プログラム及びこのプログラムを記憶した情報記憶媒体 Pending JP2006330486A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005155854A JP2006330486A (ja) 2005-05-27 2005-05-27 音声合成装置、この音声合成装置を備えるナビゲーション装置、音声合成プログラム及びこのプログラムを記憶した情報記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005155854A JP2006330486A (ja) 2005-05-27 2005-05-27 音声合成装置、この音声合成装置を備えるナビゲーション装置、音声合成プログラム及びこのプログラムを記憶した情報記憶媒体

Publications (1)

Publication Number Publication Date
JP2006330486A true JP2006330486A (ja) 2006-12-07

Family

ID=37552216

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005155854A Pending JP2006330486A (ja) 2005-05-27 2005-05-27 音声合成装置、この音声合成装置を備えるナビゲーション装置、音声合成プログラム及びこのプログラムを記憶した情報記憶媒体

Country Status (1)

Country Link
JP (1) JP2006330486A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009025658A (ja) * 2007-07-20 2009-02-05 Oki Electric Ind Co Ltd 音声合成装置、音声合成システム
JP2017208003A (ja) * 2016-05-20 2017-11-24 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61259295A (ja) * 1985-05-14 1986-11-17 三菱重工業株式会社 文章の音声変換方式
JPH0876796A (ja) * 1994-09-06 1996-03-22 Fujitsu Ten Ltd 音声合成装置
JP2002099376A (ja) * 2000-09-21 2002-04-05 Sega Corp 文字通信装置
JP2002169581A (ja) * 2000-11-29 2002-06-14 Matsushita Electric Ind Co Ltd 音声合成方法およびその装置
JP2002328694A (ja) * 2001-03-02 2002-11-15 Matsushita Electric Ind Co Ltd 携帯端末装置及び読み上げシステム
JP2002330365A (ja) * 2001-04-27 2002-11-15 Toshiba Corp 対人会話型ナビゲーション装置
JP2003108362A (ja) * 2001-07-23 2003-04-11 Matsushita Electric Works Ltd コミュニケーション支援装置およびコミュニケーション支援システム
JP2003122554A (ja) * 2001-10-18 2003-04-25 Casio Comput Co Ltd 電子書籍データ配信装置、電子書籍装置およびプログラム
JP2004045616A (ja) * 2002-07-10 2004-02-12 Equos Research Co Ltd 車載装置、データ作成装置、及びデータ作成プログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61259295A (ja) * 1985-05-14 1986-11-17 三菱重工業株式会社 文章の音声変換方式
JPH0876796A (ja) * 1994-09-06 1996-03-22 Fujitsu Ten Ltd 音声合成装置
JP2002099376A (ja) * 2000-09-21 2002-04-05 Sega Corp 文字通信装置
JP2002169581A (ja) * 2000-11-29 2002-06-14 Matsushita Electric Ind Co Ltd 音声合成方法およびその装置
JP2002328694A (ja) * 2001-03-02 2002-11-15 Matsushita Electric Ind Co Ltd 携帯端末装置及び読み上げシステム
JP2002330365A (ja) * 2001-04-27 2002-11-15 Toshiba Corp 対人会話型ナビゲーション装置
JP2003108362A (ja) * 2001-07-23 2003-04-11 Matsushita Electric Works Ltd コミュニケーション支援装置およびコミュニケーション支援システム
JP2003122554A (ja) * 2001-10-18 2003-04-25 Casio Comput Co Ltd 電子書籍データ配信装置、電子書籍装置およびプログラム
JP2004045616A (ja) * 2002-07-10 2004-02-12 Equos Research Co Ltd 車載装置、データ作成装置、及びデータ作成プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009025658A (ja) * 2007-07-20 2009-02-05 Oki Electric Ind Co Ltd 音声合成装置、音声合成システム
JP2017208003A (ja) * 2016-05-20 2017-11-24 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム

Similar Documents

Publication Publication Date Title
EP2595143B1 (en) Text to speech synthesis for texts with foreign language inclusions
US7991616B2 (en) Speech synthesizer
CN106710585B (zh) 语音交互过程中的多音字播报方法及系统
JP2007086316A (ja) 音声合成装置、音声合成方法、音声合成プログラムおよび音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体
JP2009139677A (ja) 音声処理装置及びそのプログラム
JP4784156B2 (ja) 複数のキャラクタによる音声案内を行う音声合成装置、音声合成方法、そのプログラム及びこのプログラムが記録された情報記録媒体
JPH11231885A (ja) 音声合成装置
JPH05165486A (ja) テキスト音声変換装置
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
KR20170057623A (ko) 언어장애인을 위한 다언어 어휘의 발음 합성 및 문자화 장치
CN105788588A (zh) 导航语音播报方法和装置
JP2007086309A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP4964695B2 (ja) 音声合成装置及び音声合成方法並びにプログラム
JP2006330486A (ja) 音声合成装置、この音声合成装置を備えるナビゲーション装置、音声合成プログラム及びこのプログラムを記憶した情報記憶媒体
JP2013061591A (ja) 音声合成装置、音声合成方法およびプログラム
JP3513988B2 (ja) ナビゲーションシステム
JP2006330484A (ja) 音声案内装置及び音声案内プログラム
JPH08335096A (ja) テキスト音声合成装置
JP2011180416A (ja) 音声合成装置、音声合成方法およびカーナビゲーションシステム
JP2006337403A (ja) 音声案内装置及び音声案内プログラム
JP2010175717A (ja) 音声合成装置
JP2001083983A (ja) 音声認識装置、音声認識のためのデータを記録した記録媒体、および、音声認識ナビゲーション装置
JP4751230B2 (ja) 韻律素片辞書作成方法、並びに音声合成装置及びプログラム
JP4550207B2 (ja) 音声認識装置および音声認識ナビゲーション装置
JPH0962286A (ja) 音声合成装置および音声合成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070929

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100615

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100813

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101019

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110301