JP2006330486A

JP2006330486A - 音声合成装置、この音声合成装置を備えるナビゲーション装置、音声合成プログラム及びこのプログラムを記憶した情報記憶媒体

Info

Publication number: JP2006330486A
Application number: JP2005155854A
Authority: JP
Inventors: Kunihiro Suga; 邦博須賀; Minoru Shinkawa; 実新川; Atsushi Tsurumi; 篤鶴見; Sayuri Yuzukizaki; さゆり柚木崎
Original assignee: Kenwood KK
Current assignee: Kenwood KK
Priority date: 2005-05-27
Filing date: 2005-05-27
Publication date: 2006-12-07

Abstract

【課題】複数種類のキャラクタによる音声データから各種の案内音声を合成し発声することで音声自体を目立たせて音声案内に対する注意を促す。
【解決手段】
複数キャラクタの対話調となっているテキストデータを入力し、各キャラクタに対応する音片データを記憶する記憶領域をそれぞれキャラクタ毎に備えて記憶する音片データ記憶手段と、テキストデータの各キャラクタに対応する音片データを検出する際、この音片データが記録された記憶領域を指示する記憶領域指定手段と、この記憶領域指定手段の指定に基づいて対応する音片データを検出して音声の合成を行う音片編集手段を備える。
【選択図】図１

Description

本発明は、音声データを複数のキャラクタ（人物、動物等の音声が有する性格等を意味するものである。）の音声データに切り替えて生成する音声合成装置、この装置を備えるナビゲーション装置、音声合成プログラム及びこのプログラムを記憶した情報記憶媒体に関する。

従来から、車等のナビゲーション装置、パーソナルコンピュータ、電子ゲーム機器、電話等を利用した自動案内システム、各種施設での案内放送システム等で合成音声を発声する技術が知られている。例えば、緊急通報時における出動指令等のメッセージを発声するための音声合成装置であって、予め人の発声により録音されたデータを記憶する音片データ格納部を備えて、入力されたテキストデータを変換処理部にて音声生成部が読み取り可能なデータ形式に変換しデータ格納部に蓄積された音片データを組み合わせて所期のメッセージ音声を合成する録音合成方式の音声合成装置が知られている（例えば、特許文献１）。
特開２００２−１５６９８７号公報

しかしながら、音片データを格納するハードディスクの容量の問題から記憶する音片データの種類も制約され、実用レベルでは、アナウンサー調の画一化された声色で限られた情報を事務的に与えるだけのものであった。

特に、カーナビゲーション装置等の音声案内では、ユーザは車両の運行操作に専念する必要がある。このため各種の案内を表示するモニタを注視することはできず音声による案内が主となる。このようなときでも、音声による案内が単調なものであると無意識のうちに案内を聞き逃してしまうという問題がある。

本発明は、複数種類のキャラクタを用いて特徴的な音声ガイダンス等を生成し得る音声合成装置を提供することである。

上記課題を解決するために、請求項１に記載の発明は、
入力される文章データに含まれる表意文字列を表音文字列に変換する言語処理手段と、
複数のキャラクタの発声を表す音片データを、当該キャラクタ毎に分類された識別子を付して記憶する音片データ記憶手段と、
前記表音文字列に対応する音片データを前記音片データ記憶手段から検出する音片データ検出手段と、
前記音片データ検出手段が前記音片データ記憶手段から音片データを検出する際、前記音片データに付された識別子を指定する検索指定手段と、
前記音片データ検出手段が前記検索指定手段による識別子の指定に基づいて検出した音片データから音声を合成する音声編集手段を備えることを特徴とする音声合成装置である。

請求項２に記載の発明は、
複数のキャラクタ毎の固定メッセージを表す音片データに、それぞれ異なる識別子を付して記憶する音片データ記憶手段と、
入力される文章データと前記識別子との対応が予め定められたテーブルを備え、該テーブルに基づき前記文章データに対応する識別子を検索して音片データを検出する音片データ検出手段と、
前記音片データ検出手段により検出された音片データから音声を合成する音声編集手段を備えることを特徴とする音声合成装置である。

請求項３に記載の発明は、
請求項１又は２に記載の音声合成装置において、
前記複数のキャラクタにおける１つのキャラクタに対応する素片データを記憶する素片データ記憶手段と、
前記音片データ検出手段が対応する音片データを前記音片データ記憶手段から検出する際、対応する音片データがない場合に、前記素片データに基づいて前記音片データのない文章データの規則合成音声データを生成する音響処理手段とを更に備え、
前記音片編集手段は、前記音片データ記憶手段から検出した音片データと音響処理手段により生成された規則合成音声データとから音声を合成することを特徴とする。

請求項４に記載の発明は、
請求項１〜３のいずれか一項に記載の音声合成装置を備えることを特徴とするナビゲーション装置である。

請求項５に記載の発明は、コンピュータに、
入力される文章データに含まれる表意文字列を表音文字列に変換する言語処理機能と、
複数のキャラクタの発声を表す音片データを、当該キャラクタ毎に分類された識別子を付して記憶する音片データ記憶機能と、
前記表音文字列に対応する音片データを前記音片データ記憶機能により記憶された音片データから検出する音片データ検出機能と、
前記音片データ検出機能が前記音片データ記憶機能により記憶された音片データを検出する際、前記音片データに付された識別子を指定する検索指定機能と、
前記音片データ検出機能が前記検索指定機能による識別子の指定に基づいて検出した音片データから音声を合成する音声編集機能を実現することを特徴とするプログラム。

請求項６に記載の発明は、コンピュータに、
キャラクタ毎の固定メッセージを表す音片データに、それぞれ異なる識別子を付して記憶する音片データ記憶機能と、
入力された文章データと前記識別子との対応が予め定められたテーブルを備え、該テーブルに基づき前記文章データに対応する識別子を検索して音片データを検出する音片データ検出機能と、
前記音片データ検出機能により検出された音片データから音声を合成する音声編集機能を実現するプログラムである。

請求項７に記載の発明は、請求項５又は６に記載のプログラムにおいて、
前記複数のキャラクタにおける１つのキャラクタに対応する素片データを記憶する素片データ記憶機能と、
前記音片データ検出機構が対応する音片データを前記音片データ記憶機能により記憶された音片データから検出する際、音片データがない場合に、前記素片データに基づいて前記音片データのない表音文字列の規則合成音声データを生成する音響処理機能とを更に実現させ、
前記音片編集機能に、前記音片データ記憶手段から検出した音片データと音響処理手段により生成された規則合成音声データとから音声を合成させることを特徴とする。

請求項８に記載の発明は、請求項５〜７のいずれか１項に記載のプログラムを記憶するコンピュータ読み取り可能な情報記録媒体である。

〔第１の実施形態〕
次に、図を用いて本発明を実施するための最良の形態について説明する。
音声合成の技術分野では、予め人の発声により単語又は文節を録音した音片データから音片データベースを構築し、この音片データと発声を所望する内容を示したテキストデータとを対応させて音声合成を行う録音編集方式が利用されている。録音編集方式は実際の人の発声に近い音声を再生することができるため、機械式の合成音声に比して聞きやすいというメリットがある。
第１の実施形態では、この録音編集方式に機械式の音声合成方式（以下、単に「規則合成音声処理」という。）を加えた複合型の音声合成方式（以下、単に「ハイブリッド式音声合成方式」という。）を適用した音声合成装置を採用する。ハイブリッド式音声合成方式は、音片データと素片データとをそれぞれ異なる記憶装置又は領域に記憶し、発声を所望するテキストデータを両者のデータを組み合わせて音声合成を行うものである。

図１は、本発明を適用した音声合成装置１の機能的構成を示したブロック図である。
音声合成装置１は、制御部２、言語処理部３、音片編集部４、音響処理部５、キャラクタ切替処理部６、音片データ検索部７、素片データ検索部８、音片データベース９、素片データベース１０及び音声出力部１１から構成される。

制御部２は、ＣＰＵ（Central Processing Unit）１５、ＲＯＭ（Read Only Memory）１６及びＲＡＭ（Random Access Memory）１７から構成される。ＣＰＵ１５は、ＲＡＭ１７に記憶されたオペレーションプログラムに従い、同じくＲＯＭ１６に記憶された各種のアプリケーションプログラムをワークエリアとしてのＲＡＭ１７に展開し、音声合成装置１の全体制御を行う。なお、言語処理部３、音片編集部４、音響処理部５及びキャラクタ切替処理部６は、ＤＳＰ（Digital Signal Processor）等の独立したプロセッサで制御する構成としてもよい。

ＲＯＭ１６には、音声としての発声を所望する内容を記述したテキストデータとこのテキストデータが予め記憶されている。ＣＰＵ１５は、ＲＯＭ１６からこのテキストデータを読み出し言語処理部３に送信する。
また、言語処理部３でテキストデータに含まれる表意文字列からその読みを表す表音文字に変換する際に検索が行われる単語辞書（不図示）が予め記憶されている。ＣＰＵ１５は、ＲＯＭ１６からこのテキストデータを読み出し言語処理部３に送信する。
なお、テキストデータは図示しない外部機器（カーナビゲーション装置や外部メモリ等）から入力する構成としてもキーボード等の入力装置を備えてユーザの操作により入力する構成としてもよい。
また、テキストデータには、その内容を発声する「キャラクタ音声」や「声の大きさ」等を定める制御文字列が含まれている。この制御文字列により、後述する音片データ及び素片データを発声するキャラクタの指定を行う。

ここで、「キャラクタ」とは音声の有する性格を意味するものであり、特徴的又は個性的な口調、役柄、声色又はこれらの組合せにより特有の性格を有するものである。例えば、口調に癖があり関西弁で発声する場合等である。また、キャラクタは人に限らず動物等やこれらを擬人化したものでもでもよい。例えば、犬の鳴き声等であっても良いし犬を擬人化して人間の言葉を発するものとしてもよいし既存のアニメ−ションキャラクタ等であってもよい。

言語処理部３は、入力された表意文字列の形態素解析を行い、単語単位あるいは単語に助詞や助動詞を付随させた文節単位に分割を行う。この分割した単語や文節に対し、ＲＯＭ１６に記憶された単語辞書（不図示）を参照しながら単語等の読み等を表す表音文字列へと変換を行う。単語辞書には漢字等の表意文字を含む単語等と、この単語等の読みを表す表音文字が記憶されている。

表音文字とは表意文字を音片編集部４で処理可能なデータ形式に変換したものであり、合成を所望する音声に関する各種の制御文字（記号）列や音声文字列等から構成される。図２に表音文字列のデータ構造の一例を模式的に示す。表音文字列は、制御文字列、音声文字列及び区切記号から構成される。

制御文字列は、声の種類、その大きさ、発声速度、音量、高域強調及び抑揚等の発声音声に関する各種の設定値を定めるデータである。例えば、図３の例では制御文字列として「３Ｓ５Ｖ７Ｔ０２」としている。それぞれ「声の大きさ」は「（５段階中の）３」、発声速度「Ｓ」は「（５段階中の）５」、音量「Ｖ」が「１０段階中の７」、「高音強調」は「０（＝なし）」、抑揚「Ｉ」が「（３段階中の）２」を意味する。

音声文字列は、複数の音片が連続して発声されて得られる音声を表す連続音声データである。例えば、表意文字列が『明りょうな音声を合成します。』であるとした場合、上述した形態素解析や辞書変換により、図３に示すように、『メーリョーナオ’ ンセイオゴーセーシマ’ ス％』のごとく変換される。「メーリョーナ」等の各音節記号（表意文字における文節）は、カタカナ、ローマ字、無声化記号としての「％」及び鼻濁音化記号としての「＆」から構成される。また、アクセント記号として「’」（シングルクォート）は直前の音節にアクセントを付けることを示し、「*」（アスタリスク）は直前の音節に弱いアクセントを付けることを示し、「”」（ダブルクォート）は直前の音節に更に弱いアクセントを付けることを示す。
区切り記号は、句や文の終端や文中での発声の区切り等を意味するものである。例えば、疑問文であれば「？」、平叙文であれば「。」、文中であれば「、」等である。
このようにして変換された表音文字列は音片編集部４に供給される。

音片編集部４は、表音文字列に対応する音片データ及び／又は素片データをそれぞれ音片データベース９及び／又は素片データベース１０から読み込み、表音文字列の順序で発声する合成音声データを生成する（即ち、ハイブリッド式音声合成。）。なお、音片編集部４が処理する音声合成手順については後述する。

音片データベース９は、ハードディスクやＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）等の書換え可能な不揮発性メモリから構成される。所定の単語、文節又は文が人の発声により予め録音された音声データである音片データを記録したものである。第１の実施形態では、音片データベース９の記憶領域Ａ１と記憶領域Ｂ１に異なるキャラクタの音片データが予め記憶されている。音片データは、記憶領域Ａ１とＢ１とを示す識別子が付されて記憶されている。具体的には音片データベース９はディレクトリ構造をしており、音片データはこのディレクトリを示す識別子を有して記憶されている。
なお、音片データベース９はキャラクタ毎に異なる記憶素子から構成されてもよいし、単一の記憶素子から構成されてもよい。

音片データ検索部７は、音片編集部４から供給された表音文字列に対応する音片データを音片データベース９から検索して音片編集部４に供給する。検索に際しては、キャラクタ切替処理部６から供給されるアクセス指示信号によりアクセスするデータベースが指定される。具体的には、記憶領域Ａ１とＢ１にアクセスするように指定された場合、先ず記憶領域Ａ１の識別子を有する音片データ群からの検索を指示し、音片編集部４から供給された表音文字列の単語又は音節群と対応する音片データを検索する。このとき対象とする音片データがない場合、音片データ検索部７は、記憶領域Ｂ１にアクセスし、表音文字列に対応する音片データの検索を行う。このようにして検索を行い取得した音片データを音片編集部４に供給する。また、記憶領域Ａ１とＢ１との何れにも対応する音片データがない場合には、音片データが存在しなかった音片（表音文字列）を音片編集部４に通知する。

音響処理部５は、音片編集部４から音片データ検索部７で対応する音片データがない表音文字列の供給を受け、規則合成音声処理を行う。即ち、表音文字列を素片に分割して素片データベース１０に記録された素片データと対応付けて単語、文節又は文単位で合成音声データを生成する。なお、素片とは音声の最小単位であり、表音文字列を構成する表音文字が表す音素を構成する音声の１サイクル分の音声データである。また、音響処理部５はキャラクタ切替処理部６から供給されるアクセス指示信号に基づいて素片データの合成を行う。即ち、合成対象とする表音文字列がキャラクタＡの表音文字列である場合に音声合成を行う。

素片データベース１０は、ＲＲＯＭ（Programmable Read Only Memory）やハードディスク等の不揮発性メモリから構成される。素片データが特定の表音文字と予め対応付けがなされて格納されている。素片は予め人の発声により録音されたものであり、素片データベース１０に格納された素片は音片データベース９の記憶領域Ａ１の音片データの発声を行ったキャラクタと同一のキャラクタにより発声されたもの（即ち、キャラクタＡの音片データと同一の発声。）である。したがって、各素片データは音片データと基本的には同じ波形データを有するため声色等は両者でほぼ同一なものとなり、合成音声としたときに違和感のない発声を行うことができる。

素片データ検索部８は、音響処理部５で文字単位に分割された各表音文字のデータ供給を受け対象とする素片データの検索を行う。検索結果としての素片データは音響処理部５に供給される。

音声出力部１１は、各種の増幅回路、フィルタ回路及びスピーカから構成される。音片編集部４にて合成された合成音声を発声する。

次に、図３示すフロー図を用いて上記構成を有する音声合成装置１の動作について説明する。なお、以下の処理はプログラムの指示にしたがってＣＰＵ１５により制御処理されるものである。

ＣＰＵ１５は、ＲＯＭ１６から発声を行う内容を記述したテキストデータを取得し（ステップＳ１０１）、言語処理部３に供給する。

言語処理部３にて、供給されたテキストデータの形態素解析を行い単語又は文節へと分割を行う。この中に含まれる表意文字列をＲＯＭ１６に記録された単語辞書を参照して表音文字列に変換し音片編集部４に供給する（ステップＳ１０２）。

音片編集部４にて、表音文字列を音片データ検索部７に供給するとともに音片データベース９への検索を指示する検索指示データを送信する。音片データ検索部７は、キャラクタ切替処理部６から送信されるアクセス指示信号に基づいて音片データベース９の記憶領域Ａ１にアクセスし、表音文字列の読みに対応する音片データの検索を行う（ステップＳ１０３）。

ここで、対象とする音片データが存在するときは（ステップＳ１０４：ＹＥＳ）、音片編集部４に該当する音片データを供給する（ステップＳ１１０）。

ステップＳ１０４の検索において対象とする音片データがない場合には（ステップＳ１０４：ＮＯ）、音片データ検索部７は記憶領域Ｂ１にアクセスし、対象とする音片データの検索を行う（ステップＳ１０５）。

ステップＳ１０５の検索において対象とする音片データがある場合には（ステップＳ１０６：ＹＥＳ）、音片編集部４に該当する音片データを供給する（ステップＳ１１０）。

ステップＳ１０５の検索において対象とする音片データがない場合には（ステップＳ１０６：ＮＯ）、表音文字列をそのまま音片編集部４に供給する。

音片編集部４では、音片データ検索部７から供給されたデータ群のうち対象とする音片データがない表音文字列を音響処理部５に供給する（ステップＳ１０７）。

音響処理部５では、キャラクタ切替処理部６から供給されたアクセス指示信号に基づいて、表音文字列がキャラクタＡの発声によるものかが判断される（ステップＳ１０８）。

表音文字列がキャラクタＡの表音文字列である場合には（ステップＳ１０８：ＹＥＳ）、規則合成音声処理を行い、規則合成データを生成し（ステップＳ１０９）音片編集部４に供給する（ステップＳ１０９）。また、Ｓ１０８でキャラクタＡ以外の表音文字列として表音文字列のまま音片編集部４に供給された表音文字列の音声合成は行わずに規則音声合成処理を終了する。

音片編集部４では、音片データあるいは音片データと規則合成データとから音声合成を行い、生成した合成音声を音声出力部１１に出力し発声を行う（ステップＳ１１１）。

以上、本発明を適用した音声合成装置１によれば、異なるキャラクタの音片データを記憶領域Ａ１とＢ１に予め記憶させ、音片データの検索時に記憶領域Ａ１からＢ１へと検索を行うことで発声する音声のキャラクタを適宜切り替えることができ、合成音声の発声にバリエーションを加えることができる。即ち、記憶領域Ａ１とＢ１とにキャラクタＡとＢとの会話となる音片データを記憶させることで、両キャラクタによる会話調の音声メッセージを発声することができる。

更には、素片データベース１０を備え、音響処理部５にて規則合成音声処理を行う構成とすることで、単位表音文字列当たりの音片データの量を軽減することができ、より多くの音片データを記憶することができる。このため、より多くのキャラクタの音片データを記憶することもできる。

〔第２の実施形態〕
次に、本発明の第２の実施形態について説明する。第２の実施形態では音声合成装置をカーナビゲーション装置に搭載した例を説明する。なお、以下の説明で第１の実施形態に適用した音声合成装置１と同一の機能を有するものは同一符号を付して説明するものとし詳細な説明を省略する。
先ず、カーナビゲーション装置２０の概要についてついて説明する。図４のブロック図にその概要を示す。

カーナビゲーション装置２０は、制御部２１、ナビゲーション部２２、音声合成部２３、入力部２４、表示部２５及び音声出力部１１から構成される。

制御部２１は、ＣＰＵ２７、ＲＯＭ（Read Only Memory）２８及びＲＡＭ（Random Access Memory）１７から構成される。ＲＯＭ２８に予め記憶されたオペレーションプログラム及び各種のアプリケーションプログラムをワークエリアとしてのＲＡＭ１７上に展開し、カーナビゲーション装置２０の全体制御を行う。また、後述するナビゲーション部２２及び入力部２４から出力される種々の信号に基づいて各種処理を行う。この各種処理に連動して音声発声を行う為のテキストデータをＲＯＭ２８から読み出し音声合成部２３に送信する。

ナビゲーション部２２は、ＮＡＶＳＴＡＲ（NAVigation System using Timing And Ranging）等の人工衛星から送信されるＧＰＳ（Global Positioning System）信号をＧＰＳ信号受信部３０で受信して、カーナビゲーション装置２０の現在位置（カーナビゲーション装置２０を搭載した車両等の現在位置。）を演算により検出する。検出された現在位置データとメモリ（不図示）に記憶される地図データとを対応させ、制御部２１からの表示指示に基づいて表示部２５に現在位置の表示を行う。

表示部２５は、ＬＣＤ（Liquid Crystal Display）や有機ＥＬ（Electro Luminescence）等のＦＰＤ（flat Panel Display）から構成され、カーナビゲーション装置２０で処理される地図情報や案内情報等の各種情報を表示する。なお、表示部２５としてＣＲＴ（Cathode Ray Tube）を適用することも当然に可能である。

入力部２４は、ユーザの操作により各種の入力を行うものである。表示部２５に設けられたタッチパネル３１や操作キー３２により構成される。なお、外部機器からのデータを入力するインターフェイスを設ける構成としてもよい。

音声出力部１１は、有線又は無線で接続された各種の車両搭載スピーカ（不図示）と接続され、後述する音声合成装置１で生成された合成音声データを音声として出力する。表示部２５に表示される各種の映像と連動して発声する場合もあり、各種の音声案内のみを独立して発声する場合もある。

次に、音声合成部２３について説明する。図５に音声合成部２３の構成を示す。音声合成部２３に適用する音声合成機構の方式としては、第１の実施形態における音声合成装置１と同様にハイブリッド型音声合成方式を適用する。

音声合成部２３は、言語処理部３、音片編集部４、音響処理部５、キャラクタ切替処理部６、音片データ検索部７、音片データベース３３ａ、音片でータベース３３ｂ、素片データ検索部８及び素片データベース３４から構成される。

キャラクタ切替処理部６は、制御部２１から供給されるテキストデータに予め付されたキャラクタ種別コードを管理する。キャラクタ種別コードとは、各テキストの発声を行うキャラクタの種類を示すものであり、このキャラクタ種別コードと音片データに付された識別子が予め対応するようになっている。キャラクタ種別コードにより音片データ検索部７、音響処理部５及び素片データ検索部８に対して、表音文字列毎に音片データベース３３ａ、３３ｂ及び素片データベース３４へのアクセス領域を指示する。

音片データベース３３ａは、同一内容を意味する音片データが記憶されたものである。しかしながらキャラクタ（口調や言い回しを含む。）が異なる音片データがそれぞれ記憶された記憶領域Ａ１、Ａ２、Ａｎを有する。同様に、音片データベース３３ｂも同一内容を意味する音片データが記憶されたものであるが、キャラクタ（口調や言い回しを含む。）の異なる音片データがそれぞれ記憶された記憶領域Ｂ１、Ｂ２、・・・Ｂｎを有する。各記憶領域Ａ１、Ａ２、・・・Ａｎに記憶された音片データは、音片データベース３３ｂの各記憶領域Ｂ１、Ｂ２、・・・Ｂｎに記憶された音片データとそれぞれ対話関係となる音片データが記憶されている。例えば、記憶領域Ａ１に「（漫才の）ツッコミ」のキャラクタの音片データを記憶し、記憶領域Ｂ１に「（漫才の）ボケ」のキャラクタの音片データを記憶し、両者の合成により発声する内容が「関西弁の漫才コンビ」の対話調になるように記憶されている。

素片データベース３４は、音片データベース３３ａの各記憶領域ＳＡ１、ＳＢ１、ＳＡｎに記憶されたキャラクタと同一のキャラクタにより発声された素片が記憶されたものである。各記憶領域Ａ１、Ｂ１、Ａｎに対応してＳＡ１、ＳＡ２、ＳＡｎの記憶領域を有する。

次に、上記構成を有するカーナビゲーション装置の動作について図６に示すフロー図を用いて説明する。なお、音声合成部２３により合成されるテキストデータは、ナビゲーション部２２からのトリガー信号に基づいて制御部２１から供給されるナビゲーション案内とする。例えば、通常右折の場合は『２０ｍ先、信号を、右方向です。』等であるが、カーナビゲーション装置２０では、図７に示すように関西弁漫才コンビの漫才風に構成された「関西弁漫才コンビナビゲーション案内」とする。このため記憶領域Ａ１に「ボケ」のキャラクタの音片データが記憶される。図７において『２０ｍ先、信号を、右や。』及び『あたり前やろ！ナビなんやから。』に対応する音片データは記憶領域Ａ１に予め記憶される。記憶領域Ｂ１は、逆に「ツッコミ」のキャラクタの音片データが記憶される。『次どっち？』及び『よう知ってんな〜。』に対応する音片データは記憶領域Ｂ１に記憶される。

カーナビゲーション装置２０のナビゲーション部２２が起動中に右折ポイントを検出すると、制御部２１にトリガー信号を送信する（ステップＳ２０１）。トリガー信号を受信した制御部２１のＣＰＵ２７は、表示部２５に表示する案内画像データを出力する処理を行う。また同時に、ＲＯＭ２８からトリガー信号に対応する「関西弁漫才コンビナビゲーション案内」のテキストデータを読み出し音声合成部２３の言語処理部３に供給するとともにキャラクタ切替処理部６にテキストデータのキャラクタ種別データを供給する（ステップＳ２０２）。

言語処理部３では、供給されたテキストデータに含まれる表意文字列の形態素解析を行ったり、辞書データを参照しながら表音文字列に変換する（ステップＳ２０３）。また、変換された表音文字列を音片編集部４に供給する。なお、このとき音片編集部４には、キャラクタ切替処理部６から表音文字列毎のキャラクタ種別コードが供給されている（例えば、「ボケ」＝「１１」、「ツッコミ」＝「００」）。

音片編集部４では、キャラクタ切替処理部６から供給されたキャラクタ種別コード（例えば、「００」）に基づいて、音片データベース３３ｂの記憶領域Ｂ１にアクセスし表音文字列の音声文字列『ツギドッチ？』に対応する音片データの検索を行う（ステップＳ２０４）。

ここで、対象とする音片データが存在するときは（ステップＳ２０５：ＹＥＳ）、音片編集部４に該当する音片データを供給する（ステップＳ２０９）。

更に、検索するデータが以上であるかの判断がなされる（ステップＳ２１０）。本例では「関西弁漫才コンビ風ナビゲーション案内を示すテキストデータの全ての検索が終わっていないのでステップＳ２０４の処理に戻る（ステップＳ２１０：ＮＯ）。

次いで、キャラクタ種別コード（例えば、「０１」）に基づいて、音片データベース３３ａの記憶領域Ａ１にアクセスし表音文字列の音声文字列『ニジュウメートルサキ、シンゴウヲ、ミギヤ。』に対応する音片データの検索を行う（ステップＳ２０４）。
ここで、対象とする音片データが存在するときは（ステップＳ２０５：ＹＥＳ）、音片編集部４に該当する音片データを供給する（ステップＳ２０９）。

続いて、次の音片データの検索に戻り（ステップＳ２１０：ＮＯ）、キャラクタ種別コード（例えば、「００」）に基づいて、音片データベース３３ｂの記憶領域Ｂ１にアクセスし表音文字列の音声文字列『ヨ’ウ、シッテンナ*ア？』に対応する音片データの検索を行う（ステップＳ２０４）。ここで、対象とする音片データが存在するときは（ステップＳ２０５：ＹＥＳ）、音片編集部４に該当する音片データを供給する（ステップＳ２０９）。

続いて、次の音片データの検索に戻り、キャラクタ種別コード（例えば、「０１」）に基づいて、音片データベース３３ａの記憶領域Ａ１にアクセスし表音文字列の音声文字列『アタリマ’エ’ヤ*ロ*、ナ”ビナンヤ*カラ。』に対応する音片データの検索を行う（ステップＳ２０４）。ここで、対象とする音片データが存在するときは（ステップＳ２０５：ＹＥＳ）、音片編集部４に該当する音片データを供給する（ステップＳ２０９）。
ここで、対象とする音片データが存在するときは（ステップＳ２０５：ＹＥＳ）、音片編集部４に該当する音片データを供給する（ステップＳ２０９）。

ところで、ステップＳ２０４にて表音文字列に対象とする音片データが存在しない場合には（ステップＳ２０５：ＮＯ）、この表音文字列を音片編集部４を介して音響処理部５に供給する（ステップＳ２０６）。

音響処理部５では、供給された表音文字列のキャラクタ種別コードが、キャラクタＡ群のものであるかを判断する（ステップＳ２０７）。ステップＳ２０７にて、表音文字列がキャラクタＡ群の表音文字列である場合には（ステップＳ２０７：ＹＥＳ）、規則合成音声処理を行い生成した規則合成音声データを音片編集部４に供給する（ステップＳ２０８）。ステップＳ２０７にて、表音文字列がキャラクタＡ群の表音文字列でない場合には（ステップＳ２０７：ＮＯ）音片編集部４に規則合成音声を生成しない旨の信号を供給し、規則音声合成処理を終了する。

音片編集部４では音片データからあるいは音片データと規則合成音声データ処理とから音声合成を行い、合成音声データを音声出力部１１に出力する（ステップＳ２１１）。

以上、本発明を適用したカーナビゲーション装置２０によれば、予め音片データベース３３ａと３３ｂとに異なるキャラクタ同士の会話を示す音片データを記憶することで、発声する音声のキャラクタを適宜切り替えて会話調のナビゲーション案内を行うことができる。車両等の運転中にナビゲーション画面を注視することは危険であり、視覚による情報の獲得には限界がある。また、音声案内も画一的な単一キャラクタの音声のみでは聞き逃すという問題もある。このような問題に対し、カーナビゲーション装置２０は合成音声の発声にバリエーションを与え、合成音声の作用のみで運転中の案内や警告に一層注意を促すこともできる。

また、カーナビゲーションシステムの技術分野ではナビゲーション案内だけでなく、電子メール機能や映像音声出力機能等が負荷されて多機能化される傾向にある。これら機能が音声合成用に出力するテキストデータは多種多様になるが、カーナビゲーション装置２０は複数キャラクタの音声合成を可能とし又ハイブリッド型音声合成方式を採用するため、これら各種の機能から出力される様々な口調や言い回しのテキストデータに容易に対応することができる。

なお、カーナビゲーション装置２０を、記憶領域Ａ１（ボケ）とＢ１（ツッコミ）とをコンビキャラクタとして対応付けるものとしたが、異なるキャラクタ同士をコンビとしてもよい。即ち、記憶領域Ａ２及びＢ２にそれぞれ擬人化した犬と猫とのキャラクタの音片データを記憶し、キャラクタ切替処理部６にてキャラクタ種別コードを組替えて記憶領域Ａ１（ボケ）と記憶領域Ｂ２（擬人化した猫）とをコンビキャラクタとして音声合成を行うようにする。このような組合せのパターンにより更にユニークなナビゲーション案内ができ、音声情報の注目度を向上させることができる。

なお、上述の実施の形態では、キャラクタ毎に表意文字列を生成し、音片編集部４に入力される表音文字列は、各キャラクタに対応した表音文字列であった。しかし、本発明の主旨はこれに限定されない。例えば、表意文字列を生成する際には、一般的な表現で生成し、音片データの表音文字列も一般的な表現で生成するようにしてもよい。具体的には、異なるキャラクタＢ１，Ｂ２，・・・Ｂｎに対応して、複数の音片データをＢ１，Ｂ２，・・・Ｂｎに記録するが、このとき、各音片データの表音文字列は統一する。すなわち、キャラクタＢ１の音声データは、「よう知ってまんな〜」であり、キャラクタＢ２の音声データは「よく知ってんな〜」であるが、いずれも表音文字列は「よく知ってますね」で統一する。このようにしておけば、カーナビゲーション装置２０は、いずれのキャラクタで発話する場合でも、同じ表意文字列を出力すればよく、キャラクタ種別コードのみを制御すればよい。これによれば、カーナビゲーション装置２０の必要メモリや処理負荷を大幅に低減することができる。
また、上記第１及び第２の実施形態では、キャラクタＡに対してのみ素片データベースを設け、データベースで要するデータ容量を低減させていたが、キャラクタＢに対しても素片データベースを設けてもよいことは勿論である。

〔第３の実施形態〕
次に、本発明を適用したカーナビゲーション装置３８について説明する。一般にナビゲーション装置では、音声として案内するナビゲーション情報の内容が決まっている場合が多い。例えば、カーナビゲーション装置の分野では右折、左折、高速道路の出入口案内及びカーナビゲーション装置の操作案内等の定型文からなる案内である。第３の実施形態におけるカーナビゲーション装置３８は、このように音声案内の内容が比較的定まっている場合の複数キャラクタによる音声案内に特に有効である。

図８にカーナビゲーション装置３８の音声合成部３９の構成を示す。なお、ナビゲーション部２２、表示部２５、入力部２４及び音声出力部１１については第２の実施形態におけるカーナビゲーション装置２０と同様であることから図示を省略している。なお、同一機能を有するものは同一符号を用いて詳細な説明を省略する。

音声合成部３９は、音片編集部４２、音片データ検索部７、音片データベース４０ａ及び音片データベース４０ｂから構成される。音片データベース４０ａには、第２の実施形態と同様に同一内容を示す音片データをキャラクタ毎の音片データとして記憶する記憶領域Ａ１、Ａ２、Ａｎを有する。また、音片データベース４０ｂには、第２の実施形態と同様に同一内容を示す音片データをキャラクタ毎の音片データとして記憶する記憶領域Ｂ１、Ｂ２、Ｂｎを有する。記憶領域Ａ１、Ａ２、Ａｎに記憶される音片データのキャラクタと、記憶領域Ｂ１，Ｂ２、Ｂｎに記憶される音片データのキャラクタとは、それぞれ所定の対応関係のあるキャラクタとする。例として、記憶領域Ａ１とＢ１のキャラクタの対応関係を「関西弁漫才コンビ」とし、記憶領域Ａ１に「ボケ」、記憶領域Ｂ１に「ツッコミ」のキャラクタの音片データを記憶する。同様に記憶領域Ａ２に「（擬人化した）犬」、記憶領域Ｂ２に「（擬人化した）猫」、記憶領域Ａｎに「博士」、記憶領域Ｂｎに「助手」のキャラクタの音片データを記憶する。
なお、コンビキャラクタのキャラクタの組合せはユーザによって自由に設定する構成としてもよい。

制御部４１のＲＯＭ４６には、キャラクタ毎の音片データと対応する識別子が予め記憶されている。識別子は音片データの重複を避け且つ記憶容量を大容量化するためにユニークなものが好ましい。第３の実施形態では識別子としてＩＤ（Identification）番号を適用し、記憶領域Ａ１等のキャラクタ毎の単位で各音片データに付している。なお、識別子として各音片データのファイル番号を適用してもよい。

更に、ＲＯＭ４６には、各ＩＤ番号毎に予めキャラクタの組合せ（コンビキャラクタ）が対応付けられたテーブルが設けられている。図９にテーブルとコンビキャラクタの関係を模式的に示す。制御部４１はナビゲーション部２２等から送信されるトリガー信号を受信すると、このテーブルを参照して合成させる音声の順に各識別子のデータを音声合成部３９に供給する。

以上の構成を有するカーナビゲーション装置３８の動作について、図１０に示すフロー図を用いて説明する。ナビゲーション部２２等がトリガー信号を制御部４１に送信すると、ＣＰＵ４５はテーブルを参照してトリガー信号に対応する音片データのＩＤ番号を取得し（ステップＳ３０１）、音片編集部４２に供給される。

音片編集部４２は、ＩＤ番号により特定される記憶領域に音片データ検索部を介してアクセスし、対応する音片データの検索を行う（ステップＳ３０２）。

音片編集部４２では制御部４１から供給されたＩＤ番号列の順番に従って音片データから合成音声データを生成する（ステップＳ３０３）。生成された合成音声データは音声出力部１１に出力されて（ステップＳ３０４）複数キャラクタの対話調の音声を発声する（ステップＳ３０５）。

以上、第３の実施形態におけるカーナビゲーション装置３８によれば、発声する音声のキャラクタを切り替えることで会話調のナビゲーション案内を行うことができ、音声情報に対する注意度を向上させることができる。特に、発声させる音声の種類が定まっている場合には装置の構成を簡素化するという効果もある。

以上、本発明を実施するための最良の形態について説明したが、本発明は上記種々の例に限定されるものではない。特に、第２及び第３の実施形態は、カーナビゲーション装置に適用した例を示したが、本発明はナビゲーションシステムとして船舶や航空機等のナビゲーション装置にも適用できるものである。

本発明を適用した音声合成装置の第１実施形態の機能的構成を示したブロック図である。本発明を適用した音声合成装置及びナビゲーション装置の第１、第２及び第３実施形態における音片データのデータ構造を示した模式図である。本発明を適用した音声合成装置の第１実施形態の動作を示したフロー図である。本発明を適用したカーナビゲーション装置の第２実施形態の機能的構成を示したブロック図である。図４で示した音声合成部の機能的構成を示したブロック図である。本発明を適用したカーナビゲーション装置の動作を示したフロー図である。図５で示した音声合成部で音声合成される内容の一例を示した図である。本発明を適用したカーナビゲーション装置の機能的構成を示したブロック図である。本発明の第３実施形態における音片データベースの対応付けを示した模式図である。本発明を適用したカーナビゲーション装置の動作を示したフロー図である。

符号の説明

１音声合成装置
２、２１制御部
３言語処理部
４、４２音片編集部
５音響処理部
６キャラクタ切替処理部
７音片データ検索部
８素片データ検索部
９、４３音片データベース
１０素片データベース
１１音声出力部
１５、２７、４５ＣＰＵ
１６、２８、４６ＲＯＭ
１７ＲＡＭ
２０カーナビゲーション装置
２２ナビゲーション部
２３、３９音声合成部
２４入力部
２５表示部
２６音声出力部
３０ＧＰＳ信号受信部
３１タッチパネル
３２操作キー
３３ａ、３３ｂ、４０ａ、４０ｂ音片データベース
３４素片データベース
Ａ１、Ａ２、Ａｎ、Ｂ１、Ｂ２、Ｂｎ、ＳＡ１、ＳＡ２、ＳＡｎ記憶領域

Claims

入力される文章データに含まれる表意文字列を表音文字列に変換する言語処理手段と、
複数のキャラクタの発声を表す音片データを、当該キャラクタ毎に分類された識別子を付して記憶する音片データ記憶手段と、
前記表音文字列に対応する音片データを前記音片データ記憶手段から検出する音片データ検出手段と、
前記音片データ検出手段が前記音片データ記憶手段から音片データを検出する際、前記音片データに付された識別子を指定する検索指定手段と、
前記音片データ検出手段が前記検索指定手段による識別子の指定に基づいて検出した音片データから音声を合成する音声編集手段を備えることを特徴とする音声合成装置。
複数のキャラクタ毎の固定メッセージを表す音片データに、それぞれ異なる識別子を付して記憶する音片データ記憶手段と、
入力される文章データと前記識別子との対応が予め定められたテーブルを備え、該テーブルに基づき前記文章データに対応する識別子を検索して音片データを検出する音片データ検出手段と、
前記音片データ検出手段により検出された音片データから音声を合成する音声編集手段を備えることを特徴とする音声合成装置。
請求項１又は２に記載の音声合成装置において、
前記複数のキャラクタにおける１つのキャラクタに対応する素片データを記憶する素片データ記憶手段と、
前記音片データ検出手段が対応する音片データを前記音片データ記憶手段から検出する際、対応する音片データがない場合に、前記素片データに基づいて前記音片データのない文章データの規則合成音声データを生成する音響処理手段とを更に備え、
前記音片編集手段は、前記音片データ記憶手段から検出した音片データと音響処理手段により生成された規則合成音声データとから音声を合成することを特徴とする音声合成装置。
請求項１〜３のいずれか一項に記載の音声合成装置を備えることを特徴とするナビゲーション装置。
コンピュータに、
入力される文章データに含まれる表意文字列を表音文字列に変換する言語処理機能と、
複数のキャラクタの発声を表す音片データを、当該キャラクタ毎に分類された識別子を付して記憶する音片データ記憶機能と、
前記表音文字列に対応する音片データを前記音片データ記憶機能により記憶された音片データから検出する音片データ検出機能と、
前記音片データ検出機能が前記音片データ記憶機能により記憶された音片データを検出する際、前記音片データに付された識別子を指定する検索指定機能と、
前記音片データ検出機能が前記検索指定機能による識別子の指定に基づいて検出した音片データから音声を合成する音声編集機能を実現することを特徴とするプログラム。
コンピュータに、
キャラクタ毎の固定メッセージを表す音片データに、それぞれ異なる識別子を付して記憶する音片データ記憶機能と、
入力された文章データと前記識別子との対応が予め定められたテーブルを備え、該テーブルに基づき前記文章データに対応する識別子を検索して音片データを検出する音片データ検出機能と、
前記音片データ検出機能により検出された音片データから音声を合成する音声編集機能を実現するプログラム。
請求項５又は６に記載のプログラムにおいて、
前記複数のキャラクタにおける１つのキャラクタに対応する素片データを記憶する素片データ記憶機能と、
前記音片データ検出機構が対応する音片データを前記音片データ記憶機能により記憶された音片データから検出する際、音片データがない場合に、前記素片データに基づいて前記音片データのない表音文字列の規則合成音声データを生成する音響処理機能とを更に実現させ、
前記音片編集機能に、前記音片データ記憶手段から検出した音片データと音響処理手段により生成された規則合成音声データとから音声を合成させることを特徴とするプログラム。
請求項５〜７のいずれか一項に記載のプログラムを記憶するコンピュータ読み取り可能な情報記録媒体。