JP2004354748A

JP2004354748A - 音声再生装置

Info

Publication number: JP2004354748A
Application number: JP2003152895A
Authority: JP
Inventors: Takahiro Kawashima; 隆宏川嶋
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2003-05-29
Filing date: 2003-05-29
Publication date: 2004-12-16
Anticipated expiration: 2023-05-29
Also published as: JP4244706B2

Abstract

【課題】文字列情報などからなる所望のフレーズを品質の良い音声として声色を変化させて再生することができる音声再生装置を提供する。
【解決手段】予め発音単位にフォルマントフレームデータを保持するデフォルト合成辞書１９と、デフォルト合成辞書１９に保持されている発音単位のフォルマントフレームデータを任意のユーザデータに置き換える置換手段をなすミドルウェアＡＰＩ１５、コンバータ１６及びドライバ１７と、発音単位が羅列された情報が与えられたときに、前記置換手段によって保持データが置き換えられたデフォルト合成辞書１９を用いて音声を合成する音声合成手段をなすミドルウェアＡＰＩ１５、コンバータ１６及び音源２０などを有することを特徴とする。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、音声再生装置に関し、特に音声合成により特定のフレーズ（例えば「こんにちは」など）について高品質に再生することができる音声再生装置に関する。
【０００２】
【従来の技術】
従来、電子メールなどの文字列情報を音声に変換して出力する文字列音声変換装置が考え出されている。従来の文字列音声変換装置としては、文字列情報を文節単位に区切り、音声出力すると同時にその内容を表示するものがある（例えば、特許文献１参照）。
【０００３】
【特許文献１】
特開２００１−７９３７号公報
【０００４】
【発明が解決しようとする課題】
しかしながら、従来の文字列音声変換装置では、文字列情報を文節単位に区切って音声出力するものの、その音声出力は発音単位（又は文字単位）の音声の集合であるので、発音単位のつなぎ目の再生（音声出力）に違和感がある。すなわち、従来の文字列音声変換装置では、文節全体について品質の良い音声で声色を変化させて出力すること、すなわち自然な音声（例えば「こんにちは」）として出力することができないという問題点がある。
【０００５】
また、この問題点を解決するために、例えば文節（又はフレーズ）についての音声を予めサンプリングして音声データとして保持しておき、再生時には音声波形として出力する手法が考えられる。しかし、この手法では、音声出力の品質を上げるためにはサンプリング周波数を上げなければならず、大容量の音声データを保持する必要があり、携帯電話などにおいて大きなデメリットがある。
【０００６】
本発明は、上記問題を解決するためになされたもので、文字列情報などからなる所望のフレーズ（例えば「こんにちは」など）を品質の良い音声として声色を変化させて再生（出力）することができる音声再生装置を提供するものである。
【０００７】
【課題を解決するための手段】
上記課題を解決するため、この発明は以下の構成を有する。
即ち、請求項１に記載された発明は、予め発音単位に対応するフォルマントフレームデータを保持するデータベースである合成辞書を有して、発音単位が羅列された情報が与えられることにより前記合成辞書を用いて音声合成する音声再生装置において、前記合成辞書に保持されている発音単位のフォルマントフレームデータを任意のユーザデータに置き換える置換手段と、前記発音単位が羅列された情報が与えられたときに、前記置換手段によって保持データが置き換えられた前記合成辞書を用いて音声を合成する音声合成手段とを有することを特徴とする。
【０００８】
また、請求項２に記載された発明は、請求項１に記載された音声再生装置において、前記ユーザデータがフレーズ単位で取得されたフォルマントフレームデータであることを特徴とする。
【０００９】
また、請求項３に記載された発明は、請求項１又は２に記載された音声再生装置において、前記ユーザデータが前記合成辞書に保持されるフォルマントフレームデータを加工する音色パラメータに付加されていることを特徴とする。
【００１０】
また、請求項４に記載された発明は、請求項１乃至３のいずれか一項に記載された音声再生装置において、前記置換手段が、前記ユーザデータが付加されている音色パラメータが与えられ、かつ、再生時に該音色パラメータが指定されたときに、前記合成辞書の保持データであるフォルマントフレームデータを、前記ユーザデータに置き換え、前記音声合成手段は、音声単位の羅列情報が与えられたときに、前記音色パラメータにより置き換えられた合成辞書を用いて音声合成することを特徴とする。
【００１１】
また、請求項５に記載された発明は、請求項１乃至４のいずれか一項に記載された音声再生装置が、楽曲及び音声を同期させて所望データを再生するための情報構造を定義したデータ交換フォーマットに、前記ユーザデータを含ませ、該データ交換フォーマットを用いて音声を合成するものであることを特徴とする。
【００１２】
また、請求項６に記載された発明は、請求項５に記載された音声再生装置が、前記データ交換フォーマットとして構成された情報に含まれる楽曲部情報についてはそのまま再生し、該情報に含まれる音声情報については前記置換手段及び前記音声合成手段を用いて再生するものであることを特徴とする。
【００１３】
また、請求項７に記載された発明は、請求項５又は６に記載された音声再生装置において、前記データ交換フォーマットが音声パラメータに前記ユーザデータを付加した情報を構成要素とすることを特徴とする。
【００１４】
【発明の実施の形態】
以下、図面を参照し、本発明の実施形態について説明する。
図１は、本発明の実施形態に係る音声再生装置の構成を示すブロック図である。まず、本実施形態に係る音声再生装置の基盤構成について説明する。
【００１５】
本音声再生装置１は、アプリケーション１４、ミドルウェアＡＰＩ１５、コンバータ１６、ドライバ１７、デフォルト音色パラメータ１８、デフォルト合成辞書１９及び音源２０を備え、スクリプト１１、ユーザ音色パラメータ１２、ユーザフレーズ合成辞書（可変長）１３が入力されることにより音声を再生する構成となっている。
【００１６】
音声再生装置１は、ＦＭ音源のリソースを用いたＣＳＭ（複合正弦波モデル）音声合成方式によるフォルマント合成により音声を再生する手法を基本としている。そして、本実施形態では、ユーザフレーズ合成辞書１３を定義し、音声再生装置１が音色パラメータに音素単位でユーザフレーズを割り付ける。そして、音声再生装置１は再生時において音色パラメータにユーザフレーズ合成辞書１３のデータが割り付けられているときは、デフォルト合成辞書１９の音素をユーザフレーズに置き換え、その置き換えたデータにより音声合成を行う。なお、上記「音素（Ｐｈｏｎｅｍｅ）」とは、発音の最小単位であり、日本語でいえば母音と子音の２種類がある。次に、音声再生装置１の詳細について説明する。
【００１７】
スクリプト１１は、「ＨＶ（ＨｕｍａｎＶｏｉｃｅ：前記手法により合成される音声）」を再生するためのデータフォーマットを定義しているものである。すなわち、スクリプト１１は、韻律記号を含んだ合成文字列、発音させる音の設定、再生アプリケーションなどのメッセージからなる音声合成を行うためのフォーマットであり、ユーザによる入力を容易にするために例えばテキスト入力となっている。このスクリプト１１におけるデータフォーマットの定義は、言語依存性があり、様々な言語による定義が可能であるが、本実施形態では日本語による定義のみを一例として取り上げる。
【００１８】
ユーザフレーズ合成辞書１３及びデフォルト合成辞書１９は、実際の声を発音文字単位で（例えば「あ」，「い」など）サンプリング及び分析することで８組のフォルマント周波数、フォルマントレベル及びピッチをパラメータとして割り出し、予めフォルマントフレームデータとしてそれらパラメータを発音文字単位で保持しているデータベースである。ユーザフレーズ合成辞書１３は、ミドルウェア外に構築されたデータベースであり、かかるデータベースをユーザが任意に作成することができ、保持内容についてはミドルウェアＡＰＩ１５を介してデフォルト合成辞書１９の保持内容と丸ごと入れ替えることができる。すなわち、デフォルト合成辞書１９の内容を丸ごとユーザフレーズ合成辞書１３の内容に置き換えることができる。一方、デフォルト合成辞書１９は、ミドルウェア内に構築されたデータベースである。
【００１９】
ユーザフレーズ合成辞書１３及びデフォルト合成辞書１９としては、それぞれ男声用と女声用との２種類を持つのが好ましい。また、ユーザフレーズ合成辞書１３及びデフォルト合成辞書１９が保持するフレームデータの間隔により、音声再生装置１の出力音声の品質が変化するが、例えばフレームデータの間隔を２０ｍｓとする。
【００２０】
ユーザ音色パラメータ１２及びデフォルト音色パラメータ１８は、音声再生装置１の出力音声における声質を制御するパラメータ群である。そして、ユーザ音色パラメータ１２及びデフォルト音色パラメータ１８は、例えば８組のフォルマント周波数及びフォルマントレベルの変更（ユーザフレーズ合成辞書１３及びデフォルト合成辞書１９に登録されているフォルマント周波数、フォルマントレベルからの変化量の指定）、並びに、フォルマント合成のための基本波形の指定をすることができ、様々な音色を作り出すことができる。
【００２１】
デフォルト音色パラメータ１８は、予めミドルウェア内にデフォルトで保持されている音色パラメータセットである。ユーザ音色パラメータ１２は、ユーザが任意に作成することができるパラメータであって、ミドルウェアの外側に保持されているものであり、ミドルウェアＡＰＩ１５を介してデフォルト音色パラメータ１８を拡張するものである。
【００２２】
アプリケーション１４は、スクリプト１１を再生するためのソフトウェアである。
ミドルウェアＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍＩｎｔｅｒｆａｃｅ）１５は、ソフトウェアからなるアプリケーション１４と、ミドルウェアからなるコンバータ１６、ドライバ１７、デフォルト音色パラメータ１８及びデフォルト合成辞書１９とのインターフェースとなるものである。
【００２３】
コンバータ１６は、スクリプト１１を解釈し、ドライバ１７を用いて最終的にフレームデータが連続して構成されるフォルマントフレーム列のデータへ変換するものである。
ドライバ１７は、スクリプト１１に含まれる発音文字とデフォルト合成辞書１９とに基づいてフォルマントフレーム列を生成し、音色パラメータを解釈しフォルマントフレーム列を加工するものである。
音源２０はコンバータ１６から出力されたデータに対応した音信号を出力するものであり、その音信号がスピーカに出力されて音となる。
【００２４】
次に、本実施形態に係る音声再生装置１の特徴について詳細に説明する。
まず、ユーザ音色パラメータ１２では、任意の発音単位に対して、ユーザフレーズ合成辞書１３が保持するフレーズＩＤを割り付けるというパラメータがある。図２は発音単位毎にフレーズＩＤを割り付けたものの一例を示す図である。すなわち、図２はモーラとフレーズＩＤとの割り付けを示すものである。
なお、モーラとは、拍を意味し、日本語でいえば仮名文字単位である。
【００２５】
発音単位毎にフレーズＩＤを割り付けることにより、ユーザ音色パラメータ１２で指定された発音単位がデフォルト合成辞書１９ではなく、ユーザフレーズ合成辞書１３を用いることを規定する。また、ユーザ音色パラメータ１２は、１つの音色パラメータ中に指定できる発音単位数が任意であるとするのが好ましい。上記のように、ユーザ音色パラメータ１２において、発音単位毎にフレーズＩＤを割り付ける構成は本実施形態の一例であり、発音単位に置き換えることができるものであればその手法は問わない。
【００２６】
次いで、ユーザフレーズ合成辞書１３の詳細について説明する。図３はユーザフレーズ合成辞書１３の内容例を示す図である。ユーザフレーズ合成辞書１３では、フレーズＩＤ毎に、８組のフォルマント周波数、フォルマントレベル及びピッチからなるフレームデータを格納している。図３における「フレーズ」とは、例えば「おはよう」など一つのまとまりを持った句である。そして、「フレーズ」は、単語、音節、文章など、特にまとまりは規定せず、任意の一塊を意味する。
【００２７】
ユーザフレーズ合成辞書１３を製作するツールは、通常のサウンドファイル（＊．ｗａｖ，＊ａｉｆなど）から、分析して８組のフォルマント周波数、フォルマントレベル及びピッチからなるフレームデータを生成する分析エンジンを搭載する必要がある。
【００２８】
スクリプト１１には、声質変更のイベントが用意されているが、このイベントにより、ユーザ音色パラメータ１２を指定することができる。
【００２９】
例えば、スクリプト１１の記述としては、「ＴＪＫ１２みなさんＸ１０あか」とする。
この例では、「Ｋ」がデフォルト音色パラメータ１８を指定するイベントであり、「Ｘ」がユーザ音色パラメータ１２を指定するイベントである。また、「Ｘ１０」が図２に示すユーザ音色パラメータを指定するものとする。
【００３０】
そして、この場合、再生音声は「みなさんこんにちは鈴木です」となる。
「みなさん」はデフォルト音色パラメータ１８及びデフォルト合成辞書１９を用いた音声となり、また、「こんにちは」と「鈴木です」はユーザ音色パラメータ１２及びユーザフレーズ合成辞書１３を用いた音声となる。すなわち、「みなさん」は「み」と「な」と「さ」と「ん」のそれぞれのフォルマントフレームデータをデフォルト合成辞書１９から読み出して合成した音声となり、「こんにちは」と「鈴木です」はそれぞれのフレーズ単位のフォルマントフレームデータをユーザフレーズ合成辞書１３から読み出して合成した音声となる。
【００３１】
上記例では、「あ」、「い」、「か」を使ったが、テキストで表記できる文字及び記号であれば何でもよい。また、上記例では、「Ｘ１０」以降、「あ」は「こんにちは」、「か」は「鈴木です」と発音されるので、次に本来の「あ」を発音させたい時はデフォルト合成辞書に戻す記号（例えばＸ○○）を入れればよい。
【００３２】
次に、本実施形態に係る音声再生装置１で用いられる音楽再生シーケンスデータ（ＳＭＡＦ：ＳｙｎｔｈｅｔｉｃｍｕｓｉｃＭｏｂｉｌｅＡｐｐｌｉｃａｔｉｏｎＦｏｒｍａｔ）のデータ交換フォーマットについて、図４を参照して説明する。図４は、本実施形態に係るＳＭＡＦファイルのフォーマットを示す説明図である。ＳＭＡＦは、音源を用いて音楽を表現するためのデータを配布したり相互に利用したりするためのデータ交換フォーマットの一つであり、携帯端末などにおいてマルチメディアコンテンツを表現するためのデータフォーマット仕様である。
【００３３】
図４に示すデータ交換フォーマットのＳＭＡＦファイル３０は、チャンク（Ｃｈｕｎｋ）と呼ばれるデータの塊が基本構造となっている。チャンクは、固定長（８バイト）のヘッダ部と任意長のボディ部とからなる。ヘッダ部は、４バイトのチャンクＩＤと４バイトのチャンクサイズに分けられる。チャンクＩＤはチャンクの識別子に用い、チャンクサイズはボディ部の長さを示している。ＳＭＡＦファイル３０は、それ自体及びそれに含まれる各種データも全てチャンク構造となっている。
【００３４】
図４に示すようにＳＭＡＦファイル３０は、コンテンツ・インフォ・チャンク（ＣｏｎｔｅｎｔｓＩｎｆｏＣｈｕｎｋ）３１と、オプショナル・データ・チャンク（ＯｐｔｉｏｎａｌＤａｔａＣｈｕｎｋ）３２と、トラック・チャンク（ＳｃｏｒｅＴｒａｃｋＣｈｕｎｋ）３３と、ＨＶチャンク（ＨＶＣｈｕｎｋ）３６とからなる。
【００３５】
コンテンツ・インフォ・チャンク３１には、ＳＭＡＦファイル３０についての各種管理用情報が格納されており、例えばコンテンツのクラス、種類、著作権情報、ジャンル名、曲名、アーティスト名、作詞／作曲者名などが格納されている。オプショナル・データ・チャンク３２には、例えば著作権情報、ジャンル名、曲名、アーティスト名、作詞／作曲者名などの情報が格納されている。なお、ＳＭＡＦファイル３０においてオプショナル・データ・チャンク３２は設けなくてもよい。
【００３６】
トラック・チャンク３３は、音源へ送り込む楽曲のシーケンス・トラックを格納するチャンクであり、セットアップ・データ・チャンク（ＳｅｔｕｐＤａｔａＣｈｕｎｋ（オプション））３４及びシーケンス・データ・チャンク（ＳｅｑｕｅｎｃｅＤａｔａＣｈｕｎｋ）３５を含んでいる。
【００３７】
セットアップ・データ・チャンク３４は、音源部分の音色データなどを格納するチャンクであり、イクスクルーシブ・メッセージの並びを格納する。イクスクルーシブ・メッセージは、例えば音色パラメータ登録メッセージである。
【００３８】
シーケンス・データ・チャンク３５は、実演奏データを格納するものであり、スクリプト１１の再生タイミングを決めるＨＶ（ＨｕｍａｎＶｏｉｃｅ：音声）ノートオンとその他のシーケンス・イベントとを混在させて格納している。ここで、ＨＶとそれ以外の楽曲のイベントとは、ＨＶのチャネル指定により区別される。
【００３９】
ＨＶチャンク３６は、ＨＶセットアップ・データ・チャンク（ＨＶＳｅｔｕｐＤａｔａＣｈｕｎｋ（オプション））３７と、ＨＶユーザ・フレーズ・辞書チャンク（ＨＶＵｓｅｒＰｈｒａｓｅＤｉｃｔｉｏｎａｒｙＣｈｕｎｋ（オプション））３８と、ＨＶ−Ｓチャンク３９とを含んでいる。
【００４０】
ＨＶセットアップ・データ・チャンク３７には、ＨＶユーザ音色パラメータや、ＨＶのチャネルを指定するためのメッセージが格納されている。また、ＨＶ−Ｓチャンク３９には、ＨＶ−スクリプトデータが格納されている。
【００４１】
ＨＶユーザ・フレーズ・辞書チャンク３８には、ユーザフレーズ合成辞書１３の内容が格納されている。また、ＨＶセットアップ・データ・チャンク３７に格納されるＨＶユーザ音色パラメータには、図２に示すモーラとフレーズＩＤを割り付けるパラメータが必要である。
【００４２】
これらの図４に示すＳＭＡＦファイル３０を上記音声再生装置１に適用することにより、楽曲と同期して音声（ＨＶ）を再生することができるとともに、ユーザフレーズ合成辞書１３の内容についても再生することが可能となる。
【００４３】
次に、図１におけるユーザフレーズ合成辞書１３及び図４に示すＳＭＡＦファイル３０を作成するためのツールであるＨＶオーサリングツールについて、図５を参照して説明する。図５はＨＶオーサリングツールの一例を示す機能イメージ図である。
【００４４】
ＨＶオーサリングツール４２は、ＳＭＡＦファイル３０を作成する場合、予めＭＩＤＩシーケンサによって作成されたＳＭＦ（ＳｔａｎｄａｒｄＭＩＤＩＦｉｌｅ）ファイル４１（ＨＶの発音タイミングを決めるノートオンを含む）を読み込み、ＨＶスクリプトＵＩ４４及びＨＶボイスエディタ４５から得られた情報を元にＳＭＡＦファイル４３（ＳＭＡＦファイル３０に相当）への変換処理を行う。
【００４５】
ＨＶボイスエディタ４５は、ＨＶユーザ音色ファイル４８に含まれるＨＶユーザ音色パラメータ（ユーザ音色パラメータ１２に相当）を編集することができるエディタである。このＨＶボイスエディタ４５は、各種のＨＶ音色パラメータの編集に加え、任意のモーラに対してユーザフレーズを割り付けることができる。
【００４６】
ＨＶボイスエディタ４５のインターフェースとしては、モーラを選択するメニューと、そのモーラに対して任意のサウンドファイル５０を割り付ける機能を持つ。ＨＶボイスエディタ４５のインターフェースによって割り付けられたサウンドファイル５０は、波形分析器４６により分析され、８組のフォルマント周波数、フォルマントレベル及びピッチのフレームデータを生成する。これらのフレームデータは、個別ファイル（ＨＶユーザ音色ファイル４８、ＨＶユーザ合成辞書ファイル４９）として入出力することができる。
【００４７】
ＨＶスクリプトＵＩ４４は、ＨＶスクリプトを直接編集することができる。このＨＶスクリプトも、個別ファイル（ＨＶスクリプトファイル４７）として入出力することができる。また、本実施形態に係るＨＶオーサリングツール４０は、上記ＨＶオーサリングツール４２と、ＨＶスクリプトＵＩ４４と、ＨＶボイスエディタ４５と、波形分析器４６とからなるものとしてもよい。
【００４８】
次に、上記音声再生装置１を携帯通信端末に適用した例について、図６を参照して説明する。図６は、音声再生装置１を備える携帯通信端末６０の構成例を示すブロック図である。
【００４９】
携帯通信端末６０は、例えば、携帯電話などからなり、ＣＰＵ６１、ＲＯＭ６２、ＲＡＭ６３、表示部６４、バイブレータ６５、入力部６６、通信部６７、アンテナ６８、音声処理部６９、音源７０、スピーカ７１及びバス７２を備えている。ＣＰＵ６１は、携帯通信端末６０全体の制御を行う。ＲＯＭ６２は、各種通信制御プログラム及び楽曲再生のためのプログラムなどの制御プログラム、並びに、各種定数データなどを格納している。
【００５０】
ＲＡＭ６３は、ワークエリアとして使用されるとともに、楽曲ファイル及び各種アプリケーションプログラムなどを記憶する。表示部６４は、液晶表示装置（ＬＣＤ）などからなる。バイブレータ６５は着信などがあったときに振動する。入力部６６は、複数の釦などからなる。通信部６７は、変復調部などからなり、アンテナ６８に接続されている。
【００５１】
音声処理部６９は、送話マイク及び受話スピーカに接続されており、通話のために音声信号について符号化及び復号化を行う機能を有する。音源７０は、ＲＡＭ６３などに記憶された楽曲ファイルに基づいて楽曲を再生するとともに、音声を再生して、スピーカ７１に出力する。バス７２は、ＣＰＵ６１、ＲＯＭ６２、ＲＡＭ６３、表示部６４、バイブレータ６５、入力部６６、通信部６７、音声処理部６９及び音源７０の各構成要素間でデータ転送を行うための伝送路である。
【００５２】
さらに、通信部６７は、ＨＶ−スクリプトファイル又は図４に示すＳＭＡＦファイル３０をコンテンツサーバなどからダウンロードしてＲＡＭ６３へ記憶させることができる。そして、ＲＯＭ６２には図１に示す音声再生装置１のアプリケーション１４及びミドルウェアのプログラムも記憶されている。そのアプリケーション１４及びミドルウェアのプログラムはＣＰＵ６１によって読み出され起動される。また、ＣＰＵ６１は、ＲＡＭ６３で記憶されているＨＶ−スクリプトを解釈してフォルマントフレームデータを生成し、そのフォルマントフレームデータを音源７０へ送る。
【００５３】
（動作）
次に、上記音声再生装置１の動作について説明する。先ず、ユーザフレーズ合成辞書１３の制作方法について説明する。図７は、ユーザフレーズ合成辞書１３の制作方法を示すフローチャートである。
【００５４】
先ず、図５に示すＨＶオーサリングツール４２を用いて、ユーザフレーズ合成辞書１３を使用するＨＶ音色を選択し、ＨＶボイスエディタ４５を起動させる（ステップＳ１）。
次いで、ＨＶボイスエディタ４５を用いて、当てはめたいモーラを選択し、サウンドファイルを貼り付ける。すると、ＨＶボイスエディタ４５は、ユーザフレーズ辞書（ＨＶユーザ合成辞書ファイル４９に相当）を出力する（ステップＳ２）。
【００５５】
次いで、ＨＶボイスエディタ４５を用いて、ＨＶ音色パラメータを編集する。すると、ＨＶボイスエディタ４５は、ユーザ音色パラメータ（ＨＶユーザ音色ファイル４８に相当）を出力する（ステップＳ３）。
【００５６】
次いで、ＨＶスクリプトＵＩ４４を用いて、ＨＶ−スクリプトに、該当するＨＶ音色を指定する声質変更イベントを記述し、再生したいモーラを記述する。すると、ＨＶスクリプトＵＩ４４は、ＨＶ−スクリプト（ＨＶスクリプトファイル４７に相当）を出力する（ステップＳ４）。
【００５７】
次に、音声再生装置１におけるユーザフレーズ辞書の再生動作について、図８を参照して説明する。図８は、音声再生装置１におけるユーザフレーズ合成辞書の再生動作を示すフローチャートである。
先ず、ユーザ音色パラメータ１２及びユーザフレーズ合成辞書１３を、音声再生装置１のミドルウェアに登録する。そして、スクリプト１１を音声再生装置１のミドルウェアに登録し、再生を開始する（ステップＳ１１，Ｓ１２）。
【００５８】
その再生においては、スクリプト１１中に、ユーザ音色パラメータ１２を指定する声質変更イベント（Ｘイベント）があるか監視する（ステップＳ１３）。
ステップＳ１３で声質変更イベントを見つけた場合、そのユーザ音色パラメータ１２からモーラに割り付けられているフレーズＩＤを探し、フレーズＩＤに対応するデータをユーザフレーズ合成辞書１３から読み取り、ＨＶドライバが管理するデフォルト合成辞書１９のデータのうち、該当するモーラの辞書データをユーザフレーズ合成辞書１３のデータに置き換える（ステップＳ１４）。
ステップＳ１４の置き換え処理は、再生前に事前に行ってもよい。
【００５９】
ステップＳ１４が終了した場合、及び、ステップＳ１３で声質変更イベントが見つからなかった場合は、コンバータ１６がスクリプト１１（ステップＳ１４が行われた場合は該ステップＳ１４の置き換え処理後のスクリプト）のモーラを解釈し、ＨＶドライバを用いて最終的にフォルマントフレーム列のデータへコンバートする（ステップＳ１５）。
次いで、ステップＳ１５でコンバートされたデータを音源２０により再生する（ステップＳ１６）。
【００６０】
次いで、スクリプト１１が終了か否か判断し（ステップＳ１７）、終了していない場合は上記ステップＳ１３に戻り、終了した場合はユーザフレーズ辞書の再生動作を終了する。
【００６１】
次に、図４に示すＳＭＡＦファイル３０の制作方法について、図９を参照して説明する。図９は、ＳＭＡＦファイル３０の制作方法を示すフローチャートである。
先ず、図７に示す手順によりユーザフレーズ合成辞書１３、ユーザ音色パラメータ１２及びスクリプト１１を制作する（ステップＳ２１）。
【００６２】
次いで、楽曲データ及びＨＶスクリプトの発音を制御するイベントを含んだＳＭＦファイル４１を制作する（ステップＳ２２）。
次いで、図５に示すＨＶオーサリングツール４２へＳＭＦファイル４１を入力し、ＨＶオーサリングツール４２によりＳＭＦファイル４１をＳＭＡＦファイル４３（ＳＭＡＦファイル３０に相当）に変換する（ステップＳ２３）。
【００６３】
そして、ステップＳ２１で作られたユーザ音色パラメータ１２が図４に示すＳＭＡＦファイル３０のＨＶチャンク３６のＨＶセットアップ・データ・チャンク３７へ入れられ、ステップＳ２１で作られたユーザフレーズ合成辞書１３が同ＳＭＡＦファイル３０のＨＶチャンク３６のＨＶユーザ・フレーズ・辞書チャンク３８へ入れられ、ＳＭＡＦファイル３０として出力される（ステップＳ２４）。
【００６４】
次に、ＳＭＡＦファイル３０の再生方法について図１０を参照して説明する。図１０は、ＳＭＡＦファイル３０の再生方法を示すフローチャートである。
先ず、ＳＭＡＦファイル３０を図１に示す音声再生装置１のミドルウェアに登録する（ステップＳ３１）。
ここで、音声再生装置１は、通常、ＳＭＡＦファイル３０内の楽曲データの部分をミドルウェアの楽曲再生部に登録し、再生準備を行う。
【００６５】
次いで、音声再生装置１は、ＳＭＡＦファイル３０にＨＶチャンク３６があるか否か判断する（ステップＳ３２）。
ステップＳ３２でＨＶチャンク３６があった場合、音声再生装置１はＨＶチャンク３６の内容を解釈する（ステップＳ３３）。
次いで、音声再生装置１は、ユーザ音色パラメータの登録、ユーザフレーズ合成辞書の登録及びスクリプトの登録をする（ステップＳ３４）。
【００６６】
ステップＳ３２でＨＶチャンク３６がなかった場合、もしくはステップ３４における登録が終了した場合、音声再生装置１は楽曲部のチャンクを解釈する（ステップＳ３５）。
次いで、音声再生装置１は、「スタート」信号に対応してシーケンス・データ・チャンク３５内のシーケンスデータ（実演奏データ）の解釈をスタートさせることにより、楽曲再生を行う（ステップＳ３６）。
【００６７】
この再生において、音声再生装置１はシーケンスデータにおけるイベントを順次解釈する過程において、そのイベントがＨＶノートオンであるか否か判断する（ステップＳ３７）。
ステップＳ３７において、ＨＶノートオンであった場合、音声再生装置１はそのＨＶノートオンで指定されているＨＶチャンクのＨＶスクリプトデータの再生を開始する（ステップＳ３８）。
【００６８】
このステップＳ３８の後、音声再生装置１は図８に示すユーザフレーズ辞書の再生動作を行う。
すなわち、音声再生装置１はステップＳ３８の再生において、ユーザ音色パラメータ１２を指定する声質変更イベント（Ｘイベント）があるか監視する（ステップＳ３９）。
【００６９】
ステップＳ３９で声質変更イベントを見つけた場合、そのユーザ音色パラメータ１２からモーラに割り付けられているフレーズＩＤを探し、フレーズＩＤに対応するデータをユーザフレーズ合成辞書１３から読み取り、ＨＶドライバが管理するデフォルト合成辞書１９のデータのうち、該当するモーラの辞書データをユーザフレーズ辞書データに置き換える（ステップＳ４０）。
ステップＳ４０の置き換え処理は、再生前に事前に行ってもよい。
【００７０】
ステップＳ４０が終了した場合、及び、ステップＳ３９で声質変更イベントが見つからなかった場合は、コンバータ１６がスクリプトのモーラを解釈し、ＨＶドライバを用いて最終的にフォルマントフレーム列のデータへコンバートする（ステップＳ４１）。
【００７１】
次いで、音声再生装置１は、ステップＳ４１でコンバートされたデータを音源２０のＨＶ部にて再生する（ステップＳ４２）。
次いで、音声再生装置１は、楽曲が終了したか否か判断し（ステップＳ４３）、楽曲が終了した場合はＳＭＡＦファイル３０の再生を終了させ、楽曲が終了していない場合はステップＳ３７に戻る。
【００７２】
ステップＳ３７において、イベントがＨＶノートオンでなかった場合、音声再生装置１はそのイベントを楽曲データとして、音源再生イベントデータにコンバートする（ステップＳ４４）。
次いで、音声再生装置１は、ステップＳ４４でコンバートされたデータを音源２０の楽曲部にて再生する（ステップＳ４５）。
【００７３】
これらにより、本実施形態によれば、ＦＭ音源のリソースを用いてフォルマント合成により再生する方法において、以下の３つの利点がある。
第１に、本実施形態によれば、ユーザが好みのフレーズを割り付けることができる。これにより、固定辞書に依存することなく、好みの声色により近づけた再生をすることができる。
第２に、本実施形態によれば、デフォルト合成辞書１９の一部をユーザフレーズ合成辞書１３で置き換えるため、音声再生装置１においてデータ容量が過大に増加することを回避することができる。また、デフォルト合成辞書１９の一部を任意のフレーズに置き換えることもできるため、フレーズ単位の発音をすることができ、従来の発音単位の合成音声で生じる各発音のつなぎ目での違和感をなくすことができる。
第３に、本実施形態によれば、ＨＶスクリプトにおいて任意のフレーズ指定をすることができるので、モーラ単位の合成とフレーズ単位の発音を併用することができる。
【００７４】
さらに、本実施形態によれば、フレーズを予めサンプリングして構成した波形データを再生する方法に比べて、フォルマントレベルで声色変化させることができる。そして、本実施形態によれば、データサイズ及び品質はフレームレートによるが、サンプリング波形データに比べてはるかに少ないデータ容量で高品質な再生をすることができる。したがって、例えば、本実施形態の音声再生装置１を携帯電話などの携帯通信端末に組み込むことが容易に実行でき、電子メールの内容などを高品質な音声で再生することもできる。
【００７５】
以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
【００７６】
【発明の効果】
以上説明したように、本発明によれば、合成辞書に発音単位で保持されているデータを任意のユーザデータに置き換えることができるので、所望のフレーズを品質のよい音声で再生することができる。
【図面の簡単な説明】
【図１】本発明の実施形態に係る音声再生装置を示すブロック図である。
【図２】発音単位毎にフレーズＩＤを割り付けた例を示す図である。
【図３】ユーザフレーズ合成辞書の内容例を示す図である。
【図４】ＳＭＡＦファイルのフォーマットを示す図である。
【図５】ＨＶオーサリングツールの一例を示す機能イメージ図である。
【図６】本実施形態の音声再生装置を備える携帯通信端末の一例を示すブロック図である。
【図７】ユーザフレーズ合成辞書の制作方法のフローチャートである。
【図８】ユーザフレーズ合成辞書の再生動作のフローチャートである。
【図９】ＳＭＡＦファイルの制作方法を示すフローチャートである。
【図１０】ＳＭＡＦファイル３０の再生方法のフローチャートである。
【符号の説明】
１…音声再生装置、１１…スクリプト、１２…ユーザ音色パラメータ、１３…ユーザフレーズ合成辞書（可変長）、１４…アプリケーション、１５…ミドルウェアＡＰＩ、１６…コンバータ、１７…ドライバ、１８…デフォルト音色パラメータ、１９…デフォルト合成辞書、２０…音源、３０…ＳＭＡＦファイル、３１…コンテンツ・インフォ・チャンク、３２…オプショナル・データ・チャンク、３３…トラック・チャンク、３４…セットアップ・データ・チャンク、３５…シーケンス・データ・チャンク、３６…ＨＶチャンク、３７…ＨＶセットアップ・データ・チャンク、３８…ＨＶユーザ・フレーズ・辞書チャンク、３９…ＨＶ−Ｓチャンク、４１…ＳＭＦファイル、４２…ＨＶオーサリングツール、４３…ＳＭＡＦファイル、４４…ＨＶスクリプトＵＩ、４５…ＨＶボイスエディタ、４６…波形分析器、４７…ＨＶスクリプトファイル、４８…ＨＶユーザ音色ファイル、４９…ＨＶユーザ合成辞書ファイル、５０…サウンドファイル

Claims

予め発音単位に対応するフォルマントフレームデータを保持するデータベースである合成辞書を有して、発音単位が羅列された情報が与えられることにより前記合成辞書を用いて音声合成する音声再生装置において、
前記合成辞書に保持されている発音単位のフォルマントフレームデータを任意のユーザデータに置き換える置換手段と、
前記発音単位が羅列された情報が与えられたときに、前記置換手段によって保持データが置き換えられた前記合成辞書を用いて音声を合成する音声合成手段とを有することを特徴とする音声再生装置。
前記ユーザデータは、フレーズ単位で取得されたフォルマントフレームデータであることを特徴とする請求項１記載の音声再生装置。
前記ユーザデータは、前記合成辞書に保持されるフォルマントフレームデータを加工する音色パラメータに付加されていることを特徴とする請求項１又は２記載の音声再生装置。
前記置換手段は、前記ユーザデータが付加されている音色パラメータが与えられ、かつ、再生時に該音色パラメータが指定されたときに、前記合成辞書の保持データであるフォルマントフレームデータを、前記ユーザデータに置き換え、
前記音声合成手段は、音声単位の羅列情報が与えられたときに、前記音色パラメータにより置き換えられた合成辞書を用いて音声合成することを特徴とする請求項１乃至３のいずれか一項に記載の音声再生装置。
前記音声再生装置は、
楽曲及び音声を同期させて所望データを再生するための情報構造を定義したデータ交換フォーマットに、前記ユーザデータを含ませ、該データ交換フォーマットを用いて音声を合成するものであることを特徴とする請求項１乃至４のいずれか一項に記載の音声再生装置。
前記音声再生装置は、
前記データ交換フォーマットとして構成された情報に含まれる楽曲部情報についてはそのまま再生し、該情報に含まれる音声情報については前記置換手段及び前記音声合成手段を用いて再生するものであることを特徴とする請求項５に記載の音声再生装置。
前記データ交換フォーマットは、音声パラメータに前記ユーザデータを付加した情報を構成要素とすることを特徴とする請求項５又は６記載の音声再生装置。