JP2004354748A - 音声再生装置 - Google Patents
音声再生装置 Download PDFInfo
- Publication number
- JP2004354748A JP2004354748A JP2003152895A JP2003152895A JP2004354748A JP 2004354748 A JP2004354748 A JP 2004354748A JP 2003152895 A JP2003152895 A JP 2003152895A JP 2003152895 A JP2003152895 A JP 2003152895A JP 2004354748 A JP2004354748 A JP 2004354748A
- Authority
- JP
- Japan
- Prior art keywords
- data
- audio
- dictionary
- user
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】予め発音単位にフォルマントフレームデータを保持するデフォルト合成辞書19と、デフォルト合成辞書19に保持されている発音単位のフォルマントフレームデータを任意のユーザデータに置き換える置換手段をなすミドルウェアAPI15、コンバータ16及びドライバ17と、発音単位が羅列された情報が与えられたときに、前記置換手段によって保持データが置き換えられたデフォルト合成辞書19を用いて音声を合成する音声合成手段をなすミドルウェアAPI15、コンバータ16及び音源20などを有することを特徴とする。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は、音声再生装置に関し、特に音声合成により特定のフレーズ(例えば「こんにちは」など)について高品質に再生することができる音声再生装置に関する。
【0002】
【従来の技術】
従来、電子メールなどの文字列情報を音声に変換して出力する文字列音声変換装置が考え出されている。従来の文字列音声変換装置としては、文字列情報を文節単位に区切り、音声出力すると同時にその内容を表示するものがある(例えば、特許文献1参照)。
【0003】
【特許文献1】
特開2001−7937号公報
【0004】
【発明が解決しようとする課題】
しかしながら、従来の文字列音声変換装置では、文字列情報を文節単位に区切って音声出力するものの、その音声出力は発音単位(又は文字単位)の音声の集合であるので、発音単位のつなぎ目の再生(音声出力)に違和感がある。すなわち、従来の文字列音声変換装置では、文節全体について品質の良い音声で声色を変化させて出力すること、すなわち自然な音声(例えば「こんにちは」)として出力することができないという問題点がある。
【0005】
また、この問題点を解決するために、例えば文節(又はフレーズ)についての音声を予めサンプリングして音声データとして保持しておき、再生時には音声波形として出力する手法が考えられる。しかし、この手法では、音声出力の品質を上げるためにはサンプリング周波数を上げなければならず、大容量の音声データを保持する必要があり、携帯電話などにおいて大きなデメリットがある。
【0006】
本発明は、上記問題を解決するためになされたもので、文字列情報などからなる所望のフレーズ(例えば「こんにちは」など)を品質の良い音声として声色を変化させて再生(出力)することができる音声再生装置を提供するものである。
【0007】
【課題を解決するための手段】
上記課題を解決するため、この発明は以下の構成を有する。
即ち、請求項1に記載された発明は、予め発音単位に対応するフォルマントフレームデータを保持するデータベースである合成辞書を有して、発音単位が羅列された情報が与えられることにより前記合成辞書を用いて音声合成する音声再生装置において、前記合成辞書に保持されている発音単位のフォルマントフレームデータを任意のユーザデータに置き換える置換手段と、前記発音単位が羅列された情報が与えられたときに、前記置換手段によって保持データが置き換えられた前記合成辞書を用いて音声を合成する音声合成手段とを有することを特徴とする。
【0008】
また、請求項2に記載された発明は、請求項1に記載された音声再生装置において、前記ユーザデータがフレーズ単位で取得されたフォルマントフレームデータであることを特徴とする。
【0009】
また、請求項3に記載された発明は、請求項1又は2に記載された音声再生装置において、前記ユーザデータが前記合成辞書に保持されるフォルマントフレームデータを加工する音色パラメータに付加されていることを特徴とする。
【0010】
また、請求項4に記載された発明は、請求項1乃至3のいずれか一項に記載された音声再生装置において、前記置換手段が、前記ユーザデータが付加されている音色パラメータが与えられ、かつ、再生時に該音色パラメータが指定されたときに、前記合成辞書の保持データであるフォルマントフレームデータを、前記ユーザデータに置き換え、前記音声合成手段は、音声単位の羅列情報が与えられたときに、前記音色パラメータにより置き換えられた合成辞書を用いて音声合成することを特徴とする。
【0011】
また、請求項5に記載された発明は、請求項1乃至4のいずれか一項に記載された音声再生装置が、楽曲及び音声を同期させて所望データを再生するための情報構造を定義したデータ交換フォーマットに、前記ユーザデータを含ませ、該データ交換フォーマットを用いて音声を合成するものであることを特徴とする。
【0012】
また、請求項6に記載された発明は、請求項5に記載された音声再生装置が、前記データ交換フォーマットとして構成された情報に含まれる楽曲部情報についてはそのまま再生し、該情報に含まれる音声情報については前記置換手段及び前記音声合成手段を用いて再生するものであることを特徴とする。
【0013】
また、請求項7に記載された発明は、請求項5又は6に記載された音声再生装置において、前記データ交換フォーマットが音声パラメータに前記ユーザデータを付加した情報を構成要素とすることを特徴とする。
【0014】
【発明の実施の形態】
以下、図面を参照し、本発明の実施形態について説明する。
図1は、本発明の実施形態に係る音声再生装置の構成を示すブロック図である。まず、本実施形態に係る音声再生装置の基盤構成について説明する。
【0015】
本音声再生装置1は、アプリケーション14、ミドルウェアAPI15、コンバータ16、ドライバ17、デフォルト音色パラメータ18、デフォルト合成辞書19及び音源20を備え、スクリプト11、ユーザ音色パラメータ12、ユーザフレーズ合成辞書(可変長)13が入力されることにより音声を再生する構成となっている。
【0016】
音声再生装置1は、FM音源のリソースを用いたCSM(複合正弦波モデル)音声合成方式によるフォルマント合成により音声を再生する手法を基本としている。そして、本実施形態では、ユーザフレーズ合成辞書13を定義し、音声再生装置1が音色パラメータに音素単位でユーザフレーズを割り付ける。そして、音声再生装置1は再生時において音色パラメータにユーザフレーズ合成辞書13のデータが割り付けられているときは、デフォルト合成辞書19の音素をユーザフレーズに置き換え、その置き換えたデータにより音声合成を行う。なお、上記「音素(Phoneme)」とは、発音の最小単位であり、日本語でいえば母音と子音の2種類がある。次に、音声再生装置1の詳細について説明する。
【0017】
スクリプト11は、「HV(Human Voice:前記手法により合成される音声)」を再生するためのデータフォーマットを定義しているものである。すなわち、スクリプト11は、韻律記号を含んだ合成文字列、発音させる音の設定、再生アプリケーションなどのメッセージからなる音声合成を行うためのフォーマットであり、ユーザによる入力を容易にするために例えばテキスト入力となっている。このスクリプト11におけるデータフォーマットの定義は、言語依存性があり、様々な言語による定義が可能であるが、本実施形態では日本語による定義のみを一例として取り上げる。
【0018】
ユーザフレーズ合成辞書13及びデフォルト合成辞書19は、実際の声を発音文字単位で(例えば「あ」,「い」など)サンプリング及び分析することで8組のフォルマント周波数、フォルマントレベル及びピッチをパラメータとして割り出し、予めフォルマントフレームデータとしてそれらパラメータを発音文字単位で保持しているデータベースである。ユーザフレーズ合成辞書13は、ミドルウェア外に構築されたデータベースであり、かかるデータベースをユーザが任意に作成することができ、保持内容についてはミドルウェアAPI15を介してデフォルト合成辞書19の保持内容と丸ごと入れ替えることができる。すなわち、デフォルト合成辞書19の内容を丸ごとユーザフレーズ合成辞書13の内容に置き換えることができる。一方、デフォルト合成辞書19は、ミドルウェア内に構築されたデータベースである。
【0019】
ユーザフレーズ合成辞書13及びデフォルト合成辞書19としては、それぞれ男声用と女声用との2種類を持つのが好ましい。また、ユーザフレーズ合成辞書13及びデフォルト合成辞書19が保持するフレームデータの間隔により、音声再生装置1の出力音声の品質が変化するが、例えばフレームデータの間隔を20msとする。
【0020】
ユーザ音色パラメータ12及びデフォルト音色パラメータ18は、音声再生装置1の出力音声における声質を制御するパラメータ群である。そして、ユーザ音色パラメータ12及びデフォルト音色パラメータ18は、例えば8組のフォルマント周波数及びフォルマントレベルの変更(ユーザフレーズ合成辞書13及びデフォルト合成辞書19に登録されているフォルマント周波数、フォルマントレベルからの変化量の指定)、並びに、フォルマント合成のための基本波形の指定をすることができ、様々な音色を作り出すことができる。
【0021】
デフォルト音色パラメータ18は、予めミドルウェア内にデフォルトで保持されている音色パラメータセットである。ユーザ音色パラメータ12は、ユーザが任意に作成することができるパラメータであって、ミドルウェアの外側に保持されているものであり、ミドルウェアAPI15を介してデフォルト音色パラメータ18を拡張するものである。
【0022】
アプリケーション14は、スクリプト11を再生するためのソフトウェアである。
ミドルウェアAPI(Application Program Interface)15は、ソフトウェアからなるアプリケーション14と、ミドルウェアからなるコンバータ16、ドライバ17、デフォルト音色パラメータ18及びデフォルト合成辞書19とのインターフェースとなるものである。
【0023】
コンバータ16は、スクリプト11を解釈し、ドライバ17を用いて最終的にフレームデータが連続して構成されるフォルマントフレーム列のデータへ変換するものである。
ドライバ17は、スクリプト11に含まれる発音文字とデフォルト合成辞書19とに基づいてフォルマントフレーム列を生成し、音色パラメータを解釈しフォルマントフレーム列を加工するものである。
音源20はコンバータ16から出力されたデータに対応した音信号を出力するものであり、その音信号がスピーカに出力されて音となる。
【0024】
次に、本実施形態に係る音声再生装置1の特徴について詳細に説明する。
まず、ユーザ音色パラメータ12では、任意の発音単位に対して、ユーザフレーズ合成辞書13が保持するフレーズIDを割り付けるというパラメータがある。図2は発音単位毎にフレーズIDを割り付けたものの一例を示す図である。すなわち、図2はモーラとフレーズIDとの割り付けを示すものである。
なお、モーラとは、拍を意味し、日本語でいえば仮名文字単位である。
【0025】
発音単位毎にフレーズIDを割り付けることにより、ユーザ音色パラメータ12で指定された発音単位がデフォルト合成辞書19ではなく、ユーザフレーズ合成辞書13を用いることを規定する。また、ユーザ音色パラメータ12は、1つの音色パラメータ中に指定できる発音単位数が任意であるとするのが好ましい。上記のように、ユーザ音色パラメータ12において、発音単位毎にフレーズIDを割り付ける構成は本実施形態の一例であり、発音単位に置き換えることができるものであればその手法は問わない。
【0026】
次いで、ユーザフレーズ合成辞書13の詳細について説明する。図3はユーザフレーズ合成辞書13の内容例を示す図である。ユーザフレーズ合成辞書13では、フレーズID毎に、8組のフォルマント周波数、フォルマントレベル及びピッチからなるフレームデータを格納している。図3における「フレーズ」とは、例えば「おはよう」など一つのまとまりを持った句である。そして、「フレーズ」は、単語、音節、文章など、特にまとまりは規定せず、任意の一塊を意味する。
【0027】
ユーザフレーズ合成辞書13を製作するツールは、通常のサウンドファイル(*.wav,*aifなど)から、分析して8組のフォルマント周波数、フォルマントレベル及びピッチからなるフレームデータを生成する分析エンジンを搭載する必要がある。
【0028】
スクリプト11には、声質変更のイベントが用意されているが、このイベントにより、ユーザ音色パラメータ12を指定することができる。
【0029】
例えば、スクリプト11の記述としては、「TJK12みなさんX10あか」とする。
この例では、「K」がデフォルト音色パラメータ18を指定するイベントであり、「X」がユーザ音色パラメータ12を指定するイベントである。また、「X10」が図2に示すユーザ音色パラメータを指定するものとする。
【0030】
そして、この場合、再生音声は「みなさん こんにちは 鈴木です」となる。
「みなさん」はデフォルト音色パラメータ18及びデフォルト合成辞書19を用いた音声となり、また、「こんにちは」と「鈴木です」はユーザ音色パラメータ12及びユーザフレーズ合成辞書13を用いた音声となる。すなわち、「みなさん」は「み」と「な」と「さ」と「ん」のそれぞれのフォルマントフレームデータをデフォルト合成辞書19から読み出して合成した音声となり、「こんにちは」と「鈴木です」はそれぞれのフレーズ単位のフォルマントフレームデータをユーザフレーズ合成辞書13から読み出して合成した音声となる。
【0031】
上記例では、「あ」、「い」、「か」を使ったが、テキストで表記できる文字及び記号であれば何でもよい。また、上記例では、「X10」以降、「あ」は「こんにちは」、「か」は「鈴木です」と発音されるので、次に本来の「あ」を発音させたい時はデフォルト合成辞書に戻す記号(例えばX○○)を入れればよい。
【0032】
次に、本実施形態に係る音声再生装置1で用いられる音楽再生シーケンスデータ(SMAF:Synthetic music Mobile Application Format)のデータ交換フォーマットについて、図4を参照して説明する。図4は、本実施形態に係るSMAFファイルのフォーマットを示す説明図である。SMAFは、音源を用いて音楽を表現するためのデータを配布したり相互に利用したりするためのデータ交換フォーマットの一つであり、携帯端末などにおいてマルチメディアコンテンツを表現するためのデータフォーマット仕様である。
【0033】
図4に示すデータ交換フォーマットのSMAFファイル30は、チャンク(Chunk)と呼ばれるデータの塊が基本構造となっている。チャンクは、固定長(8バイト)のヘッダ部と任意長のボディ部とからなる。ヘッダ部は、4バイトのチャンクIDと4バイトのチャンクサイズに分けられる。チャンクIDはチャンクの識別子に用い、チャンクサイズはボディ部の長さを示している。SMAFファイル30は、それ自体及びそれに含まれる各種データも全てチャンク構造となっている。
【0034】
図4に示すようにSMAFファイル30は、コンテンツ・インフォ・チャンク(Contents Info Chunk)31と、オプショナル・データ・チャンク(Optional Data Chunk)32と、トラック・チャンク(Score Track Chunk)33と、HVチャンク(HV Chunk)36とからなる。
【0035】
コンテンツ・インフォ・チャンク31には、SMAFファイル30についての各種管理用情報が格納されており、例えばコンテンツのクラス、種類、著作権情報、ジャンル名、曲名、アーティスト名、作詞/作曲者名などが格納されている。オプショナル・データ・チャンク32には、例えば著作権情報、ジャンル名、曲名、アーティスト名、作詞/作曲者名などの情報が格納されている。なお、SMAFファイル30においてオプショナル・データ・チャンク32は設けなくてもよい。
【0036】
トラック・チャンク33は、音源へ送り込む楽曲のシーケンス・トラックを格納するチャンクであり、セットアップ・データ・チャンク(Setup Data Chunk(オプション))34及びシーケンス・データ・チャンク(Sequence Data Chunk)35を含んでいる。
【0037】
セットアップ・データ・チャンク34は、音源部分の音色データなどを格納するチャンクであり、イクスクルーシブ・メッセージの並びを格納する。イクスクルーシブ・メッセージは、例えば音色パラメータ登録メッセージである。
【0038】
シーケンス・データ・チャンク35は、実演奏データを格納するものであり、スクリプト11の再生タイミングを決めるHV(Human Voice:音声)ノートオンとその他のシーケンス・イベントとを混在させて格納している。ここで、HVとそれ以外の楽曲のイベントとは、HVのチャネル指定により区別される。
【0039】
HVチャンク36は、HVセットアップ・データ・チャンク(HV Setup Data Chunk(オプション))37と、HVユーザ・フレーズ・辞書チャンク(HV User Phrase Dictionary Chunk(オプション))38と、HV−Sチャンク39とを含んでいる。
【0040】
HVセットアップ・データ・チャンク37には、HVユーザ音色パラメータや、HVのチャネルを指定するためのメッセージが格納されている。また、HV−Sチャンク39には、HV−スクリプトデータが格納されている。
【0041】
HVユーザ・フレーズ・辞書チャンク38には、ユーザフレーズ合成辞書13の内容が格納されている。また、HVセットアップ・データ・チャンク37に格納されるHVユーザ音色パラメータには、図2に示すモーラとフレーズIDを割り付けるパラメータが必要である。
【0042】
これらの図4に示すSMAFファイル30を上記音声再生装置1に適用することにより、楽曲と同期して音声(HV)を再生することができるとともに、ユーザフレーズ合成辞書13の内容についても再生することが可能となる。
【0043】
次に、図1におけるユーザフレーズ合成辞書13及び図4に示すSMAFファイル30を作成するためのツールであるHVオーサリングツールについて、図5を参照して説明する。図5はHVオーサリングツールの一例を示す機能イメージ図である。
【0044】
HVオーサリングツール42は、SMAFファイル30を作成する場合、予めMIDIシーケンサによって作成されたSMF(Standard MIDI File)ファイル41(HVの発音タイミングを決めるノートオンを含む)を読み込み、HVスクリプトUI44及びHVボイスエディタ45から得られた情報を元にSMAFファイル43(SMAFファイル30に相当)への変換処理を行う。
【0045】
HVボイスエディタ45は、HVユーザ音色ファイル48に含まれるHVユーザ音色パラメータ(ユーザ音色パラメータ12に相当)を編集することができるエディタである。このHVボイスエディタ45は、各種のHV音色パラメータの編集に加え、任意のモーラに対してユーザフレーズを割り付けることができる。
【0046】
HVボイスエディタ45のインターフェースとしては、モーラを選択するメニューと、そのモーラに対して任意のサウンドファイル50を割り付ける機能を持つ。HVボイスエディタ45のインターフェースによって割り付けられたサウンドファイル50は、波形分析器46により分析され、8組のフォルマント周波数、フォルマントレベル及びピッチのフレームデータを生成する。これらのフレームデータは、個別ファイル(HVユーザ音色ファイル48、HVユーザ合成辞書ファイル49)として入出力することができる。
【0047】
HVスクリプトUI44は、HVスクリプトを直接編集することができる。このHVスクリプトも、個別ファイル(HVスクリプトファイル47)として入出力することができる。また、本実施形態に係るHVオーサリングツール40は、上記HVオーサリングツール42と、HVスクリプトUI44と、HVボイスエディタ45と、波形分析器46とからなるものとしてもよい。
【0048】
次に、上記音声再生装置1を携帯通信端末に適用した例について、図6を参照して説明する。図6は、音声再生装置1を備える携帯通信端末60の構成例を示すブロック図である。
【0049】
携帯通信端末60は、例えば、携帯電話などからなり、CPU61、ROM62、RAM63、表示部64、バイブレータ65、入力部66、通信部67、アンテナ68、音声処理部69、音源70、スピーカ71及びバス72を備えている。CPU61は、携帯通信端末60全体の制御を行う。ROM62は、各種通信制御プログラム及び楽曲再生のためのプログラムなどの制御プログラム、並びに、各種定数データなどを格納している。
【0050】
RAM63は、ワークエリアとして使用されるとともに、楽曲ファイル及び各種アプリケーションプログラムなどを記憶する。表示部64は、液晶表示装置(LCD)などからなる。バイブレータ65は着信などがあったときに振動する。入力部66は、複数の釦などからなる。通信部67は、変復調部などからなり、アンテナ68に接続されている。
【0051】
音声処理部69は、送話マイク及び受話スピーカに接続されており、通話のために音声信号について符号化及び復号化を行う機能を有する。音源70は、RAM63などに記憶された楽曲ファイルに基づいて楽曲を再生するとともに、音声を再生して、スピーカ71に出力する。バス72は、CPU61、ROM62、RAM63、表示部64、バイブレータ65、入力部66、通信部67、音声処理部69及び音源70の各構成要素間でデータ転送を行うための伝送路である。
【0052】
さらに、通信部67は、HV−スクリプトファイル又は図4に示すSMAFファイル30をコンテンツサーバなどからダウンロードしてRAM63へ記憶させることができる。そして、ROM62には図1に示す音声再生装置1のアプリケーション14及びミドルウェアのプログラムも記憶されている。そのアプリケーション14及びミドルウェアのプログラムはCPU61によって読み出され起動される。また、CPU61は、RAM63で記憶されているHV−スクリプトを解釈してフォルマントフレームデータを生成し、そのフォルマントフレームデータを音源70へ送る。
【0053】
(動作)
次に、上記音声再生装置1の動作について説明する。先ず、ユーザフレーズ合成辞書13の制作方法について説明する。図7は、ユーザフレーズ合成辞書13の制作方法を示すフローチャートである。
【0054】
先ず、図5に示すHVオーサリングツール42を用いて、ユーザフレーズ合成辞書13を使用するHV音色を選択し、HVボイスエディタ45を起動させる(ステップS1)。
次いで、HVボイスエディタ45を用いて、当てはめたいモーラを選択し、サウンドファイルを貼り付ける。すると、HVボイスエディタ45は、ユーザフレーズ辞書(HVユーザ合成辞書ファイル49に相当)を出力する(ステップS2)。
【0055】
次いで、HVボイスエディタ45を用いて、HV音色パラメータを編集する。すると、HVボイスエディタ45は、ユーザ音色パラメータ(HVユーザ音色ファイル48に相当)を出力する(ステップS3)。
【0056】
次いで、HVスクリプトUI44を用いて、HV−スクリプトに、該当するHV音色を指定する声質変更イベントを記述し、再生したいモーラを記述する。すると、HVスクリプトUI44は、HV−スクリプト(HVスクリプトファイル47に相当)を出力する(ステップS4)。
【0057】
次に、音声再生装置1におけるユーザフレーズ辞書の再生動作について、図8を参照して説明する。図8は、音声再生装置1におけるユーザフレーズ合成辞書の再生動作を示すフローチャートである。
先ず、ユーザ音色パラメータ12及びユーザフレーズ合成辞書13を、音声再生装置1のミドルウェアに登録する。そして、スクリプト11を音声再生装置1のミドルウェアに登録し、再生を開始する(ステップS11,S12)。
【0058】
その再生においては、スクリプト11中に、ユーザ音色パラメータ12を指定する声質変更イベント(Xイベント)があるか監視する(ステップS13)。
ステップS13で声質変更イベントを見つけた場合、そのユーザ音色パラメータ12からモーラに割り付けられているフレーズIDを探し、フレーズIDに対応するデータをユーザフレーズ合成辞書13から読み取り、HVドライバが管理するデフォルト合成辞書19のデータのうち、該当するモーラの辞書データをユーザフレーズ合成辞書13のデータに置き換える(ステップS14)。
ステップS14の置き換え処理は、再生前に事前に行ってもよい。
【0059】
ステップS14が終了した場合、及び、ステップS13で声質変更イベントが見つからなかった場合は、コンバータ16がスクリプト11(ステップS14が行われた場合は該ステップS14の置き換え処理後のスクリプト)のモーラを解釈し、HVドライバを用いて最終的にフォルマントフレーム列のデータへコンバートする(ステップS15)。
次いで、ステップS15でコンバートされたデータを音源20により再生する(ステップS16)。
【0060】
次いで、スクリプト11が終了か否か判断し(ステップS17)、終了していない場合は上記ステップS13に戻り、終了した場合はユーザフレーズ辞書の再生動作を終了する。
【0061】
次に、図4に示すSMAFファイル30の制作方法について、図9を参照して説明する。図9は、SMAFファイル30の制作方法を示すフローチャートである。
先ず、図7に示す手順によりユーザフレーズ合成辞書13、ユーザ音色パラメータ12及びスクリプト11を制作する(ステップS21)。
【0062】
次いで、楽曲データ及びHVスクリプトの発音を制御するイベントを含んだSMFファイル41を制作する(ステップS22)。
次いで、図5に示すHVオーサリングツール42へSMFファイル41を入力し、HVオーサリングツール42によりSMFファイル41をSMAFファイル43(SMAFファイル30に相当)に変換する(ステップS23)。
【0063】
そして、ステップS21で作られたユーザ音色パラメータ12が図4に示すSMAFファイル30のHVチャンク36のHVセットアップ・データ・チャンク37へ入れられ、ステップS21で作られたユーザフレーズ合成辞書13が同SMAFファイル30のHVチャンク36のHVユーザ・フレーズ・辞書チャンク38へ入れられ、SMAFファイル30として出力される(ステップS24)。
【0064】
次に、SMAFファイル30の再生方法について図10を参照して説明する。図10は、SMAFファイル30の再生方法を示すフローチャートである。
先ず、SMAFファイル30を図1に示す音声再生装置1のミドルウェアに登録する(ステップS31)。
ここで、音声再生装置1は、通常、SMAFファイル30内の楽曲データの部分をミドルウェアの楽曲再生部に登録し、再生準備を行う。
【0065】
次いで、音声再生装置1は、SMAFファイル30にHVチャンク36があるか否か判断する(ステップS32)。
ステップS32でHVチャンク36があった場合、音声再生装置1はHVチャンク36の内容を解釈する(ステップS33)。
次いで、音声再生装置1は、ユーザ音色パラメータの登録、ユーザフレーズ合成辞書の登録及びスクリプトの登録をする(ステップS34)。
【0066】
ステップS32でHVチャンク36がなかった場合、もしくはステップ34における登録が終了した場合、音声再生装置1は楽曲部のチャンクを解釈する(ステップS35)。
次いで、音声再生装置1は、「スタート」信号に対応してシーケンス・データ・チャンク35内のシーケンスデータ(実演奏データ)の解釈をスタートさせることにより、楽曲再生を行う(ステップS36)。
【0067】
この再生において、音声再生装置1はシーケンスデータにおけるイベントを順次解釈する過程において、そのイベントがHVノートオンであるか否か判断する(ステップS37)。
ステップS37において、HVノートオンであった場合、音声再生装置1はそのHVノートオンで指定されているHVチャンクのHVスクリプトデータの再生を開始する(ステップS38)。
【0068】
このステップS38の後、音声再生装置1は図8に示すユーザフレーズ辞書の再生動作を行う。
すなわち、音声再生装置1はステップS38の再生において、ユーザ音色パラメータ12を指定する声質変更イベント(Xイベント)があるか監視する(ステップS39)。
【0069】
ステップS39で声質変更イベントを見つけた場合、そのユーザ音色パラメータ12からモーラに割り付けられているフレーズIDを探し、フレーズIDに対応するデータをユーザフレーズ合成辞書13から読み取り、HVドライバが管理するデフォルト合成辞書19のデータのうち、該当するモーラの辞書データをユーザフレーズ辞書データに置き換える(ステップS40)。
ステップS40の置き換え処理は、再生前に事前に行ってもよい。
【0070】
ステップS40が終了した場合、及び、ステップS39で声質変更イベントが見つからなかった場合は、コンバータ16がスクリプトのモーラを解釈し、HVドライバを用いて最終的にフォルマントフレーム列のデータへコンバートする(ステップS41)。
【0071】
次いで、音声再生装置1は、ステップS41でコンバートされたデータを音源20のHV部にて再生する(ステップS42)。
次いで、音声再生装置1は、楽曲が終了したか否か判断し(ステップS43)、楽曲が終了した場合はSMAFファイル30の再生を終了させ、楽曲が終了していない場合はステップS37に戻る。
【0072】
ステップS37において、イベントがHVノートオンでなかった場合、音声再生装置1はそのイベントを楽曲データとして、音源再生イベントデータにコンバートする(ステップS44)。
次いで、音声再生装置1は、ステップS44でコンバートされたデータを音源20の楽曲部にて再生する(ステップS45)。
【0073】
これらにより、本実施形態によれば、FM音源のリソースを用いてフォルマント合成により再生する方法において、以下の3つの利点がある。
第1に、本実施形態によれば、ユーザが好みのフレーズを割り付けることができる。これにより、固定辞書に依存することなく、好みの声色により近づけた再生をすることができる。
第2に、本実施形態によれば、デフォルト合成辞書19の一部をユーザフレーズ合成辞書13で置き換えるため、音声再生装置1においてデータ容量が過大に増加することを回避することができる。また、デフォルト合成辞書19の一部を任意のフレーズに置き換えることもできるため、フレーズ単位の発音をすることができ、従来の発音単位の合成音声で生じる各発音のつなぎ目での違和感をなくすことができる。
第3に、本実施形態によれば、HVスクリプトにおいて任意のフレーズ指定をすることができるので、モーラ単位の合成とフレーズ単位の発音を併用することができる。
【0074】
さらに、本実施形態によれば、フレーズを予めサンプリングして構成した波形データを再生する方法に比べて、フォルマントレベルで声色変化させることができる。そして、本実施形態によれば、データサイズ及び品質はフレームレートによるが、サンプリング波形データに比べてはるかに少ないデータ容量で高品質な再生をすることができる。したがって、例えば、本実施形態の音声再生装置1を携帯電話などの携帯通信端末に組み込むことが容易に実行でき、電子メールの内容などを高品質な音声で再生することもできる。
【0075】
以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
【0076】
【発明の効果】
以上説明したように、本発明によれば、合成辞書に発音単位で保持されているデータを任意のユーザデータに置き換えることができるので、所望のフレーズを品質のよい音声で再生することができる。
【図面の簡単な説明】
【図1】本発明の実施形態に係る音声再生装置を示すブロック図である。
【図2】発音単位毎にフレーズIDを割り付けた例を示す図である。
【図3】ユーザフレーズ合成辞書の内容例を示す図である。
【図4】SMAFファイルのフォーマットを示す図である。
【図5】HVオーサリングツールの一例を示す機能イメージ図である。
【図6】本実施形態の音声再生装置を備える携帯通信端末の一例を示すブロック図である。
【図7】ユーザフレーズ合成辞書の制作方法のフローチャートである。
【図8】ユーザフレーズ合成辞書の再生動作のフローチャートである。
【図9】SMAFファイルの制作方法を示すフローチャートである。
【図10】SMAFファイル30の再生方法のフローチャートである。
【符号の説明】
1…音声再生装置、11…スクリプト、12…ユーザ音色パラメータ、13…ユーザフレーズ合成辞書(可変長)、14…アプリケーション、15…ミドルウェアAPI、16…コンバータ、17…ドライバ、18…デフォルト音色パラメータ、19…デフォルト合成辞書、20…音源、30…SMAFファイル、31…コンテンツ・インフォ・チャンク、32…オプショナル・データ・チャンク、33…トラック・チャンク、34…セットアップ・データ・チャンク、35…シーケンス・データ・チャンク、36…HVチャンク、37…HVセットアップ・データ・チャンク、38…HVユーザ・フレーズ・辞書チャンク、39…HV−Sチャンク、41…SMFファイル、42…HVオーサリングツール、43…SMAFファイル、44…HVスクリプトUI、45…HVボイスエディタ、46…波形分析器、47…HVスクリプトファイル、48…HVユーザ音色ファイル、49…HVユーザ合成辞書ファイル、50…サウンドファイル
Claims (7)
- 予め発音単位に対応するフォルマントフレームデータを保持するデータベースである合成辞書を有して、発音単位が羅列された情報が与えられることにより前記合成辞書を用いて音声合成する音声再生装置において、
前記合成辞書に保持されている発音単位のフォルマントフレームデータを任意のユーザデータに置き換える置換手段と、
前記発音単位が羅列された情報が与えられたときに、前記置換手段によって保持データが置き換えられた前記合成辞書を用いて音声を合成する音声合成手段とを有することを特徴とする音声再生装置。 - 前記ユーザデータは、フレーズ単位で取得されたフォルマントフレームデータであることを特徴とする請求項1記載の音声再生装置。
- 前記ユーザデータは、前記合成辞書に保持されるフォルマントフレームデータを加工する音色パラメータに付加されていることを特徴とする請求項1又は2記載の音声再生装置。
- 前記置換手段は、前記ユーザデータが付加されている音色パラメータが与えられ、かつ、再生時に該音色パラメータが指定されたときに、前記合成辞書の保持データであるフォルマントフレームデータを、前記ユーザデータに置き換え、
前記音声合成手段は、音声単位の羅列情報が与えられたときに、前記音色パラメータにより置き換えられた合成辞書を用いて音声合成することを特徴とする請求項1乃至3のいずれか一項に記載の音声再生装置。 - 前記音声再生装置は、
楽曲及び音声を同期させて所望データを再生するための情報構造を定義したデータ交換フォーマットに、前記ユーザデータを含ませ、該データ交換フォーマットを用いて音声を合成するものであることを特徴とする請求項1乃至4のいずれか一項に記載の音声再生装置。 - 前記音声再生装置は、
前記データ交換フォーマットとして構成された情報に含まれる楽曲部情報についてはそのまま再生し、該情報に含まれる音声情報については前記置換手段及び前記音声合成手段を用いて再生するものであることを特徴とする請求項5に記載の音声再生装置。 - 前記データ交換フォーマットは、音声パラメータに前記ユーザデータを付加した情報を構成要素とすることを特徴とする請求項5又は6記載の音声再生装置。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003152895A JP4244706B2 (ja) | 2003-05-29 | 2003-05-29 | 音声再生装置 |
TW093115132A TWI265718B (en) | 2003-05-29 | 2004-05-27 | Speech and music reproduction apparatus |
KR1020040038415A KR100612780B1 (ko) | 2003-05-29 | 2004-05-28 | 음성 및 악곡 재생 장치 |
CNB2004100474146A CN1310209C (zh) | 2003-05-29 | 2004-05-28 | 语音和乐曲再生装置 |
HK05101981A HK1069433A1 (en) | 2003-05-29 | 2005-03-08 | Speech and music reproduction apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003152895A JP4244706B2 (ja) | 2003-05-29 | 2003-05-29 | 音声再生装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004354748A true JP2004354748A (ja) | 2004-12-16 |
JP4244706B2 JP4244706B2 (ja) | 2009-03-25 |
Family
ID=34047998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003152895A Expired - Fee Related JP4244706B2 (ja) | 2003-05-29 | 2003-05-29 | 音声再生装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4244706B2 (ja) |
-
2003
- 2003-05-29 JP JP2003152895A patent/JP4244706B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP4244706B2 (ja) | 2009-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7230177B2 (en) | Interchange format of voice data in music file | |
JP6645956B2 (ja) | 携帯用音声合成のためのシステム及び方法 | |
US8816180B2 (en) | Systems and methods for portable audio synthesis | |
JP4168621B2 (ja) | 歌唱音声合成を用いた携帯電話装置及び携帯電話システム | |
JP2000194360A (ja) | 音の電子的発生方法及び装置 | |
EP2704092A2 (en) | System for creating musical content using a client terminal | |
JP2000105595A (ja) | 歌唱装置及び記録媒体 | |
JP2001215979A (ja) | カラオケ装置 | |
KR100634142B1 (ko) | 휴대 단말 장치 | |
JP2002196779A (ja) | 音声信号の楽音変更のための方法と装置 | |
JP4244706B2 (ja) | 音声再生装置 | |
JP2001195068A (ja) | 携帯用端末装置、楽音情報利用システム及び基地局 | |
KR100612780B1 (ko) | 음성 및 악곡 재생 장치 | |
KR100731232B1 (ko) | 악곡 데이터 편집 재생 장치 및 휴대 정보 단말기 | |
JP2005208394A (ja) | 歌声生成装置、そのプログラム並びに歌声生成機能を有する携帯通信端末 | |
JP2003029774A (ja) | 音声波形辞書配信システム、音声波形辞書作成装置、及び音声合成端末装置 | |
JP2005156946A (ja) | 楽曲再生装置、音声再生装置、楽曲及び音声を再生する方法及びそのプログラム | |
JP2000231396A (ja) | セリフデータ作成装置、セリフ再生装置、音声分析合成装置及び音声情報転送装置 | |
JP2005107136A (ja) | 音声および楽曲再生装置 | |
JP2004294795A (ja) | 楽音合成制御データ、該データを記録した記録媒体、データ作成装置、プログラム及び楽音合成装置 | |
JP2004341338A (ja) | カラオケシステム、カラオケ再生方法および車両 | |
JP2004157238A (ja) | 携帯端末 | |
KR20080080013A (ko) | 휴대 단말 장치 | |
JP2004144814A (ja) | ブレス音合成方法、ブレス音合成装置およびプログラム | |
JP2004240333A (ja) | 音声生成方法及び音声生成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060123 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081007 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081014 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081121 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081216 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081229 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120116 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130116 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140116 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |