JP2003295880A

JP2003295880A - 録音音声と合成音声を接続する音声合成システム

Info

Publication number: JP2003295880A
Application number: JP2002093189A
Authority: JP
Inventors: Wataru Imatake; 渉今竹
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2002-03-28
Filing date: 2002-03-28
Publication date: 2003-10-15
Also published as: US20030187651A1

Abstract

(57)【要約】【課題】録音済みの音声データと合成された音声デー
タを接続して自然な音声データを生成する。【解決手段】解析手段４２は、入力された文字列を解
析して、録音済み音声を用いる部分と合成音声を用いる
部分とを決定する。抽出手段４３は、格納手段４１から
録音済み音声を用いる部分のための音声データを取り出
し、その特徴量を抽出する。合成手段４４は、合成音声
を用いる部分のための音声データを、抽出された特徴量
に合わせて合成し、出力手段４５は、これらの音声デー
タを接続して出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、あらかじめ録音さ
れた音声データと合成された音声データを接続した音声
データを生成する音声合成システムに関する。

【０００２】

【従来の技術】従来の音声合成システムでは、音声合成
によって作成した「音声合成データ」と、あらかじめ録
音済みの「蓄積データ」とが、シーケンシャルに接続さ
れて、１つの音声データが作成される。

【０００３】図２１は、このような音声データの例を示
している。図２１において可変部１１、１３の音声デー
タは音声合成データに対応し、定型部１２、１４の音声
データは蓄積データに対応する。可変部１１、定型部１
２、可変部１３、および定型部１４の音声データをシー
ケンシャルに接続することで、１つの音声データが作成
される。

【０００４】図２２は、従来の音声合成システムの構成
図である。図２２の音声合成システムは、文字列解析部
２１、蓄積データ取り出し部２２、蓄積データベース２
３、音声合成データ作成部２４、波形辞書２５、および
波形接続部２６を備える。

【０００５】文字列解析部２１は、入力された文字列３
１のうち、どの部分に対して蓄積データを用いるか、ど
の部分に対して音声合成データを用いるかを決定する。
蓄積データ取り出し部２２は、蓄積データベース２３か
ら必要な蓄積データ３２を取り出し、音声合成データ作
成部２４は、波形辞書２５から波形データを取り出して
音声合成データ３３を作成する。そして、波形接続部２
６は、入力された蓄積データ３２と音声合成データ３３
を接続して、音声データ３４を作成する。

【０００６】このように蓄積データと音声合成データを
接続して音声データを生成する方法の他に、蓄積データ
または音声合成データのみを用いて、入力された文字列
の音声データを生成する方法もある。これらの方法の特
徴をまとめると、図２３のようになる。

【０００７】音声合成データのみの方法では、音声デー
タのバリエーションは多く、作成工数は少ないというメ
リットがあるが、蓄積データに比較して音質が低くな
る。逆に、蓄積データのみの方法では、音質は高いとい
うメリットがあるが、バリエーションは少なくなり、作
成工数が多くなる。

【０００８】これに対して、両方のデータを併用する方
法のメリットは、定型文章の一部の単語を入れ替えてさ
まざまな音声データを作成する場合、蓄積データを使用
する部分については音質を保証しやすく、かつ、録音作
業と作成可能な音声データのバリエーションのバランス
が優れている点にある。

【０００９】

【発明が解決しようとする課題】しかしながら、従来の
音声合成システムには、次のような問題がある。図２２
の音声合成システムにおいては、音声合成データと蓄積
データが単純にシーケンシャルに接続されるだけであ
る。波形辞書の波形データの元となる収録音声と蓄積デ
ータの収録音声は、通常、別々のナレーターによるもの
となることが多く、このため、音声合成データと蓄積デ
ータの間に音質の不連続性が生じてしまう。したがっ
て、これらを単純に接続しただけでは、全体に自然な音
声データが得られない。

【００１０】本発明の課題は、録音済みの音声データと
合成された音声データを接続して自然な音声データを生
成する音声合成システムを提供することである。

【００１１】

【課題を解決するための手段】図１は、本発明の音声合
成システムの原理図である。図１の音声合成システム
は、格納手段４１、解析手段４２、抽出手段４３、合成
手段４４、および出力手段４５を備える。

【００１２】格納手段４１は、複数の部分文字列のそれ
ぞれに対応して録音済みの音声データを格納し、解析手
段４２は、入力された文字列を解析して、録音済み音声
を用いる部分文字列と合成音声を用いる部分文字列とを
決定する。抽出手段４３は、格納手段４１から録音済み
音声を用いる部分文字列のための音声データを取り出
し、取り出された音声データの特徴量を抽出する。合成
手段４４は、合成音声を用いる部分文字列のための音声
データを、抽出された特徴量に合わせて合成し、出力手
段４５は、取り出された音声データと合成された音声デ
ータを接続して出力する。

【００１３】解析手段４２は、入力された文字列のう
ち、録音済み音声を用いる部分文字列を抽出手段４３に
渡し、合成音声を用いる部分文字列を合成手段４４に渡
す。抽出手段４３は、解析手段４２から受け取った部分
文字列に対応する音声データを格納手段４１から取り出
し、その音声データの特徴量を抽出して合成手段４４に
渡す。合成手段４４は、解析手段４２から受け取った部
分文字列に対応する音声データを、抽出手段４３から受
け取った特徴量に合わせて合成する。そして、出力手段
４５は、抽出手段４３が取り出した音声データと合成手
段４４が合成した音声データを接続して出力音声データ
を生成し、そのデータを出力する。

【００１４】このような音声合成システムによれば、録
音済みの音声データと合成された音声データの特徴量の
差異が小さくなるため、これらの音声データの不連続性
が少なくなる。したがって、より自然な音声データを再
生することができる。

【００１５】図１の格納手段４１は、例えば、後述する
図２、４、および６の蓄積データベース５３に対応し、
解析手段４２は、例えば、図２、４、および６の文字列
解析部５１に対応する。また、抽出手段４３は、例え
ば、図２、４、および６の蓄積データ取り出し部５２
と、図２のピッチ計測部５４、図４のボリューム計測部
７１、および図６のスピード計測部８１に対応する。ま
た、合成手段４４は、例えば、図２、４、および６の音
声合成データ作成部５６に対応し、出力手段４５は、例
えば、図２、４、および６の波形接続部５８に対応す
る。

【００１６】

【発明の実施の形態】以下、図面を参照しながら、本発
明の実施の形態を詳細に説明する。本実施形態のハイブ
リッド音声合成システムでは、音声合成データを生成す
る前に、蓄積データとして用いる音声データの特徴量を
あらかじめ抽出しておき、その特徴量にあわせて音声合
成データを生成する。これにより、最終的に生成される
音声データの音質の不連続性を減少させることができ
る。

【００１７】音声データの特徴量としては、ベースピッ
チ、ボリューム、スピード等が用いられる。ベースピッ
チは、音声の高さを表し、ボリュームは、音声のパワー
を表し、スピードは、音声の発話速度を表す。

【００１８】例えば、蓄積データから抽出されたベース
ピッチ周波数を、音声合成のパラメータとして用いるこ
とにより、そのベースピッチ周波数に合わせた音声合成
データを作成することができる。これにより、同じベー
スピッチ周波数を持つ音声合成データと蓄積データとを
シーケンシャルに接続することができ、最終的に生成さ
れる音声データのベースピッチ周波数が統一される。し
たがって、音声合成データと蓄積データとの間の音質の
差異が少なくなり、より自然な音声データが得られる。

【００１９】また、蓄積データから抽出されたボリュー
ムを、音声合成のパラメータとして用いることにより、
そのボリュームに合わせた音声合成データを作成するこ
とができる。この場合、最終的に生成される音声データ
のボリュームが統一され、音声合成データと蓄積データ
との間の音質の差異が少なくなる。

【００２０】また、蓄積データから抽出されたスピード
を、音声合成のパラメータとして用いることにより、そ
のスピードに合わせた音声合成データを作成することが
できる。この場合、最終的に生成される音声データのス
ピードが統一され、音声合成データと蓄積データとの間
の音質の差異が少なくなる。

【００２１】図２は、ベースピッチ周波数を特徴量とし
て用いたハイブリッド音声合成システムの構成図であ
る。図２の音声合成システムは、文字列解析部５１、蓄
積データ取り出し部５２、蓄積データベース５３、ピッ
チ計測部５４、ピッチ設定部５５、音声合成データ作成
部５６、波形辞書５７、および波形接続部５８を備え
る。

【００２２】蓄積データベース５３は、録音済みの音声
データ（蓄積データ）と文字列とが対となって格納され
ているデータベースであり、波形辞書５７は、音素単位
の波形データが格納されているデータベースである。

【００２３】文字列解析部５１は、入力された文字列６
１のうち、どの部分に対して蓄積データを用いるか、ど
の部分に対して音声合成データを用いるかを決定して、
決定された部分文字列に応じて蓄積データ取り出し部５
２あるいは音声合成データ作成部５６を呼び出す。

【００２４】蓄積データ取り出し部５２は、文字列６１
の部分文字列に対応する蓄積データ６２を蓄積データベ
ース５３から取り出し、ピッチ計測部５４は、蓄積デー
タ６２のベースピッチ周波数を計測して、ピッチデータ
６３を出力する。ピッチ設定部５５は、入力されたピッ
チデータ６３のベースピッチ周波数を音声合成データ作
成部５６に設定する。

【００２５】音声合成データ作成部５６は、文字列６１
の部分文字列と設定されたベースピッチ周波数を元に、
波形辞書５７から対応する波形データを取り出して音声
合成データ６４を作成する。そして、波形接続部５８
は、入力された蓄積データ６２と音声合成データ６４を
接続して音声データ６５を作成し、それを出力する。

【００２６】図３は、図２の音声合成システムによる音
声合成処理の一例を示すフローチャートである。まず、
文字列解析部５１に対して文字列６１が入力されると
（ステップＳ１）、文字列解析部５１は、現在の文字位
置を示すポインタを入力文字列の先頭文字に設定し（ス
テップＳ２）、ポインタが文字列の末尾を指しているか
否かをチェックする（ステップＳ３）。ポインタが文字
列の末尾を指していれば、入力文字列のすべての文字に
ついて、蓄積データとのマッチング処理が終了したこと
になる。

【００２７】ポインタが末尾を指していなければ、蓄積
データ取り出し部５２を呼び出し、現在の文字位置から
蓄積データにマッチする文字列を検索して（ステップＳ
４）、蓄積データと部分文字列がマッチするか否かをチ
ェックする（ステップＳ５）。蓄積データと部分文字列
がマッチしなければ、ポインタを一文字分だけ後ろにシ
フトして（ステップＳ６）、ステップＳ３以降の処理を
繰り返すことで、次にマッチする文字列を調べる。

【００２８】ステップＳ５において蓄積データと部分文
字列がマッチすれば、蓄積データ取り出し部５２は、蓄
積データベース５３から対応する蓄積データ６２を取り
出す（ステップＳ７）。そして、文字列解析部５１は、
ポインタをマッチした文字列長分だけ後ろにシフトして
（ステップＳ８）、ステップＳ３以降の処理を繰り返す
ことで、次にマッチする文字列を調べる。

【００２９】ステップＳ３においてポインタが末尾を指
していれば、マッチング処理を終了し、次に、ピッチ計
測部５４は、蓄積データとして取り出されたデータがあ
るか否かをチェックする（ステップＳ９）。蓄積データ
が取り出されていれば、取り出されたすべての蓄積デー
タについてベースピッチ周波数を計測し、その平均値を
計算する（ステップＳ１０）。そして、得られた平均値
を、ピッチデータ６３としてピッチ設定部５５に出力す
る。

【００３０】ピッチ設定部５５は、ベースピッチ周波数
の平均値を、音声合成のパラメータとして音声合成デー
タ作成部５６に設定し（ステップＳ１１）、音声合成デ
ータ作成部５６は、蓄積データとマッチしなかった文字
列について、設定されたベースピッチ周波数を有する音
声合成データ６４を作成する（ステップＳ１２）。そし
て、波形接続部５８は、得られた蓄積データ６２と音声
合成データ６４を接続して音声データを作成し、それを
出力する（ステップＳ１３）。

【００３１】ステップＳ９において蓄積データがなけれ
ば、ステップＳ１２以降の処理が行われ、音声合成デー
タ６４のみを用いて音声データが作成される。次に、図
４は、ボリュームを特徴量として用いたハイブリッド音
声合成システムの構成図である。図４において、図２と
同様の構成要素については、図２と同じ符号が付されて
いる。この場合、図２のピッチ計測部５４およびピッチ
設定部５５の代わりに、ボリューム計測部７１およびボ
リューム設定部７３が設けられ、例えば、図５に示すよ
うな音声合成処理が行われる。

【００３２】図５において、ステップＳ２１〜Ｓ２９、
Ｓ３２、およびＳ３３の処理は、図３のステップＳ１〜
Ｓ９、Ｓ１２、およびＳ１３の処理と同様である。ステ
ップＳ２９において蓄積データが取り出されていれば、
ボリューム計測部７１は、取り出されたすべての蓄積デ
ータについてボリュームを計測し、その平均値を計算す
る（ステップＳ３０）。そして、得られた平均値を、ボ
リュームデータ７２としてボリューム設定部７３に出力
する。

【００３３】ボリューム設定部７３は、ボリュームの平
均値を、音声合成のパラメータとして音声合成データ作
成部５６に設定し（ステップＳ３１）、音声合成データ
作成部５６は、蓄積データとマッチしなかった文字列に
ついて、設定されたボリュームを有する音声合成データ
６４を作成する（ステップＳ３２）。

【００３４】また、図６は、スピードを特徴量として用
いたハイブリッド音声合成システムの構成図である。図
６において、図２と同様の構成要素については、図２と
同じ符号が付されている。この場合、図２のピッチ計測
部５４およびピッチ設定部５５の代わりに、スピード計
測部８１およびスピード設定部８３が設けられ、例え
ば、図７に示すような音声合成処理が行われる。

【００３５】図７において、ステップＳ４１〜Ｓ４９、
Ｓ５２、およびＳ５３の処理は、図３のステップＳ１〜
Ｓ９、Ｓ１２、およびＳ１３の処理と同様である。ステ
ップＳ４９において蓄積データが取り出されていれば、
スピード計測部８１は、取り出されたすべての蓄積デー
タについてスピードを計測し、その平均値を計算する
（ステップＳ５０）。そして、得られた平均値を、スピ
ードデータ８２としてスピード設定部８３に出力する。

【００３６】スピード設定部８３は、スピードの平均値
を、音声合成のパラメータとして音声合成データ作成部
５６に設定し（ステップＳ５１）、音声合成データ作成
部５６は、蓄積データとマッチしなかった文字列につい
て、設定されたスピードを有する音声合成データ６４を
作成する（ステップＳ５２）。

【００３７】図３のステップＳ１０において、ピッチ計
測部５４は、すべての蓄積データのベースピッチ周波数
の平均値をピッチデータ６３として出力しているが、他
の方法でピッチデータを求めることも可能である。例え
ば、複数のベースピッチ周波数から所定の方法で選択さ
れた値（最大値、最小値等）や、複数のベースピッチ周
波数から所定の演算方法で算出された値を、ピッチデー
タとしてもよい。図５のステップＳ３０におけるボリュ
ームデータ７２の生成方法と、図７のステップＳ５０に
おけるスピードデータ８２の生成方法についても同様で
ある。

【００３８】また、図２、４、および６のシステムで
は、蓄積データの１つの特徴量を音声合成のパラメータ
として用いているが、２つ以上の特徴量を用いたシステ
ムを構成することも可能である。例えば、ベースピッチ
周波数、ボリューム、およびスピードの３つの特徴量を
用いた場合、蓄積データからこれらの特徴量が抽出さ
れ、音声合成データ作成部５６に設定される。そして、
音声合成データ作成部５６は、設定されたベースピッチ
周波数、ボリューム、およびスピードを有する音声合成
データを作成する。

【００３９】次に、図８から図１８までを参照しなが
ら、ピッチ計測部５４、ボリューム計測部７１、スピー
ド計測部８１、および音声合成データ作成部５６の処理
の具体例を説明する。

【００４０】まず、ピッチ計測部５４は、例えば、ピッ
チの分布を元に蓄積データのベースピッチ周波数を計算
する。ピッチの分布を求める方法としては、自己相関に
よる方法や、スペクトルを検出してケプストラムに変換
することにより求める方法等が広く知られている。以下
では、一例として、自己相関による方法を簡単に説明す
る。

【００４１】蓄積データは、例えば、図８に示すような
波形データである。図８において、横軸は時間を表し、
縦軸は音声のレベルを表す。このような波形データを任
意のフレームで区切り、そのフレームを元の位置から任
意の長さだけ時間軸方向の前方（左）にずらした位置か
ら、１サンプルずつ前に移動しながら、そのフレームの
データと移動先の位置に元から存在するデータとの相関
値を計算する。具体的には以下のようになる。

【００４２】図９は、フレームサイズを０．００５秒と
し、先頭から４つ目のフレーム９１に注目したことを示
している。もし、先頭フレームに注目する場合は、先頭
フレームの前方にゼロデータが存在することを前提とし
て計算を行う。

【００４３】図１０は、注目フレーム９１との相関を取
る対象フレーム９２を示している。この対象フレーム９
２は、元のフレーム９１を任意のサンプル数（通常フレ
ームサイズより小さい）だけ前にずらした領域に対応
し、そのサイズはフレームサイズと等しい。

【００４４】次に、注目フレーム９１と対象フレーム９
２の間で自己相関を計算する。自己相関は、注目フレー
ム９１の各サンプルの値と対象フレーム９２の各サンプ
ルの値を乗算した結果を、１つのフレームに含まれる全
サンプル数分加算し、加算結果を注目フレーム９１のパ
ワー（サンプルの二乗和を加算して時間で割ったもの）
および対象フレーム９２のパワーで割った値である。こ
の自己相関は、±１の範囲内の浮動小数点で表される。

【００４５】相関計算が終わると、図１１に示すよう
に、対象フレーム９２を１サンプル分時間軸方向の前方
にずらし、同様に自己相関を計算する。ただし、図１１
では、便宜的に１サンプル以上前にずれたフレームが示
されている。

【００４６】このような処理を、対象フレーム９２を任
意の位置ｎまで移動しながら繰り返すことにより、図１
２のような自己相関の配列が得られる。この自己相関の
配列の中から、自己相関の値が最大となった対象フレー
ム９２の位置をピッチ位置として抽出する。

【００４７】同様の処理を、注目フレーム９１を後ろに
ずらしながら繰り返すことにより、注目フレーム９１の
各位置におけるピッチ位置が計算され、図１３のような
ピッチの分布が求められる。

【００４８】次に、得られたピッチの分布に対して、正
常にピッチ位置が抽出されていないデータを除くため、
統計的に最小値から＋５％の範囲および最大値から−５
％の範囲に含まれるデータを破棄する。そして、残され
たデータの中央に位置するピッチ位置に対応する周波数
を、ベースピッチ周波数として算出する。

【００４９】ボリューム計測部７１は、蓄積データのボ
リュームの平均値を計算する。例えば、蓄積データの各
サンプルの二乗をすべて加算（二乗和）して蓄積データ
の時間で割った値を、対数表現とすれば、ｄＢ（デシベ
ル）単位のボリュームが求められる。

【００５０】しかし、実際の蓄積データは、図１４に示
すように、多くの無音部分を含んでいる。図５の蓄積デ
ータでは、データの先頭および末尾の部分と、最後のデ
ータの塊の直前が無音部分に対応する。このようなデー
タをそのまま処理すると、同じ発声内容であっても、無
音部分を多く含む蓄積データのボリューム値は低くな
り、無音部分をほとんど含まない蓄積データのボリュー
ム値は高くなってしまう。

【００５１】このような現象を防ぐため、通常は、蓄積
データの全サンプルについて二乗和を求めるのではな
く、有音部分についてのみ二乗和を求め、その値を有音
部分の時間長で除算する、といった処理を入れることが
多い。

【００５２】スピード計測部８１は、蓄積データのスピ
ードを計算する。音声のスピードは、１秒間あたりのモ
ーラ数やシラブル数等で表現される。例えば、日本語の
場合はモーラ数が用いられ、英語の場合はシラブル数が
用いられる。

【００５３】スピードを求めるには、対象となる蓄積デ
ータの読み文字列が判明していればよい。読み文字列
は、通常、入力された文字列に対して音声合成の言語処
理を行うことにより得ることができる。

【００５４】例えば、図１５ような蓄積データの発声内
容が日本語の「松原」の場合、音声合成の言語処理によ
り、読み文字列「マツバラ」を得ることが出来る。「マ
ツバラ」は４モーラであり、図１５の蓄積データの長さ
は約０．７５秒なので、除算により、スピードは約５．
３モーラ／秒となる。

【００５５】音声合成データ作成部５６は、設定された
ベースピッチ周波数、ボリューム、スピード等のパラメ
ータに合わせて音声合成を行う。ここでは、一例とし
て、ベースピッチ周波数に合わせて音声合成を行う処理
を説明する。

【００５６】音声合成にはさまざまな方法があるが、こ
こでは、波形接続方式の音声合成について簡単に説明す
る。この方法では、あらかじめ各音素の波形データを波
形辞書として保持し、それらの音素波形を入力文字列に
応じて接続することにより、音声合成データが生成され
る。

【００５７】音素の波形は、例えば、図１６のような波
形である。図１６は、音素「マ」の波形を表しており、
「マ」の子音に相当する部分は、図１７に示されている
領域９３である。残りの部分は、「マ」の母音である
「ア」に相当する波形の繰り返しとなる。

【００５８】波形接続方式では、例えば、図１７の領域
９３に相当する波形と、図１８に示すような「マ」の母
音部分の１周期分の領域９４に相当する音声波形とを用
意しておく。そして、生成したい音声データに応じて、
これらの波形を接続する。

【００５９】このとき、音声データのピッチ（音声の高
さ）は、複数の母音部分を配置する間隔によって変動
し、間隔が狭いほどピッチは高くなり、間隔が広いほど
ピッチは低くなる。この間隔の逆数をピッチ周波数とい
う。ピッチ周波数は、個人毎に特有のベースピッチ周波
数に、読み上げる文章の内容によって決定されるフレー
ズ成分、アクセント成分、および文末成分をそれぞれ加
算することによって、求めることができる。

【００６０】したがって、ベースピッチ周波数があらか
じめ与えられている場合、そのベースピッチ周波数から
計算されるピッチ周波数を求め、ピッチ周波数に応じて
音素波形を配置することにより、ベースピッチ周波数を
合わせた音声合成データが生成される。

【００６１】ピッチ計測部５４、ボリューム計測部７
１、およびスピード計測部８１の計測方法と音声合成デ
ータ作成部５６の音声合成方法は上述した方法には限ら
れず、他の任意のアルゴリズム採用することができる。

【００６２】また、本発明の音声合成処理は、日本語文
字列だけでなく、英語、ドイツ語、フランス語、中国
語、韓国語を含むあらゆる言語の文字列に対して適用で
きる。ところで、図２、４、および６の音声合成システ
ムは、例えば、図１９に示すような情報処理装置（コン
ピュータ）を用いて構成される。図１９の情報処理装置
は、ＣＰＵ（中央処理装置）１０１、メモリ１０２、入
力装置１０３、出力装置１０４、外部記憶装置１０５、
媒体駆動装置１０６、およびネットワーク接続装置１０
７を備え、それらはバス１０８により互いに接続されて
いる。

【００６３】メモリ１０２は、例えば、ＲＯＭ（read o
nly memory）、ＲＡＭ（random access memory）等を含
み、処理に用いられるプログラムとデータを格納する。
ＣＰＵ１０１は、メモリ１０２を利用してプログラムを
実行することにより、必要な処理を行う。

【００６４】この場合、図２の文字列解析部５１、蓄積
データ取り出し部５２、ピッチ計測部５４、ピッチ設定
部５５、音声合成データ作成部５６、および波形接続部
５８と、図４のボリューム計測部７１およびボリューム
設定部７３と、図６のスピード計測部８１およびスピー
ド設定部８３は、メモリ１０２に格納されたプログラム
に対応する。

【００６５】入力装置１０３は、例えば、キーボード、
ポインティングデバイス、タッチパネル等であり、オペ
レータからの指示や情報の入力に用いられる。出力装置
１０４は、例えば、スピーカ等であり、音声データの出
力に用いられる。

【００６６】外部記憶装置１０５は、例えば、磁気ディ
スク装置、光ディスク装置、光磁気ディスク装置、テー
プ装置等である。情報処理装置は、この外部記憶装置１
０５に、上述のプログラムとデータを保存しておき、必
要に応じて、それらをメモリ１０２にロードして使用す
る。また、外部記憶装置１０５は、図２の蓄積データベ
ース５３および波形辞書５７のデータを格納するために
も用いられる。

【００６７】媒体駆動装置１０６は、可搬記録媒体１０
９を駆動し、その記録内容にアクセスする。可搬記録媒
体１０９としては、メモリカード、フレキシブルディス
ク、ＣＤ−ＲＯＭ（compact disk read only memory
）、光ディスク、光磁気ディスク等、任意のコンピュ
ータ読み取り可能な記録媒体が用いられる。オペレータ
は、この可搬記録媒体１０９に上述のプログラムとデー
タを格納しておき、必要に応じて、それらをメモリ１０
２にロードして使用する。

【００６８】ネットワーク接続装置１０７は、ＬＡＮ
（local area network）等の任意の通信ネットワークに
接続され、通信に伴うデータ変換を行う。情報処理装置
は、上述のプログラムとデータをネットワーク接続装置
１０７を介して他の装置から受け取り、必要に応じて、
それらをメモリ１０２にロードして使用する。

【００６９】図２０は、図１９の情報処理装置にプログ
ラムとデータを供給することのできるコンピュータ読み
取り可能な記録媒体を示している。可搬記録媒体１０９
やサーバ１１０のデータベース１１１に保存されたプロ
グラムとデータは、メモリ１０２にロードされる。この
とき、サーバ１１０は、プログラムとデータを搬送する
搬送信号を生成し、ネットワーク上の任意の伝送媒体を
介して情報処理装置に送信する。そして、ＣＰＵ１０１
は、そのデータを用いてそのプログラムを実行し、必要
な処理を行う。（付記１）複数の部分文字列のそれぞれに対応して録
音済みの音声データを格納する格納手段と、入力された
文字列を解析して、録音済み音声を用いる部分文字列と
合成音声を用いる部分文字列とを決定する解析手段と、
前記格納手段から前記録音済み音声を用いる部分文字列
のための音声データを取り出し、取り出された音声デー
タの特徴量を抽出する抽出手段と、前記合成音声を用い
る部分文字列のための音声データを、抽出された特徴量
に合わせて合成する合成手段と、前記取り出された音声
データと合成された音声データを接続して出力する出力
手段とを備えることを特徴とする音声合成システム。（付記２）複数の部分文字列のそれぞれに対応して録
音済みの音声データを格納する格納手段と、入力された
文字列を解析して、録音済み音声を用いる部分文字列と
合成音声を用いる部分文字列とを決定する解析手段と、
前記格納手段から前記録音済み音声を用いる部分文字列
のための音声データを取り出し、取り出された音声デー
タのベースピッチを抽出する抽出手段と、前記合成音声
を用いる部分文字列のための音声データを、抽出された
ベースピッチに合わせて合成する合成手段と、前記取り
出された音声データと合成された音声データを接続して
出力する出力手段とを備えることを特徴とする音声合成
システム。（付記３）複数の部分文字列のそれぞれに対応して録
音済みの音声データを格納する格納手段と、入力された
文字列を解析して、録音済み音声を用いる部分文字列と
合成音声を用いる部分文字列とを決定する解析手段と、
前記格納手段から前記録音済み音声を用いる部分文字列
のための音声データを取り出し、取り出された音声デー
タのボリュームを抽出する抽出手段と、前記合成音声を
用いる部分文字列のための音声データを、抽出されたボ
リュームに合わせて合成する合成手段と、前記取り出さ
れた音声データと合成された音声データを接続して出力
する出力手段とを備えることを特徴とする音声合成シス
テム。（付記４）複数の部分文字列のそれぞれに対応して録
音済みの音声データを格納する格納手段と、入力された
文字列を解析して、録音済み音声を用いる部分文字列と
合成音声を用いる部分文字列とを決定する解析手段と、
前記格納手段から前記録音済み音声を用いる部分文字列
のための音声データを取り出し、取り出された音声デー
タのスピードを抽出する抽出手段と、前記合成音声を用
いる部分文字列のための音声データを、抽出されたスピ
ードに合わせて合成する合成手段と、前記取り出された
音声データと合成された音声データを接続して出力する
出力手段とを備えることを特徴とする音声合成システ
ム。（付記５）複数の部分文字列のそれぞれに対応して録
音済みの音声データを格納する格納手段と、入力された
文字列を解析して、録音済み音声を用いる部分文字列と
合成音声を用いる部分文字列とを決定する解析手段と、
前記格納手段から前記録音済み音声を用いる部分文字列
のための音声データを取り出し、取り出された音声デー
タのベースピッチ、ボリューム、およびスピードを抽出
する抽出手段と、前記合成音声を用いる部分文字列のた
めの音声データを、抽出されたベースピッチ、ボリュー
ム、およびスピードに合わせて合成する合成手段と、前
記取り出された音声データと合成された音声データを接
続して出力する出力手段とを備えることを特徴とする音
声合成システム。（付記６）入力された文字列を解析して、録音済み音
声を用いる部分文字列と合成音声を用いる部分文字列と
を決定し、複数の部分文字列のそれぞれに対応して録音
済みの音声データの中から、前記録音済み音声を用いる
部分文字列のための音声データを取り出し、取り出され
た音声データの特徴量を抽出し、前記合成音声を用いる
部分文字列のための音声データを、抽出された特徴量に
合わせて合成し、前記取り出された音声データと合成さ
れた音声データを接続して出力する処理をコンピュータ
に実行させるためのプログラム。（付記７）コンピュータのためのプログラムを記録し
た記録媒体であって、該プログラムは、入力された文字
列を解析して、録音済み音声を用いる部分文字列と合成
音声を用いる部分文字列とを決定し、複数の部分文字列
のそれぞれに対応して録音済みの音声データの中から、
前記録音済み音声を用いる部分文字列のための音声デー
タを取り出し、取り出された音声データの特徴量を抽出
し、前記合成音声を用いる部分文字列のための音声デー
タを、抽出された特徴量に合わせて合成し、前記取り出
された音声データと合成された音声データを接続して出
力する処理を前記コンピュータに実行させることを特徴
とするコンピュータ読み取り可能なプログラム。（付記８）プログラムをコンピュータに搬送する搬送
信号であって、該プログラムは、入力された文字列を解
析して、録音済み音声を用いる部分文字列と合成音声を
用いる部分文字列とを決定し、複数の部分文字列のそれ
ぞれに対応して録音済みの音声データの中から、前記録
音済み音声を用いる部分文字列のための音声データを取
り出し、取り出された音声データの特徴量を抽出し、前
記合成音声を用いる部分文字列のための音声データを、
抽出された特徴量に合わせて合成し、前記取り出された
音声データと合成された音声データを接続して出力する
処理を前記コンピュータに実行させることを特徴とする
搬送信号。（付記９）入力された文字列を解析して、録音済み音
声を用いる部分文字列と合成音声を用いる部分文字列と
を決定し、複数の部分文字列のそれぞれに対応して録音
済みの音声データの中から、前記録音済み音声を用いる
部分文字列のための音声データを取り出し、取り出され
た音声データの特徴量を抽出し、前記合成音声を用いる
部分文字列のための音声データを、抽出された特徴量に
合わせて合成し、前記取り出された音声データと合成さ
れた音声データを接続して出力することを特徴とする音
声合成方法。

【００７０】

【発明の効果】本発明によれば、録音済みの音声データ
と合成された音声データの間で音質の不連続性が少なく
なり、より自然な音声データを再生することができる。

【図面の簡単な説明】

【図１】本発明の音声合成システムの原理図である。

【図２】本発明の第１の音声合成システムの構成図であ
る。

【図３】第１の音声合成処理のフローチャートである。

【図４】本発明の第２の音声合成システムの構成図であ
る。

【図５】第２の音声合成処理のフローチャートである。

【図６】本発明の第３の音声合成システムの構成図であ
る。

【図７】第３の音声合成処理のフローチャートである。

【図８】第１の蓄積データを示す図である。

【図９】注目フレームを示す図である。

【図１０】第１の対象フレームを示す図である。

【図１１】第２の対象フレームを示す図である。

【図１２】自己相関の配列を示す図である。

【図１３】ピッチの分布を示す図である。

【図１４】第２の蓄積データを示す図である。

【図１５】第３の蓄積データを示す図である。

【図１６】「マ」の音声波形を示す図である。

【図１７】「マ」の子音部分を示す図である。

【図１８】「マ」の母音部分を示す図である。

【図１９】情報処理装置の構成図である。

【図２０】記録媒体を示す図である。

【図２１】音声データの例を示す図である。

【図２２】従来の音声合成システムの構成図である。

【図２３】従来の音声データの特徴を示す図である。

【符号の説明】

１１、１３可変部１２、１４定型部２１、５１文字列解析部２２、５２蓄積データ取り出し部２３、５３蓄積データベース２４、５６音声合成データ作成部２５、５７波形辞書２６、５８波形接続部３１、６１文字列３２、６２蓄積データ３３、６４音声合成データ３４、６５音声データ５４ピッチ計測部５５ピッチ設定部６３ピッチデータ７１ボリューム計測部７２ボリュームデータ７３ボリューム設定部８１スピード計測部８２スピードデータ８３スピード設定部９１注目フレーム９２対象フレーム９３、９４領域１０１ＣＰＵ１０２メモリ１０３入力装置１０４出力装置１０５外部記憶装置１０６媒体駆動装置１０７ネットワーク接続装置１０８バス１０９可搬記録媒体１１０サーバ１１１データベース

Claims

【特許請求の範囲】

【請求項１】複数の部分文字列のそれぞれに対応して
録音済みの音声データを格納する格納手段と、入力された文字列を解析して、録音済み音声を用いる部
分文字列と合成音声を用いる部分文字列とを決定する解
析手段と、前記格納手段から前記録音済み音声を用いる部分文字列
のための音声データを取り出し、取り出された音声デー
タの特徴量を抽出する抽出手段と、前記合成音声を用いる部分文字列のための音声データ
を、抽出された特徴量に合わせて合成する合成手段と、前記取り出された音声データと合成された音声データを
接続して出力する出力手段とを備えることを特徴とする
音声合成システム。
【請求項２】複数の部分文字列のそれぞれに対応して
録音済みの音声データを格納する格納手段と、入力された文字列を解析して、録音済み音声を用いる部
分文字列と合成音声を用いる部分文字列とを決定する解
析手段と、前記格納手段から前記録音済み音声を用いる部分文字列
のための音声データを取り出し、取り出された音声デー
タのベースピッチを抽出する抽出手段と、前記合成音声を用いる部分文字列のための音声データ
を、抽出されたベースピッチに合わせて合成する合成手
段と、前記取り出された音声データと合成された音声データを
接続して出力する出力手段とを備えることを特徴とする
音声合成システム。
【請求項３】複数の部分文字列のそれぞれに対応して
録音済みの音声データを格納する格納手段と、入力された文字列を解析して、録音済み音声を用いる部
分文字列と合成音声を用いる部分文字列とを決定する解
析手段と、前記格納手段から前記録音済み音声を用いる部分文字列
のための音声データを取り出し、取り出された音声デー
タのボリュームを抽出する抽出手段と、前記合成音声を用いる部分文字列のための音声データ
を、抽出されたボリュームに合わせて合成する合成手段
と、前記取り出された音声データと合成された音声データを
接続して出力する出力手段とを備えることを特徴とする
音声合成システム。
【請求項４】複数の部分文字列のそれぞれに対応して
録音済みの音声データを格納する格納手段と、入力された文字列を解析して、録音済み音声を用いる部
分文字列と合成音声を用いる部分文字列とを決定する解
析手段と、前記格納手段から前記録音済み音声を用いる部分文字列
のための音声データを取り出し、取り出された音声デー
タのスピードを抽出する抽出手段と、前記合成音声を用いる部分文字列のための音声データ
を、抽出されたスピードに合わせて合成する合成手段
と、前記取り出された音声データと合成された音声データを
接続して出力する出力手段とを備えることを特徴とする
音声合成システム。
【請求項５】入力された文字列を解析して、録音済み
音声を用いる部分文字列と合成音声を用いる部分文字列
とを決定し、複数の部分文字列のそれぞれに対応して録音済みの音声
データの中から、前記録音済み音声を用いる部分文字列
のための音声データを取り出し、取り出された音声データの特徴量を抽出し、前記合成音声を用いる部分文字列のための音声データ
を、抽出された特徴量に合わせて合成し、前記取り出された音声データと合成された音声データを
接続して出力する処理をコンピュータに実行させるため
のプログラム。