JP6024191B2

JP6024191B2 - 音声合成装置および音声合成方法

Info

Publication number: JP6024191B2
Application number: JP2012110359A
Authority: JP
Inventors: ジョルディ　ボナダ; ボナダジョルディ; ブラアウメルレイン; 誠橘; 橘　　誠
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2011-05-30
Filing date: 2012-05-14
Publication date: 2016-11-09
Anticipated expiration: 2032-05-14
Also published as: CN102810309A; JP2013011863A; EP2530671A3; EP2530671A2; EP2530671B1; US8996378B2; CN102810309B; US20120310650A1

Description

本発明は、複数の音声素片の連結で発話音や歌唱音等の音声を合成する技術に関する。

音声素片を示す複数の素片データを連結することで所望の音声を合成する素片接続型の音声合成技術が従来から提案されている。所望のピッチ（音高）の音声を合成するにはそのピッチで発声された音声素片の素片データを利用することが望ましいが、全種類のピッチについて素片データを用意することは現実的には困難である。そこで、特許文献１には、代表的な幾つかのピッチについて素片データを用意し、目標ピッチに最も近いピッチの１個の素片データを目標ピッチに調整したうえで音声を合成する構成が開示されている。例えば図１２に示すように、ピッチＥ3とピッチＧ3とについて素片データが用意された場合を想定すると、ピッチＦ3の素片データはピッチＥ3の素片データのピッチを上昇させることで生成され、ピッチＦ#3の素片データはピッチＧ3の素片データのピッチを低下させることで生成される。

特開２０１０−１６９８８９号公報

しかし、特許文献１のように１個の素片データの調整で目標ピッチの素片データを生成する構成では、相互にピッチが近接する合成音の音色が乖離して不自然な印象になるという問題がある。例えば、ピッチＦ3の合成音とピッチＦ#3の合成音とは、ピッチが相互に近接した関係にあり、本来的には音色が類似するのが自然である。しかし、ピッチＦ3の基礎となる素片データ（ピッチＥ3）とピッチＦ#3の基礎となる素片データ（ピッチＧ3）とは別個に発声および収録された素片データであるから、ピッチＦ3の合成音とピッチＦ#3の合成音との間では音色が不自然に乖離する可能性がある。特にピッチＦ3の合成音とピッチＦ#3の合成音とを連続に生成する場合には、両者の境界の時点（図１２の時点ｔ0）において音色の急激な変化が受聴者に顕著に知覚される。なお、以上の説明では素片データのピッチの調整に言及したが、音量等の他の音声特徴量を調整する場合にも同様の問題が発生し得る。以上の事情を考慮して、本発明は、既存の素片データとはピッチ等の音声特徴量が相違する合成音をその既存の素片データを利用して自然な音色で生成することを目的とする。

以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。

本発明の第１態様に係る音声合成装置は、音声特徴量が相違する音声素片のフレーム毎のスペクトルを示す複数の素片データの補間により、音声特徴量の目標値（例えば目標ピッチＰt）に対応する素片データを生成する素片補間手段（例えば素片補間部２４）と、素片補間手段が生成した素片データを利用して音声信号を生成する音声合成手段（例えば音声合成部２６）とを具備する。以上の構成では、音声特徴量の数値が相違する複数の素片データの補間により目標値の素片データが生成されるから、１個の素片データから目標値の素片データを生成する構成と比較して自然な音色の合成音を生成できるという利点がある。

本発明の好適な態様において、素片補間手段は、第１素片データ（例えば素片データＶ1）および第２素片データ（例えば素片データＶ2）の各々が当該フレームについて示すスペクトルを目標値に応じた補間比率（例えば補間比率α）で補間することで前記目標値の素片データを生成する第１補間処理と、第１素片データおよび第２素片データの各々が当該フレームについて示す音声の音量（例えば音量Ｅ）を目標値に応じた補間比率で補間し、第１素片データが示すスペクトルを当該補間後の音量に応じて補正することで目標値の素片データを生成する第２補間処理とを選択的に実行する。

無声音のスペクトルは強度が不規則に分布するから、無声音についてスペクトルを補間した場合、補間後の音声のスペクトルが補間前の各素片データから乖離した特性となる可能性がある。そこで、有声音のフレームと無声音のフレームとで補間の方法を相違させた構成が好適である。すなわち、本発明の好適な態様において、素片データは、音声素片のフレーム毎のスペクトルを示し、素片補間手段は、補間に適用する第１素片データ（例えば素片データＶ1）および第２素片データ（例えば素片データＶ2）の双方が有声音を示すフレームについては（例えば、第１素片データと第２素片データとの間で時間的に対応するフレームの双方が有声音に該当する場合）、第１素片データおよび第２素片データの各々が当該フレームについて示すスペクトルを目標値に応じた補間比率（例えば補間比率α）で補間することで目標値の素片データを生成し、第１素片データおよび第２素片データの双方が無声音を示すフレームについては（例えば、第１素片データと第２素片データとの間で時間的に対応するフレームの片方または双方が無声音に該当する場合）、第１素片データおよび第２素片データの各々が当該フレームについて示す音声の音量（例えば音量Ｅ）を目標値に応じた補間比率で補間し、第１素片データが示すスペクトルを当該補間後の音量に応じて補正することで目標値の素片データを生成する。以上の構成では、第１素片データおよび第２素片データの双方が有声音に該当するフレームについてはスペクトルの補間により目標値の素片データが生成され、第１素片データおよび第２素片データの双方が無声音に該当するフレームについては音量の補間により目標値の素片データが生成される。したがって、音声素片が有声音と無声音の双方を含む場合でも目標値の素片データを適切に生成できるという利点がある。なお、第２素片データを音量の補間の対象とすることも可能である。

具体的な態様において、素片データは、音声素片のうち有声音を含む区間内の各フレームについては音声のスペクトルの形状の特徴を示す形状パラメータ（例えば形状パラメータＲ）を含み、無声音を含む区間内の各フレームについては音声のスペクトルを示すスペクトルデータ（例えばスペクトルデータＱ）を含み、素片補間手段は、第１素片データおよび第２素片データの双方が有声音を示すフレームについては、第１素片データおよび第２素片データの各々における当該フレームの形状パラメータを目標値に応じた補間比率で補間することで目標値の素片データを生成し、第１素片データおよび第２素片データの双方が無声音を示すフレームについては、第１素片データのスペクトルデータが示すスペクトルを補間後の音量に応じて補正することで目標値の素片データを生成する。以上の態様では、音声素片のうち有声音を含む区間内の各フレームについては素片データに形状パラメータが含まれるから、スペクトル自体を示すスペクトルデータを有声音についても素片データに含ませる構成と比較して素片データのデータ量を削減することが可能である。また、第１素片データおよび第２素片データの双方を反映したスペクトルを形状パラメータの補間により簡易かつ適切に生成できるという利点もある。

本発明の好適な態様において、素片補間手段は、第１素片データおよび第２素片データの一方が無声音を示すフレームについては、第１素片データ（または第２素片データ）のスペクトルデータが示すスペクトルを補間後の音量に応じて補正することで目標値の素片データを生成する。以上の態様では、第１素片データおよび第２素片データの双方が無声音を示すフレームに加えて、第１素片データおよび第２素片データの一方が無声音を示すフレーム（第１素片データおよび第２素片データの一方が無声音を示すとともに他方が有声音を示すフレーム）についても、音量の補間により目標値の素片データが生成される。したがって、有声音と無声音との境界が第１素片データと第２素片データとで相違する場合でも目標値の素片データを適切に生成できるという利点がある。なお、第１素片データおよび第２素片データの一方が無声音を示すとともに他方が有声音を示すフレームについて音量の補間により目標値の素片データを生成する構成（第１素片データおよび第２素片データの双方が無声音を示すフレームの補間方法は不問）を採用することも可能である。なお、以上に例示した第１態様の具体例は例えば第１実施形態として後述される。

なお、例えば音量やスペクトル包絡や音声波形等の音声特性が第１素片データと第２素片データとの間で大きく相違する場合、第１素片データと第２素片データとの補間で生成された素片データは、第１素片データおよび第２素片データの何れからも乖離した特性となる可能性がある。そこで、本発明の好適な態様において、素片補間手段は、第１素片データと第２素片データとの間で相対応するフレームにて音声特性の相違が大きい場合（例えば両者間の相違を示す指標値が閾値を上回る場合）に、第１素片データおよび前記第２素片データの一方が補間後の素片データに優先的に反映されるように、第１素片データと第２素片データとを補間する。例えば、素片補間手段は、複数の素片データの補間比率を最大値または最小値に近付ける。以上の態様では、第１素片データと第２素片データとの音声特性の相違が大きい場合に、第１素片データおよび第２素片データの一方が優先されるように補間比率が設定されるから、第１素片データまたは第２素片データを適切に反映した素片データを補間により生成できるという利点がある。なお、以上に説明した態様の具体例は、例えば第３実施形態として後述される。

本発明のひとつの態様に係る音声合成装置は、音声特徴量が相違する音声素片のフレーム毎のスペクトルを示す複数の素片データの補間により、音声特徴量の目標値に対応する素片データを生成する手段であって、補間に適用する第１素片データおよび第２素片データの双方が有声音を示すフレームについて（例えば、第１素片データと第２素片データとの間で時間的に対応するフレームの双方が有声音に該当する場合）、第１素片データおよび第２素片データの各々が当該フレームについて示すスペクトルを目標値に応じた補間比率で補間することで目標値の素片データを生成する素片補間手段と、素片補間手段が生成した素片データを利用して音声信号を生成する音声合成手段とを具備する。また、他の態様に係る音声合成装置は、音声特徴量が相違する音声素片のフレーム毎のスペクトルを示す複数の素片データの補間により、音声特徴量の目標値に対応する素片データを生成する手段であって、第１素片データおよび第２素片データの少なくとも一方が無声音を示すフレームについて（例えば、第１素片データと第２素片データとの間で時間的に対応するフレームの片方または双方が無声音に該当する場合）、第１素片データおよび第２素片データの各々が当該フレームについて示す音声の音量を目標値に応じた補間比率で補間し、第１素片データが示すスペクトルを当該補間後の音量に応じて補正することで目標値の素片データを生成する素片補間手段と、素片補間手段が生成した素片データを利用して音声信号を生成する音声合成手段とを具備する。

本発明の第２態様に係る音声合成装置は、音声素片を示す素片データを音声特徴量（例えばピッチ）の相異なる数値毎に記憶する素片記憶手段（例えば記憶装置１４）と、継続音の変動成分を示す定常音データ（例えば定常音データＳ）を音声特徴量の相異なる数値毎に記憶する定常音記憶手段（例えば記憶装置１４）と、定常音記憶手段に記憶された複数の定常音データの補間により、目標値（例えば目標ピッチＰt）に対応する定常音データを生成する定常音補間手段（例えば定常音補間部４４）と、素片データと定常音補間手段が生成した定常音データとを利用して音声信号を生成する音声合成手段（例えば音声合成部２６）とを具備する。以上の構成では、音声特徴量の数値が相違する複数の定常音データの補間により目標値の定常音データが生成されるから、１個の定常音データから目標値の定常音データを生成する構成と比較して自然な音色の合成音を生成できるという利点がある。定常音補間手段は、例えば、第１定常音データから抽出した複数の第１単位区間を配列した第１中間データと、各第１単位区間と同等の時間長となるように第２定常音データから抽出した第２単位区間を配列した第２中間データとを補間する。なお、以上に例示した第２態様の具体例は、例えば第２実施形態として後述される。

以上の各態様に係る音声合成装置は、音声合成に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）で実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明の第１態様に係るプログラム（例えばプログラムＰGM）は、音声特徴量が相違する音声素片のフレーム毎のスペクトルを示す複数の素片データの補間により、音声特徴量の目標値に対応する素片データを生成する素片補間処理と、素片補間処理で生成した素片データを利用して音声信号を生成する音声合成処理とをコンピュータに実行させる。また、第２態様に係るプログラムは、音声素片を示す素片データを音声特徴量の相異なる数値毎に記憶する素片記憶手段と、継続音の変動成分を示す定常音データを音声特徴量の相異なる数値毎に記憶する定常音記憶手段とを具備するコンピュータに、定常音記憶手段に記憶された複数の定常音データの補間により、目標値に対応する定常音データを生成する定常音補間処理と、素片データと定常音補間処理で生成した定常音データとを利用して音声信号を生成する音声合成処理とを実行させる。以上のプログラムによれば、本発明の音声合成装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

本発明の第１実施形態に係る音声合成装置のブロック図である。素片データ群および各素片データの模式図である。素片データを利用した音声合成の説明図である。素片補間部のブロック図である。補間比率の時間変化を示す模式図である。補間処理部の動作のフローチャートである。第２実施形態に係る音声合成装置のブロック図である。第２実施形態における定常音データ群および定常音データの模式図である。定常音データの補間の説明図である。定常音補間部のブロック図である。第３実施形態における補間比率の時間変化の説明図である。背景技術における素片データの調整の説明図である。

＜Ａ：第１実施形態＞
図１は、本発明の第１実施形態に係る音声合成装置１００のブロック図である。音声合成装置１００は、発話音や歌唱音等の音声を素片接続型の音声合成処理で生成する信号処理装置であり、図１に示すように、演算処理装置１２と記憶装置１４と放音装置１６とを具備するコンピュータシステムで実現される。

演算処理装置１２（ＣＰＵ）は、記憶装置１４に格納されたプログラムＰGMの実行で、合成音の波形を表す音声信号ＶOUTを生成するための複数の機能（素片選択部２２，素片補間部２４，音声合成部２６）を実現する。なお、演算処理装置１２の各機能を複数の集積回路に分散した構成や、専用の電子回路（ＤＳＰ）が各機能を実現する構成も採用され得る。放音装置１６（例えばヘッドホンやスピーカ）は、演算処理装置１２が生成した音声信号ＶOUTに応じた音波を放射する。

記憶装置１４は、演算処理装置１２が実行するプログラムＰGMや演算処理装置１２が使用する各種のデータ（素片データ群ＧA，合成情報ＧB）を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１４として採用される。

素片データ群ＧAは、図２に示すように、音声信号ＶOUTの素材として利用される複数の素片データＶの集合（音声合成ライブラリ）である。相異なるピッチＰ（Ｐ1，Ｐ2，……）に対応する複数の素片データＶが音声素片毎に事前に収録されて記憶装置１４に記憶される。音声素片は、音声の言語的な最小単位に相当する１個の音素、または、複数の音素を相互に連結した音素連鎖（例えば２個の音素で構成されるダイフォン）である。なお、以下では便宜的に、無音を無声音の１個の音素（記号Sil）として説明する。

図２に示すように、複数の音素（/ａ/，/ｓ/）で構成される１個の音声素片（ダイフォン）の素片データＶは、境界情報ＢおよびピッチＰと、音声素片を時間軸上で区分した各フレームに対応する複数の単位データＵ（ＵA，ＵB）の時系列とを含んで構成される。境界情報Ｂは、音声素片の区間内の境界点ｔBを指定する。境界点ｔBは、音声素片を構成する各音素の境界に合致するように、例えば素片データＶの作成者が音声素片の時間波形を確認しながら設定する。ピッチＰは、音声素片の全体的なピッチ（例えば素片データＶの収録時に発声者が意図したピッチ）である。

各単位データＵは、１個のフレーム内の音声のスペクトルを規定する。素片データＶの複数の単位データＵは、音声素片のうち有声音を含む区間内の各フレームに対応する複数の単位データＵAと、無声音を含む区間内の各フレームに対応する複数の単位データＵBとに区別される。境界点ｔBは、単位データＵAの系列と単位データＵBの系列との境界に相当する。例えば図２の例示のように無声音の音素/ｓ/が有声音の音素/ａ/に後続するダイフォンの素片データＶは、境界点ｔBの前方の区間（有声音の音素/ａ/）の各フレームに対応する単位データＵAと、境界点ｔBの後方の区間（無声音の音素/ｓ/）の各フレームに対応する単位データＵBとを含んで構成される。以下に詳述する通り、単位データＵAと単位データＵBとは内容が相違する。

有声音に対応するフレームの１個の単位データＵAは、図２に示すように、形状パラメータＲとピッチｐFと音量（エネルギー）Ｅとを含んで構成される。ピッチｐFは、１個のフレームにおける音声のピッチ（基本周波数）を意味し、音量Ｅは、１個のフレームでの音声のエネルギーの平均を意味する。

形状パラメータＲは、音声のスペクトル（音色）を示す情報であり、音声（調和成分）のスペクトル包絡の形状の特徴を示す複数の変数で構成される。第１実施形態の形状パラメータＲは、例えば励起波形エンベロープｒ1と胸部レゾナンスｒ2と声道レゾナンスｒ3と差分スペクトルｒ4とを含むＥｐＲ（Excitation plus Resonance）パラメータであり、公知のＳＭＳ（Spectral Modeling Synthesis）分析で生成される。なお、ＥｐＲパラメータやＳＭＳ分析については、例えば特許第３７１１８８０号公報や特開２００７−２２６１７４号公報にも開示されている。

励起波形エンベロープ（Excitation Curve）ｒ1は、声帯振動のスペクトルエンベロープを近似する変数である。胸部レゾナンス（Chest Resonance）ｒ2は、胸部共鳴特性を近似する所定個のレゾナンス（帯域通過フィルタ）の帯域幅と中心周波数と振幅値とを指定する。声道レゾナンス（Vocal Tract Resonance）ｒ3は、声道共鳴特性を近似する複数のレゾナンスの各々について帯域幅と中心周波数と振幅値とを指定する。差分スペクトルｒ4は、励起波形エンベロープｒ1と胸部レゾナンスｒ2と声道レゾナンスｒ3とで近似されるスペクトルと音声のスペクトルとの差分（誤差）を意味する。

無声音に対応するフレームの１個の単位データＵBは、図２に示すように、スペクトルデータＱと音量Ｅとを含んで構成される。音量Ｅは、単位データＵA内の音量Ｅと同様に、１個のフレーム内での音声のエネルギーを意味する。スペクトルデータＱは、音声（非調和成分）のスペクトルを示すデータであり、具体的には、周波数軸上の複数の周波数の各々における強度（パワー，振幅値）の系列で構成される。すなわち、単位データＵA内の形状パラメータＲが音声（調和成分）のスペクトルを間接的に表現するのに対して、単位データＵB内のスペクトルデータＱは音声（非調和成分）のスペクトルを直接的に表現する。

記憶装置１４に記憶された合成情報（スコアデータ）ＧBは、合成音の発音文字Ｘ1と発音期間Ｘ2とピッチの目標値（以下「目標ピッチ」という）Ｐtとを時系列に指定する。発音文字Ｘ1は、例えば歌唱音を合成する場合の歌詞の文字列であり、発音期間Ｘ2は、例えば発音開始時刻と継続長とで指定される。合成情報ＧBは、例えば各種の入力機器に対する利用者による操作に応じて生成されて記憶装置１４に格納される。なお、他の通信端末から通信網を介して受信された合成情報ＧBや可搬型の記録媒体から転送された合成情報ＧBを音声信号ＶOUTの生成に使用することも可能である。

図１の素片選択部２２は、合成情報ＧBの発音文字Ｘ1に対応する各音声素片の素片データＶを記憶装置１４の素片データ群ＧAから順次に選択する。１個の音声素片についてピッチＰ毎に用意された複数の素片データＶのうち目標ピッチＰtに対応する素片データＶが選択される。具体的には、目標ピッチＰtに合致するピッチＰの素片データＶが発音文字Ｘ1の音声素片について記憶装置１４に格納されている場合、素片選択部２２は、その１個の素片データＶを素片データ群ＧAから選択する。他方、目標ピッチＰtに合致するピッチＰの素片データＶが発音文字Ｘ1の音声素片について記憶装置１４に格納されていない場合、素片選択部２２は、ピッチＰが目標ピッチＰtに近い複数の素片データＶを素片データ群ＧAから選択する。具体的には、素片選択部２２は、ピッチＰが目標ピッチＰtを挟む関係にある２個の素片データＶ（Ｖ1，Ｖ2）を選択する。すなわち、目標ピッチＰtに最も近いピッチＰの素片データＶ1と、目標ピッチＰtを挟んで素片データＶ1のピッチＰとは反対側の範囲内で目標ピッチＰtに最も近いピッチＰの素片データＶ2とが選択される。

図１の素片補間部２４は、目標ピッチＰtに合致するピッチＰの素片データＶが存在しない場合に素片選択部２２が選択する２個の素片データＶ（Ｖ1，Ｖ2）を補間することで、目標ピッチＰtに対応する１個の素片データＶを生成する。素片補間部２４の具体的な作用については後述する。

音声合成部２６は、素片選択部２２が選択した目標ピッチＰtの素片データＶと素片補間部２４が生成した素片データＶとを利用して音声信号ＶOUTを生成する。具体的には、音声合成部２６は、図３に示すように、合成情報ＧBが指定する発音期間Ｘ2（発音開始時刻）に応じて各素片データＶの時間軸上の位置を決定し、素片データＶの各単位データＵが示すスペクトルを時間波形に変換する。具体的には、単位データＵAについては形状パラメータＲから特定されるスペクトルが時間波形に変換され、単位データＵBについてはスペクトルデータＱが直接的に示すスペクトルが時間波形に変換される。そして、音声合成部２６は、素片データＶから生成した時間波形を前後のフレーム間で相互に連結して音声信号ＶOUTを生成する。図３に示すように、１個の音素（典型的には有声音）が定常的に継続される区間（以下では「定常発音区間」という）Ｈについては、その定常発音区間の直前の素片データＶのうち最後のフレームの単位データＵが反復される。

図４は、素片補間部２４のブロック図である。図４に示すように、第１実施形態の素片補間部２４は、補間比率設定部３２と素片伸縮部３４と補間処理部３６とを含んで構成される。補間比率設定部３２は、素片データＶ1と素片データＶ2との補間に適用される補間比率α（０≦α≦１）を、合成情報ＧBが時系列に指定する目標ピッチＰtに応じてフレーム毎に順次に設定する。具体的には、補間比率設定部３２は、図５に示すように目標ピッチＰtに連動して０以上１以下の範囲内で変動するように補間比率αをフレーム毎に設定する。例えば目標ピッチＰtが素片データＶ1のピッチＰに近付くほど補間比率αは１に近い数値に設定される。

素片データ群ＧAを構成する複数の素片データＶの各々の時間長は相違し得る。素片伸縮部３４は、素片データＶ1と素片データＶ2とで音声素片が相等しい時間長（フレーム数）となるように、素片選択部２２が選択した各素片データＶを伸縮する。具体的には、素片伸縮部３４は、素片データＶ2を、素片データＶ1と同等のフレーム数Ｍに伸縮する。例えば、素片データＶ2が素片データＶ1と比較して長い場合、素片データＶ2の複数の単位データＵを所定個毎に間引くことで素片データＶ2を素片データＶ1と同等のフレーム数Ｍに調整する。他方、素片データＶ2が素片データＶ1と比較して短い場合、素片データＶ2の複数の単位データＵを所定個毎に反復することで素片データＶ2を素片データＶ1と同等のフレーム数Ｍに調整する。

図４の補間処理部３６は、素片伸縮部３４による処理後の素片データＶ1と素片データＶ2とを、補間比率設定部３２が設定した補間比率αに応じて補間することで、目標ピッチＰtの素片データＶを生成する。図６は、補間処理部３６の動作のフローチャートである。素片データＶ1と素片データＶ2との組毎に図６の処理が実行される。

補間処理部３６は、素片データＶ（Ｖ1，Ｖ2）のＭ個のフレームから１個のフレーム（以下では「選択フレーム」と表記する）を選択する（ＳA1）。Ｍ個のフレームの各々がステップＳA1の処理毎に１個ずつ順番に選択され、目標ピッチＰtの単位データＵ（以下では「補間単位データＵi」と表記する）を補間により生成する処理（ＳA2〜ＳA6）が選択フレーム毎に実行される。選択フレームを指定すると、補間処理部３６は、素片データＶ1および素片データＶ2の双方の選択フレームが有声音のフレーム（以下「有声フレーム」という）に該当するか否かを判定する（ＳA2）。

素片データＶの境界情報Ｂで指定される境界点ｔBが音声素片内の実際の音素の境界に正確に合致する場合（すなわち、有声音／無声音の区別と単位データＵA／単位データＵBの区別とが正確に対応する場合）、単位データＵAが用意されたフレームを有声フレームと判定するとともに単位データＵBが用意されたフレームを無声音のフレーム（以下「無声フレーム」という）と判定することが可能である。しかし、単位データＵAと単位データＵBとの境界点ｔBは、素片データＶの作成者により手動で指定されるから、音声素片内の実際の有声音／無声音の境界とは実際には相違する可能性がある。したがって、実際には無声音に該当するフレームについても有声音用の単位データＵAが用意される可能性や、実際には有声音に該当するフレームについても無声音用の単位データＵBが用意される可能性がある。そこで、図６のステップＳA2において、補間処理部３６は、単位データＵBが用意されたフレームを無声フレームと判定するほか、単位データＵAが用意されたフレームであっても、単位データＵAのピッチｐFが有意な数値ではないフレーム（すなわち無声音であるために適切な数値のピッチＰが検出されなかったフレーム）についても無声フレームと判定する。すなわち、単位データＵAが用意されたフレームのうちピッチｐFが有意な数値であるフレームが有声フレームと判定され、例えばピッチｐFがゼロ（ピッチの非検出を示す数値）であるフレームは無声フレームと判定される。

素片データＶ1および素片データＶ2の双方の選択フレームが有声フレームに該当する場合（ＳA2：YES）、補間処理部３６は、素片データＶ1のうち選択フレームの単位データＵAが示すスペクトルと素片データＶ2のうち選択フレームの単位データＵAが示すスペクトルとを補間比率αに応じて補間（加重加算）することで補間単位データＵiを生成する（ＳA3）。例えば補間処理部３６は、素片データＶ1のうち選択フレームの形状パラメータＲの各変数ｘ1（ｒ1〜ｒ4）と、素片データＶ2のうち選択フレームの形状パラメータＲの各変数ｘ2（ｒ1〜ｒ4）とについて以下の数式(1)の補間演算を実行することで、補間単位データＵiにおける形状パラメータＲの各変数ｘiを算定する。
ｘi＝α・ｘ1＋(１−α)・ｘ2 ……(1)
すなわち、素片データＶ1および素片データＶ2の双方の選択フレームが有声フレームである場合には音声のスペクトル（すなわち音色）同士が補間され、単位データＵAと同様に形状パラメータＲを含む補間単位データＵiが生成される。なお、形状パラメータＲ（ｒ1〜ｒ4）の一部のみを補間するとともに他の変数については素片データＶ1および素片データＶ2の一方の数値を採択することで補間単位データＵiを生成することも可能である。例えば、形状パラメータＲのうち励起波形エンベロープｒ1と胸部レゾナンスｒ2と声道レゾナンスｒ3との各々については素片データＶ1と素片データＶ2との間で補間し、差分スペクトルｒ4については素片データＶ1および素片データＶ2の一方の数値を採択する構成が好適である。

他方、無声音のスペクトルは強度が不規則に分布するから、素片データＶ1および素片データＶ2の片方または双方の選択フレームが無声フレームである場合には、ステップＳA3のようなスペクトル同士の補間は適用できない。そこで、第１実施形態では、素片データＶ1および素片データＶ2の片方または双方の選択フレームが無声フレームである場合には、選択フレームについてスペクトルの補間は実行せずに音量Ｅのみを補間する（ＳA4，ＳA5）。

例えば、素片データＶ1および素片データＶ2の片方または双方の選択フレームが無声フレームである場合（ＳA2：NO）、補間処理部３６は、第１に、素片データＶ1のうち選択フレームの単位データＵが示す音量Ｅ1と素片データＶ2のうち選択フレームの単位データＵが示す音量Ｅ2とを補間比率αに応じて補間することで補間音量Ｅiを算定する（ＳA4）。補間音量Ｅiは、例えば以下の数式(2)で算定される。
Ｅi＝α・Ｅ1＋(１−α)・Ｅ2） ……(2)

第２に、補間処理部３６は、素片データＶ1の選択フレームの単位データＵが示すスペクトルを補間音量Ｅiに応じて補正し、補正後のスペクトルのスペクトルデータＱを含む補間単位データＵiを生成する（ＳA5）。具体的には、音量が補間音量Ｅiとなるように単位データＵのスペクトルが補正される。素片データＶ1の選択フレームの単位データＵが形状パラメータＲを含む単位データＵAである場合には、形状パラメータＲから特定されるスペクトルが補間音量Ｅiに応じた補正対象とされ、素片データＶ1の選択フレームの単位データＵがスペクトルデータＱを含む単位データＵBである場合には、スペクトルデータＱが直接的に表現するスペクトルが補間音量Ｅiに応じた補正対象とされる。すなわち、素片データＶ1および素片データＶ2の片方または双方の選択フレームが無声フレームである場合には、音量Ｅのみが補間され、単位データＵBと同様にスペクトルデータＱを含む補間単位データＵiが生成される。

選択フレームの補間単位データＵiを生成すると、補間処理部３６は、全部（Ｍ個）のフレームについて補間単位データＵiを生成したか否かを判定する（ＳA6）。未処理のフレームが残存する場合（ＳA6：NO）、補間処理部３６は、現段階の選択フレームの直後のフレームを新たな選択フレームとして選択したうえで（ＳA1）、ステップＳA2からステップＳA6までの処理を実行する。全部のフレームについて処理が完了した場合（ＳA6:YES）、補間処理部３６は図６の処理を終了する。各フレームについて生成されたＭ個の補間単位データＵiの時系列を含む素片データＶが音声合成部２６による音声信号ＶOUTの生成に適用される。

以上に説明した通り、第１実施形態では、ピッチＰが相違する複数の素片データＶの補間（合成）で目標ピッチＰtの素片データＶが生成されるから、１個の素片データの調整で目標ピッチの素片データを生成する構成と比較して自然な音色の合成音を生成できるという利点がある。例えば図１２の例示のようにピッチＥ3およびピッチＧ3について素片データＶが用意された場合を想定すると、両者間に位置するピッチＦ3およびピッチＦ#3の双方の素片データＶが、ピッチＥ3の素片データＶとピッチＧ3の素片データＶとの補間（ただし補間比率αは相違する）により生成される。したがって、ピッチＦ3の合成音とピッチＦ#3の合成音とで音色が近似した自然な合成音を生成することが可能である。

また、素片データＶ1と素片データＶ2との間で時間的に対応するフレームの双方が有声音に該当する場合には形状パラメータＲの補間により補間単位データＵiが生成され、素片データＶ1と素片データＶ2との間で時間的に対応するフレームの片方または双方が無声音に該当する場合には音量Ｅの補間により補間単位データＵiが生成される。以上のように有声フレームと無声フレームとで補間の方法を相違させることで、以下に詳述するように、有声音および無声音の双方について聴感的に自然な素片データＶを補間により生成できるという利点もある。

例えば、素片データＶ1と素片データＶ2の双方の選択フレームが有声音である場合にも、選択フレームが無声音である前述の場合と同様に、素片データＶ1と素片データＶ2との間の補間音量Ｅiに応じて素片データＶ1のスペクトルを補正する構成（対比例１）では、補間後の素片データＶが、素片データＶ1の音色に類似する一方で素片データＶ2の音色からは乖離して合成音が聴感的に不自然となる可能性がある。第１実施形態では、素片データＶ1と素片データＶ2の双方の選択フレームが有声音である場合に、素片データＶ1と素片データＶ2との間の形状パラメータＲの補間により素片データＶが生成されるから、対比例１と比較して自然な合成音を生成できるという利点がある。

また、素片データＶ1と素片データＶ2の片方または双方の選択フレームが無声音である場合にも、選択フレームが有声音である場合と同様に、素片データＶ1のスペクトルと素片データＶ2のスペクトルとを補間する構成（対比例２）では、補間後の素片データＶのスペクトルが素片データＶ1および素片データＶ2の何れからも乖離する可能性がある。第１実施形態では、素片データＶ1と素片データＶ2の片方または双方の選択フレームが無声音である場合に、素片データＶ1と素片データＶ2との補間音量Ｅiに応じて素片データＶ1のスペクトルが補正されるから、素片データＶ1を適切に反映した自然な合成音を生成できるという利点がある。

＜Ｂ：第２実施形態＞
本発明の第２実施形態を以下に説明する。第１実施形態では、定常的に継続する音声（以下「継続音」という）が合成される定常発音区間Ｈについて、その定常発音区間Ｈの直前の素片データＶの最後の単位データＵを配列した。第２実施形態では、定常発音区間Ｈ内の複数の単位データＵの時系列に、継続音の変動成分（例えばビブラート成分）が付加される。なお、以下に例示する各態様において作用や機能が第１実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。

図７は、第２実施形態の音声合成装置１００のブロック図である。図７に示すように、第２実施形態の記憶装置１４は、プログラムＰGMと素片データ群ＧAと合成情報ＧBとに加えて定常音データ群ＧCを記憶する。

定常音データ群ＧCは、図８に示すように、継続音の変動成分を示す複数の定常音データＳの集合である。変動成分は、音響特性が定常的に維持される音声（継続音）のうち時間的に微細に変動する成分に相当する。図８に示すように、相異なるピッチＰ（Ｐ1，Ｐ2，……）に対応する複数の定常音データＳが有声音の音声素片毎（音素毎）に事前に収録されて記憶装置１４に記憶される。１個の定常音データＳは、変動成分の全体的（平均的）なピッチＰと、継続音の変動成分を時間軸上で区分した各フレームに対応する複数の形状パラメータＲの時系列とを含んで構成される。形状パラメータＲは、継続音の変動成分のスペクトル形状の特徴を示す複数の変数（ｒ1〜ｒ4）で構成される。

図７に示すように、演算処理装置１２は、第１実施形態と同様の要素（素片選択部２２，素片補間部２４，音声合成部２６）に加えて定常音選択部４２および定常音補間部４４としても機能する。定常音選択部４２は、定常発音区間Ｈ毎に定常音データＳを順次に選択する。具体的には、合成情報ＧBの目標ピッチＰtに合致するピッチＰの定常音データＳが発音文字Ｘ1の音声素片について記憶装置１４に格納されている場合、定常音選択部４２は、その１個の定常音データＳを定常音データ群ＧCから選択する。他方、目標ピッチＰtに合致するピッチＰの定常音データＳが発音文字Ｘ1の音声素片について記憶装置１４に格納されていない場合、定常音選択部４２は、素片選択部２２と同様に、ピッチＰが目標ピッチＰtを挟む関係にある２個の定常音データＳ（Ｓ1，Ｓ2）を選択する。具体的には、目標ピッチＰtに最も近いピッチＰの定常音データＳ1と、目標ピッチＰtを挟んで定常音データＳ1のピッチＰとは反対側の範囲内で目標ピッチＰtに最も近いピッチＰの定常音データＳ2とが選択される。

定常音補間部４４は、図９に示すように、目標ピッチＰtに合致するピッチＰの定常音データＳが存在しない場合に定常音選択部４２が選択する２個の定常音データＳ（Ｓ1，Ｓ2）を補間することで、目標ピッチＰtに対応する１個の定常音データＳを生成する。定常音補間部４４が補間により生成する定常音データＳは、発音期間Ｘ2に応じた定常発音区間Ｈ内の各フレームに対応する複数の形状パラメータＲで構成される。

音声合成部２６は、図９に示すように、定常音選択部４２が選択した目標ピッチＰtの定常音データＳまたは定常音補間部４４が生成した定常音データＳを、定常発音区間Ｈ内の複数の単位データＵの時系列に対して合成することで音声信号ＶOUTを生成する。具体的には、音声合成部２６は、定常発音区間Ｈ内の各単位データＵが示すスペクトルの時間波形と、定常音データＳの各形状パラメータＲが示すスペクトルの時間波形とを相対応するフレーム同士で加算し、前後のフレーム間で連結して音声信号ＶOUTを生成する。

図１０は、定常音補間部４４のブロック図である。図１０に示すように、定常音補間部４４は、補間比率設定部５２と定常音伸縮部５４と補間処理部５６とを含んで構成される。補間比率設定部５２は、第１実施形態の補間比率設定部３２と同様に、目標ピッチＰtに応じた補間比率αをフレーム毎に順次に設定する。なお、図１０では便宜的に補間比率設定部３２と補間比率設定部５２とを別個の要素として図示したが、素片補間部２４と定常音補間部４４とで補間比率設定部３２を共用することも可能である。

図１０の定常音伸縮部５４は、定常音選択部４２が選択した定常音データＳ（Ｓ1，Ｓ2）の伸縮で中間データｓ（ｓ1，ｓ2）を生成する。図９に示すように、定常音伸縮部５４は、定常音データＳ1の複数の形状パラメータＲの時系列からＮ個の単位区間σ1[1]〜σ1[N]を抽出および連結することで、定常発音区間Ｈの時間長に相当する個数の形状パラメータＲを配列した中間データｓ1を生成する。Ｎ個の単位区間σ1[1]〜σ1[N]は、時間軸上で相互に重複し得るように定常音データＳ1から抽出され、各々の時間長（フレーム数）はランダムに設定される。

また、定常音伸縮部５４は、図９に示すように、定常音データＳ2の複数の形状パラメータＲの時系列からＮ個の単位区間σ2[1]〜σ2[N]を抽出および連結することで中間データｓ2を生成する。第ｎ番目（ｎ＝１〜Ｎ）の単位区間σ2[n]の時間長（フレーム数）は、中間データｓ1の第ｎ番目の単位区間σ1[n]と同等の時間長に設定される。したがって、中間データｓ2は、中間データｓ1と同様に、定常発音区間Ｈの時間長に相当する個数の形状パラメータＲで構成される。

図１０の補間処理部５６は、中間データｓ1と中間データｓ2との補間により目標ピッチＰtの定常音データＳを生成する。具体的には、補間処理部５６は、中間データｓ1と中間データｓ2との間で相対応するフレームの形状パラメータＲを、補間比率設定部５２が設定した補間比率αに応じて補間することで補間形状パラメータＲiを生成し、複数の補間形状パラメータＲiを時系列に配列することで目標ピッチＰtの定常音データＳを生成する。形状パラメータＲの補間には前述の数式(1)が適用される。補間処理部５６が生成した定常音データＳから特定される継続音の変動成分の時間波形が、定常発音区間Ｈ内の各単位データＵから特定される音声の時間波形に合成されることで音声信号ＶOUTが生成される。

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、既存の定常音データＳから目標ピッチＰtの定常音データＳが生成されるから、目標ピッチＰtの全数値について定常音データＳを用意する構成と比較して定常音データ群ＧCのデータ量（記憶装置１４の容量）を削減することが可能である。また、複数の定常音データＳの補間で目標ピッチＰtの定常音データＳが生成されるから、第１実施形態における素片データＶの補間と同様に、１個の定常音データＳから目標ピッチＰtの定常音データＳを生成する構成と比較して自然な合成音を生成できるという利点もある。

なお、定常発音区間Ｈの時間長に相当する中間データｓ1を定常音データＳ1から生成する方法としては、定常音データＳ1を定常発音区間Ｈの時間長に伸縮（形状パラメータＲの間引や反復）して中間データｓ1を生成する方法も採用され得る。ただし、定常音データＳ1を時間軸上で伸縮した場合には、変動成分の周期が伸縮の前後で変化するから、定常発音区間Ｈ内の合成音が聴感的に不自然な印象となる可能性がある。定常音データＳ1から抽出した単位区間σ1[n]の配列で中間データｓ1を生成する前述の構成では、単位区間σ1[n]内の形状パラメータＲの配列自体は定常音データＳ1と同等であるから、変動成分の周期が維持された自然な合成音を生成できるという利点がある。中間データｓ2の生成についても同様である。

＜Ｃ：第３実施形態＞
素片データＶ1と素片データＶ2とを補間する構成では、素片データＶ1と素片データＶ2とが示す音声の音量（エネルギー）が過度に相違する場合に、素片データＶ1および素片データＶ2の何れからも乖離した音響特性の素片データＶが生成され、結果的に合成音が不自然な音響となる可能性がある。以上の事情を考慮して、第３実施形態では、素片データＶ1と素片データＶ2との間で音量の相違が大きい場合に、素片データＶ1および素片データＶ2の何れかが優先的に補間に反映されるように補間比率αを制御する。

図１１は、補間比率設定部３２が設定する補間比率αの時間変化のグラフである。図１１では、素片データＶ1および素片データＶ2の各々が示す音声素片の波形図が補間比率αの時間変化と共通の時間軸のもとで併記されている。素片データＶ2が示す音声素片は音量が略一定に維持されるが、素片データＶ1が示す音声素片は、音量がゼロに低下する区間を含む。

図１１に示すように、第３実施形態の補間比率設定部３２は、素片データＶ1および素片データＶ2の相対応するフレーム間で音量差（エネルギーの相違）が大きい場合に、補間比率αを最大値１または最小値０の一方に近付けるように動作する。例えば、補間比率設定部３２は、素片データＶ1の単位データＵで指定される音量Ｅ1と素片データＶ2の単位データＵで指定される音量Ｅ2との音量差ΔＥ（例えばΔＥ＝Ｅ1−Ｅ2）をフレーム毎に算定し、音量差ΔＥが所定の閾値を上回るか否かを判定する。そして、補間比率設定部３２は、音量差ΔＥが閾値を上回るフレームが所定長の期間にわたって連続した場合に、目標ピッチＰtとは無関係に、その期間内において補間比率αを経時的に最大値１まで変化させる。したがって、補間処理部３６による補間には素片データＶ1が優先的に適用される（すなわち素片データＶの補間が停止される）。また、補間比率設定部３２は、音量差ΔＥが閾値を下回るフレームが所定の期間にわたって連続した場合に、その期間内で、補間比率αを最大値１から目標ピッチＰtに応じた数値まで変化させる。

第３実施形態においても第１実施形態と同様の効果が実現される。第３実施形態では、素片データＶ1と素片データＶ2との間で音量が過度に相違する場合に、素片データＶ1および素片データＶ2の一方が優先的に補間に適用されるように補間比率αが制御される。したがって、補間後の素片データＶの音声が素片データＶ1および素片データＶ2の何れからも乖離して合成音が不自然となる可能性を低減することが可能である。

＜Ｄ：変形例＞
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を適宜に併合することも可能である。

（１）前述の各形態ではピッチＰの数値毎に素片データＶを用意したが、他の音声特徴量の数値毎に素片データＶを用意することも可能である。音声特徴量とは、音声の音響的な特性を示す各種の指標値を包括する概念である。例えば前述の例示におけるピッチＰのほか、音声の音量（ダイナミクス）や音声の表情に関する変数が音声特徴量として例示される。音声の表情に関する変数は、例えば、音声の明瞭度や気息性の度合や発声時の口の開き具合等である。以上の例示から理解されるように、素片補間部２４は、音声特徴量の相異なる数値に対応する複数の素片データＶを補間することで音声特徴量の目標値（例えば目標ピッチＰt）に応じた素片データＶを生成する要素として包括される。第２実施形態の定常音補間部４４についても同様であり、音声特徴量の相異なる数値に対応する複数の定常音データＳを補間することで音声特徴量の目標値に応じた定常音データＳを生成する要素として包括される。

（２）前述の各形態では、単位データＵAのピッチｐFに応じて選択フレームの有声／無声を判定したが、選択フレームの有声／無声を判定する方法は適宜に変更される。例えば単位データＵAと単位データＵBとの境界と有声／無声の境界とが高精度に合致する場合や両者の相違が問題とならない場合には、形状パラメータＲの有無（単位データＵA／単位データＵB）に応じて選択フレームの有声／無声を判定することも可能である。すなわち、素片データＶのうち形状パラメータＲを含む単位データＵAに対応する各フレームを有声フレームと判定するとともに形状パラメータＲを含まない単位データＵBに対応する各フレームを無声フレームと判定することも可能である。

また、前述の各形態では、単位データＵAが形状パラメータＲとピッチｐFと音量Ｅとを含み、単位データＵBがスペクトルデータＱと音量Ｅとを含む構成を例示したが、全部の単位データＵが形状パラメータＲとピッチｐFとスペクトルデータＱと音量Ｅとを含む構成も採用され得る。形状パラメータＲやピッチｐFを適切に検出できない無声フレームについては形状パラメータＲやピッチｐFが異常値（例えばエラーを示す特定の数値やゼロ）に設定される。以上の構成では、形状パラメータＲやピッチｐFが有意な数値であるか否かに応じて選択フレームの有声／無声を判定することが可能である。

（３）形状パラメータＲの補間で補間単位データＵiを生成する動作と音量Ｅの補間で補間単位データＵiを生成する動作との実行の条件は前述の例示に限定されない。例えば、特定の種別の音素（例えば有声子音）の各フレームについては、当該フレームが有声音に該当する場合でも音量Ｅの補間で補間単位データＵiを生成する構成が採用される。例えば、事前に用意された参照テーブルに登録された音素の各フレームについては、有声音／無声音に関わらず音量Ｅの補間で補間単位データＵiを生成することも可能である。また、無声子音の音声素片の各フレームは基本的には無声音に該当するが有声音のフレームも混在し得る。したがって、無声子音の音声素片の各フレームについては、当該フレームが有声音に該当する場合でも音量Ｅの補間で補間単位データＵiを生成する構成が好適である。

（４）素片データＶや定常音データＳのデータ構造は任意である。例えば、前述の各形態では、フレーム毎の音量Ｅを単位データＵに含ませたが、単位データＵには音量Ｅを含ませず、単位データＵ（形状パラメータＲ，スペクトルデータＱ）が示すスペクトルやその時間波形から音量Ｅを算定することも可能である。また、前述の各形態では、音声信号ＶOUTの生成時に形状パラメータＲやスペクトルデータＱから時間波形を生成したが、フレーム毎の時間波形データを形状パラメータＲやスペクトルデータＱとは別に素片データＶに含ませ、音声信号ＶOUTの生成時に時間波形データを使用することも可能である。素片データＶに時間波形データを含ませた構成では、形状パラメータＲやスペクトルデータＱが示すスペクトルを時間波形に変換する処理が不要となる。また、前述の各形態における形状パラメータＲの代わりにＬＳＦ（Line Spectral Frequencies）等の他のスペクトル表現方法を利用してスペクトルの形状を表現することも可能である。

（５）第３実施形態では、素片データＶ1と素片データＶ2との間で音量が過度に相違する場合に素片データＶ1および素片データＶ2の一方を優先させたが、素片データＶ1および素片データＶ2の一方を優先させる（すなわち補間を停止する）のは両者間の音量差が大きい場合に限定されない。例えば、素片データＶ1および素片データＶ2の各々が示す音声のスペクトル包絡の形状（フォルマント構造）が過度に相違する場合に素片データＶ1および素片データＶ2の一方を優先させる構成が採用される。具体的には、素片データＶ1および素片データＶ2の一方の音声に明確なフォルマント構造が存在するのに対して他方の音声には明確なフォルマント構造が存在しない（例えば無音に近い）場合のように、補間後の音声のフォルマント構造が補間前の各素片データＶから大きく乖離するほど素片データＶ1と素片データＶ2とでスペクトル包絡の形状が相違する場合に、素片補間部２４は、素片データＶ1および素片データＶ2の一方を優先させる（すなわち補間を停止する）。また、素片データＶ1および素片データＶ2の各々が示す音声波形が過度に相違する場合に素片データＶ1および素片データＶ2の一方を優先させることも可能である。以上の例示から理解されるように、第３実施形態の構成は、素片データＶ1と素片データＶ2との間で相対応するフレームにて音声の特性の相違が大きい場合（例えば相違の度合を示す指標値が閾値を上回る場合）に補間比率αを最大値または最小値に近付ける（すなわち補間を停止する）構成として包括され、以上に説明した音量やスペクトル包絡形状や音声波形は、判定に適用される音声特性の例示である。

（６）前述の各形態では、単位データＵの間引または反復により素片伸縮部３４が素片データＶ2を素片データＶ1と共通のフレーム数Ｍに調整したが、素片データＶ2の調整の方法は任意である。例えば、ＤＰ（Dynamic Programming）マッチング等の技術を利用して、素片データＶ2を素片データＶ1に対応させることも可能である。定常音データＳについても同様である。また、素片データＶ2内で相前後する各単位データＵを時間軸上で補間する（例えば素片データＶ2内の第２番目のフレームと第３番目のフレームとの間で単位データＵを補間する）ことにより素片データＶ2を伸縮し、伸縮後の素片データＶ2と素片データＶ1との間でフレーム毎に単位データＵを補間する構成も採用され得る。なお、例えば記憶装置１４に記憶された各素片データＶの時間長が相等しい場合には、各素片データＶを伸縮する構成（素片伸縮部３４）は省略され得る。

また、第２実施形態では、定常音データＳ1の形状パラメータＲの時系列から単位区間σ1[n]を抽出したが、形状パラメータＲの時系列を定常発音区間Ｈの時間長に伸縮することで中間データｓ1を生成することも可能である。定常音データＳ2についても同様であり、例えば定常音データＳ2の時間長が定常音データＳ1と比較して短い場合には、定常音データＳ2を時間軸上で伸長することで中間データｓ2が生成され得る。

（７）前述の各形態では、素片データＶ1と素片データＶ2との補間に適用される補間比率αを０以上かつ１以下の範囲で変化させたが、素片データＶ1と素片データＶ2との補間比率の数値範囲は任意である。例えば、素片データＶ1および素片データＶ2の一方の補間比率を１.５に設定するとともに他方の補間比率を−０.５に設定して両者を合成する処理（外挿）も本発明の補間の概念に包含される。

（８）前述の各形態では、素片データ群ＧAを記憶する記憶装置１４が音声合成装置１００に搭載された構成を例示したが、音声合成装置１００とは独立した外部装置（例えばサーバ装置）が素片データ群ＧAを保持する構成も採用される。音声合成装置１００（素片選択部２２）は、例えば通信網を介して外部装置から素片データＶを取得して音声信号ＶOUTを生成する。同様に、音声合成装置１００から独立した外部装置に合成情報ＧBを保持することも可能である。以上の説明から理解されるように、素片データＶや合成情報ＧBを記憶する要素（前述の各形態における記憶装置１４）は音声合成装置１００の必須の要素ではない。

１００……音声合成装置、１２……演算処理装置、１４……記憶装置、１６……放音装置、２２……素片選択部、２４……素片補間部、２６……音声合成部、３２……補間比率設定部、３４……素片伸縮部、３６……補間処理部、４２……定常音選択部、４４……定常音補間部、５２……補間比率設定部、５４……定常音伸縮部、５６……補間処理部。

Claims

音声特徴量が相違する音声素片のフレーム毎のスペクトルを示す複数の素片データの補間により、前記音声特徴量の目標値に対応する素片データを生成する素片補間手段と、
前記素片補間手段が生成した素片データを利用して音声信号を生成する音声合成手段と
を具備し、
前記素片補間手段は、前記補間に適用する第１素片データおよび第２素片データの双方が有声音を示すフレームについては、前記第１素片データおよび前記第２素片データの各々が当該フレームについて示すスペクトルを前記目標値に応じた補間比率で補間することで前記目標値の素片データを生成し、前記第１素片データおよび前記第２素片データの少なくとも一方が無声音を示すフレームについては、前記第１素片データおよび前記第２素片データの各々が当該フレームについて示す音声の音量を前記目標値に応じた補間比率で補間し、前記第１素片データが示すスペクトルを当該補間後の音量に応じて補正することで前記目標値の素片データを生成する
音声合成装置。
前記素片データは、前記音声素片のうち有声音を含む区間内の各フレームについては音声のスペクトルの形状の特徴を示す形状パラメータを含み、無声音を含む区間内の各フレームについては音声のスペクトルを示すスペクトルデータを含み、
前記素片補間手段は、前記第１素片データおよび前記第２素片データの双方が有声音を示すフレームについては、前記第１素片データおよび前記第２素片データの各々における当該フレームの形状パラメータを前記目標値に応じた補間比率で補間することで前記目標値の素片データを生成し、前記第１素片データおよび前記第２素片データの少なくとも一方が無声音を示すフレームについては、前記第１素片データのスペクトルデータが示すスペクトルを前記補間後の音量に応じて補正することで前記目標値の素片データを生成する
請求項１の音声合成装置。
継続音の変動成分を示す定常音データを音声特徴量の相異なる数値毎に記憶する定常音記憶手段と、
前記定常音記憶手段に記憶された複数の定常音データの補間により、前記目標値に対応する定常音データを生成する定常音補間手段とを具備し、
前記音声合成手段は、前記素片補間手段が生成した素片データと前記定常音補間手段が生成した定常音データとを利用して音声信号を生成する
請求項１または請求項２の音声合成装置。
前記定常音補間手段は、第１定常音データから抽出した複数の第１単位区間を配列した第１中間データと、前記各第１単位区間と同等の時間長となるように第２定常音データから抽出した第２単位区間を配列した第２中間データとを補間する
請求項３の音声合成装置。
前記素片補間手段は、前記第１素片データと前記第２素片データとの間で相対応するフレームにて音声特性の相違が大きい場合に、前記第１素片データおよび前記第２素片データの一方が補間後の素片データに優先的に反映されるように、前記第１素片データと前記第２素片データとを補間する
請求項１から請求項４の何れかの音声合成装置。
音声特徴量が相違する音声素片のフレーム毎のスペクトルを示す複数の素片データの補間により、前記音声特徴量の目標値に対応する素片データを生成する手段であって、前記補間に適用する第１素片データおよび第２素片データの少なくとも一方が無声音を示すフレームについて、前記第１素片データおよび前記第２素片データの各々が当該フレームについて示す音声の音量を前記目標値に応じた補間比率で補間し、前記第１素片データが示すスペクトルを当該補間後の音量に応じて補正することで前記目標値の素片データを生成する素片補間手段と、
前記素片補間手段が生成した素片データを利用して音声信号を生成する音声合成手段と
を具備する音声合成装置。
コンピュータが、
音声特徴量が相違する音声素片のフレーム毎のスペクトルを示す複数の素片データの補間により、前記音声特徴量の目標値に対応する素片データを生成し、
前記生成した素片データを利用して音声信号を生成し、
前記素片データの生成では、前記補間に適用する第１素片データおよび第２素片データの双方が有声音を示すフレームについては、前記第１素片データおよび前記第２素片データの各々が当該フレームについて示すスペクトルを前記目標値に応じた補間比率で補間することで前記目標値の素片データを生成し、前記第１素片データおよび前記第２素片データの少なくとも一方が無声音を示すフレームについては、前記第１素片データおよび前記第２素片データの各々が当該フレームについて示す音声の音量を前記目標値に応じた補間比率で補間し、前記第１素片データが示すスペクトルを当該補間後の音量に応じて補正することで前記目標値の素片データを生成する
音声合成方法。
コンピュータが、
音声特徴量が相違する音声素片のフレーム毎のスペクトルを示す複数の素片データの補間により、前記音声特徴量の目標値に対応する素片データを生成し、前記補間に適用する第１素片データおよび第２素片データの少なくとも一方が無声音を示すフレームについて、前記第１素片データおよび前記第２素片データの各々が当該フレームについて示す音声の音量を前記目標値に応じた補間比率で補間し、前記第１素片データが示すスペクトルを当該補間後の音量に応じて補正することで前記目標値の素片データを生成し、
前記生成した素片データを利用して音声信号を生成する
音声合成方法。