JP6286946B2

JP6286946B2 - 音声合成装置および音声合成方法

Info

Publication number: JP6286946B2
Application number: JP2013178513A
Authority: JP
Inventors: 誠橘; 橘　　誠; 入山　達也; 達也入山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2013-08-29
Filing date: 2013-08-29
Publication date: 2018-03-07
Anticipated expiration: 2033-08-29
Also published as: JP2015049252A

Description

本発明は、音声素片の接続で音声を合成する技術に関する。

収録音声から採取された複数の音声素片を相互に接続して所望の発音内容の合成音声を合成する素片接続型の音声合成技術が従来から提案されている。例えば特許文献１には、音高が相違する複数の音声素片を混合（補間）することで所望の音高の音声素片を生成する技術が開示されている。

特開２０１３−０１１８６３号公報

ところで、特許文献１の技術では、特定の発声者の収録音声から採取された相異なる音高の複数の音声素片が混合され、各音声素片の混合比率は音高の目標値に応じて設定される。したがって、合成音声の声質は、事前に用意された収録音声の声質と基本的には同等であり、多様な声質の合成音声を生成することは困難である。以上の事情を考慮して、本発明は、既存の音声とは声質が相違する多様な合成音声を生成することを目的とする。

以上の課題を解決するために、本発明の音声合成装置は、混合比率を経時的に変化させる変数設定手段と、第１音声の音声素片の各単位区間を表す複数の単位データを含む第１素片データ（例えば素片データＰA）と、第１音声とは声質が相違する第２音声の音声素片の各単位区間を表す複数の単位データを含む第２素片データ（例えば素片データＰB）との間で、変数設定手段が設定した混合比率に応じて各単位データを順次に混合する素片混合手段と、素片混合手段による混合後の単位データの時系列を利用して合成対象音声の音声信号を生成する合成処理手段とを具備する。以上の構成によれば、第１音声の音声素片の第１素片データと第２音声の音声素片の第２素片データとの間で混合比率に応じた各単位データの混合が実行されるから、第１音声と第２音声との中間的な声質の音声や第１音声および第２音声の一方から他方に経時的に変化する音声等の多様な音声を生成することが可能である。変数設定手段は、例えば利用者からの指示に応じて混合比率を経時的に変化させる。

なお、以上の説明では便宜的に第１音声および第２音声のみに言及したが、２種類の音声のみを混合する構成に本発明の範囲を限定する趣旨ではなく、３種類以上の音声を混合する構成にも本発明は同様に適用される。すなわち、３種類以上の音声のうち一の音声を第１音声として他の音声を第２音声とした場合に前述の要件を充足する構成は、混合対象となる音声の総数に関わらず、本発明の範囲に当然に包含される。

本発明の第１態様において、素片混合手段は、合成対象音声のうち一の音素が定常的に継続される定常期間について、第１素片データのうち当該一の音素に対応する第１単位データ（例えば単位データＸA）と、第２素片データのうち当該一の音素に対応する第２単位データ（例えば単位データＸB）とを、定常期間内で経時的に変化する混合比率に応じて順次に混合する。以上の構成では、第１素片データの第１単位データと第２素片データの第２単位データとが、定常期間内で経時的に変化する混合比率に応じて順次に混合される。したがって、例えば定常期間内で第１単位データを反復させる構成と比較して、定常期間内でも混合比率の時間変化を反映した多様な合成音声を生成できるという利点がある。なお、第１態様の具体例は、例えば第１実施形態として後述される。

第１態様の好適例に係る音声合成装置は、第１音声の継続音の変動成分を表す第１継続音データ（例えば継続音データＳA）と、第２音声の継続音の変動成分を表す第２継続音データ（例えば継続音データＳB）とを、混合比率に応じて混合する継続音混合手段を具備し、合成処理手段は、定常期間について、素片混合手段による混合後の単位データの時系列と継続音混合手段による混合後の継続音データとを利用して定常期間内の音声信号を生成する。以上の態様では、素片混合手段による混合後の単位データの時系列に加えて、第１継続音データと第２継続音データとを混合比率に応じて混合した継続音データが、定常期間内の音声信号の生成に利用されるから、合成音声の声質を利用者からの指示に応じて多様に変化させ得るという前述の効果は格別に顕著である。

第１音声と第２音声との音量差が顕著である場合、合成音声の音量が混合比率に応じて過度に変動する可能性がある。以上の事情を考慮して、本発明の第２態様では、単位データは、声帯振動のスペクトル包絡の全体的な強度を示す包絡強度を含む複数のパラメータで音声のスペクトル包絡を表現する包絡特性データを包含し、素片混合手段は、第１素片データの単位データと第２素片データの単位データとの混合の前後にわたる包絡強度の変化量（例えば変化量ΔＧ）を所定の範囲内に制限する。以上の態様では、混合前後にわたる包絡強度の変化量が所定の範囲内に制限されるから、音量の過度な変動が抑制された自然な合成音声を生成することが可能である。なお、第２態様の具体例は、例えば第２実施形態として後述される。

本発明の第３態様に係る音声合成装置は、声質が相違する音声について音声素片毎の素片データを含む複数の音声ライブラリから、第１音声の音声ライブラリと第２音声の音声ライブラリとを利用者からの指示に応じて選択する音声選択手段を具備する。以上の態様では、利用者の意図や嗜好に応じた音声を生成できるという利点がある。ただし、混合対象となる音声の組合せを無制限に許容すると、組合せが不適切な音声ライブラリの素片データが混合されて不自然な音声信号が生成される可能性がある。以上の事情を考慮すると、第３態様においては、所定の条件を充足する組合せの範囲内で、音声選択手段が音声ライブラリを選択する構成が好適である。

以上の各態様に係る音声合成装置は、制御情報の生成等に専用されるDSP（Digital Signal Processor）等のハードウェア（電子回路）によって実現されるほか、CPU（Central Processing Unit）等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、本発明は、以上に説明した各態様に係る音声合成装置の動作方法（音声合成方法）としても特定される。

本発明の第１実施形態に係る音声合成装置の構成図である。音声ライブラリの説明図である。合成情報の模式図である。編集画像の模式図である。音声合成装置の動作のフローチャートである。音声合成部の構成図である。混合処理部の動作の説明図である。合成処理部の動作のフローチャートである。第１実施形態による合成音声のスペクトログラムである。第２実施形態における包絡強度の説明図である。第３実施形態における音声合成装置の構成図である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音声合成装置１００の構成図である。音声合成装置１００は、複数の音声素片を時間軸上で相互に連結する素片接続型の音声合成処理で任意の合成音声の音声信号Ｖを生成する。具体的には、第１実施形態の音声合成装置１００は、任意の楽曲（以下「合成楽曲」という）の歌唱音声の音声信号Ｖを生成する信号処理装置であり、演算処理装置１０と記憶装置１２と表示装置１４と入力装置１６と放音装置１８とを具備するコンピュータシステム（例えば携帯電話機やパーソナルコンピュータ等の情報処理装置）で実現される。

表示装置１４（例えば液晶表示パネル）は、演算処理装置１０から指示された画像を表示する。入力装置１６は、音声合成装置１００に対する各種の指示のために利用者が操作する操作機器（例えばマウス等のポインティングデバイスやキーボード）であり、例えば利用者が操作する複数の操作子を含んで構成される。なお、表示装置１４と一体に構成されたタッチパネルを入力装置１６として採用することも可能である。放音装置１８（例えばスピーカやヘッドホン）は、音声信号Ｖに応じた音響を再生する。なお、音声信号Ｖをデジタルからアナログに変換するＤ/Ａ変換器の図示は便宜的に省略されている。

記憶装置１２は、演算処理装置１０が実行するプログラムや演算処理装置１０が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１２として任意に採用される。第１実施形態の記憶装置１２は、複数の音声ライブラリＬ（ＬA，ＬB）と合成情報Ｑとを記憶する。

各音声ライブラリＬは、複数の素片データＰと複数の継続音データＳとを含み、音声合成の素材として利用される。１個の素片データＰは、事前に収録された音声から抽出された音声素片を表現する。音声素片は、言語的な意味の区別の最小単位である音素（例えば母音や子音）、または、複数の音素を連結した音素連鎖（例えばダイフォンやトライフォン）である。なお、以下の説明では、便宜的に無音を１個の音素（記号[Sil]）として取扱う。他方、継続音データＳは、定常的に継続する音声（以下「継続音」という）の変動成分を表現する。変動成分は、継続音のうち音量や音高等の音響特性が時間的に微細に変動する音響成分（例えばビブラート成分）を意味する。継続音データＳは、発音が定常的に継続され得る種類の音素毎（典型的には母音や撥音等の音素毎）に用意される。

音声ライブラリＬAの各素片データＰAおよび各継続音データＳAは第１音声から生成され、音声ライブラリＬBの各素片データＰBおよび各継続音データＳBは第２音声から生成される。第１音声と第２音声とは声質（声色）が相違する。具体的には、第１音声と第２音声とは、相異なる発声者が発声した音声、または、ひとりの発声者が声質を相違させて発声した音声である。

第１実施形態では、音声ライブラリＬAで表現される第１音声と音声ライブラリＬBで表現される第２音声とを混合（補間）した合成音声の音声信号Ｖが生成される。第１音声と第２音声との混合比率Ｒは、例えば利用者からの指示に応じて可変に設定される。混合比率Ｒは、第１音声および第２音声の各々の優勢度（合成音声に反映される度合）に相当する。具体的には、混合比率Ｒが最小値（例えば０）である場合には第１音声と同様の声質の合成音声が生成され、混合比率Ｒが大きいほど合成音声の声質は第２音声に近付き、混合比率Ｒが最大値（例えば１）である場合には第２音声と同様の声質の合成音声が生成される。すなわち、第１実施形態では、混合比率Ｒに応じて第１音声と第２音声との中間的な声質の合成音声が生成される。

図２に例示される通り、音声ライブラリＬの１個の素片データＰは、音声素片を時間軸上で区分した各区間（以下「単位区間」という）に対応する複数の単位データＸの時系列を包含する。同様に、音声ライブラリＬの１個の継続音データＳは、継続音の変動成分を時間軸上で区分した各単位区間に対応する複数の単位データＹの時系列を包含する。素片データＰの各単位データＸは、周波数特性データＤFと包絡特性データＤEとを含んで構成され、継続音データＳの各単位データＹは、包絡特性データＤEを包含する。周波数特性データＤFは、１個の単位区間での音声のスペクトルを表現する。

包絡特性データＤEは、１個の単位区間の音声のスペクトル包絡を表現する複数の変数の集合である。第１実施形態の包絡特性データＤEは、励起波形包絡Ｅ1と胸部レゾナンスＥ2と声道レゾナンスＥ3と差分スペクトルＥ4とで単位区間のスペクトル包絡を近似的に表現するEpR（Excitation plus Resonance）パラメータであり、公知のSMS（Spectral Modeling Synthesis）分析で算定される。なお、EpRパラメータやSMS分析については、例えば特許第３７１１８８０号公報や特開２００７−２２６１７４号公報にも開示されている。

励起波形包絡（Excitation Curve）Ｅ1は、声帯振動のスペクトル包絡の近似線である。胸部レゾナンス（Chest Resonance）Ｅ2は、胸部共鳴特性を近似する所定個のレゾナンス（帯域通過フィルタ）を規定し、声道レゾナンス（Vocal Tract Resonance）Ｅ3は、声道共鳴特性を近似する複数のレゾナンスを規定する。差分スペクトルＥ4は、励起波形包絡Ｅ1と胸部レゾナンスＥ2と声道レゾナンスＥ3とで近似されるスペクトルと実際の音声のスペクトルとの差分（誤差）を意味する。

記憶装置１２に記憶される図１の合成情報Ｑは、合成対象となる音声（以下「合成対象音声」という）を指定する。図３に例示される通り、第１実施形態の合成情報Ｑは、楽曲情報ＱMと制御情報ＱCとを含んで構成される。楽曲情報ＱMは、合成楽曲の内容を指定する時系列データであり、合成楽曲を構成する音符毎に音高ｑ1と発音期間ｑ2と音声符号ｑ3とを指定する。音高ｑ1は、例えばMIDI（Musical Instrument Digital Interface）規格に準拠したノートナンバーである。発音期間ｑ2は、例えば発音の開始時刻と継続長（または発音の終了時刻）とで規定される音符の継続長である。音声符号ｑ3は、合成対象音声の発音内容（すなわち合成楽曲の歌詞）に相当する。例えば合成楽曲の歌詞を構成する文字（書記素）や各文字に対応する音素の音素記号が音声符号ｑ3として指定される。

図３の制御情報ＱCは、音声合成に適用される変数の時間変化を指定する。第１実施形態の制御情報ＱCは、第１音声（素片データＰA，継続音データＳA）と第２音声（素片データＰB，継続音データＳB）との混合比率Ｒの時間変化を指定する。

図１の演算処理装置１０（CPU）は、記憶装置１２に記憶されたプログラムを実行することで、合成情報Ｑの編集や音声信号Ｖの生成のための複数の機能（指示受付部２２，表示制御部２４，情報管理部２６，音声合成部２８）を実現する。なお、演算処理装置１０の各機能を複数の装置に分散した構成や、専用の電子回路（例えばDSP）が演算処理装置１０の一部の機能を実現する構成も採用され得る。

表示制御部２４は、各種の画像を表示装置１４に表示させる。第１実施形態の表示制御部２４は、合成情報Ｑが指定する合成楽曲の内容を利用者が確認および編集するための図４の編集画像３０を表示装置１４に表示させる。図４に例示される通り、編集画像３０は、楽譜画像３２と変数画像３４とを包含する。楽譜画像３２は、相互に交差する時間軸および音高軸が設定された楽譜領域３２２に、合成情報Ｑの楽曲情報ＱMが指定する各音符を表象する音符図像３２４を配置したピアノロール型の画像である。音高軸の方向における音符図像３２４の位置は、楽曲情報ＱMが指定する音高ｑ1に応じて設定され、時間軸の方向における音符図像３２４の位置および表示長は、楽曲情報ＱMが指定する発音期間ｑ2に応じて設定される。また、各音符図像３２４には、楽曲情報ＱMが指定する音声符号ｑ3（合成楽曲の歌詞と音素記号）が付加される。

変数画像３４は、混合比率Ｒの時間変化を表現する。第１実施形態の変数画像３４は、相互に交差する時間軸および変数軸（縦軸）が設定された変数領域３４２に、混合比率Ｒの時間変化を表現する遷移画像３４４を配置した画像である。変数軸は、混合比率Ｒの数値を示す座標軸である。混合比率Ｒの時間変化に対応した折線が図４では遷移画像３４４として例示されている。

図１の指示受付部２２は、入力装置１６に対する操作に応じた利用者からの指示を受付ける。例えば利用者は、編集画像３０を確認しながら入力装置１６を適宜に操作することで合成情報Ｑの編集を音声合成装置１００に指示することが可能である。指示受付部２２は、合成情報Ｑの編集の指示を利用者から受付ける。情報管理部２６は、記憶装置１２に記憶された合成情報Ｑを管理する。具体的には、情報管理部２６は、指示受付部２２が利用者から受付けた編集の指示に応じて合成情報Ｑ（楽曲情報ＱM，制御情報ＱC）を更新する。音声合成部２８は、記憶装置１２に記憶された音声ライブラリＬと合成情報Ｑとを利用した音声合成処理で音声信号Ｖを生成する。

図５は、第１実施形態の音声合成装置１００の概略的な動作のフローチャートである。入力装置１６に対する利用者からの指示を契機として図５の処理が開始される。処理を開始すると、表示制御部２４は、記憶装置１２に記憶された合成情報Ｑに応じた図４の編集画像３０を表示装置１４に表示させる（ＳA1）。そして、指示受付部２２は、合成情報Ｑの編集の指示を利用者から受付けたか否かを判定する（ＳA2）。

合成情報Ｑの編集の指示を指示受付部２２が受付けた場合（ＳA2：YES）、表示制御部２４による編集画像３０の更新と情報管理部２６による合成情報Ｑの更新とが実行される（ＳA3）。例えば、音符図像３２４の位置や表示長の変更が指示された場合、表示制御部２４は、音符図像３２４の位置や表示長を利用者からの指示に応じて変更し、情報管理部２６は、楽曲情報ＱMのうち編集対象の音符の音高ｑ1や発音期間ｑ2を利用者からの指示に応じて変更する。また、各音符の音声符号ｑ3の変更が利用者から指示された場合、表示制御部２４は、当該音符の音声符号ｑ3の表示を利用者からの指示に応じて変更し、情報管理部２６は、楽曲情報ＱMのうち当該音符の音声符号ｑ3を利用者からの指示に応じて変更する。

また、利用者は、遷移画像３４４に対する操作で混合比率Ｒの時間変化を任意に指示することが可能である。遷移画像３４４の編集が指示された場合、表示制御部２４は、指示受付部２２が利用者から受付けた指示に応じて遷移画像３４４を更新し、情報管理部２６は、制御情報ＱCが指定する混合比率Ｒの時間変化を利用者からの指示に応じて更新する。

以上の処理が完了すると、指示受付部２２は、音声合成（音声信号Ｖの生成）の指示を利用者から受付けたか否かを判定する（ＳA4）。音声合成が指示された場合（ＳA4：YES）、音声合成部２８は、音声ライブラリＬ（ＬA，ＬB）と合成情報Ｑとを適用した音声合成処理を実行することで音声信号Ｖを生成する（ＳA5）。他方、音声合成が指示されていない場合（ＳA4：NO）には音声合成処理は実行されない。また、指示受付部２２は、処理終了の指示を利用者から受付けたか否かを判定する（ＳA6）。処理終了が指示されていない場合（ＳA6：NO）、処理がステップＳA1に遷移して以降の処理が反復され、処理終了が指示された場合（ＳA6：YES）には図５の処理が終了する。

図６は、音声合成処理（ＳA5）を実行する音声合成部２８の具体的な構成図であり、図７は、音声合成処理の説明図である。図６から理解される通り、第１実施形態の音声合成部２８は、変数設定部５２と選択処理部５４と混合処理部５６と合成処理部５８とを含んで構成される。変数設定部５２は、経時的に変化する混合比率Ｒを設定する。具体的には、変数設定部５２は、合成情報Ｑの制御情報ＱCを参照して単位区間毎に混合比率Ｒを順次に設定する。前述の通り、制御情報ＱCは利用者からの指示に応じて更新される。したがって、変数設定部５２は、指示受付部２２が受付けた利用者からの指示に応じて混合比率Ｒを経時的に変化させる要素として機能する。

選択処理部５４は、音声ライブラリＬAおよび音声ライブラリＬBから素片データＰ（ＰA，ＰB）と継続音データＳ（ＳA，ＳB）とを順次に選択する。具体的には、選択処理部５４は、合成情報Ｑの楽曲情報ＱMが順次に指定する音声符号ｑ3に対応した音声素片の素片データＰ（ＰA，ＰB）と継続音データＳ（ＳA，ＳB）とを音声ライブラリＬAおよび音声ライブラリＬBの双方から順次に選択する。例えば図７に例示される通り、音声符号ｑ3が「わ（wa）」を指定するとともに音素[a]が継続音となるように発音期間ｑ2が指定された場合、音声符号ｑ3に対応する複数の音声素片（[Sil-w]，[w-a]，［a-Sil］）の素片データＰ（ＰA，ＰB）と継続音の音素[a]に対応する継続音データＳ（ＳA，ＳB）とが、音声ライブラリＬAと音声ライブラリＬBとから選択される。なお、素片データＰAと素片データＰBとで音声素片の時間長（単位データＸの個数）が相違する場合、選択処理部５４は、素片データＰBの単位データＸの反復や間引による時間軸上の伸縮や、素片データＰAと同等の時間長の区間を素片データＰBから切出す処理等により、素片データＰAと同等の時間長に素片データＰBを調整する。

図６の混合処理部５６は、変数設定部５２が順次に設定する混合比率Ｒに応じて第１音声と第２音声とを混合する要素であり、素片混合部６２と継続音混合部６４とを含んで構成される。素片混合部６２は、選択処理部５４が選択した第１音声の素片データＰAと第２音声の素片データＰBとを、変数設定部５２が順次に設定する混合比率Ｒに応じて混合する。具体的には、素片混合部６２は、素片データＰAの各単位データＸと素片データＰBの各単位データＹとを混合比率Ｒに応じて混合する処理（以下「混合処理」という）で混合単位データＺXを順次に生成する。図７では便宜的に、混合単位データＺXの時系列と重複するように混合比率Ｒの時間変化が図示されている。

第１実施形態の混合処理は、素片データＰAの各単位データＸの包絡特性データＤEが規定する各変数（Ｅ1〜Ｅ4を規定する変数）ｅAと、素片データＰBの各単位データＸの包絡特性データＤEが規定する各変数ｅBとについて、混合比率Ｒを適用した以下の数式(A)の演算（加重和）を実行することで、混合単位データＺXの各変数ｅZを算定する処理である。
ｅZ＝（１−Ｒ）・ｅA＋Ｒ・ｅB ……(A)
数式(A)から理解される通り、混合単位データＺXは、第１音声と第２音声との中間的なスペクトル包絡（第１音声と第２音声との中間的な声質）を表現する。

１個の音素（以下「継続音素」という）が定常的に継続される定常期間Ｈについて、第１実施形態の素片混合部６２は、図７に例示される通り、定常期間Ｈの直前の音声素片の素片データＰAのうち継続音素（図７の例示では音素[a]）に対応する１個の単位データＸA（第１単位データ）と、定常期間Ｈの直前の音声素片の素片データＰBのうち継続音素に対応する１個の単位データＸB（第２単位データ）との間で混合処理を反復的に実行することで、発音期間ｑ2に応じた時間長（定常期間Ｈ）にわたる混合単位データＺXを順次に生成する。単位データＸAは、例えば定常期間Ｈの直前の素片データＰA（図７の例示では音声素片［w-a］の素片データＰ）の最後の単位データＸである。同様に、単位データＸBは、定常期間Ｈの直前の素片データＰBの最後の単位データＸである。

以上の説明から理解される通り、定常期間Ｈ内の複数の混合単位データＺXを生成するための混合処理には共通の単位データＸ（ＸA，ＸB）が反復的に利用される。他方、変数設定部５２が設定する混合比率Ｒは、定常期間Ｈ内でも単位期間毎に経時的に変化し得る。したがって、混合処理に適用される単位データＸは共通するが、定常期間Ｈ内の各混合単位データＺXが表すスペクトル包絡は、定常期間Ｈ内の単位区間毎に経時的に変化し得る。

図６の継続音混合部６４は、選択処理部５４が選択した第１音声の継続音データＳAと第２音声の継続音データＳBとを、変数設定部５２が順次に設定する混合比率Ｒに応じて混合することで継続音データＳZを生成する。第１実施形態の継続音混合部６４は、図７に例示される通り、継続音データＳAに応じた中間データＭAと継続音データＳBに応じた中間データＭBとを混合する混合処理で継続音データＳZを生成する。

具体的には、継続音混合部６４は、継続音データＳAを構成する複数の単位データＹの時系列からＮ個の区間σA［1］〜σA[N]を抽出して相互に連結することで、定常期間Ｈの時間長に相当する個数の単位データＹを配列した中間データＭAを生成する。Ｎ個の単位区間σA[1]〜σA[N]は、時間軸上で相互に重複し得るように継続音データＳAから例えばランダムに抽出される。同様に、中間データＭBは、継続音データＳBから抽出されたＮ個の区間σB［1］〜σB[N]を連結することで生成され、定常期間Ｈの時間長に相当する個数の単位データＹの時系列である。

継続音混合部６４は、図７から理解される通り、第１音声の中間データＭAと第２音声の中間データＭBとを、変数設定部５２が順次に設定する混合比率Ｒに応じて混合する。具体的には、継続音混合部６４は、中間データＭAの各単位データＹと中間データＭBの各単位データＹとを混合比率Ｒに応じて混合する混合処理で混合単位データＺYを単位区間毎に順次に生成する。以上の説明から理解される通り、混合単位データＺYは、第１音声の変動成分と第２音声の変動成分との中間的な変動成分を表現する。図７の継続音データＳZは、混合処理後の複数の混合単位データＺYの時系列である。

図６の合成処理部５８は、素片混合部６２による混合後の複数の混合単位データＺXの時系列と継続音混合部６４による混合後の継続音データＳZ（複数の混合単位データＺYの時系列）とを利用して音声信号Ｖを生成する。図８は、単位区間毎に合成処理部５８が実行する処理のフローチャートである。

合成処理部５８は、選択処理部５４が順次に選択した素片データＰAのうち処理対象の１個の単位区間（以下「対象単位区間」という）の単位データＸの周波数特性データＤFが表すスペクトルの音高（基本周波数）を、合成楽曲の楽曲情報ＱMが指定する音高ｑ1に調整する（ＳB1）。音高の調整には、例えば特開２００３−２５５９９８号公報や特開２００６−０６４７９９号公報に開示された公知の技術（ピッチ変換技術）が任意に採用される。

合成処理部５８は、対象単位区間が定常期間Ｈに包含されるか否かを判定する（ＳB2）。対象単位区間が定常期間Ｈに包含されない場合（ＳB2：NO）、合成処理部５８は、音高調整後のスペクトルの強度を、素片混合部６２が対象単位区間について生成した混合単位データＺXに応じて調整する（ＳB4）。具体的には、合成処理部５８は、対象単位区間の混合単位データＺXで表現されるスペクトル包絡（第１音声と第２音声との混合音声のスペクトル包絡）に合致するように、音高調整後のスペクトルの周波数毎の強度を調整する。例えば、混合単位データＺXで表現されるスペクトル包絡の線上にスペクトルの各ピーク（各調波成分に対応するピーク）が位置するように、スペクトルの周波数毎の強度が調整される。

他方、対象単位区間が定常期間Ｈに包含される場合（ＳB2：YES）。合成処理部５８は、音高調整後のスペクトルの強度を、素片混合部６２が対象単位区間について生成した混合単位データＺXと継続音混合部６４が対象単位区間について生成した混合単位データＺYとに応じて調整する（ＳB3，ＳB4）。具体的には、合成処理部５８は、第１に、素片混合部６２が対象単位区間について生成した混合単位データＺXと、継続音混合部６４が生成した継続音データＳZのうち当該対象単位区間に対応する混合単位データＺYとを合成する（ＳB3）。すなわち、混合単位データＺXで表現されるスペクトル包絡と、混合単位データＺYで表現されるスペクトル包絡とを反映したスペクトル包絡（第１音声と第２音声との混合音声に変動成分を付加したスペクトル包絡）が生成される。第２に、合成処理部５８は、ステップＳB3での合成後のスペクトル包絡に合致するように、音高調整後のスペクトルの周波数毎の強度を調整する（ＳB4）。例えば、ステップＳB3での合成後のスペクトル包絡の線上にスペクトルの各ピークが位置するように、スペクトルの周波数毎の強度が調整される。

音高調整（ＳA1）と強度調整（ＳB4）とが完了すると、合成処理部５８は、強度調整後の各単位区間のスペクトルを時間領域の信号に変換し（ＳB5）、直前の単位区間の信号に時間軸上で連結（例えば相互に重複した状態で加算）することで音声信号Ｖを生成する（ＳB6）。以上の処理が単位区間毎に順次に反復されることで、合成楽曲の歌唱音声を表す音声信号Ｖが生成される。

以上に説明した通り、第１実施形態では、声質が相違する第１音声（音声ライブラリＬA内の素片データＰA）と第２音声（音声ライブラリＬB内の素片データＰB）との混合で音声信号Ｖが生成される。したがって、特定の発声者が相異なる音高で発音した複数の音声素片を混合する特許文献１の構成と比較して、第１音声や第２音声とは声質が相違する多様な合成音声を生成できるという利点がある。また、第１実施形態では、混合比率Ｒが利用者からの指示に応じて経時的に変化する。したがって、例えば混合比率Ｒを音高の目標値（音高ｑ1）に応じて設定する特許文献１の技術と比較して、利用者の意図や嗜好を忠実に反映した多様な合成音声を生成できるという格別の効果が実現される。

ところで、定常期間Ｈ内の合成音声を生成する構成としては、例えば特許文献１にも例示される通り、定常期間Ｈの直前の素片データＰAの最後に位置する１個の単位データＸ（図７の単位データＸA）を定常期間Ｈの時間長にわたり反復させる構成（以下「対比例」という）も想定される。１個の単位データＸを定常期間Ｈ内で単純に反復させる対比例でも、混合比率Ｒの時間変化が反映された継続音データＳZを利用すれば、定常期間Ｈ内での混合比率Ｒの時間変化を影響を反映した合成音声を生成することが可能である。ただし、合成音声に対する変動成分の影響は相対的に小さいから、対比例の構成では、利用者からの指示に応じた混合比率Ｒの時間変化を定常期間Ｈ内の合成音声に充分に反映させることが困難である。第１実施形態では、定常期間Ｈ内の混合単位データＺXを生成する単位データＸAと単位データＸBとの混合処理に混合比率Ｒの時間変化が反映される。したがって、対比例と比較して、定常期間Ｈ内でも、利用者からの指示に応じて声質が多様に変化する合成音声を生成できるという利点がある。また、第１実施形態では、定常期間Ｈ内で経時的に変化する宇混合比率Ｒに応じて継続音データＳAと継続音データＳBとを混合した継続音データＳZが定常期間Ｈ内の混合単位データＺXの時系列に合成される（ＳB3）から、合成音声の声質を利用者からの指示に応じて多様に変化させ得るという前述の効果は格別に顕著である。

図９は、混合比率Ｒを経時的に変化させた場合の音声信号Ｖのスペクトログラムの実測結果である。図９では、音素[a]の発音が継続される期間のうち、時刻ｔ1から時刻ｔ2にかけて混合比率Ｒを０から１まで直線的に増加させ、時刻ｔ2から時刻ｔ3にかけて混合比率Ｒを１から０まで直線的に減少させた場合が例示されている。また、図９の最下段には、第１音声および第２音声の各々の単独のスペクトログラムが図示されている。時刻ｔ1から時刻ｔ2にかけて合成音声が第１音声から第２音声に連続的に変化し、時刻ｔ2から時刻ｔ3にかけて合成音声が第２音声から第１音声に連続的に変化することが図９からも確認できる。

＜第２実施形態＞
本発明の第２実施形態を説明する。なお、以下に例示する各形態において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で参照した符号を適宜に流用して各々の詳細な説明を適宜に省略する。

図１０は、素片データＰの単位データＸや継続音データＳの単位データＹの包絡特性データＤEで規定される励起波形包絡Ｅ1の説明図である。以下の数式(B)で表現される通り、励起波形包絡Ｅ1は複数の変数（Ｇ,δ,η）で周波数軸ｆ上に規定される。
Ｅ1＝Ｇ＋δ｛ｅｘｐ(η・ｆ)−１｝ ……(B)
図１０および数式(B)から理解される通り、変数Ｇは、声帯振動のスペクトル包絡の全体的な強度（以下「包絡強度」という）に相当する。包絡強度Ｇは、周波数ｆの０（直流成分）に対応するスペクトルの強度とも換言され得る。変数δは、励起波形包絡Ｅ1の強度（縦軸）の数値範囲を規定する変数であり、変数ηは、励起波形包絡Ｅ1の形状を規定する変数である。第２実施形態の混合処理では、素片データＰAの包絡特性データＤEが規定する包絡強度ＧA（数式(A)の変数ｅA）と、素片データＰBの包絡特性データＤEが規定する包絡強度ＧB（数式(A)の変数ｅB）とについて混合比率Ｒを適用した数式(A)の演算が実行されることで、合成後のスペクトル包絡の包絡強度ＧZ（数式(A)の変数ｅZ）が算定される。

ただし、素片データＰAと素片データＰBとの音量差が顕著である場合（包絡強度ＧAと包絡強度ＧBとが顕著に相違する場合）、合成音声の音量が混合比率Ｒに応じて過度に変動する可能性がある。以上の事情を考慮して、第２実施形態の混合処理部５６（素片混合部６２，継続音混合部６４）は、合成音声の音量の過度な変動を制限する。具体的には、混合処理部５６は、以下の数式(C)で表現される通り、混合処理の前後にわたる包絡強度Ｇの変化量ΔＧ（包絡強度ＧAと包絡強度ＧZとの差分）を所定の閾値ΔTH以下の範囲に制限する。
ΔＧ＝ＧA−ＧZ≦ΔTH ……(C)

例えば、混合処理部５６は、以下の数式(D)の演算を実行することで混合後の包絡強度ＧZを算定する。
ＧZ＝ｍｉｎ｛ＧZ，ＧA＋ΔTH｝ ……(D)
数式(D)の右辺の包絡強度ＧZは、数式(A)の混合処理で定された包絡強度ＧZ（包絡強度ＧAと包絡強度ＧBとの加重和）である。数式(D)の演算子ｍｉｎ｛｝は、括弧内の複数の数値のうち最小値を採択する演算を意味する。数式(D)から理解される通り、混合処理後の包絡強度ＧZは、混合処理前の包絡強度ＧAに閾値ΔTHを加算した数値以下の範囲に制限される。

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、混合処理の前後にわたる包絡強度の変化量ΔＧが所定の範囲内に制限されるから、利用が指示した混合比率Ｒに応じて合成音声の音量が過度に変動する可能性を低減することが可能である。すなわち、音量の過度な変動が抑制された自然な合成音声を生成できるという利点がある。

なお、閾値ΔTHは、音量の過度な変動が抑制されるように適切な数値に設定される。例えば、混合処理の前後にわたる包絡強度Ｇの変化量ΔＧの推定値（以下「推定変化量」という）ΔＧ_estに応じて閾値ΔTHは設定され得る。推定変化量ΔＧ_estは、例えば、混合処理の前後にわたる音声素片のパワーＷの変化量である。具体的には、以下の数式(E)で表現される通り、混合処理後の音声素片のパワーＷZと混合処理前の音声素片（素片データＰA）のパワーＷAとの差分値が推定変化量ΔＧ_estとして算定される。混合処理後のパワーＷZは、数式(E)から理解される通り、素片データＰAのパワーＷAと素片データＰBのパワーＷBとを混合比率Ｒに応じて混合処理（加重加算）することで算定される。
ΔＧ_est＝ＷZ−ＷA
＝｛(１−Ｒ)・ＷA＋Ｒ・ＷB｝−ＷA ……(E)
数式(E)で算定される推定変化量ΔＧ_estが数式(D)の閾値ΔTHとして採用される。したがって、混合処理後の包絡強度ＧZは、混合処理前の包絡強度ＧAに推定変化量ΔＧ_estを加算した数値以下の範囲に制限される。

また、前述の例示では包絡強度Ｇの変動に着目したが、包絡強度Ｇ以外の変数を音声の音量の指標として利用することも可能である。例えば、混合処理の前後にわたる音声の積算包絡強度Ｇaの変化量を所定の範囲内に制限することも可能である。積算包絡強度Ｇaは、周波数軸ｆと励起波形包絡Ｅ1との間の領域の面積（周波数軸に沿った積分値）に相当し、例えば以下の数式(F)で表現される。なお、式(F)の記号Ｆsはサンプリング周波数である。

＜第３実施形態＞
図１１は、本発明の第３実施形態に係る音声合成装置１００の構成図である。図１１から理解される通り、第３実施形態の音声合成装置１００の記憶装置１２は、相異なる声質の音声に対応するＮ個（Ｎは３以上の自然数）の音声ライブラリＬを記憶する。例えば相異なる発声者が発声した音声の音声ライブラリＬや、ひとりの発声者が声質を相違させて発声した音声の音声ライブラリＬが記憶装置１２に記憶される。

図１１に例示される通り、第３実施形態の音声合成装置１００の演算処理装置１０は、第１実施形態と同様の要素（指示受付部２２，表示制御部２４，情報管理部２６，音声合成部２８）に加えて音声選択部７２として機能する。音声選択部７２は、記憶装置１２に記憶されたＮ個の音声ライブラリＬのうち音声合成部２８が音声合成の素材として実際に利用する音声ライブラリＬAと音声ライブラリＬBとを選択する。音声選択部７２は、声質が相違するＮ種類の音声から第１音声と第２音声とを選択する要素とも換言され得る。

利用者は、入力装置１６を適宜に操作することで所望の音声ライブラリＬの選択を指示することが可能である。指示受付部２２は、音声ライブラリＬの選択の指示を利用者から受付ける。音声選択部７２は、指示受付部２２が利用者から受付けた指示に応じて音声ライブラリＬAと音声ライブラリＬBとを選択する。ただし、第３実施形態の音声選択部７２は、所定の条件を充足する組合せの範囲内で音声ライブラリＬAと音声ライブラリＬBとを利用者からの指示に応じて選択する。音声選択部７２が選択した音声ライブラリＬ（ＬA，ＬB）を適用した音声合成処理や合成情報Ｑの編集については第１実施形態と同様である。

具体的には、音声ライブラリＬの属性（音声の属性を含む）を表す属性情報が各音声ライブラリＬに付加され、音声選択部７２は、属性情報で指定される属性が所定の条件を充足する２個の音声ライブラリＬの選択を許容する。音声ライブラリの属性としては、音声の言語，音声の発声者，発声者の性別，音声の音域，音声ライブラリＬの形式（バージョンやファイル形式）等が例示され得る。具体的には、音声の言語や音域が共通または類似する組合せ、音声の発声者や性別が共通する組合せ、または、音声ライブラリＬの形式が共通または類似する組合せ等の２個の音声ライブラリＬが選択される。

また、音声の音響特性を表す属性情報を音声ライブラリＬに付加し、音響特性が類似または相違する組合せの２個の音声ライブラリＬの選択を許容することも可能である。例えば、利用者が指定した音声ライブラリＬAに音響特性が類似する音声ライブラリＬB（例えば明瞭度が高い音声の音声ライブラリＬAと同様に明瞭度が高い音声の音声ライブラリＬB）を音声選択部７２が選択する構成や、利用者が指定した音声ライブラリＬAとは音響特性が対照的な音声ライブラリＬB（例えば明瞭度が高い音声の音声ライブラリＬAとは対照的に明瞭度が低い音声の音声ライブラリＬB）を音声選択部７２が選択する構成が想定される。

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態では、音声合成処理に適用される複数の音声ライブラリＬの組合せが所定の条件の範囲内に制限されるから、不適切な組合せの音声ライブラリＬが音声合成処理に適用される可能性を低減することが可能である。

＜変形例＞
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を適宜に併合することも可能である。

（１）前述の各形態では、音声素片毎に１個の素片データＰを含む音声ライブラリＬを例示したが、音響特性が相違する複数の素片データＰを音声素片毎に含む音声ライブラリＬを利用することも可能である。例えば、音高が相違する複数の素片データＰを１個の音声素片毎に含む音声ライブラリＬから、楽曲情報ＱMが指定する音高ｑ1に近似する音高の素片データＰを選択する構成が好適である。

また、１個の音声ライブラリＬから選択された複数の素片データＰを混合することも可能である。例えば、音声ライブラリＬAから選択された複数の素片データＰの混合で素片データＰAを生成し、音声ライブラリＬBから選択された複数の素片データＰの混合で素片データＰBを生成することも可能である。１個の音声ライブラリＬから選択された複数の素片データＰの混合には、例えば特許文献１に開示された方法が利用され得る。

（２）選択処理部５４が素片データＰを選択する方法（選択条件）は適宜に変更される。例えば、楽曲情報ＱMが示す音高ｑ1の遷移（ピッチカーブ）や前後の音符との関係等を加味して各音声ライブラリＬから素片データＰを選択することも可能である。また、音声ライブラリＬAと音声ライブラリＬBとで音声素片の種類や総数が相違する場合には、音声ライブラリＬAから選択した素片データＰと同様の音声素片の素片データＰが音声ライブラリＬBに存在しない可能性もある。以上の場合には、音声ライブラリＬAから選択した素片データＰに類似する音声素片の素片データＰが音声ライブラリＬBから選択され得る。

（３）前述の各形態では、２個の素片データＰ（ＰA，ＰB）の混合処理を例示したが、声質が相違する３個以上の素片データＰを混合することも可能である。例えば、３個の素片データＰ（ＰA，ＰB，ＰC）の混合処理は、素片データＰAの包絡特性データＤEの変数ｅAと素片データＰBの包絡特性データＤEの変数ｅBとに加えて、素片データＰCの包絡特性データＤEの変数ｅCを含む以下の数式(G)で表現される。
ｅZ＝ｒA・ｅA＋ｒB・ｅB＋ｒC・ｅC ……(G)
混合比率Ｒは、数式(G)の比率ｒAと比率ｒBと比率ｒCとを含んで構成され、利用者からの指示に応じて可変に設定される。

（４）前述の各形態では、音声のスペクトル包絡を表現する包絡特性データＤEの変数について混合処理を実行したが、包絡特性データＤE以外の変数について混合処理を実行することも可能である。例えば、音声の明瞭度（brightness, clearness），気息成分の強弱（breathiness），男声/女声の度合（genderfactor），音高の微小変化（pitch-bend）等の変数（すなわち合成音声の表情を規定する変数）について素片データＰAと素片データＰBとの間で混合処理を実行することも可能である。例えば、合成音声の表情を規定する変数の設定値を音声ライブラリＬ毎に用意し、各音声ライブラリＬの変数の設定値の間で混合比率Ｒを適用した混合処理を実行する。また、音声ライブラリＬの全体的な音量についても音声ライブラリＬ毎に設定値を用意し、各音声ライブラリＬの音量の設定値について混合比率Ｒを適用した混合処理を実行することも可能である。

（５）前述の各形態では、素片データＰAと素片データＰBとの間の混合処理に加えて、継続音データＳAと継続音データＳBとの混合処理を実行する構成を例示したが、継続音データＳAと継続音データＳBとの混合処理（継続音混合部６４）は省略され得る。

（６）携帯電話機等の端末装置と通信するサーバ装置で音声合成装置１００を実現することも可能である。指示受付部２２は、利用者が端末装置に付与した指示を端末装置から通信網を介して受付け、表示制御部２４は、例えば編集画像３０の画像データを端末装置に送信することで編集画像３０を端末装置の表示装置に表示させる。また、音声合成部２８は、音声合成処理で生成した音声信号Ｖを端末装置に送信する。

（７）前述の各形態では、合成楽曲の歌唱音声の音声信号Ｖの生成を例示したが、歌唱音声以外の音声（例えば会話音等）の音声信号Ｖの生成にも本発明を適用することが可能である。したがって、合成情報Ｑの楽曲情報ＱMによる音高ｑ1および発音期間ｑ2の指定はは省略され得る。また、前述の各形態では、日本語の音声の合成を例示したが、合成対象となる音声の言語は任意である。例えば、英語，スペイン語，中国語，韓国語等の任意の言語の音声を生成する場合にも本発明を適用することが可能である。

１００……音声合成装置、１０……演算処理装置、１２……記憶装置、１４……表示装置、１６……入力装置、１８……放音装置、２２……指示受付部、２４……表示制御部、２６……情報管理部、２８……音声合成部、３０……編集画像、３２……楽譜画像、３２２……楽譜領域、３２４……音符図像、３４……変数画像、３４２……変数領域、３４４……遷移画像、５２……変数設定部、５４……選択処理部、５６……混合処理部、５８……合成処理部、６２……素片混合部、６４……継続音混合部、７２……音声選択部。

Claims

利用者からの指示に応じて混合比率を経時的に変化させる変数設定手段と、
第１音声の音声素片の各単位区間を表す複数の単位データを含む第１素片データと、前記第１音声とは声質が相違する第２音声の音声素片の各単位区間を表す複数の単位データを含む第２素片データとの間で、前記変数設定手段が設定した前記混合比率に応じて前記各単位データを順次に混合する素片混合手段と、
前記第１音声の継続音の変動成分を表す第１継続音データと、前記第２音声の継続音の変動成分を表す第２継続音データとを、前記混合比率に応じて混合する継続音混合手段と、
前記素片混合手段による混合後の単位データの時系列を利用して合成対象音声の音声信号を生成する合成処理手段とを具備し、
前記素片混合手段は、前記合成対象音声のうち一の音素が定常的に継続される定常期間について、前記第１素片データのうち当該一の音素に対応する第１単位データと、前記第２素片データのうち当該一の音素に対応する第２単位データとを、前記定常期間内で経時的に変化する前記混合比率に応じて順次に混合し、
前記合成処理手段は、前記定常期間について、前記素片混合手段による混合後の単位データの時系列と前記継続音混合手段による混合後の継続音データとを利用して前記定常期間内の前記音声信号を生成する
音声合成装置。
前記単位データは、声帯振動のスペクトル包絡の全体的な強度を示す包絡強度を含む複数のパラメータで音声のスペクトル包絡を表現する包絡特性データを包含し、
前記素片混合手段は、前記第１素片データの単位データの前記包絡強度と、前記第１素片データの単位データと前記第２素片データの単位データとの混合後の前記包絡強度との差分を所定の範囲内に制限する
請求項１の音声合成装置。
声質が相違する音声について音声素片毎の素片データを含む複数の音声ライブラリから、所定の条件を充足する組合せの範囲内で、前記第１音声の音声ライブラリと前記第２音声の音声ライブラリとを利用者からの指示に応じて選択する音声選択手段
を具備する請求項１または請求項２の音声合成装置。
利用者からの指示に応じて混合比率を経時的に変化させる変数設定ステップと、
第１音声の音声素片の各単位区間を表す複数の単位データを含む第１素片データと、前記第１音声とは声質が相違する第２音声の音声素片の各単位区間を表す複数の単位データを含む第２素片データとの間で、前記変数設定ステップにより設定した前記混合比率に応じて前記各単位データを順次に混合する素片混合ステップと、
前記第１音声の継続音の変動成分を表す第１継続音データと、前記第２音声の継続音の変動成分を表す第２継続音データとを、前記混合比率に応じて混合する継続音混合ステップと、
前記素片混合ステップによる混合後の単位データの時系列を利用して合成対象音声の音声信号を生成する合成処理ステップとを含み、
前記素片混合ステップでは、前記合成対象音声のうち一の音素が定常的に継続される定常期間について、前記第１素片データのうち当該一の音素に対応する第１単位データと、前記第２素片データのうち当該一の音素に対応する第２単位データとを、前記定常期間内で経時的に変化する前記混合比率に応じて順次に混合し、
前記合成処理ステップでは、前記定常期間について、前記素片混合ステップによる混合後の単位データの時系列と前記継続音混合ステップによる混合後の継続音データとを利用して前記定常期間内の前記音声信号を生成する
音声合成方法。