JP6724932B2

JP6724932B2 - 音声合成方法、音声合成システムおよびプログラム

Info

Publication number: JP6724932B2
Application number: JP2018002451A
Authority: JP
Inventors: 竜之介大道
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2018-01-11
Filing date: 2018-01-11
Publication date: 2020-07-15
Anticipated expiration: 2038-01-11
Also published as: US20200342848A1; US11094312B2; WO2019138871A1; CN111542875B; CN111542875A; EP3739571A1; EP3739571A4; JP2019120892A

Description

本発明は、音声を合成する技術に関する。

任意の音韻の音声を合成する各種の音声合成技術が従来から提案されている。例えば特許文献１には、所望の音韻を標準的な声質（初期声質）で発音した音声を表す音声信号を例えば素片接続型の音声合成により生成し、当該音声信号が表す音声を例えば濁声または嗄声等の目標声質に変換する技術が開示されている。

特開２０１４−２３３８号公報

しかし、特許文献１の技術では、初期声質の音声の合成後に当該音声が目標声質に変換されるから、処理が煩雑であるという問題がある。以上の事情を考慮して、本発明の好適な態様は、目標声質の音声を合成するための処理を簡素化することを目的とする。

以上の課題を解決するために、本発明の好適な態様に係る音声合成方法は、複数の調波成分の各々について、目標声質と、振幅スペクトル包絡と、当該調波成分について指示された調波周波数とに応じて、当該調波成分に対応したピークを含む単位帯域内の振幅の分布である調波振幅分布を特定し、前記振幅スペクトル包絡と、前記複数の調波成分についてそれぞれ特定された複数の調波振幅分布とから、前記目標声質の音声の周波数スペクトルを生成する。

本発明の他の態様に係るプログラムは、複数の調波成分の各々について、目標声質と、振幅スペクトル包絡と、当該調波成分について指示された調波周波数とに応じて、当該調波成分に対応したピークを含む単位帯域内の振幅の分布である調波振幅分布を特定する処理と、前記振幅スペクトル包絡と、前記複数の調波成分についてそれぞれ特定された複数の調波振幅分布とから、前記目標声質の音声の周波数スペクトルを生成する処理とをコンピュータに実行させる。

本発明の第１実施形態に係る音声合成装置の構成を示すブロック図である。音声合成装置の機能的な構成を示すブロック図である。振幅スペクトルおよび位相スペクトルの説明図である。音声合成処理のフローチャートである。第２実施形態に係る音声合成装置の機能的な構成を示すブロック図である。第３実施形態に係る音声合成装置の機能的な構成を示すブロック図である。第４実施形態に係る音声合成装置の機能的な構成を示すブロック図である。第５実施形態に係る音声合成装置の機能的な構成を示すブロック図である。第７実施形態に係る音声合成装置の機能的な構成を示すブロック図である。第７実施形態における音声合成処理のフローチャートである。第９実施形態における振幅特定部の説明図である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音声合成装置１００の構成を例示するブロック図である。第１実施形態の音声合成装置１００は、歌唱者が楽曲を仮想的に歌唱した音声（以下「合成音声」という）を合成する歌唱合成装置であり、図１に例示される通り、制御装置１１と記憶装置１２と放音装置１３とを具備するコンピュータシステムで実現される。例えば携帯電話機もしくはスマートフォン等の可搬型の情報端末、またはパーソナルコンピュータ等の可搬型または据置型の情報端末が、音声合成装置１００として好適に利用される。

制御装置１１は、例えばＣＰＵ（Central Processing Unit）等の処理回路であり、音声合成装置１００を構成する各要素を統括的に制御する。第１実施形態の制御装置１１は、合成音声の波形を表す時間領域の音声信号Ｖを生成する。放音装置１３（例えばスピーカまたはヘッドホン）は、制御装置１１が生成した音声信号Ｖが表す音声を再生する。なお、制御装置１１が生成した音声信号Ｖをデジタルからアナログに変換するＤ/Ａ変換器と音声信号Ｖを増幅する増幅器とについては図示を便宜的に省略した。また、放音装置１３を音声合成装置１００に搭載した構成を図１では例示したが、音声合成装置１００とは別体の放音装置１３を音声合成装置１００に有線または無線で接続してもよい。

記憶装置１２は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成され、制御装置１１が実行するプログラムと制御装置１１が使用する各種のデータとを記憶する。なお、音声合成装置１００とは別体の記憶装置１２（例えばクラウドストレージ）を用意し、移動体通信網またはインターネット等の通信網を介して制御装置１１が記憶装置１２に対する書込および読出を実行してもよい。すなわち、記憶装置１２を音声合成装置１００から省略してもよい。

記憶装置１２は、楽曲の内容を表す楽曲データＭを記憶する。第１実施形態の楽曲データＭは、楽曲を構成する複数の音符の各々について音高と音韻と発音期間とを指定する。音高は、例えばＭＩＤＩ（Musical Instrument Digital Interface）のノート番号である。音韻は、合成音声により発音される文字（すなわち楽曲の歌詞）である。発音期間は、楽曲の各音符が発音される期間であり、例えば音符の始点と終点または継続長とで指定される。また、第１実施形態の楽曲データＭは、合成音声の声質（以下「目標声質」という）を指定する。例えば嗄声または濁声等の各種の声質が目標声質として楽曲データＭにより指定される。なお、目標声質には、嗄声または濁声等の特徴的な声質のほか、標準的な声質も含まれる。

図２は、制御装置１１の機能的な構成を例示するブロック図である。図２に例示される通り、制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで、楽曲データＭに応じた音声信号Ｖを生成するための複数の機能（調波処理部２１および波形合成部２２）を実現する。なお、複数の装置の集合（すなわちシステム）で制御装置１１の機能を実現してもよいし、制御装置１１の機能の一部または全部を専用の電子回路（例えば信号処理回路）で実現してもよい。

調波処理部２１は、楽曲データＭに応じた合成音声の周波数スペクトルＱを時間軸上の単位期間（フレーム）毎に順次に生成する。周波数スペクトルＱは、振幅スペクトルＱaと位相スペクトルＱpとで構成される複素スペクトルである。波形合成部２２は、調波処理部２１が順次に生成した複数の周波数スペクトルＱの時系列から時間領域の音声信号Ｖを生成する。音声信号Ｖの生成には離散逆フーリエ変換が好適に利用される。波形合成部２２が生成した音声信号Ｖが放音装置１３に供給されて音波として再生される。

図３は、調波処理部２１が生成する周波数スペクトルＱを構成する振幅スペクトルＱaおよび位相スペクトルＱpの模式図である。図３に例示される通り、合成音声（特に有声音）の振幅スペクトルＱaには調波構造が観測される。調波構造は、複数（Ｎ個）の調波成分が相互に間隔をあけて周波数軸上に配列された構造である。第ｎ番目（ｎ＝１〜Ｎ）の調波成分のピークは基本周波数Ｆ0の略ｎ倍の周波数に存在する。第１番目の調波成分は、基本周波数Ｆ0に振幅のピークが存在する基音成分であり、第２番目以降の各調波成分は、基本周波数Ｆ0のｎ倍の倍音周波数ｎＦ0に振幅のピークが存在する第ｎ次の倍音成分である。以下の説明では、基本周波数Ｆ0のｎ倍の周波数（基本周波数Ｆ0および各倍音周波数ｎＦ0）を調波周波数Ｈ_nと表記する。調波周波数Ｈ_1は、基本周波数Ｆ0に相当する。

図３には、振幅スペクトルＱaの概形を示す振幅スペクトル包絡Ｅaが図示されている。各調波成分のピークの頂点は振幅スペクトル包絡Ｅaの線上に位置する。すなわち、振幅スペクトル包絡Ｅaのうち各調波成分の調波周波数Ｈ_nにおける振幅が、当該調波成分のピークの振幅に相当する。

図３に例示される通り、振幅スペクトルＱaは、相異なる調波成分に対応するＮ個の単位帯域Ｂ_1〜Ｂ_Nに周波数軸上で区分される。任意の１個の単位帯域Ｂ_nには、第ｎ番目の調波成分に対応する振幅のピークが存在する。例えば、周波数軸上で相互に隣合う調波周波数Ｈ_nの中点を境界として各単位帯域Ｂ_nが画定される。振幅スペクトルＱaのうち単位帯域Ｂ_n内における振幅の分布を以下では「調波振幅分布Ｄa_n」と表記する。図３から理解される通り、Ｎ個の調波振幅分布Ｄa_1〜Ｄa_Nを振幅スペクトル包絡Ｅaに沿って周波数軸上に配列することで振幅スペクトルＱaが構成される。

図３に例示される通り、位相スペクトルＱpは、振幅スペクトルＱaと同様のＮ個の単位帯域Ｂ_1〜Ｂ_Nに周波数軸上で区分される。位相スペクトルＱpのうち単位帯域Ｂ_n内における位相の分布を以下では「調波位相分布Ｄp_n」と表記する。図３から理解される通り、Ｎ個の調波位相分布Ｄp_1〜Ｄp_Nを周波数軸上に配列することで位相スペクトルＱpが構成される。なお、単位帯域Ｂ_nの帯域幅は、例えば基本周波数Ｆ0に応じた可変長である。

図２に例示される通り、調波処理部２１は、制御データ生成部３１と第１学習済モデル３２と第２学習済モデル３３と周波数スペクトル生成部３４とを具備する。制御データ生成部３１は、振幅スペクトル包絡Ｅaと位相スペクトル包絡ＥpとＮ個の制御データＣ_1〜Ｃ_Nとを時間軸上の単位期間（フレーム）毎に順次に生成する。第１学習済モデル３２は、制御データＣ_nに応じた調波振幅分布Ｄa_nを特定する統計的予測モデルである。すなわち、第１学習済モデル３２は、制御データ生成部３１が生成したＮ個の制御データＣ_1〜Ｃ_Nにそれぞれ対応するＮ個の調波振幅分布Ｄa_1〜Ｄa_Nを単位期間毎に出力する。他方、第２学習済モデル３３は、制御データＣ_nに応じた調波位相分布Ｄp_nを特定する統計的予測モデルである。すなわち、第２学習済モデル３３は、制御データ生成部３１が生成したＮ個の制御データＣ_1〜Ｃ_Nにそれぞれ対応するＮ個の調波位相分布Ｄp_1〜Ｄp_Nを単位期間毎に出力する。以上の説明から理解される通り、制御データＣ_nは、調波振幅分布Ｄa_nおよび調波位相分布Ｄp_nの条件を規定するデータである。

図２に例示される通り、第ｎ番目の調波成分に対応する制御データＣ_nは、調波周波数Ｈ_nと振幅スペクトル包絡Ｅaと所望の声質を示す目標声質Ｘとを指定する。振幅スペクトル包絡Ｅaおよび目標声質Ｘは、Ｎ個の調波成分について共通する。

調波周波数Ｈ_nは、前述の通り、第ｎ番目の調波成分の振幅がピークとなる周波数（ｎＦ0）である。調波周波数Ｈ_nを調波成分毎の個別の数値で指定してもよいし、基本周波数Ｆ0と調波次数ｎとの組合せで調波周波数Ｈ_nを指定してもよい。制御データ生成部３１は、例えば楽曲データＭが指定する各音符の音高に応じて変化する調波周波数Ｈ_nを設定する。例えば、楽曲データＭが指定する音高に対応する基本周波数Ｆ0のｎ倍の数値が調波周波数Ｈ_nとして算定される。なお、制御データ生成部３１が調波周波数Ｈ_nを設定する方法は任意である。例えば、楽曲データＭと調波周波数Ｈ_n（または基本周波数Ｆ0）との間の関係を機械学習により学習した統計的予測モデルを利用して調波周波数Ｈ_nの設定してもよい。統計的予測モデルとしては例えばニューラルネットワーク（以下「ＮＮ」という）が好適である。

振幅スペクトル包絡Ｅaは、前述の通り、合成音声の振幅スペクトルＱaの概形である。振幅スペクトル包絡Ｅaには、調波振幅分布Ｄa_nにおける調波成分の近傍の微細な構造は含まれない。例えば、振幅スペクトル包絡Ｅaは、例えば低次側の所定個のメルケプストラム係数により表現される。制御データ生成部３１は、楽曲データＭが指定する音韻の情報に応じて振幅スペクトル包絡Ｅaを特定する。例えば、事前に用意された振幅スペクトル包絡Ｅaが音韻毎に記憶装置１２に記憶され、制御データ生成部３１は、記憶装置１２に記憶された複数の振幅スペクトル包絡Ｅaのうち、楽曲データＭが指定する音韻に対応する振幅スペクトル包絡Ｅaを選択して制御データＣ_nに含める。なお、振幅スペクトル包絡Ｅaの特定には公知の任意の方法が利用される。例えば、楽曲データＭと振幅スペクトル包絡Ｅaとの間の関係を機械学習により学習した統計的予測モデル（例えばＮＮ）を利用して振幅スペクトル包絡Ｅaを特定してもよい。

位相スペクトル包絡Ｅpは、合成音声の位相スペクトルＱpの概形である。位相スペクトル包絡Ｅpには、調波位相分布Ｄp_nにおける調波成分の近傍の微細な構造は含まれない。制御データ生成部３１は、楽曲データＭが指定する音韻等の情報に応じて位相スペクトル包絡Ｅpを特定する。例えば、事前に用意された位相スペクトル包絡Ｅpが音韻毎に記憶装置１２に記憶され、制御データ生成部３１は、記憶装置１２に記憶された複数の位相スペクトル包絡Ｅpのうち、楽曲データＭが指定する音韻に対応する位相スペクトル包絡Ｅpを選択する。なお、位相スペクトル包絡Ｅpを表現するデータの形式は任意である。また、位相スペクトル包絡Ｅpの特定には公知の任意の方法が利用される。例えば、楽曲データＭと位相スペクトル包絡Ｅpとの間の関係を機械学習により学習した統計的予測モデル（例えばＮＮ）を利用して位相スペクトル包絡Ｅpを特定してもよい。

第１学習済モデル３２は、特定の歌唱者（以下「目標歌唱者」という）の歌唱音声について、制御データＣ_nと調波振幅分布Ｄa_nとの間の関係を学習した統計的予測モデルである。例えば、制御データＣ_nの入力に対して調波振幅分布Ｄa_nを推定および出力するＮＮが第１学習済モデル３２として好適に利用される。具体的には、単純なフィードフォワード型ＮＮ、長期短期記憶（LSTM：Long Short Term Memory）を利用した再帰型ＮＮ（RNN：Recurrent Neural Network）、およびそれら発展型のＮＮが第１学習済モデル３２として好適である。複数種のＮＮの組合せを第１学習済モデル３２として利用してもよい。

第１学習済モデル３２は、制御データＣ_nと調波振幅分布Ｄa_nとを対応させた複数の教師データを利用した機械学習（特に深層学習）により、制御データＣ_nと調波振幅分布Ｄa_nとの間の関係を学習した学習済モデルである。第１学習済モデル３２を規定する複数の係数Ｋ1が、各目標声質Ｘに対応する複数の教師データを利用した機械学習により設定されて記憶装置１２に記憶される。したがって、複数の教師データから抽出される傾向（制御データＣ_nと調波振幅分布Ｄa_nとの間の関係）のもとで未知の制御データＣ_nに対して統計的に妥当な調波振幅分布Ｄa_nが第１学習済モデル３２から出力される。すなわち、調波振幅分布Ｄa_nは、楽曲データＭが指定する音高および音韻を、目標歌唱者が目標声質Ｘで発音した音声の振幅スペクトルＱaのうち第ｎ番目の調波成分の振幅分布に相当する。なお、第１学習済モデル３２による調波振幅分布Ｄa_nの推定には、制御データＣ_nに含まれる振幅スペクトル包絡Ｅaの全部の係数のうち例えば低次数側の一部の係数だけを利用してもよい。

第２学習済モデル３３は、目標歌唱者の歌唱音声について、制御データＣ_nと調波位相分布Ｄp_nとの間の関係を学習した統計的予測モデルである。例えば、制御データＣ_nの入力に対して調波位相分布Ｄp_nを推定および出力するＮＮが第２学習済モデル３３として好適に利用される。第１学習済モデル３２と同様に、公知の種々の形式のＮＮが第２学習済モデル３３として利用される。

図２の第２学習済モデル３３は、制御データＣ_nと調波位相分布Ｄp_nとを対応させた複数の教師データを利用した機械学習（特に深層学習）により、制御データＣ_nと調波位相分布Ｄp_nとの間の関係を学習した学習済モデルである。第２学習済モデル３３を規定する複数の係数Ｋ2が、各目標声質Ｘに対応する複数の教師データを利用した機械学習により設定されて記憶装置１２に記憶される。したがって、複数の教師データから抽出される傾向（制御データＣ_nと調波位相分布Ｄp_nとの間の関係）のもとで未知の制御データＣ_nに対して統計的に妥当な調波位相分布Ｄp_nが第２学習済モデル３３から出力される。すなわち、調波位相分布Ｄp_nは、楽曲データＭが指定する音高および音韻を、目標歌唱者が目標声質Ｘで発音した音声の位相スペクトルＱpのうち第ｎ番目の調波成分の位相分布に相当する。なお、第２学習済モデル３３による調波位相分布Ｄp_nの推定には、制御データＣ_nに含まれる振幅スペクトル包絡Ｅaの全部の係数のうち低次数側の一部の係数だけを利用してもよい。

図３から理解される通り、第１学習済モデル３２が各調波成分について出力する調波振幅分布Ｄa_nは、調波周波数Ｈ_nでの振幅（以下「代表振幅」という）Ｒa_nに対する相対的な振幅の分布である。すなわち、調波振幅分布Ｄa_nを構成する各振幅は、代表振幅Ｒa_nを所定の基準値Ｒa0（例えばＲa0＝０）とした相対値である。相対値は、線形振幅の差分および対数振幅の差分（すなわち線形振幅の比）の何れでもよい。代表振幅Ｒa_nは、調波振幅分布Ｄa_nのうち調波成分に対応する振幅のピークの頂点における振幅である。同様に、第２学習済モデル３３が各調波成分について出力する調波位相分布Ｄp_nは、調波周波数Ｈ_nにおける位相（以下「代表位相」という）Ｒp_nに対する相対的な位相の分布である。すなわち、調波位相分布Ｄp_nを構成する各位相は、代表位相Ｒp_nを所定の基準値Ｒp0（例えばＲp0＝０）とした相対値である。なお、基準値Ｒa0および基準値Ｒp0は０に限定されない。

以上に説明した通り、Ｎ個の調波振幅分布Ｄa_1〜Ｄa_Nの系列が単位期間毎に第１学習済モデル３２から出力され、Ｎ個の調波位相分布Ｄp_1〜Ｄp_Nの系列が単位期間毎に第２学習済モデル３３から出力される。図２の周波数スペクトル生成部３４は、振幅スペクトル包絡Ｅaおよび位相スペクトル包絡Ｅpと、第１学習済モデル３２が出力するＮ個の調波振幅分布Ｄa_1〜Ｄa_Nと、第２学習済モデル３３が出力するＮ個の調波位相分布Ｄp_1〜Ｄp_Nとから、合成音声の周波数スペクトルＱを生成する。周波数スペクトルＱの生成は単位期間毎（すなわちＮ個の調波振幅分布Ｄa_1〜Ｄa_NとＮ個の調波位相分布Ｄp_1〜Ｄp_Nとの生成毎）に実行される。周波数スペクトルＱは、図３に例示した通り、振幅スペクトルＱaと位相スペクトルＱpとで構成される複素スペクトルである。

具体的には、周波数スペクトル生成部３４は、第１に、Ｎ個の調波振幅分布Ｄa_1〜Ｄa_Nの各々とＮ個の調波位相分布Ｄp_1〜Ｄp_Nの各々とを周波数軸上の各調波周波数Ｈ_nに配置する。第２に、周波数スペクトル生成部３４は、調波振幅分布Ｄa_nの代表振幅Ｒa_nが振幅スペクトル包絡Ｅaの線上に位置するように各調波振幅分布Ｄa_nを調整する。調波振幅分布Ｄa_nの調整は、例えば、調波振幅分布Ｄa_nが対数振幅である場合には定数の加算により実現され、調波振幅分布Ｄa_nが線形振幅である場合には定数の乗算により実現される。第３に、周波数スペクトル生成部３４は、調波位相分布Ｄp_nの代表位相Ｒp_nが位相スペクトル包絡Ｅpの線上に位置するように各調波位相分布Ｄp_nを調整する。調波位相分布Ｄp_nの調整は、当該調波位相分布Ｄp_nに定数を加算することで実現される。周波数スペクトル生成部３４は、以上に説明した調整後のＮ個の調波振幅分布Ｄa_1〜Ｄa_NとＮ個の調波位相分布Ｄp_1〜Ｄp_Nとを合成することで、周波数スペクトルＱを生成する。なお、周波数軸上で隣合う２個の調波成分の間で調波振幅分布Ｄa_nおよび調波振幅分布Ｄa_n+1が相互に重複する場合、その重複の部分は複素平面上で加算される。他方、周波数軸上で隣合う２個の調波成分の間で調波振幅分布Ｄa_nおよび調波振幅分布Ｄa_n+1が相互に離間する場合、両者間の間隔はそのまま維持される。以上の処理で生成される周波数スペクトルＱは、楽曲データＭが指定する音高および音韻を、目標歌唱者が目標声質Ｘで発音した音声の周波数特性に相当する。なお、以上の説明では、調波振幅分布Ｄa_nの調整（調整量ａ）と調波位相分布Ｄp_nの調整（調整量ｐ）とを個別に実行したが、調波振幅分布Ｄa_nと調波位相分布Ｄp_nとを合成して複素表現とし、当該複素表現に対して複素数｛ａ×ｅｘｐ(ｊｐ)｝を乗算すれば、調波振幅分布Ｄa_nの調整と調波位相分布Ｄp_nの調整とを同時に実現することができる（ｊは虚数単位）。

周波数スペクトル生成部３４が生成した周波数スペクトルＱが、単位期間毎に調波処理部２１から波形合成部２２に出力される。前述の通り、波形合成部２２は、調波処理部２１が単位期間毎に生成した複数の周波数スペクトルＱの時系列から時間領域の音声信号Ｖを生成する。

図４は、目標歌唱者が目標声質Ｘで発声した合成音声を表す音声信号Ｖを制御装置１１が合成する処理（以下「音声合成処理」という）のフローチャートである。音声合成処理は、例えば音声合成装置１００の利用者からの指示を契機として開始されて単位期間毎に反復される。

任意の１個の単位期間について音声合成処理を開始すると、制御データ生成部３１は、Ｎ個の制御データＣ_1〜Ｃ_Nを生成する（Ｓa1，Ｓa2）。具体的には、制御データ生成部３１は、楽曲データＭに応じてＮ個の調波周波数Ｈ_1〜Ｈ_Nを設定する（Ｓa1）。例えば、制御データ生成部３１は、Ｎ個の調波周波数Ｈ_1〜Ｈ_Nの各々を個別に設定してもよいし、１個の基本周波数Ｆ0のｎ倍の周波数をＮ個の調波周波数Ｈ_1〜Ｈ_Nとして設定してもよい。制御データ生成部３１は、楽曲データＭに応じて振幅スペクトル包絡Ｅaおよび位相スペクトル包絡Ｅpを特定する（Ｓa2）。なお、調波周波数Ｈ_n、振幅スペクトル包絡Ｅaおよび位相スペクトル包絡Ｅpは、目標歌唱者に対応する特徴量でもよいし、目標歌唱者以外の歌唱者の特徴量でもよい。また、調波周波数Ｈ_n、振幅スペクトル包絡Ｅaおよび位相スペクトル包絡Ｅpは、目標声質Ｘに対応する特徴量でもよいし、目標声質Ｘに対応しない特徴量でもよい。調波周波数Ｈ_nの設定（Ｓa1）と振幅スペクトル包絡Ｅaおよび位相スペクトル包絡Ｅpの特定（Ｓa2）との順序を逆転してもよい。以上の処理により、調波周波数Ｈ_nと振幅スペクトル包絡Ｅaと目標声質Ｘとを含む制御データＣ_nが生成される。

制御装置１１は、Ｎ個の制御データＣ_1〜Ｃ_Nにそれぞれ対応するＮ個の調波振幅分布Ｄa_1〜Ｄa_Nを第１学習済モデル３２により生成する（Ｓa3）。また、制御装置１１は、Ｎ個の制御データＣ_1〜Ｃ_Nにそれぞれ対応するＮ個の調波位相分布Ｄp_1〜Ｄp_Nを第２学習済モデル３３により生成する（Ｓa4）。なお、Ｎ個の調波振幅分布Ｄa_1〜Ｄa_Nの生成（Ｓa3）とＮ個の調波位相分布Ｄp_1〜Ｄp_Nの生成（Ｓa4）との順序を逆転してもよい。

周波数スペクトル生成部３４は、振幅スペクトル包絡Ｅaと位相スペクトル包絡ＥpとＮ個の調波振幅分布Ｄa_1〜Ｄa_NとＮ個の調波位相分布Ｄp_1〜Ｄp_Nとから目標声質Ｘの周波数スペクトルＱを生成する（Ｓa5）。具体的には、前述の通り、周波数スペクトル生成部３４は、振幅スペクトル包絡Ｅaに沿うＮ個の調波振幅分布Ｄa_1〜Ｄa_Nと位相スペクトル包絡Ｅpに沿うＮ個の調波位相分布Ｄp_1〜Ｄp_Nとを合成することで周波数スペクトルＱを生成する。波形合成部２２は、周波数スペクトルＱから時間領域の音声信号Ｖを生成する（Ｓa6）。以上の手順により単位期間毎に生成された音声信号Ｖを時間軸上で相互に重複させて加算することで、楽曲データＭが指定する音高および音韻を目標声質Ｘで発音した音声を表す音声信号Ｖが生成される。

以上に説明した通り、第１実施形態では、目標声質Ｘと調波周波数Ｈ_nと振幅スペクトル包絡Ｅaとに応じて調波成分毎の調波振幅分布Ｄa_nが特定され、振幅スペクトル包絡ＥaとＮ個の調波振幅分布Ｄa_1〜Ｄa_Nとから目標声質Ｘの音声の周波数スペクトルＱ（振幅スペクトル）が生成される。したがって、標準的な声質の音声を合成してから当該声質の音声を変換する特許文献１の技術と比較して、目標声質Ｘの音声の合成処理が簡素化されるという利点がある。

第１実施形態では、制御データＣ_nと調波振幅分布Ｄa_nとの間の関係を学習した第１学習済モデル３２により各調波成分の調波振幅分布Ｄa_nが特定される。したがって、未知の制御データＣ_nに対応する調波振幅分布Ｄa_nを適切に特定できるという利点がある。なお、各調波振幅分布Ｄa_nの形状は相互に近似するから、小規模な統計的予測モデル（例えばＮＮ）を第１学習済モデル３２として利用できるという利点もある。また、各調波振幅分布Ｄa_nの形状が相互に近似するから、調波振幅分布Ｄa_nの推定に誤りが発生した場合でも、音声信号Ｖの波形の破綻のように音質上の重大な問題には直結しないという利点もある。

目標声質Ｘと調波周波数Ｈ_nと振幅スペクトル包絡Ｅaとに応じて調波成分毎の調波位相分布Ｄp_nが特定され、位相スペクトル包絡ＥpとＮ個の調波位相分布Ｄp_1〜Ｄp_Nとから目標声質Ｘの音声の周波数スペクトルＱ（位相スペクトル）が生成される。したがって、位相スペクトルが適切な目標声質Ｘの音声を合成できるという利点がある。第１実施形態では特に、制御データＣ_nと調波位相分布Ｄp_nとの間の関係を学習した第２学習済モデル３３により各調波成分の調波位相分布Ｄp_nが特定される。したがって、未知の制御データＣ_nに対応する調波位相分布Ｄp_nを適切に特定できるという利点がある。

第１実施形態では、代表振幅Ｒa_nに対する振幅の相対値の分布が調波振幅分布Ｄa_nとして利用されるから、代表振幅Ｒa_nの高低に関わらず適切な周波数スペクトルＱを生成できるという利点がある。同様に、代表位相Ｒp_nに対する位相の相対値の分布が調波位相分布Ｄp_nとして利用されるから、代表位相Ｒp_nの高低に関わらず適切な周波数スペクトルＱを生成できるという利点がある。

＜第２実施形態＞
本発明の第２実施形態を説明する。以下に例示する各形態において作用または機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

図５は、第２実施形態における制御装置１１の機能的な構成を部分的に例示するブロック図である。図５に例示される通り、第２実施形態における制御データ生成部３１は、位相算定部３１１を包含する。位相算定部３１１は、振幅スペクトル包絡Ｅaから算定される周波数軸上の数値系列を位相スペクトル包絡Ｅpとして代替的に生成する。

第２実施形態の位相算定部３１１は、振幅スペクトル包絡Ｅaに対応する最小位相を位相スペクトル包絡Ｅp0として算定する。具体的には、位相算定部３１１は、振幅スペクトル包絡Ｅaの対数値をヒルベルト変換することで算定される最小位相を位相スペクトル包絡Ｅp0として利用する。例えば、位相算定部３１１は、第１に、振幅スペクトル包絡Ｅaの対数値に対して離散逆フーリエ変換を実行することで時間領域のサンプル系列を算定する。第２に、位相算定部３１１は、時間領域のサンプル系列のうち時間軸上で負数の時刻に相当する部分を０に設定し、時間軸上の原点（時刻０）と時刻Ｆ/２（Ｆは離散フーリエ変換の点数）とを除く各時刻に相当する部分を２倍したうえで、離散フーリエ変換を実行する。第３に、位相算定部３１１は、離散フーリエ変換の結果のうちの虚数部分（最小位相）を位相スペクトル包絡Ｅp0として抽出する。

また、位相算定部３１１は、基本周波数Ｆ0の時系列に対応する各単位期間内の位相基準位置（ピッチマーク）を設定する。具体的には、位相算定部３１１は、基本周波数Ｆ0に応じた位相の変化量を積分することで瞬時位相の時系列を算定し、各単位期間の中央付近において瞬時位相が（θ＋２ｍπ）となる時間軸上の位置を位相基準位置として選択する。なお、記号θは任意の実数であり、記号ｍは任意の整数である。そして、位相算定部３１１は、各単位期間の中央の時刻と位相基準位置との時間差だけ位相スペクトル包絡Ｅp0を線形位相シフト（すなわち時間軸上で移動）することで、位相スペクトル包絡Ｅpを生成する。以上の手順で算定された位相スペクトル包絡Ｅpから周波数スペクトル生成部３４が周波数スペクトルＱを生成する方法は第１実施形態と同様である。

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、振幅スペクトル包絡Ｅaから位相スペクトル包絡Ｅpが算定されるから、位相スペクトル包絡Ｅpを設定する処理が簡素化されるという利点がある。

＜第３実施形態＞
図６は、第３実施形態における制御装置１１の機能的な構成を部分的に例示するブロック図である。図６に例示される通り、第３実施形態の第１学習済モデル３２には制御データＣa_nが供給される。第ｔ番目の単位期間（第１単位期間の例示）における各調波成分の制御データＣa_nは、第１実施形態と制御データＣ_nと同様の要素（調波周波数Ｈ_n，振幅スペクトル包絡Ｅaおよび目標声質Ｘ）に加えて、直前に位置する第(t-1)番目の単位期間（第２単位期間の例示）について第１学習済モデル３２が特定した調波振幅分布Ｄa_nを包含する。すなわち、各単位期間について特定された調波振幅分布Ｄa_nが、直後の単位期間の調波振幅分布Ｄa_nを算定するための入力として帰還される。第３実施形態の第１学習済モデル３２は、調波周波数Ｈ_nと振幅スペクトル包絡Ｅaと目標声質Ｘと直前の調波振幅分布Ｄa_nとを含む制御データＣa_nと、調波振幅分布Ｄa_nとの間の関係を学習した統計的予測モデルである。

図６に例示される通り、第３実施形態の第２学習済モデル３３には制御データＣp_nが供給される。第ｔ番目の単位期間における各調波成分の制御データＣp_nは、第１実施形態の制御データＣ_nと同様の要素（調波周波数Ｈ_n，振幅スペクトル包絡Ｅaおよび目標声質Ｘ）に加えて、直前に位置する第(t-1)番目の単位期間について第２学習済モデル３３が特定した調波位相分布Ｄp_nを包含する。すなわち、第３実施形態の第２学習済モデル３３は、調波周波数Ｈ_nと振幅スペクトル包絡Ｅaと目標声質Ｘと直前の調波位相分布Ｄp_nとを含む制御データＣp_nと、調波位相分布Ｄp_nとの間の関係を学習した統計的予測モデルである。

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態では、各単位期間における制御データＣa_nが、直前の単位期間で特定された調波振幅分布Ｄa_nを含む。したがって、複数の教師データにおける調波振幅分布Ｄa_nの時間的な変化の傾向を反映した適切な調波振幅分布Ｄa_nの時系列を特定できるという利点がある。同様に、各単位期間における制御データＣp_nが、直前の単位期間で特定された調波位相分布Ｄp_nを含む。したがって、複数の教師データにおける調波位相分布Ｄp_nの時間的な変化の傾向を反映した適切な調波位相分布Ｄp_nの時系列を特定できるという利点がある。なお、振幅スペクトル包絡Ｅaから位相スペクトル包絡Ｅpを算定する第２実施形態の構成を第３実施形態に採用してもよい。

＜第４実施形態＞
図７は、第４実施形態における制御装置１１の機能的な構成を部分的に例示するブロック図である。図７に例示される通り、第４実施形態の第１学習済モデル３２には制御データＣa_nが供給される。第ｎ番目の調波成分（第１調波成分の例示）の制御データＣa_nは、第１実施形態の制御データＣ_nと同様の要素（調波周波数Ｈ_n，振幅スペクトル包絡Ｅaおよび目標声質Ｘ）に加えて、周波数軸上で当該調波成分に隣合う第(n-1)番目の調波成分（第２調波成分の例示）について第１学習済モデル３２が特定した調波振幅分布Ｄa_n-1を包含する。すなわち、第４実施形態の第１学習済モデル３２は、調波周波数Ｈ_nと振幅スペクトル包絡Ｅaと目標声質Ｘと他の調波成分の調波振幅分布Ｄa_n-1とを含む制御データＣa_nと、調波振幅分布Ｄa_nとの間の関係を学習した統計的予測モデルである。

図７に例示される通り、第４実施形態の第２学習済モデル３３には制御データＣp_nが供給される。第ｎ番目の調波成分の制御データＣp_nは、第１実施形態の制御データＣ_nと同様の要素（調波周波数Ｈ_n，振幅スペクトル包絡Ｅaおよび目標声質Ｘ）に加えて、周波数軸上で当該調波成分に隣合う第(n-1)番目の調波成分について第１学習済モデル３２が特定した調波位相分布Ｄp_n-1を包含する。すなわち、第４実施形態の第２学習済モデル３３は、調波周波数Ｈ_nと振幅スペクトル包絡Ｅaと目標声質Ｘと他の調波成分の調波位相分布Ｄp_n-1とを含む制御データＣp_nと、調波位相分布Ｄp_nとの間の関係を学習した統計的予測モデルである。

第４実施形態においても第１実施形態と同様の効果が実現される。また、第４実施形態では、各調波成分の調波振幅分布Ｄa_nを特定するための制御データＣa_nが、周波数軸上で当該調波成分に隣合う他の調波成分について特定された調波振幅分布Ｄa_n-1を含む。したがって、複数の教師データにおける各調波振幅分布Ｄa_nの相関の傾向を反映した適切な調波振幅分布Ｄa_nを特定できるという利点がある。同様に、各調波成分の調波位相分布Ｄp_nを特定するための制御データＣp_nが、周波数軸上で当該調波成分に隣合う他の調波成分について特定された調波位相分布Ｄp_n-1を含む。したがって、複数の教師データにおける各調波位相分布Ｄp_nの相関の傾向を反映した適切な調波位相分布Ｄp_nを特定できるという利点がある。なお、振幅スペクトル包絡Ｅaから位相スペクトル包絡Ｅpを算定する第２実施形態の構成を第４実施形態に採用してもよい。

＜第５実施形態＞
図８は、第５実施形態における制御装置１１の機能的な構成を部分的に例示するブロック図である。第１学習済モデル３２に対する入力および出力は第１実施形態と同様である。すなわち、第１学習済モデル３２は、調波周波数Ｈ_nと振幅スペクトル包絡Ｅaと目標声質Ｘとを含む制御データＣ_nに応じた調波振幅分布Ｄa_nを出力する。

他方、第５実施形態の第２学習済モデル３３には制御データＣp_nが供給される。制御データＣp_nは、第１実施形態の制御データＣ_nと同様の要素（調波周波数Ｈ_n，振幅スペクトル包絡Ｅaおよび目標声質Ｘ）に加えて、第１学習済モデル３２が生成した調波振幅分布Ｄa_nを包含する。具体的には、任意の１個の単位期間における第ｎ番目の調波成分に対応する制御データＣp_nは、当該単位期間と当該調波成分との組合せについて第１学習済モデル３２が生成した調波振幅分布Ｄa_nを包含する。すなわち、第５実施形態の第２学習済モデル３３は、調波周波数Ｈ_nと振幅スペクトル包絡Ｅaと目標声質Ｘと調波振幅分布Ｄa_nとを含む制御データＣp_nと、調波位相分布Ｄp_nとの間の関係を学習した統計的予測モデルである。

第５実施形態においても第１実施形態と同様の効果が実現される。また、第５実施形態では、各調波成分の調波位相分布Ｄp_nを特定するための制御データＣp_nが、第１学習済モデル３２により生成された調波振幅分布Ｄa_nを含む。したがって、複数の教師データにおける調波振幅分布Ｄa_nと調波位相分布Ｄp_nとの相関を反映した適切な調波位相分布Ｄp_nを特定できるという利点がある。なお、振幅スペクトル包絡Ｅaから位相スペクトル包絡Ｅpを算定する第２実施形態の構成を第５実施形態に採用してもよい。

＜第６実施形態＞
第１実施形態から第５実施形態では、１個の単位期間における調波周波数Ｈ_nを第１学習済モデル３２および第２学習済モデル３３に付与した。例えば１個の音符の発音期間内において調波周波数Ｈ_nが経時的に変化するという傾向を考慮すると、任意の１個の単位期間における制御データＣ_nに、当該単位期間における調波周波数Ｈ_nに加えて、当該単位期間の前後の単位期間における調波周波数Ｈ_nを含めた構成も好適である。すなわち、第６実施形態の制御データＣ_nは、調波周波数Ｈ_nの時間的な変化を表す。

具体的には、第６実施形態の制御データ生成部３１は、第ｔ番目の単位期間における制御データＣ_nに、当該単位期間の調波周波数Ｈ_nと、直前に位置する第(t-1)番目の単位期間の調波周波数Ｈ_nと、直後に位置する第(t+1)番目の単位期間の調波周波数Ｈ_nとを含める。以上の説明から理解される通り、第６実施形態の第１学習済モデル３２が学習する制御データＣ_nと調波振幅分布Ｄa_nとの間の関係には、調波周波数Ｈ_nの時間的な変化の傾向が反映される。したがって、調波周波数Ｈ_nの時間的な変化の傾向を反映した適切な調波振幅分布Ｄa_nを特定できるという利点がある。同様に、第６実施形態の第２学習済モデル３３が学習する制御データＣ_nと調波位相分布Ｄp_nとの間の関係には、調波周波数Ｈ_nの時間的な変化の傾向が反映される。したがって、調波周波数Ｈ_nの時間的な変化の傾向を反映した適切な調波位相分布Ｄp_nを特定できるという利点がある。

なお、以上の説明では、直前および直後の単位期間における調波周波数Ｈ_nを制御データＣ_nに含めたが、制御データＣ_nに含まれる調波周波数Ｈ_nの個数は適宜に変更される。例えば、直前（第(t-1)番目）の単位期間の調波周波数Ｈ_nと直後（第(t+1)番目）の単位期間の調波周波数Ｈ_nの一方を、第ｔ番目の単位期間の調波周波数Ｈ_nとともに制御データＣ_nに含めてもよい。第ｔ番目の単位期間の前方に位置する複数の単位期間における調波周波数Ｈ_nを第ｔ番目の単位期間の制御データＣ_nに含めた構成、および、第ｔ番目の単位期間の後方に位置する複数の単位期間における調波周波数Ｈ_nを第ｔ番目の単位期間の制御データＣ_nに含めた構成も想定される。

また、前述の例示では、第ｔ番目の単位期間の制御データＣ_nに他の単位期間の調波周波数Ｈ_nを含めた構成を例示したが、調波周波数Ｈ_nの変化量（例えば周波数の時間微分値）を制御データＣ_nに含めてもよい。例えば、第ｔ番目の単位期間の制御データＣ_nには、第(t-1)番目の単位期間と第ｔ番目の単位期間との間における調波周波数Ｈ_nの変化量、または、第ｔ番目の単位期間と第(t+1)番目の単位期間との間における調波周波数Ｈ_nの変化量が含められる。

以上の説明から理解される通り、第ｔ番目の単位期間における第ｎ番目の調波成分の制御データＣ_nは、
（１）第ｔ番目の単位期間における当該調波成分の調波周波数Ｈ_nと、
（２）第ｔ番目以外の単位期間（典型的には直前または直後の単位期間）における当該調波成分の調波周波数Ｈ_n、または、第ｔ番目の単位期間の前後における当該調波周波数Ｈ_nの変化量とを含む。なお、第２実施形態から第５実施形態の構成を第６実施形態に適用してもよい。

＜第７実施形態＞
図９は、第７実施形態における制御装置１１の機能的な構成を例示するブロック図である。図９に例示される通り、第７実施形態の調波処理部２１は、第１実施形態における第１学習済モデル３２および第２学習済モデル３３を振幅特定部４１および位相特定部４２に置換した構成である。制御データ生成部３１が振幅スペクトル包絡Ｅaと位相スペクトル包絡ＥpとＮ個の制御データＣ_1〜Ｃ_Nとを生成する動作は第１実施形態と同様である。

振幅特定部４１は、制御データ生成部３１が生成した制御データＣ_nに応じた調波振幅分布Ｄa_nを特定する。Ｎ個の制御データＣ_1〜Ｃ_Nにそれぞれ対応するＮ個の調波振幅分布Ｄa_1〜Ｄa_Nが単位期間毎に振幅特定部４１から出力される。他方、位相特定部４２は、制御データ生成部３１が生成した制御データＣ_nに応じた調波位相分布Ｄp_nを特定する。Ｎ個の制御データＣ_1〜Ｃ_Nにそれぞれ対応するＮ個の調波位相分布Ｄp_1〜Ｄp_Nが単位期間毎に位相特定部４２から出力される。

第７実施形態の記憶装置１２は、調波振幅分布Ｄa_nの特定のために振幅特定部４１が使用する参照テーブルＴaと、調波位相分布Ｄp_nの特定のために位相特定部４２が使用する参照テーブルＴpとを記憶する。なお、参照テーブルＴaと参照テーブルＴpとを別個の記録媒体に記憶してもよい。

参照テーブルＴaは、図９に例示される通り、制御データ生成部３１が生成し得る複数通りの制御データＣの各々について、単位帯域Ｂ内の調波振幅分布Ｄaを表す形状データＷaが登録されたデータテーブルである。参照テーブルＴaに登録された各調波振幅分布Ｄaの形状は制御データＣ毎に相違する。以上の説明から理解される通り、第７実施形態の記憶装置１２には、制御データＣ毎（すなわち、調波周波数Ｈ_nと振幅スペクトル包絡Ｅaと目標声質Ｘとの組合せ毎）に調波振幅分布Ｄa_nが記憶される。

参照テーブルＴpは、図９に例示される通り、制御データ生成部３１が生成し得る複数通りの制御データＣの各々について、単位帯域Ｂ内の調波位相分布Ｄpを表す形状データＷpが登録されたデータテーブルである。参照テーブルＴpに登録された各調波位相分布Ｄpの形状は制御データＣ毎に相違する。以上の説明から理解される通り、第７実施形態の記憶装置１２には、制御データＣ毎（すなわち、調波周波数Ｈ_nと振幅スペクトル包絡Ｅaと目標声質Ｘとの組合せ毎）に調波位相分布Ｄp_nが記憶される。なお、図９においては参照テーブルＴaと参照テーブルＴpとを区別したが、制御データＣと形状データＷaと形状データＷpとを対応させた単体の参照テーブルを、振幅特定部４１および位相特定部４２が利用してもよい。

図９の振幅特定部４１は、参照テーブルＴaに登録された複数の形状データＷaのうち、制御データ生成部３１が生成した制御データＣ_nに対応する形状データＷaを検索し、当該形状データＷaが表す調波振幅分布Ｄa_nを出力する。すなわち、振幅特定部４１は、Ｎ個の調波成分の各々の制御データＣ_nに対応する形状データＷaを記憶装置１２から取得することで、当該調波成分の調波振幅分布Ｄa_nを特定する。

位相特定部４２は、参照テーブルＴpに登録された複数の形状データＷpのうち、制御データ生成部３１が生成した制御データＣ_nに対応する形状データＷpを検索し、当該形状データＷpが表す調波位相分布Ｄp_nを出力する。すなわち、位相特定部４２は、Ｎ個の調波成分の各々の制御データＣ_nに対応する形状データＷpを記憶装置１２から取得することで、当該調波成分の調波位相分布Ｄp_nを特定する。

周波数スペクトル生成部３４は、振幅スペクトル包絡Ｅaおよび位相スペクトル包絡Ｅpと、振幅特定部４１が特定したＮ個の調波振幅分布Ｄa_1〜Ｄa_Nと、位相特定部４２が特定したＮ個の調波位相分布Ｄp_1〜Ｄp_Nとから、合成音声の周波数スペクトルＱを生成する。周波数スペクトルＱの生成は、第１実施形態と同様の構成および方法により単位期間毎に実行される。波形合成部２２は、第１実施形態と同様に、調波処理部２１が単位期間毎に生成した複数の周波数スペクトルＱの時系列から時間領域の音声信号Ｖを生成する。

図１０は、第７実施形態の制御装置１１が実行する音声合成処理のフローチャートである。音声合成処理は、例えば音声合成装置１００の利用者からの指示を契機として開始されて単位期間毎に反復される。

音声合成処理を開始すると、第１実施形態と同様に、制御データ生成部３１は、Ｎ個の制御データＣ_1〜Ｃ_Nを生成する（Ｓa1，Ｓa2）。振幅特定部４１は、Ｎ個の調波成分の各々について、制御データＣ_nに対応する形状データＷa（調波振幅分布Ｄa_n）を取得する（Ｓb3）。位相特定部４２は、Ｎ個の調波成分の各々について、制御データＣ_nに対応する形状データＷp（調波位相分布Ｄp_n）を取得する（Ｓb4）。なお、Ｎ個の調波振幅分布Ｄa_1〜Ｄa_Nの取得（Ｓb3）とＮ個の調波位相分布Ｄp_1〜Ｄp_Nの取得（Ｓb4）との順序を逆転してもよい。周波数スペクトル生成部３４が周波数スペクトルＱを生成する処理（Ｓa5）、および、波形合成部２２が複数の周波数スペクトルＱの時系列から音声信号Ｖを生成する処理（Ｓa6）は、第１実施形態と同様である。

以上に説明した通り、第７実施形態では、目標声質Ｘと調波周波数Ｈ_nと振幅スペクトル包絡Ｅaとに応じて調波成分毎の調波振幅分布Ｄa_nが特定される。したがって、第１実施形態と同様に、標準的な声質の音声を合成してから当該声質の音声を変換する特許文献１の技術と比較して、目標声質Ｘの音声の合成処理が簡素化されるという利点がある。同様に、目標声質Ｘと調波周波数Ｈ_nと振幅スペクトル包絡Ｅaとに応じて調波成分毎の調波位相分布Ｄp_nが特定されるから、第１実施形態と同様に、位相スペクトルＱpが適切な目標声質Ｘの音声を合成できるという利点がある。

また、第７実施形態では、制御データＣに対応させて形状データＷaを記憶する記憶装置１２から、各調波成分の制御データＣ_nに対応する形状データＷaを取得することで調波振幅分布Ｄa_nが特定される。したがって、第１実施形態に例示した第１学習済モデル３２を生成するための機械学習と第１学習済モデル３２により調波振幅分布Ｄa_nを特定する演算とが不要であるという利点がある。同様に、制御データＣに対応させて形状データＷpを記憶する記憶装置１２から、各調波成分の制御データＣ_nに対応する形状データＷpを取得することで調波位相分布Ｄp_nが特定される。したがって、第１実施形態に例示した第２学習済モデル３３を生成するための機械学習と第２学習済モデル３３により調波位相分布Ｄp_nを特定する演算とが不要であるという利点がある。

＜第８実施形態＞
第８実施形態の音声合成装置１００の構成は第７実施形態と同様である。すなわち、第８実施形態の調波処理部２１は、図９の例示と同様に、制御データ生成部３１と振幅特定部４１と位相特定部４２と周波数スペクトル生成部３４とを具備する。

第７実施形態では、記憶装置１２が制御データＣ毎に形状データＷaを記憶した構成を例示したが、制御データ生成部３１が生成した制御データＣ_nについて記憶装置１２に形状データＷaが記憶されていない可能性も想定される。以上の事情を考慮して、第８実施形態では、制御データＣ_nについて形状データＷaが記憶装置１２に記憶されていない場合、記憶装置１２に記憶された複数の形状データＷaの補間により調波振幅分布Ｄa_nが特定される。具体的には、第８実施形態の振幅特定部４１は、制御データ生成部３１が生成した制御データＣ_nに距離が近い順番で複数の制御データＣを参照テーブルＴaから選択し、当該複数の制御データＣにそれぞれ対応する複数の形状データＷaを補間することで調波振幅分布Ｄa_nを特定する。例えば、複数の形状データＷaの加重和により調波振幅分布Ｄa_nが特定される。

なお、制御データ生成部３１が生成した制御データＣ_nと当該制御データＣ_nに最も近い制御データＣとの距離が所定の閾値を下回る場合に、振幅特定部４１が、当該制御データＣに対応する１個の形状データＷaが表す調波振幅分布Ｄa_nを特定してもよい。すなわち、制御データＣ_nに充分に近い制御データＣが参照テーブルＴaに存在する場合、形状データＷaの補間は省略される。

以上の説明では振幅に着目したが、位相についても同様である。すなわち、制御データＣ_nについて形状データＷpが記憶装置１２に記憶されていない場合に、記憶装置１２に記憶された複数の形状データＷpの補間により調波位相分布Ｄp_nが特定される。具体的には、第８実施形態の位相特定部４２は、制御データ生成部３１が生成した制御データＣ_nに距離が近い順番で複数の制御データＣを参照テーブルＴpから選択し、当該複数の制御データＣにそれぞれ対応する複数の形状データＷpを補間することで調波位相分布Ｄp_nを特定する。

なお、制御データ生成部３１が生成した制御データＣ_nと当該制御データＣ_nに最も近い制御データＣとの距離が所定の閾値を下回る場合に、位相特定部４２が、当該制御データＣに対応する形状データＷpが表す調波位相分布Ｄp_nを特定してもよい。すなわち、制御データＣ_nに充分に近い制御データＣが参照テーブルＴpに存在する場合、形状データＷpの補間は省略される。また、制御データＣと形状データＷaと形状データＷpを対応させた参照テーブルを利用する構成では、制御データＣ_nに近い制御データＣの検索が、振幅特定部４１と位相特定部４２とで別個に実行されるのではなく、振幅特定部４１と位相特定部４２との間で共通に実行される。

第８実施形態においても第７実施形態と同様の効果が実現される。また、第８実施形態では、記憶装置１２に記憶された複数の形状データＷaの補間により各調波成分の調波振幅分布Ｄa_nが特定されるから、記憶装置１２に記憶される形状データＷaの個数を削減できるという利点がある。同様に、複数の形状データＷpの補間により各調波成分の調波位相分布Ｄp_nが特定されるから、記憶装置１２に記憶される形状データＷpの個数を削減できるという利点もある。

＜第９実施形態＞
第９実施形態の音声合成装置１００の構成は第７実施形態と同様である。すなわち、第９実施形態の調波処理部２１は、図９の例示と同様に、制御データ生成部３１と振幅特定部４１と位相特定部４２と周波数スペクトル生成部３４とを具備する。第９実施形態では、振幅特定部４１が各調波成分の調波振幅分布Ｄa_nを特定する動作が第７実施形態とは相違する。

図１１は、第９実施形態における振幅特定部４１の動作の説明図である。図１１に例示される通り、第９実施形態の記憶装置１２が記憶する形状データＷaは、単位帯域Ｂ内における非調波成分の振幅の分布を表す。すなわち、形状データＷaが表す振幅の分布は、調波成分に対応する振幅のピークを含まない。振幅特定部４１は、第７実施形態と同様に、制御データ生成部３１が生成した制御データＣ_nに対応する形状データＷaを記憶装置１２から取得する。

図１１に例示される通り、振幅特定部４１は、第ｎ番目の調波成分について取得した形状データＷaに振幅ピーク成分σ_nを付加することで、当該調波成分の調波振幅分布Ｄa_nを生成する。振幅ピーク成分σ_nは、例えば調波周波数Ｈ_nの周期関数（例えば正弦波）に対応する振幅の分布である。形状データＷaが表す非調波成分の振幅の分布に対して振幅ピーク成分σ_nを合成することで、調波振幅分布Ｄa_nが特定される。以上の説明から理解される通り、形状データＷaが表す振幅の分布は、調波振幅分布Ｄaから振幅ピーク成分σ_nを除去した形状である。

Ｎ個の調波成分にそれぞれ対応するＮ個の調波振幅分布Ｄa_1〜Ｄa_Nが単位期間毎に特定される。振幅特定部４１が特定したＮ個の調波振幅分布Ｄa_1〜Ｄa_Nと位相特定部４２が特定したＮ個の調波位相分布Ｄp_1〜Ｄp_Nとから周波数スペクトル生成部３４が周波数スペクトルＱを生成する処理は第１実施形態と同様である。

第９実施形態においても第７実施形態と同様の効果が実現される。また、第９実施形態では、形状データＷaに振幅ピーク成分σ_nを付加することで調波振幅分布Ｄa_nが特定されるから、調波成分（振幅ピーク成分σ_n）および非調波成分の双方について振幅の分布を形状データＷaが表す構成と比較して、形状データＷaのデータ量が削減されるという利点がある。

＜変形例＞
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）第１実施形態ないし第９実施形態から選択された２以上の形態を併合してもよい。例えば、振幅スペクトル包絡Ｅaから位相スペクトル包絡Ｅpを算定する第２実施形態の構成は、第７実施形態から第９実施形態にも適用される。また、第ｔ番目の単位期間における制御データＣa_nが第(t-1)番目の単位期間（第２単位期間の例示）の調波振幅分布Ｄa_nを包含する第３実施形態の構成を、第７実施形態から第９実施形態に適用してもよい。制御データＣa_nが他の調波成分の調波振幅分布Ｄa_n-1を含む第４実施形態の構成を、第７実施形態から第９実施形態に適用してもよい。制御データＣp_nが調波振幅分布Ｄa_nを含む第５実施形態の構成を、第７実施形態から第９実施形態に適用してもよい。

第１実施形態と第７実施形態とを併合してもよい。例えば、第１実施形態の第１学習済モデル３２により調波振幅分布Ｄa_nを特定するとともに第７実施形態の位相特定部４２により調波位相分布Ｄp_nを特定する構成、または、第７実施形態の振幅特定部４１により調波振幅分布Ｄa_nを特定するとともに第１実施形態の第２学習済モデル３３により調波位相分布Ｄp_nを特定する構成も想定される。

（２）第２実施形態では、振幅スペクトル包絡Ｅaから算定される最小位相を位相スペクトル包絡Ｅpとして利用したが、位相スペクトル包絡Ｅpは最小位相に限定されない。例えば、振幅スペクトル包絡Ｅaの周波数微分を位相スペクトル包絡Ｅpとして利用してもよい。また、振幅スペクトル包絡Ｅaに依存しない数値系列（例えば全周波数にわたる所定値の系列）を位相スペクトル包絡Ｅpとして利用してもよい。

（３）第４実施形態では、第ｎ番目の調波成分に対応する制御データＣa_nが、当該調波成分の低域側に位置する調波成分の調波振幅分布Ｄa_n-1を含む構成を例示したが、当該調波成分の高域側に位置する調波成分について特定された調波振幅分布Ｄa_n+1を制御データＣa_nに含めてもよい。

（４）例えば移動体通信網またはインターネット等の通信網を介して端末装置（例えば携帯電話機またはスマートフォン）と通信するサーバ装置により音声合成装置１００を実現してもよい。具体的には、音声合成装置１００は、端末装置から受信した楽曲データＭに対する音声合成処理（図４または図１０）により音声信号Ｖを生成し、当該音声信号Ｖを端末装置に送信する。端末装置の放音装置は、音声合成装置１００から受信した音声信号Ｖが表す音声を再生する。なお、音声合成装置１００の周波数スペクトル生成部３４が生成した周波数スペクトルＱを端末装置に送信し、端末装置に設置された波形合成部２２が周波数スペクトルＱから音声信号Ｖを生成してもよい。すなわち、波形合成部２２は音声合成装置１００から省略される。また、端末装置に設置された制御データ生成部３１が生成した制御データＣ_nおよび制御データＣp_nを音声合成装置１００に送信し、端末装置から受信した制御データＣ_nおよび制御データＣp_nから生成した音声信号Ｖ（または周波数スペクトルＱ）を音声合成装置１００から端末装置に送信してもよい。すなわち、制御データ生成部３１は音声合成装置１００から省略される。

（５）前述の各形態に係る音声合成装置１００は、各形態での例示の通り、コンピュータ（具体的には制御装置１１）とプログラムとの協働により実現される。前述の各形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含む。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供することも可能である。

（６）学習済モデル（第１学習済モデル３２および第２学習済モデル３３）は、入力Ａから出力Ｂを特定する演算を制御装置１１に実行させるプログラム（例えば人工知能ソフトウェアを構成するプログラムモジュール）と、当該演算に適用される複数の係数との組合せで実現される。学習済モデルの複数の係数は、入力Ａと出力Ｂとを対応させた複数の教師データを利用した事前の機械学習（特に深層学習）により最適化される。すなわち、学習済モデルは、入力Ａと出力Ｂとの間の関係を学習した統計的モデルである。制御装置１１は、学習済の複数の係数と所定の応答関数とを適用した演算を未知の入力Ａに対して実行することで、複数の教師データから抽出される傾向（入力Ａと出力Ｂとの間の関係）のもとで入力Ａに対して統計的に妥当な出力Ｂを生成する。なお、人工知能ソフトウェアを実行する主体はＣＰＵに限定されない。例えば、Tensor Processing UnitおよびNeural Engine等のＮＮ用の処理回路、または、人工知能に専用されるＤＳＰ（Digital Signal Processor）が、人工知能ソフトウェアを実行してもよい。また、以上の例示から選択された複数種の処理回路が協働して人工知能ソフトウェアを実行してもよい。

（７）以上に例示した形態から、例えば以下の構成が把握される。

本発明の好適な態様（第１態様）に係る音声合成方法は、複数の調波成分の各々について、目標声質と、振幅スペクトル包絡と、当該調波成分について指示された調波周波数とに応じて、当該調波成分に対応したピークを含む単位帯域内の振幅の分布である調波振幅分布を特定し、前記振幅スペクトル包絡と、前記複数の調波成分についてそれぞれ特定された複数の調波振幅分布とから、前記目標声質の音声の周波数スペクトルを生成する。以上の態様では、目標声質と振幅スペクトル包絡と調波成分の調波周波数とに応じて調波成分毎の調波振幅分布が特定され、複数の調波振幅分布から目標声質の音声の周波数スペクトルが生成される。したがって、標準的な声質の音声を合成してから当該音声の声質を変換する特許文献１の技術と比較して合成処理が簡素化されるという利点がある。

第１態様の好適例（第２態様）において、前記調波振幅分布の特定では、目標声質と調波周波数と振幅スペクトル包絡とを含む制御データと調波振幅分布との間の関係を学習した第１学習済モデルにより、前記調波振幅分布を特定する。以上の態様では、目標声質と調波周波数と振幅スペクトル包絡とを含む制御データと調波振幅分布との間の関係を学習した第１学習済モデルにより各調波成分の調波振幅分布が特定される。したがって、制御データと調波振幅分布とを対応させた参照テーブルを利用して調波振幅分布を特定する構成と比較して、未知の制御データに対応する調波振幅分布を適切に特定できるという利点がある。

第２態様の好適例（第３態様）において、前記複数の調波振幅分布を単位期間毎に特定し、第１単位期間における各調波成分の調波振幅分布を特定するための前記制御データは、前記第１単位期間の直前の第２単位期間において当該調波成分について特定された調波振幅分布を含む。以上の態様では、第１単位期間における制御データが、直前の第２単位期間で特定された調波振幅分布を含むから、各調波成分に対応する調波振幅分布の時間的な変化の傾向を反映した適切な調波振幅分布の時系列を特定できるという利点がある。

第２態様または第３態様の好適例（第４態様）において、前記複数の調波成分のうち第１調波成分の調波振幅分布を特定するための前記制御データは、周波数軸上で前記第１調波成分に隣合う第２調波成分について特定された調波振幅分布を含む。以上の態様では、第１調波成分の調波振幅分布を特定するための制御データが、周波数軸上で第１調波成分に隣合う第２調波成分について特定された調波振幅分布を含むから、周波数軸上で隣合う調波振幅分布の相関の傾向を反映した適切な調波振幅分布を特定できるという利点がある。

第２態様の好適例（第５態様）において、前記複数の調波振幅分布を単位期間毎に特定し、一の単位期間における各調波成分の調波振幅分布を特定するための前記制御データは、前記一の単位期間における当該調波成分の調波周波数と、前記一の単位期間以外の単位期間における当該調波成分の調波周波数、または、前記一の単位期間の前後における当該調波周波数の変化量とを含む。以上の態様によれば、調波周波数の時間的な変化の傾向を反映した適切な調波振幅分布を特定できるという利点がある。

第２態様から第５態様の何れかの好適例（第６態様）において、前記複数の調波成分の各々について、前記目標声質と、前記振幅スペクトル包絡と、当該調波成分について指示された調波周波数とに応じて、前記単位帯域内の位相の分布である調波位相分布を特定し、前記振幅スペクトル包絡および位相スペクトル包絡と、前記複数の調波成分についてそれぞれ特定された複数の調波振幅分布および複数の調波位相分布とから、前記目標声質の音声の周波数スペクトルを生成する。以上の態様では、目標声質と調波成分の調波周波数および振幅スペクトル包絡とに応じて調波成分毎の調波位相分布が特定され、複数の調波振幅分布と複数の調波位相分布とから目標声質の音声の周波数スペクトルが生成される。したがって、位相スペクトルが適切な目標声質の音声を合成できるという利点がある。

第６態様の好適例（第７態様）において、前記調波位相分布の特定では、目標声質と調波周波数と振幅スペクトル包絡とを含む制御データと調波位相分布との間の関係を学習した第２学習済モデルにより、前記調波位相分布を特定する。以上の態様では、目標声質と調波周波数と振幅スペクトル包絡とを含む制御データと調波位相分布との間の関係を学習した第２学習済モデルにより各調波成分の調波位相分布が特定される。したがって、制御データと調波位相分布とを対応させた参照テーブルを利用して調波位相分布を特定する構成と比較して、未知の制御データに対応する調波位相分布を適切に特定できるという利点がある。

第７態様の好適例（第８態様）では、目標声質と調波周波数と振幅スペクトル包絡と、前記第１学習済モデルにより特定された調波振幅分布とから、前記第２学習済モデルにより前記調波位相分布を特定する。以上の態様によれば、調波振幅分布と調波位相分布との相関の傾向を反映した適切な調波位相分布を特定できるという利点がある。

第６態様から第８態様の何れかの好適例（第９態様）において、前記位相スペクトル包絡は、前記振幅スペクトル包絡から算定される。以上の態様では、振幅スペクトル包絡から位相スペクトル包絡が算定されるから、位相スペクトル包絡を生成する処理が簡素化されるという利点がある。

第１態様の好適例（第１０態様）において、前記調波振幅分布の特定では、前記単位帯域内の振幅の分布を示す形状データを、目標声質と調波周波数と振幅スペクトル包絡とを含む制御データに対応させて記憶する記憶装置から、前記複数の調波成分の各々の制御データに対応する形状データを取得し、当該形状データから前記調波成分の調波振幅分布を特定する。以上の態様では、制御データに対応させて形状データを記憶する記憶装置から、各調波成分の制御データに対応する形状データを取得することで調波振幅分布が特定される。したがって、制御データに対応する調波振幅分布を簡便に特定できるという利点がある。

第１０態様の好適例（第１１態様）において、前記調波振幅分布の特定では、前記記憶装置に記憶された複数の形状データの補間により、前記複数の調波成分の各々について調波振幅分布を特定する。以上の態様では、記憶装置に記憶された複数の形状データの補間により各調波成分の調波振幅分布が特定されるから、記憶装置に記憶される形状データの個数を削減できるという利点がある。

第１０態様の好適例（第１２態様）において、前記形状データは、前記単位帯域における非調波成分の振幅の分布を表し、前記調波振幅分布の特定においては、前記複数の調波成分の各々について、前記記憶装置から取得した形状データに、当該調波成分の調波周波数に対応する振幅ピーク成分を付加することで、当該調波成分の調波振幅分布を生成する。以上の態様では、形状データに振幅ピーク成分を付加することで調波振幅分布が特定されるから、形状データのデータ量を削減できるという利点がある。

第１態様から第１２態様の何れかの好適例（第１３態様）において、前記調波振幅分布は、前記代表振幅に対する振幅の相対値の分布である。以上の態様では、調波振幅分布が代表振幅に対する振幅の相対値の分布であるから、代表振幅の高低に関わらず適切な周波数スペクトルを生成できるという利点がある。

本発明の好適な態様（第１４態様）に係るプログラムは、複数の調波成分の各々について、目標声質と、振幅スペクトル包絡と、当該調波成分について指示された調波周波数とに応じて、当該調波成分に対応したピークを含む単位帯域内の振幅の分布である調波振幅分布を特定する処理（例えば図４のステップＳa3または図１０のステップＳb3）と、前記振幅スペクトル包絡と、前記複数の調波成分についてそれぞれ特定された複数の調波振幅分布とから、前記目標声質の音声の周波数スペクトルを生成する処理（例えば図４または図１０のステップＳa6）とをコンピュータに実行させる。以上の態様では、目標声質と振幅スペクトル包絡と調波成分の調波周波数とに応じて調波成分毎の調波振幅分布が特定され、複数の調波振幅分布から目標声質の音声の周波数スペクトルが生成される。したがって、標準的な声質の音声を合成してから当該音声の声質を変換する特許文献１の技術と比較して合成処理が簡素化されるという利点がある。

１００…音声合成装置、１１…制御装置、１２…記憶装置、１３…放音装置、２１…調波処理部、２２…波形合成部、３１…制御データ生成部、３１１…位相算定部、３２…第１学習済モデル、３３…第２学習済モデル、３４…周波数スペクトル生成部、４１…振幅特定部、４２…位相特定部。

Claims

複数の調波成分の各々について、目標声質と、振幅スペクトル包絡と、当該調波成分について指示された調波周波数とに応じて、当該調波成分に対応したピークを含む単位帯域内の振幅の分布である調波振幅分布を特定し、
前記振幅スペクトル包絡と、前記複数の調波成分についてそれぞれ特定された複数の調波振幅分布とから、前記目標声質の音声の周波数スペクトルを生成する
コンピュータにより実現される音声合成方法。
前記調波振幅分布の特定においては、目標声質と調波周波数と振幅スペクトル包絡とを含む制御データと調波振幅分布との間の関係を学習した第１学習済モデルにより、前記調波振幅分布を特定する
請求項１の音声合成方法。
前記複数の調波振幅分布を単位期間毎に特定し、
前記制御データは、第１単位期間における各調波成分の調波振幅分布を特定するためのデータであり、前記第１単位期間の直前の第２単位期間において当該調波成分について特定された調波振幅分布を含む
請求項２の音声合成方法。
前記制御データは、前記複数の調波成分のうち第１調波成分の調波振幅分布を特定するためのデータであり、周波数軸上で前記第１調波成分に隣合う第２調波成分について特定された調波振幅分布を含む
請求項２または請求項３の音声合成方法。
前記複数の調波振幅分布を単位期間毎に特定し、
前記制御データは、一の単位期間における各調波成分の調波振幅分布を特定するためのデータであり、
前記一の単位期間における当該調波成分の調波周波数と、
前記一の単位期間以外の単位期間における当該調波成分の調波周波数、または、前記一の単位期間の前後における当該調波周波数の変化量とを含む
請求項２の音声合成方法。
前記複数の調波成分の各々について、前記目標声質と、前記振幅スペクトル包絡と、当該調波成分について指示された調波周波数とに応じて、前記単位帯域内の位相の分布である調波位相分布を特定し、
前記振幅スペクトル包絡および位相スペクトル包絡と、前記複数の調波成分についてそれぞれ特定された複数の調波振幅分布および複数の調波位相分布とから、前記目標声質の音声の周波数スペクトルを生成する
請求項２から請求項５の何れかの音声合成方法。
前記調波位相分布の特定においては、目標声質と調波周波数と振幅スペクトル包絡とを含む制御データと調波位相分布との間の関係を学習した第２学習済モデルにより、前記調波位相分布を特定する
請求項６の音声合成方法。
前記調波位相分布の特定においては、目標声質と調波周波数と振幅スペクトル包絡と、前記第１学習済モデルにより特定された調波振幅分布とから、前記第２学習済モデルにより前記調波位相分布を特定する
請求項７の音声合成方法。
前記位相スペクトル包絡は、前記振幅スペクトル包絡から算定される
請求項６から請求項８の何れかの音声合成方法。
前記調波振幅分布の特定においては、前記単位帯域内の振幅の分布を示す形状データを、目標声質と調波周波数と振幅スペクトル包絡とを含む制御データに対応させて記憶する記憶装置から、前記複数の調波成分の各々の制御データに対応する形状データを取得し、当該形状データから前記調波成分の調波振幅分布を特定する
請求項１の音声合成方法。
前記調波振幅分布の特定においては、前記記憶装置に記憶された複数の形状データの補間により、前記複数の調波成分の各々について調波振幅分布を特定する
請求項１０の音声合成方法。
前記形状データは、前記単位帯域における非調波成分の振幅の分布を表し、
前記調波振幅分布の特定においては、前記複数の調波成分の各々について、前記記憶装置から取得した形状データに、当該調波成分の調波周波数に対応する振幅ピーク成分を付加することで、当該調波成分の調波振幅分布を生成する
請求項１０の音声合成方法。
前記調波振幅分布は、各調波成分に対応する代表振幅に対する振幅の相対値の分布である
請求項１から請求項１２の何れかの音声合成方法。
プロセッサを具備する音声合成システムであって、
前記プロセッサが、メモリに記憶されたプログラムを実行することにより、
複数の調波成分の各々について、目標声質と、振幅スペクトル包絡と、当該調波成分について指示された調波周波数とに応じて、当該調波成分に対応したピークを含む単位帯域内の振幅の分布である調波振幅分布を特定し、
前記振幅スペクトル包絡と、前記複数の調波成分についてそれぞれ特定された複数の調波振幅分布とから、前記目標声質の音声の周波数スペクトルを生成する
音声合成システム。
複数の調波成分の各々について、目標声質と、振幅スペクトル包絡と、当該調波成分について指示された調波周波数とに応じて、当該調波成分に対応したピークを含む単位帯域内の振幅の分布である調波振幅分布を特定する処理と、
前記振幅スペクトル包絡と、前記複数の調波成分についてそれぞれ特定された複数の調波振幅分布とから、前記目標声質の音声の周波数スペクトルを生成する処理と
をコンピュータに実行させるプログラム。