JP2019101094A

JP2019101094A - 音声合成方法およびプログラム

Info

Publication number: JP2019101094A
Application number: JP2017229042A
Authority: JP
Inventors: 竜之介大道; Ryunosuke Daido
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2019-06-24
Anticipated expiration: 2037-11-29
Also published as: US11495206B2; JP6729539B2; CN116504218A; US20200294484A1; CN111418006B; EP3719796A1; CN111418006A; EP3719796A4; WO2019107378A1; US20230034572A1

Abstract

【課題】利用者の意図または嗜好に沿った合成音声を生成する。【解決手段】音声合成装置１００は、音韻を指定する制御データＣ0を含む入力に応じた制御データＣ1を学習済モデルＭ1により生成し、利用者からの編集指示Ｑ1に応じて制御データＣ1を変更し、制御データＣ0と変更後の制御データＣ1とを含む入力に応じて、合成音声の周波数特性に関する制御データＣ3を学習済モデルＭ3により生成し、制御データＣ3に応じた音声信号Ｖを生成する。【選択図】図２

Description

本発明は、音声を合成する技術に関する。

任意の音韻の音声を合成する各種の音声合成技術が従来から提案されている。例えば特許文献１には、利用者が編集画面に対して指示した音符列を発音した歌唱音声を合成する技術が開示されている。編集画面は、時間軸と音高軸とが設定されたピアノロール画面である。利用者は、楽曲を構成する音符毎に、音韻（発音文字）と音高と発音期間とを指定する。

特開２０１６−９０９１６号公報

しかし、特許文献１の技術では、利用者は、音符毎に音韻と音高と発音期間とを指示できるに過ぎず、利用者の意図または嗜好を合成音声に精緻に反映させることは実際には容易ではない。以上の事情を考慮して、本発明の好適な態様は、利用者の意図または嗜好に沿った合成音声を生成することを目的とする。

以上の課題を解決するために、本発明の好適な態様に係る音声合成方法は、音韻を指定する第１制御データを含む入力に応じた第２制御データを中間学習済モデルにより生成し、利用者からの第１指示に応じて前記第２制御データを変更し、前記第１制御データと前記変更後の前記第２制御データとを含む入力に応じて、合成音声の周波数特性に関する合成データを出力学習済モデルにより生成し、前記合成データに応じた音声信号を生成する。

本発明の好適な態様に係るプログラムは、音韻を指定する第１制御データを含む入力に応じて第２制御データを中間学習済モデルにより生成する処理と、利用者からの第１指示に応じて前記第２制御データを変更する処理と、前記第１制御データと前記変更後の前記第２制御データとを含む入力に応じて、合成音声の周波数特性に関する合成データを出力学習済モデルにより生成する処理と、前記合成データに応じた音声信号を生成する処理とをコンピュータに実行させる。

本発明の第１実施形態に係る音声合成装置の構成を例示するブロック図である。音声合成装置の機能的な構成を例示するブロック図である。編集画面の模式図である。音声合成処理のフローチャートである。第２実施形態に係る音声合成装置の機能的な構成を例示するブロック図である。第２実施形態における音声合成処理のフローチャートである。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音声合成装置１００の構成を例示するブロック図である。音声合成装置１００は、任意の音韻の音声（以下「合成音声」という）を合成する。第１実施形態の音声合成装置１００は、歌唱者が楽曲を仮想的に歌唱した音声を合成音声として合成する歌唱合成装置である。図１に例示される通り、第１実施形態の音声合成装置１００は、制御装置１１と記憶装置１２と操作装置１３と表示装置１４と放音装置１５とを具備するコンピュータシステムで実現される。例えば携帯電話機もしくはスマートフォン等の可搬型の情報端末、またはパーソナルコンピュータ等の可搬型または据置型の情報端末が、音声合成装置１００として好適に利用される。

表示装置１４は、例えば液晶表示パネルで構成され、制御装置１１から指示された画像を表示する。操作装置１３は、利用者からの指示を受付ける入力機器である。具体的には、利用者が操作可能な複数の操作子、または、表示装置１４の表示面に対する接触を検知するタッチパネルが、操作装置１３として好適に利用される。

制御装置１１は、例えばＣＰＵ（Central Processing Unit）等の処理回路であり、音声合成装置１００を構成する各要素を統括的に制御する。第１実施形態の制御装置１１は、合成音声の波形を表す時間領域の音声信号Ｖを生成する。放音装置１５（例えばスピーカまたはヘッドホン）は、制御装置１１が生成した音声信号Ｖが表す音声を再生する。なお、制御装置１１が生成した音声信号Ｖをデジタルからアナログに変換するＤ/Ａ変換器と、音声信号Ｖを増幅する増幅器とについては図示を便宜的に省略した。また、放音装置１５を音声合成装置１００に搭載した構成を図１では例示したが、音声合成装置１００とは別体の放音装置１５を音声合成装置１００に有線または無線で接続してもよい。

記憶装置１２は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成され、制御装置１１が実行するプログラムと制御装置１１が使用する各種のデータとを記憶する。なお、音声合成装置１００とは別体の記憶装置１２（例えばクラウドストレージ）を用意し、移動体通信網またはインターネット等の通信網を介して制御装置１１が記憶装置１２に対する書込および読出を実行してもよい。すなわち、記憶装置１２を音声合成装置１００から省略してもよい。

記憶装置１２は、楽曲の音楽的な特徴を表す制御データＣ0を記憶する。第１実施形態の制御データＣ0は、楽曲を構成する複数の音符の各々について音高と音韻と発音期間とを指定する楽曲データである。すなわち、制御データＣ0は、音楽レベルの制御のためのデータ（具体的には楽譜に相当するデータ）である。音高は、例えばＭＩＤＩ（Musical Instrument Digital Interface）のノート番号である。音韻は、合成音声により発音される文字（すなわち楽曲の歌詞）である。具体的には、音韻は、ＭＩＤＩのテキストイベントであり、音符毎に１個の音節が音韻として指定される。発音期間は、楽曲の１個の音符が発音される期間であり、例えば音符の開始点と、終了点または継続長とで指定される。なお、例えばＭＩＤＩのデュレーションデータにより発音期間を指定してもよい。また、第１実施形態の制御データＣ0は、楽曲の音楽的な表現を表す演奏記号を指定する。例えば、フォルテ（ｆ），ピアノ（ｐ），クレッシェンド，デクレッシェンド，スタッカート，テヌートまたはスラー等の演奏記号が制御データＣ0により指定される。

図２は、制御装置１１の機能的な構成を例示するブロック図である。図２に例示される通り、制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで、制御データＣ0に応じた音声信号Ｖを生成するための複数の機能（表示制御部２１，編集処理部Ｅ0，学習済モデルＭ1，編集処理部Ｅ1，学習済モデルＭ2，編集処理部Ｅ2，学習済モデルＭ3，編集処理部Ｅ3および合成処理部２２）を実現する。なお、複数の装置の集合（すなわちシステム）で制御装置１１の機能を実現してもよいし、制御装置１１の機能の一部または全部を専用の電子回路（例えば信号処理回路）で実現してもよい。

表示制御部２１は、表示装置１４に画像を表示させる。第１実施形態の表示制御部２１は、利用者が合成音声の調整を指示するために参照する編集画面を表示装置１４に表示させる。図３は、編集画面の模式図である。図３に例示される通り、編集画面は、複数の編集領域Ａ（Ａ0〜Ａ3）と複数の操作部Ｂ（Ｂ0〜Ｂ3）とを含む画像である。複数の操作部Ｂの各々は、利用者からの指示を受付ける操作子の画像である。また、複数の編集領域Ａ（Ａ0〜Ａ3）には共通の時間軸（横軸）が設定される。

編集領域Ａ0は、音楽レベルの制御データＣ0の内容を表す画像（いわゆるピアノロール画面）である。具体的には、編集領域Ａ0には、制御データＣ0が指定する音符を表す音符画像（ノートバー）が、時間軸と音高軸とを含む座標平面に時系列に配置される。時間軸上における各音符画像の位置および表示長は、制御データＣ0が指定する発音期間に応じて設定され、音高軸上における音符画像の位置は、制御データＣ0が指定する音高に応じて設定される。音符画像の内部には、制御データＣ0が指定する音韻（具体的には書記素）が表示される。また、編集領域Ａ0には、制御データＣ0が指定する演奏記号も表示される。例えば図３では、クレッシェンド，フォルテおよびデクレッシェンドが演奏記号として例示されている。利用者は、操作装置１３を操作することで、編集領域Ａ0に対する編集指示Ｑ0を付与することが可能である。編集指示Ｑ0は、例えば、各音符の条件（発音期間、音高もしくは音韻）の変更の指示、または、演奏記号の変更（追加もしくは削除）の指示である。

編集領域Ａ1は、音素レベルの特徴、例えば、合成音声を構成する複数の音素（母音または子音）の時系列を表す画像である。具体的には、編集領域Ａ1には、合成音声の複数の音素の各々について音素記号と発音期間とが表示される。利用者は、操作装置１３を操作することで、編集領域Ａ1に対する編集指示Ｑ1を付与することが可能である。編集指示Ｑ1は、例えば、各音素の音素記号の変更の指示、または、発音期間の変更（例えば移動もしくは伸縮）の指示である。

編集領域Ａ2は、発音レベルの特徴、例えば、合成音声に付与される音楽的な表情を表す画像である。具体的には、編集領域Ａ2には、合成音声のうち音楽的な表情が付与される期間（以下「表情期間」という）と各表情期間における表情の種類（以下「表情種別」という）とが表示される。合成音声に付与される音楽的な表情としては、嗄声または気息音等の声質と、ビブラートまたはフォール等の発音技法とが例示される。利用者は、操作装置１３を操作することで、編集領域Ａ2に対する編集指示Ｑ2を付与することが可能である。編集指示Ｑ2は、例えば、各表情期間の変更（例えば移動もしくは伸縮）の指示、または、各表情期間における表情種別の変更の指示である。

編集領域Ａ3は、ボコーダレベルの特徴、例えば、合成音声の周波数特性の時間的な変化を表す画像である。具体的には、編集領域Ａ3には、合成音声の基本周波数Ｆ0の時間的な変化を表す曲線が表示される。利用者は、操作装置１３を操作することで、編集領域Ａ3に対する編集指示Ｑ3を付与することが可能である。編集指示Ｑ3は、例えば基本周波数Ｆ0の時間的な変化の変更の指示である。

図２の編集処理部Ｅ0は、編集領域Ａ0に対する利用者からの編集指示Ｑ0に応じて音楽レベルの制御データＣ0を変更する。具体的には、編集処理部Ｅ0は、制御データＣ0が指定する各音符の条件（発音期間、音高もしくは音韻）、または、制御データＣ0が指定する演奏記号を、編集指示Ｑ0に応じて変更する。編集指示Ｑ0が付与された場合には、編集処理部Ｅ0による変更後の制御データＣ0が、学習済モデルＭ1と学習済モデルＭ2と学習済モデルＭ3とに供給される。他方、編集指示Ｑ0が付与されない場合には、記憶装置１２に記憶された制御データＣ0が、学習済モデルＭ1と学習済モデルＭ2と学習済モデルＭ3とに供給される。

学習済モデルＭ1は、音楽レベルの制御データＣ0に応じた音素レベルの制御データＣ1を出力する。制御データＣ1は、合成音声の音素に関するデータである。具体的には、制御データＣ1は、制御データＣ0が指定する音韻に対応した複数の音素の時系列を指定する。例えば、制御データＣ1は、合成音声を構成する複数の音素の各々について、音素記号（すなわち音素の種別）と発音期間とを指定する。各音素の発音期間は、例えば開始点と終了点または継続長とで指定される。

第１実施形態の学習済モデルＭ1は、制御データＣ0と制御データＣ1とを対応させた複数の教師データを利用した機械学習（特に深層学習）により、制御データＣ0と制御データＣ1との関係を学習した統計的予測モデルである。例えば、制御データＣ0の入力に対して制御データＣ1を出力するニューラルネットワークが学習済モデルＭ1として好適に利用される。学習済モデルＭ1を規定する複数の係数Ｋ1が、機械学習により設定されて記憶装置１２に記憶される。したがって、複数の教師データから抽出される傾向（制御データＣ0と制御データＣ1との関係）のもとで未知の制御データＣ0に対して統計的に妥当な制御データＣ1が学習済モデルＭ1から出力される。表示制御部２１は、学習済モデルＭ1が生成する制御データＣ1に応じて編集領域Ａ1を表示装置１４に表示させる。すなわち、制御データＣ1が音素毎に指定する音素記号と発音期間とが編集領域Ａ1に表示される。

編集処理部Ｅ1は、学習済モデルＭ1が出力する音素レベルの制御データＣ1を、編集領域Ａ1に対する利用者からの編集指示Ｑ1に応じて変更する。具体的には、編集処理部Ｅ1は、制御データＣ1が音素毎に指定する音素記号または発音期間を、編集指示Ｑ1に応じて変更する。表示制御部２１は、編集領域Ａ1を、変更後の制御データＣ1に応じた内容に更新する。編集指示Ｑ1が付与された場合には、編集処理部Ｅ1による変更後の制御データＣ1が学習済モデルＭ2および学習済モデルＭ3に供給され、編集指示Ｑ1が付与されない場合には、学習済モデルＭ1が出力した制御データＣ1が学習済モデルＭ2および学習済モデルＭ3に供給される。

学習済モデルＭ2は、音楽レベルの制御データＣ0と音素レベルの制御データＣ1とを含む入力データＤ2に応じた発音レベルの制御データＣ2を出力する。制御データＣ2は、合成音声の音楽的な表情に関するデータである。具体的には、制御データＣ2は、時間軸上の１個以上の表情期間と各表情期間における表情種別とを指定する。各表情期間は、例えば開始点と終了点または継続長とで指定される。

第１実施形態の学習済モデルＭ2は、入力データＤ2と制御データＣ2とを対応させた複数の教師データを利用した機械学習（特に深層学習）により、入力データＤ2と制御データＣ2との関係を学習した統計的予測モデルである。例えば入力データＤ2の入力に対して制御データＣ2を出力するニューラルネットワークが学習済モデルＭ2として好適に利用される。学習済モデルＭ2を規定する複数の係数Ｋ2が、機械学習により設定されて記憶装置１２に記憶される。したがって、複数の教師データから抽出される傾向（入力データＤ2と制御データＣ2との関係）のもとで未知の入力データＤ2に対して統計的に妥当な制御データＣ2が学習済モデルＭ2から出力される。表示制御部２１は、学習済モデルＭ2が生成する制御データＣ2に応じて編集領域Ａ2を表示装置１４に表示させる。すなわち、制御データＣ2が指定する表情期間と表情種別とが編集領域Ａ2に表示される。

編集処理部Ｅ2は、学習済モデルＭ2が出力する発音レベルの制御データＣ2を、編集領域Ａ2に対する利用者からの編集指示Ｑ2に応じて変更する。具体的には、編集処理部Ｅ2は、制御データＣ2が指定する表情期間または表情種別を、編集指示Ｑ2に応じて変更する。表示制御部２１は、編集領域Ａ2を、変更後の制御データＣ2に応じた内容に更新する。編集指示Ｑ2が付与された場合には、編集処理部Ｅ2による変更後の制御データＣ2が学習済モデルＭ3に供給され、編集指示Ｑ2が付与されない場合には、学習済モデルＭ2が出力した制御データＣ2が学習済モデルＭ3に供給される。

学習済モデルＭ3は、音楽レベルの制御データＣ0と音素レベルの制御データＣ1と発音レベルの制御データＣ2とを含む入力データＤ3に応じたボコーダレベルの制御データＣ3（合成データの例示）を出力する。制御データＣ3は、合成音声の周波数特性に関するデータである。例えば、制御データＣ3は、合成音声の基本周波数Ｆ0の時系列と、調波成分の包絡線の時系列と、非調波成分の包絡線の時系列とを指定する。調波成分の包絡線は、調波成分の強度スペクトル（振幅スペクトルまたはパワースペクトル）の概形を表す曲線である。調波成分は、基本周波数Ｆ0の基音成分と基本周波数Ｆ0の整数倍の周波数の複数の倍音成分とで構成される周期成分である。他方、非調波成分の包絡線は、非調波成分の強度スペクトルの概形を表す曲線である。非調波成分は、調波成分以外の非周期成分（残差成分）である。調波成分および非調波成分の包絡線は、例えば複数のメルケプストラム係数で表現される。

第１実施形態の学習済モデルＭ3は、入力データＤ3と制御データＣ3とを対応させた複数の教師データを利用した機械学習（特に深層学習）により、入力データＤ3と制御データＣ3との関係を学習した統計的予測モデルである。例えば入力データＤ3の入力に対して制御データＣ3を出力するニューラルネットワークが学習済モデルＭ3として好適に利用される。学習済モデルＭ3を規定する複数の係数Ｋ3が、機械学習により設定されて記憶装置１２に記憶される。したがって、複数の教師データから抽出される傾向（入力データＤ3と制御データＣ3との関係）のもとで未知の入力データＤ3に対して統計的に妥当な制御データＣ3が学習済モデルＭ3から出力される。表示制御部２１は、学習済モデルＭ3が生成する制御データＣ3に応じて編集領域Ａ3を表示装置１４に表示させる。すなわち、制御データＣ3が指定する基本周波数Ｆ0の時系列が編集領域Ａ3に表示される。

編集処理部Ｅ3は、学習済モデルＭ3が出力するボコーダレベルの制御データＣ3を、編集領域Ａ3に対する利用者からの編集指示Ｑ3に応じて変更する。具体的には、編集処理部Ｅ3は、制御データＣ3が指定する基本周波数Ｆ0を、編集指示Ｑ3に応じて変更する。表示制御部２１は、編集領域Ａ3を、変更後の制御データＣ3に応じた内容に更新する。編集指示Ｑ3が付与された場合には、編集処理部Ｅ3による変更後の制御データＣ3が合成処理部２２に供給され、編集指示Ｑ3が付与されない場合には、学習済モデルＭ3が出力した制御データＣ3が合成処理部２２に供給される。

合成処理部２２は、制御データＣ3に応じた音声信号Ｖを生成する。合成処理部２２による音声信号Ｖの生成には公知の音声合成技術が任意に採用される。例えば、ＳＭＳ（Spectral Model Synthesis）が音声信号Ｖの生成に好適に利用される。合成処理部２２が生成した音声信号Ｖが放音装置１５に供給されて音波として再生される。以上の説明から理解される通り、合成処理部２２は、いわゆるボコーダに相当する。

編集指示Ｑ0に応じて編集処理部Ｅ0が音楽レベルの制御データＣ0を変更すると、利用者は、操作装置１３を使用して図３の操作部Ｂ0を操作する。操作部Ｂ0が操作されると、変更後の制御データＣ0について、学習済モデルＭ1による制御データＣ1の生成と、学習済モデルＭ2による制御データＣ2の生成と、学習済モデルＭ3による制御データＣ3の生成とが実行される。

編集指示Ｑ1に応じて編集処理部Ｅ1が音素レベルの制御データＣ1を変更すると、利用者は、操作装置１３を使用して操作部Ｂ1を操作する。操作部Ｂ1が操作されると、変更後の制御データＣ1が学習済モデルＭ2および学習済モデルＭ3に供給され、学習済モデルＭ2による制御データＣ2の生成と学習済モデルＭ3による制御データＣ3の生成とが実行される。操作部Ｂ1が操作された場合には、学習済モデルＭ1による制御データＣ1の生成は実行されず、編集指示Ｑ1を反映した制御データＣ1を利用して音声信号Ｖが生成される。

編集指示Ｑ2に応じて編集処理部Ｅ2が発音レベルの制御データＣ2を変更すると、利用者は、操作装置１３を使用して操作部Ｂ2を操作する。操作部Ｂ2が操作されると、変更後の制御データＣ2が学習済モデルＭ3に供給され、学習済モデルＭ3による制御データＣ3の生成が実行される。操作部Ｂ2が操作された場合には、学習済モデルＭ1による制御データＣ1の生成と学習済モデルＭ2による制御データＣ2の生成とは実行されず、編集指示Ｑ2を反映した制御データＣ2を利用して音声信号Ｖが生成される。

図４は、制御装置１１が音声信号Ｖを生成する処理（以下「音声合成処理」という）のフローチャートである。例えば音声合成装置１００に対する利用者からの指示を契機として音声合成処理が実行される。例えば図３の操作部Ｂ3（再生）が操作された場合に音声合成処理が実行される。

音声合成処理を開始すると、編集処理部Ｅ0は、利用者からの編集指示Ｑ0に応じて音楽レベルの制御データＣ0を変更する（Ｓa1）。編集指示Ｑ0が付与されない場合には、制御データＣ0の変更は省略される。

学習済モデルＭ1は、合成音声の音素に関する制御データＣ1を制御データＣ0に応じて生成する（Ｓa2）。編集処理部Ｅ1は、利用者からの編集指示Ｑ1に応じて音素レベルの制御データＣ1を変更する（Ｓa3）。編集指示Ｑ1が付与されない場合には、制御データＣ1の変更は省略される。

学習済モデルＭ2は、制御データＣ0と制御データＣ1とを含む入力データＤ2に応じて、合成音声の音楽的な表情に関する制御データＣ2を生成する（Ｓa4）。編集処理部Ｅ2は、利用者からの編集指示Ｑ2に応じて発音レベルの制御データＣ2を変更する（Ｓa5）。編集指示Ｑ2が付与されない場合には、制御データＣ2の変更は省略される。

学習済モデルＭ3は、制御データＣ0と制御データＣ1と制御データＣ2とを含む入力データＤ3に応じて、合成音声の周波数特性に関する制御データＣ3を生成する（Ｓa6）。編集処理部Ｅ3は、利用者からの編集指示Ｑ3に応じてボコーダレベルの制御データＣ3を変更する（Ｓa7）。編集指示Ｑ3が付与されない場合には、制御データＣ3の変更は省略される。合成処理部２２は、制御データＣ3に応じた音声信号Ｖを生成する（Ｓa8）。

以上に説明した通り、第１実施形態では、制御データＣ0から制御データＣ3を生成するまでの途中の段階で利用者からの指示（編集指示Ｑ1または編集指示Ｑ2）が反映されるから、利用者が制御データＣ0を編集できるだけの構成と比較して、利用者の意図または嗜好に沿った合成音声の音声信号Ｖを生成できるという利点がある。

第１実施形態では特に、合成音声の音素に関する制御データＣ1が利用者からの編集指示Ｑ1に応じて変更される。したがって、利用者の意図または嗜好に応じて音素が調整された合成音声の音声信号Ｖを生成できる。また、合成音声の表情に関する制御データＣ2が利用者からの編集指示Ｑ2に応じて変更される。したがって、利用者の意図または嗜好に応じて音楽的な表情が調整された合成音声の音声信号を生成できる。また、利用者からの編集指示Ｑ3に応じて制御データＣ3が変更される。したがって、利用者の意図または嗜好に応じて周波数特性が調整された合成音声の音声信号Ｖを生成できる。

＜第２実施形態＞
本発明の第２実施形態を説明する。なお、以下に例示する各形態において作用または機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

図５は、第２実施形態における制御装置１１の機能的な構成を例示するブロック図である。図５に例示される通り、第１実施形態で例示した学習済モデルＭ1と編集処理部Ｅ1と学習済モデルＭ2と編集処理部Ｅ2とが、第２実施形態では、学習済モデルＭ12と編集処理部Ｅ12とに置換される。編集処理部Ｅ0による編集後の制御データＣ0は、学習済モデルＭ12に供給される。

学習済モデルＭ12は、音楽レベルの制御データＣ0に応じた音素・発音レベルの制御データＣ12を出力する。制御データＣ12は、合成音声の音素と音楽的な表情とに関するデータである。具体的には、制御データＣ12は、制御データＣ0が指定する音韻に対応した各音素の音素記号および発音期間と、合成音声に表情が付与される表情期間および表情種別とを指定する。すなわち、第２実施形態の制御データＣ12は、第１実施形態における制御データＣ1と制御データＣ2とを併合したデータである。

第２実施形態の学習済モデルＭ12は、制御データＣ0と制御データＣ12とを対応させた複数の教師データを利用した機械学習（特に深層学習）により、制御データＣ0と制御データＣ12との関係を学習した統計的予測モデルである。例えば制御データＣ0の入力に対して制御データＣ12を出力するニューラルネットワークが学習済モデルＭ12として好適に利用される。学習済モデルＭ12を規定する複数の係数が、機械学習により設定されて記憶装置１２に記憶される。したがって、複数の教師データから抽出される傾向（制御データＣ0と制御データＣ12との関係）のもとで未知の制御データＣ0に対して統計的に妥当な制御データＣ12が学習済モデルＭ12から出力される。表示制御部２１は、学習済モデルＭ12が生成する制御データＣ12に応じて編集領域Ａ1および編集領域Ａ2を表示装置１４に表示させる。

編集処理部Ｅ12は、学習済モデルＭ12が出力する音素・発音レベルの制御データＣ12を、編集領域Ａ1に対する利用者からの編集指示Ｑ1、または、編集領域Ａ2に対する利用者からの編集指示Ｑ2に応じて変更する。具体的には、編集処理部Ｅ12は、制御データＣ12が音素毎に指定する音素記号および発音期間を編集指示Ｑ1に応じて変更し、制御データＣ12が指定する表情期間および表情種別を編集指示Ｑ2に応じて変更する。表示制御部２１は、編集領域Ａ1および編集領域Ａ2を、変更後の制御データＣ12に応じた内容に更新する。編集指示Ｑ1または編集指示Ｑ2が付与された場合には、編集処理部Ｅ12による変更後の制御データＣ12が学習済モデルＭ3に供給され、編集指示Ｑ1または編集指示Ｑ2が付与されない場合には、学習済モデルＭ12が出力した制御データＣ12が学習済モデルＭ3に供給される。

第２実施形態の学習済モデルＭ3は、音楽レベルの制御データＣ0と音素・発音レベルの制御データＣ12とを含む入力データＤ3に応じたボコーダレベルの制御データＣ3（合成データの例示）を出力する。学習済モデルＭ3が入力データＤ3の入力に対して制御データＣ3を出力する具体的な動作は第１実施形態と同様である。また、第１実施形態と同様に、編集処理部Ｅ3は、利用者からの編集指示Ｑ3に応じて制御データＣ3を変更し、合成処理部２２は、制御データＣ3に応じた音声信号Ｖを生成する。

図６は、第２実施形態における音声合成処理のフローチャートである。例えば音声合成装置１００に対する利用者からの指示を契機として音声合成処理が実行される。例えば図３の操作部Ｂ3（再生）が操作された場合に音声合成処理が実行される。

音声合成処理を開始すると、編集処理部Ｅ0は、利用者からの編集指示Ｑ0に応じて音楽レベルの制御データＣ0を変更する（Ｓb1）。編集指示Ｑ0が付与されない場合には、制御データＣ0の変更は省略される。

学習済モデルＭ12は、合成音声の音素に関する制御データＣ12を制御データＣ0に応じて生成する（Ｓb2）。編集処理部Ｅ12は、利用者からの編集指示Ｑ1または編集指示Ｑ2に応じて音素・発音レベルの制御データＣ12を変更する（Ｓb3）。編集指示Ｑ1または編集指示Ｑ2が付与されない場合には、制御データＣ12の変更は省略される。

学習済モデルＭ3は、制御データＣ0と制御データＣ12とを含む入力データＤ3に応じて、合成音声の周波数特性に関する制御データＣ3を生成する（Ｓb4）。編集処理部Ｅ3は、利用者からの編集指示Ｑ3に応じてボコーダレベルの制御データＣ3を変更する（Ｓb5）。編集指示Ｑ3が付与されない場合には、制御データＣ3の変更は省略される。合成処理部２２は、制御データＣ3に応じた音声信号Ｖを生成する（Ｓb6）。

第２実施形態では、制御データＣ0から制御データＣ3を生成するまでの途中の段階で利用者からの指示（編集指示Ｑ1または編集指示Ｑ2）が反映されるから、第１実施形態と同様に、利用者が制御データＣ0を編集できるだけの構成と比較して、利用者の意図または嗜好に沿った合成音声の音声信号Ｖを生成できる。第２実施形態では特に、合成音声の音素および表情に関する制御データＣ12が利用者からの編集指示Ｑ1または編集指示Ｑ2に応じて変更される。したがって、利用者の意図または嗜好に応じて音素または表情が調整された合成音声の音声信号Ｖを生成できるという利点もある。

＜変形例＞
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。

（１）例えば移動体通信網またはインターネット等の通信網を介して端末装置（例えば携帯電話機またはスマートフォン）と通信するサーバ装置により音声合成装置１００を実現してもよい。具体的には、音声合成装置１００は、端末装置から受信した制御データＣ0に対する音声合成処理（図４または図６）により音声信号Ｖを生成し、当該音声信号Ｖを端末装置に送信する。端末装置の放音装置１５は、音声合成装置１００から受信した音声信号Ｖが表す音声を再生する。なお、音声合成装置１００の編集処理部Ｅ3がが生成した制御データＣ3を端末装置に送信し、端末装置に設置された合成処理部２２が制御データＣ3から音声信号Ｖを生成してもよい。すなわち、合成処理部２２は音声合成装置１００から省略される。また、端末装置に搭載された編集処理部Ｅ0が生成した制御データＣ0を音声合成装置１００に送信し、当該制御データＣ0に応じて生成した音声信号Ｖを音声合成装置１００から端末装置に送信してもよい。すなわち、編集処理部Ｅ0は音声合成装置１００から省略される。音声合成装置１００をサーバ装置により実現した構成では、表示制御部２１は、図３の編集画面を端末装置の表示装置１４に表示させる。

（２）前述の各形態に係る音声合成装置１００は、各形態での例示の通り、コンピュータ（具体的には制御装置１１）とプログラムとの協働により実現される。前述の各形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含む。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。また、プログラムの実行主体はＣＰＵに限定されず、Tensor Processing UnitおよびNeural Engine等のニューラルネットワーク用のプロセッサ、または、信号処理用のＤＳＰ（Digital Signal Processor）がプログラムを実行してもよい。また、以上の例示から選択された複数種の主体が協働してプログラムを実行してもよい。

（３）学習済モデルは、入力Ａから出力Ｂを特定する演算を制御装置１１に実行させるプログラム（例えば人工知能ソフトウェアを構成するプログラムモジュール）と、当該演算に適用される複数の係数との組合せで実現される。学習済モデルの複数の係数は、入力Ａと出力Ｂとを対応させた複数の教師データを利用した事前の機械学習（特に深層学習）により最適化される。すなわち、学習済モデルは、入力Ａと出力Ｂとの関係を学習した統計的モデルである。制御装置１１は、学習済の複数の係数と所定の応答関数とを適用した演算を未知の入力Ａに対して実行することで、複数の教師データから抽出される傾向（入力Ａと出力Ｂとの関係）のもとで入力Ａに対して統計的に妥当な出力Ｂを生成する。

（４）以上に例示した形態から、例えば以下の構成が把握される。

本発明の好適な態様（第１態様）に係る音声合成方法は、音韻を指定する第１制御データを含む入力に応じた第２制御データを中間学習済モデルにより生成し、利用者からの第１指示に応じて前記第２制御データを変更し、前記第１制御データと前記変更後の前記第２制御データとを含む入力に応じて、合成音声の周波数特性に関する合成データを出力学習済モデルにより生成し、前記合成データに応じた音声信号を生成する。以上の態様では、第１制御データから合成データを生成するまでの途中の段階で利用者からの第１指示が反映されるから、利用者が第１制御データを編集できるだけの構成と比較して、利用者の意図または嗜好に沿った合成音声を表す音声信号を生成できる。

例えば第１実施形態における学習済モデルＭ1または学習済モデルＭ2、および、第２実施形態における学習済モデルＭ12が、第１態様における「中間学習済モデル」の好適例である。第１実施形態の学習済モデルＭ1を「中間学習済モデル」と解釈した場合、制御データＣ1が「第２制御データ」に相当し、編集指示Ｑ1が「第１指示」に相当する。第１実施形態の学習済モデルＭ2を「中間学習済モデル」と解釈した場合、制御データＣ2が「第２制御データ」に相当し、編集指示Ｑ2が「第１指示」に相当する。第２実施形態の学習済モデルＭ12を「中間学習済モデル」と解釈した場合、制御データＣ12が「第２制御データ」に相当し、編集指示Ｑ1または編集指示Ｑ2が「第１指示」に相当する。

第１態様の好適例（第２態様）において、前記中間学習済モデルは、前記第１制御データを含む入力に応じて、前記合成音声の音素に関する前記第２制御データを生成する第１学習済モデルである。以上の態様では、合成音声の音素に関する第２制御データが利用者からの第１指示に応じて変更される。したがって、利用者の意図または嗜好に応じて音素が調整された合成音声の音声信号を生成できる。第２態様における「第１学習済モデル」の好適例は、例えば第１実施形態における「学習済モデルＭ1」である。

第２態様の好適例（第３態様）において、前記第１制御データと前記変更後の第２制御データとを含む入力に応じて、前記合成音声の表情に関する第３制御データを第２学習済モデルにより生成し、利用者からの第２指示に応じて前記第３制御データを変更し、前記合成データの生成においては、前記第１制御データと前記変更後の前記第２制御データと前記変更後の第３制御データとを含む入力に応じて前記合成データを生成する。以上の態様では、合成音声の表情に関する第３制御データが利用者からの第２指示に応じて変更される。したがって、利用者の意図または嗜好に応じて表情が調整された合成音声の音声信号を生成できる。第３態様における「第２学習済モデル」の好適例は、例えば第１実施形態における学習済モデルＭ2であり、第３態様における「第３制御データ」の好適例は、例えば第１実施形態における制御データＣ2である。

第１態様の好適例（第４態様）において、前記中間学習済モデルは、前記第１制御データを含む入力に応じて、前記合成音声の音素および表情に関する前記第２制御データを生成する学習済モデルである。以上の態様では、合成音声の音素および表情に関する第２制御データが利用者からの第１指示に応じて変更される。したがって、利用者の意図または嗜好に応じて音素および表情が調整された合成音声の音声信号を生成できる。第４態様における「中間学習済モデル」の好適例は、例えば第２実施形態における学習済モデルＭ12であり、第４態様における「第１指示」の好適例は、例えば第２実施形態における編集指示Ｑ1または編集指示Ｑ2である。

第１態様から第４態様の何れかの好適例（第５態様）において、利用者からの第３指示に応じて前記合成データを変更し、前記音声信号の生成においては、前記変更後の合成データに応じて前記音声信号を生成する。以上の態様では、利用者からの第３指示に応じて合成データが変更される。したがって、利用者の意図または嗜好に応じて周波数特性が調整された合成音声の音声信号を生成できる。第５態様における「第３指示」の好適例は、例えば第１実施形態または第２実施形態における編集指示Ｑ3である。

本発明の好適な態様（第６態様）に係るプログラムは、音韻を指定する第１制御データを含む入力に応じて第２制御データを中間学習済モデルにより生成する処理と、利用者からの第１指示に応じて前記第２制御データを変更する処理と、前記第１制御データと前記変更後の前記第２制御データとを含む入力に応じて、合成音声の周波数特性に関する合成データを出力学習済モデルにより生成する処理と、前記合成データに応じた音声信号を生成する処理とをコンピュータに実行させる。以上の態様では、第１制御データから合成データを生成するまでの途中の段階で利用者からの第１指示が反映されるから、利用者が第１制御データを編集できるだけの構成と比較して、利用者の意図または嗜好に沿った合成音声を表す音声信号を生成できる。

１００…音声合成装置、１１…制御装置、１２…記憶装置、１３…操作装置、１４…表示装置、１５…放音装置、２１…表示制御部、２２…合成処理部、Ｅ0，Ｅ1，Ｅ2，Ｅ3，Ｅ12…編集処理部、Ｍ1，Ｍ2，Ｍ3，Ｍ12…学習済モデル、Ｑ0，Ｑ1，Ｑ2，Ｑ3…編集指示、Ａ0，Ａ1，Ａ2，Ａ3…編集領域、Ｂ0，Ｂ1，Ｂ2，Ｂ3…操作部。

Claims

音韻を指定する第１制御データを含む入力に応じた第２制御データを中間学習済モデルにより生成し、
利用者からの第１指示に応じて前記第２制御データを変更し、
前記第１制御データと前記変更後の前記第２制御データとを含む入力に応じて、合成音声の周波数特性に関する合成データを出力学習済モデルにより生成し、
前記合成データに応じた音声信号を生成する、
コンピュータにより実現される音声合成方法。
前記中間学習済モデルは、前記第１制御データを含む入力に応じて、前記合成音声の音素に関する前記第２制御データを生成する第１学習済モデルである
請求項１の音声合成方法。
前記第１制御データと前記変更後の第２制御データとを含む入力に応じて、前記合成音声の表情に関する第３制御データを第２学習済モデルにより生成し、
利用者からの第２指示に応じて前記第３制御データを変更し、
前記合成データの生成においては、前記第１制御データと前記変更後の前記第２制御データと前記変更後の第３制御データとを含む入力に応じて前記合成データを生成する
請求項２の音声合成方法。
前記中間学習済モデルは、前記第１制御データを含む入力に応じて、前記合成音声の音素および表情に関する前記第２制御データを生成する学習済モデルである
請求項１の音声合成方法。
利用者からの第３指示に応じて前記合成データを変更し、
前記音声信号の生成においては、前記変更後の合成データに応じて前記音声信号を生成する
請求項１から請求項４の何れかの音声合成方法。
音韻を指定する第１制御データを含む入力に応じて第２制御データを中間学習済モデルにより生成する処理と、
利用者からの第１指示に応じて前記第２制御データを変更する処理と、
前記第１制御データと前記変更後の前記第２制御データとを含む入力に応じて、合成音声の周波数特性に関する合成データを出力学習済モデルにより生成する処理と、
前記合成データに応じた音声信号を生成する処理と
をコンピュータに実行させるプログラム。