JP7124870B2

JP7124870B2 - 情報処理方法、情報処理装置およびプログラム

Info

Publication number: JP7124870B2
Application number: JP2020525475A
Authority: JP
Inventors: 誠橘; 基小笠原
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2018-06-15
Filing date: 2019-06-05
Publication date: 2022-08-24
Anticipated expiration: 2039-06-05
Also published as: WO2019239971A1; JPWO2019239971A1; US11437016B2; US20210097973A1

Description

本発明は、音声を合成する技術に関する。

利用者により指定された音符を発音した音声を合成する音声合成技術が従来から提案されている。例えば特許文献１には、特定の歌唱者に特有の表現が反映された音高の遷移を例えばＨＭＭ（Hidden Markov Model）等の遷移推定モデルにより設定し、当該音高の遷移に沿う歌唱音声を合成する技術が開示されている。

特開２０１５－３４９２０号公報

従前の音声合成の場面では、利用者は、音符の時系列を順次に指定しながら、各音符に付与されるべき所望の表現を指定する。しかし、利用者が音符の編集毎に表現を指定し直す作業は負荷が大きいという問題がある。以上の事情を考慮して、本開示は、合成音声に付与されるべき発音スタイルを指定する作業の負荷を軽減することを目的とする。

以上の課題を解決するために、本開示のひとつの態様に係る情報処理方法は、時間軸上の特定範囲について発音スタイルを設定し、前記発音スタイルが設定された前記特定範囲内に利用者からの指示に応じて音符を配置し、前記特定範囲に設定された前記発音スタイルで当該特定範囲内の音符を発音した音声の音響特性の遷移である特性遷移を生成する。

本開示のひとつの態様に係る情報処理装置は、時間軸上の特定範囲について発音スタイルを設定する範囲設定部と、前記発音スタイルが設定された前記特定範囲内に利用者からの指示に応じて音符を配置する音符処理部と、前記特定範囲に設定された前記発音スタイルで当該特定範囲内の音符を発音した音声の音響特性の遷移である特性遷移を生成する遷移生成部とを具備する。

本開示のひとつの態様に係るプログラムは、時間軸上の特定範囲について発音スタイルを設定する範囲設定部、前記発音スタイルが設定された前記特定範囲内に利用者からの指示に応じて音符を配置する音符処理部、および、前記特定範囲に設定された前記発音スタイルで当該特定範囲内の音符を発音した音声の音響特性の遷移である特性遷移を生成する遷移生成部としてコンピュータを機能させる。

第１実施形態に係る情報処理装置の構成を例示するブロック図である。情報処理装置の機能的な構成を例示するブロック図である。編集画像の模式図である。遷移生成部の構成を例示するブロック図である。音符と特性遷移との関係の説明図である。音符と特性遷移との関係の説明図である。制御装置が実行する処理を例示するフローチャートである。変形例における編集画像の模式図である。

＜第１実施形態＞
図１は、第１実施形態に係る情報処理装置１００の構成を例示するブロック図である。情報処理装置１００は、歌唱者が楽曲（以下「合成楽曲」という）を仮想的に歌唱した音声（以下「合成音声」という）を生成する音声合成装置である。第１実施形態の情報処理装置１００は、複数の発音スタイルのうち何れかの発音スタイルで仮想的に発音された合成音声を生成する。発音スタイルは、例えば特徴的な発音の仕方を意味する。具体的には、例えば音高または音量等の特徴量の時間的な変化に関する特徴（すなわち特徴量の変化パターン）が発音スタイルの一例である。例えばラップ，Ｒ＆Ｂ（rhythm and blues）またはパンク等の各種のジャンルの楽曲に好適な歌い廻しが発音スタイルの一例である。

図１に例示される通り、第１実施形態の情報処理装置１００は、制御装置１１と記憶装置１２と表示装置１３と入力装置１４と放音装置１５とを具備するコンピュータシステムで実現される。例えば携帯電話機もしくはスマートフォン等の可搬型の情報端末、またはパーソナルコンピュータ等の可搬型または据置型の情報端末が、情報処理装置１００として利用される。制御装置１１は、例えばＣＰＵ（Central Processing Unit）等の１以上のプロセッサで構成され、各種の演算処理および制御処理を実行する。

記憶装置１２は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成された１以上のメモリであり、制御装置１１が実行するプログラムと制御装置１１が使用する各種のデータとを記憶する。なお、複数種の記録媒体の組合せにより記憶装置１２を構成してもよい。また、情報処理装置１００とは別体の記憶装置１２（例えばクラウドストレージ）を用意し、制御装置１１が通信網を介して記憶装置１２に対する書込および読出を実行してもよい。すなわち、記憶装置１２を情報処理装置１００から省略してもよい。

第１実施形態の記憶装置１２は、合成データＸと音声素片群Ｌと複数の遷移推定モデルＭとを記憶する。合成データＸは、音声合成の内容を指定する。図１に例示される通り、合成データＸは、範囲データＸ1と楽譜データＸ2とを含む。範囲データＸ1は、合成楽曲内の所定の範囲（以下「特定範囲」という）Ｒと当該特定範囲Ｒ内の発音スタイルＱとを指定するデータである。特定範囲Ｒは、例えば始点時刻と終点時刻とで指定される。１個の合成楽曲内には単数または複数の特定範囲Ｒが設定される。

楽譜データＸ2は、合成楽曲を構成する複数の音符の時系列を指定する音楽ファイルである。楽譜データＸ2は、合成楽曲を構成する複数の音符の各々について音高と音韻（発音文字）と発音期間とを指定する。各音符に関する音量（ベロシティ）等の制御パラメータの数値を楽譜データＸ2が指定してもよい。例えばＭＩＤＩ（Musical Instrument Digital Interface）規格に準拠した形式のファイル（ＳＭＦ：Standard MIDI File）が楽譜データＸ2として利用される。

音声素片群Ｌは、複数の音声素片で構成される音声合成用ライブラリである。各音声素片は、言語的な意味の最小単位である音素単体（例えば母音または子音）、または複数の音素を連結した音素連鎖である。各音声素片は、時間領域の音声波形のサンプル系列、または音声波形に対応する周波数スペクトルの時系列で表現される。各音声素片は、例えば特定の発声者の収録音声から事前に採取される。

また、第１実施形態の記憶装置１２は、相異なる発音スタイルに対応する複数の遷移推定モデルＭを記憶する。各発音スタイルに対応する遷移推定モデルＭは、当該発音スタイルで発音した音声の音高の遷移（以下「特性遷移」という）を生成するための確率モデルである。すなわち、第１実施形態の特性遷移は、複数の音高の時系列で表現されるピッチカーブである。特性遷移が表す音高は、例えば所定の基準値（例えば音符に対応する音高）に対する相対値であり、例えばセントを単位として表現される。

各発音スタイルの遷移推定モデルＭは、当該発音スタイルに対応する多数の学習用データを利用した機械学習により事前に生成される。具体的には、学習データが表す音響特性の遷移における各時点の数値を、当該時点におけるコンテキスト（例えば当該時点またはその近傍における音符の音高、強度または音長等）に関連付けて機械学習した生成モデルである。例えば過去の遷移の履歴から現在の遷移を推定する回帰的な確率モデルが遷移推定モデルＭとして利用される。任意の発音スタイルＱの遷移推定モデルＭを楽譜データＸ2に適用することで、当該楽譜データＸ2が指定する音符を当該発音スタイルＱで発音した音声の特性遷移が生成される。各発音スタイルＱの遷移推定モデルＭにより生成される特性遷移には、当該発音スタイルＱに特有の音高の変化が観測される。以上に説明した通り、機械学習による学習済の遷移推定モデルＭを利用して特性遷移が生成されるから、機械学習に利用された学習用データに潜在する傾向を反映した特性遷移を生成することが可能である。

表示装置１３は、例えば液晶表示パネルで構成され、制御装置１１から指示された画像を表示する。入力装置１４は、利用者からの指示を受付ける入力機器である。具体的には、利用者が操作可能な操作子、または、表示装置１３の表示面に対する接触を検知するタッチパネルが、入力装置１４として利用される。放音装置１５（例えばスピーカまたはヘッドホン）は、合成音声を放音する。

図２は、制御装置１１の機能的な構成を例示するブロック図である。図２に例示される通り、制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで、合成音声を表す音声信号Ｚを生成するための複数の機能（表示制御部２１，範囲設定部２２，音符処理部２３および音声合成部２４）を実現する。なお、相互に別体で構成された複数の装置で制御装置１１の機能を実現してもよいし、制御装置１１の機能の一部または全部を専用の電子回路で実現してもよい。

表示制御部２１は、各種の画像を表示装置１３に表示させる。第１実施形態の表示制御部２１は、図３の編集画像Ｇを表示装置１３に表示させる。編集画像Ｇは、合成データＸの内容を表す画像であり、横方向の時間軸と縦方向の音高軸とが設定された座標平面（以下「楽譜領域」という）Ｃを含む。

表示制御部２１は、図３に例示される通り、合成データＸの範囲データＸ1が指定する特定範囲Ｒと発音スタイルＱの名称とを表示装置１３に表示させる。特定範囲Ｒは、楽譜領域Ｃ内における時間軸上の特定の範囲として表現される。また、表示制御部２１は、合成データＸの楽譜データＸ2が指定する音符を表す音符図形Ｎを表示装置１３に表示させる。音符図形Ｎは、音韻が内部に配置された略矩形状の図形（いわゆるノートバー）である。音高軸の方向における音符図形Ｎの位置は、楽譜データＸ2が指定する音高に応じて設定される。時間軸の方向における音符図形Ｎの端点は、楽譜データＸ2が指定する発音期間に応じて設定される。また、表示制御部２１は、遷移推定モデルＭにより生成された特性遷移Ｖを表示装置１３に表示させる。

図２の範囲設定部２２は、合成楽曲内の特定範囲Ｒについて発音スタイルＱを設定する。利用者は、入力装置１４を適宜に操作することで、特定範囲Ｒの追加または変更と当該特定範囲Ｒの発音スタイルＱとを指示することが可能である。範囲設定部２２は、利用者からの指示に応じて特定範囲Ｒを追加または変更するとともに当該特定範囲Ｒの発音スタイルＱを設定し、当該設定に応じて範囲データＸ1を変更する。また、表示制御部２１は、変更後の範囲データＸ1が指定する特定範囲Ｒおよび発音スタイルＱの名称を表示装置１３に表示させる。なお、特定範囲Ｒが追加された場合に当該特定範囲Ｒの発音スタイルＱを初期値に設定し、利用者からの指示に応じて当該特定範囲Ｒの発音スタイルＱを変更してもよい。

音符処理部２３は、発音スタイルＱが設定された特定範囲Ｒ内に利用者からの指示に応じて音符を配置する。利用者は、入力装置１４を適宜に操作することで、特定範囲Ｒ内の音符の編集（例えば追加、変更または削除）を指示することが可能である。音符処理部２３は、利用者からの指示に応じて楽譜データＸ2を変更する。また、表示制御部２１は、変更後の楽譜データＸ2が指定する各音符に対応する音符図形Ｎを表示装置１３に表示させる。

音声合成部２４は、合成データＸが指定する合成音声の音声信号Ｚを生成する。第１実施形態の音声合成部２４は、素片接続型の音声合成により音声信号Ｚを生成する。具体的には、音声合成部２４は、楽譜データＸ2が指定する各音符の音韻に対応する音声素片を音声素片群Ｌから順次に選択し、各音声素片の音高および発音期間を楽譜データＸ2に応じて調整したうえで相互に接続することで音声信号Ｚを生成する。

第１実施形態の音声合成部２４は、遷移生成部２５を含む。遷移生成部２５は、特定範囲Ｒ毎に特性遷移Ｖを生成する。各特定範囲Ｒの特性遷移Ｖは、当該特定範囲Ｒに設定された発音スタイルＱで当該特定範囲Ｒ内の音符を発音した音声の音響特性（具体的には音高）の遷移である。音声合成部２４は、遷移生成部２５が生成した特性遷移Ｖに沿って音高が変化する合成音声の音声信号Ｚを生成する。すなわち、各音符の音韻に応じて選択された音声素片の音高が特性遷移Ｖに沿うように調整される。表示制御部２１は、遷移生成部２５が生成した特性遷移Ｖを表示装置１３に表示させる。以上の説明から理解される通り、時間軸が設定された楽譜領域Ｃ内に、特定範囲Ｒ内の音符の音符図形Ｎと当該特定範囲Ｒ内の特性遷移Ｖとが表示される。

図４は、第１実施形態における遷移生成部２５の構成を例示するブロック図である。図４に例示される通り、第１実施形態の遷移生成部２５は、第１処理部２５１と第２処理部２５２とを含む。第１処理部２５１は、合成音声の音響特性の基礎的な遷移（基礎遷移Ｖ1および相対遷移Ｖ2）を合成データＸから生成する。

具体的には、第１処理部２５１は、基礎遷移生成部３１と相対遷移生成部３２とを含む。基礎遷移生成部３１は、合成データＸが音符毎に指定する音高に対応する基礎遷移Ｖ1を生成する。基礎遷移Ｖ1は、相前後する音符間で音高が滑らかに遷移する基礎的な音響特性の遷移である。他方、相対遷移生成部３２は、合成データＸから相対遷移Ｖ2を生成する。相対遷移Ｖ2は、基礎遷移Ｖ1を基準とした音高の相対値（すなわち基礎遷移Ｖ1からの音高差である相対ピッチ）の遷移である。相対遷移Ｖ2の生成には遷移推定モデルＭが利用される。具体的には、相対遷移生成部３２は、複数の遷移推定モデルＭのうち、特定範囲Ｒに設定された発音スタイルＱの遷移推定モデルＭを選択し、楽譜データＸ2のうち特定範囲Ｒ内の部分に当該遷移推定モデルＭを適用することで相対遷移Ｖ2を生成する。

第２処理部２５２は、基礎遷移生成部３１が生成した基礎遷移Ｖ1と相対遷移生成部３２が生成した相対遷移Ｖ2とから特性遷移Ｖを生成する。具体的には、第２処理部２５２は、各音符の音韻に応じて選択された各音声素片における有声音および無声音の時間長、または各音符の音量等の制御パラメータに応じて、基礎遷移Ｖ1または相対遷移Ｖ2を調整することで、特性遷移Ｖを生成する。なお、基礎遷移Ｖ1または相対遷移Ｖ2の調整に反映される情報は以上の例示に限定されない。

遷移生成部２５が生成する特性遷移Ｖと音符との関係を説明する。図５には、特定範囲Ｒ内に第１音符ｎ1（音符図形Ｎ1）が設定された第１状態が図示され、図６には、第１状態の特定範囲Ｒに第２音符ｎ2（音符図形Ｎ2）を追加した第２状態が図示されている。

図５および図６から理解される通り、第１状態と第２状態との間では、特性遷移Ｖのうち、新たに追加された第２音符ｎ2に対応する区間に加えて、第１音符ｎ1に対応する部分も相違する。すなわち、特定範囲Ｒ内における第２音符ｎ2の有無に応じて、特性遷移Ｖのうち、第１音符ｎ1に対応する部分の形状が変化する。例えば、第２音符ｎ2の追加により第１状態から第２状態に遷移すると、特性遷移Ｖは、第１音符ｎ1の終点で低下する形状（第１状態での形状）から、第１音符ｎ1から第２音符ｎ2に向けて上昇する形状（第２状態での形状）に変化する。

以上に説明した通り、第１実施形態では、特定範囲Ｒ内における第２音符ｎ2の有無に応じて特性遷移Ｖのうち第１音符ｎ1に対応する部分が変化する。したがって、単体の音符だけでなく周囲の音符の相互間の関係にも影響されるという傾向を反映した自然な特性遷移Ｖを生成することが可能である。

図７は、第１実施形態の制御装置１１が実行する処理（以下「編集処理」という）の具体的な手順を例示するフローチャートである。例えば入力装置１４に対する利用者からの指示を契機として図７の編集処理が開始される。

編集処理を開始すると、表示制御部２１は、楽譜領域Ｃに特定範囲Ｒおよび音符が設定されていない初期的な編集画像Ｇを表示装置１３に表示させる（Ｓ1）。範囲設定部２２は、楽譜領域Ｃ内の特定範囲Ｒと当該特定範囲Ｒの発音スタイルＱとを、利用者からの指示に応じて設定する（Ｓ2）。すなわち、合成楽曲の音符の設定前に特定範囲Ｒの発音スタイルＱが設定される。表示制御部２１は、特定範囲Ｒおよび発音スタイルＱを表示装置１３に表示させる（Ｓ3）。

利用者は、以上の手順で設定された特定範囲Ｒ内の音符の編集を指示することが可能である。制御装置１１は、音符の編集の指示を利用者から受付けるまで待機する（Ｓ4：NO）。利用者から編集の指示を受付けると（Ｓ4：YES）、音符処理部２３は、当該指示に応じて特定範囲Ｒ内の音符を編集する（Ｓ5）。例えば、音符処理部２３は、音符の編集（追加、変更または削除）を実行し、その編集の結果に応じて楽譜データＸ2を変更する。発音スタイルＱが設定された特定範囲Ｒ内に音符が追加されることで、当該音符にも発音スタイルＱが適用される。表示制御部２１は、特定範囲Ｒ内の編集後の音符を表示装置１３に表示させる（Ｓ6）。

遷移生成部２５は、特定範囲Ｒに設定された発音スタイルＱで当該特定範囲Ｒ内の音符を発音した場合の特性遷移Ｖを生成する（Ｓ7）。すなわち、特定範囲Ｒ内における音符の編集毎に当該特定範囲Ｒの特性遷移Ｖが変更される。表示制御部２１は、遷移生成部２５が生成した特性遷移Ｖを表示装置１３に表示させる（Ｓ8）。以上の説明から理解される通り、特定範囲Ｒ内における音符の編集毎に、当該特定範囲Ｒの特性遷移Ｖの生成（Ｓ7）と当該特性遷移Ｖの表示（Ｓ8）とが実行される。したがって、音符の編集（例えば追加，変更または削除）毎に、編集後の音符に対応する特性遷移Ｖを利用者が確認できる。

以上に説明した通り、第１実施形態では、発音スタイルＱが設定された特定範囲Ｒ内に音符が配置され、特定範囲Ｒに設定された発音スタイルＱで当該特定範囲Ｒ内の音符を発音した音声の特性遷移Ｖが生成される。したがって、利用者が音符の編集を指示すると、当該編集後の音符に対して発音スタイルＱが自動的に設定される。すなわち、第１実施形態によれば、各音符の発音スタイルＱを利用者が指定する作業の負荷を軽減することが可能である。

また、第１実施形態では、特定範囲Ｒ内の音符の音符図形Ｎと当該特定範囲Ｒ内の特性遷移Ｖとが楽譜領域Ｃ内に表示される。したがって、特定範囲Ｒ内の音符と特性遷移Ｖとの時間的な関係を利用者が視覚的に把握できるという利点もある。

＜第２実施形態＞
第２実施形態を説明する。なお、以下の各例示において機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

第１実施形態では、利用者が設定した発音スタイルＱの遷移推定モデルＭを利用して当該発音スタイルＱの相対遷移Ｖ2を生成した。第２実施形態の遷移生成部２５は、事前に用意された表現サンプルを利用して相対遷移Ｖ2（ひいては特性遷移Ｖ）を生成する。

第２実施形態の記憶装置１２は、複数の発音表現にそれぞれ対応する複数の表現サンプルを記憶する。各発音表現の表現サンプルは、当該発音表現により発音された音声の音高（具体的には相対値）の遷移を表す複数のサンプルの時系列である。相異なる条件（コンテキスト）に対応する複数の表現サンプルが発音スタイルＱ毎に記憶装置１２に記憶される。

第２実施形態の遷移生成部２５は、特定範囲Ｒに設定された発音スタイルＱに対応する表現選択モデルにより表現サンプルを選択し、当該表現サンプルを利用して相対遷移Ｖ2（ひいては特性遷移Ｖ）を生成する。表現選択モデルは、楽譜データＸ2が指定する音符に適用される表現サンプルの選択の傾向を、発音スタイルＱおよびコンテキストに関連付けて機械学習した分類モデルである。例えば、多様な発音表現について熟知した作業者が、特定の発音スタイルＱおよびコンテキストに対して適切な表現サンプルを選択し、当該コンテキストを表す楽譜データＸ2と作業者が選択した表現サンプルとを対応させた学習データを機械学習に利用することで、発音スタイルＱ毎の表現選択モデルが生成される。特定の表現サンプルが１個の音符に適用されるか否かは、当該音符の特性（音高または音長）だけでなく、当該音符の前後の音符の特性、または、前後の音符に適用された表現サンプルにも影響される。

第２実施形態の相対遷移生成部３２は、編集処理（図７）のステップＳ7において、特定範囲Ｒの発音スタイルＱに対応する表現選択モデルを利用して表現サンプルを選択する。具体的には、相対遷移生成部３２は、表現選択モデルを利用して、楽譜データＸ2が指定する複数の音符のうち表現サンプルを適用する音符と、当該音符に適用される表現サンプルとを選択する。相対遷移生成部３２は、当該音符については当該選択した表現サンプルの音高の遷移を適用することで相対遷移Ｖ2を生成する。第２処理部２５２は、第１実施形態と同様に、基礎遷移生成部３１が生成した基礎遷移Ｖ1と相対遷移生成部３２が生成した相対遷移Ｖ2とから特性遷移Ｖを生成する。

以上の説明から理解される通り、第２実施形態の遷移生成部２５は、特定範囲Ｒ内の各音符について発音スタイルＱに応じて選択された表現サンプルの音高の遷移から特性遷移Ｖを生成する。遷移生成部２５が生成した特性遷移Ｖの表示、および、特性遷移Ｖを利用した音声信号Ｚの生成は、第１実施形態と同様である。

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、発音スタイルＱに応じた傾向で選択された表現サンプルの音高の遷移に応じて特定範囲Ｒ内の特性遷移Ｖが生成されるから、表現サンプルにおける音高の遷移の傾向を忠実に反映した特性遷移Ｖを生成することが可能である。

＜第３実施形態＞
第３実施形態においては、遷移生成部２５による特性遷移Ｖの生成に調整パラメータＰが適用される。調整パラメータＰの数値は、入力装置１４に対する利用者からの指示に応じて可変に設定される。第３実施形態の調整パラメータＰは、第１パラメータＰ1と第２パラメータＰ2とを含む。遷移生成部２５は、利用者からの指示に応じて第１パラメータＰ1および第２パラメータＰ2の各々の数値を設定する。第１パラメータＰ1および第２パラメータＰ2は特定範囲Ｒ毎に設定される。

遷移生成部２５（具体的には第２処理部２５２）は、各特定範囲Ｒの相対遷移Ｖ2における微細な変動を、当該特定範囲Ｒに設定された第１パラメータＰ1の数値に応じて制御する。例えば、相対遷移Ｖ2における高周波成分（すなわち時間的に不安定で微細な変動成分）が第１パラメータＰ1に応じて抑制される。微細な変動が抑制された歌唱音声は、歌唱に熟練した印象を受聴者に付与する。したがって、第１パラメータＰ1は、合成音声が表す歌唱の巧拙に関するパラメータに相当する。

また、遷移生成部２５は、各特定範囲Ｒ内の相対遷移Ｖ2における音高の変動幅を、当該特定範囲Ｒに設定された第２パラメータＰ2の数値に応じて制御する。音高の変動幅は、合成音声の受聴者が感取する抑揚に影響する。すなわち、音高の変動幅が大きいほど抑揚が大きい合成音声と受聴者に知覚される。したがって、第２パラメータＰ2は、合成音声の抑揚に関するパラメータに相当する。遷移生成部２５が生成した特性遷移Ｖの表示、および、特性遷移Ｖを利用した音声信号Ｚの生成は、第１実施形態と同様である。

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態によれば、利用者からの指示に応じて設定される調整パラメータＰに応じて多様な特性遷移Ｖを生成することが可能である。

なお、以上の説明では、特定範囲Ｒについて調整パラメータＰを設定したが、調整パラメータＰの設定の範囲は以上の例示に限定されない。具体的には、合成楽曲の全体について調整パラメータＰを設定してもよいし、音符毎に調整パラメータＰを調整してもよい。例えば、第１パラメータＰ1は合成楽曲の全体について設定され、第２パラメータＰ2は合成楽曲の全体または音符毎に設定される。

＜変形例＞
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の各形態では、１種類の音色の音声素片群Ｌを音声合成に利用したが、複数の音声素片群Ｌを選択的に音声合成に利用してもよい。複数の音声素片群Ｌは、相異なる発声者の音声から抽出された音声素片で構成される。すなわち、各音声素片の音色は、音声素片群Ｌ毎に相違する。音声合成部２４は、複数の音声素片群Ｌのうち利用者からの指示に応じて選択された音声素片群Ｌを利用した音声合成により音声信号Ｚを生成する。すなわち、複数の音色のうち利用者からの指示に応じた音色の合成音声を表す音声信号Ｚが生成される。以上の構成によれば、多様な音色の合成音声を生成することが可能である。なお、合成楽曲内の区間毎（例えば特定範囲Ｒ毎）に音声素片群Ｌを選択してもよい。

（２）前述の各形態では、特定範囲Ｒ内の全体にわたる特性遷移Ｖを音符の編集毎に変更したが、特性遷移Ｖの一部を変更してもよい。すなわち、遷移生成部２５は、特定範囲Ｒの特性遷移Ｖのうち編集対象の音符を含む特定の範囲（以下「変更範囲」という）を変更する。変更範囲は、例えば編集対象の音符の前後の音符が連続する範囲（例えば合成楽曲の１個のフレーズに相当する期間）である。以上の構成によれば、音符の編集毎に特定範囲Ｒの全体にわたる特性遷移Ｖを生成する構成と比較して遷移生成部２５の処理の負荷を軽減することが可能である。

（３）楽譜領域Ｃ内に第１音符ｎ1が追加されてから、当該追加後の音符の時系列に対応する特性遷移Ｖを遷移生成部２５が生成する処理の完了前に、別個の第２音符ｎ2の編集が利用者から指示される場合がある。以上の場合、第１音符ｎ1の追加に対応する特性遷移Ｖの生成の途中結果を破棄したうえで、第１音符ｎ1と第２音符ｎ2とを含む音符の時系列に対応する特性遷移Ｖを遷移生成部２５が生成する。

（４）前述の各形態では、合成楽曲の各音符に対応する音符図形Ｎを楽譜領域Ｃ内に表示したが、音符図形Ｎとともに（または音符図形Ｎに代えて）、音声信号Ｚが表す音声波形を楽譜領域Ｃ内に配置してもよい。例えば図８に例示される通り、各音符の音符図形Ｎに重なるように、音声信号Ｚのうち当該音符に対応する部分の音声波形Ｗが表示される。

（５）前述の各形態では、楽譜領域Ｃに特性遷移Ｖを表示したが、特性遷移Ｖに加えて（または特性遷移Ｖに代えて）、基礎遷移Ｖ1および相対遷移Ｖ2の一方または双方を表示装置１３に表示してもよい。基礎遷移Ｖ1または相対遷移Ｖ2は、特性遷移Ｖとは別個の表示態様（すなわち視覚的に弁別できる画像の性状）で表示される。具体的には、基礎遷移Ｖ1または相対遷移Ｖ2は、特性遷移Ｖとは別個の色彩または線種で表示される。なお、相対遷移Ｖ2は音高の相対値であるから、楽譜領域Ｃに表示する以外に、楽譜領域Ｃと共通の時間軸が設定された別個の領域に表示してもよい。

（６）前述の各形態では、合成音声の音高の遷移を特性遷移Ｖとして例示したが、特性遷移Ｖにより表現される音響特性は音高に限定されない。例えば、合成音声の音量の遷移を特性遷移Ｖとして遷移生成部２５が生成してもよい。

（７）前述の各形態では、合成音声を生成する音声合成装置を情報処理装置１００として例示したが、合成音声の生成までは必須ではない。例えば、各特定範囲Ｒに関する特性遷移Ｖを生成する特性遷移生成装置としても情報処理装置１００は実現される。特性遷移生成装置において、合成音声の音声信号Ｚを生成する機能（音声合成部２４）の有無は不問である。

（８）前述の各形態に係る情報処理装置１００の機能は、コンピュータ（例えば制御装置１１）とプログラムとの協働により実現される。本開示のひとつの態様に係るプログラムは、時間軸上の特定範囲Ｒについて発音スタイルＱを設定する範囲設定部２２、発音スタイルＱが設定された特定範囲Ｒ内に利用者からの指示に応じて音符を配置する音符処理部２３、および、特定範囲Ｒに設定された発音スタイルＱで当該特定範囲Ｒ内の音符を発音した音声の音響特性の遷移である特性遷移Ｖを生成する遷移生成部２５、としてコンピュータを機能させる。

以上に例示したプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含む。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。

＜付記＞
以上に例示した形態から、例えば以下の構成が把握される。

本開示のひとつの態様（第１態様）に係る情報処理方法は、時間軸上の特定範囲について発音スタイルを設定し、前記発音スタイルが設定された前記特定範囲内に利用者からの指示に応じて１以上の音符を配置し、前記特定範囲に設定された発音スタイルで当該特定範囲内の前記１以上の音符を発音した音声の音響特性の遷移である特性遷移を生成する。以上の態様では、発音スタイルが設定された特定範囲内に１以上の音符が設定され、特定範囲内に設定された発音スタイルで当該特定範囲内の１以上の音符を発音した音声の特性遷移が生成される。したがって、各音符の発音スタイルを利用者が指定する作業の負荷を軽減することが可能である。

第１態様の一例（第２態様）において、前記時間軸が設定された楽譜領域内に、前記特定範囲内の前記１以上の音符と当該特定範囲内の前記特性遷移とを表示させる。以上の態様によれば、特定範囲内の前記１以上の音符と特性遷移との時間的な関係を利用者が視覚的に把握できる。

第１態様または第２態様の一例（第３態様）において、前記特定範囲内における前記１以上の音符の編集毎に、当該特定範囲の前記特性遷移を変更する。以上の態様によれば、１以上の音符の編集（例えば追加または変更）毎に、当該編集後の１以上の音符に対応する特性遷移を確認できる。

第１態様から第３態様の何れかの一例（第４態様）において、前記１以上の音符は、第１音符と第２音符とを含み、前記特定範囲内に前記第１音符が設定された第１状態における前記特性遷移と、前記第１状態における前記特定範囲内に前記第２音符が追加された第２状態における前記特性遷移との間では、前記第１音符に対応する部分が相違する。以上の態様では、特定範囲内における第２音符の有無に応じて特性遷移のうち第１音符に対応する部分が変化する。したがって、単体の音符だけでなく周囲の音符の相互間の関係にも影響されるという傾向を反映した自然な特性遷移を生成することが可能である。

第１態様から第４態様の何れかの一例（第５態様）において、前記特性遷移の生成においては、相異なる発音スタイルに対応する複数の遷移推定モデルのうち、前記特定範囲に設定された発音スタイルに対応する遷移推定モデルを利用して、前記特性遷移を生成する。以上の態様では、機械学習による学習済の遷移推定モデルを利用して特性遷移が生成されるから、機械学習に利用された学習用データに潜在する傾向を反映した特性遷移を生成することが可能である。

第１態様から第４態様の何れかの一例（第６態様）において、前記特性遷移の生成においては、音声を表す複数の表現サンプルのうち前記特定範囲内の前記１以上の音符に対応する表現サンプルの特性の遷移に応じて前記特性遷移を生成する。以上の態様では、表現サンプルの特性の遷移に応じて特定範囲内の特性遷移が生成されるから、表現サンプルにおける特性の遷移の傾向を忠実に反映した特性遷移を生成することが可能である。

第１態様から第４態様の何れかの一例（第７態様）において、前記特性遷移の生成においては、複数の表現選択モデルのうち前記特定範囲に設定された前記発音スタイルに対応する表現選択モデルを利用して、音声を表す複数の表現サンプルから前記特定範囲内の前記１以上の音符に対応する表現サンプルを選択し、当該表現サンプルの特性の遷移に応じて前記特性遷移を生成する。以上の態様では、１以上の音符の状況に応じた適切な表現サンプルを表現選択モデルにより選択することが可能である。なお、表現選択モデルは、音符に適用される表現サンプルの選択の傾向を発音スタイルおよびコンテキストに関連付けて機械学習した分類モデルである。音符に関するコンテキストは、当該音符に関する状況であり、例えば当該音符またはその周囲の音符の音高、強度または音長等である。

第１態様から第７態様の何れかの一例（第８態様）において、前記特性遷移の生成においては、前記利用者からの指示に応じて設定される調整パラメータに応じた前記特性遷移を生成する。以上の態様によれば、利用者からの指示に応じて設定される調整パラメータに応じて多様な特性遷移を生成することが可能である。

第１態様から第８態様の何れかの一例（第９態様）において、前記特性遷移に沿って特性が変化する合成音声を表す音声信号を生成する。以上の態様によれば、利用者が音符毎に発音スタイルを指定する作業の負荷を軽減しながら、特定範囲内の特性遷移を反映した合成音声の音声信号を生成することが可能である。

第９態様の一例（第１０態様）において、前記音声信号の生成においては、複数の音色のうち利用者からの指示に応じて選択された音色の合成音声を表す前記音声信号を生成する。以上の態様によれば、多様な音色の合成音声を生成することが可能である。

以上に例示した各態様の情報処理方法を実行する情報処理装置、または、以上に例示した各態様の情報処理方法をコンピュータに実行させるプログラムとしても、本開示のひとつの態様は実現される。

１００…情報処理装置、１１…制御装置、１２…記憶装置、１３…表示装置、１４…入力装置、１５…放音装置、２１…表示制御部、２２…範囲設定部、２３…音符処理部、２４…音声合成部、２５…遷移生成部、２５１…第１処理部、２５２…第２処理部、３１…基礎遷移生成部、３２…相対遷移生成部。

Claims

時間軸上の特定範囲について発音スタイルを設定し、
前記発音スタイルが設定された前記特定範囲内に利用者からの指示に応じて１以上の音符を配置し、
前記特定範囲に設定された前記発音スタイルで当該特定範囲内の前記１以上の音符を発音した音声の音響特性の遷移である特性遷移を生成する
コンピュータにより実現される情報処理方法であって、
前記特性遷移の生成においては、
前記１以上の音符に対応する音高の遷移である基礎遷移を生成し、
相異なる発音スタイルに対応する複数の遷移推定モデルのうち、前記特定範囲に設定された前記発音スタイルに対応する遷移推定モデルを利用して、前記基礎遷移を基準とした音高の相対値の遷移である相対遷移を生成し、
前記基礎遷移と前記相対遷移とから前記特性遷移を生成する
情報処理方法。
前記基礎遷移および前記相対遷移と、前記特性遷移とを、相異なる表示態様により共通の時間軸のもとで表示装置に表示させる
請求項１の情報処理方法。
時間軸上の特定範囲について発音スタイルを設定し、
前記発音スタイルが設定された前記特定範囲内に利用者からの指示に応じて１以上の音符を配置し、
前記特定範囲に設定された前記発音スタイルで当該特定範囲内の前記１以上の音符を発音した音声の音響特性の遷移である特性遷移を生成する
コンピュータにより実現される情報処理方法であって、
前記特定範囲内における前記１以上の音符が利用者からの指示に応じて編集されるたびに、当該特定範囲の前記特性遷移を変更する
情報処理方法。
さらに、前記特定範囲内における前記１以上の音符が利用者からの指示に応じて編集されるたびに、前記変更後の前記特性遷移を表示装置に表示させる
請求項３の情報処理方法。
時間軸上の複数の特定範囲の各々について発音スタイルを設定し、
前記発音スタイルが設定された前記各特定範囲内に利用者からの指示に応じて１以上の音符を配置し、
前記複数の特定範囲の各々について、当該特定範囲に設定された前記発音スタイルで当該特定範囲内の前記１以上の音符を発音した音声の音響特性の遷移である特性遷移を生成する
コンピュータにより実現される情報処理方法であって、
前記特性遷移の生成においては、前記複数の特定範囲の各々について、複数の表現選択モデルのうち当該特定範囲に設定された前記発音スタイルに対応する表現選択モデルを利用して、音声を表す複数の表現サンプルから当該特定範囲内の前記１以上の音符に対応する表現サンプルを選択し、当該表現サンプルの特性の遷移に応じて前記特性遷移を生成する
情報処理方法。
時間軸上の特定範囲について発音スタイルを設定し、
前記発音スタイルが設定された前記特定範囲内に利用者からの指示に応じて１以上の音符を配置し、
前記特定範囲に設定された前記発音スタイルで当該特定範囲内の前記１以上の音符を発音した音声の音響特性の遷移である特性遷移を生成する
コンピュータにより実現される情報処理方法であって、
前記１以上の音符は、第１音符と第２音符とを含み、
前記特定範囲内に前記第１音符が設定された第１状態における前記特性遷移と、前記第１状態における前記特定範囲内に前記第２音符が追加された第２状態における前記特性遷移との間では、前記第１音符に対応する部分が相違する
情報処理方法。
時間軸上の特定範囲について発音スタイルを設定する範囲設定部と、
前記発音スタイルが設定された前記特定範囲内に利用者からの指示に応じて１以上の音符を配置する音符処理部と、
前記特定範囲に設定された前記発音スタイルで当該特定範囲内の前記１以上の音符を発音した音声の音響特性の遷移である特性遷移を生成する遷移生成部と
を具備し、
前記遷移生成部は、
前記１以上の音符に対応する音高の遷移である基礎遷移を生成する基礎遷移生成部と、
相異なる発音スタイルに対応する複数の遷移推定モデルのうち、前記特定範囲に設定された前記発音スタイルに対応する遷移推定モデルを利用して、前記基礎遷移を基準とした音高の相対値の遷移である相対遷移を生成する相対遷移生成部と、
前記基礎遷移と前記相対遷移とから前記特性遷移を生成する処理部とを含む
情報処理装置。
前記基礎遷移および前記相対遷移と、前記特性遷移とを、相異なる表示態様により共通の時間軸のもとで表示装置に表示させる表示制御部
を具備する請求項７の情報処理装置。
時間軸上の特定範囲について発音スタイルを設定する範囲設定部と、
前記発音スタイルが設定された前記特定範囲内に利用者からの指示に応じて１以上の音符を配置する音符処理部と、
前記特定範囲に設定された前記発音スタイルで当該特定範囲内の前記１以上の音符を発音した音声の音響特性の遷移である特性遷移を生成する遷移生成部と
を具備し、
前記遷移生成部は、前記特定範囲内における前記１以上の音符が利用者からの指示に応じて編集されるたびに、当該特定範囲の前記特性遷移を変更する
情報処理装置。
前記特定範囲内における前記１以上の音符が利用者からの指示に応じて編集されるたびに、前記変更後の前記特性遷移を表示装置に表示させる表示制御部
をさらに具備する請求項９の情報処理装置。
時間軸上の複数の特定範囲の各々について発音スタイルを設定する範囲設定部と、
前記発音スタイルが設定された前記各特定範囲内に利用者からの指示に応じて１以上の音符を配置する音符処理部と、
前記複数の特定範囲の各々について、当該特定範囲に設定された前記発音スタイルで当該特定範囲内の前記１以上の音符を発音した音声の音響特性の遷移である特性遷移を生成する遷移生成部とを具備し、
前記遷移生成部は、前記複数の特定範囲の各々について、複数の表現選択モデルのうち当該特定範囲に設定された前記発音スタイルに対応する表現選択モデルを利用して、音声を表す複数の表現サンプルから当該特定範囲内の前記１以上の音符に対応する表現サンプルを選択し、当該表現サンプルの特性の遷移に応じて前記特性遷移を生成する
情報処理装置。
時間軸上の特定範囲について発音スタイルを設定する範囲設定部と、
前記発音スタイルが設定された前記特定範囲内に利用者からの指示に応じて１以上の音符を配置する音符処理部と、
前記特定範囲に設定された前記発音スタイルで当該特定範囲内の前記１以上の音符を発音した音声の音響特性の遷移である特性遷移を生成する遷移生成部とを具備し、
前記１以上の音符は、第１音符と第２音符とを含み、
前記特定範囲内に前記第１音符が設定された第１状態における前記特性遷移と、前記第１状態における前記特定範囲内に前記第２音符が追加された第２状態における前記特性遷移との間では、前記第１音符に対応する部分が相違する
情報処理装置。
時間軸上の特定範囲について発音スタイルを設定する範囲設定部、
前記発音スタイルが設定された前記特定範囲内に利用者からの指示に応じて音符を配置する音符処理部、および、
前記特定範囲に設定された前記発音スタイルで当該特定範囲内の音符を発音した音声の音響特性の遷移である特性遷移を生成する遷移生成部
としてコンピュータを機能させるプログラムであって、
前記遷移生成部は、
前記１以上の音符に対応する音高の遷移である基礎遷移を生成する基礎遷移生成部と、
相異なる発音スタイルに対応する複数の遷移推定モデルのうち、前記特定範囲に設定された前記発音スタイルに対応する遷移推定モデルを利用して、前記基礎遷移を基準とした音高の相対値の遷移である相対遷移を生成する相対遷移生成部と、
前記基礎遷移と前記相対遷移とから前記特性遷移を生成する処理部とを含む
プログラム。
前記コンピュータを、さらに、
前記基礎遷移および前記相対遷移と、前記特性遷移とを、相異なる表示態様により共通の時間軸のもとで表示装置に表示させる表示制御部
として機能させる請求項１３のプログラム。
時間軸上の特定範囲について発音スタイルを設定する範囲設定部、
前記発音スタイルが設定された前記特定範囲内に利用者からの指示に応じて音符を配置する音符処理部、および、
前記特定範囲に設定された前記発音スタイルで当該特定範囲内の音符を発音した音声の音響特性の遷移である特性遷移を生成する遷移生成部
としてコンピュータを機能させるプログラムであって、
前記遷移生成部は、前記特定範囲内における前記１以上の音符が利用者からの指示に応じて編集されるたびに、当該特定範囲の前記特性遷移を変更する
プログラム。
前記コンピュータを、さらに、
前記特定範囲内における前記１以上の音符が利用者からの指示に応じて編集されるたびに、前記変更後の前記特性遷移を表示装置に表示させる表示制御部
として機能させる請求項１５のプログラム。
時間軸上の複数の特定範囲の各々について発音スタイルを設定する範囲設定部、
前記発音スタイルが設定された前記各特定範囲内に利用者からの指示に応じて音符を配置する音符処理部、および、
前記複数の特定範囲の各々について、当該特定範囲に設定された前記発音スタイルで当該特定範囲内の音符を発音した音声の音響特性の遷移である特性遷移を生成する遷移生成部
としてコンピュータを機能させるプログラムであって、
前記遷移生成部は、前記複数の特定範囲の各々について、複数の表現選択モデルのうち当該特定範囲に設定された前記発音スタイルに対応する表現選択モデルを利用して、音声を表す複数の表現サンプルから当該特定範囲内の前記１以上の音符に対応する表現サンプルを選択し、当該表現サンプルの特性の遷移に応じて前記特性遷移を生成する
プログラム。
時間軸上の特定範囲について発音スタイルを設定する範囲設定部、
前記発音スタイルが設定された前記特定範囲内に利用者からの指示に応じて音符を配置する音符処理部、および、
前記特定範囲に設定された前記発音スタイルで当該特定範囲内の音符を発音した音声の音響特性の遷移である特性遷移を生成する遷移生成部
としてコンピュータを機能させるプログラムであって、
前記１以上の音符は、第１音符と第２音符とを含み、
前記特定範囲内に前記第１音符が設定された第１状態における前記特性遷移と、前記第１状態における前記特定範囲内に前記第２音符が追加された第２状態における前記特性遷移との間では、前記第１音符に対応する部分が相違する
プログラム。