JP2022122689A

JP2022122689A - 機械学習モデルを用いた音生成方法、機械学習モデルの訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラム

Info

Publication number: JP2022122689A
Application number: JP2021020085A
Authority: JP
Inventors: 慶二郎才野; Keijiro Saino; 竜之介大道; Ryunosuke Daido; ボナダジョルディ; Bonada Jordi; ブラアウメルレイン; Brau Melrain
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2021-02-10
Filing date: 2021-02-10
Publication date: 2022-08-23
Also published as: CN116806354A; WO2022172577A1; US20230395046A1

Abstract

【課題】自然な音声を容易に取得することが可能な音生成方法、訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラムを提供する。【解決手段】複数の区間からなる音符列の各区間について音楽的な特徴量の代表値の入力が受付部１２により受け付けられる。訓練済モデルＭを用いて、入力された各区間の代表値に応じた第１の特徴量列を処理して、特徴量が連続的に変化する第２の特徴量列に対応する音データ列が生成部１３により生成される。【選択図】図２

Description

本発明は、音を生成することが可能な音生成方法、訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラムに関する。

使用者により指定された音量の時系列に基づいて音声信号を生成するアプリケーションが知られている。例えば、非特許文献１に記載されたアプリケーションにおいては、使用者による入力音から基本周波数、隠れ変数およびラウドネスが特徴量として抽出される。抽出された特徴量にスペクトラルモデリング合成が行われることにより、音声信号が生成される。

Jesse Engel, Lamtharn Hantrakul, Chenjie Gu and Adam Roberts, "DDSP: Differentiable Digital Signal Processing", arXiv:2001.04643v1 [cs.LG] 14 Jan 2020

非特許文献１記載のアプリケーションを用いて、人の歌唱または演奏のように自然に変化する音声を示す音声信号を生成するには、使用者は、音量の時系列を詳細に指定する必要がある。しかしながら、音量の時系列を詳細に指定することは容易ではない。

本発明の目的は、自然な音声を容易に取得することが可能な音生成方法、訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラムを提供することである。

本発明の一局面に従う音生成方法は、複数の区間からなる音符の各区間について音楽的な特徴量の代表値の入力を受け付け、訓練済モデルを用いて、入力された各区間の代表値に応じた第１の特徴量列を処理して、特徴量が連続的に変化する第２の特徴量列に対応する音データ列を生成し、コンピュータにより実現される。

本発明の他の局面に従う訓練方法は、音波形を示す参照データから特徴量が連続的に変化する参照音データ列と、その特徴量の時系列である出力特徴量列とを抽出し、出力特徴量列から特徴量が音の区間ごとに変化する入力特徴量列を生成し、機械学習により、入力特徴量列と、出力特徴量列に対応する参照音データ列との間の入出力関係を習得した訓練済モデルを構築し、コンピュータにより実現される。

本発明のさらに他の局面に従う音生成装置は、複数の区間からなる音符の各区間について音楽的な特徴量の代表値の入力を受け付ける受付部と、訓練済モデルを用いて、入力された各区間の代表値に応じた第１の特徴量列を処理して、特徴量が連続的に変化する第２の特徴量列に対応する音データ列を生成する生成部とを備える。

本発明のさらに他の局面に従う訓練装置は、音波形を示す参照データから特徴量が連続的に変化する参照音データ列と、その特徴量の時系列である出力特徴量列とを抽出する抽出部と、出力特徴量列から特徴量が音の区間ごとに変化する入力特徴量列を生成する生成部と、機械学習により、入力特徴量列と、出力特徴量列に対応する参照音データ列との間の入出力関係を習得した訓練済モデルを構築する構築部とを備える。

本発明によれば、自然な音声を容易に取得することができる。

本発明の一実施形態に係る音生成装置および訓練装置を含む処理システムの構成を示すブロック図である。音生成装置の構成を示すブロック図である。音生成装置の動作例を説明するための図である。音生成装置の動作例を説明するための図である。受付画面の他の例を示す図である。訓練装置の構成を示すブロック図である。訓練装置の動作例を説明するための図である。図２の音生成装置による音生成処理の一例を示すフローチャートである。図６の訓練装置による訓練処理の一例を示すフローチャートである。第２実施形態における受付画面の一例を示す図である。

（１）処理システムの構成
以下、本発明の第１実施形態に係る音生成方法、訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラムについて図面を用いて詳細に説明する。図１は、本発明の一実施形態に係る音生成装置および訓練装置を含む処理システムの構成を示すブロック図である。図１に示すように、処理システム１００は、ＲＡＭ（ランダムアクセスメモリ）１１０、ＲＯＭ（リードオンリメモリ）１２０、ＣＰＵ（中央演算処理装置）１３０、記憶部１４０、操作部１５０および表示部１６０を備える。

処理システム１００は、例えばＰＣ、タブレット端末またはスマートフォン等のコンピュータにより実現される。あるいは、処理システム１００は、イーサネット等の通信路で接続された複数のコンピュータの共同動作で実現されてもよい。ＲＡＭ１１０、ＲＯＭ１２０、ＣＰＵ１３０、記憶部１４０、操作部１５０および表示部１６０は、バス１７０に接続される。ＲＡＭ１１０、ＲＯＭ１２０およびＣＰＵ１３０により音生成装置１０および訓練装置２０が構成される。本実施形態では、音生成装置１０と訓練装置２０とは共通の処理システム１００により構成されるが、別個の処理システムにより構成されてもよい。

ＲＡＭ１１０は、例えば揮発性メモリからなり、ＣＰＵ１３０の作業領域として用いられる。ＲＯＭ１２０は、例えば不揮発性メモリからなり、音生成プログラムおよび訓練プログラムを記憶する。ＣＰＵ１３０は、ＲＯＭ１２０に記憶された音生成プログラムをＲＡＭ１１０上で実行することにより音生成処理を行う。また、ＣＰＵ１３０は、ＲＯＭ１２０に記憶された訓練プログラムをＲＡＭ１１０上で実行することにより訓練処理を行う。音生成処理および訓練処理の詳細については後述する。

音生成プログラムまたは訓練プログラムは、ＲＯＭ１２０ではなく記憶部１４０に記憶されてもよい。あるいは、音生成プログラムまたは訓練プログラムは、コンピュータが読み取り可能な記憶媒体に記憶された形態で提供され、ＲＯＭ１２０または記憶部１４０にインストールされてもよい。あるいは、処理システム１００がインターネット等のネットワークに接続されている場合には、当該ネットワーク上のサーバ（クラウドサーバを含む。）から配信された音生成プログラムがＲＯＭ１２０または記憶部１４０にインストールされてもよい。

記憶部１４０は、ハードディスク、光学ディスク、磁気ディスクまたはメモリカード等の記憶媒体を含む。記憶部１４０には、訓練済モデルＭ、結果データＤ１、複数の参照データＤ２、複数の楽譜データＤ３および複数の参照楽譜データＤ４が記憶される。複数の参照データＤ２と、複数の参照楽譜データＤ４とは、それぞれ対応する。訓練済モデルＭは、楽譜データＤ３の楽譜特徴量列と制御値（入力特徴量列）とを受け取って処理し、それら楽譜特徴量列と制御値とに応じた結果データ（音データ列）を推定する生成モデルである。訓練済モデルＭは、入力特徴量列と出力特徴量列に対応する参照音データ列との間の入出力関係習得し、訓練装置２０により構築される。本例では、訓練済モデルＭはＡＲ（回帰）タイプの生成モデルであるが、非ＡＲタイプの生成モデルであってもよい。

入力特徴量列は、音楽的な特徴量が音の部分ごとに離散的に変化する時系列である。出力特徴量列は、特徴量が連続的に変化する時系列である。音楽的な特徴量は、例えば振幅またはその微分値や、ピッチまたはその微分値であってもよい。音楽的な特徴量は、振幅等に代えて、スペクトル傾斜またはスペクトル重心でもよいし、低域パワーに対する高域パワーの比（高域パワー／低域パワー）でもよい。音データ列は、時間軸上の音波形に変換できるデータであり、例えば、メルスペクトログラム等の周波数スペクトルに関するデータである。

ここで、入力特徴量列は、音の区間ごとに変化し、出力特徴量列は、連続的に変化するが、時間分解能（単位時間当たりの特徴量数）は互いに等しい。

結果データＤ１は、音生成装置１０により生成された音の特徴量列に対応する音データ列を示す。参照データＤ２は、訓練済モデルＭを訓練するために用いる波形データ、すなわち音波形のサンプルの時系列である。そして、音の制御に関連して各波形データから抽出された特徴量の時系列を出力特徴量列と呼ぶ。楽譜データＤ３および参照楽譜データＤ４は、それぞれ時間軸上に配置された複数の音符（音符列）を含む楽譜を示す。楽譜データＤ３から生成される楽譜特徴量は、音生成装置１０による結果データＤ１の生成に用いられる。参照データＤ２および参照楽譜データＤ４は、訓練装置２０による訓練済モデルＭの構築に用いられる。

訓練済モデルＭ、結果データＤ１、参照データＤ２、楽譜データＤ３および参照楽譜データＤ４は、記憶部１４０に記憶されず、コンピュータが読み取り可能な記憶媒体に記憶されていてもよい。あるいは、処理システム１００がネットワークに接続されている場合には、訓練済モデルＭ、結果データＤ１、参照データＤ２、楽譜データＤ３または参照楽譜データＤ４は、当該ネットワーク上のサーバに記憶されていてもよい。

操作部１５０は、マウス等のポインティングデバイスまたはキーボードを含み、所定の入力を行うために使用者により操作される。表示部１６０は、例えば液晶ディスプレイを含み、所定のＧＵＩ（Graphical User Interface）または音生成処理の結果等を表示する。操作部１５０および表示部１６０は、タッチパネルディスプレイにより構成されてもよい。

（２）音生成装置
図２は、音生成装置１０の構成を示すブロック図である。図３および図４は、音生成装置１０の動作例を説明するための図である。図２に示すように、音生成装置１０は、提示部１１、受付部１２、生成部１３および処理部１４を含む。提示部１１、受付部１２、生成部１３および処理部１４の機能は、図１のＣＰＵ１３０が音生成プログラムを実行することにより実現される。提示部１１、受付部１２、生成部１３および処理部１４の少なくとも一部が電子回路等のハードウエアにより実現されてもよい。

提示部１１は、図３に示すように、使用者からの入力を受け付けるためのＧＵＩとして、受付画面１を表示部１６０に表示させる。受付画面１には、参照領域２および入力領域３が設けられる。参照領域２には、使用者により選択された楽譜データＤ３に基づいて、複数の音符からなる音符列における各音符の時間軸上での位置を表す参照画像４が表示される。参照画像は、例えばピアノロールである。使用者は、操作部１５０を操作することにより、記憶部１４０等に記憶された複数の楽譜データＤ３から所望の楽譜を示す楽譜データＤ３を選択したり、編集できる。

入力領域３は、参照領域２と対応するように配置される。また、図３の例では、参照画像４の各音符のアタック、ボディおよびリリースの３区間にそれぞれ対応するように、上下方向に延びる３本のバーが入力領域３に表示される。入力領域３の各バーの上下方向の長さは、対応する音符の区間における特徴量（本例では振幅）の代表値を示す。使用者は、図１の操作部１５０を用いて各バーの長さを変化させることにより、音符列における各音符の各区間について、振幅の代表値を入力領域３に入力する。ここでは、音符ごとに３つの代表値が入力される。受付部１２は、入力領域３上に入力された代表値を受け付ける。

記憶部１４０等に記憶された訓練済モデルＭは、図４に示すように、例えばニューラルネットワーク（図４の例ではＤＮＮ（深層ニューラルネットワーク）Ｌ１）を含む。使用者により選択された楽譜データＤ３および入力領域３に入力された各音符の３つの代表値は、訓練済モデルＭ（ＤＮＮ）に与えられる。生成部１３は、訓練済モデルＭを用いて、楽譜データＤ３に対応する楽譜特徴量列と３つの代表値に対応する第１の特徴量列とを処理して、楽譜におけるピッチの時系列とスペクトル包絡とを含む結果データＤ１を生成する。結果データＤ１は、振幅が音符列における代表値の時間変化の精細度よりも高い精細度で時間的に変化するように配列された第２の特徴量列に対応する音データ列である。なお、結果データは、楽譜におけるスペクトルの時系列を示す結果データＤ１であってもよい。

第１の特徴量列は、アタックの代表値から生成されるアタックの特徴量列と、ボディの代表値から生成されるボディの特徴量列と、リリースの代表値から生成されるリリースの特徴量列とを含む。各区間の代表値を、前の音符の代表値から次の音符の代表値に滑らかに変化するよう平滑化し、その平滑化された代表値をその区間の代表値列としてもよい。音符列における各区間の代表値は、例えば、特徴量列において、当該区間内に配列された振幅の統計値である。統計値は、振幅の最大値、平均値、中央値、最頻値、分散または標準偏差であってもよい。一方で、代表値は、振幅の統計値に限定されない。例えば、代表値は、特徴量列における各区間内に配置された振幅の第１高調波の最大値と第２高調波の最大値との比、またはその比の対数値であってもよい。あるいは、代表値は、上記の第１高調波の最大値と第２高調波の最大値との平均値であってもよい。

生成部１３は、生成された結果データＤ１を記憶部１４０等に記憶させてもよい。処理部１４は、例えばボコーダとして機能し、生成部１３により生成された周波数領域の結果データＤ１から時間領域の波形である音声信号を生成する。生成した音信号を、処理部１４に接続されたスピーカ等を含むサウンドシステムに供給することにより、音声信号に基づく音が出力される。本例では、音生成装置１０は処理部１４を含むが、実施形態はこれに限定されない。音生成装置１０は、処理部１４を含まなくてもよい。

図３の例では、受付画面１において、入力領域３は参照領域２の下方に配置されるが、実施形態はこれに限定されない。受付画面１において、入力領域３は、参照領域２の上方に配置されてもよい。あるいは、受付画面１において、入力領域３は、参照領域２と重なるように配置されてもよい。ピアノロールの各音符の近傍に、その音符の３つの代表値が表示されてもよい。

また、図３の例では、受付画面１は参照領域２を含み、参照領域２に参照画像４が表示されるが、実施形態はこれに限定されない。図５は、受付画面１の他の例を示す図である。図５の例では、受付画面１は参照領域２を含まない。入力領域３において、各音符の時間軸上での位置が隣り合う２つの点線により示される。また、各音符の複数の区間の境界が一点鎖線により示される。使用者は、操作部１５０を用いて、入力領域３上で振幅の代表値の所望の時系列を示す描画を行う。これにより、音符列における各音符の各区間について、振幅の代表値を入力することができる。

図４の例では、訓練済モデルＭは１つのＤＮＮＬ１を含むが、実施形態はこれに限定されない。訓練済モデルＭは、複数のＤＮＮを含んでもよい。

（３）訓練装置
図６は、訓練装置２０の構成を示すブロック図である。図７は、訓練装置２０の動作例を説明するための図である。図６に示すように、訓練装置２０は、抽出部２１、生成部２２および構築部２３を含む。抽出部２１、生成部２２および構築部２３の機能は、図１のＣＰＵ１３０が訓練プログラムを実行することにより実現される。抽出部２１、生成部２２および構築部２３の少なくとも一部が電子回路等のハードウエアにより実現されてもよい。

抽出部２１は、記憶部１４０等に記憶された各参照データＤ２から参照音データ列と出力特徴量列とを抽出する。参照音データ列は、例えば、対応する参照データＤ２が示す波形のスペクトル包絡の時系列とピッチの時系列とを含む。出力特徴量列は、参照音データ列に対応する波形の特徴量（振幅）の時系列であって、特徴量は前記間隔（５ｍｓ）に対応する精細度で時間的に変化する。

生成部２２は、各出力特徴量列と対応する参照楽譜データＤ４とから、各音符の各区間の振幅の代表値を決定し、決定された代表値に応じて振幅が時間的に変化する入力特徴量列を生成する。具体的には、生成部２２は、図７に示すように、まず、出力特徴量列と参照楽譜データＤ４とに基づいて、各音符のアタック、ボディおよびリリースの３区間を特定し、さらに、出力特徴量列において、各区間内の特徴量（振幅）の代表値を抽出する。図７の例では、各区間内の振幅の代表値は最大値であるが、当該区間内の振幅の他の統計値でもよいし、統計値以外の代表値でもよい。生成部２２は、抽出された複数の区間内の振幅の代表値に基づいて、音符列におけるアタック、ボディおよびリリースの３区間にそれぞれ対応する３つの特徴量（振幅）の時系列である入力特徴量列を生成する。

入力特徴量列は、音符ごとに生成される代表値の時系列なので、出力特徴量列と比べて精細度が遥かに低い。生成する入力特徴量列は、区間ごとの代表値を、そのまま時間軸上のその対応する区間に並べた階段状に変化する特徴量列でもよいし、値が急激に変化しないよう平滑化された特徴量列でもよい。平滑化された入力特徴量列は、例えば、各区間の始点で代表値となるよう、その区間の手前で特徴量がゼロから徐々に増加し、その区間で特徴量が代表値を維持し、その区間の終点以降で特徴量が代表値からゼロまで徐々に減少する特徴量列である。平滑化された特徴量を用いた場合は、各区間に生成される音の特徴量に加え、その直前ないし直後に生成される音の特徴量を、当該区間の代表値により制御できる。

構築部２３は、ＤＮＮで構成される生成モデルｍ（未訓練または予備訓練済）を用意し、各参照データＤ２から抽出された参照音データ列と、生成された入力特徴量列および対応する参照楽譜データＤ４から生成される楽譜特徴量列とに基づいて、その生成モデルｍを訓練する機械学習を行う。この訓練により、入力特徴量列および楽譜特徴量列と、参照音データ列との間の入出力関係を習得した訓練済モデルＭが構築される。用意される生成モデルｍは、図４に示すように、１つのＤＮＮＬ１を含んでもよいし、複数のＤＮＮを含んでもよい。構築部２３は、構築された訓練済モデルＭを記憶部１４０等に記憶させる。

（４）音生成処理
図８は、図２の音生成装置１０による音生成処理の一例を示すフローチャートである。図８の音生成処理は、図１のＣＰＵ１３０が記憶部１４０等に記憶された音生成プログラムを実行することにより行われる。まず、ＣＰＵ１３０は、使用者により楽譜データＤ３が選択されたか否かを判定する（ステップＳ１）。楽譜データＤ３が選択されない場合、ＣＰＵ１３０は、楽譜データＤ３が選択されるまで待機する。

楽譜データＤ３が選択された場合、ＣＰＵ１３０は、図３の受付画面１を表示部１６０に表示させる（ステップＳ２）。受付画面１の参照領域２には、ステップＳ１で選択された楽譜データＤ３に基づく参照画像４が表示される。次に、ＣＰＵ１３０は、受付画面１の入力領域３上で音符列の各区間における振幅の代表値を受け付ける（ステップＳ３）。

続いて、ＣＰＵ１３０は、訓練済モデルＭを用いて、ステップＳ１で選択された楽譜データＤ３の楽譜特徴量列およびステップＳ４で受け付けられた代表値から生成された第１の特徴量列を処理して、結果データＤ１を生成する（ステップＳ４）。その後、ＣＰＵ１３０は、ステップＳ４で生成された結果データＤ１から時間領域の波形である音声信号を生成し（ステップＳ５）、音生成処理を終了する。

（５）訓練処理
図９は、図６の訓練装置２０による訓練処理の一例を示すフローチャートである。図９の訓練処理は、図１のＣＰＵ１３０が記憶部１４０等に記憶された訓練プログラムを実行することにより行われる。まず、ＣＰＵ１３０は、記憶部１４０等から訓練に用いる複数の参照データＤ２を取得する（ステップＳ１１）。次に、ＣＰＵ１３０は、ステップＳ１１で取得された各参照データＤ２から参照音データ列を抽出する（ステップＳ１２）。また、ＣＰＵ１３０は、各参照データＤ２から出力特徴量列（振幅の時系列）を抽出する（ステップＳ１３）。

続いて、ＣＰＵ１３０は、抽出された出力特徴量列と対応する参照楽譜データＤ４とから音符列の各音符の各区間の代表値（振幅の最大値）を決定し、決定された各区間の代表値に基づいて入力特徴量列（３つの振幅の時系列）を生成する（ステップＳ１４）。その後、ＣＰＵ１３０は、生成モデルｍを用意し、各参照データＤ２に対応する参照楽譜データＤ４に基づく楽譜特徴量列および入力特徴量列と、参照音データ列とに基づいてその生成モデルｍを訓練し、楽譜特徴量列および入力特徴量列と、参照音データ列との間の入出力関係を生成モデルｍに機械学習させる（ステップＳ１５）。

次に、ＣＰＵ１３０は、生成モデルｍが入出力関係を習得するために十分な機械学習が実行されたか否かを判定する（ステップＳ１６）。機械学習が不十分な場合、ＣＰＵ１３０はステップＳ１５に戻る。十分な機械学習が実行されるまで、ステップＳ１５～Ｓ１６が繰り返される。機械学習の繰り返し回数は、構築される訓練済モデルＭが満たすべき品質条件に応じて変化する。十分な機械学習が実行された場合、ＣＰＵ１３０は、その訓練により楽譜特徴量列および入力特徴量列と、参照音データ列との間の入出力関係を習得した生成モデルｍを、構築された訓練済モデルＭとして保存し（ステップＳ１７）、訓練処理を終了する。

（６）実施形態の効果
以上説明したように、本実施形態に係る音生成方法は、複数の区間からなる音符の各区間について音楽的な特徴量の代表値の入力を受け付け、訓練済モデルを用いて、入力された各区間の代表値に応じた第１の特徴量列を処理して、特徴量が連続的に変化する第２の特徴量列に対応する音データ列を生成し、コンピュータにより実現される。

この方法によれば、特徴量の音符の部分ごとの代表値が入力される場合でも、高い精細度で連続的に変化する特徴量列に対応する音データ列が生成される。生成される音データ列は、特徴量が詳細に時間変化し、自然な音波形を示す。したがって、使用者は、特徴量の詳細な時間変化を入力する必要がない。

訓練済モデルは、機械学習により、音波形を示す参照データの各区間の特徴量の代表値に対応する入力特徴量列と、当該参照データの連続的に変化する出力特徴量列との間の入出力関係を習得済であってもよい。

各区間の代表値は、出力特徴量列において、当該区間内の特徴量の統計値であってもよい。

音生成方法は、音符列における音符の各部分の特徴量が表示される受付画面をさらに提示し、代表値の入力は、受付画面を用いて入力されてもよい。この場合、使用者は、音符列における複数の音符の時間軸上での位置を視認しつつ、代表値を容易に入力することができる。

本実施形態に係る訓練方法は、音波形を示す参照データから特徴量が連続的に変化する参照音データ列と、その特徴量の時系列である出力特徴量列とを抽出し、出力特徴量列から特徴量が音の区間ごとに変化する入力特徴量列を生成し、機械学習により、入力特徴量列と、出力特徴量列に対応する参照音データ列との間の入出力関係を習得した訓練済モデルを構築し、コンピュータにより実現される。

この方法によれば、音符列における各音符の各区間の特徴量の代表値が入力される場合でも、特徴量が高い精細度で連続的に時間変化する第２の特徴量列に対応する音データ列を生成可能な訓練済モデルＭが構築される。

入力特徴量列は、出力特徴量列において、複数の区間の各々の特徴量から決定された代表値に基づいて生成されてもよい。

（７）他の実施形態
上記実施形態において、使用者は、生成される音を制御する制御値として各音符の各区間の振幅の最大値を入力するが、実施形態はこれに限定されない。制御値として用いるのは振幅以外のいかなる特徴量でもよく、最大値以外のいかなる代表値でもよい。以下、第２実施形態に係る音生成装置１０および訓練装置２０について、第１実施形態に係る音生成装置１０および訓練装置２０と共通する点と異なる点とを説明する。

本実施形態における音生成装置１０は、以下の点を除いて、図２を参照して説明した第１実施形態の音生成装置２０と同様である。提示部１１は、使用者により選択された楽譜データＤ３に基づいて、受付画面１を表示部１６０に表示させる。図１０は、第２実施形態における受付画面１の一例を示す図である。図１０に示すように、本実施形態における受付画面１には、図３の入力領域３に代えて、３つの入力領域３ａ，３ｂ，３ｃが参照領域２と対応するように配置される。

図１０の例では、参照画像４の各音符のアタック、ボディおよびリリースの３区間の特徴量の代表値が、上下方向に延びるバーとして、３つの入力領域３ａ，３ｂ，３ｃにそれぞれ表示される。第２実施形態における特徴量はピッチであり、代表値は各区間におけるピッチの分散である。入力領域３ａの各バーの長さは、対応する音符のアタックにおけるピッチの分散を示す。入力領域３ｂの各バーの長さは、対応する音符のボディにおけるピッチの分散を示す。入力領域３ｃの各バーの長さは、対応する音符のリリースにおけるピッチの分散を示す。

使用者は、操作部１５０を用いて各バーの長さを変化させることにより、音符列における各音符のアタック、ボディおよびリリースの各区間の特徴量の代表値を入力領域３ａ，３ｂ，３ｃにそれぞれ入力する。受付部１２は、入力領域３ａ～３ｃの上に入力された代表値を受け付ける。

生成部１３は、訓練済モデルＭを用いて、楽譜データＤ３に基づく楽譜特徴量列および各音符の３つの代表値（ピッチの分散）に基づく第１の特徴量列を処理して、結果データＤ１を生成する。結果データＤ１は、ピッチが高い精細度で連続的に変化する第２の特徴量列を含む音データ列である。生成部１３は、生成された結果データＤ１を記憶部１４０等に記憶させてもよい。また、生成部１３は、周波数領域の結果データＤ１に基づいて、時間領域の波形である音声信号を生成し、サウンドシステムに供給する。なお、生成部１３は、結果データＤ１に含まれる第２の特徴量列（ピッチの時系列）を表示部１６０に表示させてもよい。

本実施形態における訓練装置２０は、以下の点を除いて、図６を参照して説明した第１実施形態の訓練装置２０と同様である。本実施形態においては、図９の訓練処理のステップＳ１３で抽出すべき出力特徴量列であるピッチの時系列は、直前のステップＳ１２において、参照音データ列の一部として抽出済みである。ＣＰＵ１３０（抽出部２１）は、ステップＳ１３において、複数の参照データＤ２の各々における振幅の時系列を、出力特徴量列としてではなく、音を３つの部分に分離する指標として抽出する。

次のステップＳ１４において、ＣＰＵ１３０は、その振幅の時系列に基づいて、参照音データ列に含まれるピッチの時系列（出力特徴量列）を、音のアタック、音のリリースおよびアタックとリリースとの間のボディの３区間に分け、各区間のピッチ列をそれぞれ統計分析してその区間のピッチの分散を決定し、決定された各区間の代表値に基づいて入力特徴値列を生成する。

また、ＣＰＵ１３０（構築部２３）は、ステップＳ１５～Ｓ１６において、各参照データＤ２から生成した参照音データ列と入力特徴量とに対応する参照楽譜データＤ４に基づいて、機械学習（生成モデルｍの訓練）を繰り返し行うことにより、参照楽譜データＤ４に対応する楽譜特徴量列および入力特徴量列と、出力特徴量に対応する参照音データ列との間の入出力関係を習得した訓練済モデルＭを構築する。

本実施形態の音生成装置１０において、使用者は、音符列の各音符のアタック、ボディおよびリリースの各区間のピッチの分散を入力することにより、その区間の付近において生成される音の、高い精細度で連続的に変化するピッチの変化幅を効果的に制御できる。なお、受付画面１は入力領域３ａ～３ｃを含むが、実施形態はこれに限定されない。受付画面１は、入力領域３ａ，３ｂ，３ｃのうち、いずれか１つまたは２つの入力領域を含まなくてもよい。また、本実施形態においても、受付画面１は参照領域２を含まなくてもよい。

１…受付画面，２…参照領域，３，３ａ～３ｃ…入力領域，４…参照画像，１０…音生成装置，１１…提示部，１２…受付部，１３…生成部，１４…処理部，２０…訓練装置，２１…抽出部，２２…生成部，２３…構築部，１００…処理システム，１１０…ＲＡＭ，１２０…ＲＯＭ，１３０…ＣＰＵ，１４０…記憶部，１５０…操作部，１６０…表示部，１７０…バス，Ｄ１…結果データ，Ｄ２…参照データ，Ｄ３…楽譜データ，Ｄ４…参照楽譜データ，Ｌ１…ＤＮＮ，ｍ…生成モデル，Ｍ…訓練済モデル

Claims

複数の区間からなる音符の各区間について音楽的な特徴量の代表値の入力を受け付け、
訓練済モデルを用いて、前記入力された各区間の代表値に応じた第１の特徴量列を処理して、前記特徴量が連続的に変化する第２の特徴量列に対応する音データ列を生成する、
コンピュータにより実現される音生成方法。
前記訓練済モデルは、機械学習により、音波形を示す参照データの前記各区間の特徴量の代表値に対応する入力特徴量列と、当該参照データの連続的に変化する出力特徴量列との間の入出力関係を習得済である、請求項１記載の音生成方法。
各区間の前記代表値は、前記出力特徴量列において、当該区間内の特徴量の統計値である、請求項１または２記載の音生成方法。
前記音符列における音符の各部分の特徴量が表示される受付画面をさらに提示し、
前記代表値の入力は、前記受付画面を用いて入力される、請求項１～３のいずれか一項に記載の音生成方法。
音波形を示す参照データから前記特徴量が連続的に変化する参照音データ列と、その特徴量の時系列である出力特徴量列とを抽出し、
前記出力特徴量列から前記特徴量が音の区間ごとに変化する入力特徴量列を生成し、
機械学習により、前記入力特徴量列と、前記出力特徴量列に対応する参照音データ列との間の入出力関係を習得した訓練済モデルを構築する、
コンピュータにより実現される訓練方法。
前記入力特徴量列は、前記出力特徴量列において、複数の区間の各々の特徴量から決定された代表値に基づいて生成される、請求項５記載の訓練方法。
複数の区間からなる音符の各区間について音楽的な特徴量の代表値の入力を受け付ける受付部と、
訓練済モデルを用いて、前記入力された各区間の代表値に応じた第１の特徴量列を処理して、前記特徴量が連続的に変化する第２の特徴量列に対応する音データ列を生成する生成部とを備える、音生成装置。
音波形を示す参照データから特徴量が連続的に変化する参照音データ列と、その特徴量の時系列である出力特徴量列とを抽出する抽出部と、
前記出力特徴量列から前記特徴量が音の区間ごとに変化する入力特徴量列を生成する生成部と、
機械学習により、前記入力特徴量列と、前記出力特徴量列に対応する参照音データ列との間の入出力関係を習得した訓練済モデルを構築する構築部とを備える、訓練装置。
１ないし複数のコンピュータに、
複数の区間からなる音符の各区間について音楽的な特徴量の代表値の入力を受け付け、
訓練済モデルを用いて、前記入力された各区間の代表値に応じた第１の特徴量列を処理して、前記特徴量が連続的に変化する第２の特徴量列に対応する音データ列を生成する
ステップを行わせる、音生成プログラム。
１ないし複数のコンピュータに、
音波形を示す参照データから前記特徴量が連続的に変化する参照音データ列と、その特徴量の時系列である出力特徴量列とを抽出し、
前記出力特徴量列から前記特徴量が音の区間ごとに変化する入力特徴量列を生成し、
機械学習により、前記入力特徴量列と、前記出力特徴量列に対応する参照音データ列との間の入出力関係習得した訓練済モデルを構築する
ステップを行わせる、訓練プログラム。