JP2022150179A - 音響処理方法、音響処理システム、プログラム、および生成モデルの確立方法 - Google Patents

音響処理方法、音響処理システム、プログラム、および生成モデルの確立方法 Download PDF

Info

Publication number
JP2022150179A
JP2022150179A JP2021052666A JP2021052666A JP2022150179A JP 2022150179 A JP2022150179 A JP 2022150179A JP 2021052666 A JP2021052666 A JP 2021052666A JP 2021052666 A JP2021052666 A JP 2021052666A JP 2022150179 A JP2022150179 A JP 2022150179A
Authority
JP
Japan
Prior art keywords
data
music
feature
acoustic
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021052666A
Other languages
English (en)
Inventor
方成 西村
Masanari Nishimura
竜也 安藤
Tatsuya Ando
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2021052666A priority Critical patent/JP2022150179A/ja
Priority to CN202280024965.7A priority patent/CN117121089A/zh
Priority to PCT/JP2022/010666 priority patent/WO2022202374A1/ja
Publication of JP2022150179A publication Critical patent/JP2022150179A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

【課題】多様な表情の音響データを生成する。【解決手段】音響処理システム10は、利用者からの指示を受付ける指示受付部31と、利用者からの指示と特定の音楽理論に対応する規則とに応じて、楽曲を表す楽曲データSから、楽曲における音楽的な特徴を表す特徴値を含む特徴データYの時系列を生成する特徴データ生成部33と、楽曲データSと特徴データYとに応じた制御データDを機械学習済の生成モデルMに入力することで、楽曲データSに対応する音を表す音響データZを生成する音響データ生成部35とを具備する。【選択図】図2

Description

本開示は、楽曲の音を表す音響データを生成する技術に関する。
楽曲を表す楽曲データを処理する各種の技術が従来から提案されている。例えば特許文献1には、音楽の解釈に関する理論(以下「音楽理論」という)に沿ってエネルギー値の時系列を生成し、当該エネルギー値の時系列を利用して音響データに音楽的な表情を付加する技術が開示されている。
特開2011-164162号公報
しかし、特許文献1の技術においては、音響データに付加される音楽的な表情が単一の音楽理論のみに依存するから、音楽的に多様な表情の音響データを生成することは困難である。例えば、楽曲の音楽ジャンルによっては、当該音楽ジャンルに適切な表情が音響データに付加されない場合がある。また、利用者の音楽的な意図または嗜好に沿った表情が音響データに付加されない場合も想定される。以上の事情を考慮して、本開示のひとつの態様は、多様な表情の音響データを生成することを目的とする。
以上の課題を解決するために、本開示のひとつの態様に係る音響処理方法は、利用者からの指示を受付け、前記利用者からの指示と特定の音楽理論に対応する規則とに応じて、楽曲を表す楽曲データから、前記楽曲における音楽的な特徴を表す特徴値を含む特徴データを生成し、前記楽曲データと前記特徴データとに応じた制御データを機械学習済の生成モデルに入力することで、前記楽曲データに対応する音を表す音響データを生成する。
本開示のひとつの態様に係る音響処理システムは、利用者からの指示を受付ける指示受付部と、前記利用者からの指示と特定の音楽理論に対応する規則とに応じて、楽曲を表す楽曲データから、前記楽曲における音楽的な特徴を表す特徴値を含む特徴データの時系列を生成する特徴データ生成部と、前記楽曲データと前記特徴データとに応じた制御データを機械学習済の生成モデルに入力することで、前記楽曲データに対応する音を表す音響データを生成する音響データ生成部とを具備する。
本開示のひとつの態様に係るプログラムは、利用者からの指示を受付ける指示受付部、前記利用者からの指示と特定の音楽理論に対応する規則とに応じて、楽曲を表す楽曲データから、前記楽曲における音楽的な特徴を表す特徴値を含む特徴データの時系列を生成する特徴データ生成部、および、前記楽曲データと前記特徴データとに応じた制御データを機械学習済の生成モデルに入力することで、前記楽曲データに対応する音を表す音響データを生成する音響データ生成部、としてコンピュータシステムを機能させる。
本開示のひとつの態様に係る生成モデルの確立方法は、学習用制御データと学習用音響データとを含む学習データを取得し、前記学習データを利用した機械学習により、制御データの入力に対して音響データを出力する生成モデルを確立し、前記学習用制御データは、楽曲を表す楽曲データが指定する条件を表す条件データと、前記楽曲における音楽的な特徴を表す特徴値を含む特徴データとを含み、前記音響データは、前記楽曲データに対応する音を表す。
第1実施形態における情報システムの構成を例示するブロック図である。 音響処理システムの機能的な構成を例示するブロック図である。 特徴データ生成部の構成を例示するブロック図である。 特徴値および各要素値に関する説明図である。 編集画面の模式図である。 合成処理の具体的な手順を例示するフローチャートである。 機械学習システムの機能的な構成を例示するブロック図である。 学習処理の具体的な手順を例示するフローチャートである。 第2実施形態における音響処理システムの機能的な構成を例示するブロック図である。 第3実施形態における音響処理システムの動作に関する説明図である。 第4実施形態における音響処理システムの機能的な構成を例示するブロック図である。 第5実施形態における特徴データ生成部の構成を例示するブロック図である。 第6実施形態における情報システムの構成を例示するブロック図である。 第6実施形態における機械学習システムの機能的な構成を例示するブロック図である。 変形例における生成モデルの構成を例示するブロック図である。 変形例における生成モデルの構成を例示するブロック図である。
A:第1実施形態
図1は、第1実施形態に係る情報システム100の構成を例示するブロック図である。情報システム100は、音響処理システム10と機械学習システム20とを具備する。音響処理システム10と機械学習システム20とは、例えばインターネット等の通信網200を介して相互に通信する。
[音響処理システム10]
音響処理システム10は、制御装置11と記憶装置12と通信装置13と放音装置14と操作装置15と表示装置16とを具備するコンピュータシステムである。音響処理システム10は、例えばスマートフォン、タブレット端末またはパーソナルコンピュータ等の情報端末により実現される。なお、音響処理システム10は、単体の装置で実現されるほか、相互に別体で構成された複数の装置(例えばクライアントサーバシステム)でも実現される。
制御装置11は、音響処理システム10の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置11は、CPU(Central Processing Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、またはASIC(Application Specific Integrated Circuit)等の1種類以上のプロセッサにより構成される。通信装置13は、通信網200を介して機械学習システム20と通信する。
記憶装置12は、制御装置11が実行するプログラムと、制御装置11が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置12は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成される。なお、音響処理システム10に対して着脱される可搬型の記録媒体、または通信網200を介して制御装置11が書込または読出を実行可能な記録媒体(例えばクラウドストレージ)を、記憶装置12として利用してもよい。
記憶装置12は、楽曲を表す楽曲データSを記憶する。楽曲データSは、楽曲を構成する複数の音符の各々について音符データを含む。各音符の音符データは、当該音符の音高と発音期間とコード(和音)と和音機能とを指定する。和音機能は、音楽的な機能に着目したコードの種別(トニック/ドミナント/サブドミナント)である。また、楽曲データSは、楽曲の音楽的な構造に関する構造データを含む。構造データは、楽式(musical form)に応じて楽曲を区分した複数の楽節(大楽節または小楽節)を指定する。例えば、楽曲のA楽節とB楽節との各々について時間軸上の始点と終点とが構造データにより指定される。以上の説明から理解される通り、楽曲データSは、楽曲の楽譜を表すデータとも換言される。
制御装置11は、楽曲データSに対応する音(以下「目標音」という)を表す音響信号Aを生成する。音響信号Aは、目標音の波形を表す時間領域の信号である。目標音は、楽曲データSが表す楽曲の演奏により発音される演奏音である。具体的には、目標音は、楽器の演奏により発音される楽音、または、歌唱により発音される音声である。放音装置14は、音響信号Aが表す目標音を再生する。放音装置14は、例えばスピーカまたはヘッドホンである。なお、音響信号Aをデジタルからアナログに変換するD/A変換器と、音響信号Aを増幅する増幅器とは、便宜的に図示が省略されている。また、音響処理システム10とは別体の放音装置14を、音響処理システム10に対して有線または無線により接続してもよい。
操作装置15は、利用者からの指示を受付ける入力機器である。操作装置15は、例えば、利用者が操作する操作子、または、利用者による接触を検知するタッチパネルである。なお、音響処理システム10とは別体の操作装置15(例えばマウスまたはキーボード)を、音響処理システム10に対して有線または無線により接続してもよい。
表示装置16は、制御装置11による制御のもとで画像を表示する。例えば液晶表示パネルまたは有機EL(Electroluminescence)パネル等の各種の表示パネルが表示装置16として利用される。なお、音響処理システム10とは別体の表示装置16を、音響処理システム10に対して有線または無線により接続してもよい。
図2は、音響処理システム10の機能的な構成を例示するブロック図である。制御装置11は、記憶装置12に記憶されたプログラムを実行することで、音響信号Aを生成するための複数の機能(指示受付部31,条件データ生成部32,特徴データ生成部33,音響データ生成部35,信号生成部36)を実現する。指示受付部31は、操作装置15に対する利用者からの指示を受付ける。
条件データ生成部32は、楽曲データSから条件データXを生成する。条件データXは、楽曲データSが指定する音楽的な条件(コンテキスト)を指定する。条件データXは、時間軸上の単位期間毎に生成される。各単位期間は、楽曲の各音符と比較して充分に短い時間長の期間(フレーム)である。各単位期間の条件データXは、例えば、当該単位期間を含む音符に関する情報(例えば音高および継続長)を含む。また、各単位期間の条件データXは、例えば、当該単位期間を含む音符の前方(例えば直前)の音符および後方(例えば直後)の音符の一方または双方に関する情報(例えば音高および継続長)を含む。なお、条件データXは、前方または後方の音符の音高に代えて、単位期間を含む音符と、当該音符の前方の音符および後方の音符の一方または双方の音符との音高差を含んでもよい。
特徴データ生成部33は、楽曲データSから特徴データYを生成する。特徴データYは、楽曲データSが表す楽曲の音楽的な特徴を表す数値(以下「特徴値」という)Fを含む。特徴データYは単位期間毎に生成される。すなわち、特徴データ生成部33は、特徴データYの時系列を生成する。図3は、特徴データ生成部33の構成を例示するブロック図である。特徴データ生成部33は、特徴抽出部331と編集処理部332とを具備する。
特徴抽出部331は、楽曲データSから特徴値Fを生成する。特徴値Fは単位期間毎に生成される。すなわち、特徴抽出部331は、特徴値Fの時系列を生成する。1個の特徴値Fは、複数(N個)の要素値E1~ENに応じて算定される。すなわち、特徴抽出部331は、楽曲データSの解析によりN個の要素値E1~ENを生成し、N個の要素値E1~ENを適用した演算により特徴値Fを算定する。
各要素値En(n=1~N)は、特定の音楽理論に対応する規則により楽曲データSから設定される。音楽理論は、音楽的な観点で楽曲を解釈する方法である。N個の要素値E1~ENの各々は、特定の音楽理論(以下「特定音楽理論」という)により規定される相異なる観点で楽曲を評価した評価値を意味する。すなわち、各要素値Enは、特定音楽理論が規定する規則により楽曲データSから設定される。制御装置11が生成する音響信号Aは、特定音楽理論による楽曲の解釈に沿う音楽的な表情が付加された目標音を表す。第1実施形態においては、保科洋,“生きた音楽表現へのアプローチ/エネルギー思考に基づく演奏解釈法”,音楽之友社,1998年、に記載された音楽理論を基礎とした特定音楽理論を想定する。各要素値Enの種類および要素値Enの総数Nは、音楽理論毎に相違する。したがって、音楽理論は、各要素値Enの種類および要素値Enの総数Nの少なくとも一方を規定するルールとも換言される。
図4は、第1実施形態における特徴値Fおよび各要素値Enの説明図である。各単位期間の要素値E1は、楽曲データSが当該単位期間について指定する音符の音高に対応する数値である。例えば、楽曲データSが指定する音高の数値が要素値E1として利用される。要素値E1の時系列は、楽曲の旋律に相当する。
また、各単位期間の要素値E2は、楽曲データSが当該単位期間について指定するコードの和声機能(トニック/ドミナント/サブドミナント)に対応する数値である。具体的には、要素値E2は、受聴者がコードから感取する緊張度に応じた数値に設定される。例えば、トニック(T)が指定された単位期間の要素値E2は最小値e21(緊張度:低)に設定され、サブドミナント(S)が指定された単位期間の要素値E2は中間値e22(緊張度:中)に設定され、ドミナント(D)が指定された単位期間の要素値E2は最大値e23(緊張度:高)に設定される。以上の説明から理解される通り、特定音楽理論に対応する規則は、和声機能の種別を数値化するための規則を含む。
各単位期間の要素値E3は、楽曲データSが当該単位期間について指定する楽節に対応する数値である。具体的には、楽曲の始点を含むA楽節内の単位期間の要素値E3は最小値e31に設定され、A楽節に後続するB楽節内の単位期間の要素値E3は最大値e32に設定される。以上の説明から理解される通り、特定音楽理論に対応する規則は、各楽節を数値化するための規則を含む。
特徴抽出部331は、以下の数式(1)で表現される通り、N個の要素値E1~ENの加重和により特徴値F0を算定する。記号Wnは、要素値Enに対する加重値である。
F0=W1・E1+W2・E2+…Wn・En+…+WN・EN …(1)
第1実施形態の特徴抽出部331は、数式(1)で算定される特徴値F0の移動平均を特徴値Fとして算定する。すなわち、各単位期間の特徴値Fは、当該単位期間を含む所定の期間内における特徴値F0の平均値である。なお、数式(1)で算定される数値が特徴値Fとして確定されてもよい。すなわち、特徴値F0の移動平均は省略されてもよい。
指示受付部31は、図5の編集画面Gを表示装置16に表示させる。編集画面Gは、第1領域Gaと第2領域Gbとを含む。第1領域Gaには、各要素値Enに対応する加重値Wnが表示される。各加重値Wnは、初期的には所定の数値に設定される。第2領域Gbには、特徴抽出部331が算定した特徴値Fの時系列(以下「特徴値系列」という)Qが表示される。具体的には、特徴値系列Qは、例えば折線または曲線として表示装置16に表示される。
利用者は、操作装置15を使用して第1領域Gaを操作することで、N個の加重値W1~WNの各々について数値の変更を指示できる。指示受付部31は、各加重値Wnに関する指示を利用者から受付ける。具体的には、指示受付部31は、N個の加重値W1~WNのうち利用者が選択した1個以上の加重値Wnについて変更の指示を受付ける。例えば、指示受付部31は、各加重値Wnの増加/減少の指示、または各加重値Wnの数値の指示を受付ける。特徴抽出部331は、指示受付部31が受付けた指示に係る変更後の加重値Wnを、数式(1)に適用する。加重値Wnは、利用者からの指示に応じて、例えば正数、負数または0に設定される。加重値Wnが0に設定された場合、特徴値Fに対する要素値Enの影響が無視される。すなわち、利用者は、N個の要素値E1~ENのうち不要と判断した要素値Enに対応する加重値Wnを0に設定することで、特徴値Fに対する当該要素値Enの影響を排除できる。
また、利用者は、第2領域Gbを確認しながら操作装置15を操作することで、特徴値系列Qの変更を指示できる。指示受付部31は、特徴値系列Qの変更の指示を利用者から受付ける。例えば、指示受付部31は、特徴値系列Qのうち編集対象となる部分の選択と、当該部分の変更の指示とを利用者から受付ける。図3の編集処理部332は、指示受付部31が受付けた指示に応じて特徴値系列Qを編集する。すなわち、編集処理部332は、特徴値系列Qのうち利用者が選択した部分の各特徴値Fを、利用者からの指示に応じて変更する。編集処理部332による編集後の各特徴値Fを表す特徴データYの時系列が記憶装置12に記憶される。なお、特徴値系列Qの変更が利用者から指示されない場合、特徴抽出部331が算定した特徴値Fを含む特徴データYが生成される。
以上の説明から理解される通り、特徴データ生成部33は、利用者からの指示と特定音楽理論に対応する規則とに応じて楽曲データSから特徴データYの時系列を生成する。利用者からの指示は、前述の通り、各加重値Wnまたは特徴値系列Qに関する指示である。
図2に例示される通り、条件データ生成部32および特徴データ生成部33による以上の処理により、制御データDが単位期間毎に生成される。各単位期間の制御データDは、当該単位期間について条件データ生成部32が生成した条件データXと、当該単位期間について特徴データ生成部33が生成した特徴データYとを含む。すなわち、制御データDは、楽曲データS(条件データX)と特徴データYとに応じたデータである。
音響データ生成部35は、目標音を表す音響データZを制御データDに応じて生成する。音響データZは単位期間毎に生成される。すなわち、各単位期間の制御データDから当該単位期間の音響データZが生成される。第1実施形態の音響データZは、目標音の周波数特性を表すデータである。例えば、音響データZが表す周波数特性は、例えばメルスペクトルまたは振幅スペクトル等の周波数スペクトルと、目標音の基本周波数とを含む。
音響データ生成部35による音響データZの生成には、生成モデルMが利用される。生成モデルMは、制御データDと音響データZとの関係を機械学習により学習した学習済モデルである。すなわち、生成モデルMは、制御データDの入力に対して統計的に妥当な音響データZを出力する。音響データ生成部35は、制御データDを生成モデルMに入力することで、音響データZを生成する。
生成モデルMは、例えば深層ニューラルネットワーク(DNN:Deep Neural Network)で構成される。例えば、再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)、または畳込ニューラルネットワーク(CNN:Convolutional Neural Network)等の任意の形式の深層ニューラルネットワークが生成モデルMとして利用される。複数種の深層ニューラルネットワークの組合せで生成モデルMが構成されてもよい。また、長短期記憶(LSTM:Long Short-Term Memory)等の付加的な要素が生成モデルMに搭載されてもよい。
生成モデルMは、制御データDから音響データZを生成する演算を制御装置11に実行させるプログラムと、当該演算に適用される複数の変数(具体的には加重値およびバイアス)との組合せで実現される。生成モデルMを実現するプログラムと当該生成モデルMの複数の変数とは、記憶装置12に記憶される。生成モデルMを規定する複数の変数の各々の数値は、機械学習により事前に設定される。
信号生成部36は、音響データZの時系列から目標音の音響信号Aを生成する。信号生成部36は、例えば離散逆フーリエ変換を含む演算により音響データZを時間領域の波形信号に変換し、相前後する単位期間について当該波形信号を連結することで音響信号Aを生成する。なお、例えば音響データZと音響信号Aの各サンプルとの関係を学習した深層ニューラルネットワーク(いわゆるニューラルボコーダ)を利用して、信号生成部36が音響データZから音響信号Aを生成してもよい。信号生成部36が生成した音響信号Aが放音装置14に供給されることで、目標音が放音装置14から再生される。
図6は、制御装置11が音響信号Aを生成する処理(以下「合成処理」という)Saの具体的な手順を例示するフローチャートである。例えば操作装置15に対する利用者からの指示を契機として合成処理Saが開始される。
合成処理Saが開始されると、制御装置11(条件データ生成部32)は、記憶装置12に記憶された楽曲データSから各単位期間の条件データXを生成する(Sa1)。また、制御装置11(特徴データ生成部33)は、特定音楽理論に対応する規則により楽曲データSから各単位期間の特徴データYを生成する(Sa2)。なお、条件データXの生成(Sa1)と特徴データYの生成(Sa2)との順序は逆転されてもよい。制御装置11(指示受付部31)は、特徴値系列Qを含む編集画面Gを表示装置16に表示させる(Sa3)。
制御装置11(指示受付部31)は、編集画面Gに対する指示を利用者から受付けたか否かを判定する(Sa4)。具体的には、制御装置11は、各加重値Wnまたは特徴値系列Qの変更が利用者から指示されたか否かを判定する。利用者から指示を受付けた場合(Sa4:YES)、制御装置11は、当該指示が反映された特徴データYの生成(Sa2)と変更後の特徴値系列Qの表示(Sa3)とを実行する。具体的には、加重値Wnの変更が指示された場合、制御装置11は、変更後の加重値Wnを適用した数式(1)の演算により特徴値Fを算定する。また、特徴値系列Qの変更が指示された場合、制御装置11は、変更後の特徴値系列Qにおける各特徴値Fを表す特徴データYの時系列を生成する。
特徴値系列Qの確定が利用者から指示されるまで、編集画面Gに対する利用者からの指示毎に(Sa4:YES)、特徴データYの生成(Sa2)と特徴値系列Qの表示(Sa3)とが反復される(Sa5:NO)。特徴値系列Qが所望の形状に編集されると、利用者は、操作装置15の操作により特徴値系列Qの確定を指示する。特徴値系列Qの確定の指示を受付けると(Sa5:YES)、制御装置11(音響データ生成部35)は、条件データXと特徴データYとを含む制御データDを生成モデルMに入力することで、各単位期間の音響データZを生成する(Sa6)。制御装置11(信号生成部36)は、音響データZの時系列から目標音の音響信号Aを生成し(Sa7)、当該音響信号Aを放音装置14に供給することで、目標音を再生する(Sa8)。
以上の通り、第1実施形態においては、利用者からの指示と特定音楽理論に応じた規則とに応じて音楽的な特徴値Fを含む特徴データYの時系列が生成され、条件データXと特徴データYとに応じた制御データDを生成モデルMに入力することで音響データZが生成される。したがって、音響データZに付加される音楽的な表情が単一の音楽理論のみに依存する形態と比較して、利用者からの指示を反映した多様な表情の音響データZを生成できる。
また、第1実施形態においては、特定音楽理論に関するN個の要素値E1~ENについて、利用者から指示された加重値Wnを適用した加重和により特徴値Fが算定される。すなわち、N個の要素値E1~ENの各々が特徴値Fに影響する度合を、利用者が調整できる。したがって、利用者の音楽的な意図または嗜好に沿った音響データZ(さらには音響信号A)を生成できる。
[機械学習システム20]
図1の機械学習システム20は、音響処理システム10が使用する生成モデルMを機械学習により確立するコンピュータシステムである。機械学習システム20は、制御装置21と記憶装置22と通信装置23とを具備する。
制御装置21は、機械学習システム20の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置21は、CPU、SPU、DSP、FPGA、またはASIC等の1種類以上のプロセッサにより構成される。通信装置23は、通信網200を介して音響処理システム10と通信する。
記憶装置22は、制御装置21が実行するプログラムと、制御装置21が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置22は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成される。なお、機械学習システム20に対して着脱される可搬型の記録媒体、または通信網200を介して制御装置21が書込または読出を実行可能な記録媒体(例えばクラウドストレージ)を、記憶装置22として利用してもよい。
図7は、機械学習システム20の機能的な構成を例示するブロック図である。記憶装置22は、機械学習に利用される複数の基礎データBを記憶する。複数の基礎データBの各々は、学習用の楽曲データStと学習用の音響信号Atとの組で構成される。楽曲データStは、前述の楽曲データSと同様に、楽曲を表すデータである。また、各楽曲データStに対応する音響信号Atは、当該楽曲データStが表す楽曲の演奏音を表す信号である。例えば演奏者による楽曲の演奏音を収録することで、音響信号Atが生成される。
制御装置21は、記憶装置22に記憶されたプログラムを実行することで、生成モデルMを確立するための複数の機能(学習データ取得部51および学習処理部52)を実現する。学習データ取得部51は、複数の基礎データBの各々から複数の学習データTを生成する。複数の学習データTの各々は、学習用の制御データDtと学習用の音響データZtとの組で構成される。なお、学習用の制御データDtは「学習用制御データ」の一例であり、学習用の音響データZtは「学習用音響データ」の一例である。
学習データ取得部51は、条件データ生成部511と特徴データ生成部512と音響データ生成部513とを具備する。条件データ生成部511は、前述の条件データ生成部32と同様の処理により、各基礎データBの楽曲データStから各単位期間の条件データXtを生成する。条件データXtは、条件データXと同様に、楽曲データStが指定する音楽的な条件を指定する。
特徴データ生成部512は、各基礎データBの楽曲データStから各単位期間の特徴データYtを生成する。具体的には、特徴データ生成部512は、前述の特徴抽出部331と同様に、特定音楽理論に対応するN個の要素値E1~ENを楽曲データStの解析により生成し、N個の要素値E1~ENに応じた特徴値Fを表す特徴データYtを生成する。具体的には、特徴データ生成部512は、前掲の数式(1)で表現される通り、加重値Wnを適用したN個の要素値E1~ENの加重和により特徴値Fを算定する。ただし、各加重値Wnは所定の基準値に設定される。条件データ生成部511および特徴データ生成部512による以上の処理により、学習用の制御データDtが単位期間毎に生成される。制御データDtは、条件データXtと特徴データYtとを含む。
音響データ生成部513は、各基礎データBの音響信号Atから各単位期間の音響データZtを生成する。具体的には、音響データ生成部513は、音響信号Atについて離散フーリエ変換等の周波数解析を実行することで、当該音響信号Atの周波数特性を表す音響データZtを生成する。なお、基礎データBが、音響信号Atに代えて音響データZtの時系列を含む形態も想定される。基礎データBが音響データZtの時系列を含む形態においては、音響データ生成部513は省略される。
各単位期間について生成された制御データDtと、当該単位期間について生成された音響データZtとを含む学習データTが生成される。以上の説明から理解される通り、各学習データTの音響データZtは、当該学習データTの制御データDtの入力に対して生成モデルMが出力すべき正解値(ラベル)に相当する。複数の基礎データBの各々について単位期間毎に以上の処理が実行されることで、相異なる楽曲または相異なる単位期間に対応する複数の学習データTが生成される。学習データ取得部51が生成した複数の学習データTは、記憶装置22に記憶される。学習処理部52は、複数の学習データTを利用した教師あり機械学習により生成モデルMを確立する。
図8は、機械学習システム20の制御装置21が機械学習により生成モデルMを確立する処理(以下「学習処理」という)Sbの具体的な手順を例示するフローチャートである。学習処理Sbは、機械学習により生成モデルMを確立する方法(学習済モデルの確立方法)とも表現される。
学習処理Sbが開始されると、制御装置21(学習データ取得部51)は、複数の基礎データBの各々から複数の学習データTを生成する(Sb1)。制御装置21(学習処理部52)は、複数の学習データTの何れか(以下「選択学習データT」という)を選択する(Sb2)。制御装置21(学習処理部52)は、図7に例示される通り、選択学習データTの制御データDtを初期的または暫定的なモデル(以下「暫定モデル」という)M0に入力し(Sb3)、当該入力に対して暫定モデルM0が出力する音響データZを取得する(Sb4)。
制御装置21(学習処理部52)は、暫定モデルM0が生成する音響データZと選択学習データTの音響データZtとの誤差を表す損失関数を算定する(Sb5)。制御装置21(学習処理部52)は、損失関数が低減(理想的には最小化)されるように、暫定モデルM0の複数の変数を更新する(Sb6)。損失関数に応じた複数の変数の更新には、例えば誤差逆伝播法が利用される。
制御装置21(学習処理部52)は、所定の終了条件が成立したか否かを判定する(Sb7)。終了条件は、例えば、損失関数が所定の閾値を下回ること、または、損失関数の変化量が所定の閾値を下回ることである。終了条件が成立しない場合(Sb7:NO)、制御装置21(学習処理部52)は、未選択の学習データTを新たな選択学習データTとして選択する(Sb2)。すなわち、終了条件の成立(Sb7:YES)まで、暫定モデルM0の複数の変数を更新する処理(Sb2~Sb6)が反復される。終了条件が成立した場合(Sb7:YES)、制御装置21(学習処理部52)は、暫定モデルM0を規定する複数の変数の更新(Sb2~Sb6)を終了する。終了条件が成立した時点における暫定モデルM0が、生成モデルMとして確定される。具体的には、生成モデルMの複数の変数は、終了条件が成立した時点における数値に確定される。
制御装置21は、以上の手順で確立された生成モデルMを通信装置23から音響処理システム10に送信する(Sb8)。具体的には、生成モデルMを規定する複数の変数が音響処理システム10に送信される。音響処理システム10の制御装置11は、機械学習システム20から送信された生成モデルMを通信装置13により受信し、当該生成モデルMを記憶装置12に保存する。
以上の説明から理解される通り、生成モデルMは、複数の学習データTにおける制御データDtと音響データZtとの間に潜在する関係のもとで、未知の制御データDに対して統計的に妥当な音響データZを出力する。すなわち、生成モデルMは、制御データDと音響データZとの関係を学習した統計モデルである。
B:第2実施形態
第2実施形態を説明する。なお、以下に例示する各態様において機能が第1実施形態と同様である要素については、第1実施形態の説明と同様の符号を流用して各々の詳細な説明を適宜に省略する。
第1実施形態においては、ひとつの音楽理論に対応する規則により特徴値Fを算定した。第2実施形態においては、複数の音楽理論の何れかが特徴値Fの算定(すなわち特徴データYの生成)に選択的に適用される。図9は、第2実施形態における音響処理システム10の機能的な構成を例示するブロック図である。第2実施形態の指示受付部31は、複数の音楽理論の何れかを特定音楽理論として選択する指示を、利用者から受付ける。例えば、指示受付部31は、第1音楽理論と第2音楽理論とを含む複数の音楽理論の何れかの選択を利用者から受付ける。
第1音楽理論は、第1実施形態において例示した音楽理論である。具体的には、第1音楽理論は、楽曲の各音符の音高に関する要素値E1と、和声機能の種別に関する要素値E2と、楽曲の楽節に関する要素値E3とを含むN個の要素値E1~ENを利用する。他方、第2音楽理論は、各要素値Enの種類および要素値Enの総数Nが第1音楽理論とは相違する。具体的には、第2音楽理論は、楽曲の瞬時的なテンポに関する要素値E1と、楽曲の各音符の音量に関する要素値E2と、楽曲の各音符の継続長(音長)に関する要素値E3とを含むN個の要素値E1~ENを利用する。第2音楽理論については、例えば、金 泰憲ほか3名,“単旋律と和音の確率モデルの組み合わせによるピアノ曲演奏の自動表情付け”,情報処理学会研究報告,2010年、に記載されている。
特徴データ生成部33は、複数の音楽理論のうち利用者が選択した特定音楽理論に対応する規則により楽曲データSから各単位期間の特徴値Fを算定する。具体的には、特徴データ生成部33の特徴抽出部331は、特定音楽理論に対応した規則により楽曲データSからN個の要素値E1~ENを算定し、N個の要素値E1~ENを適用した演算により特徴値Fを算定する。具体的には、特徴抽出部331は、第1実施形態と同様に、N個の要素値E1~ENの加重和により特徴値F0を算定し、特徴値F0の移動平均により特徴値Fを算定する。特徴値Fを含む特徴データYが単位期間毎に生成される。なお、各加重値Wnまたは特徴値系列Qが利用者からの指示に応じて変更される点は、第1実施形態と同様である。
第2実施形態の記憶装置12には、相異なる音楽理論に対応する複数(K個)の生成モデルM1~MKが記憶される。機械学習システム20は、第1実施形態と同様の構成および動作により、生成モデルMk(k=1~K)を音楽理論毎に個別に生成する。機械学習システム20が生成したK個の生成モデルM1~MKが音響処理システム10に提供される。
第2実施形態の音響データ生成部35は、相異なる音楽理論に対応するK個の生成モデルM1~MKのうち、利用者が選択した特定音楽理論に対応する生成モデルMkを利用して音響データZを生成する。具体的には、音響データ生成部35は、特定音楽理論に対応する生成モデルMkに制御データDを入力することで、音響データZを単位期間毎に生成する。例えば、利用者が第1音楽理論を選択した場合、音響データ生成部35は、当該第1音楽理論に対応する生成モデルM1を利用して音響データZを生成する。他方、利用者が第2音楽理論を選択した場合、音響データ生成部35は、当該第2音楽理論に対応する生成モデルM2を利用して音響データZを生成する。条件データ生成部32および信号生成部36等の他の要素の動作は第1実施形態と同様である。
第2実施形態においても第1実施形態と同様の効果が実現される。第2実施形態においては、相異なる音楽理論に対応するK個の生成モデルM1~MKのうち利用者が選択した特定音楽理論に対応する生成モデルMkを利用して音響データZが生成される。したがって、利用者の音楽的な意図または嗜好に沿った音響データZを生成できる。なお、利用者からの指示以外の要因により複数の音楽理論の何れかが選択されてもよい。
C:第3実施形態
第3実施形態における音響処理システム10の機能的な構成は、第2実施形態と同様である。すなわち、第3実施形態においては、複数の音楽理論の何れかに対応する規則のもとで特徴データ生成部33が特徴データYを生成し、相異なる音楽理論に対応するK個の生成モデルM1~MKを音響データ生成部35が選択的に利用する。
図10は、第3実施形態に係る音響処理システム10の動作に関する説明図である。利用者は、操作装置15の操作により楽曲内に複数の処理区間σ(σ1,σ2,…)を指示できる。指示受付部31は、各処理区間σに関する指示を利用者から受付ける。例えば、利用者は、各処理区間σの始点および終点を任意に指示できる。したがって、時間軸上における各処理区間σの位置および時間長は可変である。また、相前後する2個の処理区間σの間における間隔の有無は不問である。
利用者は、操作装置15に対する操作により、複数の処理区間σの各々について、複数の音楽理論の何れかを選択できる。指示受付部31は、複数の処理区間σの各々について、複数の音楽理論の何れかを特定音楽理論として選択する指示を利用者から受付ける。例えば、処理区間σ1については第1音楽理論の指示を受付け、処理区間σ1とは別個の処理区間σ2については第2音楽理論の指示を受付ける。すなわち、第3実施形態においては、特定音楽理論が処理区間σ毎に個別に設定される。
図9の特徴データ生成部33は、各処理区間σ内の単位期間毎に、当該処理区間σに指示された特定音楽理論に対応する規則に応じて特徴データYの時系列を生成する。例えば、処理区間σ1内の各単位期間について、特徴データ生成部33は、第1音楽理論に対応する規則により、楽曲データSから特徴データYを生成する。また、処理区間σ2内の各単位期間について、特徴データ生成部33は、第2音楽理論に対応する規則により、楽曲データSから特徴データYを生成する。
また、音響データ生成部35は、各処理区間σ内の単位期間毎に、相異なる音楽理論に対応する複数の生成モデルM1~MKのうち、当該処理区間σについて指示された特定音楽理論に対応する生成モデルMkを利用して、音響データZを生成する。例えば、処理区間σ1内の各単位期間について、音響データ生成部35は、第1音楽理論に対応する生成モデルM1に制御データDを入力することで、音響データZを生成する。また、処理区間σ2内の各単位期間について、音響データ生成部35は、第2音楽理論に対応する生成モデルM2に制御データDを入力することで、音響データZを生成する。処理区間σ毎に別個の音楽理論が適用される点以外は、第2実施形態と同様である。
第3実施形態においても第2実施形態と同様の効果が実現される。また、第3実施形態においては、時間軸上の処理区間σ毎に音楽理論が個別に指示される。すなわち、特徴データYの生成に適用される音楽理論と、音響データZの生成に利用される生成モデルMkとが、処理区間σ毎に個別に設定される。したがって、音楽的な表情が処理区間σ毎に変化する多様な音響データZを生成できる。
D:第4実施形態
図11は、第4実施形態における音響処理システム10の機能的な構成を例示するブロック図である。第4実施形態の制御装置11は、第1実施形態と同様の要素(指示受付部31,条件データ生成部32,特徴データ生成部33,音響データ生成部35,信号生成部36)に加えて調整処理部34として機能する。
調整処理部34は、条件データXと特徴データYとから制御データDを生成する。制御データDは単位期間毎に生成される。具体的には、各単位期間の制御データDは、当該単位期間の条件データXと当該単位期間の特徴データYとから生成される。調整処理部34は、条件データXを特徴データYに応じて調整することで、制御データDを生成する。すなわち、条件データXが表す音楽的な条件が特徴データYに応じて変更される。特徴データYを利用した条件データXの調整は、条件データXと特徴データYと制御データDとの関係を定義する所定のアルゴリズムにより実現される。
音響データ生成部35は、調整処理部34が生成した制御データDを生成モデルMに入力することで、音響データZを生成する。すなわち、第4実施形態の生成モデルMは、特徴データYを利用した条件データXの調整により生成される制御データDと、音響データZとの関係を学習した学習済モデルである。
第4実施形態においても第1実施形態と同様の効果が実現される。また、第4実施形態においては、特徴データYに応じた条件データXの調整により生成される制御データDが生成モデルMに入力される。したがって、特徴データYが入力されない構成の生成モデルMを、音響データZの生成に利用できる。例えば、条件データXと音響データZとの関係を学習した既存の生成モデルMを利用できる。なお、第1実施形態においては、条件データXと特徴データYとを含む制御データDが生成モデルMに入力される。したがって、条件データXを調整する第4実施形態と比較して、制御データDの生成に必要な処理負荷を軽減できるという利点がある。また、第2実施形態または第3実施形態の構成は、第4実施形態にも同様に適用される。
第1実施形態および第4実施形態の例示から理解される通り、制御データDは、楽曲データS(条件データX)と特徴データYとに応じたデータとして包括的に表現される。すなわち、条件データXと特徴データYとを含む第1実施形態の制御データDと、特徴データYに応じた条件データXの調整により生成される第4実施形態の制御データDとの双方が、「楽曲データSと特徴データYとに応じたデータ」という概念には包含される。
E:第5実施形態
図12は、第5実施形態における特徴データ生成部33の構成を例示するブロック図である。第5実施形態の特徴データ生成部33は、特徴データYの生成に生成モデル334を利用する。生成モデル334は、楽曲データSと特徴データY(特徴値F)との関係を機械学習により学習した学習済モデルである。すなわち、生成モデル334は、楽曲データSの入力に対して統計的に妥当な特徴データYを出力する。特徴抽出部331は、楽曲データSを生成モデル334に入力することで、特徴データYを生成する。特徴データYの時系列が表す特徴値系列Qを、編集処理部332が利用者からの指示に応じて編集する点は、第1実施形態と同様である。
生成モデル334は、例えば深層ニューラルネットワークで構成される。例えば、再帰型ニューラルネットワークまたは畳込ニューラルネットワーク等の任意の形式のニューラルネットワークが生成モデル334として利用される。複数種の深層ニューラルネットワークの組合せで生成モデル334が構成されてもよい。また、長短期記憶等の付加的な要素が生成モデル334に搭載されてもよい。
生成モデル334は、楽曲データSから特徴データYを生成する演算を制御装置11に実行させるプログラムと、当該演算に適用される複数の変数(具体的には加重値およびバイアス)との組合せで実現される。生成モデル334を実現するプログラムと当該生成モデル334の複数の変数とは、記憶装置12に記憶される。生成モデル334を規定する複数の変数の各々の数値は、機械学習により事前に設定される。
第5実施形態においても第1実施形態と同様の効果が実現される。なお、第2実施形態から第4実施形態の構成は、第5実施形態にも同様に適用される。
F:第6実施形態
図13は、第6実施形態における情報システム100の構成を例示するブロック図である。第6実施形態の情報システム100は、音響処理システム10aと音響処理システム10bと機械学習システム20とを具備する。音響処理システム10aは利用者Uaにより使用され、音響処理システム10bは利用者Ubにより使用される。音響処理システム10aおよび音響処理システム10bの各々の構成は、第1実施形態の音響処理システム10と同様である。
音響処理システム10aは、利用者Uaの所望の楽曲に関する投稿データPを機械学習システム20に送信する。1個の楽曲の投稿データPは、当該楽曲の楽曲データSと、特徴データYの時系列と、当該楽曲の目標音を表す音響信号Aとを含む。
投稿データPの特徴データYは、当該投稿データPの楽曲データSと利用者Uaからの指示とに応じて特徴データ生成部33が生成したデータである。すなわち、特徴データYの時系列は、利用者Uaからの指示に応じた編集後の特徴値系列Qを表す。利用者Uaは、独自の音楽理論に対応するように特徴値系列Qの編集を指示する。したがって、投稿データPに含まれる特徴データYの時系列(特徴値系列Q)には、利用者Uaの独自の音楽理論が反映されている。
音響信号Aは、特徴データYの時系列に応じた音楽的な表情が付加された目標音を表す。したがって、利用者Uaの独自の音楽理論は、音響信号Aにも反映されている。例えば、利用者Uaからの指示に応じた特徴値系列Qの編集を含む合成処理Saにより生成された音響信号Aが、投稿データPに含まれる。また、利用者Uaが自身の音楽理論に沿って楽曲を演奏し、演奏音の収録により生成された音響信号Aが投稿データPに含まれてもよい。
以上の説明の通り、投稿データPは、音楽理論に依存しない標準的な楽曲データSと、利用者Uaの独自の音楽理論が反映された特徴データYおよび音響信号Aとを含む。音響処理システム10aの制御装置11は、以上に説明した投稿データPを通信装置13から機械学習システム20に送信する。機械学習システム20の制御装置21は、音響処理システム10aから送信された投稿データPを通信装置23により受信し、当該投稿データPを記憶装置22に保存する。音響処理システム10aによる投稿データPの送信は、利用者Uaからの指示に応じて反復される。したがって、機械学習システム20の記憶装置22には、利用者Uaの複数の投稿データPが記憶される。
図14は、第6実施形態における機械学習システム20の機能的な構成を例示するブロック図である。制御装置21は、学習データ取得部51および学習処理部52として機能する。学習データ取得部51は、利用者Uaの複数の投稿データPの各々から複数の学習データTを生成する。学習データ取得部51は、条件データ生成部511と音響データ生成部513とを具備する。条件データ生成部511は、第1実施形態と同様に、各投稿データPの楽曲データSから単位期間毎に条件データXtを生成する。条件データ生成部511が生成した条件データXと投稿データP内の特徴データYとを含む学習用の制御データDtが生成される。
音響データ生成部513は、第1実施形態と同様に、各投稿データPの音響信号Aから単位期間毎に音響データZtを生成する。学習用の制御データDtと音響データ生成部513が生成した音響データZtとを含む学習データTが、単位期間毎に生成される。利用者Uaの複数の投稿データPの各々について以上の処理が実行されることで、相異なる楽曲または相異なる単位期間に対応する複数の学習データTが利用者Uaについて生成される。利用者Uaの複数の学習データT(具体的には特徴データYおよび音響データZt)には、当該利用者Uaの独自の音楽理論が反映されている。
学習処理部52は、利用者Uaの複数の学習データTを利用した前述の学習処理Sbにより、当該利用者Uaの生成モデルMを確立する。すなわち、利用者Uaの複数の投稿データPから複数の学習データTを生成する処理(Sb1)と、複数の学習データTから利用者Uaの生成モデルMを確立する処理(Sb2~Sb7)とが実行される。すなわち、利用者Uaの独自の音楽理論のもとで音響データZを生成可能な生成モデルMが生成される。利用者Uaの生成モデルMは、通信装置23から利用者Ubの音響処理システム10bに送信される(Sb8)。
音響処理システム10bの制御装置11は、機械学習システム20から送信された生成モデルMを通信装置13により受信し、当該生成モデルMを記憶装置12に保存する。制御装置11は、生成モデルMを利用した合成処理Saにより音響信号Aを生成する。具体的には、利用者Ubの所望の楽曲の楽曲データSについて、利用者Uaの生成モデルMを利用した合成処理Saが実行される。したがって、利用者Ubの所望の楽曲について、利用者Uaの独自の音楽理論が反映された音響信号Aが生成される。
なお、以上の説明においては、ひとりの利用者Uaの生成モデルMが生成および利用される形態を例示したが、複数の利用者の各々について生成モデルMが個別に生成される形態も想定される。例えば、相異なる利用者が使用する複数の音響処理システム10の各々から、複数の投稿データPが機械学習システム20に送信される。そして、複数の投稿データPから複数の学習データTを生成する処理(Sb1)と、複数の学習データTから生成モデルMを確立する処理(Sb2~Sb7)とが、利用者毎に個別に実行される。そして、相異なる利用者について生成された複数の生成モデルMのうち、利用者Ubが選択した利用者の生成モデルMが、当該利用者Ubの音響処理システム10bに送信される。なお、相異なる利用者の複数の生成モデルMが機械学習システム20から音響処理システム10bに送信され、当該複数の生成モデルMのうち利用者Ubが選択した利用者の生成モデルMが合成処理Saに選択的に利用されてもよい。また、第4実施形態の構成は、第6実施形態にも同様に適用される。
G:変形例
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)前述の各形態においては、音響データ生成部35が単体の生成モデルMを利用して音響データZを生成したが、生成モデルMの具体的な構成は、以上の例示に限定されない。例えば、以下の各態様の生成モデルM(Ma,Mb)が利用されてもよい。
[第1変形例]
図15は、第1変形例に係る生成モデルMaのブロック図である。条件データXと特徴データYとを含む制御データDが生成モデルMaに供給される。第1変形例の生成モデルMaは、第1モデルMa1と第2モデルMa2とを具備する。第1モデルMa1および第2モデルMa2の各々は、例えば再帰型ニューラルネットワークまたは畳込ニューラルネットワーク等の深層ニューラルネットワークで構成される。
第1モデルMa1は、条件データXと中間データVとの関係を機械学習により学習した学習済モデルである。中間データVは、条件データXの特徴を表す中間的なデータである。音響データ生成部35は、制御データDの条件データXを第1モデルMa1に入力することで、単位期間毎に中間データVを生成する。すなわち、第1モデルMa1は、条件データXから中間データVを生成するためのエンコーダとして機能する。
第1モデルMa1が出力する中間データVと制御データDの特徴データYとを含む制御データRが、第2モデルMa2に供給される。第2モデルMa2は、制御データRと音響データZとの関係を機械学習により学習した学習済モデルである。音響データ生成部35は、制御データRを第2モデルMa2に入力することで、単位期間毎に音響データZを生成する。すなわち、第2モデルMa2は、制御データRから音響データZを生成するためのデコーダとして機能する。
[第2変形例]
図16は、第2変形例に係る生成モデルMbのブロック図である。条件データXと特徴データYとを含む制御データDが生成モデルMbに供給される。第2変形例の生成モデルMbは、時間モデルMb1と音量モデルMb2と音高モデルMb3と音響モデルMb4とを具備する。生成モデルMbの各モデル(Mb1~Mb4)は、例えば再帰型ニューラルネットワークまたは畳込ニューラルネットワーク等の深層ニューラルネットワークで構成される。
時間モデルMb1は、制御データDと時間データV1との関係を機械学習により学習した学習済モデルである。時間データV1は、時間軸上における目標音の各発音点の時刻を指定する。例えば、制御データDの条件データXが指定する音符の始点と目標音の各発音点との時間的な差異が時間データV1により指定される。音響データ生成部35は、制御データDを時間モデルMb1に入力することで、単位期間毎に時間データV1を生成する。
時間モデルMb1が出力する時間データV1と制御データDとを含む制御データR2が、音量モデルMb2に供給される。音量モデルMb2は、制御データR2と音量データV2との関係を機械学習により学習した学習済モデルである。音量データV2は、目標音の音量を指定する。音響データ生成部35は、制御データR2を音量モデルMb2に入力することで、単位期間毎に音量データV2を生成する。
音量モデルMb2が出力する音量データV2と制御データDとを含む制御データR3が、音高モデルMb3に供給される。音高モデルMb3は、制御データR3と音高データV3との関係を機械学習により学習した学習済モデルである。音高データV3は、目標音の音高を指定する。音響データ生成部35は、制御データR3を音高モデルMb3に入力することで、単位期間毎に音高データV3を生成する。なお、制御データR3は時間データV1を含んでもよい。
時間データV1と音量データV2と音高データV3と制御データDとを含む制御データR4が、音響モデルMb4に供給される。音響モデルMb4は、制御データR4と音響データZとの関係を機械学習により学習した学習済モデルである。音響データ生成部35は、制御データR4を音響モデルMb4に入力することで、単位期間毎に音響データZを生成する。
以上の例示から理解される通り、生成モデルM(Ma,Mb)は、制御データDに応じた音響データZを出力する統計モデルとして包括的に表現され、具体的な構成の如何は不問である。
(2)要素値Enの種類は以上の例示に限定されない。例えば、第1実施形態においては、前述の要素値E1~E3のほか、以下に例示する要素値E4および要素値E5を特徴データ生成部33が生成してもよい。
例えば、楽曲のうち各楽節の終点の付近では音楽的な緊張度が増加または減少する傾向がある。以上の傾向を考慮して、要素値E4は、楽曲内の各楽節の末尾に位置する所定長の期間において増加または減少する数値である。また、楽曲の終点の付近でも同様に、音楽的な緊張度が増加または減少する傾向がある。以上の傾向を考慮して、要素値E5は、楽曲の末尾に位置する所定長の期間において増加または減少する数値である。
また、前述の各形態においては、楽曲データSが指定するコードの和声機能(トニック/ドミナント/サブドミナント)に対応する数値を要素値E2として例示したが、要素値E2により表現されるコードの機能的な分類は、以上の例示に限定されない。例えば、前述の各形態で例示した3種類の和声機能(トニック/ドミナント/サブドミナント)にドッペルドミナント等の他の分類を追加してもよい。また、例えば、以上に例示した和声機能に加えて、和音の度数(I~VII)、転回形、付加和音(例えば七の和音等)、借用和音または変化和音等の各種の属性に応じてコードを分類し、楽曲データSが指定するコードが属する分類に対応する数値を、特徴抽出部331が要素値E2として設定してもよい。
(3)前述の各形態においては、特徴値F0の移動平均を特徴値Fとして算定したが、特徴値F0から特徴値Fを算定する方法(すなわち特徴値F0の時系列を平滑化する方法)は、以上の例示に限定されない。例えば、移動平均以外のローパスフィルタ処理または補間処理を特徴値F0に対して実行することで特徴値Fを算定してもよい。ローパスフィルタ処理としては、例えば、一次遅れ系を利用した処理、ガウス分布の畳込を利用した処理、または周波数領域において高域成分を低減する処理等が例示される。また、補間処理としては、例えば、ラグランジュ補間またはスプライン補間等の各種の処理が例示される。なお、特徴値F0の時系列を平滑化する以上の処理は省略されてもよい。すなわち、第1実施形態においても前述した通り、前掲の数式(1)で算定される数値が特徴値Fとして確定されてもよい。
(4)前述の各形態においては、特徴データYが1個の特徴値Fを含む形態を例示したが、特徴データYが複数の特徴値Fを含む形態も想定される。例えば、前述の各形態におけるN個の要素値E1~ENが相異なる特徴値Fとして特徴データYに含まれる形態も想定される。すなわち、N個の要素値E1~ENを1個の特徴値Fに統合する処理(例えば加重和の演算)は省略されてもよい。特徴データYが複数の特徴値Fを含む形態においては、当該特徴データYを含む学習用の制御データDtを利用した前述の学習処理Sbにより、生成モデルMが確立される。以上の生成モデルMによれば、相異なる音楽的な観点が多次元的に反映された多様な音響データZを生成できる。
(5)前述の各形態においては、音響データZが目標音の周波数特性を表す形態を例示したが、音響データZが表す情報は以上の例示に限定されない。例えば、音響データZが目標音の各サンプルを表す形態も想定される。以上の形態では、音響データZの時系列が音響信号Aを構成する。したがって、信号生成部36は省略される。
(6)前述の各形態においては、機械学習システム20の学習データ取得部51が基礎データBから学習データTを生成した。しかし、外部装置により学習データTが生成される形態では、外部装置から通信装置23により学習データTを受信する要素、または、当該受信後の学習データTを記憶装置22から読み出す要素が、学習データ取得部51に相当する。すなわち、学習データ取得部51による学習データTの「取得」は、学習データTの生成、受信および読出等、学習データTを取得する任意の動作を包含する。
(7)第2実施形態においては、音響処理システム10の記憶装置12に記憶されたK個の生成モデルM1~MKの何れかが選択的に合成処理Saに利用される形態を例示したが、K個の生成モデルM1~MKを選択的に利用するための構成は、以上の例示に限定されない。例えば、機械学習システム20が保持するK個の生成モデルM1~MKのうち、利用者が選択した生成モデルMkが音響処理システム10に送信され、当該生成モデルMkが合成処理Saに利用されてもよい。すなわち、音響処理システム10がK個の生成モデルM1~MKを保持する必要はない。
(8)前述の各形態においては、楽曲データSから各単位期間の特徴データYを生成したが、特徴データ生成部33が、各単位期間の条件データXから当該単位期間の特徴データYを生成してもよい。
(9)第6実施形態においては、投稿データPが音響信号Aを含む形態を例示したが、音響信号Aに代えて音響データZの時系列を投稿データPが含む形態も想定される。投稿データPが音響データZの時系列を含む形態においては、図14の学習データ取得部51における音響データ生成部513が省略される。
(10)前述の各形態においては、深層ニューラルネットワークを生成モデルMとして例示したが、生成モデルMは深層ニューラルネットワークに限定されない。例えば、HMM(Hidden Markov Model)またはSVM(Support Vector Machine)等の任意の形式および種類の統計モデルが、生成モデルMとして利用されてもよい。第5実施形態の生成モデル334についても同様に、形式または種類は任意である。
(11)前述の各形態においては、機械学習システム20が生成モデルMを確立したが、生成モデルMを確立する機能(学習データ取得部51および学習処理部52)は、音響処理システム10に搭載されてもよい。第5実施形態の生成モデル334を確立する機能についても同様に、音響処理システム10に搭載されてもよい。
(12)例えばスマートフォンまたはタブレット端末等の情報装置と通信するサーバ装置により音響処理システム10が実現されてもよい。例えば、音響処理システム10は、情報装置から楽曲データSを受信し、当該楽曲データSを適用した合成処理Saにより音響信号Aを生成する。音響処理システム10は、合成処理Saにより生成した音響信号Aを情報装置に送信する。なお、信号生成部36が情報装置に搭載された形態では、合成処理Saにより生成された音響データZの時系列が情報装置に送信される。すなわち、音響処理システム10から信号生成部36は省略される。
(13)音響処理システム10の機能(指示受付部31,条件データ生成部32,特徴データ生成部33,音響データ生成部35,信号生成部36)は、前述の通り、制御装置11を構成する単数または複数のプロセッサと、記憶装置12に記憶されたプログラムとの協働により実現される。また、機械学習システム20の機能(学習データ取得部51および学習処理部52)は、前述の通り、制御装置21を構成する単数または複数のプロセッサと、記憶装置22に記憶されたプログラムとの協働により実現される。
以上のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網200を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記録媒体が、前述の非一過性の記録媒体に相当する。
H:付記
以上に例示した形態から、例えば以下の構成が把握される。
ひとつの態様(態様1)に係る音響処理方法は、利用者からの指示を受付け、前記利用者からの指示と特定の音楽理論に対応する規則とに応じて、楽曲を表す楽曲データから、前記楽曲における音楽的な特徴を表す特徴値を含む特徴データを生成し、前記楽曲データと前記特徴データとに応じた制御データを機械学習済の生成モデルに入力することで、前記楽曲データに対応する音を表す音響データを生成する。以上の態様においては、利用者からの指示と特定の音楽理論に応じた規則とに応じて特徴データの時系列が生成され、楽曲データと特徴データとに応じた制御データを生成モデルに入力することで、音響データが生成される。したがって、音響データに付加される音楽的な表情が単一の音楽理論のみに依存する形態と比較して、利用者からの指示を反映した多様な表情の音響データを生成できる。
態様1の具体例(態様2)において、前記楽曲データが指定する条件を表す条件データを生成し、前記音響データの生成においては、前記条件データと前記特徴データとを含む前記制御データを前記生成モデルに入力する。以上の態様においては、条件データと特徴データとを含む制御データが生成モデルに入力されるから、特徴データに応じた調整後の条件データを制御データとして生成モデルに入力する構成と比較して、制御データの生成に必要な処理負荷を軽減できる。
態様1の具体例(態様3)において、前記楽曲データが指定する条件を表す条件データを生成し、前記特徴データに応じた前記条件データの調整により前記制御データを生成する。以上の態様においては、特徴データを利用した条件データの調整により生成された制御データが生成モデルに入力されるから、特徴データが入力されない構成の生成モデルを音響データの生成に利用できる。
態様1から態様3の何れかの具体例(態様4)において、前記指示の受付においては、加重値に関する指示を前記利用者から受付け、前記特徴データの生成においては、前記音楽理論における相異なる種類の音楽的な特徴を表す複数の要素値を、前記楽曲データから生成し、前記利用者から受付けた前記加重値を適用した前記複数の要素値の加重和により前記特徴値を算定する。以上の態様においては、特定の音楽理論に関する複数の要素値について、利用者から指示された加重値を適用した加重和により特徴値が算定される。すなわち、複数の要素値の各々が特徴値に影響する度合を、利用者が調整できる。したがって、利用者の音楽的な意図または嗜好に沿った音響データを生成できる。
態様4の具体例(態様5)において、前記複数の要素値は、前記楽曲のコードに関する和声機能の種別を数値化した要素値を含み、前記音楽理論に対応する規則は、前記和声機能の種別を数値化するための規則を含む。
態様4または態様5の具体例(態様6)において、前記複数の要素値は、前記楽曲を構成する複数の楽節の各々に対応する要素値を含み、前記音楽理論に対応する規則は、前記各楽節に対応する要素値に関する規則を含む。
態様1から態様6の何れかの具体例(態様7)において、前記指示の受付においては、複数の音楽理論の何れかを前記特定の音楽理論として選択する指示を前記利用者から受付け、前記音響データの生成においては、前記複数の音楽理論にそれぞれ対応する複数の生成モデルのうち前記特定の音楽理論に対応する生成モデルを利用して、前記音響データを生成する。以上の態様においては、相異なる音楽理論に対応する複数の生成モデルのうち利用者が選択した音楽理論に対応する生成モデルを利用して音響データが生成される。したがって、利用者の音楽的な意図または嗜好に沿った音響データを生成できる。
態様7の具体例(態様8)において、前記指示の受付においては、時間軸上の複数の処理区間の各々について、前記複数の音楽理論の何れかを前記特定の音楽理論として選択する指示を前記利用者から受付け、前記特徴データの生成においては、前記複数の処理区間の各々について、当該処理区間に指示された前記特定の音楽理論に対応する規則に応じて前記特徴データを生成し、前記音響データの生成においては、前記複数の処理区間の各々について、前記複数の生成モデルのうち前記特定の音楽理論に対応する生成モデルを利用して、前記音響データを生成する。以上の態様においては、時間軸上の処理区間毎に音楽理論が個別に指示される。すなわち、特徴データの生成に適用される音楽理論と音響データの生成に利用される生成モデルとが、処理区間毎に個別に設定される。したがって、音楽的な表情が処理区間毎に変化する多様な音響データを生成できる。
本開示のひとつの態様(態様9)に係る音響処理システムは、利用者からの指示を受付ける指示受付部と、前記利用者からの指示と特定の音楽理論に対応する規則とに応じて、楽曲を表す楽曲データから、前記楽曲における音楽的な特徴を表す特徴値を含む特徴データの時系列を生成する特徴データ生成部と、前記楽曲データと前記特徴データとに応じた制御データを機械学習済の生成モデルに入力することで、前記楽曲データに対応する音を表す音響データを生成する音響データ生成部とを具備する。
本開示のひとつの態様(態様10)に係るプログラムは、利用者からの指示を受付ける指示受付部、前記利用者からの指示と特定の音楽理論に対応する規則とに応じて、楽曲を表す楽曲データから、前記楽曲における音楽的な特徴を表す特徴値を含む特徴データの時系列を生成する特徴データ生成部、および、前記楽曲データと前記特徴データとに応じた制御データを機械学習済の生成モデルに入力することで、前記楽曲データに対応する音を表す音響データを生成する音響データ生成部、としてコンピュータシステムを機能させる。
本開示のひとつの態様(態様11)に係る生成モデルの確立方法(生成方法)は、学習用制御データと学習用音響データとを含む学習データを取得し、前記学習データを利用した機械学習により、制御データの入力に対して音響データを出力する生成モデルを確立し、前記学習用制御データは、楽曲を表す楽曲データが指定する条件を表す条件データと、前記楽曲における音楽的な特徴を表す特徴値を含む特徴データとを含み、前記音響データは、前記楽曲データに対応する音を表す。
100…情報システム、10,10a,10b…音響処理システム、11,21…制御装置、12,22…記憶装置、13,23…通信装置、14…放音装置、15…操作装置、16…表示装置、20…機械学習システム、31…指示受付部、32…条件データ生成部、33…特徴データ生成部、331…特徴抽出部、332…編集処理部、334…生成モデル、34…調整処理部、35…音響データ生成部、36…信号生成部、51…学習データ取得部、511…条件データ生成部、512…特徴データ生成部、513…音響データ生成部、52…学習処理部、M,Ma,Mb…生成モデル。

Claims (11)

  1. 利用者からの指示を受付け、
    前記利用者からの指示と特定の音楽理論に対応する規則とに応じて、楽曲を表す楽曲データから、前記楽曲における音楽的な特徴を表す特徴値を含む特徴データを生成し、
    前記楽曲データと前記特徴データとに応じた制御データを機械学習済の生成モデルに入力することで、前記楽曲データに対応する音を表す音響データを生成する
    コンピュータシステムにより実現される音響処理方法。
  2. 前記楽曲データが指定する条件を表す条件データを生成し、
    前記音響データの生成においては、前記条件データと前記特徴データとを含む前記制御データを前記生成モデルに入力する
    請求項1の音響処理方法。
  3. 前記楽曲データが指定する条件を表す条件データを生成し、
    前記特徴データに応じた前記条件データの調整により前記制御データを生成する
    請求項1の音響処理方法。
  4. 前記指示の受付においては、加重値に関する指示を前記利用者から受付け、
    前記特徴データの生成においては、
    前記音楽理論における相異なる種類の音楽的な特徴を表す複数の要素値を、前記楽曲データから生成し、
    前記利用者から受付けた前記加重値を適用した前記複数の要素値の加重和により前記特徴値を算定する
    請求項1から請求項3の何れかの音響処理方法。
  5. 前記複数の要素値は、前記楽曲のコードに関する和声機能の種別を数値化した要素値を含み、
    前記音楽理論に対応する規則は、前記和声機能の種別を数値化するための規則を含む
    請求項4の音響処理方法。
  6. 前記複数の要素値は、前記楽曲を構成する複数の楽節の各々に対応する要素値を含み、
    前記音楽理論に対応する規則は、前記各楽節に対応する要素値に関する規則を含む
    請求項4または請求項5の音響処理方法。
  7. 前記指示の受付においては、複数の音楽理論の何れかを前記特定の音楽理論として選択する指示を前記利用者から受付け、
    前記音響データの生成においては、前記複数の音楽理論にそれぞれ対応する複数の生成モデルのうち前記特定の音楽理論に対応する生成モデルを利用して、前記音響データを生成する
    請求項1から請求項6の何れかの音響処理方法。
  8. 前記指示の受付においては、時間軸上の複数の処理区間の各々について、前記複数の音楽理論の何れかを前記特定の音楽理論として選択する指示を前記利用者から受付け、
    前記特徴データの生成においては、前記複数の処理区間の各々について、当該処理区間に指示された前記特定の音楽理論に対応する規則に応じて前記特徴データを生成し、
    前記音響データの生成においては、前記複数の処理区間の各々について、前記複数の生成モデルのうち前記特定の音楽理論に対応する生成モデルを利用して、前記音響データを生成する
    請求項7の音響処理方法。
  9. 利用者からの指示を受付ける指示受付部と、
    前記利用者からの指示と特定の音楽理論に対応する規則とに応じて、楽曲を表す楽曲データから、前記楽曲における音楽的な特徴を表す特徴値を含む特徴データの時系列を生成する特徴データ生成部と、
    前記楽曲データと前記特徴データとに応じた制御データを機械学習済の生成モデルに入力することで、前記楽曲データに対応する音を表す音響データを生成する音響データ生成部と
    を具備する音響処理システム。
  10. 利用者からの指示を受付ける指示受付部、
    前記利用者からの指示と特定の音楽理論に対応する規則とに応じて、楽曲を表す楽曲データから、前記楽曲における音楽的な特徴を表す特徴値を含む特徴データの時系列を生成する特徴データ生成部、および、
    前記楽曲データと前記特徴データとに応じた制御データを機械学習済の生成モデルに入力することで、前記楽曲データに対応する音を表す音響データを生成する音響データ生成部
    としてコンピュータシステムを機能させるプログラム。
  11. 学習用制御データと学習用音響データとを含む学習データを取得し、
    前記学習データを利用した機械学習により、制御データの入力に対して音響データを出力する生成モデルを確立し、
    前記学習用制御データは、
    楽曲を表す楽曲データが指定する条件を表す条件データと、
    前記楽曲における音楽的な特徴を表す特徴値を含む特徴データとを含み、
    前記音響データは、前記楽曲データに対応する音を表す
    コンピュータシステムにより実現される生成モデルの確立方法。
JP2021052666A 2021-03-26 2021-03-26 音響処理方法、音響処理システム、プログラム、および生成モデルの確立方法 Pending JP2022150179A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021052666A JP2022150179A (ja) 2021-03-26 2021-03-26 音響処理方法、音響処理システム、プログラム、および生成モデルの確立方法
CN202280024965.7A CN117121089A (zh) 2021-03-26 2022-03-10 音响处理方法、音响处理系统、程序及生成模型的创建方法
PCT/JP2022/010666 WO2022202374A1 (ja) 2021-03-26 2022-03-10 音響処理方法、音響処理システム、プログラム、および生成モデルの確立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021052666A JP2022150179A (ja) 2021-03-26 2021-03-26 音響処理方法、音響処理システム、プログラム、および生成モデルの確立方法

Publications (1)

Publication Number Publication Date
JP2022150179A true JP2022150179A (ja) 2022-10-07

Family

ID=83395686

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021052666A Pending JP2022150179A (ja) 2021-03-26 2021-03-26 音響処理方法、音響処理システム、プログラム、および生成モデルの確立方法

Country Status (3)

Country Link
JP (1) JP2022150179A (ja)
CN (1) CN117121089A (ja)
WO (1) WO2022202374A1 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6708179B2 (ja) * 2017-07-25 2020-06-10 ヤマハ株式会社 情報処理方法、情報処理装置およびプログラム

Also Published As

Publication number Publication date
WO2022202374A1 (ja) 2022-09-29
CN117121089A (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
WO2020171033A1 (ja) 音信号合成方法、生成モデルの訓練方法、音信号合成システムおよびプログラム
JP6729539B2 (ja) 音声合成方法、音声合成システムおよびプログラム
WO2019107379A1 (ja) 音声合成方法、音声合成装置およびプログラム
WO2020095950A1 (ja) 情報処理方法および情報処理システム
JP6821970B2 (ja) 音声合成装置および音声合成方法
US11875777B2 (en) Information processing method, estimation model construction method, information processing device, and estimation model constructing device
JP5541072B2 (ja) 楽音信号処理装置及びプログラム
JP6737320B2 (ja) 音響処理方法、音響処理システムおよびプログラム
CN111837184A (zh) 声音处理方法、声音处理装置及程序
WO2020162392A1 (ja) 音信号合成方法およびニューラルネットワークの訓練方法
WO2022202374A1 (ja) 音響処理方法、音響処理システム、プログラム、および生成モデルの確立方法
US20230016425A1 (en) Sound Signal Generation Method, Estimation Model Training Method, and Sound Signal Generation System
WO2020241641A1 (ja) 生成モデル確立方法、生成モデル確立システム、プログラムおよび訓練データ準備方法
WO2020158891A1 (ja) 音信号合成方法およびニューラルネットワークの訓練方法
JP2022065554A (ja) 音声合成方法およびプログラム
JP7107427B2 (ja) 音信号合成方法、生成モデルの訓練方法、音信号合成システムおよびプログラム
WO2023171522A1 (ja) 音響生成方法、音響生成システムおよびプログラム
WO2023171497A1 (ja) 音響生成方法、音響生成システムおよびプログラム
JP7192834B2 (ja) 情報処理方法、情報処理システムおよびプログラム
WO2020171035A1 (ja) 音信号合成方法、生成モデルの訓練方法、音信号合成システムおよびプログラム
WO2023068042A1 (ja) 音響処理方法、音響処理システムおよびプログラム
WO2020171034A1 (ja) 音信号生成方法、生成モデルの訓練方法、音信号生成システムおよびプログラム
JP5703555B2 (ja) 楽音信号処理装置及びプログラム
CN118103905A (zh) 音响处理方法、音响处理系统及程序
WO2019172396A1 (ja) 音声処理方法、音声処理装置および記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240125