JP2023060744A

JP2023060744A - 音響処理方法、音響処理システムおよびプログラム

Info

Publication number: JP2023060744A
Application number: JP2021170506A
Authority: JP
Inventors: 竜之介大道; Ryunosuke Daido
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2021-10-18
Filing date: 2021-10-18
Publication date: 2023-04-28
Also published as: WO2023068042A1

Abstract

【課題】聴感的に自然な目標音の波形信号を生成する。【解決手段】音響処理システム１００は、目標音の条件を表す条件データＤ[t]を含む入力データＸ[t]を、訓練済の生成モデルＭ2により順次に処理することで、目標音の周波数特性Ｅ[t]を順次に生成する第１生成部３１と、目標音の波形を表す時間領域の波形信号Ｗ[t]を、周波数特性Ｅ[t]と、周波数特性Ｅ[t]の変更を指示する制御データＣ[t]とに応じて生成する信号生成部３２Aと、周波数特性Ｅ[t]と制御データＣ[t]とに応じて周波数特性Ｑ[t]を生成する第２生成部３３とを具備し、第１時点における入力データＸ[t]は、当該第１時点よりも過去に生成された周波数特性Ｑ[t]を含む。【選択図】図２

Description

本開示は、音響処理に関する。

所望の音（以下「目標音」という）を生成する各種の技術が従来から提案されている。例えば非特許文献１には、訓練済の生成モデルを利用して目標音の波形信号を生成する技術が開示されている。非特許文献１の技術における生成モデルは、目標音の周波数特性を生成する。周波数特性が時間領域の波形信号に変換される。また、生成モデルが生成した周波数特性は、当該生成モデルの入力側に帰還される。すなわち、生成モデルによる現在の周波数特性の生成には、過去に生成された周波数特性が利用される。

Blaauw, Merlijn, and Jordi Bonada. "A NEURAL PARAMETRIC SINGING SYNTHESIZER." arXiv preprint arXiv: 1704.03809v3 (2017)

周波数特性から波形信号を生成する処理には種々の変動要因が付随する。例えば、乱数を利用した確率的な処理で波形信号を生成する形態では、波形信号の音響特性が乱数に応じて変動する。また、例えば利用者からの指示に応じて周波数特性が調整される構成では、利用者からの指示に応じて波形信号の音響特性が変動する。非特許文献１の技術においては、前述の通り、生成モデルが生成した直後の周波数特性が、当該生成モデルの入力側に帰還される。すなわち、以上に例示した変動要因が反映されていない周波数特性が生成モデルに帰還される。したがって、聴感的に自然な印象の目標音を生成するには限界がある。以上の事情を考慮して、本開示のひとつの態様は、聴感的に自然な目標音の波形信号を生成することを目的とする。

以上の課題を解決するために、本開示のひとつの態様に係る音響処理方法は、生成されるべき目標音の条件を表す条件データを含む入力データを、訓練済の生成モデルにより順次に処理することで、前記目標音の第１音響特徴量を順次に生成し、前記第１音響特徴量の変更を指示する制御データを受取り、前記目標音の波形を表す時間領域の波形信号を、前記第１音響特徴量と前記制御データとに応じて生成し、前記第１音響特徴量と前記制御データとに応じて第２音響特徴量を生成し、第１時点における入力データは、前記第１時点よりも過去に生成された前記第２音響特徴量を含む。

本開示のひとつの態様に係る音響処理システムは、生成されるべき目標音の条件を表す条件データを含む入力データを、訓練済の生成モデルにより順次に処理することで、前記目標音の第１音響特徴量を順次に生成する第１生成部と、前記目標音の波形を表す時間領域の波形信号を、前記第１音響特徴量と、前記第１音響特徴量の変更を指示する制御データとに応じて生成する信号生成部と、前記第１音響特徴量と前記制御データとに応じて第２音響特徴量を生成する第２生成部とを具備し、第１時点における入力データは、前記第１時点よりも過去に生成された前記第２音響特徴量を含む。

本開示のひとつの態様に係るプログラムは、生成されるべき目標音の条件を表す条件データを含む入力データを、訓練済の生成モデルにより順次に処理することで、前記目標音の第１音響特徴量を順次に生成する第１生成部、前記目標音の波形を表す時間領域の波形信号を、前記第１音響特徴量と、前記第１音響特徴量の変更を指示する制御データとに応じて生成する信号生成部、および、前記第１音響特徴量と前記制御データとに応じて第２音響特徴量を生成する第２生成部、としてコンピュータシステムを機能させるプログラムであって、第１時点における入力データは、前記第１時点よりも過去に生成された前記第２音響特徴量を含む。

第１実施形態における音響処理システムの構成を例示するブロック図である。音響処理システムの機能的な構成を例示するブロック図である。音響処理部による処理の説明図である。調波信号生成部の詳細な構成を例示するブロック図である。調波スペクトル包絡を変更する処理の説明図である。非調波信号生成部の詳細な構成を例示するブロック図である。第２生成部の詳細な構成を例示するブロック図である。第２生成部による処理の説明図である。波形生成処理の詳細な手順を例示するフローチャートである。第１学習処理に関する機能的な構成を例示するブロック図である。第２学習処理に関する機能的な構成を例示するブロック図である。第１学習処理の詳細な手順を例示するフローチャートである。第２学習処理の詳細な手順を例示するフローチャートである。変形例の機械学習処理に関する機能的な構成を例示するブロック図である。第２実施形態における音響処理システムの機能的な構成を例示するブロック図である。第２実施形態における波形生成処理の詳細な手順を例示するフローチャートである。

Ａ：第１実施形態
図１は、第１実施形態に係る音響処理システム１００の構成を例示するブロック図である。音響処理システム１００は、任意の目標音を生成するコンピュータシステムである。目標音は、音響処理システム１００により生成されるべき音響である。目標音は、例えば、歌唱者が発音する歌唱音声、または楽器が発音する楽音である。

音響処理システム１００は、制御装置１１と記憶装置１２と放音装置１３と操作装置１４とを具備する。音響処理システム１００は、例えばスマートフォン、タブレット端末またはパーソナルコンピュータ等の情報端末により実現される。なお、音響処理システム１００は、単体の装置で実現されるほか、相互に別体で構成された複数の装置でも実現される。

制御装置１１は、音響処理システム１００の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置１１は、ＣＰＵ（Central Processing Unit）、ＳＰＵ（Sound Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、またはＡＳＩＣ（Application Specific Integrated Circuit）等の１種類以上のプロセッサにより構成される。制御装置１１は、目標音の波形を表す音響信号Ａを生成する。

記憶装置１２は、制御装置１１が実行するプログラムと、制御装置１１が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置１２は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成される。なお、音響処理システム１００に対して着脱される可搬型の記録媒体、または通信網を介して制御装置１１が書込または読出を実行可能な記録媒体（例えばクラウドストレージ）が、記憶装置１２として利用されてもよい。

記憶装置１２は、楽曲を表す楽曲データＳを記憶する。楽曲データＳは、楽曲を構成する複数の音符の各々について音高と発音期間とを指定する。目標音が歌唱音声である場合、楽曲データＳは、音高および発音期間に加えて音素符号を音符毎に指定する。なお、音楽的な表情を表す演奏記号等の情報を、楽曲データＳが指定してもよい。

操作装置１４は、利用者からの指示を受付ける入力機器である。操作装置１４は、例えば、利用者が操作する操作子、または、利用者による接触を検知するタッチパネルである。なお、音響処理システム１００とは別体の操作装置１４（例えばマウスまたはキーボード）を、音響処理システム１００に対して有線または無線により接続してもよい。

放音装置１３は、音響信号Ａが表す目標音を再生する。放音装置１３は、例えばスピーカまたはヘッドホンである。なお、音響信号Ａをデジタルからアナログに変換するＤ/Ａ変換器と、音響信号Ａを増幅する増幅器とは、便宜的に図示が省略されている。また、音響処理システム１００とは別体の放音装置１３を、音響処理システム１００に対して有線または無線により接続してもよい。

図２は、音響処理システム１００の機能的な構成を例示するブロック図である。制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで、音響信号Ａを生成するための複数の機能（制御データ生成部２１および音響処理部２２）を実現する。

制御データ生成部２１には指示データＵが供給される。指示データＵは、操作装置１４に対する利用者からの指示を表すデータである。具体的には、指示データＵは、目標音に関する利用者からの指示を表す。例えば、目標音の音量、目標音に関する転調、目標音に想定される仮想的な発音者、または目標音に想定される発音方法が、指示データＵにより指定される。目標音の仮想的な発音者は、例えば歌唱音声の歌唱者、または楽器の演奏者である。また、目標音の発音方法は、例えば歌唱技法または演奏技法である。

制御データ生成部２１は、楽曲データＳおよび指示データＵに応じて条件データＤ[t]および制御データＣ[t]（Ｃh[t]，Ｃa[t]）を生成する。条件データＤ[t]および制御データＣ[t]は、時間軸上の複数の単位期間の各々において順次に生成される。記号ｔは、時間軸上の１個の単位期間を示す変数である。各単位期間は、所定長の期間である。具体的には、各単位期間は、楽曲データＳが音符毎に指定する発音期間の時間長よりも充分に短い時間長に設定される。なお、時間軸上で相前後する各単位期間は部分的に重複してもよい。制御データＣ[t]は、目標音の音響特性を制御するためのデータである。なお、制御データＣ[t]の詳細については後述する。

条件データＤ[t]は、目標音の条件を表すデータである。具体的には、目標音を表す音符に関する情報、発音者の識別情報、発音方法の識別情報が、条件データＤ[t]に含まれる。目標音を表す音符に関する情報は、例えば当該音符の音高または音量、当該音符の前後の音符に関する情報を含む。したがって、条件データＤ［t］は、楽曲データＳが表す楽曲の楽譜に関する特徴量（楽譜特徴量）とも換言される。また、発音者の識別情報は、発音者を識別するための情報である。発音者の識別情報は、例えば、多次元の仮想空間内に設定される埋込ベクトル（embedding vector）で表現される。仮想空間は、発音者が発音する音響の特徴に応じて各発音者の位置が決定される連続空間である。すなわち、音響の特徴が類似するほど、各発音者の識別情報は仮想空間内で近い座標に位置する。発音方法の識別情報は、発音方法を識別するための情報である。発音方法の識別情報は、発音者の識別情報と同様に、例えば、多次元の仮想空間内に設定される埋込ベクトル（embedding vector）で表現される。仮想空間は、発音方法により発音される音響の特徴に応じて各発音方法の位置が決定される連続空間である。すなわち、音響の特徴が類似するほど、各発音方法の識別情報は仮想空間内で近い座標に位置する。

制御データ生成部２１は、楽曲データＳおよび指示データＵに対する所定の演算処理により条件データＤ[t]および制御データＣ[t]を生成する。なお、制御データ生成部２１は、深層ニューラルネットワーク（DNN：Deep Neural Network）等の生成モデルを利用して条件データＤ[t]および制御データＣ[t]を生成してもよい。生成モデルは、楽曲データＳおよび指示データＵを含む入力データと、条件データＤ[t]および制御データＣ[t]を含む出力データとの関係を機械学習により学習した統計的推定モデルである。

音響処理部２２は、条件データＤ[t]と制御データＣ[t]（Ｃh[t]，Ｃa[t]）とに応じて波形信号Ｗ[t]を生成する。単位期間毎に波形信号Ｗ[t]が生成される。波形信号Ｗ[t]は、目標音の波形を表す時間領域の信号である。具体的には、各単位期間の波形信号Ｗ[t]は、音響信号Ａのうち当該単位期間内のサンプルの時系列で構成される。すなわち、複数の波形信号Ｗ[t]を時間軸上で相互に連結することで音響信号Ａが生成される。

図３は、音響処理部２２による処理の説明図である。図３の記号ｆは周波数を意味する。目標音は、調波成分と非調波成分とを含む。調波成分は、基音成分と複数の倍音成分とで構成される周期的な音響成分である。基音成分は、基本周波数Ｆ0[t]の音響成分である。複数の倍音成分の各々は、基本周波数Ｆ0[t]の整数倍である倍音周波数ｎ・Ｆ0[t]の音響成分である。他方、非調波成分は、周波数領域の広範囲にわたる非周期的な雑音成分である。非調波成分は、目標音の気息性に寄与する。

図２に例示される通り、制御データＣ[t]は、調波制御データＣh[t]と非調波制御データＣa[t]とを含む。調波制御データＣh[t]は、目標音の調波成分を制御するためのデータである。非調波制御データＣa[t]は、目標音の非調波成分を制御するためのデータである。

音響処理部２２は、第１生成部３１と信号生成部３２Aと第２生成部３３とを具備する。第１生成部３１は、基本周波数Ｆ0[t]と周波数特性Ｅ[t]とを単位期間毎に順次に生成する。基本周波数Ｆ0[t]は、前述の通り、目標音の調波成分のうち基音成分の周波数である。

第１生成部３１は、条件データＤ[t]から基本周波数Ｆ0[t]を生成する。第１生成部３１による基本周波数Ｆ0[t]の生成には、生成モデルＭ1が利用される。生成モデルＭ1は、条件データＤ[t]と基本周波数Ｆ0[t]との関係を機械学習により学習した統計的推定モデルである。すなわち、生成モデルＭ1は、条件データＤ[t]に対して統計的に妥当な基本周波数Ｆ0[t]を出力する。具体的には、生成モデルＭ1は、条件データＤ[t]から基本周波数Ｆ0[t]を生成する演算を制御装置１１に実行させるプログラムと、当該演算に適用される複数の変数との組合せで実現される。複数の変数の各々の数値は、機械学習により事前に設定される。第１生成部３１は、条件データＤ[t]を生成モデルＭ1に入力することで基本周波数Ｆ0[t]を生成する。

生成モデルＭ1は、例えば深層ニューラルネットワークで構成される。例えば、再帰型ニューラルネットワーク（RNN：Recurrent Neural Network）、または畳込ニューラルネットワーク（CNN：Convolutional Neural Network）等の任意の形式の深層ニューラルネットワークが生成モデルＭ1として利用される。複数種の深層ニューラルネットワークの組合せで生成モデルＭ1が構成されてもよい。また、長短期記憶（LSTM：Long Short-Term Memory）またはAttention等の付加的な要素が生成モデルＭ1に搭載されてもよい。

周波数特性Ｅ[t]は、周波数領域で表現される目標音の音響特徴量である。具体的には、周波数特性Ｅ[t]は、調波スペクトル包絡Ｅh[t]と非調波スペクトル包絡Ｅa[t]とを含む。調波スペクトル包絡Ｅh[t]は、目標音の調波成分に関する強度スペクトルの概形である。また、非調波スペクトル包絡Ｅa[t]は、目標音の非調波成分に関する強度スペクトルの概形である。なお、強度スペクトルは、振幅スペクトルまたはパワースペクトルである。調波スペクトル包絡Ｅh[t]および非調波スペクトル包絡Ｅa[t]は、例えばＭＦＳＣ（Mel Frequency Spectral Coefficients）で表現される。周波数特性Ｅ[t]は「第１音響特徴量」の一例である。

第１生成部３１は、各単位期間の入力データＸ[t]から周波数特性Ｅ[t]を生成する。入力データＸ[t]は、条件データＤ[t]と基本周波数Ｆ0[t]と帰還データＲ[t]とを含む。各単位期間の帰還データＲ[t]は、当該単位期間よりも過去の単位期間における目標音の音響特性を表すデータである。帰還データＲ[t]の詳細については後述する。

第１生成部３１による周波数特性Ｅ[t]の生成には、生成モデルＭ2が利用される。生成モデルＭ2は、入力データＸ[t]と周波数特性Ｅ[t]との関係を機械学習により学習した統計的推定モデルである。すなわち、生成モデルＭ2は、入力データＸ[t]に対して統計的に妥当な周波数特性Ｅ[t]を出力する。具体的には、生成モデルＭ2は、入力データＸ[t]から周波数特性Ｅ[t]を生成する演算を制御装置１１に実行させるプログラムと、当該演算に適用される複数の変数との組合せで実現される。複数の変数の各々の数値は、機械学習により事前に設定される。以上の説明から理解される通り、第１生成部３１は、生成モデルＭ1により入力データＸ[t]を順次に処理することで、目標音の周波数特性Ｅ[t]を順次に生成する。

生成モデルＭ2は、例えば深層ニューラルネットワークで構成される。例えば、再帰型ニューラルネットワークまたは畳込ニューラルネットワーク等の任意の形式の深層ニューラルネットワークが生成モデルＭ2として利用される。複数種の深層ニューラルネットワークの組合せで生成モデルＭ2が構成されてもよい。また、長短期記憶またはAttention等の付加的な要素が生成モデルＭ2に搭載されてもよい。

信号生成部３２Aは、基本周波数Ｆ0[t]と周波数特性Ｅ[t]と制御データＣ[t]（Ｃh[t]，Ｃa[t]）とに応じて波形信号Ｗ[t]を順次に生成する。前述の通り、波形信号Ｗ[t]は単位期間毎に生成される。信号生成部３２Aは、調波信号生成部４０と非調波信号生成部５０と信号混合部６０とを含む。

調波信号生成部４０は、基本周波数Ｆ0[t]と調波スペクトル包絡Ｅh[t]と調波制御データＣh[t]とに応じて調波信号Ｚh[t]を生成する。調波信号生成部４０は、単位期間毎に調波信号Ｚh[t]を生成する。調波信号Ｚh[t]は、目標音の調波成分を表す時間領域の信号である。

非調波信号生成部５０は、非調波スペクトル包絡Ｅa[t]と非調波制御データＣa[t]とに応じて非調波信号Ｚa[t]を生成する。非調波信号生成部５０は、単位期間毎に非調波信号Ｚa[t]を生成する。非調波信号Ｚa[t]は、目標音の非調波成分を表す時間領域の信号である。

信号混合部６０は、調波信号Ｚh[t]と非調波信号Ｚa[t]とに応じて波形信号Ｗ[t]を生成する。具体的には、信号混合部６０は、調波信号Ｚh[t]と非調波信号Ｚa[t]とを混合することで波形信号Ｗ[t]を生成する。なお、信号混合部６０は、調波信号Ｚh[t]と非調波信号Ｚa[t]との加重和により波形信号Ｗ[t]を生成してもよい。信号混合部６０が順次に生成する波形信号Ｗ[t]の時系列が音響信号Ａとして放音装置１３に供給される。

第２生成部３３は、基本周波数Ｆ0[t]と周波数特性Ｅ[t]と制御データＣ[t]とに応じて周波数特性Ｑ[t]を生成する。第２生成部３３は、単位期間毎に周波数特性Ｑ[t]を生成する。周波数特性Ｑ[t]は、周波数領域で表現される目標音の音響特徴量である。具体的には、周波数特性Ｑ[t]は、目標音の強度スペクトル（振幅スペクトルまたはパワースペクトル）である。周波数特性Ｑ[t]は、目標音を表す波形信号Ｗ[t]の強度スペクトルとも換言される。周波数特性Ｑ[t]は「第２音響特徴量」の一例である。

情報保持部１２１は、記憶装置１２の一部の記憶領域により構成されるバッファである。情報保持部１２１は、最新のＰ個の周波数特性Ｑ[t]を保持する（Ｐは１以上の自然数）。具体的には、情報保持部１２１は、条件データＤ[t]に対応する現在の単位期間よりも過去に生成されたＰ個の周波数特性Ｑ[t-1]～Ｑ[t-P]を保持する。記号ｔが示す現在の単位期間は、「第１時点」の一例である。

各単位期間の入力データＸ[t]は、情報保持部１２１が保持するＰ個の周波数特性Ｑ[t-1]～Ｑ[t-P]を帰還データＲ[t]として含む。すなわち、１個の単位期間（第１時点）の入力データＸ[t]は、当該単位期間の基本周波数Ｆ0[t]および条件データＤ[t]に加えて、当該単位期間よりも過去に生成されたＰ個の周波数特性Ｑ[t-1]～Ｑ[t-P]（帰還データＲ[t]）を含む。なお、帰還データＲ[t]は１個（Ｐ＝１）の周波数特性Ｑ[t-1]のみで構成されてもよい。

以上に説明した通り、第１実施形態においては、生成モデルＭ2により生成された周波数特性Ｅ[t]から時間領域の波形信号Ｗ[t]が生成される。そして、目標音の周波数特性Ｑ[t-1]～Ｑ[t-P]が帰還データＲ[t]として生成モデルＭ2の入力側に帰還される。すなわち、信号生成部３２Aが周波数特性Ｅ[t]から波形信号Ｗ[t]を生成する処理に付随する変動要因が反映された周波数特性Ｑ[t-1]～Ｑ[t-P]が、生成モデルＭ2による周波数特性Ｅ[t]の生成に利用される。したがって、周波数特性Ｅ[t]が生成モデルＭ2の入力側に直接的に帰還される構成と比較して、聴感的に自然な目標音の波形信号Ｗ[t]を生成できる。

［調波信号生成部４０］
図４は、調波信号生成部４０の詳細な構成を例示するブロック図である。調波信号生成部４０は、正弦波生成部４１と調波特性変更部４２と調波信号合成部４３とを具備する。

正弦波生成部４１は、Ｎ個の正弦波ｈ[t,1]～ｈ[t,N]を単位期間毎に生成する。各正弦波ｈ[t,n]（ｎ＝１～Ｎ）は、時間領域の信号である。図３には、Ｎ個の正弦波ｈ[t,1]～ｈ[t,N]の強度スペクトルが便宜的に図示されている。Ｎ個の正弦波ｈ[t,1]～ｈ[t,N]は、基本周波数Ｆ0[t]の整数倍に対応する相異なる調波周波数ｎ・Ｆ0[t]の音響成分である。具体的には、正弦波ｈ[t,1]は基本周波数Ｆ0[t]の基音成分であり、正弦波ｈ[t,2]～ｈ[t,N]は、基本周波数Ｆ0[t]のｎ倍に相当する倍音周波数ｎ・Ｆ0[t]の倍音成分である。Ｎ個の正弦波ｈ[t,1]～ｈ[t,N]のレベル（例えば振幅またはパワー）は共通の所定値（例えば１）に設定される。以上に説明した通り、正弦波生成部４１は、相異なる調波周波数ｎ・Ｆ0[t]に対応する時間領域のＮ個の正弦波ｈ[t,1]～ｈ[t,N]を生成する。

利用者は、操作装置１４を操作することで、目標音の調波成分について変更を指示できる。具体的には、利用者は、目標音の調波成分のうち聴感的に不快と知覚され得る音響成分について変更の有無を指示できる。前述の指示データＵは、調波成分に関する変更の有無の指示を含む。制御データ生成部２１は、調波成分の変更の有無を表す調波制御データＣh[t]を、指示データＵに応じて単位期間毎に生成する。以上に説明した調波制御データＣh[t]が、調波信号生成部４０に供給される。

調波特性変更部４２は、調波スペクトル包絡Ｅh[t]の形状を変更することで調波スペクトル包絡Ｅh'[t]を生成する。具体的には、調波特性変更部４２は、調波制御データＣh[t]を制御データ生成部２１から受取り、調波スペクトル包絡Ｅh[t]を当該調波制御データＣh[t]に応じて変更する。以上の説明から理解される通り、調波制御データＣh[t]は、調波スペクトル包絡Ｅh[t]の変更を指示するデータである。第１実施形態の調波制御データＣh[t]は、調波スペクトル包絡Ｅh[t]の変更の有無を指示する。調波スペクトル包絡Ｅh[t]の維持が調波制御データＣh[t]により指示された場合、調波特性変更部４２は、調波スペクトル包絡Ｅh[t]を調波スペクトル包絡Ｅh'[t]として設定する。すなわち、調波スペクトル包絡Ｅh[t]は維持される。調波スペクトル包絡Ｅh[t]の変更が調波制御データＣh[t]により指示された場合、調波特性変更部４２は、調波スペクトル包絡Ｅh[t]の変更により調波スペクトル包絡Ｅh'[t]を生成する。以上の説明から理解される通り、調波特性変更部４２は、利用者からの指示に応じて調波スペクトル包絡Ｅh[t]を変更する。

図５は、調波特性変更部４２が調波スペクトル包絡Ｅh[t]を変更する処理の説明図である。調波特性変更部４２は、調波スペクトル包絡Ｅh[t]の複数のピークのうち所定の条件（以下「抑制条件」という）を充足する１個以上のピーク（以下「対象ピーク」という）を抑制することで調波スペクトル包絡Ｅh'[t]を生成する。抑制条件は、第１条件と第２条件とを含む。

第１条件は、所定の周波数Ｆthを上回る周波数帯域内において、極大値（ピーク値）ρが所定の閾値ρthを上回ることである。周波数Ｆthは、例えば２ｋＨｚに設定される。閾値ρthは所定の数値（例えば－６０ｄＢ）に設定される。第２条件は、周波数Ｆthを上回る周波数帯域内において、ピーク幅ωが所定の閾値ωthを下回ることである。ピーク幅ωは例えば半値幅であり、閾値ωthは所定の正数に設定される。調波特性変更部４２は、調波スペクトル包絡Ｅh[t]の複数のピークのうち第１条件および第２条件の双方を充足するピークを対象ピークとして選択する。なお、第１条件および第２条件の一方を充足するピークが対象ピークとして選択されてもよい。以上の説明から理解される通り、周波数軸上において周波数Ｆthを下回る周波数帯域内のピークは、ピーク値ρおよびピーク幅ωの如何に関わらず抑制の対象にならない。ただし、第１条件および第２条件において、所定の周波数Ｆthを上回る周波数帯域内という制限を省略してもよい。

調波特性変更部４２は、対象ピークを調整値αに応じて抑制する。調整値αは、１を下回る正数であり、例えば１/２に設定される。調波特性変更部４２は、対象ピークピーク値ρに調整値αを乗算することで当該対象ピークを抑制する。例えば、調整値αが１/２に設定された形態では、対象ピークのピーク値ρが変更前の半分（ρ/２）となるように当該対象ピークが抑制される。なお、調整値αの具体的な数値は以上の例示に限定されない。

図４の調波信号合成部４３は、調波スペクトル包絡Ｅh'[t]とＮ個の正弦波ｈ[t,1]～ｈ[t,N]とに応じて調波信号Ｚh[t]を生成する。図３には、調波信号Ｚh[t]の強度スペクトルが便宜的に図示されている。調波信号合成部４３は、Ｎ個の正弦波ｈ[t,1]～ｈ[t,N]のレベルを調波スペクトル包絡Ｅh'[t]に応じて変更し、変更後のＮ個の正弦波ｈ[t,1]～ｈ[t,N]を合成することで調波信号Ｚh[t]を生成する。具体的には、調波信号合成部４３は、Ｎ個の正弦波ｈ[t,1]～ｈ[t,N]のレベルが調波スペクトル包絡Ｅh'[t]に沿うように各正弦波ｈ[t,n]を処理する。すなわち、各正弦波ｈ[t,n]のレベルは、周波数軸上の調波周波数ｎ・Ｆ0[t]における調波スペクトル包絡Ｅh'[t]の成分値に変更される。そして、調波信号合成部４３は、以上に説明した変更後のＮ個の正弦波ｈ[t,1]～ｈ[t,N]を加算することで調波信号Ｚh[t]を生成する。以上の例示の通り、第１実施形態によれば、調波スペクトル包絡Ｅh[t]を利用して各正弦波ｈ[t,n]を処理する時間領域の処理により、調波信号Ｚh[t]を簡便に生成できる。

調波信号生成部４０が調波信号Ｚh[t]を生成するための構成および処理は以上の通りである。第１実施形態においては、調波スペクトル包絡Ｅh［t］が調波制御データＣh［t］に応じて変更される。具体的には、Ｎ個の正弦波ｈ[t,1]～ｈ[t,N]の各々のレベルが調波制御データＣh[t]に応じて変更される。したがって、調波スペクトル包絡Ｅh［t］（ひいてはＮ個の正弦波ｈ[t,1]～ｈ[t,N]）が変更されない構成と比較して多様な音響特性の調波信号Ｚh［t］を生成できる。すなわち、目標音の調波成分の音響特性を多様化できる。なお、調波制御データＣh[t]に応じた調波スペクトル包絡Ｅh[t]の変更は、信号生成部３２Aが周波数特性Ｅ[t]から波形信号Ｗ[t]を生成する処理に関する変動要因の一例である。

また、第１実施形態においては、調波スペクトル包絡Ｅh[t]の複数のピークのうち過大または急峻なピークが抑制される。したがって、調波スペクトル包絡Ｅh[t]における過大または急峻なピークが維持される構成と比較して、聴感的に自然な調波成分を含む目標音の波形信号Ｗ[t]を生成できる。

［非調波信号生成部５０］
図６は、非調波信号生成部５０の詳細な構成を例示するブロック図である。非調波信号生成部５０は、基礎信号生成部５１と非調波特性変更部５２と非調波信号合成部５３とを具備する。

基礎信号生成部５１は、基礎非調波信号Ｂa[t]を単位期間毎に生成する。図３には、基礎非調波信号Ｂa[t]の強度スペクトルが図示されている。基礎非調波信号Ｂa[t]は、周波数特性が平坦な時間領域の信号である。例えば基礎非調波信号Ｂa[t]は、白色雑音を表す雑音信号である。基礎非調波信号Ｂa[t]の生成には公知の信号処理技術が任意に採用される。例えば、所定の確率分布に従う乱数の発生により、基礎非調波信号Ｂa[t]が確率的に生成される。

利用者は、操作装置１４を操作することで、目標音の非調波成分に関する変更を指示できる。前述の指示データＵは、非調波成分に関する変更の指示を含む。制御データ生成部２１は、非調波成分の変更を指示する非調波制御データＣa[t]を、指示データＵに応じて単位期間毎に生成する。非調波制御データＣa[t]は、例えば周波数軸上の周波数帯域毎に非調波成分の変更を指示する。例えば、非調波成分の変更の方向（強調／抑制）と変更の度合とが、非調波制御データＣa[t]により指示される。以上に説明した非調波制御データＣa[t]が、非調波信号生成部５０に供給される。

非調波特性変更部５２は、非調波スペクトル包絡Ｅa[t]の形状を変更することで非調波スペクトル包絡Ｅa'[t]を生成する。具体的には、非調波特性変更部５２は、非調波制御データＣa[t]を制御データ生成部２１から受取り、非調波スペクトル包絡Ｅa[t]を当該非調波制御データＣa[t]に応じて変更する。例えば、非調波特性変更部５２は、非調波成分の強調が指示された周波数帯域については非調波スペクトル包絡Ｅa[t]の成分値を増加し、非調波成分の抑制が指示された周波数帯域については非調波スペクトル包絡Ｅa[t]の成分値を減少する。以上の説明から理解される通り、非調波制御データＣa[t]は、非調波スペクトル包絡Ｅa[t]の変更を指示するデータである。すなわち、非調波特性変更部５２は、利用者からの指示に応じて非調波スペクトル包絡Ｅa[t]を変更する。

非調波信号合成部５３は、非調波スペクトル包絡Ｅa'[t]と基礎非調波信号Ｂa[t]とに応じて非調波信号Ｚa[t]を生成する。図３には、非調波信号Ｚa[t]の強度スペクトルが便宜的に図示されている。非調波信号合成部５３は、基礎非調波信号Ｂa[t]に対して非調波フィルタ処理を実行することで非調波信号Ｚa[t]を生成する。非調波フィルタ処理には、非調波スペクトル包絡Ｅa'[t]が応答特性として適用される。以上の例示の通り、第１実施形態によれば、非調波スペクトル包絡Ｅa[t]を利用して基礎非調波信号Ｂa[t]を処理する時間領域の処理により、非調波信号Ｚa[t]を簡便に生成できる。

非調波信号生成部５０が非調波信号Ｚa[t]を生成するための構成および処理は以上の通りである。第１実施形態においては、非調波スペクトル包絡Ｅa［t］が非調波制御データＣa［t］に応じて変更されるから、非調波スペクトル包絡Ｅa［t］が変更されない構成と比較して多様な音響特性の非調波信号Ｚa［t］を生成できる。すなわち、目標音の非調波成分の音響特性を多様化できる。以上の説明から理解される通り、非調波制御データＣa[t]に応じた非調波スペクトル包絡Ｅa[t]の変更、および、基礎非調波信号Ｂa[t]の生成は、信号生成部３２Aが周波数特性Ｅ[t]から波形信号Ｗ[t]を生成する処理に関する変動要因の一例である。

［第２生成部３３］
前述の通り、第２生成部３３は、周波数特性Ｅ[t]と制御データＣ[t]とに応じて単位期間毎に周波数特性Ｑ[t]を生成する。図７は、第２生成部３３の詳細な構成を例示するブロック図である。図８は、第２生成部３３による処理の説明図である。第２生成部３３は、調波スペクトル生成部７１と非調波スペクトル生成部７２とスペクトル合成部７３とを具備する。

調波スペクトル生成部７１は、目標音の調波成分の強度スペクトル（以下「調波スペクトル」という）Ｇh[t]を生成する。調波スペクトルＧh[t]は、調波成分の振幅スペクトルまたはパワースペクトルである。調波スペクトル生成部７１は、周波数領域の処理により単位期間毎に調波スペクトルＧh[t]を生成する。第１実施形態の調波スペクトル生成部７１は、基礎スペクトル生成部７１１と調波特性変更部７１２と合成処理部７１３とを具備する。

基礎スペクトル生成部７１１は、周波数領域の基礎スペクトルＶh[t]を単位期間毎に生成する。図８に例示される通り、基礎スペクトルＶh[t]は、周波数軸上のＮ個の正弦波ｈ[t,1]～ｈ[t,N]により構成される強度スペクトル（例えば振幅スペクトルまたはパワースペクトル）である。Ｎ個の正弦波ｈ[t,1]～ｈ[t,N]は、基本周波数Ｆ0[t]の整数倍に対応する相異なる調波周波数ｎ・Ｆ0[t]に配置される。すなわち、各正弦波ｈ[t,n]は、周波数軸上において基本周波数Ｆ0[t]のｎ倍の周波数ｎ・Ｆ0[t]に位置する。Ｎ個の正弦波ｈ[t,1]～ｈ[t,N]のレベルは共通の所定値（例えば１）に設定される。以上に説明した通り、基礎スペクトル生成部７１１は、相異なる調波周波数ｎ・Ｆ0[t]に対応するＮ個の正弦波ｈ[t,1]～ｈ[t,N]を含む基礎スペクトルＶh[t]を生成する。

調波特性変更部７１２は、前述の調波特性変更部４２と同様に、調波スペクトル包絡Ｅh[t]の形状を変更することで調波スペクトル包絡Ｅh'[t]を生成する。具体的には、調波特性変更部７１２は、調波スペクトル包絡Ｅh[t]を調波制御データＣh[t]に応じて変更する。例えば、調波スペクトル包絡Ｅh[t]の維持が調波制御データＣh[t]により指示された場合、調波特性変更部７１２は、調波スペクトル包絡Ｅh[t]を調波スペクトル包絡Ｅh'[t]として設定する。すなわち、調波スペクトル包絡Ｅh[t]は維持される。調波スペクトル包絡Ｅh[t]の変更が調波制御データＣh[t]により指示された場合、調波特性変更部７１２は、調波スペクトル包絡Ｅh[t]の変更により調波スペクトル包絡Ｅh'[t]を生成する。以上の説明から理解される通り、調波特性変更部７１２は、利用者からの指示に応じて調波スペクトル包絡Ｅh[t]を変更する。

具体的には、調波特性変更部７１２は、図５を参照して前述した処理により調波スペクトル包絡Ｅh[t]を生成する。すなわち、調波特性変更部７１２は、調波スペクトル包絡Ｅh[t]の複数のピークのうち所定の抑制条件を充足する１個以上の対象ピークを抑制することで調波スペクトル包絡Ｅh'[t]を生成する。抑制条件は、前述の第１条件と第２条件とを含む。

図７の合成処理部７１３は、基礎スペクトルＶh[t]と調波スペクトル包絡Ｅh'[t]とに応じて調波スペクトルＧh[t]を生成する。調波スペクトルＧh[t]は単位期間毎に生成される。具体的には、合成処理部７１３は、Ｎ個の正弦波ｈ[t,1]～ｈ[t,N]のレベルが調波スペクトル包絡Ｅh'[t]に沿うように基礎スペクトルＶh[t]を処理することで、調波スペクトルＧh[t]を生成する。すなわち、基礎スペクトルＶh[t]における各正弦波ｈ[t,n]のレベルは、周波数軸上の調波周波数ｎ・Ｆ0[t]における調波スペクトル包絡Ｅh'[t]の成分値に変更される。以上の説明から理解される通り、調波スペクトルＧh[t]は、前述の調波信号Ｚh[t]の強度スペクトルに相当する。調波スペクトル生成部７１が調波スペクトルＧh[t]を生成するための構成および処理は以上の通りである。

非調波スペクトル生成部７２は、目標音の非調波成分の強度スペクトル（以下「非調波スペクトル」という）Ｇa[t]を生成する。非調波スペクトルＧa[t]は、非調波成分の振幅スペクトルまたはパワースペクトルである。非調波スペクトル生成部７２は、周波数領域の処理により単位期間毎に非調波スペクトルＧa[t]を生成する。第１実施形態の非調波スペクトル生成部７２は、基礎スペクトル生成部７２１と非調波特性変更部７２２と合成処理部７２３とを具備する。

基礎スペクトル生成部７２１は、周波数領域の基礎スペクトルＶa[t]を単位期間毎に生成する。図８に例示される通り、基礎スペクトルＶa[t]は、周波数軸上の広範囲にわたり平坦な強度スペクトル（例えば強度スペクトルまたはパワースペクトル）である。具体的には、基礎スペクトルＶa[t]は、例えば可聴帯域を含む広範囲にわたりレベルが略一定に維持された強度スペクトルである。例えば、所定の確率分布に従う乱数の発生により、基礎スペクトルＶa[t]が生成される。基礎スペクトルＶa[t]は、前述の基礎非調波信号Ｂa[t]の強度スペクトルとも換言される。

非調波特性変更部７２２は、前述の非調波特性変更部５２と同様に、非調波スペクトル包絡Ｅa[t]の形状を変更することで非調波スペクトル包絡Ｅa'[t]を生成する。具体的には、非調波特性変更部７２２は、非調波スペクトル包絡Ｅa[t]を非調波制御データＣa[t]に応じて変更する。例えば、非調波特性変更部７２２は、非調波成分の強調が指示された周波数帯域については非調波スペクトル包絡Ｅa[t]の成分値を増加し、非調波成分の抑制が指示された周波数帯域については非調波スペクトル包絡Ｅa[t]の成分値を減少する。以上の説明から理解される通り、非調波特性変更部７２２は、利用者からの指示に応じて非調波スペクトル包絡Ｅa[t]を変更する。

合成処理部７２３は、基礎スペクトルＶa[t]と非調波スペクトル包絡Ｅa'[t]とに応じて非調波スペクトルＧa[t]を生成する。非調波スペクトルＧa[t]は単位期間毎に生成される。具体的には、合成処理部７２３は、非調波スペクトル包絡Ｅa'[t]に沿うように基礎スペクトルＶa[t]を処理することで、非調波スペクトルＧa[t]を生成する。すなわち、基礎スペクトルＶa[t]における任意の周波数におけるレベルは、周波数軸上の当該周波数における調波スペクトル包絡Ｅa'[t]の成分値に変更される。以上の説明から理解される通り、非調波スペクトルＧa[t]は、前述の非調波信号Ｚa[t]の強度スペクトルに相当する。非調波スペクトル生成部７２が非調波スペクトルＧa[t]を生成するための構成および処理は以上の通りである。

図７のスペクトル合成部７３は、調波スペクトルＧh[t]と非調波スペクトルＧa[t]との合成により周波数特性Ｑ[t]を生成する。具体的には、スペクトル合成部７３は、周波数軸上の複数の周波数ｆの各々について、調波スペクトルＧh[t]のうち当該周波数ｆにおけるレベルと、非調波スペクトルＧa[t]のうち当該周波数ｆにおけるレベルとのうちの大きい方を選択する。スペクトル合成部７３は、周波数ｆ毎に選択したレベルの系列で構成される強度スペクトルを、周波数特性Ｑ[t]として生成する。したがって、周波数特性Ｑ[t]は、調波成分と非調波成分とを含む目標音のレベルスペクトルである。前述の通り、正弦波生成部４１および調波信号合成部４３による調波信号Ｚh[t]の生成と、基礎信号生成部５１および非調波信号合成部５３による非調波信号Ｚa[t]の生成とは、時間領域において実行される。他方、調波スペクトル生成部７１による調波スペクトルＧh[t]の生成と、非調波スペクトル生成部７２による非調波スペクトルＧa[t]の生成とは、周波数領域において実行される。

以上に説明した通り、調波制御データＣh[t]に応じて調波スペクトル包絡Ｅh[t]を変更する処理により周波数特性Ｑ[t]が生成され、当該周波数特性Ｑ[t]が生成モデルＭ2の入力側に帰還される。すなわち、調波制御データＣh[t]に応じた調波スペクトル包絡Ｅh[t]の変更が、生成モデルＭ2による周波数特性Ｅ[t]の生成に反映される。したがって、周波数特性Ｅ[t]が生成モデルＭ2の入力側に直接的に帰還する構成と比較して、聴感的に自然な調波成分を含む目標音の波形信号Ｗ[t]を生成できる。

また、非調波制御データＣa[t]に応じて非調波スペクトル包絡Ｅa[t]を変更する処理により周波数特性Ｑ[t]が生成され、当該周波数特性Ｑ[t]が生成モデルＭ2の入力側に帰還される。すなわち、非調波制御データＣa[t]に応じた非調波スペクトル包絡Ｅa[t]の変更が、生成モデルＭ2による周波数特性Ｅ[t]の生成に反映される。したがって、周波数特性Ｅ[t]が生成モデルＭ2の入力側に直接的に帰還する構成と比較して、聴感的に自然な非調波成分を含む目標音の波形信号Ｗ[t]を生成できる。

［波形生成処理Ｓa］
図９は、制御装置１１が波形信号Ｗ[t]を生成する処理（以下「波形生成処理」という）Ｓaの詳細な手順を例示するフローチャートである。波形生成処理Ｓaは、「音響処理方法」の一例である。例えば、操作装置１４に対する利用者からの指示を契機として波形生成処理Ｓaが開始される。以下に説明する一連の処理（Ｓa1～Ｓa10）が単位期間毎に反復される。

波形生成処理Ｓaが開始されると、制御データ生成部２１は、指示データＵに応じて条件データＤ[t]および制御データＣ[t]（Ｃh[t]，Ｃa[t]）を生成する（Ｓa1）。第１生成部３１は、条件データＤ[t]から基本周波数Ｆ0[t]を生成する（Ｓa2）。具体的には、第１生成部３１は、訓練済の生成モデル（well-trained generative model）Ｍ1により条件データＤ[t]を処理することで基本周波数Ｆ0[t]を生成する。

また、第１生成部３１は、入力データＸ[t]から周波数特性Ｅ[t]を生成する（Ｓa3）。具体的には、第１生成部３１は、訓練済の生成モデルＭ2により入力データＸ[t]を処理することで周波数特性Ｅ[t]を生成する。前述の通り、入力データＸ[t]は、条件データＤ[t]と基本周波数Ｆ0[t]と帰還データＲ[t]とを含む。帰還データＲ[t]は、現在の単位期間よりも過去の単位期間において生成されたＰ個の周波数特性Ｑ[t-1]～Ｑ[t-P]の集合である。

調波信号生成部４０は、基本周波数Ｆ0[t]と調波スペクトル包絡Ｅh[t]と調波制御データＣh[t]とに応じて調波信号Ｚh[t]を生成する（Ｓa4）。非調波信号生成部５０は、非調波スペクトル包絡Ｅa[t]と非調波制御データＣa[t]とに応じて非調波信号Ｚa[t]を生成する（Ｓa5）。なお、調波信号Ｚh[t]の生成（Ｓa4）と非調波信号Ｚa[t]の生成（Ｓa5）との順序は逆転されてもよい。

信号混合部６０は、調波信号Ｚh[t]と非調波信号Ｚa[t]との混合により波形信号Ｗ[t]を生成する（Ｓa6）。信号混合部６０は、波形信号Ｗ[t]を放音装置１３に出力する（Ｓa7）。したがって、目標音が放音装置１３から放音される。

第２生成部３３は、基本周波数Ｆ0[t]と周波数特性Ｅ[t]と制御データＣ[t]とに応じて周波数特性Ｑ[t]を生成する（Ｓa8）。周波数特性Ｑ[t]を生成する処理は、前述の通り、調波スペクトル包絡Ｅh[t]を調波制御データＣh[t]に応じて変更する処理と、非調波スペクトル包絡Ｅa[t]を非調波制御データＣa[t]に応じて変更する処理とを含む。第２生成部３３は、周波数特性Ｑ[t]を情報保持部１２１に保存する（Ｓa9）。情報保持部１２１に保存されたＰ個の周波数特性Ｑ[t-1]～Ｑ[t-P]が、入力データＸ[t]に含まれる帰還データＲ[t]として利用される。

制御装置１１は、所定の終了条件が成立したか否かを判定する（Ｓa10）。終了条件は、例えば操作装置１４に対する操作により波形生成処理Ｓaの終了が指示されること、または、楽曲データＳが表す楽曲の全範囲について以上の処理を実行したことである。終了条件が成立しない場合（Ｓa10：NO）、制御装置１１は処理をステップＳa1に移行する。すなわち、波形信号Ｗ[t]の生成（Ｓa1～Ｓ6）および出力（Ｓa7）と、周波数特性Ｑ[t]の生成（Ｓa8）および保存（Ｓa9）とが、複数の単位期間にわたり反復される。他方、終了条件が成立した場合（Ｓa10：YES）、制御装置１１は波形生成処理Ｓaを終了する。

［機械学習処理Ｓb］
図１０および図１１は、機械学習処理Ｓbに関する音響処理システム１００の機能的な構成を例示するブロック図である。機械学習処理Ｓbは、生成モデルＭ1および生成モデルＭ2を確立するための教師あり機械学習である。機械学習処理Ｓbは、図１０に例示される第１学習処理Ｓb1と、図１１に例示される第２学習処理Ｓb2とで構成される。第１学習処理Ｓb1は、生成モデルＭ1を訓練するための機械学習である。第２学習処理Ｓb2は、生成モデルＭ2を確立するための機械学習である。すなわち、第１実施形態においては、生成モデルＭ1と生成モデルＭ2とが個別に訓練される。

記憶装置１２は、第１学習処理Ｓb1に利用される複数の訓練データＴ1と、第２学習処理Ｓb2に利用される複数の訓練データＴ2とを記憶する。各訓練データＴ1および各訓練データＴ2は、複数の楽曲（以下「参照楽曲」という）の各々の楽譜を表す楽曲データと、当該参照楽曲に対応する参照音を表す参照信号とを利用して事前に生成される。参照音は、機械学習処理Ｓbのために事前に用意された音響である。具体的には、参照音は、参照楽曲の歌唱により歌唱者が発音する歌唱音声、または参照楽曲の演奏により楽器が発音する楽音である。参照信号を時間軸上で区分した複数の単位期間の各々について、訓練データＴ1と訓練データＴ2とが用意される。

複数の訓練データＴ1の各々は、参照音の条件を表す条件データＤL[t]と、当該参照音の基本周波数ＦL[t]とを含む。条件データＤL[t]は、前述の条件データＤ[t]と同様のデータであり、参照楽曲の楽曲データから生成される。また、基本周波数ＦL[t]は、参照信号を解析することで生成される。各訓練データＴ1の基本周波数ＦL[t]は、当該訓練データＴ1の条件データＤL[t]を利用して生成モデルＭ1が生成すべき基本周波数Ｆ0[t]の正解値に相当する。

複数の訓練データＴ2の各々は、図１１に例示される通り、入力データＸL[t]と周波数特性ＱL[t]とを含む。入力データＸL[t]は、前述の入力データＸ[t]と同様に、基本周波数ＦL[t]と条件データＤL[t]と帰還データＲL[t]とを含む。参照信号の１個の単位期間に対応する訓練データＴ1の基本周波数ＦL[t]および条件データＤL[t]と、当該単位期間に対応する訓練データＴ2の基本周波数ＦL[t]および条件データＤL[t]とは共通する。帰還データＲL[t]は、前述の帰還データＲ[t]と同様に、着目する単位期間に対して過去に生成されるべき波形信号Ｗ[t]に応じたデータである。具体的には、Ｐ個の周波数特性Ｑ[t-1]～Ｑ[t-P]が帰還データＲL[t]として利用される。

各訓練データＴ2の周波数特性ＱL[t]は、周波数領域で表現される参照音の音響特徴量である。例えば、周波数特性ＱL[t]は、参照音のＭＦＳＣ，ＭＦＣＣ，振幅スペクトルまたはパワースペクトル等の音響特徴量である。各訓練データＴ2の周波数特性ＱL[t]は、当該訓練データＴ2の入力データＸL[t]を利用して生成されるべき波形信号Ｗ[t]の周波数特性Ｑ[t]に関する正解値に相当する。周波数特性ＱL[t]は、参照音の調波成分と非調波成分とを含む。

機械学習処理Ｓbにおいて、制御装置１１は、前述の音響処理部２２に加えて、周波数解析部８１および学習処理部８２としても機能する。周波数解析部８１および学習処理部８２の動作に着目して、機械学習処理Ｓbの詳細な手順を以下に説明する。

図１２は、第１学習処理Ｓb1の詳細な手順を例示するフローチャートである。例えば、操作装置１４に対する利用者からの指示を契機として第１学習処理Ｓb1が開始される。

第１学習処理Ｓb1が開始されると、学習処理部８２は、複数の訓練データＴ1の何れか（以下「選択訓練データＴ1」という）を選択する（Ｓb11）。学習処理部８２は、図１０に例示される通り、選択訓練データＴ1の条件データＤL[t]を暫定的な生成モデルＭ1（以下「暫定モデルＭ1」という）により処理することで、基本周波数Ｆ0[t]を生成する（Ｓb12）。

学習処理部８２は、暫定モデルＭ1が生成する基本周波数Ｆ0[t]と選択訓練データＴ1の基本周波数ＦL[t]との誤差を表す損失関数を算定する（Ｓb13）。学習処理部８２は、損失関数が低減（理想的には最小化）されるように、暫定モデルＭ1の複数の変数を更新する（Ｓb14）。損失関数に応じた変数の更新には、例えば誤差逆伝播法が利用される。

学習処理部８２は、所定の終了条件が成立したか否かを判定する（Ｓb15）。終了条件は、例えば、損失関数が所定の閾値を下回ること、または、損失関数の変化量が所定の閾値を下回ることである。終了条件が成立しない場合（Ｓb15：NO）、学習処理部８２は、未選択の訓練データＴ1を新たな選択訓練データＴ1として選択する（Ｓb11）。すなわち、終了条件の成立（Ｓb15：YES）まで、暫定モデルＭ1の複数の変数を更新する処理（Ｓb11～Ｓb14）が反復される。終了条件が成立した場合（Ｓb15：YES）、学習処理部８２は、第１学習処理Ｓb1を終了する。終了条件が成立した時点における暫定モデルＭ1が、生成モデルＭ1として確定される。具体的には、生成モデルＭ1を規定する複数の変数は、終了条件が成立した時点における数値に確定される。

以上の説明から理解される通り、生成モデルＭ1は、条件データＤ[t]と基本周波数Ｆ0[t]との関係を学習する。すなわち、複数の訓練データＴ1における条件データＤL[t]と基本周波数ＦL[t]との間に潜在する関係を、生成モデルＭ1は学習する。したがって、第１学習処理Ｓb1の実行後の生成モデルＭ1は、未知の条件データＤ[t]に対して統計的に妥当な基本周波数Ｆ0[t]を生成する。

図１３は、第２学習処理Ｓb2の詳細な手順を例示するフローチャートである。例えば、操作装置１４に対する利用者からの指示を契機として第２学習処理Ｓb2が開始される。なお、第１学習処理Ｓb1および第２学習処理Ｓb2の順序は任意である。すなわち、第１学習処理Ｓb1の実行後に第２学習処理Ｓb2が実行されてもよいし、第２学習処理Ｓb2の実行後に第１学習処理Ｓb1が実行されてもよい。

第２学習処理Ｓb2が開始されると、学習処理部８２は、複数の訓練データＴ2の何れか（以下「選択訓練データＴ2」という）を選択する（Ｓb21）。学習処理部８２は、図１１に例示される通り、選択訓練データＴ2の入力データＸL[t]を暫定的な生成モデルＭ2（以下「暫定モデルＭ2」という）により処理することで、出力データＹ[t]を生成する（Ｓb22）。信号生成部３２Aは、暫定モデルＭ2が生成する出力データＹ[t]と選択訓練データＴ2の基本周波数ＦL[t]とを利用して、波形信号Ｗ[t]を生成する（Ｓb23）。

なお、第２学習処理Ｓb2において、波形信号Ｗ[t]の生成に利用される制御データＣ[t]（Ｃh[t]，Ｃa[t]）は所定値に固定される。具体的には、調波制御データＣh[t]は、調波スペクトル包絡Ｅh[t]の維持を指示する数値に設定される。したがって、調波特性変更部４２は、出力データＹ[t]内の調波スペクトル包絡Ｅh[t]を調波スペクトル包絡Ｅh'[t]として設定する。同様に、非調波制御データＣa[t]は、非調波スペクトルＥa[t]の維持を指示する数値に設定される。したがって、非調波特性変更部５２は、出力データＹ[t]内の非調波スペクトル包絡Ｅa[t]を非調波スペクトル包絡Ｅa'[t]として設定する。

図１１の周波数解析部８１は、波形信号Ｗ[t]から周波数特性Ｑ[t]を生成する（Ｓb24）。周波数特性Ｑ[t]の生成には、例えば短時間フーリエ変換等の周波数解析が利用される。

学習処理部８２は、周波数解析部８１が生成する周波数特性Ｑ[t]と選択訓練データＴ2の周波数特性ＱL[t]との誤差を表す損失関数を算定する（Ｓb25）。学習処理部８２は、損失関数が低減（理想的には最小化）されるように、暫定モデルＭ2の複数の変数を更新する（Ｓb26）。損失関数に応じた変数の更新には、例えば誤差逆伝播法が利用される。

学習処理部８２は、所定の終了条件が成立したか否かを判定する（Ｓb27）。終了条件は、例えば、損失関数が所定の閾値を下回ること、または、損失関数の変化量が所定の閾値を下回ることである。終了条件が成立しない場合（Ｓb27：NO）、学習処理部８２は、未選択の訓練データＴ2を新たな選択訓練データＴ2として選択する（Ｓb21）。すなわち、終了条件の成立（Ｓb27：YES）まで、暫定モデルＭ2の複数の変数を更新する処理（Ｓb21～Ｓb26）が反復される。終了条件が成立した場合（Ｓb27：YES）、学習処理部８２は、第２学習処理Ｓb2を終了する。終了条件が成立した時点における暫定モデルＭ2が、生成モデルＭ2として確定される。具体的には、生成モデルＭ2を規定する複数の変数は、終了条件が成立した時点における数値に確定される。

以上の説明から理解される通り、生成モデルＭ2は、入力データＸ[t]と出力データＹ[t]との関係を学習する。すなわち、複数の訓練データＴ2における入力データＸL[t]と周波数特性ＱL[t]に対応する出力データＹ[t]との間に潜在する関係を、生成モデルＭ2は学習する。したがって、第２学習処理Ｓb2の実行後の生成モデルＭ2は、未知の入力データＸ[t]に対して統計的に妥当な出力データＹ[t]を生成する。

なお、以上の説明においては、生成モデルＭ1と生成モデルＭ2とを個別に訓練する形態を例示したが、生成モデルＭ1と生成モデルＭ2とを一括的に訓練してもよい。例えば、図１４は、生成モデルＭ1と生成モデルＭ2とを一括的に訓練する形態の機能的な構成を例示するブロック図である。複数の訓練データＴの各々は、条件データＤL[t]と帰還データＲL[t]と周波数特性ＱL[t]とを含む。

学習処理部８２は、訓練データＴの条件データＤL[t]を暫定モデルＭ1により処理することで、基本周波数Ｆ0[t]を生成する。学習処理部８２は、入力データＸL[t]を暫定モデルＭ2により処理することで出力データＹ[t]を生成する。入力データＸL[t]は、訓練データＴの条件データＤL[t]および帰還データＲL[t]と、暫定モデルＭ1が生成した基本周波数Ｆ0[t]とを含む。信号生成部３２Aは、基本周波数Ｆ0[t]と出力データＹ[t]とを利用して波形信号Ｗ[t]を生成する。周波数解析部８１は、波形信号Ｗ[t]から周波数特性Ｑ[t]を生成する。学習処理部８２は、周波数解析部８１が生成する周波数特性Ｑ[t]と訓練データＴの周波数特性ＱL[t]との誤差が低減されるように、暫定モデルＭ1の複数の変数と暫定モデルＭ2の複数の変数とを更新する。

図１４を参照して説明した機械学習処理Ｓbによれば、生成モデルＭ1および生成モデルＭ2を一括的に訓練できる。ただし、生成モデルＭ1および生成モデルＭ2を個別に訓練する前述の形態によれば、図１４の形態と比較して、機械学習処理Ｓbに必要な時間が削減され、生成モデルＭ1および生成モデルＭ2を効率的に訓練できる。

Ｂ：第２実施形態
第２実施形態を説明する。なお、以下に例示する各態様において機能が第１実施形態と同様である要素については、第１実施形態の説明と同様の符号を流用して各々の詳細な説明を適宜に省略する。

図１５は、第２実施形態における音響処理システム１００の機能的な構成を例示するブロック図である。第２実施形態の音響処理システム１００においては、第１実施形態の信号生成部３２Aが信号生成部３２Bに置換される。信号生成部３２B以外の要素（制御データ生成部２１，第１生成部３１および第２生成部３３）の構成および動作は、第１実施形態と同様である。

信号生成部３２Bは、信号生成部３２Aと同様に、基本周波数Ｆ0[t]と周波数特性Ｅ[t]と制御データＣ[t]とに応じて波形信号Ｗ[t]を単位期間毎に生成する。図１５の入力データＩ[t]は、基本周波数Ｆ0[t]と周波数特性Ｅ[t]と制御データＣ[t]とを含む。

信号生成部３２Bによる波形信号Ｗ[t]の生成には、訓練済の変換モデルＭcが利用される。変換モデルＭcは、入力データＩ[t]と波形信号Ｗ[t]との関係を学習した学習済モデル（いわゆるニューラルボコーダ）である。信号生成部３２Bは、変換モデルＭcにより入力データＩ[t]を処理することで波形信号Ｗ[t]を生成する。入力データＩ[t]のうち周波数特性Ｅ[t]に特に着目すると、信号生成部３２Bは、変換モデルＭcにより周波数特性Ｅ[t]を処理することで波形信号Ｗ[t]を生成する。

変換モデルＭcは、例えば深層ニューラルネットワークで構成される。例えば、再帰型ニューラルネットワークまたは畳込ニューラルネットワーク等の任意の形式の深層ニューラルネットワークが、変換モデルＭcとして利用される。複数種の深層ニューラルネットワークの組合せで変換モデルＭcが構成されてもよい。また、長短期記憶またはAttention等の付加的な要素が変換モデルＭcに搭載されてもよい。

図１６は、第２実施形態における波形生成処理Ｓaの手順を例示するフローチャートである。第２実施形態の波形生成処理Ｓaにおいては、第１実施形態の波形生成処理ＳaにおけるステップＳa4からステップＳa6が、図１６のステップＳa20に置換される。ステップＳa20において、信号生成部３２Bは、変換モデルＭcにより入力データＩ[t]を処理することで波形信号Ｗ[t]を生成する。ステップＳa20以外の各処理は、第１実施形態と同様である。第２実施形態においても第１実施形態と同様の効果が実現される。

Ｃ：変形例
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の各形態においては、生成モデルＭ1と生成モデルＭ2とを別体のモデルとして例示したが、生成モデルＭ1と生成モデルＭ2とが一体のモデル（以下「統合モデル」という）を構成してもよい。統合モデルは、入力データＸ[t]と、基本周波数Ｆ0[t]および周波数特性Ｅ[t]との関係を学習した統計的推定モデルである。第１生成部３１は、統合モデルにより入力データＸ[t]を順次に処理することで、目標音の基本周波数Ｆ0[t]および周波数特性Ｅ[t]を順次に生成する。以上に説明した統合モデルも、本開示における「生成モデル」の概念に包含される。

（２）前述の各形態においては、調波制御データＣh[t]が調波成分の変更の有無を２値的に指示する形態を例示したが、調波制御データＣh[t]が表す指示は以上の例示に限定されない。例えば、調波制御データＣh[t]が、調波成分の変更の内容を直接的に指示する形態も想定される。例えば、調波制御データＣh[t]は、周波数軸上の周波数帯域毎に調波成分の変更を指示する。例えば、調波成分の変更の方向（強調／抑制）と変更の度合とが調波制御データＣh[t]により指示される。調波特性変更部４２は、調波成分の強調が指示された周波数帯域については調波スペクトル包絡Ｅh[t]の成分値を増加し、調波成分の抑制が指示された周波数帯域については調波スペクトル包絡Ｅh[t]の成分値を減少する。調波特性変更部７１２も同様に動作する。対象ピークに関する前述の調整値αが、調波制御データＣh[t]により指示されてもよい。調波特性変更部４２は、調波制御データＣh[t]が指示する調整値αに応じての対象ピークを抑制する。すなわち、調波スペクトル包絡Ｅh[t]の各対象ピークが抑制される度合が、利用者からの指示に応じて制御される。

（３）前述の各形態においては、非調波制御データＣa[t]が周波数軸上の周波数帯域毎に非調波成分の変更を指示する形態を例示したが、非調波制御データＣa[t]が表す指示は以上の例示に限定されない。例えば、非調波制御データＣa[t]が、非調波成分の変更の有無を２値的に指示する形態も想定される。非調波成分の変更が非調波制御データＣa[t]により指示された場合、非調波特性変更部５２は、非調波スペクトル包絡Ｅa[t]の成分値を所定の規則により変更する。他方、非調波成分の維持が非調波制御データＣa[t]により指示された場合、非調波特性変更部５２は、非調波スペクトル包絡Ｅa[t]を非調波スペクトル包絡Ｅa'[t]として設定する。非調波特性変更部７２２も同様に動作する。

（４）調波特性変更部４２が生成する調波スペクトル包絡Ｅh'[t]が、調波スペクトル生成部７１による調波スペクトルＧh[t]の生成に利用されてもよい。すなわち、合成処理部７１３は、基礎スペクトル生成部７１１が生成する基礎スペクトルＶh[t]と、調波特性変更部４２が生成する調波スペクトル包絡Ｅh'[t]とに応じて調波スペクトルＧh[t]を生成してもよい。したがって、調波特性変更部７１２は省略されてよい。

また、非調波特性変更部５２が生成する非調波スペクトル包絡Ｅa'[t]が、非調波スペクトル生成部７２による非調波スペクトルＧa[t]の生成に利用されてもよい。すなわち、合成処理部７２３は、基礎スペクトル生成部７２１が生成する基礎スペクトルＶa[t]と、非調波特性変更部５２が生成する非調波スペクトル包絡Ｅa'[t]とに応じて非調波スペクトルＧa[t]を生成してもよい。したがって、非調波特性変更部７２２は省略されてよい。

（５）前述の各形態においては、制御データＣ[t]（Ｃh[t]，Ｃa[t]）に応じて周波数特性Ｅ[t]（Ｅh[t]，Ｅa[t]，Ｅm[t]）を変更する形態を例示したが、周波数特性Ｅ[t]の変更は省略されてもよい。すなわち、前述の各形態における調波特性変更部４２および非調波特性変更部５２は省略されてもよい。調波特性変更部７１２および非調波特性変更部７２２も同様に、省略されてよい。また、前述の各形態においては、利用者からの指示（指示データＵ）に応じて周波数特性Ｅ[t]が変更される形態を例示したが、周波数特性Ｅ[t]の変更に適用される要素は利用者からの指示に限定されない。例えば、外部装置から受信した指示データＵ、または音響処理システム１００の他の機能により生成された指示データＵに応じて制御データＣ[t]が生成されてもよい。

（６）前述の各形態においては、波形生成処理Ｓaと機械学習処理Ｓbとの双方を実行する音響処理システム１００を例示したが、機械学習処理Ｓbは省略されてよい。また、機械学習処理Ｓbのみを実行する機械学習システムも実現可能である。機械学習システムは、第１実施形態において例示した機械学習処理Ｓbを実行することで生成モデルＭ1および生成モデルＭ2（または前述の統合モデル）を確立する。機械学習システムが確立した生成モデルＭ1および生成モデルＭ2が、音響処理システム１００に転送されて波形生成処理Ｓaに利用される。

（７）前述の各形態においては、歌唱者が発音する歌唱音声または楽器が発音する楽音等の音楽的な音響を目標音として例示したが、音楽的な要素は目標音に必須ではない。例えば、音楽的な要素を含まない会話音を目標音として生成する場合にも、前述の各形態が同様に適用される。

（８）前述の各形態において、生成モデルＭ1および生成モデルＭ2は深層ニューラルネットワークに限定されない。例えば、ＨＭＭ（Hidden Markov Model）またはＳＶＭ（Support Vector Machine）等の任意の形式および種類の統計モデルが、生成モデルＭ1および生成モデルＭ2の一方または双方として利用されてもよい。第２実施形態における変換モデルＭcについても同様に、形式または種類は任意である。

（９）例えばスマートフォンまたはタブレット端末等の情報装置と通信するサーバ装置により音響処理システム１００が実現されてもよい。例えば、音響処理システム１００は、情報装置から楽曲データＳおよび指示データＵを受信し、前述の波形生成処理Ｓaにより波形信号Ｗ[t]を生成する。音響処理システム１００は、波形生成処理Ｓaにより生成した波形信号Ｗ[t]（音響信号Ａ）を情報装置に送信する。なお、楽曲データＳは音響処理システム１００に保持されてもよい。

（１０）音響処理システム１００の機能は、前述の通り、制御装置１１を構成する単数または複数のプロセッサと、記憶装置１２に記憶されたプログラムとの協働により実現される。以上のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記録媒体が、前述の非一過性の記録媒体に相当する。

Ｄ：付記
以上に例示した形態から、例えば以下の構成が把握される。

ひとつの態様（態様１）に係る音響処理方法は、生成されるべき目標音の条件を表す条件データを含む入力データを、訓練済の生成モデルにより順次に処理することで、前記目標音の第１音響特徴量を順次に生成し、前記第１音響特徴量の変更を指示する制御データを受取り、前記目標音の波形を表す時間領域の波形信号を、前記第１音響特徴量と前記制御データとに応じて生成し、前記第１音響特徴量と前記制御データとに応じて第２音響特徴量を生成し、第１時点における入力データは、前記第１時点よりも過去に生成された前記第２音響特徴量を含む。

以上の態様においては、訓練済の生成モデルにより生成された第１音響特徴量から時間領域の波形信号が生成され、第１音響特徴量と制御データとに応じた第２音響特徴量が生成モデルの入力側に帰還される。すなわち、第１音響特徴量から波形信号を生成する処理に付随する変動要因を反映した第２音響特徴量が、生成モデルによる第１音響特徴量の生成に利用される。したがって、第１音響特徴量が生成モデルの入力側に直接的に帰還する構成と比較して、聴感的に自然な目標音の波形信号を生成できる。

「目標音」とは、音響処理方法による生成の目標となる音響を意味する。例えば楽器の演奏音または歌唱者による歌唱音等の音楽的な音響が「目標音」の一例である。ただし、音楽的な要素を含まない会話音等の音声も「目標音」の概念には包含される。

「目標音の条件」とは、目標音の音響特性を制約する事項である。具体的には、目標音を構成する音符の音高または音量等の情報、当該音符の前後の音符に関する情報、または、目標音の発音源の特徴（例えば発音源である楽器の演奏者または演奏法）等の各種の情報が「目標音の条件」として指定される。条件データは、目標音の楽譜に関する特徴量（楽譜特徴量）とも換言される。

「生成モデル」は、入力データと第１音響特徴量との関係を機械学習により習得した学習済モデルである。例えば深層ニューラルネットワーク（ＤＮＮ：Deep Neural Network）、隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）、またはＳＶＭ（Support Vector Machine）等の各種の統計的推定モデルが、「生成モデル」として利用される。

「第１音響特徴量」は、周波数領域で表現される目標音の音響特性である。例えば、目標音の調波スペクトル包絡、および目標音の非調波スペクトル包絡等の周波数特性が「第１音響特徴量」として例示される。調波スペクトル包絡は、目標音の調波成分に関する強度スペクトル（例えば振幅スペクトルまたはパワースペクトル）の概形である。調波成分は、基本周波数の基音成分と、基本周波数の整数倍に相当する倍音周波数の複数の倍音成分とを含む。非調波スペクトル包絡は、目標音の非調波成分に関する強度スペクトルの概形である。非調波成分は、周波数領域において相互に隣合う２個の調波成分の間に存在する雑音成分であり、目標音の気息性に寄与する。なお、目標音の振幅スペクトル、パワースペクトル、メルスペクトル、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficients）等の各種の音響特徴量も、「第１音響特徴量」の概念には包含される。

「波形信号」は、時間軸上に配列されたサンプルの時系列である。複数の波形信号が時間軸上で相互に連結されることで、目標音の波形を表す音響信号が生成される。

「第２音響特徴量」は、第１音響特徴量と制御データとに応じた周波数領域の音響特性である。具体的には、制御データに応じた変更後の第１音響特徴量に対応する音響成分の周波数特性が「第２音響特徴量」として例示される。なお、振幅スペクトル、パワースペクトル、メルスペクトル、ＭＦＣＣ等の各種の音響特徴量も、「第２音響特徴量」の概念には包含される。

入力データは、当該入力データが対象とする第１時点よりも過去の時点について生成された１以上の第２音響特徴量を含む。例えば、入力データは、第１時点の直前の時点について生成された１個の第２音響特徴量を含む。また、入力データは、第１時点に対して過去の相異なる時点について生成された複数の第２音響特徴量を含んでもよい。

態様１の具体例（態様２）において、前記第１音響特徴量は、前記目標音の調波成分に関する調波スペクトル包絡を含み、前記制御データは、前記調波スペクトル包絡の変更を指示する調波制御データを含み、前記波形信号の生成においては、前記調波スペクトル包絡を前記調波制御データに応じて変更し、前記変更後の調波スペクトル包絡を利用して、前記目標音の調波成分を含む時間領域の調波信号を生成し、前記調波信号を利用して前記波形信号を生成し、前記第２音響特徴量の生成は、前記調波スペクトル包絡を前記調波制御データに応じて変更する処理を含む。

以上の態様においては、調波スペクトル包絡が調波制御データに応じて変更されるから、調波スペクトル包絡が変更されない構成と比較して多様な音響特性の調波信号を生成できる。また、調波制御データに応じて調波スペクトル包絡を変更する処理により第２音響特徴量が生成され、当該第２音響特徴量が生成モデルの入力側に帰還される。すなわち、調波制御データに応じた調波スペクトル包絡の変更（前述の変動要因の一例）が、生成モデルによる第１音響特徴量の生成に反映される。したがって、第１音響特徴量が生成モデルの入力側に直接的に帰還する構成と比較して、聴感的に自然な調波成分を含む目標音の波形信号を生成できる。

「調波制御データ」は、調波スペクトル包絡の変更を指示する任意の形式のデータである。例えば、調波スペクトル包絡における特定のピークの強調または抑圧を指示するデータ、または、調波スペクトル包絡のうち特定の周波数帯域の成分値について増加または減少を指示するデータが、「調波制御データ」として想定される。また、調波スペクトル包絡の変更の有無を指示するデータも「調波制御データ」として例示される。

「調波スペクトル包絡の変更」は、例えば、調波スペクトル包絡の成分値を変更する処理である。例えば、調波スペクトル包絡のうち特定の周波数帯域（例えばピークが存在する帯域）の成分値を増加または減少させる処理、または、調波スペクトル包絡におけるピーク幅を増加または減少させる処理が、「調波スペクトル包絡の変更」として例示される。

態様２の具体例（態様３）において、前記調波信号の生成においては、相異なる調波周波数に対応する複数の正弦波を生成し、前記複数の正弦波のレベルが前記調波スペクトル包絡に沿うように前記複数の正弦波を処理し、処理後の複数の正弦波を合成することで、前記調波信号を生成する。以上の態様においては、調波スペクトル包絡を利用して複数の正弦波を処理する時間領域の処理により、波形信号を簡便に生成できる。なお、「調波周波数」は、基本周波数と、当該基本周波数の整数倍に相当する複数の倍音周波数とを含む複数の周波数の何れかである。

調波信号を生成する処理は、各調波周波数に対応する調波成分のレベルを、調波スペクトル包絡のうち当該調波周波数における成分値に一致または近似させる処理である。例えば、時間領域のフィルタ処理により調波信号が生成される。フィルタ処理の応答特性は、調波スペクトル包絡に対応する応答特性に設定される。

態様３の具体例（態様４）において、前記調波スペクトル包絡の変更においては、前記調波スペクトル包絡の複数のピークのうち、極大値が所定値を上回ること、および、ピーク幅が所定値を下回ること、の少なくとも一方の条件を充足するピークを抑制する。以上の態様においては、調波スペクトル包絡の複数のピークのうち過大または急峻なピークが抑制される。したがって、調波スペクトル包絡における過大または急峻なピークが維持される構成と比較して、聴感的に自然な調波成分を含む目標音の波形信号を生成できる。

態様１から態様４の何れかの具体例（態様５）において、前記第１音響特徴量は、前記目標音の非調波成分に関する非調波スペクトル包絡を含み、前記制御データは、前記非調波スペクトル包絡の変更を指示する非調波制御データを含み、前記波形信号の生成においては、前記非調波スペクトル包絡を前記非調波制御データに応じて変更し、前記変更後の非調波スペクトル包絡を利用して、前記目標音の非調波成分を表す時間領域の非調波信号を生成し、前記非調波信号を利用して前記波形信号を生成し、前記第２音響特徴量の生成は、前記非調波スペクトル包絡を前記非調波制御データに応じて変更する処理を含む。

以上の態様においては、非調波スペクトル包絡が非調波制御データに応じて変更されるから、非調波スペクトル包絡が変更されない構成と比較して多様な音響特性の非調波信号を生成できる。また、非調波制御データに応じて非調波スペクトル包絡を変更する処理により第２音響特徴量が生成され、当該第２音響特徴量が生成モデルの入力側に帰還される。すなわち、非調波制御データに応じた非調波スペクトル包絡の変更（前述の変動要因の一例）が、生成モデルによる第１音響特徴量の生成に反映される。したがって、第１音響特徴量が生成モデルの入力側に直接的に帰還する構成と比較して、聴感的に自然な非調波成分を含む目標音の波形信号を生成できる。

「非調波制御データ」は、非調波スペクトル包絡の変更を指示する任意の形式のデータである。例えば、非調波スペクトル包絡における特定のピークの強調または抑圧を指示するデータ、または、非調波スペクトル包絡のうち特定の周波数帯域の成分値について増加または減少を指示するデータが、「非調波制御データ」として想定される。また、非調波スペクトル包絡の変更の有無を指示するデータも「非調波制御データ」として例示される。

「非調波スペクトル包絡の変更」は、例えば、非調波スペクトル包絡の成分値を変更する処理である。例えば、非調波スペクトル包絡のうち特定の周波数帯域（例えばピークが存在する帯域）の成分値を増加または減少させる処理、または、非調波スペクトル包絡におけるピーク幅を増加または減少させる処理が、「非調波スペクトル包絡の変更」として例示される。

態様５の具体例（態様６）において、前記非調波信号の生成においては、周波数特性が平坦な時間領域の雑音信号を生成し、非調波スペクトル包絡を適用したフィルタ処理を前記雑音信号に対して実行することで、前記非調波信号を生成する。以上の態様においては、非調波スペクトル包絡を適用した時間領域のフィルタ処理により、波形信号を簡便に生成できる。

態様１の具体例（態様７）において、前記波形信号の生成においては、前記第１音響特徴量を、訓練済の変換モデルにより処理することで、前記波形信号を生成する。「変換モデル」は、第１音響特徴量と波形信号との関係を機械学習により習得した学習済モデルである。例えば深層ニューラルネットワーク（ＤＮＮ：Deep Neural Network）、隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）、またはＳＶＭ（Support Vector Machine）等の各種の統計的推定モデルが、「変換モデル」として利用される。

ひとつの態様（態様８）に係る音響処理システムは、生成されるべき目標音の条件を表す条件データを含む入力データを、訓練済の生成モデルにより順次に処理することで、前記目標音の第１音響特徴量を順次に生成する第１生成部と、前記目標音の波形を表す時間領域の波形信号を、前記第１音響特徴量と、前記第１音響特徴量の変更を指示する制御データとに応じて生成する信号生成部と、前記第１音響特徴量と前記制御データとに応じて第２音響特徴量を生成する第２生成部とを具備し、第１時点における入力データは、前記第１時点よりも過去に生成された前記第２音響特徴量を含む。

ひとつの態様（態様９）に係るプログラムは、生成されるべき目標音の条件を表す条件データを含む入力データを、訓練済の生成モデルにより順次に処理することで、前記目標音の第１音響特徴量を順次に生成する第１生成部、前記目標音の波形を表す時間領域の波形信号を、前記第１音響特徴量と、前記第１音響特徴量の変更を指示する制御データとに応じて生成する信号生成部、および、前記第１音響特徴量と前記制御データとに応じて第２音響特徴量を生成する第２生成部、としてコンピュータシステムを機能させるプログラムであって、第１時点における入力データは、前記第１時点よりも過去に生成された前記第２音響特徴量を含む。

１００…音響処理システム、１１…制御装置、１２…記憶装置、１２１…情報保持部、１３…放音装置、１４…操作装置、２１…制御データ生成部、２２…音響処理部、３１…第１生成部、３２A，３２B…信号生成部、３３…第２生成部、４０…調波信号生成部、４１…正弦波生成部、４２…調波特性変更部、４３…調波信号合成部、５０…非調波信号生成部、５１…基礎信号生成部、５２…非調波特性変更部、５３…非調波信号合成部、６００…信号混合部、７１…調波スペクトル生成部、７１１，７２１…基礎スペクトル生成部、７１２…調波特性変更部、７１３，７２３…合成処理部、７２…非調波スペクトル生成部、７２２…非調波特性変更部、７３…スペクトル合成部、８１…周波数解析部、８２…学習処理部、Ｍ1，Ｍ2…生成モデル、Ｍc…変換モデル。

Claims

生成されるべき目標音の条件を表す条件データを含む入力データを、訓練済の生成モデルにより順次に処理することで、前記目標音の第１音響特徴量を順次に生成し、
前記第１音響特徴量の変更を指示する制御データを受取り、
前記目標音の波形を表す時間領域の波形信号を、前記第１音響特徴量と前記制御データとに応じて生成し、
前記第１音響特徴量と前記制御データとに応じて第２音響特徴量を生成し、
第１時点における入力データは、前記第１時点よりも過去に生成された前記第２音響特徴量を含む
音響処理方法。
前記第１音響特徴量は、前記目標音の調波成分に関する調波スペクトル包絡を含み、
前記制御データは、前記調波スペクトル包絡の変更を指示する調波制御データを含み、
前記波形信号の生成においては、
前記調波スペクトル包絡を前記調波制御データに応じて変更し、
前記変更後の調波スペクトル包絡を利用して、前記目標音の調波成分を含む時間領域の調波信号を生成し、
前記調波信号を利用して前記波形信号を生成し、
前記第２音響特徴量の生成は、
前記調波スペクトル包絡を前記調波制御データに応じて変更する処理を含む
請求項１の音響処理方法。
前記調波信号の生成においては、
相異なる調波周波数に対応する複数の正弦波を生成し、
前記複数の正弦波のレベルが前記調波スペクトル包絡に沿うように前記複数の正弦波を処理し、処理後の複数の正弦波を合成することで、前記調波信号を生成する
請求項２の音響処理方法。
前記調波スペクトル包絡の変更においては、
前記調波スペクトル包絡の複数のピークのうち、極大値が所定値を上回ること、および、ピーク幅が所定値を下回ること、の少なくとも一方の条件を充足するピークを抑制する
請求項３の音響処理方法。
前記第１音響特徴量は、前記目標音の非調波成分に関する非調波スペクトル包絡を含み、
前記制御データは、前記非調波スペクトル包絡の変更を指示する非調波制御データを含み、
前記波形信号の生成においては、
前記非調波スペクトル包絡を前記非調波制御データに応じて変更し、
前記変更後の非調波スペクトル包絡を利用して、前記目標音の非調波成分を表す時間領域の非調波信号を生成し、
前記非調波信号を利用して前記波形信号を生成し、
前記第２音響特徴量の生成は、
前記非調波スペクトル包絡を前記非調波制御データに応じて変更する処理を含む
請求項１から請求項４の何れかの音響処理方法。
前記非調波信号の生成においては、
周波数特性が平坦な時間領域の雑音信号を生成し、
非調波スペクトル包絡を適用したフィルタ処理を前記雑音信号に対して実行することで、前記非調波信号を生成する
請求項５の音響処理方法。
前記波形信号の生成においては、
前記第１音響特徴量を、訓練済の変換モデルにより処理することで、前記波形信号を生成する
請求項１の音響処理方法。
生成されるべき目標音の条件を表す条件データを含む入力データを、訓練済の生成モデルにより順次に処理することで、前記目標音の第１音響特徴量を順次に生成する第１生成部と、
前記目標音の波形を表す時間領域の波形信号を、前記第１音響特徴量と、前記第１音響特徴量の変更を指示する制御データとに応じて生成する信号生成部と、
前記第１音響特徴量と前記制御データとに応じて第２音響特徴量を生成する第２生成部とを具備し、
第１時点における入力データは、前記第１時点よりも過去に生成された前記第２音響特徴量を含む
音響処理システム。
生成されるべき目標音の条件を表す条件データを含む入力データを、訓練済の生成モデルにより順次に処理することで、前記目標音の第１音響特徴量を順次に生成する第１生成部、
前記目標音の波形を表す時間領域の波形信号を、前記第１音響特徴量と、前記第１音響特徴量の変更を指示する制御データとに応じて生成する信号生成部、および、
前記第１音響特徴量と前記制御データとに応じて第２音響特徴量を生成する第２生成部、
としてコンピュータシステムを機能させるプログラムであって、
第１時点における入力データは、前記第１時点よりも過去に生成された前記第２音響特徴量を含む
プログラム。