JP2023060744A - 音響処理方法、音響処理システムおよびプログラム - Google Patents

音響処理方法、音響処理システムおよびプログラム Download PDF

Info

Publication number
JP2023060744A
JP2023060744A JP2021170506A JP2021170506A JP2023060744A JP 2023060744 A JP2023060744 A JP 2023060744A JP 2021170506 A JP2021170506 A JP 2021170506A JP 2021170506 A JP2021170506 A JP 2021170506A JP 2023060744 A JP2023060744 A JP 2023060744A
Authority
JP
Japan
Prior art keywords
harmonic
inharmonic
signal
control data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021170506A
Other languages
English (en)
Inventor
竜之介 大道
Ryunosuke Daido
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2021170506A priority Critical patent/JP2023060744A/ja
Priority to PCT/JP2022/037223 priority patent/WO2023068042A1/ja
Publication of JP2023060744A publication Critical patent/JP2023060744A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H5/00Instruments in which the tones are generated by means of electronic generators
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

【課題】聴感的に自然な目標音の波形信号を生成する。【解決手段】音響処理システム100は、目標音の条件を表す条件データD[t]を含む入力データX[t]を、訓練済の生成モデルM2により順次に処理することで、目標音の周波数特性E[t]を順次に生成する第1生成部31と、目標音の波形を表す時間領域の波形信号W[t]を、周波数特性E[t]と、周波数特性E[t]の変更を指示する制御データC[t]とに応じて生成する信号生成部32Aと、周波数特性E[t]と制御データC[t]とに応じて周波数特性Q[t]を生成する第2生成部33とを具備し、第1時点における入力データX[t]は、当該第1時点よりも過去に生成された周波数特性Q[t]を含む。【選択図】図2

Description

本開示は、音響処理に関する。
所望の音(以下「目標音」という)を生成する各種の技術が従来から提案されている。例えば非特許文献1には、訓練済の生成モデルを利用して目標音の波形信号を生成する技術が開示されている。非特許文献1の技術における生成モデルは、目標音の周波数特性を生成する。周波数特性が時間領域の波形信号に変換される。また、生成モデルが生成した周波数特性は、当該生成モデルの入力側に帰還される。すなわち、生成モデルによる現在の周波数特性の生成には、過去に生成された周波数特性が利用される。
Blaauw, Merlijn, and Jordi Bonada. "A NEURAL PARAMETRIC SINGING SYNTHESIZER." arXiv preprint arXiv: 1704.03809v3 (2017)
周波数特性から波形信号を生成する処理には種々の変動要因が付随する。例えば、乱数を利用した確率的な処理で波形信号を生成する形態では、波形信号の音響特性が乱数に応じて変動する。また、例えば利用者からの指示に応じて周波数特性が調整される構成では、利用者からの指示に応じて波形信号の音響特性が変動する。非特許文献1の技術においては、前述の通り、生成モデルが生成した直後の周波数特性が、当該生成モデルの入力側に帰還される。すなわち、以上に例示した変動要因が反映されていない周波数特性が生成モデルに帰還される。したがって、聴感的に自然な印象の目標音を生成するには限界がある。以上の事情を考慮して、本開示のひとつの態様は、聴感的に自然な目標音の波形信号を生成することを目的とする。
以上の課題を解決するために、本開示のひとつの態様に係る音響処理方法は、生成されるべき目標音の条件を表す条件データを含む入力データを、訓練済の生成モデルにより順次に処理することで、前記目標音の第1音響特徴量を順次に生成し、前記第1音響特徴量の変更を指示する制御データを受取り、前記目標音の波形を表す時間領域の波形信号を、前記第1音響特徴量と前記制御データとに応じて生成し、前記第1音響特徴量と前記制御データとに応じて第2音響特徴量を生成し、第1時点における入力データは、前記第1時点よりも過去に生成された前記第2音響特徴量を含む。
本開示のひとつの態様に係る音響処理システムは、生成されるべき目標音の条件を表す条件データを含む入力データを、訓練済の生成モデルにより順次に処理することで、前記目標音の第1音響特徴量を順次に生成する第1生成部と、前記目標音の波形を表す時間領域の波形信号を、前記第1音響特徴量と、前記第1音響特徴量の変更を指示する制御データとに応じて生成する信号生成部と、前記第1音響特徴量と前記制御データとに応じて第2音響特徴量を生成する第2生成部とを具備し、第1時点における入力データは、前記第1時点よりも過去に生成された前記第2音響特徴量を含む。
本開示のひとつの態様に係るプログラムは、生成されるべき目標音の条件を表す条件データを含む入力データを、訓練済の生成モデルにより順次に処理することで、前記目標音の第1音響特徴量を順次に生成する第1生成部、前記目標音の波形を表す時間領域の波形信号を、前記第1音響特徴量と、前記第1音響特徴量の変更を指示する制御データとに応じて生成する信号生成部、および、前記第1音響特徴量と前記制御データとに応じて第2音響特徴量を生成する第2生成部、としてコンピュータシステムを機能させるプログラムであって、第1時点における入力データは、前記第1時点よりも過去に生成された前記第2音響特徴量を含む。
第1実施形態における音響処理システムの構成を例示するブロック図である。 音響処理システムの機能的な構成を例示するブロック図である。 音響処理部による処理の説明図である。 調波信号生成部の詳細な構成を例示するブロック図である。 調波スペクトル包絡を変更する処理の説明図である。 非調波信号生成部の詳細な構成を例示するブロック図である。 第2生成部の詳細な構成を例示するブロック図である。 第2生成部による処理の説明図である。 波形生成処理の詳細な手順を例示するフローチャートである。 第1学習処理に関する機能的な構成を例示するブロック図である。 第2学習処理に関する機能的な構成を例示するブロック図である。 第1学習処理の詳細な手順を例示するフローチャートである。 第2学習処理の詳細な手順を例示するフローチャートである。 変形例の機械学習処理に関する機能的な構成を例示するブロック図である。 第2実施形態における音響処理システムの機能的な構成を例示するブロック図である。 第2実施形態における波形生成処理の詳細な手順を例示するフローチャートである。
A:第1実施形態
図1は、第1実施形態に係る音響処理システム100の構成を例示するブロック図である。音響処理システム100は、任意の目標音を生成するコンピュータシステムである。目標音は、音響処理システム100により生成されるべき音響である。目標音は、例えば、歌唱者が発音する歌唱音声、または楽器が発音する楽音である。
音響処理システム100は、制御装置11と記憶装置12と放音装置13と操作装置14とを具備する。音響処理システム100は、例えばスマートフォン、タブレット端末またはパーソナルコンピュータ等の情報端末により実現される。なお、音響処理システム100は、単体の装置で実現されるほか、相互に別体で構成された複数の装置でも実現される。
制御装置11は、音響処理システム100の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置11は、CPU(Central Processing Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、またはASIC(Application Specific Integrated Circuit)等の1種類以上のプロセッサにより構成される。制御装置11は、目標音の波形を表す音響信号Aを生成する。
記憶装置12は、制御装置11が実行するプログラムと、制御装置11が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置12は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成される。なお、音響処理システム100に対して着脱される可搬型の記録媒体、または通信網を介して制御装置11が書込または読出を実行可能な記録媒体(例えばクラウドストレージ)が、記憶装置12として利用されてもよい。
記憶装置12は、楽曲を表す楽曲データSを記憶する。楽曲データSは、楽曲を構成する複数の音符の各々について音高と発音期間とを指定する。目標音が歌唱音声である場合、楽曲データSは、音高および発音期間に加えて音素符号を音符毎に指定する。なお、音楽的な表情を表す演奏記号等の情報を、楽曲データSが指定してもよい。
操作装置14は、利用者からの指示を受付ける入力機器である。操作装置14は、例えば、利用者が操作する操作子、または、利用者による接触を検知するタッチパネルである。なお、音響処理システム100とは別体の操作装置14(例えばマウスまたはキーボード)を、音響処理システム100に対して有線または無線により接続してもよい。
放音装置13は、音響信号Aが表す目標音を再生する。放音装置13は、例えばスピーカまたはヘッドホンである。なお、音響信号Aをデジタルからアナログに変換するD/A変換器と、音響信号Aを増幅する増幅器とは、便宜的に図示が省略されている。また、音響処理システム100とは別体の放音装置13を、音響処理システム100に対して有線または無線により接続してもよい。
図2は、音響処理システム100の機能的な構成を例示するブロック図である。制御装置11は、記憶装置12に記憶されたプログラムを実行することで、音響信号Aを生成するための複数の機能(制御データ生成部21および音響処理部22)を実現する。
制御データ生成部21には指示データUが供給される。指示データUは、操作装置14に対する利用者からの指示を表すデータである。具体的には、指示データUは、目標音に関する利用者からの指示を表す。例えば、目標音の音量、目標音に関する転調、目標音に想定される仮想的な発音者、または目標音に想定される発音方法が、指示データUにより指定される。目標音の仮想的な発音者は、例えば歌唱音声の歌唱者、または楽器の演奏者である。また、目標音の発音方法は、例えば歌唱技法または演奏技法である。
制御データ生成部21は、楽曲データSおよび指示データUに応じて条件データD[t]および制御データC[t](Ch[t],Ca[t])を生成する。条件データD[t]および制御データC[t]は、時間軸上の複数の単位期間の各々において順次に生成される。記号tは、時間軸上の1個の単位期間を示す変数である。各単位期間は、所定長の期間である。具体的には、各単位期間は、楽曲データSが音符毎に指定する発音期間の時間長よりも充分に短い時間長に設定される。なお、時間軸上で相前後する各単位期間は部分的に重複してもよい。制御データC[t]は、目標音の音響特性を制御するためのデータである。なお、制御データC[t]の詳細については後述する。
条件データD[t]は、目標音の条件を表すデータである。具体的には、目標音を表す音符に関する情報、発音者の識別情報、発音方法の識別情報が、条件データD[t]に含まれる。目標音を表す音符に関する情報は、例えば当該音符の音高または音量、当該音符の前後の音符に関する情報を含む。したがって、条件データD[t]は、楽曲データSが表す楽曲の楽譜に関する特徴量(楽譜特徴量)とも換言される。また、発音者の識別情報は、発音者を識別するための情報である。発音者の識別情報は、例えば、多次元の仮想空間内に設定される埋込ベクトル(embedding vector)で表現される。仮想空間は、発音者が発音する音響の特徴に応じて各発音者の位置が決定される連続空間である。すなわち、音響の特徴が類似するほど、各発音者の識別情報は仮想空間内で近い座標に位置する。発音方法の識別情報は、発音方法を識別するための情報である。発音方法の識別情報は、発音者の識別情報と同様に、例えば、多次元の仮想空間内に設定される埋込ベクトル(embedding vector)で表現される。仮想空間は、発音方法により発音される音響の特徴に応じて各発音方法の位置が決定される連続空間である。すなわち、音響の特徴が類似するほど、各発音方法の識別情報は仮想空間内で近い座標に位置する。
制御データ生成部21は、楽曲データSおよび指示データUに対する所定の演算処理により条件データD[t]および制御データC[t]を生成する。なお、制御データ生成部21は、深層ニューラルネットワーク(DNN:Deep Neural Network)等の生成モデルを利用して条件データD[t]および制御データC[t]を生成してもよい。生成モデルは、楽曲データSおよび指示データUを含む入力データと、条件データD[t]および制御データC[t]を含む出力データとの関係を機械学習により学習した統計的推定モデルである。
音響処理部22は、条件データD[t]と制御データC[t](Ch[t],Ca[t])とに応じて波形信号W[t]を生成する。単位期間毎に波形信号W[t]が生成される。波形信号W[t]は、目標音の波形を表す時間領域の信号である。具体的には、各単位期間の波形信号W[t]は、音響信号Aのうち当該単位期間内のサンプルの時系列で構成される。すなわち、複数の波形信号W[t]を時間軸上で相互に連結することで音響信号Aが生成される。
図3は、音響処理部22による処理の説明図である。図3の記号fは周波数を意味する。目標音は、調波成分と非調波成分とを含む。調波成分は、基音成分と複数の倍音成分とで構成される周期的な音響成分である。基音成分は、基本周波数F0[t]の音響成分である。複数の倍音成分の各々は、基本周波数F0[t]の整数倍である倍音周波数n・F0[t]の音響成分である。他方、非調波成分は、周波数領域の広範囲にわたる非周期的な雑音成分である。非調波成分は、目標音の気息性に寄与する。
図2に例示される通り、制御データC[t]は、調波制御データCh[t]と非調波制御データCa[t]とを含む。調波制御データCh[t]は、目標音の調波成分を制御するためのデータである。非調波制御データCa[t]は、目標音の非調波成分を制御するためのデータである。
音響処理部22は、第1生成部31と信号生成部32Aと第2生成部33とを具備する。第1生成部31は、基本周波数F0[t]と周波数特性E[t]とを単位期間毎に順次に生成する。基本周波数F0[t]は、前述の通り、目標音の調波成分のうち基音成分の周波数である。
第1生成部31は、条件データD[t]から基本周波数F0[t]を生成する。第1生成部31による基本周波数F0[t]の生成には、生成モデルM1が利用される。生成モデルM1は、条件データD[t]と基本周波数F0[t]との関係を機械学習により学習した統計的推定モデルである。すなわち、生成モデルM1は、条件データD[t]に対して統計的に妥当な基本周波数F0[t]を出力する。具体的には、生成モデルM1は、条件データD[t]から基本周波数F0[t]を生成する演算を制御装置11に実行させるプログラムと、当該演算に適用される複数の変数との組合せで実現される。複数の変数の各々の数値は、機械学習により事前に設定される。第1生成部31は、条件データD[t]を生成モデルM1に入力することで基本周波数F0[t]を生成する。
生成モデルM1は、例えば深層ニューラルネットワークで構成される。例えば、再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)、または畳込ニューラルネットワーク(CNN:Convolutional Neural Network)等の任意の形式の深層ニューラルネットワークが生成モデルM1として利用される。複数種の深層ニューラルネットワークの組合せで生成モデルM1が構成されてもよい。また、長短期記憶(LSTM:Long Short-Term Memory)またはAttention等の付加的な要素が生成モデルM1に搭載されてもよい。
周波数特性E[t]は、周波数領域で表現される目標音の音響特徴量である。具体的には、周波数特性E[t]は、調波スペクトル包絡Eh[t]と非調波スペクトル包絡Ea[t]とを含む。調波スペクトル包絡Eh[t]は、目標音の調波成分に関する強度スペクトルの概形である。また、非調波スペクトル包絡Ea[t]は、目標音の非調波成分に関する強度スペクトルの概形である。なお、強度スペクトルは、振幅スペクトルまたはパワースペクトルである。調波スペクトル包絡Eh[t]および非調波スペクトル包絡Ea[t]は、例えばMFSC(Mel Frequency Spectral Coefficients)で表現される。周波数特性E[t]は「第1音響特徴量」の一例である。
第1生成部31は、各単位期間の入力データX[t]から周波数特性E[t]を生成する。入力データX[t]は、条件データD[t]と基本周波数F0[t]と帰還データR[t]とを含む。各単位期間の帰還データR[t]は、当該単位期間よりも過去の単位期間における目標音の音響特性を表すデータである。帰還データR[t]の詳細については後述する。
第1生成部31による周波数特性E[t]の生成には、生成モデルM2が利用される。生成モデルM2は、入力データX[t]と周波数特性E[t]との関係を機械学習により学習した統計的推定モデルである。すなわち、生成モデルM2は、入力データX[t]に対して統計的に妥当な周波数特性E[t]を出力する。具体的には、生成モデルM2は、入力データX[t]から周波数特性E[t]を生成する演算を制御装置11に実行させるプログラムと、当該演算に適用される複数の変数との組合せで実現される。複数の変数の各々の数値は、機械学習により事前に設定される。以上の説明から理解される通り、第1生成部31は、生成モデルM1により入力データX[t]を順次に処理することで、目標音の周波数特性E[t]を順次に生成する。
生成モデルM2は、例えば深層ニューラルネットワークで構成される。例えば、再帰型ニューラルネットワークまたは畳込ニューラルネットワーク等の任意の形式の深層ニューラルネットワークが生成モデルM2として利用される。複数種の深層ニューラルネットワークの組合せで生成モデルM2が構成されてもよい。また、長短期記憶またはAttention等の付加的な要素が生成モデルM2に搭載されてもよい。
信号生成部32Aは、基本周波数F0[t]と周波数特性E[t]と制御データC[t](Ch[t],Ca[t])とに応じて波形信号W[t]を順次に生成する。前述の通り、波形信号W[t]は単位期間毎に生成される。信号生成部32Aは、調波信号生成部40と非調波信号生成部50と信号混合部60とを含む。
調波信号生成部40は、基本周波数F0[t]と調波スペクトル包絡Eh[t]と調波制御データCh[t]とに応じて調波信号Zh[t]を生成する。調波信号生成部40は、単位期間毎に調波信号Zh[t]を生成する。調波信号Zh[t]は、目標音の調波成分を表す時間領域の信号である。
非調波信号生成部50は、非調波スペクトル包絡Ea[t]と非調波制御データCa[t]とに応じて非調波信号Za[t]を生成する。非調波信号生成部50は、単位期間毎に非調波信号Za[t]を生成する。非調波信号Za[t]は、目標音の非調波成分を表す時間領域の信号である。
信号混合部60は、調波信号Zh[t]と非調波信号Za[t]とに応じて波形信号W[t]を生成する。具体的には、信号混合部60は、調波信号Zh[t]と非調波信号Za[t]とを混合することで波形信号W[t]を生成する。なお、信号混合部60は、調波信号Zh[t]と非調波信号Za[t]との加重和により波形信号W[t]を生成してもよい。信号混合部60が順次に生成する波形信号W[t]の時系列が音響信号Aとして放音装置13に供給される。
第2生成部33は、基本周波数F0[t]と周波数特性E[t]と制御データC[t]とに応じて周波数特性Q[t]を生成する。第2生成部33は、単位期間毎に周波数特性Q[t]を生成する。周波数特性Q[t]は、周波数領域で表現される目標音の音響特徴量である。具体的には、周波数特性Q[t]は、目標音の強度スペクトル(振幅スペクトルまたはパワースペクトル)である。周波数特性Q[t]は、目標音を表す波形信号W[t]の強度スペクトルとも換言される。周波数特性Q[t]は「第2音響特徴量」の一例である。
情報保持部121は、記憶装置12の一部の記憶領域により構成されるバッファである。情報保持部121は、最新のP個の周波数特性Q[t]を保持する(Pは1以上の自然数)。具体的には、情報保持部121は、条件データD[t]に対応する現在の単位期間よりも過去に生成されたP個の周波数特性Q[t-1]~Q[t-P]を保持する。記号tが示す現在の単位期間は、「第1時点」の一例である。
各単位期間の入力データX[t]は、情報保持部121が保持するP個の周波数特性Q[t-1]~Q[t-P]を帰還データR[t]として含む。すなわち、1個の単位期間(第1時点)の入力データX[t]は、当該単位期間の基本周波数F0[t]および条件データD[t]に加えて、当該単位期間よりも過去に生成されたP個の周波数特性Q[t-1]~Q[t-P](帰還データR[t])を含む。なお、帰還データR[t]は1個(P=1)の周波数特性Q[t-1]のみで構成されてもよい。
以上に説明した通り、第1実施形態においては、生成モデルM2により生成された周波数特性E[t]から時間領域の波形信号W[t]が生成される。そして、目標音の周波数特性Q[t-1]~Q[t-P]が帰還データR[t]として生成モデルM2の入力側に帰還される。すなわち、信号生成部32Aが周波数特性E[t]から波形信号W[t]を生成する処理に付随する変動要因が反映された周波数特性Q[t-1]~Q[t-P]が、生成モデルM2による周波数特性E[t]の生成に利用される。したがって、周波数特性E[t]が生成モデルM2の入力側に直接的に帰還される構成と比較して、聴感的に自然な目標音の波形信号W[t]を生成できる。
[調波信号生成部40]
図4は、調波信号生成部40の詳細な構成を例示するブロック図である。調波信号生成部40は、正弦波生成部41と調波特性変更部42と調波信号合成部43とを具備する。
正弦波生成部41は、N個の正弦波h[t,1]~h[t,N]を単位期間毎に生成する。各正弦波h[t,n](n=1~N)は、時間領域の信号である。図3には、N個の正弦波h[t,1]~h[t,N]の強度スペクトルが便宜的に図示されている。N個の正弦波h[t,1]~h[t,N]は、基本周波数F0[t]の整数倍に対応する相異なる調波周波数n・F0[t]の音響成分である。具体的には、正弦波h[t,1]は基本周波数F0[t]の基音成分であり、正弦波h[t,2]~h[t,N]は、基本周波数F0[t]のn倍に相当する倍音周波数n・F0[t]の倍音成分である。N個の正弦波h[t,1]~h[t,N]のレベル(例えば振幅またはパワー)は共通の所定値(例えば1)に設定される。以上に説明した通り、正弦波生成部41は、相異なる調波周波数n・F0[t]に対応する時間領域のN個の正弦波h[t,1]~h[t,N]を生成する。
利用者は、操作装置14を操作することで、目標音の調波成分について変更を指示できる。具体的には、利用者は、目標音の調波成分のうち聴感的に不快と知覚され得る音響成分について変更の有無を指示できる。前述の指示データUは、調波成分に関する変更の有無の指示を含む。制御データ生成部21は、調波成分の変更の有無を表す調波制御データCh[t]を、指示データUに応じて単位期間毎に生成する。以上に説明した調波制御データCh[t]が、調波信号生成部40に供給される。
調波特性変更部42は、調波スペクトル包絡Eh[t]の形状を変更することで調波スペクトル包絡Eh'[t]を生成する。具体的には、調波特性変更部42は、調波制御データCh[t]を制御データ生成部21から受取り、調波スペクトル包絡Eh[t]を当該調波制御データCh[t]に応じて変更する。以上の説明から理解される通り、調波制御データCh[t]は、調波スペクトル包絡Eh[t]の変更を指示するデータである。第1実施形態の調波制御データCh[t]は、調波スペクトル包絡Eh[t]の変更の有無を指示する。調波スペクトル包絡Eh[t]の維持が調波制御データCh[t]により指示された場合、調波特性変更部42は、調波スペクトル包絡Eh[t]を調波スペクトル包絡Eh'[t]として設定する。すなわち、調波スペクトル包絡Eh[t]は維持される。調波スペクトル包絡Eh[t]の変更が調波制御データCh[t]により指示された場合、調波特性変更部42は、調波スペクトル包絡Eh[t]の変更により調波スペクトル包絡Eh'[t]を生成する。以上の説明から理解される通り、調波特性変更部42は、利用者からの指示に応じて調波スペクトル包絡Eh[t]を変更する。
図5は、調波特性変更部42が調波スペクトル包絡Eh[t]を変更する処理の説明図である。調波特性変更部42は、調波スペクトル包絡Eh[t]の複数のピークのうち所定の条件(以下「抑制条件」という)を充足する1個以上のピーク(以下「対象ピーク」という)を抑制することで調波スペクトル包絡Eh'[t]を生成する。抑制条件は、第1条件と第2条件とを含む。
第1条件は、所定の周波数Fthを上回る周波数帯域内において、極大値(ピーク値)ρが所定の閾値ρthを上回ることである。周波数Fthは、例えば2kHzに設定される。閾値ρthは所定の数値(例えば-60dB)に設定される。第2条件は、周波数Fthを上回る周波数帯域内において、ピーク幅ωが所定の閾値ωthを下回ることである。ピーク幅ωは例えば半値幅であり、閾値ωthは所定の正数に設定される。調波特性変更部42は、調波スペクトル包絡Eh[t]の複数のピークのうち第1条件および第2条件の双方を充足するピークを対象ピークとして選択する。なお、第1条件および第2条件の一方を充足するピークが対象ピークとして選択されてもよい。以上の説明から理解される通り、周波数軸上において周波数Fthを下回る周波数帯域内のピークは、ピーク値ρおよびピーク幅ωの如何に関わらず抑制の対象にならない。ただし、第1条件および第2条件において、所定の周波数Fthを上回る周波数帯域内という制限を省略してもよい。
調波特性変更部42は、対象ピークを調整値αに応じて抑制する。調整値αは、1を下回る正数であり、例えば1/2に設定される。調波特性変更部42は、対象ピークピーク値ρに調整値αを乗算することで当該対象ピークを抑制する。例えば、調整値αが1/2に設定された形態では、対象ピークのピーク値ρが変更前の半分(ρ/2)となるように当該対象ピークが抑制される。なお、調整値αの具体的な数値は以上の例示に限定されない。
図4の調波信号合成部43は、調波スペクトル包絡Eh'[t]とN個の正弦波h[t,1]~h[t,N]とに応じて調波信号Zh[t]を生成する。図3には、調波信号Zh[t]の強度スペクトルが便宜的に図示されている。調波信号合成部43は、N個の正弦波h[t,1]~h[t,N]のレベルを調波スペクトル包絡Eh'[t]に応じて変更し、変更後のN個の正弦波h[t,1]~h[t,N]を合成することで調波信号Zh[t]を生成する。具体的には、調波信号合成部43は、N個の正弦波h[t,1]~h[t,N]のレベルが調波スペクトル包絡Eh'[t]に沿うように各正弦波h[t,n]を処理する。すなわち、各正弦波h[t,n]のレベルは、周波数軸上の調波周波数n・F0[t]における調波スペクトル包絡Eh'[t]の成分値に変更される。そして、調波信号合成部43は、以上に説明した変更後のN個の正弦波h[t,1]~h[t,N]を加算することで調波信号Zh[t]を生成する。以上の例示の通り、第1実施形態によれば、調波スペクトル包絡Eh[t]を利用して各正弦波h[t,n]を処理する時間領域の処理により、調波信号Zh[t]を簡便に生成できる。
調波信号生成部40が調波信号Zh[t]を生成するための構成および処理は以上の通りである。第1実施形態においては、調波スペクトル包絡Eh[t]が調波制御データCh[t]に応じて変更される。具体的には、N個の正弦波h[t,1]~h[t,N]の各々のレベルが調波制御データCh[t]に応じて変更される。したがって、調波スペクトル包絡Eh[t](ひいてはN個の正弦波h[t,1]~h[t,N])が変更されない構成と比較して多様な音響特性の調波信号Zh[t]を生成できる。すなわち、目標音の調波成分の音響特性を多様化できる。なお、調波制御データCh[t]に応じた調波スペクトル包絡Eh[t]の変更は、信号生成部32Aが周波数特性E[t]から波形信号W[t]を生成する処理に関する変動要因の一例である。
また、第1実施形態においては、調波スペクトル包絡Eh[t]の複数のピークのうち過大または急峻なピークが抑制される。したがって、調波スペクトル包絡Eh[t]における過大または急峻なピークが維持される構成と比較して、聴感的に自然な調波成分を含む目標音の波形信号W[t]を生成できる。
[非調波信号生成部50]
図6は、非調波信号生成部50の詳細な構成を例示するブロック図である。非調波信号生成部50は、基礎信号生成部51と非調波特性変更部52と非調波信号合成部53とを具備する。
基礎信号生成部51は、基礎非調波信号Ba[t]を単位期間毎に生成する。図3には、基礎非調波信号Ba[t]の強度スペクトルが図示されている。基礎非調波信号Ba[t]は、周波数特性が平坦な時間領域の信号である。例えば基礎非調波信号Ba[t]は、白色雑音を表す雑音信号である。基礎非調波信号Ba[t]の生成には公知の信号処理技術が任意に採用される。例えば、所定の確率分布に従う乱数の発生により、基礎非調波信号Ba[t]が確率的に生成される。
利用者は、操作装置14を操作することで、目標音の非調波成分に関する変更を指示できる。前述の指示データUは、非調波成分に関する変更の指示を含む。制御データ生成部21は、非調波成分の変更を指示する非調波制御データCa[t]を、指示データUに応じて単位期間毎に生成する。非調波制御データCa[t]は、例えば周波数軸上の周波数帯域毎に非調波成分の変更を指示する。例えば、非調波成分の変更の方向(強調/抑制)と変更の度合とが、非調波制御データCa[t]により指示される。以上に説明した非調波制御データCa[t]が、非調波信号生成部50に供給される。
非調波特性変更部52は、非調波スペクトル包絡Ea[t]の形状を変更することで非調波スペクトル包絡Ea'[t]を生成する。具体的には、非調波特性変更部52は、非調波制御データCa[t]を制御データ生成部21から受取り、非調波スペクトル包絡Ea[t]を当該非調波制御データCa[t]に応じて変更する。例えば、非調波特性変更部52は、非調波成分の強調が指示された周波数帯域については非調波スペクトル包絡Ea[t]の成分値を増加し、非調波成分の抑制が指示された周波数帯域については非調波スペクトル包絡Ea[t]の成分値を減少する。以上の説明から理解される通り、非調波制御データCa[t]は、非調波スペクトル包絡Ea[t]の変更を指示するデータである。すなわち、非調波特性変更部52は、利用者からの指示に応じて非調波スペクトル包絡Ea[t]を変更する。
非調波信号合成部53は、非調波スペクトル包絡Ea'[t]と基礎非調波信号Ba[t]とに応じて非調波信号Za[t]を生成する。図3には、非調波信号Za[t]の強度スペクトルが便宜的に図示されている。非調波信号合成部53は、基礎非調波信号Ba[t]に対して非調波フィルタ処理を実行することで非調波信号Za[t]を生成する。非調波フィルタ処理には、非調波スペクトル包絡Ea'[t]が応答特性として適用される。以上の例示の通り、第1実施形態によれば、非調波スペクトル包絡Ea[t]を利用して基礎非調波信号Ba[t]を処理する時間領域の処理により、非調波信号Za[t]を簡便に生成できる。
非調波信号生成部50が非調波信号Za[t]を生成するための構成および処理は以上の通りである。第1実施形態においては、非調波スペクトル包絡Ea[t]が非調波制御データCa[t]に応じて変更されるから、非調波スペクトル包絡Ea[t]が変更されない構成と比較して多様な音響特性の非調波信号Za[t]を生成できる。すなわち、目標音の非調波成分の音響特性を多様化できる。以上の説明から理解される通り、非調波制御データCa[t]に応じた非調波スペクトル包絡Ea[t]の変更、および、基礎非調波信号Ba[t]の生成は、信号生成部32Aが周波数特性E[t]から波形信号W[t]を生成する処理に関する変動要因の一例である。
[第2生成部33]
前述の通り、第2生成部33は、周波数特性E[t]と制御データC[t]とに応じて単位期間毎に周波数特性Q[t]を生成する。図7は、第2生成部33の詳細な構成を例示するブロック図である。図8は、第2生成部33による処理の説明図である。第2生成部33は、調波スペクトル生成部71と非調波スペクトル生成部72とスペクトル合成部73とを具備する。
調波スペクトル生成部71は、目標音の調波成分の強度スペクトル(以下「調波スペクトル」という)Gh[t]を生成する。調波スペクトルGh[t]は、調波成分の振幅スペクトルまたはパワースペクトルである。調波スペクトル生成部71は、周波数領域の処理により単位期間毎に調波スペクトルGh[t]を生成する。第1実施形態の調波スペクトル生成部71は、基礎スペクトル生成部711と調波特性変更部712と合成処理部713とを具備する。
基礎スペクトル生成部711は、周波数領域の基礎スペクトルVh[t]を単位期間毎に生成する。図8に例示される通り、基礎スペクトルVh[t]は、周波数軸上のN個の正弦波h[t,1]~h[t,N]により構成される強度スペクトル(例えば振幅スペクトルまたはパワースペクトル)である。N個の正弦波h[t,1]~h[t,N]は、基本周波数F0[t]の整数倍に対応する相異なる調波周波数n・F0[t]に配置される。すなわち、各正弦波h[t,n]は、周波数軸上において基本周波数F0[t]のn倍の周波数n・F0[t]に位置する。N個の正弦波h[t,1]~h[t,N]のレベルは共通の所定値(例えば1)に設定される。以上に説明した通り、基礎スペクトル生成部711は、相異なる調波周波数n・F0[t]に対応するN個の正弦波h[t,1]~h[t,N]を含む基礎スペクトルVh[t]を生成する。
調波特性変更部712は、前述の調波特性変更部42と同様に、調波スペクトル包絡Eh[t]の形状を変更することで調波スペクトル包絡Eh'[t]を生成する。具体的には、調波特性変更部712は、調波スペクトル包絡Eh[t]を調波制御データCh[t]に応じて変更する。例えば、調波スペクトル包絡Eh[t]の維持が調波制御データCh[t]により指示された場合、調波特性変更部712は、調波スペクトル包絡Eh[t]を調波スペクトル包絡Eh'[t]として設定する。すなわち、調波スペクトル包絡Eh[t]は維持される。調波スペクトル包絡Eh[t]の変更が調波制御データCh[t]により指示された場合、調波特性変更部712は、調波スペクトル包絡Eh[t]の変更により調波スペクトル包絡Eh'[t]を生成する。以上の説明から理解される通り、調波特性変更部712は、利用者からの指示に応じて調波スペクトル包絡Eh[t]を変更する。
具体的には、調波特性変更部712は、図5を参照して前述した処理により調波スペクトル包絡Eh[t]を生成する。すなわち、調波特性変更部712は、調波スペクトル包絡Eh[t]の複数のピークのうち所定の抑制条件を充足する1個以上の対象ピークを抑制することで調波スペクトル包絡Eh'[t]を生成する。抑制条件は、前述の第1条件と第2条件とを含む。
図7の合成処理部713は、基礎スペクトルVh[t]と調波スペクトル包絡Eh'[t]とに応じて調波スペクトルGh[t]を生成する。調波スペクトルGh[t]は単位期間毎に生成される。具体的には、合成処理部713は、N個の正弦波h[t,1]~h[t,N]のレベルが調波スペクトル包絡Eh'[t]に沿うように基礎スペクトルVh[t]を処理することで、調波スペクトルGh[t]を生成する。すなわち、基礎スペクトルVh[t]における各正弦波h[t,n]のレベルは、周波数軸上の調波周波数n・F0[t]における調波スペクトル包絡Eh'[t]の成分値に変更される。以上の説明から理解される通り、調波スペクトルGh[t]は、前述の調波信号Zh[t]の強度スペクトルに相当する。調波スペクトル生成部71が調波スペクトルGh[t]を生成するための構成および処理は以上の通りである。
非調波スペクトル生成部72は、目標音の非調波成分の強度スペクトル(以下「非調波スペクトル」という)Ga[t]を生成する。非調波スペクトルGa[t]は、非調波成分の振幅スペクトルまたはパワースペクトルである。非調波スペクトル生成部72は、周波数領域の処理により単位期間毎に非調波スペクトルGa[t]を生成する。第1実施形態の非調波スペクトル生成部72は、基礎スペクトル生成部721と非調波特性変更部722と合成処理部723とを具備する。
基礎スペクトル生成部721は、周波数領域の基礎スペクトルVa[t]を単位期間毎に生成する。図8に例示される通り、基礎スペクトルVa[t]は、周波数軸上の広範囲にわたり平坦な強度スペクトル(例えば強度スペクトルまたはパワースペクトル)である。具体的には、基礎スペクトルVa[t]は、例えば可聴帯域を含む広範囲にわたりレベルが略一定に維持された強度スペクトルである。例えば、所定の確率分布に従う乱数の発生により、基礎スペクトルVa[t]が生成される。基礎スペクトルVa[t]は、前述の基礎非調波信号Ba[t]の強度スペクトルとも換言される。
非調波特性変更部722は、前述の非調波特性変更部52と同様に、非調波スペクトル包絡Ea[t]の形状を変更することで非調波スペクトル包絡Ea'[t]を生成する。具体的には、非調波特性変更部722は、非調波スペクトル包絡Ea[t]を非調波制御データCa[t]に応じて変更する。例えば、非調波特性変更部722は、非調波成分の強調が指示された周波数帯域については非調波スペクトル包絡Ea[t]の成分値を増加し、非調波成分の抑制が指示された周波数帯域については非調波スペクトル包絡Ea[t]の成分値を減少する。以上の説明から理解される通り、非調波特性変更部722は、利用者からの指示に応じて非調波スペクトル包絡Ea[t]を変更する。
合成処理部723は、基礎スペクトルVa[t]と非調波スペクトル包絡Ea'[t]とに応じて非調波スペクトルGa[t]を生成する。非調波スペクトルGa[t]は単位期間毎に生成される。具体的には、合成処理部723は、非調波スペクトル包絡Ea'[t]に沿うように基礎スペクトルVa[t]を処理することで、非調波スペクトルGa[t]を生成する。すなわち、基礎スペクトルVa[t]における任意の周波数におけるレベルは、周波数軸上の当該周波数における調波スペクトル包絡Ea'[t]の成分値に変更される。以上の説明から理解される通り、非調波スペクトルGa[t]は、前述の非調波信号Za[t]の強度スペクトルに相当する。非調波スペクトル生成部72が非調波スペクトルGa[t]を生成するための構成および処理は以上の通りである。
図7のスペクトル合成部73は、調波スペクトルGh[t]と非調波スペクトルGa[t]との合成により周波数特性Q[t]を生成する。具体的には、スペクトル合成部73は、周波数軸上の複数の周波数fの各々について、調波スペクトルGh[t]のうち当該周波数fにおけるレベルと、非調波スペクトルGa[t]のうち当該周波数fにおけるレベルとのうちの大きい方を選択する。スペクトル合成部73は、周波数f毎に選択したレベルの系列で構成される強度スペクトルを、周波数特性Q[t]として生成する。したがって、周波数特性Q[t]は、調波成分と非調波成分とを含む目標音のレベルスペクトルである。前述の通り、正弦波生成部41および調波信号合成部43による調波信号Zh[t]の生成と、基礎信号生成部51および非調波信号合成部53による非調波信号Za[t]の生成とは、時間領域において実行される。他方、調波スペクトル生成部71による調波スペクトルGh[t]の生成と、非調波スペクトル生成部72による非調波スペクトルGa[t]の生成とは、周波数領域において実行される。
以上に説明した通り、調波制御データCh[t]に応じて調波スペクトル包絡Eh[t]を変更する処理により周波数特性Q[t]が生成され、当該周波数特性Q[t]が生成モデルM2の入力側に帰還される。すなわち、調波制御データCh[t]に応じた調波スペクトル包絡Eh[t]の変更が、生成モデルM2による周波数特性E[t]の生成に反映される。したがって、周波数特性E[t]が生成モデルM2の入力側に直接的に帰還する構成と比較して、聴感的に自然な調波成分を含む目標音の波形信号W[t]を生成できる。
また、非調波制御データCa[t]に応じて非調波スペクトル包絡Ea[t]を変更する処理により周波数特性Q[t]が生成され、当該周波数特性Q[t]が生成モデルM2の入力側に帰還される。すなわち、非調波制御データCa[t]に応じた非調波スペクトル包絡Ea[t]の変更が、生成モデルM2による周波数特性E[t]の生成に反映される。したがって、周波数特性E[t]が生成モデルM2の入力側に直接的に帰還する構成と比較して、聴感的に自然な非調波成分を含む目標音の波形信号W[t]を生成できる。
[波形生成処理Sa]
図9は、制御装置11が波形信号W[t]を生成する処理(以下「波形生成処理」という)Saの詳細な手順を例示するフローチャートである。波形生成処理Saは、「音響処理方法」の一例である。例えば、操作装置14に対する利用者からの指示を契機として波形生成処理Saが開始される。以下に説明する一連の処理(Sa1~Sa10)が単位期間毎に反復される。
波形生成処理Saが開始されると、制御データ生成部21は、指示データUに応じて条件データD[t]および制御データC[t](Ch[t],Ca[t])を生成する(Sa1)。第1生成部31は、条件データD[t]から基本周波数F0[t]を生成する(Sa2)。具体的には、第1生成部31は、訓練済の生成モデル(well-trained generative model)M1により条件データD[t]を処理することで基本周波数F0[t]を生成する。
また、第1生成部31は、入力データX[t]から周波数特性E[t]を生成する(Sa3)。具体的には、第1生成部31は、訓練済の生成モデルM2により入力データX[t]を処理することで周波数特性E[t]を生成する。前述の通り、入力データX[t]は、条件データD[t]と基本周波数F0[t]と帰還データR[t]とを含む。帰還データR[t]は、現在の単位期間よりも過去の単位期間において生成されたP個の周波数特性Q[t-1]~Q[t-P]の集合である。
調波信号生成部40は、基本周波数F0[t]と調波スペクトル包絡Eh[t]と調波制御データCh[t]とに応じて調波信号Zh[t]を生成する(Sa4)。非調波信号生成部50は、非調波スペクトル包絡Ea[t]と非調波制御データCa[t]とに応じて非調波信号Za[t]を生成する(Sa5)。なお、調波信号Zh[t]の生成(Sa4)と非調波信号Za[t]の生成(Sa5)との順序は逆転されてもよい。
信号混合部60は、調波信号Zh[t]と非調波信号Za[t]との混合により波形信号W[t]を生成する(Sa6)。信号混合部60は、波形信号W[t]を放音装置13に出力する(Sa7)。したがって、目標音が放音装置13から放音される。
第2生成部33は、基本周波数F0[t]と周波数特性E[t]と制御データC[t]とに応じて周波数特性Q[t]を生成する(Sa8)。周波数特性Q[t]を生成する処理は、前述の通り、調波スペクトル包絡Eh[t]を調波制御データCh[t]に応じて変更する処理と、非調波スペクトル包絡Ea[t]を非調波制御データCa[t]に応じて変更する処理とを含む。第2生成部33は、周波数特性Q[t]を情報保持部121に保存する(Sa9)。情報保持部121に保存されたP個の周波数特性Q[t-1]~Q[t-P]が、入力データX[t]に含まれる帰還データR[t]として利用される。
制御装置11は、所定の終了条件が成立したか否かを判定する(Sa10)。終了条件は、例えば操作装置14に対する操作により波形生成処理Saの終了が指示されること、または、楽曲データSが表す楽曲の全範囲について以上の処理を実行したことである。終了条件が成立しない場合(Sa10:NO)、制御装置11は処理をステップSa1に移行する。すなわち、波形信号W[t]の生成(Sa1~S6)および出力(Sa7)と、周波数特性Q[t]の生成(Sa8)および保存(Sa9)とが、複数の単位期間にわたり反復される。他方、終了条件が成立した場合(Sa10:YES)、制御装置11は波形生成処理Saを終了する。
[機械学習処理Sb]
図10および図11は、機械学習処理Sbに関する音響処理システム100の機能的な構成を例示するブロック図である。機械学習処理Sbは、生成モデルM1および生成モデルM2を確立するための教師あり機械学習である。機械学習処理Sbは、図10に例示される第1学習処理Sb1と、図11に例示される第2学習処理Sb2とで構成される。第1学習処理Sb1は、生成モデルM1を訓練するための機械学習である。第2学習処理Sb2は、生成モデルM2を確立するための機械学習である。すなわち、第1実施形態においては、生成モデルM1と生成モデルM2とが個別に訓練される。
記憶装置12は、第1学習処理Sb1に利用される複数の訓練データT1と、第2学習処理Sb2に利用される複数の訓練データT2とを記憶する。各訓練データT1および各訓練データT2は、複数の楽曲(以下「参照楽曲」という)の各々の楽譜を表す楽曲データと、当該参照楽曲に対応する参照音を表す参照信号とを利用して事前に生成される。参照音は、機械学習処理Sbのために事前に用意された音響である。具体的には、参照音は、参照楽曲の歌唱により歌唱者が発音する歌唱音声、または参照楽曲の演奏により楽器が発音する楽音である。参照信号を時間軸上で区分した複数の単位期間の各々について、訓練データT1と訓練データT2とが用意される。
複数の訓練データT1の各々は、参照音の条件を表す条件データDL[t]と、当該参照音の基本周波数FL[t]とを含む。条件データDL[t]は、前述の条件データD[t]と同様のデータであり、参照楽曲の楽曲データから生成される。また、基本周波数FL[t]は、参照信号を解析することで生成される。各訓練データT1の基本周波数FL[t]は、当該訓練データT1の条件データDL[t]を利用して生成モデルM1が生成すべき基本周波数F0[t]の正解値に相当する。
複数の訓練データT2の各々は、図11に例示される通り、入力データXL[t]と周波数特性QL[t]とを含む。入力データXL[t]は、前述の入力データX[t]と同様に、基本周波数FL[t]と条件データDL[t]と帰還データRL[t]とを含む。参照信号の1個の単位期間に対応する訓練データT1の基本周波数FL[t]および条件データDL[t]と、当該単位期間に対応する訓練データT2の基本周波数FL[t]および条件データDL[t]とは共通する。帰還データRL[t]は、前述の帰還データR[t]と同様に、着目する単位期間に対して過去に生成されるべき波形信号W[t]に応じたデータである。具体的には、P個の周波数特性Q[t-1]~Q[t-P]が帰還データRL[t]として利用される。
各訓練データT2の周波数特性QL[t]は、周波数領域で表現される参照音の音響特徴量である。例えば、周波数特性QL[t]は、参照音のMFSC,MFCC,振幅スペクトルまたはパワースペクトル等の音響特徴量である。各訓練データT2の周波数特性QL[t]は、当該訓練データT2の入力データXL[t]を利用して生成されるべき波形信号W[t]の周波数特性Q[t]に関する正解値に相当する。周波数特性QL[t]は、参照音の調波成分と非調波成分とを含む。
機械学習処理Sbにおいて、制御装置11は、前述の音響処理部22に加えて、周波数解析部81および学習処理部82としても機能する。周波数解析部81および学習処理部82の動作に着目して、機械学習処理Sbの詳細な手順を以下に説明する。
図12は、第1学習処理Sb1の詳細な手順を例示するフローチャートである。例えば、操作装置14に対する利用者からの指示を契機として第1学習処理Sb1が開始される。
第1学習処理Sb1が開始されると、学習処理部82は、複数の訓練データT1の何れか(以下「選択訓練データT1」という)を選択する(Sb11)。学習処理部82は、図10に例示される通り、選択訓練データT1の条件データDL[t]を暫定的な生成モデルM1(以下「暫定モデルM1」という)により処理することで、基本周波数F0[t]を生成する(Sb12)。
学習処理部82は、暫定モデルM1が生成する基本周波数F0[t]と選択訓練データT1の基本周波数FL[t]との誤差を表す損失関数を算定する(Sb13)。学習処理部82は、損失関数が低減(理想的には最小化)されるように、暫定モデルM1の複数の変数を更新する(Sb14)。損失関数に応じた変数の更新には、例えば誤差逆伝播法が利用される。
学習処理部82は、所定の終了条件が成立したか否かを判定する(Sb15)。終了条件は、例えば、損失関数が所定の閾値を下回ること、または、損失関数の変化量が所定の閾値を下回ることである。終了条件が成立しない場合(Sb15:NO)、学習処理部82は、未選択の訓練データT1を新たな選択訓練データT1として選択する(Sb11)。すなわち、終了条件の成立(Sb15:YES)まで、暫定モデルM1の複数の変数を更新する処理(Sb11~Sb14)が反復される。終了条件が成立した場合(Sb15:YES)、学習処理部82は、第1学習処理Sb1を終了する。終了条件が成立した時点における暫定モデルM1が、生成モデルM1として確定される。具体的には、生成モデルM1を規定する複数の変数は、終了条件が成立した時点における数値に確定される。
以上の説明から理解される通り、生成モデルM1は、条件データD[t]と基本周波数F0[t]との関係を学習する。すなわち、複数の訓練データT1における条件データDL[t]と基本周波数FL[t]との間に潜在する関係を、生成モデルM1は学習する。したがって、第1学習処理Sb1の実行後の生成モデルM1は、未知の条件データD[t]に対して統計的に妥当な基本周波数F0[t]を生成する。
図13は、第2学習処理Sb2の詳細な手順を例示するフローチャートである。例えば、操作装置14に対する利用者からの指示を契機として第2学習処理Sb2が開始される。なお、第1学習処理Sb1および第2学習処理Sb2の順序は任意である。すなわち、第1学習処理Sb1の実行後に第2学習処理Sb2が実行されてもよいし、第2学習処理Sb2の実行後に第1学習処理Sb1が実行されてもよい。
第2学習処理Sb2が開始されると、学習処理部82は、複数の訓練データT2の何れか(以下「選択訓練データT2」という)を選択する(Sb21)。学習処理部82は、図11に例示される通り、選択訓練データT2の入力データXL[t]を暫定的な生成モデルM2(以下「暫定モデルM2」という)により処理することで、出力データY[t]を生成する(Sb22)。信号生成部32Aは、暫定モデルM2が生成する出力データY[t]と選択訓練データT2の基本周波数FL[t]とを利用して、波形信号W[t]を生成する(Sb23)。
なお、第2学習処理Sb2において、波形信号W[t]の生成に利用される制御データC[t](Ch[t],Ca[t])は所定値に固定される。具体的には、調波制御データCh[t]は、調波スペクトル包絡Eh[t]の維持を指示する数値に設定される。したがって、調波特性変更部42は、出力データY[t]内の調波スペクトル包絡Eh[t]を調波スペクトル包絡Eh'[t]として設定する。同様に、非調波制御データCa[t]は、非調波スペクトルEa[t]の維持を指示する数値に設定される。したがって、非調波特性変更部52は、出力データY[t]内の非調波スペクトル包絡Ea[t]を非調波スペクトル包絡Ea'[t]として設定する。
図11の周波数解析部81は、波形信号W[t]から周波数特性Q[t]を生成する(Sb24)。周波数特性Q[t]の生成には、例えば短時間フーリエ変換等の周波数解析が利用される。
学習処理部82は、周波数解析部81が生成する周波数特性Q[t]と選択訓練データT2の周波数特性QL[t]との誤差を表す損失関数を算定する(Sb25)。学習処理部82は、損失関数が低減(理想的には最小化)されるように、暫定モデルM2の複数の変数を更新する(Sb26)。損失関数に応じた変数の更新には、例えば誤差逆伝播法が利用される。
学習処理部82は、所定の終了条件が成立したか否かを判定する(Sb27)。終了条件は、例えば、損失関数が所定の閾値を下回ること、または、損失関数の変化量が所定の閾値を下回ることである。終了条件が成立しない場合(Sb27:NO)、学習処理部82は、未選択の訓練データT2を新たな選択訓練データT2として選択する(Sb21)。すなわち、終了条件の成立(Sb27:YES)まで、暫定モデルM2の複数の変数を更新する処理(Sb21~Sb26)が反復される。終了条件が成立した場合(Sb27:YES)、学習処理部82は、第2学習処理Sb2を終了する。終了条件が成立した時点における暫定モデルM2が、生成モデルM2として確定される。具体的には、生成モデルM2を規定する複数の変数は、終了条件が成立した時点における数値に確定される。
以上の説明から理解される通り、生成モデルM2は、入力データX[t]と出力データY[t]との関係を学習する。すなわち、複数の訓練データT2における入力データXL[t]と周波数特性QL[t]に対応する出力データY[t]との間に潜在する関係を、生成モデルM2は学習する。したがって、第2学習処理Sb2の実行後の生成モデルM2は、未知の入力データX[t]に対して統計的に妥当な出力データY[t]を生成する。
なお、以上の説明においては、生成モデルM1と生成モデルM2とを個別に訓練する形態を例示したが、生成モデルM1と生成モデルM2とを一括的に訓練してもよい。例えば、図14は、生成モデルM1と生成モデルM2とを一括的に訓練する形態の機能的な構成を例示するブロック図である。複数の訓練データTの各々は、条件データDL[t]と帰還データRL[t]と周波数特性QL[t]とを含む。
学習処理部82は、訓練データTの条件データDL[t]を暫定モデルM1により処理することで、基本周波数F0[t]を生成する。学習処理部82は、入力データXL[t]を暫定モデルM2により処理することで出力データY[t]を生成する。入力データXL[t]は、訓練データTの条件データDL[t]および帰還データRL[t]と、暫定モデルM1が生成した基本周波数F0[t]とを含む。信号生成部32Aは、基本周波数F0[t]と出力データY[t]とを利用して波形信号W[t]を生成する。周波数解析部81は、波形信号W[t]から周波数特性Q[t]を生成する。学習処理部82は、周波数解析部81が生成する周波数特性Q[t]と訓練データTの周波数特性QL[t]との誤差が低減されるように、暫定モデルM1の複数の変数と暫定モデルM2の複数の変数とを更新する。
図14を参照して説明した機械学習処理Sbによれば、生成モデルM1および生成モデルM2を一括的に訓練できる。ただし、生成モデルM1および生成モデルM2を個別に訓練する前述の形態によれば、図14の形態と比較して、機械学習処理Sbに必要な時間が削減され、生成モデルM1および生成モデルM2を効率的に訓練できる。
B:第2実施形態
第2実施形態を説明する。なお、以下に例示する各態様において機能が第1実施形態と同様である要素については、第1実施形態の説明と同様の符号を流用して各々の詳細な説明を適宜に省略する。
図15は、第2実施形態における音響処理システム100の機能的な構成を例示するブロック図である。第2実施形態の音響処理システム100においては、第1実施形態の信号生成部32Aが信号生成部32Bに置換される。信号生成部32B以外の要素(制御データ生成部21,第1生成部31および第2生成部33)の構成および動作は、第1実施形態と同様である。
信号生成部32Bは、信号生成部32Aと同様に、基本周波数F0[t]と周波数特性E[t]と制御データC[t]とに応じて波形信号W[t]を単位期間毎に生成する。図15の入力データI[t]は、基本周波数F0[t]と周波数特性E[t]と制御データC[t]とを含む。
信号生成部32Bによる波形信号W[t]の生成には、訓練済の変換モデルMcが利用される。変換モデルMcは、入力データI[t]と波形信号W[t]との関係を学習した学習済モデル(いわゆるニューラルボコーダ)である。信号生成部32Bは、変換モデルMcにより入力データI[t]を処理することで波形信号W[t]を生成する。入力データI[t]のうち周波数特性E[t]に特に着目すると、信号生成部32Bは、変換モデルMcにより周波数特性E[t]を処理することで波形信号W[t]を生成する。
変換モデルMcは、例えば深層ニューラルネットワークで構成される。例えば、再帰型ニューラルネットワークまたは畳込ニューラルネットワーク等の任意の形式の深層ニューラルネットワークが、変換モデルMcとして利用される。複数種の深層ニューラルネットワークの組合せで変換モデルMcが構成されてもよい。また、長短期記憶またはAttention等の付加的な要素が変換モデルMcに搭載されてもよい。
図16は、第2実施形態における波形生成処理Saの手順を例示するフローチャートである。第2実施形態の波形生成処理Saにおいては、第1実施形態の波形生成処理SaにおけるステップSa4からステップSa6が、図16のステップSa20に置換される。ステップSa20において、信号生成部32Bは、変換モデルMcにより入力データI[t]を処理することで波形信号W[t]を生成する。ステップSa20以外の各処理は、第1実施形態と同様である。第2実施形態においても第1実施形態と同様の効果が実現される。
C:変形例
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)前述の各形態においては、生成モデルM1と生成モデルM2とを別体のモデルとして例示したが、生成モデルM1と生成モデルM2とが一体のモデル(以下「統合モデル」という)を構成してもよい。統合モデルは、入力データX[t]と、基本周波数F0[t]および周波数特性E[t]との関係を学習した統計的推定モデルである。第1生成部31は、統合モデルにより入力データX[t]を順次に処理することで、目標音の基本周波数F0[t]および周波数特性E[t]を順次に生成する。以上に説明した統合モデルも、本開示における「生成モデル」の概念に包含される。
(2)前述の各形態においては、調波制御データCh[t]が調波成分の変更の有無を2値的に指示する形態を例示したが、調波制御データCh[t]が表す指示は以上の例示に限定されない。例えば、調波制御データCh[t]が、調波成分の変更の内容を直接的に指示する形態も想定される。例えば、調波制御データCh[t]は、周波数軸上の周波数帯域毎に調波成分の変更を指示する。例えば、調波成分の変更の方向(強調/抑制)と変更の度合とが調波制御データCh[t]により指示される。調波特性変更部42は、調波成分の強調が指示された周波数帯域については調波スペクトル包絡Eh[t]の成分値を増加し、調波成分の抑制が指示された周波数帯域については調波スペクトル包絡Eh[t]の成分値を減少する。調波特性変更部712も同様に動作する。対象ピークに関する前述の調整値αが、調波制御データCh[t]により指示されてもよい。調波特性変更部42は、調波制御データCh[t]が指示する調整値αに応じての対象ピークを抑制する。すなわち、調波スペクトル包絡Eh[t]の各対象ピークが抑制される度合が、利用者からの指示に応じて制御される。
(3)前述の各形態においては、非調波制御データCa[t]が周波数軸上の周波数帯域毎に非調波成分の変更を指示する形態を例示したが、非調波制御データCa[t]が表す指示は以上の例示に限定されない。例えば、非調波制御データCa[t]が、非調波成分の変更の有無を2値的に指示する形態も想定される。非調波成分の変更が非調波制御データCa[t]により指示された場合、非調波特性変更部52は、非調波スペクトル包絡Ea[t]の成分値を所定の規則により変更する。他方、非調波成分の維持が非調波制御データCa[t]により指示された場合、非調波特性変更部52は、非調波スペクトル包絡Ea[t]を非調波スペクトル包絡Ea'[t]として設定する。非調波特性変更部722も同様に動作する。
(4)調波特性変更部42が生成する調波スペクトル包絡Eh'[t]が、調波スペクトル生成部71による調波スペクトルGh[t]の生成に利用されてもよい。すなわち、合成処理部713は、基礎スペクトル生成部711が生成する基礎スペクトルVh[t]と、調波特性変更部42が生成する調波スペクトル包絡Eh'[t]とに応じて調波スペクトルGh[t]を生成してもよい。したがって、調波特性変更部712は省略されてよい。
また、非調波特性変更部52が生成する非調波スペクトル包絡Ea'[t]が、非調波スペクトル生成部72による非調波スペクトルGa[t]の生成に利用されてもよい。すなわち、合成処理部723は、基礎スペクトル生成部721が生成する基礎スペクトルVa[t]と、非調波特性変更部52が生成する非調波スペクトル包絡Ea'[t]とに応じて非調波スペクトルGa[t]を生成してもよい。したがって、非調波特性変更部722は省略されてよい。
(5)前述の各形態においては、制御データC[t](Ch[t],Ca[t])に応じて周波数特性E[t](Eh[t],Ea[t],Em[t])を変更する形態を例示したが、周波数特性E[t]の変更は省略されてもよい。すなわち、前述の各形態における調波特性変更部42および非調波特性変更部52は省略されてもよい。調波特性変更部712および非調波特性変更部722も同様に、省略されてよい。また、前述の各形態においては、利用者からの指示(指示データU)に応じて周波数特性E[t]が変更される形態を例示したが、周波数特性E[t]の変更に適用される要素は利用者からの指示に限定されない。例えば、外部装置から受信した指示データU、または音響処理システム100の他の機能により生成された指示データUに応じて制御データC[t]が生成されてもよい。
(6)前述の各形態においては、波形生成処理Saと機械学習処理Sbとの双方を実行する音響処理システム100を例示したが、機械学習処理Sbは省略されてよい。また、機械学習処理Sbのみを実行する機械学習システムも実現可能である。機械学習システムは、第1実施形態において例示した機械学習処理Sbを実行することで生成モデルM1および生成モデルM2(または前述の統合モデル)を確立する。機械学習システムが確立した生成モデルM1および生成モデルM2が、音響処理システム100に転送されて波形生成処理Saに利用される。
(7)前述の各形態においては、歌唱者が発音する歌唱音声または楽器が発音する楽音等の音楽的な音響を目標音として例示したが、音楽的な要素は目標音に必須ではない。例えば、音楽的な要素を含まない会話音を目標音として生成する場合にも、前述の各形態が同様に適用される。
(8)前述の各形態において、生成モデルM1および生成モデルM2は深層ニューラルネットワークに限定されない。例えば、HMM(Hidden Markov Model)またはSVM(Support Vector Machine)等の任意の形式および種類の統計モデルが、生成モデルM1および生成モデルM2の一方または双方として利用されてもよい。第2実施形態における変換モデルMcについても同様に、形式または種類は任意である。
(9)例えばスマートフォンまたはタブレット端末等の情報装置と通信するサーバ装置により音響処理システム100が実現されてもよい。例えば、音響処理システム100は、情報装置から楽曲データSおよび指示データUを受信し、前述の波形生成処理Saにより波形信号W[t]を生成する。音響処理システム100は、波形生成処理Saにより生成した波形信号W[t](音響信号A)を情報装置に送信する。なお、楽曲データSは音響処理システム100に保持されてもよい。
(10)音響処理システム100の機能は、前述の通り、制御装置11を構成する単数または複数のプロセッサと、記憶装置12に記憶されたプログラムとの協働により実現される。以上のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記録媒体が、前述の非一過性の記録媒体に相当する。
D:付記
以上に例示した形態から、例えば以下の構成が把握される。
ひとつの態様(態様1)に係る音響処理方法は、生成されるべき目標音の条件を表す条件データを含む入力データを、訓練済の生成モデルにより順次に処理することで、前記目標音の第1音響特徴量を順次に生成し、前記第1音響特徴量の変更を指示する制御データを受取り、前記目標音の波形を表す時間領域の波形信号を、前記第1音響特徴量と前記制御データとに応じて生成し、前記第1音響特徴量と前記制御データとに応じて第2音響特徴量を生成し、第1時点における入力データは、前記第1時点よりも過去に生成された前記第2音響特徴量を含む。
以上の態様においては、訓練済の生成モデルにより生成された第1音響特徴量から時間領域の波形信号が生成され、第1音響特徴量と制御データとに応じた第2音響特徴量が生成モデルの入力側に帰還される。すなわち、第1音響特徴量から波形信号を生成する処理に付随する変動要因を反映した第2音響特徴量が、生成モデルによる第1音響特徴量の生成に利用される。したがって、第1音響特徴量が生成モデルの入力側に直接的に帰還する構成と比較して、聴感的に自然な目標音の波形信号を生成できる。
「目標音」とは、音響処理方法による生成の目標となる音響を意味する。例えば楽器の演奏音または歌唱者による歌唱音等の音楽的な音響が「目標音」の一例である。ただし、音楽的な要素を含まない会話音等の音声も「目標音」の概念には包含される。
「目標音の条件」とは、目標音の音響特性を制約する事項である。具体的には、目標音を構成する音符の音高または音量等の情報、当該音符の前後の音符に関する情報、または、目標音の発音源の特徴(例えば発音源である楽器の演奏者または演奏法)等の各種の情報が「目標音の条件」として指定される。条件データは、目標音の楽譜に関する特徴量(楽譜特徴量)とも換言される。
「生成モデル」は、入力データと第1音響特徴量との関係を機械学習により習得した学習済モデルである。例えば深層ニューラルネットワーク(DNN:Deep Neural Network)、隠れマルコフモデル(HMM:Hidden Markov Model)、またはSVM(Support Vector Machine)等の各種の統計的推定モデルが、「生成モデル」として利用される。
「第1音響特徴量」は、周波数領域で表現される目標音の音響特性である。例えば、目標音の調波スペクトル包絡、および目標音の非調波スペクトル包絡等の周波数特性が「第1音響特徴量」として例示される。調波スペクトル包絡は、目標音の調波成分に関する強度スペクトル(例えば振幅スペクトルまたはパワースペクトル)の概形である。調波成分は、基本周波数の基音成分と、基本周波数の整数倍に相当する倍音周波数の複数の倍音成分とを含む。非調波スペクトル包絡は、目標音の非調波成分に関する強度スペクトルの概形である。非調波成分は、周波数領域において相互に隣合う2個の調波成分の間に存在する雑音成分であり、目標音の気息性に寄与する。なお、目標音の振幅スペクトル、パワースペクトル、メルスペクトル、MFCC(Mel-Frequency Cepstrum Coefficients)等の各種の音響特徴量も、「第1音響特徴量」の概念には包含される。
「波形信号」は、時間軸上に配列されたサンプルの時系列である。複数の波形信号が時間軸上で相互に連結されることで、目標音の波形を表す音響信号が生成される。
「第2音響特徴量」は、第1音響特徴量と制御データとに応じた周波数領域の音響特性である。具体的には、制御データに応じた変更後の第1音響特徴量に対応する音響成分の周波数特性が「第2音響特徴量」として例示される。なお、振幅スペクトル、パワースペクトル、メルスペクトル、MFCC等の各種の音響特徴量も、「第2音響特徴量」の概念には包含される。
入力データは、当該入力データが対象とする第1時点よりも過去の時点について生成された1以上の第2音響特徴量を含む。例えば、入力データは、第1時点の直前の時点について生成された1個の第2音響特徴量を含む。また、入力データは、第1時点に対して過去の相異なる時点について生成された複数の第2音響特徴量を含んでもよい。
態様1の具体例(態様2)において、前記第1音響特徴量は、前記目標音の調波成分に関する調波スペクトル包絡を含み、前記制御データは、前記調波スペクトル包絡の変更を指示する調波制御データを含み、前記波形信号の生成においては、前記調波スペクトル包絡を前記調波制御データに応じて変更し、前記変更後の調波スペクトル包絡を利用して、前記目標音の調波成分を含む時間領域の調波信号を生成し、前記調波信号を利用して前記波形信号を生成し、前記第2音響特徴量の生成は、前記調波スペクトル包絡を前記調波制御データに応じて変更する処理を含む。
以上の態様においては、調波スペクトル包絡が調波制御データに応じて変更されるから、調波スペクトル包絡が変更されない構成と比較して多様な音響特性の調波信号を生成できる。また、調波制御データに応じて調波スペクトル包絡を変更する処理により第2音響特徴量が生成され、当該第2音響特徴量が生成モデルの入力側に帰還される。すなわち、調波制御データに応じた調波スペクトル包絡の変更(前述の変動要因の一例)が、生成モデルによる第1音響特徴量の生成に反映される。したがって、第1音響特徴量が生成モデルの入力側に直接的に帰還する構成と比較して、聴感的に自然な調波成分を含む目標音の波形信号を生成できる。
「調波制御データ」は、調波スペクトル包絡の変更を指示する任意の形式のデータである。例えば、調波スペクトル包絡における特定のピークの強調または抑圧を指示するデータ、または、調波スペクトル包絡のうち特定の周波数帯域の成分値について増加または減少を指示するデータが、「調波制御データ」として想定される。また、調波スペクトル包絡の変更の有無を指示するデータも「調波制御データ」として例示される。
「調波スペクトル包絡の変更」は、例えば、調波スペクトル包絡の成分値を変更する処理である。例えば、調波スペクトル包絡のうち特定の周波数帯域(例えばピークが存在する帯域)の成分値を増加または減少させる処理、または、調波スペクトル包絡におけるピーク幅を増加または減少させる処理が、「調波スペクトル包絡の変更」として例示される。
態様2の具体例(態様3)において、前記調波信号の生成においては、相異なる調波周波数に対応する複数の正弦波を生成し、前記複数の正弦波のレベルが前記調波スペクトル包絡に沿うように前記複数の正弦波を処理し、処理後の複数の正弦波を合成することで、前記調波信号を生成する。以上の態様においては、調波スペクトル包絡を利用して複数の正弦波を処理する時間領域の処理により、波形信号を簡便に生成できる。なお、「調波周波数」は、基本周波数と、当該基本周波数の整数倍に相当する複数の倍音周波数とを含む複数の周波数の何れかである。
調波信号を生成する処理は、各調波周波数に対応する調波成分のレベルを、調波スペクトル包絡のうち当該調波周波数における成分値に一致または近似させる処理である。例えば、時間領域のフィルタ処理により調波信号が生成される。フィルタ処理の応答特性は、調波スペクトル包絡に対応する応答特性に設定される。
態様3の具体例(態様4)において、前記調波スペクトル包絡の変更においては、前記調波スペクトル包絡の複数のピークのうち、極大値が所定値を上回ること、および、ピーク幅が所定値を下回ること、の少なくとも一方の条件を充足するピークを抑制する。以上の態様においては、調波スペクトル包絡の複数のピークのうち過大または急峻なピークが抑制される。したがって、調波スペクトル包絡における過大または急峻なピークが維持される構成と比較して、聴感的に自然な調波成分を含む目標音の波形信号を生成できる。
態様1から態様4の何れかの具体例(態様5)において、前記第1音響特徴量は、前記目標音の非調波成分に関する非調波スペクトル包絡を含み、前記制御データは、前記非調波スペクトル包絡の変更を指示する非調波制御データを含み、前記波形信号の生成においては、前記非調波スペクトル包絡を前記非調波制御データに応じて変更し、前記変更後の非調波スペクトル包絡を利用して、前記目標音の非調波成分を表す時間領域の非調波信号を生成し、前記非調波信号を利用して前記波形信号を生成し、前記第2音響特徴量の生成は、前記非調波スペクトル包絡を前記非調波制御データに応じて変更する処理を含む。
以上の態様においては、非調波スペクトル包絡が非調波制御データに応じて変更されるから、非調波スペクトル包絡が変更されない構成と比較して多様な音響特性の非調波信号を生成できる。また、非調波制御データに応じて非調波スペクトル包絡を変更する処理により第2音響特徴量が生成され、当該第2音響特徴量が生成モデルの入力側に帰還される。すなわち、非調波制御データに応じた非調波スペクトル包絡の変更(前述の変動要因の一例)が、生成モデルによる第1音響特徴量の生成に反映される。したがって、第1音響特徴量が生成モデルの入力側に直接的に帰還する構成と比較して、聴感的に自然な非調波成分を含む目標音の波形信号を生成できる。
「非調波制御データ」は、非調波スペクトル包絡の変更を指示する任意の形式のデータである。例えば、非調波スペクトル包絡における特定のピークの強調または抑圧を指示するデータ、または、非調波スペクトル包絡のうち特定の周波数帯域の成分値について増加または減少を指示するデータが、「非調波制御データ」として想定される。また、非調波スペクトル包絡の変更の有無を指示するデータも「非調波制御データ」として例示される。
「非調波スペクトル包絡の変更」は、例えば、非調波スペクトル包絡の成分値を変更する処理である。例えば、非調波スペクトル包絡のうち特定の周波数帯域(例えばピークが存在する帯域)の成分値を増加または減少させる処理、または、非調波スペクトル包絡におけるピーク幅を増加または減少させる処理が、「非調波スペクトル包絡の変更」として例示される。
態様5の具体例(態様6)において、前記非調波信号の生成においては、周波数特性が平坦な時間領域の雑音信号を生成し、非調波スペクトル包絡を適用したフィルタ処理を前記雑音信号に対して実行することで、前記非調波信号を生成する。以上の態様においては、非調波スペクトル包絡を適用した時間領域のフィルタ処理により、波形信号を簡便に生成できる。
態様1の具体例(態様7)において、前記波形信号の生成においては、前記第1音響特徴量を、訓練済の変換モデルにより処理することで、前記波形信号を生成する。「変換モデル」は、第1音響特徴量と波形信号との関係を機械学習により習得した学習済モデルである。例えば深層ニューラルネットワーク(DNN:Deep Neural Network)、隠れマルコフモデル(HMM:Hidden Markov Model)、またはSVM(Support Vector Machine)等の各種の統計的推定モデルが、「変換モデル」として利用される。
ひとつの態様(態様8)に係る音響処理システムは、生成されるべき目標音の条件を表す条件データを含む入力データを、訓練済の生成モデルにより順次に処理することで、前記目標音の第1音響特徴量を順次に生成する第1生成部と、前記目標音の波形を表す時間領域の波形信号を、前記第1音響特徴量と、前記第1音響特徴量の変更を指示する制御データとに応じて生成する信号生成部と、前記第1音響特徴量と前記制御データとに応じて第2音響特徴量を生成する第2生成部とを具備し、第1時点における入力データは、前記第1時点よりも過去に生成された前記第2音響特徴量を含む。
ひとつの態様(態様9)に係るプログラムは、生成されるべき目標音の条件を表す条件データを含む入力データを、訓練済の生成モデルにより順次に処理することで、前記目標音の第1音響特徴量を順次に生成する第1生成部、前記目標音の波形を表す時間領域の波形信号を、前記第1音響特徴量と、前記第1音響特徴量の変更を指示する制御データとに応じて生成する信号生成部、および、前記第1音響特徴量と前記制御データとに応じて第2音響特徴量を生成する第2生成部、としてコンピュータシステムを機能させるプログラムであって、第1時点における入力データは、前記第1時点よりも過去に生成された前記第2音響特徴量を含む。
100…音響処理システム、11…制御装置、12…記憶装置、121…情報保持部、13…放音装置、14…操作装置、21…制御データ生成部、22…音響処理部、31…第1生成部、32A,32B…信号生成部、33…第2生成部、40…調波信号生成部、41…正弦波生成部、42…調波特性変更部、43…調波信号合成部、50…非調波信号生成部、51…基礎信号生成部、52…非調波特性変更部、53…非調波信号合成部、600…信号混合部、71…調波スペクトル生成部、711,721…基礎スペクトル生成部、712…調波特性変更部、713,723…合成処理部、72…非調波スペクトル生成部、722…非調波特性変更部、73…スペクトル合成部、81…周波数解析部、82…学習処理部、M1,M2…生成モデル、Mc…変換モデル。

Claims (9)

  1. 生成されるべき目標音の条件を表す条件データを含む入力データを、訓練済の生成モデルにより順次に処理することで、前記目標音の第1音響特徴量を順次に生成し、
    前記第1音響特徴量の変更を指示する制御データを受取り、
    前記目標音の波形を表す時間領域の波形信号を、前記第1音響特徴量と前記制御データとに応じて生成し、
    前記第1音響特徴量と前記制御データとに応じて第2音響特徴量を生成し、
    第1時点における入力データは、前記第1時点よりも過去に生成された前記第2音響特徴量を含む
    音響処理方法。
  2. 前記第1音響特徴量は、前記目標音の調波成分に関する調波スペクトル包絡を含み、
    前記制御データは、前記調波スペクトル包絡の変更を指示する調波制御データを含み、
    前記波形信号の生成においては、
    前記調波スペクトル包絡を前記調波制御データに応じて変更し、
    前記変更後の調波スペクトル包絡を利用して、前記目標音の調波成分を含む時間領域の調波信号を生成し、
    前記調波信号を利用して前記波形信号を生成し、
    前記第2音響特徴量の生成は、
    前記調波スペクトル包絡を前記調波制御データに応じて変更する処理を含む
    請求項1の音響処理方法。
  3. 前記調波信号の生成においては、
    相異なる調波周波数に対応する複数の正弦波を生成し、
    前記複数の正弦波のレベルが前記調波スペクトル包絡に沿うように前記複数の正弦波を処理し、処理後の複数の正弦波を合成することで、前記調波信号を生成する
    請求項2の音響処理方法。
  4. 前記調波スペクトル包絡の変更においては、
    前記調波スペクトル包絡の複数のピークのうち、極大値が所定値を上回ること、および、ピーク幅が所定値を下回ること、の少なくとも一方の条件を充足するピークを抑制する
    請求項3の音響処理方法。
  5. 前記第1音響特徴量は、前記目標音の非調波成分に関する非調波スペクトル包絡を含み、
    前記制御データは、前記非調波スペクトル包絡の変更を指示する非調波制御データを含み、
    前記波形信号の生成においては、
    前記非調波スペクトル包絡を前記非調波制御データに応じて変更し、
    前記変更後の非調波スペクトル包絡を利用して、前記目標音の非調波成分を表す時間領域の非調波信号を生成し、
    前記非調波信号を利用して前記波形信号を生成し、
    前記第2音響特徴量の生成は、
    前記非調波スペクトル包絡を前記非調波制御データに応じて変更する処理を含む
    請求項1から請求項4の何れかの音響処理方法。
  6. 前記非調波信号の生成においては、
    周波数特性が平坦な時間領域の雑音信号を生成し、
    非調波スペクトル包絡を適用したフィルタ処理を前記雑音信号に対して実行することで、前記非調波信号を生成する
    請求項5の音響処理方法。
  7. 前記波形信号の生成においては、
    前記第1音響特徴量を、訓練済の変換モデルにより処理することで、前記波形信号を生成する
    請求項1の音響処理方法。
  8. 生成されるべき目標音の条件を表す条件データを含む入力データを、訓練済の生成モデルにより順次に処理することで、前記目標音の第1音響特徴量を順次に生成する第1生成部と、
    前記目標音の波形を表す時間領域の波形信号を、前記第1音響特徴量と、前記第1音響特徴量の変更を指示する制御データとに応じて生成する信号生成部と、
    前記第1音響特徴量と前記制御データとに応じて第2音響特徴量を生成する第2生成部とを具備し、
    第1時点における入力データは、前記第1時点よりも過去に生成された前記第2音響特徴量を含む
    音響処理システム。
  9. 生成されるべき目標音の条件を表す条件データを含む入力データを、訓練済の生成モデルにより順次に処理することで、前記目標音の第1音響特徴量を順次に生成する第1生成部、
    前記目標音の波形を表す時間領域の波形信号を、前記第1音響特徴量と、前記第1音響特徴量の変更を指示する制御データとに応じて生成する信号生成部、および、
    前記第1音響特徴量と前記制御データとに応じて第2音響特徴量を生成する第2生成部、
    としてコンピュータシステムを機能させるプログラムであって、
    第1時点における入力データは、前記第1時点よりも過去に生成された前記第2音響特徴量を含む
    プログラム。
JP2021170506A 2021-10-18 2021-10-18 音響処理方法、音響処理システムおよびプログラム Pending JP2023060744A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021170506A JP2023060744A (ja) 2021-10-18 2021-10-18 音響処理方法、音響処理システムおよびプログラム
PCT/JP2022/037223 WO2023068042A1 (ja) 2021-10-18 2022-10-05 音響処理方法、音響処理システムおよびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021170506A JP2023060744A (ja) 2021-10-18 2021-10-18 音響処理方法、音響処理システムおよびプログラム

Publications (1)

Publication Number Publication Date
JP2023060744A true JP2023060744A (ja) 2023-04-28

Family

ID=86058080

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021170506A Pending JP2023060744A (ja) 2021-10-18 2021-10-18 音響処理方法、音響処理システムおよびプログラム

Country Status (2)

Country Link
JP (1) JP2023060744A (ja)
WO (1) WO2023068042A1 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6097398A (ja) * 1983-11-01 1985-05-31 株式会社河合楽器製作所 音響解析装置
JP2705063B2 (ja) * 1987-04-20 1998-01-26 カシオ計算機株式会社 楽音信号発生装置
DE69629486T2 (de) * 1995-10-23 2004-06-24 The Regents Of The University Of California, Oakland Kontrollstruktur für klangsynthesierung
JP3468337B2 (ja) * 1997-01-07 2003-11-17 日本電信電話株式会社 補間音色合成方法
US6304846B1 (en) * 1997-10-22 2001-10-16 Texas Instruments Incorporated Singing voice synthesis
JP2020194098A (ja) * 2019-05-29 2020-12-03 ヤマハ株式会社 推定モデル確立方法、推定モデル確立装置、プログラムおよび訓練データ準備方法

Also Published As

Publication number Publication date
WO2023068042A1 (ja) 2023-04-27

Similar Documents

Publication Publication Date Title
JP6724932B2 (ja) 音声合成方法、音声合成システムおよびプログラム
JP6561499B2 (ja) 音声合成装置および音声合成方法
US11495206B2 (en) Voice synthesis method, voice synthesis apparatus, and recording medium
WO2019107379A1 (ja) 音声合成方法、音声合成装置およびプログラム
JP6821970B2 (ja) 音声合成装置および音声合成方法
US11842719B2 (en) Sound processing method, sound processing apparatus, and recording medium
US11875777B2 (en) Information processing method, estimation model construction method, information processing device, and estimation model constructing device
WO2023068042A1 (ja) 音響処理方法、音響処理システムおよびプログラム
WO2020241641A1 (ja) 生成モデル確立方法、生成モデル確立システム、プログラムおよび訓練データ準備方法
WO2023068228A1 (ja) 音響処理方法、音響処理システムおよびプログラム
WO2021192963A1 (ja) 音信号生成方法、推定モデル訓練方法、音信号生成システム、およびプログラム
JP7180642B2 (ja) 音声合成方法、音声合成システムおよびプログラム
JP7192834B2 (ja) 情報処理方法、情報処理システムおよびプログラム
JP7107427B2 (ja) 音信号合成方法、生成モデルの訓練方法、音信号合成システムおよびプログラム
US11756558B2 (en) Sound signal generation method, generative model training method, sound signal generation system, and recording medium
WO2023171522A1 (ja) 音響生成方法、音響生成システムおよびプログラム
JP6191094B2 (ja) 音声素片切出装置
CN115699161A (zh) 音响处理方法、音响处理系统及程序
JP2011085731A (ja) 楽音信号処理装置及びプログラム
JP2019159013A (ja) 音声処理方法および音声処理装置