JP2022122689A - 機械学習モデルを用いた音生成方法、機械学習モデルの訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラム - Google Patents

機械学習モデルを用いた音生成方法、機械学習モデルの訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラム Download PDF

Info

Publication number
JP2022122689A
JP2022122689A JP2021020085A JP2021020085A JP2022122689A JP 2022122689 A JP2022122689 A JP 2022122689A JP 2021020085 A JP2021020085 A JP 2021020085A JP 2021020085 A JP2021020085 A JP 2021020085A JP 2022122689 A JP2022122689 A JP 2022122689A
Authority
JP
Japan
Prior art keywords
feature
sequence
input
sound
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021020085A
Other languages
English (en)
Inventor
慶二郎 才野
Keijiro Saino
竜之介 大道
Ryunosuke Daido
ボナダ ジョルディ
Bonada Jordi
ブラアウ メルレイン
Brau Melrain
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2021020085A priority Critical patent/JP2022122689A/ja
Priority to PCT/JP2021/045964 priority patent/WO2022172577A1/ja
Priority to CN202180092868.7A priority patent/CN116806354A/zh
Publication of JP2022122689A publication Critical patent/JP2022122689A/ja
Priority to US18/447,071 priority patent/US20230395046A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/04Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation
    • G10H1/053Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation during execution only
    • G10H1/057Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation during execution only by envelope-forming circuits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G1/00Means for the representation of music
    • G10G1/04Transposing; Transcribing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • G10H2220/101Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters
    • G10H2220/126Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters for graphical editing of individual notes, parts or phrases represented as variable length segments on a 2D or 3D representation, e.g. graphical edition of musical collage, remix files or pianoroll representations of MIDI-like files
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/005Algorithms for electrophonic musical instruments or musical processing, e.g. for automatic composition or resource allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

【課題】自然な音声を容易に取得することが可能な音生成方法、訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラムを提供する。【解決手段】複数の区間からなる音符列の各区間について音楽的な特徴量の代表値の入力が受付部12により受け付けられる。訓練済モデルMを用いて、入力された各区間の代表値に応じた第1の特徴量列を処理して、特徴量が連続的に変化する第2の特徴量列に対応する音データ列が生成部13により生成される。【選択図】図2

Description

本発明は、音を生成することが可能な音生成方法、訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラムに関する。
使用者により指定された音量の時系列に基づいて音声信号を生成するアプリケーションが知られている。例えば、非特許文献1に記載されたアプリケーションにおいては、使用者による入力音から基本周波数、隠れ変数およびラウドネスが特徴量として抽出される。抽出された特徴量にスペクトラルモデリング合成が行われることにより、音声信号が生成される。
Jesse Engel, Lamtharn Hantrakul, Chenjie Gu and Adam Roberts, "DDSP: Differentiable Digital Signal Processing", arXiv:2001.04643v1 [cs.LG] 14 Jan 2020
非特許文献1記載のアプリケーションを用いて、人の歌唱または演奏のように自然に変化する音声を示す音声信号を生成するには、使用者は、音量の時系列を詳細に指定する必要がある。しかしながら、音量の時系列を詳細に指定することは容易ではない。
本発明の目的は、自然な音声を容易に取得することが可能な音生成方法、訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラムを提供することである。
本発明の一局面に従う音生成方法は、複数の区間からなる音符の各区間について音楽的な特徴量の代表値の入力を受け付け、訓練済モデルを用いて、入力された各区間の代表値に応じた第1の特徴量列を処理して、特徴量が連続的に変化する第2の特徴量列に対応する音データ列を生成し、コンピュータにより実現される。
本発明の他の局面に従う訓練方法は、音波形を示す参照データから特徴量が連続的に変化する参照音データ列と、その特徴量の時系列である出力特徴量列とを抽出し、出力特徴量列から特徴量が音の区間ごとに変化する入力特徴量列を生成し、機械学習により、入力特徴量列と、出力特徴量列に対応する参照音データ列との間の入出力関係を習得した訓練済モデルを構築し、コンピュータにより実現される。
本発明のさらに他の局面に従う音生成装置は、複数の区間からなる音符の各区間について音楽的な特徴量の代表値の入力を受け付ける受付部と、訓練済モデルを用いて、入力された各区間の代表値に応じた第1の特徴量列を処理して、特徴量が連続的に変化する第2の特徴量列に対応する音データ列を生成する生成部とを備える。
本発明のさらに他の局面に従う訓練装置は、音波形を示す参照データから特徴量が連続的に変化する参照音データ列と、その特徴量の時系列である出力特徴量列とを抽出する抽出部と、出力特徴量列から特徴量が音の区間ごとに変化する入力特徴量列を生成する生成部と、機械学習により、入力特徴量列と、出力特徴量列に対応する参照音データ列との間の入出力関係を習得した訓練済モデルを構築する構築部とを備える。
本発明によれば、自然な音声を容易に取得することができる。
本発明の一実施形態に係る音生成装置および訓練装置を含む処理システムの構成を示すブロック図である。 音生成装置の構成を示すブロック図である。 音生成装置の動作例を説明するための図である。 音生成装置の動作例を説明するための図である。 受付画面の他の例を示す図である。 訓練装置の構成を示すブロック図である。 訓練装置の動作例を説明するための図である。 図2の音生成装置による音生成処理の一例を示すフローチャートである。 図6の訓練装置による訓練処理の一例を示すフローチャートである。 第2実施形態における受付画面の一例を示す図である。
(1)処理システムの構成
以下、本発明の第1実施形態に係る音生成方法、訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラムについて図面を用いて詳細に説明する。図1は、本発明の一実施形態に係る音生成装置および訓練装置を含む処理システムの構成を示すブロック図である。図1に示すように、処理システム100は、RAM(ランダムアクセスメモリ)110、ROM(リードオンリメモリ)120、CPU(中央演算処理装置)130、記憶部140、操作部150および表示部160を備える。
処理システム100は、例えばPC、タブレット端末またはスマートフォン等のコンピュータにより実現される。あるいは、処理システム100は、イーサネット等の通信路で接続された複数のコンピュータの共同動作で実現されてもよい。RAM110、ROM120、CPU130、記憶部140、操作部150および表示部160は、バス170に接続される。RAM110、ROM120およびCPU130により音生成装置10および訓練装置20が構成される。本実施形態では、音生成装置10と訓練装置20とは共通の処理システム100により構成されるが、別個の処理システムにより構成されてもよい。
RAM110は、例えば揮発性メモリからなり、CPU130の作業領域として用いられる。ROM120は、例えば不揮発性メモリからなり、音生成プログラムおよび訓練プログラムを記憶する。CPU130は、ROM120に記憶された音生成プログラムをRAM110上で実行することにより音生成処理を行う。また、CPU130は、ROM120に記憶された訓練プログラムをRAM110上で実行することにより訓練処理を行う。音生成処理および訓練処理の詳細については後述する。
音生成プログラムまたは訓練プログラムは、ROM120ではなく記憶部140に記憶されてもよい。あるいは、音生成プログラムまたは訓練プログラムは、コンピュータが読み取り可能な記憶媒体に記憶された形態で提供され、ROM120または記憶部140にインストールされてもよい。あるいは、処理システム100がインターネット等のネットワークに接続されている場合には、当該ネットワーク上のサーバ(クラウドサーバを含む。)から配信された音生成プログラムがROM120または記憶部140にインストールされてもよい。
記憶部140は、ハードディスク、光学ディスク、磁気ディスクまたはメモリカード等の記憶媒体を含む。記憶部140には、訓練済モデルM、結果データD1、複数の参照データD2、複数の楽譜データD3および複数の参照楽譜データD4が記憶される。複数の参照データD2と、複数の参照楽譜データD4とは、それぞれ対応する。訓練済モデルMは、楽譜データD3の楽譜特徴量列と制御値(入力特徴量列)とを受け取って処理し、それら楽譜特徴量列と制御値とに応じた結果データ(音データ列)を推定する生成モデルである。訓練済モデルMは、入力特徴量列と出力特徴量列に対応する参照音データ列との間の入出力関係習得し、訓練装置20により構築される。本例では、訓練済モデルMはAR(回帰)タイプの生成モデルであるが、非ARタイプの生成モデルであってもよい。
入力特徴量列は、音楽的な特徴量が音の部分ごとに離散的に変化する時系列である。出力特徴量列は、特徴量が連続的に変化する時系列である。音楽的な特徴量は、例えば振幅またはその微分値や、ピッチまたはその微分値であってもよい。音楽的な特徴量は、振幅等に代えて、スペクトル傾斜またはスペクトル重心でもよいし、低域パワーに対する高域パワーの比(高域パワー/低域パワー)でもよい。音データ列は、時間軸上の音波形に変換できるデータであり、例えば、メルスペクトログラム等の周波数スペクトルに関するデータである。
ここで、入力特徴量列は、音の区間ごとに変化し、出力特徴量列は、連続的に変化するが、時間分解能(単位時間当たりの特徴量数)は互いに等しい。
結果データD1は、音生成装置10により生成された音の特徴量列に対応する音データ列を示す。参照データD2は、訓練済モデルMを訓練するために用いる波形データ、すなわち音波形のサンプルの時系列である。そして、音の制御に関連して各波形データから抽出された特徴量の時系列を出力特徴量列と呼ぶ。楽譜データD3および参照楽譜データD4は、それぞれ時間軸上に配置された複数の音符(音符列)を含む楽譜を示す。楽譜データD3から生成される楽譜特徴量は、音生成装置10による結果データD1の生成に用いられる。参照データD2および参照楽譜データD4は、訓練装置20による訓練済モデルMの構築に用いられる。
訓練済モデルM、結果データD1、参照データD2、楽譜データD3および参照楽譜データD4は、記憶部140に記憶されず、コンピュータが読み取り可能な記憶媒体に記憶されていてもよい。あるいは、処理システム100がネットワークに接続されている場合には、訓練済モデルM、結果データD1、参照データD2、楽譜データD3または参照楽譜データD4は、当該ネットワーク上のサーバに記憶されていてもよい。
操作部150は、マウス等のポインティングデバイスまたはキーボードを含み、所定の入力を行うために使用者により操作される。表示部160は、例えば液晶ディスプレイを含み、所定のGUI(Graphical User Interface)または音生成処理の結果等を表示する。操作部150および表示部160は、タッチパネルディスプレイにより構成されてもよい。
(2)音生成装置
図2は、音生成装置10の構成を示すブロック図である。図3および図4は、音生成装置10の動作例を説明するための図である。図2に示すように、音生成装置10は、提示部11、受付部12、生成部13および処理部14を含む。提示部11、受付部12、生成部13および処理部14の機能は、図1のCPU130が音生成プログラムを実行することにより実現される。提示部11、受付部12、生成部13および処理部14の少なくとも一部が電子回路等のハードウエアにより実現されてもよい。
提示部11は、図3に示すように、使用者からの入力を受け付けるためのGUIとして、受付画面1を表示部160に表示させる。受付画面1には、参照領域2および入力領域3が設けられる。参照領域2には、使用者により選択された楽譜データD3に基づいて、複数の音符からなる音符列における各音符の時間軸上での位置を表す参照画像4が表示される。参照画像は、例えばピアノロールである。使用者は、操作部150を操作することにより、記憶部140等に記憶された複数の楽譜データD3から所望の楽譜を示す楽譜データD3を選択したり、編集できる。
入力領域3は、参照領域2と対応するように配置される。また、図3の例では、参照画像4の各音符のアタック、ボディおよびリリースの3区間にそれぞれ対応するように、上下方向に延びる3本のバーが入力領域3に表示される。入力領域3の各バーの上下方向の長さは、対応する音符の区間における特徴量(本例では振幅)の代表値を示す。使用者は、図1の操作部150を用いて各バーの長さを変化させることにより、音符列における各音符の各区間について、振幅の代表値を入力領域3に入力する。ここでは、音符ごとに3つの代表値が入力される。受付部12は、入力領域3上に入力された代表値を受け付ける。
記憶部140等に記憶された訓練済モデルMは、図4に示すように、例えばニューラルネットワーク(図4の例ではDNN(深層ニューラルネットワーク)L1)を含む。使用者により選択された楽譜データD3および入力領域3に入力された各音符の3つの代表値は、訓練済モデルM(DNN)に与えられる。生成部13は、訓練済モデルMを用いて、楽譜データD3に対応する楽譜特徴量列と3つの代表値に対応する第1の特徴量列とを処理して、楽譜におけるピッチの時系列とスペクトル包絡とを含む結果データD1を生成する。結果データD1は、振幅が音符列における代表値の時間変化の精細度よりも高い精細度で時間的に変化するように配列された第2の特徴量列に対応する音データ列である。なお、結果データは、楽譜におけるスペクトルの時系列を示す結果データD1であってもよい。
第1の特徴量列は、アタックの代表値から生成されるアタックの特徴量列と、ボディの代表値から生成されるボディの特徴量列と、リリースの代表値から生成されるリリースの特徴量列とを含む。各区間の代表値を、前の音符の代表値から次の音符の代表値に滑らかに変化するよう平滑化し、その平滑化された代表値をその区間の代表値列としてもよい。音符列における各区間の代表値は、例えば、特徴量列において、当該区間内に配列された振幅の統計値である。統計値は、振幅の最大値、平均値、中央値、最頻値、分散または標準偏差であってもよい。一方で、代表値は、振幅の統計値に限定されない。例えば、代表値は、特徴量列における各区間内に配置された振幅の第1高調波の最大値と第2高調波の最大値との比、またはその比の対数値であってもよい。あるいは、代表値は、上記の第1高調波の最大値と第2高調波の最大値との平均値であってもよい。
生成部13は、生成された結果データD1を記憶部140等に記憶させてもよい。処理部14は、例えばボコーダとして機能し、生成部13により生成された周波数領域の結果データD1から時間領域の波形である音声信号を生成する。生成した音信号を、処理部14に接続されたスピーカ等を含むサウンドシステムに供給することにより、音声信号に基づく音が出力される。本例では、音生成装置10は処理部14を含むが、実施形態はこれに限定されない。音生成装置10は、処理部14を含まなくてもよい。
図3の例では、受付画面1において、入力領域3は参照領域2の下方に配置されるが、実施形態はこれに限定されない。受付画面1において、入力領域3は、参照領域2の上方に配置されてもよい。あるいは、受付画面1において、入力領域3は、参照領域2と重なるように配置されてもよい。ピアノロールの各音符の近傍に、その音符の3つの代表値が表示されてもよい。
また、図3の例では、受付画面1は参照領域2を含み、参照領域2に参照画像4が表示されるが、実施形態はこれに限定されない。図5は、受付画面1の他の例を示す図である。図5の例では、受付画面1は参照領域2を含まない。入力領域3において、各音符の時間軸上での位置が隣り合う2つの点線により示される。また、各音符の複数の区間の境界が一点鎖線により示される。使用者は、操作部150を用いて、入力領域3上で振幅の代表値の所望の時系列を示す描画を行う。これにより、音符列における各音符の各区間について、振幅の代表値を入力することができる。
図4の例では、訓練済モデルMは1つのDNNL1を含むが、実施形態はこれに限定されない。訓練済モデルMは、複数のDNNを含んでもよい。
(3)訓練装置
図6は、訓練装置20の構成を示すブロック図である。図7は、訓練装置20の動作例を説明するための図である。図6に示すように、訓練装置20は、抽出部21、生成部22および構築部23を含む。抽出部21、生成部22および構築部23の機能は、図1のCPU130が訓練プログラムを実行することにより実現される。抽出部21、生成部22および構築部23の少なくとも一部が電子回路等のハードウエアにより実現されてもよい。
抽出部21は、記憶部140等に記憶された各参照データD2から参照音データ列と出力特徴量列とを抽出する。参照音データ列は、例えば、対応する参照データD2が示す波形のスペクトル包絡の時系列とピッチの時系列とを含む。出力特徴量列は、参照音データ列に対応する波形の特徴量(振幅)の時系列であって、特徴量は前記間隔(5ms)に対応する精細度で時間的に変化する。
生成部22は、各出力特徴量列と対応する参照楽譜データD4とから、各音符の各区間の振幅の代表値を決定し、決定された代表値に応じて振幅が時間的に変化する入力特徴量列を生成する。具体的には、生成部22は、図7に示すように、まず、出力特徴量列と参照楽譜データD4とに基づいて、各音符のアタック、ボディおよびリリースの3区間を特定し、さらに、出力特徴量列において、各区間内の特徴量(振幅)の代表値を抽出する。図7の例では、各区間内の振幅の代表値は最大値であるが、当該区間内の振幅の他の統計値でもよいし、統計値以外の代表値でもよい。生成部22は、抽出された複数の区間内の振幅の代表値に基づいて、音符列におけるアタック、ボディおよびリリースの3区間にそれぞれ対応する3つの特徴量(振幅)の時系列である入力特徴量列を生成する。
入力特徴量列は、音符ごとに生成される代表値の時系列なので、出力特徴量列と比べて精細度が遥かに低い。生成する入力特徴量列は、区間ごとの代表値を、そのまま時間軸上のその対応する区間に並べた階段状に変化する特徴量列でもよいし、値が急激に変化しないよう平滑化された特徴量列でもよい。平滑化された入力特徴量列は、例えば、各区間の始点で代表値となるよう、その区間の手前で特徴量がゼロから徐々に増加し、その区間で特徴量が代表値を維持し、その区間の終点以降で特徴量が代表値からゼロまで徐々に減少する特徴量列である。平滑化された特徴量を用いた場合は、各区間に生成される音の特徴量に加え、その直前ないし直後に生成される音の特徴量を、当該区間の代表値により制御できる。
構築部23は、DNNで構成される生成モデルm(未訓練または予備訓練済)を用意し、各参照データD2から抽出された参照音データ列と、生成された入力特徴量列および対応する参照楽譜データD4から生成される楽譜特徴量列とに基づいて、その生成モデルmを訓練する機械学習を行う。この訓練により、入力特徴量列および楽譜特徴量列と、参照音データ列との間の入出力関係を習得した訓練済モデルMが構築される。用意される生成モデルmは、図4に示すように、1つのDNNL1を含んでもよいし、複数のDNNを含んでもよい。構築部23は、構築された訓練済モデルMを記憶部140等に記憶させる。
(4)音生成処理
図8は、図2の音生成装置10による音生成処理の一例を示すフローチャートである。図8の音生成処理は、図1のCPU130が記憶部140等に記憶された音生成プログラムを実行することにより行われる。まず、CPU130は、使用者により楽譜データD3が選択されたか否かを判定する(ステップS1)。楽譜データD3が選択されない場合、CPU130は、楽譜データD3が選択されるまで待機する。
楽譜データD3が選択された場合、CPU130は、図3の受付画面1を表示部160に表示させる(ステップS2)。受付画面1の参照領域2には、ステップS1で選択された楽譜データD3に基づく参照画像4が表示される。次に、CPU130は、受付画面1の入力領域3上で音符列の各区間における振幅の代表値を受け付ける(ステップS3)。
続いて、CPU130は、訓練済モデルMを用いて、ステップS1で選択された楽譜データD3の楽譜特徴量列およびステップS4で受け付けられた代表値から生成された第1の特徴量列を処理して、結果データD1を生成する(ステップS4)。その後、CPU130は、ステップS4で生成された結果データD1から時間領域の波形である音声信号を生成し(ステップS5)、音生成処理を終了する。
(5)訓練処理
図9は、図6の訓練装置20による訓練処理の一例を示すフローチャートである。図9の訓練処理は、図1のCPU130が記憶部140等に記憶された訓練プログラムを実行することにより行われる。まず、CPU130は、記憶部140等から訓練に用いる複数の参照データD2を取得する(ステップS11)。次に、CPU130は、ステップS11で取得された各参照データD2から参照音データ列を抽出する(ステップS12)。また、CPU130は、各参照データD2から出力特徴量列(振幅の時系列)を抽出する(ステップS13)。
続いて、CPU130は、抽出された出力特徴量列と対応する参照楽譜データD4とから音符列の各音符の各区間の代表値(振幅の最大値)を決定し、決定された各区間の代表値に基づいて入力特徴量列(3つの振幅の時系列)を生成する(ステップS14)。その後、CPU130は、生成モデルmを用意し、各参照データD2に対応する参照楽譜データD4に基づく楽譜特徴量列および入力特徴量列と、参照音データ列とに基づいてその生成モデルmを訓練し、楽譜特徴量列および入力特徴量列と、参照音データ列との間の入出力関係を生成モデルmに機械学習させる(ステップS15)。
次に、CPU130は、生成モデルmが入出力関係を習得するために十分な機械学習が実行されたか否かを判定する(ステップS16)。機械学習が不十分な場合、CPU130はステップS15に戻る。十分な機械学習が実行されるまで、ステップS15~S16が繰り返される。機械学習の繰り返し回数は、構築される訓練済モデルMが満たすべき品質条件に応じて変化する。十分な機械学習が実行された場合、CPU130は、その訓練により楽譜特徴量列および入力特徴量列と、参照音データ列との間の入出力関係を習得した生成モデルmを、構築された訓練済モデルMとして保存し(ステップS17)、訓練処理を終了する。
(6)実施形態の効果
以上説明したように、本実施形態に係る音生成方法は、複数の区間からなる音符の各区間について音楽的な特徴量の代表値の入力を受け付け、訓練済モデルを用いて、入力された各区間の代表値に応じた第1の特徴量列を処理して、特徴量が連続的に変化する第2の特徴量列に対応する音データ列を生成し、コンピュータにより実現される。
この方法によれば、特徴量の音符の部分ごとの代表値が入力される場合でも、高い精細度で連続的に変化する特徴量列に対応する音データ列が生成される。生成される音データ列は、特徴量が詳細に時間変化し、自然な音波形を示す。したがって、使用者は、特徴量の詳細な時間変化を入力する必要がない。
訓練済モデルは、機械学習により、音波形を示す参照データの各区間の特徴量の代表値に対応する入力特徴量列と、当該参照データの連続的に変化する出力特徴量列との間の入出力関係を習得済であってもよい。
各区間の代表値は、出力特徴量列において、当該区間内の特徴量の統計値であってもよい。
音生成方法は、音符列における音符の各部分の特徴量が表示される受付画面をさらに提示し、代表値の入力は、受付画面を用いて入力されてもよい。この場合、使用者は、音符列における複数の音符の時間軸上での位置を視認しつつ、代表値を容易に入力することができる。
本実施形態に係る訓練方法は、音波形を示す参照データから特徴量が連続的に変化する参照音データ列と、その特徴量の時系列である出力特徴量列とを抽出し、出力特徴量列から特徴量が音の区間ごとに変化する入力特徴量列を生成し、機械学習により、入力特徴量列と、出力特徴量列に対応する参照音データ列との間の入出力関係を習得した訓練済モデルを構築し、コンピュータにより実現される。
この方法によれば、音符列における各音符の各区間の特徴量の代表値が入力される場合でも、特徴量が高い精細度で連続的に時間変化する第2の特徴量列に対応する音データ列を生成可能な訓練済モデルMが構築される。
入力特徴量列は、出力特徴量列において、複数の区間の各々の特徴量から決定された代表値に基づいて生成されてもよい。
(7)他の実施形態
上記実施形態において、使用者は、生成される音を制御する制御値として各音符の各区間の振幅の最大値を入力するが、実施形態はこれに限定されない。制御値として用いるのは振幅以外のいかなる特徴量でもよく、最大値以外のいかなる代表値でもよい。以下、第2実施形態に係る音生成装置10および訓練装置20について、第1実施形態に係る音生成装置10および訓練装置20と共通する点と異なる点とを説明する。
本実施形態における音生成装置10は、以下の点を除いて、図2を参照して説明した第1実施形態の音生成装置20と同様である。提示部11は、使用者により選択された楽譜データD3に基づいて、受付画面1を表示部160に表示させる。図10は、第2実施形態における受付画面1の一例を示す図である。図10に示すように、本実施形態における受付画面1には、図3の入力領域3に代えて、3つの入力領域3a,3b,3cが参照領域2と対応するように配置される。
図10の例では、参照画像4の各音符のアタック、ボディおよびリリースの3区間の特徴量の代表値が、上下方向に延びるバーとして、3つの入力領域3a,3b,3cにそれぞれ表示される。第2実施形態における特徴量はピッチであり、代表値は各区間におけるピッチの分散である。入力領域3aの各バーの長さは、対応する音符のアタックにおけるピッチの分散を示す。入力領域3bの各バーの長さは、対応する音符のボディにおけるピッチの分散を示す。入力領域3cの各バーの長さは、対応する音符のリリースにおけるピッチの分散を示す。
使用者は、操作部150を用いて各バーの長さを変化させることにより、音符列における各音符のアタック、ボディおよびリリースの各区間の特徴量の代表値を入力領域3a,3b,3cにそれぞれ入力する。受付部12は、入力領域3a~3cの上に入力された代表値を受け付ける。
生成部13は、訓練済モデルMを用いて、楽譜データD3に基づく楽譜特徴量列および各音符の3つの代表値(ピッチの分散)に基づく第1の特徴量列を処理して、結果データD1を生成する。結果データD1は、ピッチが高い精細度で連続的に変化する第2の特徴量列を含む音データ列である。生成部13は、生成された結果データD1を記憶部140等に記憶させてもよい。また、生成部13は、周波数領域の結果データD1に基づいて、時間領域の波形である音声信号を生成し、サウンドシステムに供給する。なお、生成部13は、結果データD1に含まれる第2の特徴量列(ピッチの時系列)を表示部160に表示させてもよい。
本実施形態における訓練装置20は、以下の点を除いて、図6を参照して説明した第1実施形態の訓練装置20と同様である。本実施形態においては、図9の訓練処理のステップS13で抽出すべき出力特徴量列であるピッチの時系列は、直前のステップS12において、参照音データ列の一部として抽出済みである。CPU130(抽出部21)は、ステップS13において、複数の参照データD2の各々における振幅の時系列を、出力特徴量列としてではなく、音を3つの部分に分離する指標として抽出する。
次のステップS14において、CPU130は、その振幅の時系列に基づいて、参照音データ列に含まれるピッチの時系列(出力特徴量列)を、音のアタック、音のリリースおよびアタックとリリースとの間のボディの3区間に分け、各区間のピッチ列をそれぞれ統計分析してその区間のピッチの分散を決定し、決定された各区間の代表値に基づいて入力特徴値列を生成する。
また、CPU130(構築部23)は、ステップS15~S16において、各参照データD2から生成した参照音データ列と入力特徴量とに対応する参照楽譜データD4に基づいて、機械学習(生成モデルmの訓練)を繰り返し行うことにより、参照楽譜データD4に対応する楽譜特徴量列および入力特徴量列と、出力特徴量に対応する参照音データ列との間の入出力関係を習得した訓練済モデルMを構築する。
本実施形態の音生成装置10において、使用者は、音符列の各音符のアタック、ボディおよびリリースの各区間のピッチの分散を入力することにより、その区間の付近において生成される音の、高い精細度で連続的に変化するピッチの変化幅を効果的に制御できる。なお、受付画面1は入力領域3a~3cを含むが、実施形態はこれに限定されない。受付画面1は、入力領域3a,3b,3cのうち、いずれか1つまたは2つの入力領域を含まなくてもよい。また、本実施形態においても、受付画面1は参照領域2を含まなくてもよい。
1…受付画面,2…参照領域,3,3a~3c…入力領域,4…参照画像,10…音生成装置,11…提示部,12…受付部,13…生成部,14…処理部,20…訓練装置,21…抽出部,22…生成部,23…構築部,100…処理システム,110…RAM,120…ROM,130…CPU,140…記憶部,150…操作部,160…表示部,170…バス,D1…結果データ,D2…参照データ,D3…楽譜データ,D4…参照楽譜データ,L1…DNN,m…生成モデル,M…訓練済モデル

Claims (10)

  1. 複数の区間からなる音符の各区間について音楽的な特徴量の代表値の入力を受け付け、
    訓練済モデルを用いて、前記入力された各区間の代表値に応じた第1の特徴量列を処理して、前記特徴量が連続的に変化する第2の特徴量列に対応する音データ列を生成する、
    コンピュータにより実現される音生成方法。
  2. 前記訓練済モデルは、機械学習により、音波形を示す参照データの前記各区間の特徴量の代表値に対応する入力特徴量列と、当該参照データの連続的に変化する出力特徴量列との間の入出力関係を習得済である、請求項1記載の音生成方法。
  3. 各区間の前記代表値は、前記出力特徴量列において、当該区間内の特徴量の統計値である、請求項1または2記載の音生成方法。
  4. 前記音符列における音符の各部分の特徴量が表示される受付画面をさらに提示し、
    前記代表値の入力は、前記受付画面を用いて入力される、請求項1~3のいずれか一項に記載の音生成方法。
  5. 音波形を示す参照データから前記特徴量が連続的に変化する参照音データ列と、その特徴量の時系列である出力特徴量列とを抽出し、
    前記出力特徴量列から前記特徴量が音の区間ごとに変化する入力特徴量列を生成し、
    機械学習により、前記入力特徴量列と、前記出力特徴量列に対応する参照音データ列との間の入出力関係を習得した訓練済モデルを構築する、
    コンピュータにより実現される訓練方法。
  6. 前記入力特徴量列は、前記出力特徴量列において、複数の区間の各々の特徴量から決定された代表値に基づいて生成される、請求項5記載の訓練方法。
  7. 複数の区間からなる音符の各区間について音楽的な特徴量の代表値の入力を受け付ける受付部と、
    訓練済モデルを用いて、前記入力された各区間の代表値に応じた第1の特徴量列を処理して、前記特徴量が連続的に変化する第2の特徴量列に対応する音データ列を生成する生成部とを備える、音生成装置。
  8. 音波形を示す参照データから特徴量が連続的に変化する参照音データ列と、その特徴量の時系列である出力特徴量列とを抽出する抽出部と、
    前記出力特徴量列から前記特徴量が音の区間ごとに変化する入力特徴量列を生成する生成部と、
    機械学習により、前記入力特徴量列と、前記出力特徴量列に対応する参照音データ列との間の入出力関係を習得した訓練済モデルを構築する構築部とを備える、訓練装置。
  9. 1ないし複数のコンピュータに、
    複数の区間からなる音符の各区間について音楽的な特徴量の代表値の入力を受け付け、
    訓練済モデルを用いて、前記入力された各区間の代表値に応じた第1の特徴量列を処理して、前記特徴量が連続的に変化する第2の特徴量列に対応する音データ列を生成する
    ステップを行わせる、音生成プログラム。
  10. 1ないし複数のコンピュータに、
    音波形を示す参照データから前記特徴量が連続的に変化する参照音データ列と、その特徴量の時系列である出力特徴量列とを抽出し、
    前記出力特徴量列から前記特徴量が音の区間ごとに変化する入力特徴量列を生成し、
    機械学習により、前記入力特徴量列と、前記出力特徴量列に対応する参照音データ列との間の入出力関係習得した訓練済モデルを構築する
    ステップを行わせる、訓練プログラム。
JP2021020085A 2021-02-10 2021-02-10 機械学習モデルを用いた音生成方法、機械学習モデルの訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラム Pending JP2022122689A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2021020085A JP2022122689A (ja) 2021-02-10 2021-02-10 機械学習モデルを用いた音生成方法、機械学習モデルの訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラム
PCT/JP2021/045964 WO2022172577A1 (ja) 2021-02-10 2021-12-14 機械学習モデルを用いた音生成方法、機械学習モデルの訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラム
CN202180092868.7A CN116806354A (zh) 2021-02-10 2021-12-14 使用机器学习模型的音生成方法、机器学习模型的训练方法、音生成装置、训练装置、音生成程序及训练程序
US18/447,071 US20230395046A1 (en) 2021-02-10 2023-08-09 Sound generation method using machine learning model, training method for machine learning model, sound generation device, training device, non-transitory computer-readable medium storing sound generation program, and non-transitory computer-readable medium storing training program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021020085A JP2022122689A (ja) 2021-02-10 2021-02-10 機械学習モデルを用いた音生成方法、機械学習モデルの訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラム

Publications (1)

Publication Number Publication Date
JP2022122689A true JP2022122689A (ja) 2022-08-23

Family

ID=82838650

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021020085A Pending JP2022122689A (ja) 2021-02-10 2021-02-10 機械学習モデルを用いた音生成方法、機械学習モデルの訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラム

Country Status (4)

Country Link
US (1) US20230395046A1 (ja)
JP (1) JP2022122689A (ja)
CN (1) CN116806354A (ja)
WO (1) WO2022172577A1 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017097332A (ja) * 2016-08-26 2017-06-01 株式会社テクノスピーチ 音声合成装置および音声合成方法
JP2018077283A (ja) * 2016-11-07 2018-05-17 ヤマハ株式会社 音声合成方法
JP2019008206A (ja) * 2017-06-27 2019-01-17 日本放送協会 音声帯域拡張装置、音声帯域拡張統計モデル学習装置およびそれらのプログラム

Also Published As

Publication number Publication date
CN116806354A (zh) 2023-09-26
WO2022172577A1 (ja) 2022-08-18
US20230395046A1 (en) 2023-12-07

Similar Documents

Publication Publication Date Title
WO2020073944A1 (zh) 语音合成方法及设备
US11488577B2 (en) Training method and apparatus for a speech synthesis model, and storage medium
JP6004358B1 (ja) 音声合成装置および音声合成方法
CN105810190A (zh) 音乐内容和实时音乐伴奏的自动转录
US9552741B2 (en) Systems and methods for quantifying a sound into dynamic pitch-based graphs
KR20150016225A (ko) 타겟 운율 또는 리듬이 있는 노래, 랩 또는 다른 가청 표현으로의 스피치 자동 변환
DE202017106303U1 (de) Bestimmen phonetischer Beziehungen
EP4167226A1 (en) Audio data processing method and apparatus, and device and storage medium
JP7124373B2 (ja) 学習装置、音響生成装置、方法及びプログラム
US20230386440A1 (en) Sound generation method using machine learning model, training method for machine learning model, sound generation device, training device, non-transitory computer-readable medium storing sound generation program, and non-transitory computer-readable medium storing training program
CN112712783B (zh) 生成音乐的方法和装置、计算机设备和介质
CN105895079A (zh) 语音数据的处理方法和装置
WO2022172577A1 (ja) 機械学習モデルを用いた音生成方法、機械学習モデルの訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラム
JP2017097332A (ja) 音声合成装置および音声合成方法
CN112700520B (zh) 基于共振峰的口型表情动画生成方法、装置及存储介质
JP6693176B2 (ja) 歌詞生成装置および歌詞生成方法
WO2022202415A1 (ja) 機械学習モデルを用いた信号処理方法、信号処理装置および音生成方法
CN113724542B (zh) 一种复谱的拉伸显示方法
JP2016156943A (ja) 表示制御装置、表示制御方法、及びプログラム
WO2022244818A1 (ja) 機械学習モデルを用いた音生成方法および音生成装置
JP7055529B1 (ja) 意味判定プログラム、及び意味判定システム
CN112185338B (zh) 音频处理方法、装置、可读存储介质和电子设备
KR20240010344A (ko) 악기 연주 교습 방법 및 악기 연주 교습 장치
JP2020181141A (ja) 歌詞入力方法およびプログラム
CN117350906A (zh) 由计算机实施的辅助识字的方法及相关产品

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231221