IT201800008080A1 - Sistema per la generazione di suono sintetizzato in strumenti musicali. - Google Patents

Sistema per la generazione di suono sintetizzato in strumenti musicali. Download PDF

Info

Publication number
IT201800008080A1
IT201800008080A1 IT102018000008080A IT201800008080A IT201800008080A1 IT 201800008080 A1 IT201800008080 A1 IT 201800008080A1 IT 102018000008080 A IT102018000008080 A IT 102018000008080A IT 201800008080 A IT201800008080 A IT 201800008080A IT 201800008080 A1 IT201800008080 A1 IT 201800008080A1
Authority
IT
Italy
Prior art keywords
sound
parameters
physical model
stage
physical
Prior art date
Application number
IT102018000008080A
Other languages
English (en)
Inventor
Stefano Squartini
Stefano Tomassetti
Leonardo Gabrielli
Original Assignee
Viscount Int Spa
Università Politecnica delle Marche
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Viscount Int Spa, Università Politecnica delle Marche filed Critical Viscount Int Spa
Priority to IT102018000008080A priority Critical patent/IT201800008080A1/it
Priority to US17/266,216 priority patent/US11615774B2/en
Priority to PCT/EP2019/069339 priority patent/WO2020035255A1/en
Priority to KR1020217007650A priority patent/KR102645315B1/ko
Priority to EP19742034.2A priority patent/EP3837680B1/en
Priority to JP2021507520A priority patent/JP7344276B2/ja
Priority to CN201980052866.8A priority patent/CN112543971B/zh
Publication of IT201800008080A1 publication Critical patent/IT201800008080A1/it

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H5/00Instruments in which the tones are generated by means of electronic generators
    • G10H5/007Real-time simulation of G10B, G10C, G10D-type instruments using recursive or non-linear techniques, e.g. waveguide networks, recursive algorithms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/002Instruments in which the tones are synthesised from a data store, e.g. computer organs using a common processing for different operations or calculations, and a set of microinstructions (programme) to control the sequence thereof
    • G10H7/006Instruments in which the tones are synthesised from a data store, e.g. computer organs using a common processing for different operations or calculations, and a set of microinstructions (programme) to control the sequence thereof using two or more algorithms of different types to generate tones, e.g. according to tone color or to processor workload
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/08Instruments in which the tones are synthesised from a data store, e.g. computer organs by calculating functions or polynomial approximations to evaluate amplitudes at successive sample points of a tone waveform
    • G10H7/12Instruments in which the tones are synthesised from a data store, e.g. computer organs by calculating functions or polynomial approximations to evaluate amplitudes at successive sample points of a tone waveform by means of a recursive algorithm using one or more sets of parameters stored in a memory and the calculated amplitudes of one or more preceding sample points
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2230/00General physical, ergonomic or hardware implementation of electrophonic musical tools or instruments, e.g. shape or architecture
    • G10H2230/045Special instrument [spint], i.e. mimicking the ergonomy, shape, sound or other characteristic of a specific acoustic musical instrument category
    • G10H2230/061Spint organ, i.e. mimicking acoustic musical instruments with pipe organ or harmonium features; Electrophonic aspects of acoustic pipe organs or harmoniums; MIDI-like control therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/295Noise generation, its use, control or rejection for music processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/471General musical sound synthesis principles, i.e. sound category-independent synthesis methods
    • G10H2250/511Physical modelling or real-time simulation of the acoustomechanical behaviour of acoustic musical instruments using, e.g. waveguides or looped delay lines

Description

DESCRIZIONE
a corredo di una domanda di brevetto per invenzione industriale avente per titolo:
“SISTEMA PER LA GENERAZIONE DI SUONO SINTETIZZATO IN STRUMENTI MUSICALI”.
TESTO DELLA DESCRIZIONE
La presente invenzione si riferisce ad un sistema per la generazione di suono sintetizzato in strumenti musicali, in particolare in un organo liturgico. Per tale generazione di suono sintetizzato viene utilizzata una parametrizzazione di un modello fisico. L'invenzione si riferisce precisamente ad un sistema per la parametrizzazione di un modello fisico utilizzato per la generazione di suono.
Un modello fisico è una rappresentazione matematica di un processo o di un fenomeno naturale. Nella presente invenzione, la modellazione è applicata ad una canna d’organo, ottenendo una rappresentazione fedele in senso fisico di uno strumento musicale. Sfruttando questa metodologia si potrà ottenere uno strumento musicale in grado di riprodurre non solo il suono, ma anche il processo di generazione ad esso associato.
US7442869, a nome della stessa richiedente, descrive un modello fisico di riferimento per un organo liturgico.
Tuttavia bisogna considerare che un modello fisico non è strettamente collegato alla generazione di suoni e all’impiego all’interno di strumenti musicali, ma può essere una rappresentazione matematica di un qualunque sistema appartenente al mondo reale.
I metodi di parametrizzazione di modelli fisici secondo la tecnica nota, sono per lo più euristici e la bontà dei suoni prodotti è affidata molto al gusto musicale e all’esperienza di chi effettua l’operazione (Sound Designer). Questo dà luogo a suoni che hanno un carattere ed una composizione riconducibile al Sound Designer. Inoltre, parametrizzando in tempi uomo, tali suoni hanno periodi di realizzazione mediamente lunghi.
In letteratura sono stati proposti svariati metodi per la parametrizzazione di modelli fisici, come ad esempio nei seguenti documenti:
- Carlo Drioli and Davide Rocchesso. A generalized musicaltone generator with application to sound compression and synthesis. In Acoustics, Speech, and Signal Processing, 1997 IEEE International Conference on, volume 1, pages 431–434. IEEE, 1997.
- Katsutoshi Itoyama and Hiroshi G Okuno. Parameter estimation of virtual musical instrument synthesizers. In Proc. of the International Computer Music Conference (ICMC), 2014. - Thomas J Mitchell and David P Creasey. Evolutionary sound matching: A test methodology and comparative study. In Machine Learning and Applications, 2007. ICMLA 2007. Sixth International Conference on, pages 229–234. IEEE, 2007.
- Thomas Mitchell. Automated evolutionary synthesis matching. Soft Computing, 16(12):2057–2070, 2012.
- Janne Riionheimo and Vesa Valimaki. Parameter estimation of a plucked string synthesis model using a genetic algorithm with perceptual fitness calculation. EURASIP Journal on Advances in Signal Processing, 2003(8), 2003.
- Ali Taylan Cemgil and Cumhur Erkut. Calibration of physical models using artificial neural networks with application to plucked string instruments. Proc. Intl. Symposium on Musical Acoustics (ISMA), 19:213–218, 1997.
- Alvin WY Su and Liang San-Fu. Synthesis of plucked-string tones by physical modeling with recurrent neural networks. In Multimedia Signal Processing, 1997. IEEE First Workshop on, pages 71–76. IEEE, 1997.
Tuttavia tali documenti descrivono algoritmi riconducibili a determinati modelli fisici o ad alcuni parametri dei modelli fisici.
Sono note pubblicazioni sull’utilizzo di reti neurali, quale ad esempio: Leonardo Gabrielli, Stefano Tomassetti, Carlo Zinato, and Stefano Squartini. Introducing deep machine learning for parameter estimation in physical modelling. In Digital Audio Effects (DAFX), 2017. Tale documento descrive un approccio end-to-end (usando Convolutional Neural Networks) che ingloba negli strati della rete neurale un’estrazione di features acustiche appresa dalla rete neurale. Tale sistema, tuttavia presenta prestazioni non ottimali per l’utilizzo in uno strumento musicale.
Scopo della presente invenzione è di eliminare gli inconvenienti della tecnica nota, fornendo un sistema per la generazione di suono sintetizzato in strumenti musicali, che si può estendere a molteplici modelli fisici e che sia svincolato dalla struttura intrinseca del modello fisico utilizzato nella sua validazione.
Altro scopo è quello di fornire un tale sistema che consenta uno sviluppo e utilizzo di metriche acustiche oggettive e procedimenti euristici di ottimizzazione iterativa, in grado di parametrizzare con precisione il modello fisico scelto in base ad un suono di riferimento.
Questi scopi sono raggiunti in accordo all’invenzione con le caratteristiche della rivendicazione indipendente 1.
Realizzazioni vantaggiose dell’invenzione appaiono dalle rivendicazioni dipendenti.
Il sistema per la generazione di suono sintetizzato in strumenti musicali, secondo l’invenzione è definito nella rivendicazione 1.
Ulteriori caratteristiche dell’invenzione appariranno più chiare dalla descrizione dettagliata che segue, riferita a una sua forma di realizzazione puramente esemplificativa e quindi non limitativa, illustrata nei disegni annessi, in cui:
la Fig. 1 è uno schema a blocchi illustrante schematicamente il sistema per la generazione di suono in strumenti musicali secondo l’invenzione:
la Fig. 1A è uno schema a blocchi illustrante in maggiore dettaglio i primi due stadi del sistema di Fig. 1;
la Fig. 1B è uno schema a blocchi illustrante schematicamente l’ultimo stadio del sistema di Fig. 1;
la Fig. 2 è uno schema a blocchi del sistema secondo l’invenzione applicato ad un organo liturgico;
la Fig. 3 è uno schema illustrante le caratteristiche estratte da un segnale audio grezzo che entra nel sistema secondo l’invenzione;
la Fig. 3A è uno schema illustrante in maggiore dettaglio alcune caratteristiche estratte dal segnale audio grezzo;
la Fig. 4 è uno schema di un neurone artificiale, alla base di reti neurali MLP utilizzate nel sistema secondo l’invenzione;
la Fig. 5A sono due grafici illustranti rispettivamente l’inviluppo e la sua derivata per l’estrazione dell’attacco della forma d’onda;
la Fig. 5B sono due grafici illustranti rispettivamente l’inviluppo della prima armonica e la sua derivata per l’estrazione dell’attacco della prima armonica del segnale in esame;
la Fig. 5C sono due grafici illustranti rispettivamente l’inviluppo della seconda armonica e la sua derivata per l’estrazione dell’attacco della seconda armonica del segnale in esame;
la Fig. 6A sono due grafici illustranti rispettivamente il rumore estratto mediante filtraggio della parte armonica e derivata dell’inviluppo;
la Fig. 6B è un grafico illustrante un’estrazione della granularità del rumore;
la Fig. 7 una formulazione dell’algoritmo di MORIS;
la Fig. 8 è un grafico illustrante un’evoluzione delle distanze su un set di suoni; in cui sull’asse X sono riportati gli indici dei suoni e sull’asse Y i valori di distanza complessiva.
Con l’ausilio delle Figure viene descritto il sistema per la generazione di suono sintetizzato in strumenti musicali secondo l’invenzione, indicato complessivamente con il numero di riferimento (100).
Il sistema (100) consente una stima dei parametri che gestiscono un modello fisico di strumento musicale. Il sistema (100), in particolare è applicato ad un modello di organo liturgico, ma è generalizzabile a più tipi differenti di modelli fisici.
Con riferimento a Fig. 1, un segnale audio grezzo (SIN) entra nel sistema (100) in cui viene elaborato in modo da ottenere un segnale audio sintetizzato (SOUT) che esce dal sistema (100).
Con riferimento anche alle Figg. 1A e 1B, il sistema (100) comprende:
- un primo stadio (1) in cui sono estratte alcune features (F) del segnale grezzo (SIN) e sono stimati parametri relativi a tali features (F), in modo da ottenere una pluralità di parametri stimati (P*1, …P*M);
- un secondo stadio (2) in cui i parametri stimati (P*1, …P*M) sono utilizzati per realizzare una pluralità di modelli fisici (M1, … MM) che vengono valutati in modo da selezionare i parametri (P*i) relativi al modello fisco migliore;
- un terzo stadio (3) in cui i parametri (P*i) selezionati nel secondo stadio sono utilizzati per effettuare una ricerca casuale iterativa, in modo da ottenere parametri finali (Pi) che sono inviati ad un generatore di suono (106) che emette il segnale audio sintetizzato (SOUT).
Con riferimento a Fig. 2, il segnale audio grezzo (SIN) può provenire da microfoni (101) disposti all’uscita di canne (102) di un organo liturgico. Il segnale audio grezzo (SIN) è acquisito da un computer (103) avente una scheda audio.
Il segale audio grezzo (SIN) viene analizzato dal sistema (100) all’interno computer (103). Il sistema (100) estrae i parametri finali (Pi) per la ricostruzione del segnale sintetizzato (SOUT). Tali parametri finali (Pi) sono memorizzarti in una memoria (104) gestita da un’interfaccia utente (105). I parametri finali (Pi) sono trasmessi ad un generatore di suono (106) gestito da un tastiera (107) dell’organo. Il generatore di suono (106) in base ai parametri ricevuti genera il segnale audio sintetizzato (SOUT) che invia ad un altoparlante (108) che emette suono.
Il generatore di suono (106) è un dispositivo elettronico in grado di riprodurre un suono molto simile a quello rilevato dal microfono (101), in base ai parametri ricavati dal sistema (100). Un generatore di suono è descritto in US7442869.
Primo stadio (1)
Il primo stadio (1) comprende mezzi di estrazione (10) che estraggono alcune features (F) dal segnale grezzo (SIN) e un set di reti neurali (11) che effettuano una stima di parametri ottenuti da tali features (F).
La scelta delle features (F) è stata fatta basandosi sul suono d’organo e creando un set di features non canonico e variegato, composto da molteplici coefficienti relativi ad aspetti differenti del segnale grezzo (SIN) in ingresso da parametrizzare.
Con riferimento a Fig. 3, le features (F) utilizzate sono le seguenti:
- Ampiezza delle prime N armoniche (F1): N coefficienti relativi all’ampiezza delle prime N armoniche (o parziali, se non sono multiple della fondamentale) calcolate tramite rilevamento preciso dei picchi nel dominio della frequenza. Ad esempio N=20.
- SNR (F2): Rapporto Segnale Rumore calcolato come rapporto tra energia delle armoniche ed energia totale del segnale.
- Spettro LogMel (F3): Spettro log-Mel, calcolato su 128 punti, attraverso tecnica nota in letteratura.
- Coefficienti (F4) relativi all’inviluppo: Coefficienti relativi ai tempi di attacco del suono (A), decadimento (D), valori di regime (S) e rilascio (R), secondo lo schema noto in letteratura musicale come ADSR, utilizzato anche nel modello fisico per generare gli inviluppi (andamento dell’ampiezza nel tempo) del suono.
I coefficienti (F4) vengono estratti attraverso analisi dell’inviluppo del segnale audio grezzo (SIN), ovvero utilizzando un rilevatore di inviluppo secondo tecniche note in letteratura.
Con riferimento a Fig. 3A, i coefficienti (F4) estratti sono 20, perché l’estrazione viene eseguita sul segnale grezzo (SIN), sulla prima e seconda armonica (estratte ciascuna filtrando il segnale con un filtro passabanda opportuno) e sulla componente di rumore estratta tramite filtraggio comb per eliminare la parte armonica.
Per ogni parte di segnale analizzata vengono estratti 5 coefficienti quali:
– T1 tempo della prima rampa d’attacco, che va dal tempo di inizio al punto di massimo della derivata dell’inviluppo estratto tramite trasformata Hilbert del segnale, nota in letteratura. La divisione in due rampe d’attacco deriva dall’impiego del modello fisico indicato in US7442869 che schematizza l’ingresso del suono dell’organo liturgico, come una composizione di due rampe di attacco.
– A1 ampiezza relativa all’istante T1
– T2 tempo della seconda rampa d’attacco che va da T1 al punto in cui la derivata dell’inviluppo stabilizza il suo valore attorno allo 0
– A2 ampiezza relativa all’istante T2
– S ampiezza RMS di sustain del segnale dopo il transitorio d’attacco.
Inoltre sono estratte dal segnale componenti aleatorie e/o non periodiche (F5). Le componenti aleatorie e/o non periodiche (F5) sono sei coefficienti che forniscono informazioni indicative sul rumore. L’estrazione di queste componenti può essere fatta attraverso una serie di filtraggi comb e notch per rimuovere la parte armonica del segnale grezzo (Si). Le informazioni utili estratte possono essere: il valore RMS della componente aleatoria, il suo duty cycle (denominato noise duty cycle), lo zero crossing rate, la zero crossing standard deviation e i coefficienti di inviluppo (attacchi e sustain).
La Fig. 5A illustra due grafici illustranti rispettivamente l’inviluppo e la sua derivata per l’estrazione dell’attacco della forma d’onda. In Fig. 5A sono riportate le seguenti caratteristiche del segnale, indicate con la numerazione corrispondente:
- 300 Grafico di forma d'onda nel tempo del suono grezzo in analisi e suo inviluppo temporale
- 301 Inviluppo temporale medio del segnale
- 302 Forma d'onda nel tempo del segnale
- 303 Derivata nel tempo dell'inviluppo del segnale
- 304 istante di tempo T1 relativo alla prima rampa d'attacco - 305 istante di tempo T2 relativo alla seconda rampa d'attacco - 306 ampiezza A1 della forma d'onda in corrispondenza del tempo T1
- 307 ampiezza A2 della forma d'onda in corrispondenza del tempo T2
La Fig. 5B illustra due grafici illustranti rispettivamente l’inviluppo e la sua derivata per l’estrazione dell’attacco della prima armonica del segnale in esame. In Fig. 5B sono riportate le seguenti caratteristiche relative alla prima armonica del segnale, indicate con la numerazione corrispondente:
- 310 Grafico di forma d'onda nel tempo, relativo alla prima armonica, e suo inviluppo temporale
- 311 Inviluppo temporale medio della prima armonica - 312 Forma d'onda nel tempo della prima armonica
- 313 Derivata nel tempo dell'inviluppo della prima armonica - 314 istante di tempo T1 relativo alla prima rampa d'attacco della prima armonica
- 315 istante di tempo T2 relativo alla seconda rampa d'attacco della prima armonica
- 316 ampiezza A1 della forma d'onda in corrispondenza del tempo T1 della prima armonica
- 317 ampiezza A2 della forma d'onda in corrispondenza del tempo T2 della prima armonica
la Fig. 5C illustra due grafici illustranti rispettivamente l’inviluppo e la sua derivata per l’estrazione dell’attacco della seconda armonica del segnale in esame. In Fig. 5C sono riportate le seguenti caratteristiche relative alla seconda armonica del segnale, indicate con la numerazione corrispondente:
- 320 Grafico di forma d'onda nel tempo, relativo alla seconda armonica, e suo inviluppo temporale
- 321 Inviluppo temporale medio della seconda armonica - 322 Forma d'onda nel tempo della seconda armonica
- 323 Derivata nel tempo dell'inviluppo della seconda armonica
- 324 istante di tempo T1 relativo alla prima rampa d'attacco della seconda armonica
- 325 istante di tempo T2 relativo alla seconda rampa d'attacco della seconda armonica
- 326 ampiezza A1 della forma d'onda in corrispondenza del tempo T1 della seconda armonica
- 327 ampiezza A2 della forma d'onda in corrispondenza del tempo T2 della seconda armonica
la Fig. 6A illustra due grafici illustranti rispettivamente il rumore estratto mediante filtraggio della parte armonica e derivata dell’inviluppo. In Fig. 6A sono riportate le seguenti caratteristiche relative alla componente aleatoria del segnale, indicate con la numerazione corrispondente:
- 330 Grafico di forma d'onda nel tempo, relativo alla componente di rumore, e suo inviluppo temporale
- 331 Inviluppo temporale medio della componente di rumore - 332 Forma d'onda nel tempo della componente di rumore - 333 Derivata nel tempo dell'inviluppo della componente di rumore
La Fig. 6B illustra un grafico illustrante un’estrazione della granularità del rumore. In Fig. 6B si ha una rappresentazione (200) di una forma d'onda di rumore sulla quale viene fatta l'analisi della granularità.
La forma d'onda nel tempo relativa alla parte aleatoria è riportata in 201. L'analisi di Ton e Toff in cui il rumore manifesta le sue caratteristiche di granularità è fatta attraverso due soglie di guardia (203, 204), basata su tecniche note in letteratura. Tale analisi rende possibile osservare una forma d'onda quadra a Duty-Cycle variabile riportata in 202. Si noti che l’onda quadra (202) non corrisponde ad una vera e propria forma d'onda presente nel suono, ma è una rappresentazione concettuale e finalizzata all'analisi della caratteristica di intermittenza e granularità del rumore, che verrà poi fatta sfruttando la caratteristica del Duty-Cycle di tale onda quadra.
Nel grafico di Fig. 6B si vede un intervallo di tempo in cui il rumore è nullo, denominato Toff (205). Con (206) è stato indicato l’intero periodo di rumore durante il quale si ha un ciclo completo “acceso-spento” quindi un periodo di intermittenza del rumore. Si analizza il rapporto tra il tempo in cui si ha rumore e il tempo in cui non c’è rumore, analogamente al calcolo di un Duty Cicle con una coppia di soglie di guardia. Mediando su un opportuno numero di periodi, si ottiene la granularità di rumore.
Essendo il rumore dell’organo modulato in ampiezza, all’interno di un periodo, ci sarà una fase in cui il rumore è pressoché nullo, denominata Toff (205) come mostrato in Fig. 6B. Questa informazione è contenuta nel coefficiente noise duty cycle.
I quattro coefficienti caratterizzanti il rumore sono:
- Noise Duty Cicle: calcolato come il rapporto tra Toff (205) e il tempo dell’intero periodo (206).
- Zero Crossing Rate: numero medio di passaggi per lo zero nell’arco di 1 periodo, mediato per un numero di periodi pari a 1 secondo. Esprime una frequenza media della parte aleatoria.
- Zero Crossing Standard Deviation: corrisponde alla deviazione standard del numero medio di passaggi per lo zero valutati nella misura dello zero crossing rate per ciascun periodo.
- Noise RMS: Root mean square della componente aleatoria, calcolato su 1 secondo.
Una volta estratte le features (F) dal segnale grezzo (SIN) di ingresso, i parametri di tali features vengono stimati da un set di reti neurali (11) che lavorano in parallelo sullo stesso suono da parametrizzare, stimando parametri leggermente diversi per ogni rete neurale per via di piccole differenze inerenti a ciascuna rete.
Ogni rete neurale prende in ingresso features (F) e fornisce un set completo di parametri (P*1, ….P*M) che sono adatti ad essere inviati ad un modello fisico per generare un suono.
Le reti neurali utilizzabili possono essere di tutti i tipi presenti in letteratura che accettino features pre-elaborate in ingresso (Multi-Layer Perceptron, Recurrent Neural Networks, ecc..).
Il numero di reti neurali (11) può variare, dando luogo così a più stime della stessa features fatte da reti differenti. Le stime ottenute differiranno per accuratezza acustica e quindi questo renderà necessario l’impiego del secondo stadio (2) per selezionare il modello fisco migliore. Le stime sono fatte tutte su tutto il set di features, l'accuratezza acustica viene valutata dal secondo stadio (2) che seleziona il set di parametri stimati dalle reti neurali più performante.
In seguito si farà specifico riferimento ad una tipologia di rete Multi-Layer Perceptron (MLP), ma l’invenzione si estende anche a diverse tipologie di rete neurale. In una rete MLP ogni strato è composto da neuroni.
Con riferimento a Fig. 4, la descrizione matematica del kesimo neurone segue:
in cui:
x1; x2; ; xm sono gli ingressi, che nel caso del primo stadio sono le features (F) estratte dal segnale grezzo (SIN)
wk1;wk2; ;wkm sono i pesi di ciascun ingresso
uk è la combinazione lineare degli ingressi con i pesi bk è il bias
ϕ (ϕ) è la funzione di attivazione (nonlineare)
yk è l’uscita del neurone
L’impiego di MLP è dato dalle caratteristiche di semplicità di allenamento e dalla velocità raggiungibile in fase di test; caratteristiche necessarie visto l’impiego in parallelo di un numero discretamente ampio di reti neurali. Un’altra caratteristica fondamentale è la possibilità di fare handcrafting delle features, ovvero quelle caratteristiche dell’audio che consentono di sfruttare le conoscenze relative ai suoni da stimare.
Bisogna considerare che con una rete neurale MLP l’estrazione delle caratteristiche (F) viene fata ad-hoc con algoritmi DSP, consentendo prestazioni migliori rispetto ad una rete neurale end-to-end.
La rete MLP viene addestrata utilizzando un algoritmo di minimizzazione dell’errore, secondo la tecnica nota della error backpropagation. In questo modo i coefficienti di ciascun neurone (pesi o weights) vengono modificati iterativamente fino a trovare la condizione di ottimo che permette di ottenere l’errore più basso con il dataset utilizzato durante questa fase di addestramento.
L’errore utilizzato è il Mean Squared Error calcolato sui coefficienti del modello fisico normalizzati nel range [-1; 1]. I parametri della rete (numero di layer, numero di neuroni per layer) sono stati esplorati con una ricerca random nei range riportati in tabella 1.
Tabella 1: Range degli iperparametri esplorati.
Il training della rete neurale avviene seguendo le seguenti fasi: Propagazione in avanti
1. Propagazione in avanti e generazione degli output yk 2. Calcolo della funzione costo
3. Propagazione all’indietro dell’errore per generare i delta da applicare per l’aggiornamento dei pesi per ogni epoca di allenamento Aggiornamento pesi
1. Si computa il gradiente dell’errore rispetto ai pesi
2. Si aggiornano i pesi nel seguente modo:
dove η rappresenta il learning rate
Per l’apprendimento è necessario fornire un dataset di esempi audio. Ciascun esempio audio è associato ad un set di parametri del modello fisico necessari per generare quell’esempio audio. La rete neurale (11), perciò, impara ad associare le features dei suoni ai parametri necessari a generarli.
Si ottengono queste coppie suono-parametri, generando dei suoni attraverso il modello fisico, fornendo parametri in ingresso e ottenendo i suoni ad essi associati.
Secondo stadio (2)
Il secondo stadio (2) comprende mezzi di costruzione del modello fisico (11) che utilizzano i parametri (P*1, … P*M) stimati dalle reti neurali per costruire rispettivi modelli fisici (M1, … MM). Vale a dire il numero di modelli fisici costruiti è uguale al numero di reti neurali utilizzato.
Ciascun modello fisco (M1, … MM) emette un rispettivo suono (S1, …SM ) che è confrontato con un suono target (ST) mediante mezzi di valutazione metrica (21). All’uscita di ciascun mezzo di valutazione metrica (21) si ottiene una rispettiva distanza acustica (d1, … dM) tra i due suoni. Tutte le distanze acustiche (d1, … dM) ottenute sono confrontate tra loro mediante mezzi di selezione (22) che selezionano un indice (i) relativo alla distanza minore in modo da selezionare i parametri (P*i) del modello fisico (Mi) che ha la distanza acustica minore dal suono target (ST). I mezzi di selezione (21) comprendono un algoritmo che si basa su un’iterazione che esamina, una per una, le distanze acustiche (d1, … dM) uscenti dai mezzi di valutazione metrica, in modo da trovare l’indice (i) della distanza minore per poter selezionare i parametri relativi a tale indice trovato.
I mezzi di valutazione metrica (21) sono un dispositivo per misurare la distanza tra due toni. Minore è la distanza maggiormente i due suoni sono simili. I mezzi di valutazione metrica (21) utilizzano due metriche di carattere armonico e una metrica per l’analisi degli inviluppi temporali, ma l’estensione di questo criterio può essere fatta a tutti i tipi di metriche utilizzabili.
Le metriche acustiche utilizzate permettono di valutare in maniera oggettiva la somiglianza di due spettri. Si utilizzano varianti del concetto di Harmonic Mean Squared Error (HMSE). Si tratta dell’errore MSE calcolato sui picchi della FFT del suono (S1, …SM) generato dal modello fisico confrontato col suono target (ST), in modo da valutare la distanza (d1, … dM) tra armoniche omologhe (la prima armonica del suono target è confrontata con la prima armonica del suono uscente dal modello fisico, etc.).
Ci possono essere due metodi di confronto.
Nel primo metodo di confronto, le distanze tra due armoniche omologhe vengono pesate tutte allo stesso modo.
Nel secondo metodo di confronto, viene dato un peso maggiore alle differenze di armoniche le cui corrispondenti nel segnale target avevano una maggiore ampiezza. Si sfrutta un elemento base di psicoacustica per cui si percepiscono più importanti le armoniche dello spettro che hanno ampiezza maggiore, di conseguenza si moltiplica la differenza tra armoniche omologhe con l'ampiezza della stessa armonica nel suono target. In questo modo se l'ampiezza della armonica i-esima nel suono target è estremamente ridotta, viene ridotta l'importanza dell'errore di stima di quella armonica nel segnale stimato. In questo secondo metodo di confronto, quindi, si riduce l’importanza dell’errore commesso sulle armoniche che già nel segnale grezzo (SIN) di ingresso avevano scarsa importanza psicoacustica perché di intensità ridotta.
Sono state utilizzate altre metriche spettrali quali RSD e LSD, note in letteratura e sotto descritte matematicamente.
Per valutare le caratteristiche temporali si calcola una metrica basata sull’inviluppo della forma d’onda del segnale grezzo (SIN) di ingresso. Si utilizza la differenza in modulo quadrato del segnale stimato rispetto ad un target.
Le metriche usate sono formalizzate di seguito:
#
In cui
il pedice L rappresenta il numero di armoniche prese in considerazione mentre l’apice W identifica la variante HMSE Weighted
In cui
Ts rappresenta la fine del transitorio d’attacco,
H è la trasformata di Hilbert del segnale, usata per estrarre l’inviluppo mentre
s rappresenta il segnale nel tempo e
S è il modulo della DFT del segnale nel tempo.
Per le metriche di distanza armonica si sono sfruttate H (relativa all’intero spettro), H10 e "�<0>, (relative alle prime dieci armoniche).
Per le metriche di inviluppo ED, E1 ed E2 dove il numero è relativo all’armonica sulla quale si calcola la differenza di inviluppo. La somma delle metriche pesate viene composta da una somma pesata delle singole metriche, con pesi stabiliti dall’operatore umano che aziona il procedimento.
Il secondo stadio (2) può essere implementato mediante un algoritmo che comprende i seguenti passi:
1. Selezione di primi parametri stimati (P*1) per la generazione di un primo modello fisco (M1) e calcolo di una prima distanza (d1) tra il suono (S1) del primo modello fisco e un suono target (ST).
2. Selezione di secondi parametri stimati (P*2) per la generazione di un secondo modello fisco (M2) e calcolo di una seconda distanza (d2) tra il suono (S2) del secondo modello fisco e il suono target (ST);
3. Se la seconda distanza (d2) è minore della prima distanza (d1) si selezionano i parametri del secondo modello fisico, altrimenti si scartano i parametri del secondo modello fisco;
4. Si ripetono i passi 4 e 3 fino ad aver esaminato tutti i parametri stimati di tutti i modelli fisici uscenti dal primo stadio (1).
Terzo stadio (3)
Il terzo stadio (3) comprende una memoria (30) in cui sono memorizzati i parametri (P*i) selezionati dal secondo stadio (2) e mezzi di costruzione di un modello fisico (31) che sono atti a costruire un modello fisco (Mi) in base ai parametri (P*i) selezionati dal secondo stadio (2) e provieniti dalla memoria (30). Dal modello fisco (Mi) del terzo stadio esce un suono (Si) che viene confrontato con un suono target (ST) mediante mezzi di valutazione metrica (32) uguali ai mezzi di valutazione metrica (21) del secondo stadio (2). I mezzi di valutazione metrica (32) del terzo stadio trovano la distanza (di) tra il suono (Si) del modello fisco e il suono target (ST). Tale distanza (di) viene inviata a mezzi di selezione (33) atti a trovare una distanza minima tra le distanze ricevute in ingresso.
Il terzo stadio (3) comprende anche mezzi di perturbazione (34) atti a modificare i parametri (P*i) contenuti nella memoria (30) in modo da generare parametri perturbati (P’i) che sono inviati ai mezzi di creazione del modello fisico (31) che creano modelli fisici con i parametri perturbati. Quindi i mezzi di valutazione metrica (32) trovano le distanze tra i suoni generati dai modelli fisici con i parametri perturbati e il suono target. I mezzi di selezione (33) selezionano la distanza minima tra le distanze ricevute.
Il terzo stadio (3) prevede una ricerca passo-passo che esplora i parametri del modello fisico in maniera casuale, andando a perturbare i parametri del modello fisico e generando i relativi suoni.
Sono necessari un numero discretamente elevato di passaggi di perturbazione, anche perché non tutti i parametri relativi ad un set verranno perturbati ad ogni iterazione. L’obiettivo è quello di minimizzare il valore delle metriche utilizzate, perturbando i parametri, scartando tutti i set di parametri e mantenendo soltanto il miglior set di parametri ottenuti.
Il terzo stadio (3) può essere implementato prevedendo:
- un primo interruttore (W1) tra l’uscita del secondo stadio, l’ingresso della memoria (30) e l’uscita dei mezzi di perturbazione parametri (34);
- un secondo interruttore (W2) tra l’uscita della memoria (30), l’ingresso dei mezzi creazione modello fisico (31) e l’ingresso del generatore audio, e
- un blocco di ritardo (Z<-1>) che collega in retrazione l’uscita all’ingresso dei mezzi di selezione (33).
Si può implementare un algoritmo per il funzionamento del terzo stadio (3). Tale algoritmo lavora su un range normalizzato [-1; 1] dei parametri. Tale algoritmo comprende i seguenti passi:
1. Generazione di un suono (Si) relativo ai parametri (P*i) di iterazione 0 (cioè i parametri provenienti dal secondo stadio (2)) 2. Calcolo di una prima distanza del suono (Si) da un suono target (ST)
3. Perturbazione dei parametri (P*i) in modo da ottenere parametri perturbati (P’i)
4. Generazione di un suono dal nuovo set di parametri perturbarti (P’i)
5. Calcolo di una seconda distanza del suono generato dai parametri perturbati (P”) dal suono target
6. Se si ha una riduzione della distanza, cioè la seconda distanza è minore della prima distanza si scarta il set di parametri precedente, altrimenti si mantiene
7. Ripetere i passaggi 3, 4, e 5 fino alla fine del processo il quale terminerà di conseguenza al verificarsi di uno dei seguenti eventi:
- Raggiungimento del numero massimo di iterazioni prefissato dall'utente all'inizio del processo;
- Raggiungimento del numero massimo di iterazioni di pazienza, cioè senza miglioramenti in termini di distanza oggettiva valutata, impostate ad inizio processo;
- Raggiungimento (e/o superamento) della soglia minima di errore desiderata, impostata dall'utente a inizio processo.
I parametri liberi dell’algoritmo sono i seguenti:
- Numero di iterazioni
- Iterazioni di pazienza: se non ci sono miglioramenti per un numero prefissato di iterazioni l’algoritmo si arresta.
- Soglia di errore minima per cui l’algoritmo si arresta
- Probabilità di perturbazione del singolo parametro
- Moltiplicatore di distanza: fattore moltiplicativo attraverso il quale si moltiplica il valore della distanza calcolata per la realizzazione corrente con un termine random così da ottenere l’entità della perturbazione da applicare ai parametri all’iterazione successiva.
- Pesi delle metriche: Fattori moltiplicativi da applicare alle singole metriche nel calcolo della distanza complessiva tra suono proposto e target.
Il calcolo dei nuovi parametri avviene secondo l’equazione:
dove:
ηb è il miglior set di parametri ottenuto al momento del calcolo,
θ < 1 è un moltiplicatore di distanza fissato opportunamente per migliorare e/o velocizzare la convergenza, di distanza al passo i, r è un vettore random con valori µ [0; 1] della stessa dimensione di ∈b,
g è un vettore random di perturbazione che segue una distribuzione Gaussiana ed è delle stesse dimensioni di θb.
In Fig. 7 viene riportata una formulazione dell’algoritmo di MORIS. L’algoritmo di MORIS si basa su una perturbazione random pesata dall’errore commesso al miglior passo precedente db. Non tutti i parametri sono perturbati ad ogni iterazione.
La Fig. 8 illustra un’evoluzione delle distanze di set di pimetri rispetto ad un target di suoni preso in analisi, dove si evince come con l’avanzare delle iterazioni la distanza tra il set di parametri analizzato e il taget si riduce, a step sempre più ridotti, per via dell’adattamento del parametro θ, in modo da convergere.

Claims (2)

  1. RIVENDICAZIONI 1. Sistema (100) per generazione di suono sintetizzato in strumenti musicali; detto sistema (100) comprendendo un primo stadio (1), un secondo stadio (2) ed un terzo stadio (3), il primo stadio (1) comprendendo: - mezzi di estrazione caratteristiche (10) configurati in modo da estrarre caratteristiche (F) da un suono grezzo (SIN) di ingresso; - una pluralità di reti neurali (11), in cui ciascuna rete neurale è configurata in modo da stimare i parametri di tali caratteristiche (F) ed emettere in uscita parametri stimati (P*1, …. P*M), il secondo stadio (2) comprendendo: - una pluralità di mezzi di creazione modello fisico (20), in cui ciascun mezzo di creazione modello fisico (20) riceve in ingresso detti parametri stimati (P*1, …. P*M) in modo da ottenere una pluralità di modelli fisici (M1, … MM) configurati in modo da emettere in uscita rispettivi suoni (S1, … SM), - una pluralità di mezzi di valutazione metrica (21), in cui ciascun mezzo di valutazione metrica (21) riceve in ingresso il suono di un modello fisico e lo confronta con un suono target (ST) in modo da emettere in uscita una distanza (d1, …..dM) tra il suono del modello fisico e il suono target, - mezzi di selezione (22) che ricevono in ingresso le distanze (d1, …..dM) calcolate da detti mezzi di valutazione metrica (21) e selezionano i parametri (P*i) del modello fisico il cui suono ha la distanza minore dal suono target, il terzo stadio (3) comprendendo: - una memoria (30) in cui sono memorizzati i parametri (P*i) selezionati nel secondo stadio, - mezzi di creazione modello fisico (31) che ricevano i parametri (P*i) dalla memoria (30) e creano un modello fisico (Mi) che emette un suono (Si), - mezzi di valutazione metrica (32) che ricevono il suono del modello fisico del terzo stadio e lo confrontano con un suono target (ST), in modo da calcolare una distanza (di) tra il suono del modello fisico del terzo stadio ed il suono target, - mezzi di perturbazione (34) che modificano i parametri memorizzati in detta memoria (30) in modo da ottenere parametri perturbati (P’i) che sono inviati a detti mezzi di generazione modello fisico (31) per creare modelli fisici con i parametri perturbati, - mezzi di selezione (33) che ricevono in ingresso le distanze calcolate da detti mezzi di valutazione metrica (32) del terzo stadio e selezionano parametri finali (Pi) del modello fisico avente la distanza minore, detto sistema (100) comprendendo inoltre un generatore di suono (106) che riceve detti parametri finali (Pi) e genera un suono sintetizzato (SOUT) di uscita.
  2. 2. Metodo per generazione di suono sintetizzato in strumenti musicali; comprendente i seguenti passi: - estrazione di caratteristiche (F) da un suono grezzo (SIN) di ingresso; - stima di parametri di tali caratteristiche (F) mediante una pluralità di reti neurali (11) in modo da emettere in uscita parametri stimati (P*1, …. P*M), - creazione di una pluralità di modelli fisici (M1, … MM) con detti parametri stimati (P*1, …. P*M) in cui ciascun modello fisico emette in uscita un rispettivo suono (S1, … SM), - valutazione metrica (21) di ciascun suono (S1, … SM) emesso da ciascun modello fisico, confrontandolo con un suono target (ST) in modo ottenere una distanza (d1, …..dM) tra il suono del modello fisico e il suono target, - calcolo della distanza minore (di) e selezione dei parametri (P*i) del modello fisico il cui suono ha la distanza minore dal suono target, - memorizzazione dei parametri (P*i) selezionati, - creazione di modello fisico (Mi) con i parametri (P*i) memorizzati, in cui detto modello fisico (Mi) emette un suono (Si), - valutazione metrica del suono (Si) del modello fisico che viene confrontano con un suono target (ST), in modo da calcolare una distanza (di) tra il suono del modello fisico ed il suono target, - perturbazione dei parametri memorizzati in detta memoria (30) in modo da ottenere parametri perturbati (P’i) e creazione di modelli fisici con i parametri perturbati, - valutazione metrica del suono dei modelli fisici con parametri perturbati in modo da calcolare le distanze tra i suoni dei modelli fisici con parametri perturbati ed il suono target, - calcolo della distanza minore e selezione dei parametri finali (Pi) del modello fisico avente la distanza minore, - generazione di un suono sintetizzato (SOUT) di uscita mediante un generatore di suono (106) che riceve detti parametri finali (Pi).
IT102018000008080A 2018-08-13 2018-08-13 Sistema per la generazione di suono sintetizzato in strumenti musicali. IT201800008080A1 (it)

Priority Applications (7)

Application Number Priority Date Filing Date Title
IT102018000008080A IT201800008080A1 (it) 2018-08-13 2018-08-13 Sistema per la generazione di suono sintetizzato in strumenti musicali.
US17/266,216 US11615774B2 (en) 2018-08-13 2019-07-18 Generation system of synthesized sound in music instruments
PCT/EP2019/069339 WO2020035255A1 (en) 2018-08-13 2019-07-18 Generation system of synthesized sound in music instruments
KR1020217007650A KR102645315B1 (ko) 2018-08-13 2019-07-18 악기 합성음 생성 시스템
EP19742034.2A EP3837680B1 (en) 2018-08-13 2019-07-18 Generation system of synthesized sound in music instruments
JP2021507520A JP7344276B2 (ja) 2018-08-13 2019-07-18 楽器の合成音の生成システム
CN201980052866.8A CN112543971B (zh) 2018-08-13 2019-07-18 乐器合成声音的生成系统和生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
IT102018000008080A IT201800008080A1 (it) 2018-08-13 2018-08-13 Sistema per la generazione di suono sintetizzato in strumenti musicali.

Publications (1)

Publication Number Publication Date
IT201800008080A1 true IT201800008080A1 (it) 2020-02-13

Family

ID=64316685

Family Applications (1)

Application Number Title Priority Date Filing Date
IT102018000008080A IT201800008080A1 (it) 2018-08-13 2018-08-13 Sistema per la generazione di suono sintetizzato in strumenti musicali.

Country Status (7)

Country Link
US (1) US11615774B2 (it)
EP (1) EP3837680B1 (it)
JP (1) JP7344276B2 (it)
KR (1) KR102645315B1 (it)
CN (1) CN112543971B (it)
IT (1) IT201800008080A1 (it)
WO (1) WO2020035255A1 (it)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT201800008080A1 (it) * 2018-08-13 2020-02-13 Viscount Int Spa Sistema per la generazione di suono sintetizzato in strumenti musicali.
WO2021026384A1 (en) * 2019-08-08 2021-02-11 Harmonix Music Systems, Inc. Authoring and rendering digital audio waveforms
WO2022123775A1 (ja) * 2020-12-11 2022-06-16 ヤマハ株式会社 音響機器のシミュレート方法、音響機器のシミュレート装置、および音量機器のシミュレートシステム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5880392A (en) * 1995-10-23 1999-03-09 The Regents Of The University Of California Control structure for sound synthesis

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2576703B2 (ja) * 1991-02-08 1997-01-29 ヤマハ株式会社 楽音波形発生装置
EP0987679B1 (en) * 1995-03-03 2003-11-05 Yamaha Corporation Computerized music apparatus composed of compatible software modules
ITMC20030032A1 (it) * 2003-03-28 2004-09-29 Viscount Internat Spa Metodo e dispositivo elettronico per riprodurre il suono delle canne ad anima dell'organo liturgico, sfruttando la tecnica della modellazione fisica degli strumenti acustici
CN100437748C (zh) * 2004-11-24 2008-11-26 王逸驰 合成器中的多维矢量合成技术
JP5842545B2 (ja) * 2011-03-02 2016-01-13 ヤマハ株式会社 発音制御装置、発音制御システム、プログラム及び発音制御方法
GB201109731D0 (en) * 2011-06-10 2011-07-27 System Ltd X Method and system for analysing audio tracks
GB201315228D0 (en) * 2013-08-27 2013-10-09 Univ London Queen Mary Control methods for expressive musical performance from a keyboard or key-board-like interface
US10068557B1 (en) * 2017-08-23 2018-09-04 Google Llc Generating music with deep neural networks
JP6610715B1 (ja) * 2018-06-21 2019-11-27 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
IT201800008080A1 (it) * 2018-08-13 2020-02-13 Viscount Int Spa Sistema per la generazione di suono sintetizzato in strumenti musicali.
US10964299B1 (en) * 2019-10-15 2021-03-30 Shutterstock, Inc. Method of and system for automatically generating digital performances of music compositions using notes selected from virtual musical instruments based on the music-theoretic states of the music compositions
US11024275B2 (en) * 2019-10-15 2021-06-01 Shutterstock, Inc. Method of digitally performing a music composition using virtual musical instruments having performance logic executing within a virtual musical instrument (VMI) library management system
US11037538B2 (en) * 2019-10-15 2021-06-15 Shutterstock, Inc. Method of and system for automated musical arrangement and musical instrument performance style transformation supported within an automated music performance system
US11138964B2 (en) * 2019-10-21 2021-10-05 Baidu Usa Llc Inaudible watermark enabled text-to-speech framework
US11914919B2 (en) * 2020-02-11 2024-02-27 Aimi Inc. Listener-defined controls for music content generation
CN115885276A (zh) * 2020-08-21 2023-03-31 艾米有限公司 用于音乐生成器的比较训练
US11670188B2 (en) * 2020-12-02 2023-06-06 Joytunes Ltd. Method and apparatus for an adaptive and interactive teaching of playing a musical instrument
WO2022160054A1 (en) * 2021-01-29 2022-08-04 1227997 B.C. Ltd. Artificial intelligence and audio processing system & methodology to automatically compose, perform, mix, and compile large collections of music

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5880392A (en) * 1995-10-23 1999-03-09 The Regents Of The University Of California Control structure for sound synthesis

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JESSE ENGEL ET AL: "Neural Audio Synthesis of Musical Notes with WaveNet Autoencoders", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 5 April 2017 (2017-04-05), XP080760787 *
MICHAEL A. CASEY: "Understanding Musical Sound with Forward Models and Physical Models", CONNECTION SCIENCE, vol. 6, no. 2-3, 1 January 1994 (1994-01-01), GB, pages 355 - 371, XP055578076, ISSN: 0954-0091, DOI: 10.1080/09540099408915730 *
PFALZ A ET AL: "Toward Inverse Control of Physics-Based Sound Synthesis", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 29 June 2017 (2017-06-29), XP080773400 *
STEPHEN SINCLAIR: "Sounderfeit: Cloning a Physical Model using a Conditional Adversarial Autoencoder", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 25 June 2018 (2018-06-25), XP080894373, DOI: 10.5216/MH.V18I1.53570 *

Also Published As

Publication number Publication date
JP2021534450A (ja) 2021-12-09
CN112543971B (zh) 2023-10-20
WO2020035255A1 (en) 2020-02-20
EP3837680A1 (en) 2021-06-23
KR20210044267A (ko) 2021-04-22
CN112543971A (zh) 2021-03-23
US20210312898A1 (en) 2021-10-07
US11615774B2 (en) 2023-03-28
KR102645315B1 (ko) 2024-03-07
EP3837680B1 (en) 2022-04-06
JP7344276B2 (ja) 2023-09-13

Similar Documents

Publication Publication Date Title
CN109524020B (zh) 一种语音增强处理方法
Grais et al. Deep neural networks for single channel source separation
IT201800008080A1 (it) Sistema per la generazione di suono sintetizzato in strumenti musicali.
Nakano et al. Bayesian nonparametric spectrogram modeling based on infinite factorial infinite hidden Markov model
Fuentes et al. Harmonic adaptive latent component analysis of audio and application to music transcription
Parekh et al. Motion informed audio source separation
Fuentes et al. Probabilistic model for main melody extraction using constant-Q transform
Rodriguez-Serrano et al. Online score-informed source separation with adaptive instrument models
Ikhsan et al. Automatic musical genre classification of audio using Hidden Markov Model
Kim et al. Monaural music source separation: Nonnegativity, sparseness, and shift-invariance
Rigaud et al. A parametric model of piano tuning
Gabrielli et al. End-to-end learning for physics-based acoustic modeling
JP2009204808A (ja) 音響特徴抽出方法及び、その装置、そのプログラム、そのプログラムを記録した記録媒体
Badeau et al. Expectation-maximization algorithm for multi-pitch estimation and separation of overlapping harmonic spectra
Kendrick et al. Room acoustic parameter extraction from music signals
JP2012027196A (ja) 信号分析装置、方法、及びプログラム
JP5807914B2 (ja) 音響信号解析装置、方法、及びプログラム
Rigaud et al. Piano sound analysis using non-negative matrix factorization with inharmonicity constraint
Kraft et al. Polyphonic Pitch Detection by Iterative Analysis of the Autocorrelation Function.
Wrzeciono et al. Violin Sound Quality: Expert Judgements and Objective Measurements
Dubois et al. Predicting perceived dissonance of piano chords using a chord-class invariant CNN and deep layered learning
Fukayama Separation of individual instrumental tones in monaural music signals applying a modified wiener filter and the gabor wavelet transform
Raczyński et al. Extending nonnegative matrix factorization—a discussion in the context of multiple frequency estimation of musical signals
JP2011053565A (ja) 信号分析装置、信号分析方法、プログラム、及び記録媒体
Marmoret et al. Multi-Channel Automatic Music Transcription Using Tensor Algebra