IT201800008080A1

IT201800008080A1 - Sistema per la generazione di suono sintetizzato in strumenti musicali.

Info

Publication number: IT201800008080A1
Application number: IT102018000008080A
Authority: IT
Inventors: Stefano Squartini; Stefano Tomassetti; Leonardo Gabrielli
Original assignee: Viscount Int Spa; Università Politecnica delle Marche
Priority date: 2018-08-13
Filing date: 2018-08-13
Publication date: 2020-02-13
Also published as: EP3837680A1; WO2020035255A1; EP3837680B1; JP2021534450A; CN112543971A; JP7344276B2; US20210312898A1; CN112543971B; US11615774B2; KR102645315B1; KR20210044267A

Description

DESCRIZIONE

a corredo di una domanda di brevetto per invenzione industriale avente per titolo:

“SISTEMA PER LA GENERAZIONE DI SUONO SINTETIZZATO IN STRUMENTI MUSICALI”.

TESTO DELLA DESCRIZIONE

La presente invenzione si riferisce ad un sistema per la generazione di suono sintetizzato in strumenti musicali, in particolare in un organo liturgico. Per tale generazione di suono sintetizzato viene utilizzata una parametrizzazione di un modello fisico. L'invenzione si riferisce precisamente ad un sistema per la parametrizzazione di un modello fisico utilizzato per la generazione di suono.

Un modello fisico è una rappresentazione matematica di un processo o di un fenomeno naturale. Nella presente invenzione, la modellazione è applicata ad una canna d’organo, ottenendo una rappresentazione fedele in senso fisico di uno strumento musicale. Sfruttando questa metodologia si potrà ottenere uno strumento musicale in grado di riprodurre non solo il suono, ma anche il processo di generazione ad esso associato.

US7442869, a nome della stessa richiedente, descrive un modello fisico di riferimento per un organo liturgico.

Tuttavia bisogna considerare che un modello fisico non è strettamente collegato alla generazione di suoni e all’impiego all’interno di strumenti musicali, ma può essere una rappresentazione matematica di un qualunque sistema appartenente al mondo reale.

I metodi di parametrizzazione di modelli fisici secondo la tecnica nota, sono per lo più euristici e la bontà dei suoni prodotti è affidata molto al gusto musicale e all’esperienza di chi effettua l’operazione (Sound Designer). Questo dà luogo a suoni che hanno un carattere ed una composizione riconducibile al Sound Designer. Inoltre, parametrizzando in tempi uomo, tali suoni hanno periodi di realizzazione mediamente lunghi.

In letteratura sono stati proposti svariati metodi per la parametrizzazione di modelli fisici, come ad esempio nei seguenti documenti:

- Carlo Drioli and Davide Rocchesso. A generalized musicaltone generator with application to sound compression and synthesis. In Acoustics, Speech, and Signal Processing, 1997 IEEE International Conference on, volume 1, pages 431–434. IEEE, 1997.

- Katsutoshi Itoyama and Hiroshi G Okuno. Parameter estimation of virtual musical instrument synthesizers. In Proc. of the International Computer Music Conference (ICMC), 2014. - Thomas J Mitchell and David P Creasey. Evolutionary sound matching: A test methodology and comparative study. In Machine Learning and Applications, 2007. ICMLA 2007. Sixth International Conference on, pages 229–234. IEEE, 2007.

- Thomas Mitchell. Automated evolutionary synthesis matching. Soft Computing, 16(12):2057–2070, 2012.

- Janne Riionheimo and Vesa Valimaki. Parameter estimation of a plucked string synthesis model using a genetic algorithm with perceptual fitness calculation. EURASIP Journal on Advances in Signal Processing, 2003(8), 2003.

- Ali Taylan Cemgil and Cumhur Erkut. Calibration of physical models using artificial neural networks with application to plucked string instruments. Proc. Intl. Symposium on Musical Acoustics (ISMA), 19:213–218, 1997.

- Alvin WY Su and Liang San-Fu. Synthesis of plucked-string tones by physical modeling with recurrent neural networks. In Multimedia Signal Processing, 1997. IEEE First Workshop on, pages 71–76. IEEE, 1997.

Tuttavia tali documenti descrivono algoritmi riconducibili a determinati modelli fisici o ad alcuni parametri dei modelli fisici.

Sono note pubblicazioni sull’utilizzo di reti neurali, quale ad esempio: Leonardo Gabrielli, Stefano Tomassetti, Carlo Zinato, and Stefano Squartini. Introducing deep machine learning for parameter estimation in physical modelling. In Digital Audio Effects (DAFX), 2017. Tale documento descrive un approccio end-to-end (usando Convolutional Neural Networks) che ingloba negli strati della rete neurale un’estrazione di features acustiche appresa dalla rete neurale. Tale sistema, tuttavia presenta prestazioni non ottimali per l’utilizzo in uno strumento musicale.

Scopo della presente invenzione è di eliminare gli inconvenienti della tecnica nota, fornendo un sistema per la generazione di suono sintetizzato in strumenti musicali, che si può estendere a molteplici modelli fisici e che sia svincolato dalla struttura intrinseca del modello fisico utilizzato nella sua validazione.

Altro scopo è quello di fornire un tale sistema che consenta uno sviluppo e utilizzo di metriche acustiche oggettive e procedimenti euristici di ottimizzazione iterativa, in grado di parametrizzare con precisione il modello fisico scelto in base ad un suono di riferimento.

Questi scopi sono raggiunti in accordo all’invenzione con le caratteristiche della rivendicazione indipendente 1.

Realizzazioni vantaggiose dell’invenzione appaiono dalle rivendicazioni dipendenti.

Il sistema per la generazione di suono sintetizzato in strumenti musicali, secondo l’invenzione è definito nella rivendicazione 1.

Ulteriori caratteristiche dell’invenzione appariranno più chiare dalla descrizione dettagliata che segue, riferita a una sua forma di realizzazione puramente esemplificativa e quindi non limitativa, illustrata nei disegni annessi, in cui:

la Fig. 1 è uno schema a blocchi illustrante schematicamente il sistema per la generazione di suono in strumenti musicali secondo l’invenzione:

la Fig. 1A è uno schema a blocchi illustrante in maggiore dettaglio i primi due stadi del sistema di Fig. 1;

la Fig. 1B è uno schema a blocchi illustrante schematicamente l’ultimo stadio del sistema di Fig. 1;

la Fig. 2 è uno schema a blocchi del sistema secondo l’invenzione applicato ad un organo liturgico;

la Fig. 3 è uno schema illustrante le caratteristiche estratte da un segnale audio grezzo che entra nel sistema secondo l’invenzione;

la Fig. 3A è uno schema illustrante in maggiore dettaglio alcune caratteristiche estratte dal segnale audio grezzo;

la Fig. 4 è uno schema di un neurone artificiale, alla base di reti neurali MLP utilizzate nel sistema secondo l’invenzione;

la Fig. 5A sono due grafici illustranti rispettivamente l’inviluppo e la sua derivata per l’estrazione dell’attacco della forma d’onda;

la Fig. 5B sono due grafici illustranti rispettivamente l’inviluppo della prima armonica e la sua derivata per l’estrazione dell’attacco della prima armonica del segnale in esame;

la Fig. 5C sono due grafici illustranti rispettivamente l’inviluppo della seconda armonica e la sua derivata per l’estrazione dell’attacco della seconda armonica del segnale in esame;

la Fig. 6A sono due grafici illustranti rispettivamente il rumore estratto mediante filtraggio della parte armonica e derivata dell’inviluppo;

la Fig. 6B è un grafico illustrante un’estrazione della granularità del rumore;

la Fig. 7 una formulazione dell’algoritmo di MORIS;

la Fig. 8 è un grafico illustrante un’evoluzione delle distanze su un set di suoni; in cui sull’asse X sono riportati gli indici dei suoni e sull’asse Y i valori di distanza complessiva.

Con l’ausilio delle Figure viene descritto il sistema per la generazione di suono sintetizzato in strumenti musicali secondo l’invenzione, indicato complessivamente con il numero di riferimento (100).

Il sistema (100) consente una stima dei parametri che gestiscono un modello fisico di strumento musicale. Il sistema (100), in particolare è applicato ad un modello di organo liturgico, ma è generalizzabile a più tipi differenti di modelli fisici.

Con riferimento a Fig. 1, un segnale audio grezzo (SIN) entra nel sistema (100) in cui viene elaborato in modo da ottenere un segnale audio sintetizzato (SOUT) che esce dal sistema (100).

Con riferimento anche alle Figg. 1A e 1B, il sistema (100) comprende:

- un primo stadio (1) in cui sono estratte alcune features (F) del segnale grezzo (SIN) e sono stimati parametri relativi a tali features (F), in modo da ottenere una pluralità di parametri stimati (P*1, …P*M);

- un secondo stadio (2) in cui i parametri stimati (P*1, …P*M) sono utilizzati per realizzare una pluralità di modelli fisici (M1, … MM) che vengono valutati in modo da selezionare i parametri (P*i) relativi al modello fisco migliore;

- un terzo stadio (3) in cui i parametri (P*i) selezionati nel secondo stadio sono utilizzati per effettuare una ricerca casuale iterativa, in modo da ottenere parametri finali (Pi) che sono inviati ad un generatore di suono (106) che emette il segnale audio sintetizzato (SOUT).

Con riferimento a Fig. 2, il segnale audio grezzo (SIN) può provenire da microfoni (101) disposti all’uscita di canne (102) di un organo liturgico. Il segnale audio grezzo (SIN) è acquisito da un computer (103) avente una scheda audio.

Il segale audio grezzo (SIN) viene analizzato dal sistema (100) all’interno computer (103). Il sistema (100) estrae i parametri finali (Pi) per la ricostruzione del segnale sintetizzato (SOUT). Tali parametri finali (Pi) sono memorizzarti in una memoria (104) gestita da un’interfaccia utente (105). I parametri finali (Pi) sono trasmessi ad un generatore di suono (106) gestito da un tastiera (107) dell’organo. Il generatore di suono (106) in base ai parametri ricevuti genera il segnale audio sintetizzato (SOUT) che invia ad un altoparlante (108) che emette suono.

Il generatore di suono (106) è un dispositivo elettronico in grado di riprodurre un suono molto simile a quello rilevato dal microfono (101), in base ai parametri ricavati dal sistema (100). Un generatore di suono è descritto in US7442869.

Primo stadio (1)

Il primo stadio (1) comprende mezzi di estrazione (10) che estraggono alcune features (F) dal segnale grezzo (SIN) e un set di reti neurali (11) che effettuano una stima di parametri ottenuti da tali features (F).

La scelta delle features (F) è stata fatta basandosi sul suono d’organo e creando un set di features non canonico e variegato, composto da molteplici coefficienti relativi ad aspetti differenti del segnale grezzo (SIN) in ingresso da parametrizzare.

Con riferimento a Fig. 3, le features (F) utilizzate sono le seguenti:

- Ampiezza delle prime N armoniche (F1): N coefficienti relativi all’ampiezza delle prime N armoniche (o parziali, se non sono multiple della fondamentale) calcolate tramite rilevamento preciso dei picchi nel dominio della frequenza. Ad esempio N=20.

- SNR (F2): Rapporto Segnale Rumore calcolato come rapporto tra energia delle armoniche ed energia totale del segnale.

- Spettro LogMel (F3): Spettro log-Mel, calcolato su 128 punti, attraverso tecnica nota in letteratura.

- Coefficienti (F4) relativi all’inviluppo: Coefficienti relativi ai tempi di attacco del suono (A), decadimento (D), valori di regime (S) e rilascio (R), secondo lo schema noto in letteratura musicale come ADSR, utilizzato anche nel modello fisico per generare gli inviluppi (andamento dell’ampiezza nel tempo) del suono.

I coefficienti (F4) vengono estratti attraverso analisi dell’inviluppo del segnale audio grezzo (SIN), ovvero utilizzando un rilevatore di inviluppo secondo tecniche note in letteratura.

Con riferimento a Fig. 3A, i coefficienti (F4) estratti sono 20, perché l’estrazione viene eseguita sul segnale grezzo (SIN), sulla prima e seconda armonica (estratte ciascuna filtrando il segnale con un filtro passabanda opportuno) e sulla componente di rumore estratta tramite filtraggio comb per eliminare la parte armonica.

Per ogni parte di segnale analizzata vengono estratti 5 coefficienti quali:

– T1 tempo della prima rampa d’attacco, che va dal tempo di inizio al punto di massimo della derivata dell’inviluppo estratto tramite trasformata Hilbert del segnale, nota in letteratura. La divisione in due rampe d’attacco deriva dall’impiego del modello fisico indicato in US7442869 che schematizza l’ingresso del suono dell’organo liturgico, come una composizione di due rampe di attacco.

– A1 ampiezza relativa all’istante T1

– T2 tempo della seconda rampa d’attacco che va da T1 al punto in cui la derivata dell’inviluppo stabilizza il suo valore attorno allo 0

– A2 ampiezza relativa all’istante T2

– S ampiezza RMS di sustain del segnale dopo il transitorio d’attacco.

Inoltre sono estratte dal segnale componenti aleatorie e/o non periodiche (F5). Le componenti aleatorie e/o non periodiche (F5) sono sei coefficienti che forniscono informazioni indicative sul rumore. L’estrazione di queste componenti può essere fatta attraverso una serie di filtraggi comb e notch per rimuovere la parte armonica del segnale grezzo (Si). Le informazioni utili estratte possono essere: il valore RMS della componente aleatoria, il suo duty cycle (denominato noise duty cycle), lo zero crossing rate, la zero crossing standard deviation e i coefficienti di inviluppo (attacchi e sustain).

La Fig. 5A illustra due grafici illustranti rispettivamente l’inviluppo e la sua derivata per l’estrazione dell’attacco della forma d’onda. In Fig. 5A sono riportate le seguenti caratteristiche del segnale, indicate con la numerazione corrispondente:

- 300 Grafico di forma d'onda nel tempo del suono grezzo in analisi e suo inviluppo temporale

- 301 Inviluppo temporale medio del segnale

- 302 Forma d'onda nel tempo del segnale

- 303 Derivata nel tempo dell'inviluppo del segnale

- 304 istante di tempo T1 relativo alla prima rampa d'attacco - 305 istante di tempo T2 relativo alla seconda rampa d'attacco - 306 ampiezza A1 della forma d'onda in corrispondenza del tempo T1

- 307 ampiezza A2 della forma d'onda in corrispondenza del tempo T2

La Fig. 5B illustra due grafici illustranti rispettivamente l’inviluppo e la sua derivata per l’estrazione dell’attacco della prima armonica del segnale in esame. In Fig. 5B sono riportate le seguenti caratteristiche relative alla prima armonica del segnale, indicate con la numerazione corrispondente:

- 310 Grafico di forma d'onda nel tempo, relativo alla prima armonica, e suo inviluppo temporale

- 311 Inviluppo temporale medio della prima armonica - 312 Forma d'onda nel tempo della prima armonica

- 313 Derivata nel tempo dell'inviluppo della prima armonica - 314 istante di tempo T1 relativo alla prima rampa d'attacco della prima armonica

- 315 istante di tempo T2 relativo alla seconda rampa d'attacco della prima armonica

- 316 ampiezza A1 della forma d'onda in corrispondenza del tempo T1 della prima armonica

- 317 ampiezza A2 della forma d'onda in corrispondenza del tempo T2 della prima armonica

la Fig. 5C illustra due grafici illustranti rispettivamente l’inviluppo e la sua derivata per l’estrazione dell’attacco della seconda armonica del segnale in esame. In Fig. 5C sono riportate le seguenti caratteristiche relative alla seconda armonica del segnale, indicate con la numerazione corrispondente:

- 320 Grafico di forma d'onda nel tempo, relativo alla seconda armonica, e suo inviluppo temporale

- 321 Inviluppo temporale medio della seconda armonica - 322 Forma d'onda nel tempo della seconda armonica

- 323 Derivata nel tempo dell'inviluppo della seconda armonica

- 324 istante di tempo T1 relativo alla prima rampa d'attacco della seconda armonica

- 325 istante di tempo T2 relativo alla seconda rampa d'attacco della seconda armonica

- 326 ampiezza A1 della forma d'onda in corrispondenza del tempo T1 della seconda armonica

- 327 ampiezza A2 della forma d'onda in corrispondenza del tempo T2 della seconda armonica

la Fig. 6A illustra due grafici illustranti rispettivamente il rumore estratto mediante filtraggio della parte armonica e derivata dell’inviluppo. In Fig. 6A sono riportate le seguenti caratteristiche relative alla componente aleatoria del segnale, indicate con la numerazione corrispondente:

- 330 Grafico di forma d'onda nel tempo, relativo alla componente di rumore, e suo inviluppo temporale

- 331 Inviluppo temporale medio della componente di rumore - 332 Forma d'onda nel tempo della componente di rumore - 333 Derivata nel tempo dell'inviluppo della componente di rumore

La Fig. 6B illustra un grafico illustrante un’estrazione della granularità del rumore. In Fig. 6B si ha una rappresentazione (200) di una forma d'onda di rumore sulla quale viene fatta l'analisi della granularità.

La forma d'onda nel tempo relativa alla parte aleatoria è riportata in 201. L'analisi di Ton e Toff in cui il rumore manifesta le sue caratteristiche di granularità è fatta attraverso due soglie di guardia (203, 204), basata su tecniche note in letteratura. Tale analisi rende possibile osservare una forma d'onda quadra a Duty-Cycle variabile riportata in 202. Si noti che l’onda quadra (202) non corrisponde ad una vera e propria forma d'onda presente nel suono, ma è una rappresentazione concettuale e finalizzata all'analisi della caratteristica di intermittenza e granularità del rumore, che verrà poi fatta sfruttando la caratteristica del Duty-Cycle di tale onda quadra.

Nel grafico di Fig. 6B si vede un intervallo di tempo in cui il rumore è nullo, denominato Toff (205). Con (206) è stato indicato l’intero periodo di rumore durante il quale si ha un ciclo completo “acceso-spento” quindi un periodo di intermittenza del rumore. Si analizza il rapporto tra il tempo in cui si ha rumore e il tempo in cui non c’è rumore, analogamente al calcolo di un Duty Cicle con una coppia di soglie di guardia. Mediando su un opportuno numero di periodi, si ottiene la granularità di rumore.

Essendo il rumore dell’organo modulato in ampiezza, all’interno di un periodo, ci sarà una fase in cui il rumore è pressoché nullo, denominata Toff (205) come mostrato in Fig. 6B. Questa informazione è contenuta nel coefficiente noise duty cycle.

I quattro coefficienti caratterizzanti il rumore sono:

- Noise Duty Cicle: calcolato come il rapporto tra Toff (205) e il tempo dell’intero periodo (206).

- Zero Crossing Rate: numero medio di passaggi per lo zero nell’arco di 1 periodo, mediato per un numero di periodi pari a 1 secondo. Esprime una frequenza media della parte aleatoria.

- Zero Crossing Standard Deviation: corrisponde alla deviazione standard del numero medio di passaggi per lo zero valutati nella misura dello zero crossing rate per ciascun periodo.

- Noise RMS: Root mean square della componente aleatoria, calcolato su 1 secondo.

Una volta estratte le features (F) dal segnale grezzo (SIN) di ingresso, i parametri di tali features vengono stimati da un set di reti neurali (11) che lavorano in parallelo sullo stesso suono da parametrizzare, stimando parametri leggermente diversi per ogni rete neurale per via di piccole differenze inerenti a ciascuna rete.

Ogni rete neurale prende in ingresso features (F) e fornisce un set completo di parametri (P*1, ….P*M) che sono adatti ad essere inviati ad un modello fisico per generare un suono.

Le reti neurali utilizzabili possono essere di tutti i tipi presenti in letteratura che accettino features pre-elaborate in ingresso (Multi-Layer Perceptron, Recurrent Neural Networks, ecc..).

Il numero di reti neurali (11) può variare, dando luogo così a più stime della stessa features fatte da reti differenti. Le stime ottenute differiranno per accuratezza acustica e quindi questo renderà necessario l’impiego del secondo stadio (2) per selezionare il modello fisco migliore. Le stime sono fatte tutte su tutto il set di features, l'accuratezza acustica viene valutata dal secondo stadio (2) che seleziona il set di parametri stimati dalle reti neurali più performante.

In seguito si farà specifico riferimento ad una tipologia di rete Multi-Layer Perceptron (MLP), ma l’invenzione si estende anche a diverse tipologie di rete neurale. In una rete MLP ogni strato è composto da neuroni.

Con riferimento a Fig. 4, la descrizione matematica del kesimo neurone segue:

in cui:

x1; x2; ; xm sono gli ingressi, che nel caso del primo stadio sono le features (F) estratte dal segnale grezzo (SIN)

wk1;wk2; ;wkm sono i pesi di ciascun ingresso

uk è la combinazione lineare degli ingressi con i pesi bk è il bias

ϕ (ϕ) è la funzione di attivazione (nonlineare)

yk è l’uscita del neurone

L’impiego di MLP è dato dalle caratteristiche di semplicità di allenamento e dalla velocità raggiungibile in fase di test; caratteristiche necessarie visto l’impiego in parallelo di un numero discretamente ampio di reti neurali. Un’altra caratteristica fondamentale è la possibilità di fare handcrafting delle features, ovvero quelle caratteristiche dell’audio che consentono di sfruttare le conoscenze relative ai suoni da stimare.

Bisogna considerare che con una rete neurale MLP l’estrazione delle caratteristiche (F) viene fata ad-hoc con algoritmi DSP, consentendo prestazioni migliori rispetto ad una rete neurale end-to-end.

La rete MLP viene addestrata utilizzando un algoritmo di minimizzazione dell’errore, secondo la tecnica nota della error backpropagation. In questo modo i coefficienti di ciascun neurone (pesi o weights) vengono modificati iterativamente fino a trovare la condizione di ottimo che permette di ottenere l’errore più basso con il dataset utilizzato durante questa fase di addestramento.

L’errore utilizzato è il Mean Squared Error calcolato sui coefficienti del modello fisico normalizzati nel range [-1; 1]. I parametri della rete (numero di layer, numero di neuroni per layer) sono stati esplorati con una ricerca random nei range riportati in tabella 1.

Tabella 1: Range degli iperparametri esplorati.

Il training della rete neurale avviene seguendo le seguenti fasi: Propagazione in avanti

1. Propagazione in avanti e generazione degli output yk 2. Calcolo della funzione costo

3. Propagazione all’indietro dell’errore per generare i delta da applicare per l’aggiornamento dei pesi per ogni epoca di allenamento Aggiornamento pesi

1. Si computa il gradiente dell’errore rispetto ai pesi

2. Si aggiornano i pesi nel seguente modo:

dove η rappresenta il learning rate

Per l’apprendimento è necessario fornire un dataset di esempi audio. Ciascun esempio audio è associato ad un set di parametri del modello fisico necessari per generare quell’esempio audio. La rete neurale (11), perciò, impara ad associare le features dei suoni ai parametri necessari a generarli.

Si ottengono queste coppie suono-parametri, generando dei suoni attraverso il modello fisico, fornendo parametri in ingresso e ottenendo i suoni ad essi associati.

Secondo stadio (2)

Il secondo stadio (2) comprende mezzi di costruzione del modello fisico (11) che utilizzano i parametri (P*1, … P*M) stimati dalle reti neurali per costruire rispettivi modelli fisici (M1, … MM). Vale a dire il numero di modelli fisici costruiti è uguale al numero di reti neurali utilizzato.

Ciascun modello fisco (M1, … MM) emette un rispettivo suono (S1, …SM ) che è confrontato con un suono target (ST) mediante mezzi di valutazione metrica (21). All’uscita di ciascun mezzo di valutazione metrica (21) si ottiene una rispettiva distanza acustica (d1, … dM) tra i due suoni. Tutte le distanze acustiche (d1, … dM) ottenute sono confrontate tra loro mediante mezzi di selezione (22) che selezionano un indice (i) relativo alla distanza minore in modo da selezionare i parametri (P*i) del modello fisico (Mi) che ha la distanza acustica minore dal suono target (ST). I mezzi di selezione (21) comprendono un algoritmo che si basa su un’iterazione che esamina, una per una, le distanze acustiche (d1, … dM) uscenti dai mezzi di valutazione metrica, in modo da trovare l’indice (i) della distanza minore per poter selezionare i parametri relativi a tale indice trovato.

I mezzi di valutazione metrica (21) sono un dispositivo per misurare la distanza tra due toni. Minore è la distanza maggiormente i due suoni sono simili. I mezzi di valutazione metrica (21) utilizzano due metriche di carattere armonico e una metrica per l’analisi degli inviluppi temporali, ma l’estensione di questo criterio può essere fatta a tutti i tipi di metriche utilizzabili.

Le metriche acustiche utilizzate permettono di valutare in maniera oggettiva la somiglianza di due spettri. Si utilizzano varianti del concetto di Harmonic Mean Squared Error (HMSE). Si tratta dell’errore MSE calcolato sui picchi della FFT del suono (S1, …SM) generato dal modello fisico confrontato col suono target (ST), in modo da valutare la distanza (d1, … dM) tra armoniche omologhe (la prima armonica del suono target è confrontata con la prima armonica del suono uscente dal modello fisico, etc.).

Ci possono essere due metodi di confronto.

Nel primo metodo di confronto, le distanze tra due armoniche omologhe vengono pesate tutte allo stesso modo.

Nel secondo metodo di confronto, viene dato un peso maggiore alle differenze di armoniche le cui corrispondenti nel segnale target avevano una maggiore ampiezza. Si sfrutta un elemento base di psicoacustica per cui si percepiscono più importanti le armoniche dello spettro che hanno ampiezza maggiore, di conseguenza si moltiplica la differenza tra armoniche omologhe con l'ampiezza della stessa armonica nel suono target. In questo modo se l'ampiezza della armonica i-esima nel suono target è estremamente ridotta, viene ridotta l'importanza dell'errore di stima di quella armonica nel segnale stimato. In questo secondo metodo di confronto, quindi, si riduce l’importanza dell’errore commesso sulle armoniche che già nel segnale grezzo (SIN) di ingresso avevano scarsa importanza psicoacustica perché di intensità ridotta.

Sono state utilizzate altre metriche spettrali quali RSD e LSD, note in letteratura e sotto descritte matematicamente.

Per valutare le caratteristiche temporali si calcola una metrica basata sull’inviluppo della forma d’onda del segnale grezzo (SIN) di ingresso. Si utilizza la differenza in modulo quadrato del segnale stimato rispetto ad un target.

Le metriche usate sono formalizzate di seguito:

#

In cui

il pedice L rappresenta il numero di armoniche prese in considerazione mentre l’apice W identifica la variante HMSE Weighted

In cui

Ts rappresenta la fine del transitorio d’attacco,

H è la trasformata di Hilbert del segnale, usata per estrarre l’inviluppo mentre

s rappresenta il segnale nel tempo e

S è il modulo della DFT del segnale nel tempo.

Per le metriche di distanza armonica si sono sfruttate H (relativa all’intero spettro), H10 e "�<0>, (relative alle prime dieci armoniche).

Per le metriche di inviluppo ED, E1 ed E2 dove il numero è relativo all’armonica sulla quale si calcola la differenza di inviluppo. La somma delle metriche pesate viene composta da una somma pesata delle singole metriche, con pesi stabiliti dall’operatore umano che aziona il procedimento.

Il secondo stadio (2) può essere implementato mediante un algoritmo che comprende i seguenti passi:

1. Selezione di primi parametri stimati (P*1) per la generazione di un primo modello fisco (M1) e calcolo di una prima distanza (d1) tra il suono (S1) del primo modello fisco e un suono target (ST).

2. Selezione di secondi parametri stimati (P*2) per la generazione di un secondo modello fisco (M2) e calcolo di una seconda distanza (d2) tra il suono (S2) del secondo modello fisco e il suono target (ST);

3. Se la seconda distanza (d2) è minore della prima distanza (d1) si selezionano i parametri del secondo modello fisico, altrimenti si scartano i parametri del secondo modello fisco;

4. Si ripetono i passi 4 e 3 fino ad aver esaminato tutti i parametri stimati di tutti i modelli fisici uscenti dal primo stadio (1).

Terzo stadio (3)

Il terzo stadio (3) comprende una memoria (30) in cui sono memorizzati i parametri (P*i) selezionati dal secondo stadio (2) e mezzi di costruzione di un modello fisico (31) che sono atti a costruire un modello fisco (Mi) in base ai parametri (P*i) selezionati dal secondo stadio (2) e provieniti dalla memoria (30). Dal modello fisco (Mi) del terzo stadio esce un suono (Si) che viene confrontato con un suono target (ST) mediante mezzi di valutazione metrica (32) uguali ai mezzi di valutazione metrica (21) del secondo stadio (2). I mezzi di valutazione metrica (32) del terzo stadio trovano la distanza (di) tra il suono (Si) del modello fisco e il suono target (ST). Tale distanza (di) viene inviata a mezzi di selezione (33) atti a trovare una distanza minima tra le distanze ricevute in ingresso.

Il terzo stadio (3) comprende anche mezzi di perturbazione (34) atti a modificare i parametri (P*i) contenuti nella memoria (30) in modo da generare parametri perturbati (P’i) che sono inviati ai mezzi di creazione del modello fisico (31) che creano modelli fisici con i parametri perturbati. Quindi i mezzi di valutazione metrica (32) trovano le distanze tra i suoni generati dai modelli fisici con i parametri perturbati e il suono target. I mezzi di selezione (33) selezionano la distanza minima tra le distanze ricevute.

Il terzo stadio (3) prevede una ricerca passo-passo che esplora i parametri del modello fisico in maniera casuale, andando a perturbare i parametri del modello fisico e generando i relativi suoni.

Sono necessari un numero discretamente elevato di passaggi di perturbazione, anche perché non tutti i parametri relativi ad un set verranno perturbati ad ogni iterazione. L’obiettivo è quello di minimizzare il valore delle metriche utilizzate, perturbando i parametri, scartando tutti i set di parametri e mantenendo soltanto il miglior set di parametri ottenuti.

Il terzo stadio (3) può essere implementato prevedendo:

- un primo interruttore (W1) tra l’uscita del secondo stadio, l’ingresso della memoria (30) e l’uscita dei mezzi di perturbazione parametri (34);

- un secondo interruttore (W2) tra l’uscita della memoria (30), l’ingresso dei mezzi creazione modello fisico (31) e l’ingresso del generatore audio, e

- un blocco di ritardo (Z<-1>) che collega in retrazione l’uscita all’ingresso dei mezzi di selezione (33).

Si può implementare un algoritmo per il funzionamento del terzo stadio (3). Tale algoritmo lavora su un range normalizzato [-1; 1] dei parametri. Tale algoritmo comprende i seguenti passi:

1. Generazione di un suono (Si) relativo ai parametri (P*i) di iterazione 0 (cioè i parametri provenienti dal secondo stadio (2)) 2. Calcolo di una prima distanza del suono (Si) da un suono target (ST)

3. Perturbazione dei parametri (P*i) in modo da ottenere parametri perturbati (P’i)

4. Generazione di un suono dal nuovo set di parametri perturbarti (P’i)

5. Calcolo di una seconda distanza del suono generato dai parametri perturbati (P”) dal suono target

6. Se si ha una riduzione della distanza, cioè la seconda distanza è minore della prima distanza si scarta il set di parametri precedente, altrimenti si mantiene

7. Ripetere i passaggi 3, 4, e 5 fino alla fine del processo il quale terminerà di conseguenza al verificarsi di uno dei seguenti eventi:

- Raggiungimento del numero massimo di iterazioni prefissato dall'utente all'inizio del processo;

- Raggiungimento del numero massimo di iterazioni di pazienza, cioè senza miglioramenti in termini di distanza oggettiva valutata, impostate ad inizio processo;

- Raggiungimento (e/o superamento) della soglia minima di errore desiderata, impostata dall'utente a inizio processo.

I parametri liberi dell’algoritmo sono i seguenti:

- Numero di iterazioni

- Iterazioni di pazienza: se non ci sono miglioramenti per un numero prefissato di iterazioni l’algoritmo si arresta.

- Soglia di errore minima per cui l’algoritmo si arresta

- Probabilità di perturbazione del singolo parametro

- Moltiplicatore di distanza: fattore moltiplicativo attraverso il quale si moltiplica il valore della distanza calcolata per la realizzazione corrente con un termine random così da ottenere l’entità della perturbazione da applicare ai parametri all’iterazione successiva.

- Pesi delle metriche: Fattori moltiplicativi da applicare alle singole metriche nel calcolo della distanza complessiva tra suono proposto e target.

Il calcolo dei nuovi parametri avviene secondo l’equazione:

dove:

ηb è il miglior set di parametri ottenuto al momento del calcolo,

θ < 1 è un moltiplicatore di distanza fissato opportunamente per migliorare e/o velocizzare la convergenza, di distanza al passo i, r è un vettore random con valori µ [0; 1] della stessa dimensione di ∈b,

g è un vettore random di perturbazione che segue una distribuzione Gaussiana ed è delle stesse dimensioni di θb.

In Fig. 7 viene riportata una formulazione dell’algoritmo di MORIS. L’algoritmo di MORIS si basa su una perturbazione random pesata dall’errore commesso al miglior passo precedente db. Non tutti i parametri sono perturbati ad ogni iterazione.

La Fig. 8 illustra un’evoluzione delle distanze di set di pimetri rispetto ad un target di suoni preso in analisi, dove si evince come con l’avanzare delle iterazioni la distanza tra il set di parametri analizzato e il taget si riduce, a step sempre più ridotti, per via dell’adattamento del parametro θ, in modo da convergere.

Claims

RIVENDICAZIONI 1. Sistema (100) per generazione di suono sintetizzato in strumenti musicali; detto sistema (100) comprendendo un primo stadio (1), un secondo stadio (2) ed un terzo stadio (3), il primo stadio (1) comprendendo: - mezzi di estrazione caratteristiche (10) configurati in modo da estrarre caratteristiche (F) da un suono grezzo (SIN) di ingresso; - una pluralità di reti neurali (11), in cui ciascuna rete neurale è configurata in modo da stimare i parametri di tali caratteristiche (F) ed emettere in uscita parametri stimati (P*1, …. P*M), il secondo stadio (2) comprendendo: - una pluralità di mezzi di creazione modello fisico (20), in cui ciascun mezzo di creazione modello fisico (20) riceve in ingresso detti parametri stimati (P*1, …. P*M) in modo da ottenere una pluralità di modelli fisici (M1, … MM) configurati in modo da emettere in uscita rispettivi suoni (S1, … SM), - una pluralità di mezzi di valutazione metrica (21), in cui ciascun mezzo di valutazione metrica (21) riceve in ingresso il suono di un modello fisico e lo confronta con un suono target (ST) in modo da emettere in uscita una distanza (d1, …..dM) tra il suono del modello fisico e il suono target, - mezzi di selezione (22) che ricevono in ingresso le distanze (d1, …..dM) calcolate da detti mezzi di valutazione metrica (21) e selezionano i parametri (P*i) del modello fisico il cui suono ha la distanza minore dal suono target, il terzo stadio (3) comprendendo: - una memoria (30) in cui sono memorizzati i parametri (P*i) selezionati nel secondo stadio, - mezzi di creazione modello fisico (31) che ricevano i parametri (P*i) dalla memoria (30) e creano un modello fisico (Mi) che emette un suono (Si), - mezzi di valutazione metrica (32) che ricevono il suono del modello fisico del terzo stadio e lo confrontano con un suono target (ST), in modo da calcolare una distanza (di) tra il suono del modello fisico del terzo stadio ed il suono target, - mezzi di perturbazione (34) che modificano i parametri memorizzati in detta memoria (30) in modo da ottenere parametri perturbati (P’i) che sono inviati a detti mezzi di generazione modello fisico (31) per creare modelli fisici con i parametri perturbati, - mezzi di selezione (33) che ricevono in ingresso le distanze calcolate da detti mezzi di valutazione metrica (32) del terzo stadio e selezionano parametri finali (Pi) del modello fisico avente la distanza minore, detto sistema (100) comprendendo inoltre un generatore di suono (106) che riceve detti parametri finali (Pi) e genera un suono sintetizzato (SOUT) di uscita.
2. Metodo per generazione di suono sintetizzato in strumenti musicali; comprendente i seguenti passi: - estrazione di caratteristiche (F) da un suono grezzo (SIN) di ingresso; - stima di parametri di tali caratteristiche (F) mediante una pluralità di reti neurali (11) in modo da emettere in uscita parametri stimati (P*1, …. P*M), - creazione di una pluralità di modelli fisici (M1, … MM) con detti parametri stimati (P*1, …. P*M) in cui ciascun modello fisico emette in uscita un rispettivo suono (S1, … SM), - valutazione metrica (21) di ciascun suono (S1, … SM) emesso da ciascun modello fisico, confrontandolo con un suono target (ST) in modo ottenere una distanza (d1, …..dM) tra il suono del modello fisico e il suono target, - calcolo della distanza minore (di) e selezione dei parametri (P*i) del modello fisico il cui suono ha la distanza minore dal suono target, - memorizzazione dei parametri (P*i) selezionati, - creazione di modello fisico (Mi) con i parametri (P*i) memorizzati, in cui detto modello fisico (Mi) emette un suono (Si), - valutazione metrica del suono (Si) del modello fisico che viene confrontano con un suono target (ST), in modo da calcolare una distanza (di) tra il suono del modello fisico ed il suono target, - perturbazione dei parametri memorizzati in detta memoria (30) in modo da ottenere parametri perturbati (P’i) e creazione di modelli fisici con i parametri perturbati, - valutazione metrica del suono dei modelli fisici con parametri perturbati in modo da calcolare le distanze tra i suoni dei modelli fisici con parametri perturbati ed il suono target, - calcolo della distanza minore e selezione dei parametri finali (Pi) del modello fisico avente la distanza minore, - generazione di un suono sintetizzato (SOUT) di uscita mediante un generatore di suono (106) che riceve detti parametri finali (Pi).