IT201800005283A1

IT201800005283A1 - Rimodulatore del timbro vocale

Info

Publication number: IT201800005283A1
Application number: IT102018000005283A
Authority: IT
Priority date: 2018-05-11
Filing date: 2018-05-11
Publication date: 2019-11-11

Description

RIMODULATORE DEL TIMBRO VOCALE

DESCRIZIONE

Campo tecnico dell’invenzione

La presente invenzione attiene al settore dell’elaborazione di dati sonori, quali dati vocali. L’invenzione si riferisce principalmente ad un metodo che consente di riprodurre un messaggio vocale, generato da una voce sorgente, mediante una voce di destinazione diversa da detta voce sorgente.

Background

Con riferimento al settore dell’elaborazione di dati sonori, ad oggi sono note molteplici soluzioni che consentono di riprodurre messaggi vocali, in particolare per applicazioni nell’ambito ludico.

Le soluzioni note consentono ad un utente di registrare un messaggio vocale e di riprodurlo tal quale o in una versione modificata, in cui ad esempio il messaggio vocale registrato è sottoposto a distorsione, mediante l’uso di amplificatori o filtri.

Sommario dell’invenzione

Il problema tecnico posto e risolto dalla presente invenzione è pertanto quello di fornire un metodo che consenta di ovviare agli inconvenienti sopra menzionati con riferimento alla tecnica nota. La soluzione fornita prevede di modificare un dato vocale, prodotto mediante una voce sorgente, in un dato vocale presentante il medesimo contenuto, in particolare la medesima successione di fonemi, riprodotto mediante una voce di destinazione.

Tale problema viene risolto da un metodo secondo la rivendicazione 1.

Secondo ulteriori aspetti, la presente invenzione fornisce altresì un sistema di rimodulazione del timbro vocale, configurato per consentire l’implementazione del metodo secondo l’invenzione. Ancora, l’invenzione fornisce un programma per elaboratore che consente di implementare il metodo suddetto quando eseguito mediante un elaboratore elettronico.

Caratteristiche preferite della presente invenzione sono oggetto delle rivendicazioni dipendenti.

Come menzionato sopra, l’invenzione fornisce un metodo -e un corrispondente sistema- per la conversione di un dato vocale da una voce sorgente ad un a voce di destinazione diversa dalla voce sorgente, senza modificarne il contenuto fonetico.

Il metodo comprende innanzitutto una fase di configurazione, in cui è stabilita e memorizzata una determinata “funzione di corrispondenza” tra la voce sorgente e la voce di destinazione. In particolare, il metodo prevede una fase di analisi di un primo dato vocale di configurazione prodotto mediante la voce sorgente e di un secondo dato vocale di configurazione prodotto mediante la voce di destinazione. Tali primo e secondo dato di configurazione presentano il medesimo contenuto fonetico.

L’analisi è effettuata sullo spettro in frequenza dei dati, per individuare, per la voce sorgente e la voce di destinazione, le frequenze associate a ciascun fonema del rispettivo dato di configurazione. Tale associazione viene memorizzata, e sulla base della stessa è possibile successivamente effettuare la conversione di qualsiasi dato vocale prodotto mediante la voce sorgente in un dato vocale generato mediante la voce di destinazione.

Vantaggiosamente, è possibile realizzare tale configurazione per una qualsiasi coppia di voce sorgente / voce di destinazione, e memorizzare le associazioni tra le rispettive frequenze per usi successivi.

Altri vantaggi, caratteristiche e le modalità di impiego della presente invenzione risulteranno evidenti dalla seguente descrizione dettagliata di alcune forme di realizzazione, presentate a scopo esemplificativo e non limitativo.

Descrizione breve delle figure

Verrà fatto riferimento alla Figura 1 allegata, che mostra uno schema a blocchi esemplificativo di una forma di realizzazione preferita di un sistema secondo la presente invenzione.

La Figura 1 suindicata è da intendersi a fini esclusivamente esemplificativi e non limitativi.

Descrizione dettagliata di forme di realizzazione preferite

Con riferimento alla Figura 1, il metodo di elaborazione secondo la presente invenzione può essere implementato mediante un sistema 1 di rimodulazione del timbro vocale.

Il metodo prevede l’elaborazione di un primo dato vocale prodotto mediante una voce sorgente, in cui il dato vocale comprende fonemi appartenenti ad un linguaggio naturale, per ottenere un secondo dato vocale prodotto mediante una voce di destinazione. Tali dati sono rispettivamente generati mediante fonti vocali diverse, caratterizzate da un proprio contenuto spettrale, cioè da diverse frequenze associate a ciascun fonema del linguaggio naturale, in cui la frequenza determina parametri caratteristici della voce, quali ad esempio il timbro.

Il metodo secondo la presente invenzione comprende una prima fase di configurazione, in cui è stabilita una determinata “funzione di corrispondenza” tra la voce sorgente e la voce di destinazione. Una volta stabilita detta “funzione di corrispondenza”, questa viene memorizzata, per impiegarla successivamente nella conversione di un qualsiasi dato vocale dalla voce sorgente alla voce di destinazione.

In particolare, la fase di configurazione prevede l’acquisizione di un primo dato vocale di configurazione e di un secondo dato vocale di configurazione mediante mezzi di acquisizione 2, ad esempio nella forma di uno o più microfoni.

Il primo dato vocale di configurazione è prodotto mediante la voce sorgente e comprende un contenuto fonetico di configurazione. Il contenuto fonetico di configurazione comprende più fonemi del linguaggio naturale (in sostanza è una frase espressa in linguaggio naturale, che verrà confrontata con il secondo dato vocale).

Il secondo dato vocale di configurazione è prodotto mediante la voce di destinazione e comprende il medesimo contenuto fonetico di configurazione del primo dato. In altre parole, il contenuto fonetico dei dati coincide, pertanto il secondo dato è diverso dal primo esclusivamente per il fatto che è prodotto da una fonte vocale diversa e quindi presenta un diverso contenuto spettrale, che si esplicita in un diverso spettro di frequenza.

Detti primo e secondo dato vocale di configurazione sono elaborati mediante un’unità di elaborazione e controllo 3 per ottenere rispettivi primo e secondo spettro di frequenza.

Nello spettro di frequenza del primo dato di configurazione e nello spettro di frequenza del secondo dato di configurazione si individua la rispettiva frequenza di sorgente e frequenza di destinazione associata a ciascun fonema.

Per effettuare tale individuazione, il primo spettro in frequenza e il secondo spettro in frequenza sono preferibilmente suddivisi in bande, e per ciascuna banda è individuata la posizione del baricentro spettrale che indica ed identifica ciascun fonema. Preferibilmente, dette bande presentano una larghezza pari a 1000 Hz.

Preferibilmente, il primo e il secondo spettro di frequenza, prima dell’analisi delle frequenze associate a ciascun fonema, sono filtrati a comprendere frequenze fino ai 5.000 Hz per voce maschile e frequenze fino ai 5.500 Hz per voce femminile.

La frequenza di sorgente e la frequenza di destinazione associate a ciascun fonema sono determinate in base alla posizione del baricentro spettrale in ciascuna banda.

Infatti, la posizione del baricentro spettrale indica la distribuzione dell’energia sonora in ciascuna banda. Considerata tale distribuzione, alla luce della variabile temporale, si identificano univocamente i diversi fonemi in un sonorogramma. L’analisi in bande consente di riferirsi alle stesse grandezze (tra le due sorgenti vocali nell’analisi del messaggio di configurazione), quali alle formanti, indipendente dall’altezza della nota pronunciata.

Si considerano anche le differenze tra vocali e consonanti. In particolare, per quanto riguarda le consonanti, anche quando è possibile effettuare una sonorizzazione delle stesse, in generale presentano una valenza “rumoristica”, soprattutto per quanto riguarda le sibilanti “s” e “z”, le labiali “p” e “b” e le dentali “t” e “d”, che costituisce una discontinuità nel corso dell’intonazione delle vocali. Le consonanti sonore mantengono traccia delle parziali in rapporti armonici, perché sono pronunciate assieme al suono proprio della voce. Ad esempio, la consonante “r” pronunciata in maniera dura induce una modulazione di ampiezza del suono piuttosto rapida (equivalente ad una frequenza di battimento di circa 28 Hz), mentre la pronuncia della “n” comporta una risonanza della bocca smorzata, o del tutto eliminata a favore della risonanza del naso. Le consonanti sorde possiedono uno spettro continuo a larga banda, tipico ad esempio dei rumori.

Inoltre, viene determinata la differenza di frequenza tra dette frequenza di sorgente e frequenza di destinazione associate a ciascun fonema, in altre parole una mappa di differenze di frequenza.

Pertanto, la differenza tra detta frequenza di sorgente e frequenza di destinazione associate a ciascun fonema è determinata anche in base alla presenza di vocali o consonanti comprese in ciascun fonema, in cui a ciascuna di dette vocali e dette consonanti è attribuito un rispettivo valore numerico, o “peso”. In particolare, è attribuito un “peso” diverso alle vocali formanti rispetto alle altre vocali. Il peso è, tra gli altri, un parametro oggetto di continui test, in modo da ottenere risultati sempre più veritieri, pertanto gli algoritmi impiegati, che consentono l’attribuzione di diversi pesi alle varie vocali e consonanti e il calcolo stesso di tali pesi, possono subire variazioni ed ottimizzazioni a fronte di tali test.

In particolare, il peso può essere attribuito in funzione della percentuale di probabilità di utilizzo di ciascuna lettera dell’alfabeto nel linguaggio naturale considerato, calcolata con riferimento a dati sulla frequenza dell’utilizzo di tali lettere, cioè dati che si riferiscono a quanto spesso ciascuna lettera è impiegata. Ad esempio, per ciascuna lettera, si possono adottare pesi che corrispondono alla percentuale di probabilità di utilizzo, nel linguaggio naturale considerato, di quella specifica lettera.

Secondo varianti preferite di realizzazione, il peso può essere calcolato in base alla differenza di frequenza ed alla probabilità di presenza di una vocale o di una consonante, ad esempio definita in una tabella di frequenze modello di vocali e consonanti, sulla scorta di informazioni sul sesso e sulla nazionalità del linguaggio di destinazione.

In particolare, le frequenze relative a fonemi acquisite dal linguaggio sorgente sono moltiplicate per il rispettivo fattore peso per ottenere le frequenze di destinazione.

Nella Tabella 1 sono riportati dati statistici esemplificativi delle percentuali di probabilità di utilizzo delle diverse lettere dell’alfabeto, considerando come linguaggio naturale la lingua italiana. Nella Tabella 2 sono riportati in comparazione, a titolo esemplificativo, i dati statistici sulle percentuali di probabilità di utilizzo di alcune lettere dell’alfabeto, considerando come linguaggio naturale rispettivamente la lingua italiana e la lingua inglese.

Secondo forme di realizzazione preferite dell’invenzione, ad ogni lettera viene attributo un valore diverso, in particolare compreso tra 0 e 100, che corrisponde alla percentuale di probabilità di utilizzo di ciascuna lettera -per uno specifico linguaggio naturale- definita rispetto ad una distribuzione delle probabilità di frequenza delle lettere che segue preferibilmente una curva di Gauss. In tal caso, alla “z” è attributo ad esempio un valore numerico pari a 99, oppure pari a 2 (cioè valori prossimi agli estremi della curva di Gauss, perché la “z” non è una lettera usata molto di frequente), mentre alla “a” ed alla “e” ad esempio sono attribuiti rispettivamente i valori 43 e 47 (più prossimi alla probabilità massima rispetto alla “z”).

Tabella 1.

Tabella 2.

La associazione tra ciascuna frequenza di sorgente, frequenza di destinazione e differenza di frequenza determinata per ogni fonema del dato di configurazione analizzato viene memorizzata in un’unità di memoria 5.

Sulla base di tale associazione frequenze/fonemi, è possibile successivamente effettuare la conversione di qualsiasi dato vocale prodotto mediante la voce sorgente per generare un dato vocale presentante il medesimo contenuto fonemico e riprodurlo mediante la voce di destinazione.

È possibile effettuare tale configurazione per diverse coppie di voce sorgente / voce di destinazione, e memorizzarla per usi successivi.

Dopo la fase di configurazione, per convertire un dato vocale da una voce sorgente ad una voce di destinazione, è sufficiente acquisire un nuovo dato vocale comprendente fonemi appartenenti al linguaggio naturale, prodotto mediante la voce sorgente, ed elaborarlo sulla base delle associazioni frequenza di sorgente/frequenza di destinazione/differenza di frequenza memorizzate per ciascun fonema per generare un dato vocale prodotto mediante la voce di destinazione. I fonemi dei dati vocali da convertire, dopo la configurazione, non sono necessariamente quelli già presenti nei dati di configurazione, vale a dire che il metodo consente di convertire qualsiasi messaggio vocale nella voce di destinazione.

Ulteriormente, è prevista la riproduzione sonora mediante la voce di destinazione del dato vocale così elaborato, mediante dei mezzi di riproduzione 4, ad esempio degli altoparlanti.

Come è facile intuire, il metodo secondo la presente invenzione può essere implementato mediante un elaboratore elettronico (es. smartphone, pc, tablet) configurato per ricevere e trasmettere dati vocali, o che è connesso o connettibile a mezzi di acquisizione di dati vocali e a mezzi per la riproduzione degli stessi. Ad esempio, il metodo può essere implementato mediante un’Applicazione, compatibile con sistemi operativi IOS e Android.

Vantaggiosamente, il metodo proposto permette di trasformare la voce di una persona in quella di un'altra, parlare con la voce di un attore o di un amico, consentendo di realizzare doppiaggi, imitazioni, ripetizione di frasi celebri ad esempio pronunciate da personaggi di film o cartoni animati.

Vantaggiosamente, può essere prevista la riproduzione di un video-messaggio in sincronia con la riproduzione del dato o messaggio vocale mediante la voce di destinazione, ad esempio un video del soggetto a cui appartiene la voce di destinazione, così da simulare la riproduzione del messaggio vocale da parte di quel soggetto.

La presente invenzione è stata fin qui descritta con riferimento a forme preferite di realizzazione. È da intendersi che possano esistere altre forme di realizzazione che afferiscono al medesimo nucleo inventivo, come definito dall’ambito di protezione delle rivendicazioni qui di seguito riportate.

Claims

RIVENDICAZIONI 1. Metodo di elaborazione di un dato vocale sorgente comprendente fonemi appartenenti ad un linguaggio naturale, prodotto mediante una voce sorgente, per ottenere un dato vocale di destinazione prodotto mediante una voce di destinazione diversa dalla voce sorgente, detto metodo comprendente i seguenti passi: a) acquisire un primo dato vocale di configurazione, comprendente un contenuto fonetico di configurazione, prodotto mediante la voce sorgente, il quale contenuto fonetico di configurazione comprende fonemi del linguaggio naturale; b) acquisire un secondo dato vocale di configurazione, comprendente detto contenuto fonetico di configurazione, prodotto mediante la voce di destinazione; c) elaborare detti primo e secondo dato vocale di configurazione per ottenere rispettivi primo e secondo spettro di frequenza; d) individuare in detto primo spettro in frequenza la frequenza di sorgente associata a ciascun fonema, ed individuare in detto secondo spettro in frequenza la frequenza di destinazione associata a ciascun fonema; e) determinare la differenza di frequenza tra dette frequenza di sorgente e frequenza di destinazione associate a ciascun fonema; f) memorizzare, per ciascun fonema, l’associazione tra le corrispondenti frequenza di sorgente, frequenza di destinazione e differenza di frequenza; g) acquisire il dato vocale sorgente, comprendente fonemi appartenenti al linguaggio naturale, prodotto mediante la voce sorgente; h) elaborare detto dato vocale sorgente per generare un dato vocale di destinazione comprendente, per ciascun fonema, una frequenza di destinazione determinata sulla base di dette associazioni memorizzate, per ciascun fonema, tra le corrispondenti frequenza di sorgente, frequenza di destinazione e differenza di frequenza.
2. Metodo secondo la rivendicazione 1, comprendente un ulteriore passo di riproduzione sonora del dato vocale di destinazione.
3. Metodo secondo una delle rivendicazioni precedenti, in cui la differenza tra detta frequenza di sorgente e frequenza di destinazione rispettivamente associate a ciascun fonema è determinata in funzione delle diverse lettere comprese in ciascun fonema, in cui a ciascuna di dette diverse lettere è attribuito un rispettivo valore numerico che corrisponde alla percentuale di probabilità di utilizzo di ciascuna lettera nel suddetto linguaggio naturale.
4. Metodo secondo la rivendicazione precedente, in cui detto valore numerico attribuito a ciascuna lettera è compreso tra 0 e 100.
5. Metodo secondo una delle rivendicazioni precedenti, in cui il passo d) comprende le fasi di: suddividere detto primo spettro in frequenza e detto secondo spettro in frequenza in bande, individuare per ciascuna banda la posizione del baricentro spettrale che indica ed identifica ciascun fonema, in cui la frequenza di sorgente e la frequenza di destinazione associata a ciascun fonema sono determinate in base alla posizione del baricentro spettrale.
6. Metodo secondo la rivendicazione precedente, in cui dette bande presentano una larghezza pari a 1000 Hz.
7. Metodo secondo una delle rivendicazioni precedenti, in cui detto primo spettro di frequenza è filtrato a comprendere: frequenze fino ai 5.000 Hz per voce di sorgente maschile e frequenze fino ai 5.500 Hz per voce di sorgente femminile, e in cui in cui detto secondo spettro di frequenza è filtrato a comprendere: frequenze fino ai 5.000 Hz per voce di destinazione maschile e frequenze fino ai 5.500 Hz per voce di destinazione femminile.
8. Sistema (1) configurato per l’implementazione del metodo secondo una delle rivendicazioni precedenti, detto sistema (1) essendo atto ad elaborare un dato vocale sorgente comprendente fonemi appartenenti ad un linguaggio naturale, prodotto mediante una voce sorgente, per ottenere un dato vocale di destinazione, prodotto mediante una voce di destinazione diversa dalla voce sorgente, il quale sistema (1) comprende: − mezzi di acquisizione (2) di un primo dato vocale di configurazione, un secondo dato vocale di configurazione e un dato vocale sorgente, ad esempio comprendenti uno o più microfoni; − un’unità di elaborazione e controllo (3) connessa a detti mezzi di acquisizione (2) e configurata per elaborare detti primo e secondo dato vocale di configurazione per ottenere rispettivi primo e secondo spettro di frequenza e differenza di frequenza determinata per ogni fonema di detti primo e secondo dato vocale di configurazione, e per elaborare detto dato vocale sorgente per ottenere detto dato vocale di destinazione; − mezzi di riproduzione (4), configurati per la riproduzione sonora mediante la voce di destinazione del dato vocale di destinazione, ad esempio comprendenti uno o più altoparlanti; e − un’unità di memoria (5), in cui è memorizzata ciascuna frequenza di destinazione e differenza di frequenza determinata per ogni fonema di detti primo e secondo dato vocale di configurazione.
9. Programma per elaboratore, comprendente delle istruzioni tali che, quando detto programma è eseguito su un elaboratore elettronico connesso a mezzi di acquisizione di dati vocali, implementa il metodo secondo una delle rivendicazioni da 1 a 7.