IT201800005283A1 - Rimodulatore del timbro vocale - Google Patents

Rimodulatore del timbro vocale Download PDF

Info

Publication number
IT201800005283A1
IT201800005283A1 IT102018000005283A IT201800005283A IT201800005283A1 IT 201800005283 A1 IT201800005283 A1 IT 201800005283A1 IT 102018000005283 A IT102018000005283 A IT 102018000005283A IT 201800005283 A IT201800005283 A IT 201800005283A IT 201800005283 A1 IT201800005283 A1 IT 201800005283A1
Authority
IT
Italy
Prior art keywords
voice
frequency
source
data
phoneme
Prior art date
Application number
IT102018000005283A
Other languages
English (en)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed filed Critical
Priority to IT102018000005283A priority Critical patent/IT201800005283A1/it
Publication of IT201800005283A1 publication Critical patent/IT201800005283A1/it

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser

Description

RIMODULATORE DEL TIMBRO VOCALE
DESCRIZIONE
Campo tecnico dell’invenzione
La presente invenzione attiene al settore dell’elaborazione di dati sonori, quali dati vocali. L’invenzione si riferisce principalmente ad un metodo che consente di riprodurre un messaggio vocale, generato da una voce sorgente, mediante una voce di destinazione diversa da detta voce sorgente.
Background
Con riferimento al settore dell’elaborazione di dati sonori, ad oggi sono note molteplici soluzioni che consentono di riprodurre messaggi vocali, in particolare per applicazioni nell’ambito ludico.
Le soluzioni note consentono ad un utente di registrare un messaggio vocale e di riprodurlo tal quale o in una versione modificata, in cui ad esempio il messaggio vocale registrato è sottoposto a distorsione, mediante l’uso di amplificatori o filtri.
Sommario dell’invenzione
Il problema tecnico posto e risolto dalla presente invenzione è pertanto quello di fornire un metodo che consenta di ovviare agli inconvenienti sopra menzionati con riferimento alla tecnica nota. La soluzione fornita prevede di modificare un dato vocale, prodotto mediante una voce sorgente, in un dato vocale presentante il medesimo contenuto, in particolare la medesima successione di fonemi, riprodotto mediante una voce di destinazione.
Tale problema viene risolto da un metodo secondo la rivendicazione 1.
Secondo ulteriori aspetti, la presente invenzione fornisce altresì un sistema di rimodulazione del timbro vocale, configurato per consentire l’implementazione del metodo secondo l’invenzione. Ancora, l’invenzione fornisce un programma per elaboratore che consente di implementare il metodo suddetto quando eseguito mediante un elaboratore elettronico.
Caratteristiche preferite della presente invenzione sono oggetto delle rivendicazioni dipendenti.
Come menzionato sopra, l’invenzione fornisce un metodo -e un corrispondente sistema- per la conversione di un dato vocale da una voce sorgente ad un a voce di destinazione diversa dalla voce sorgente, senza modificarne il contenuto fonetico.
Il metodo comprende innanzitutto una fase di configurazione, in cui è stabilita e memorizzata una determinata “funzione di corrispondenza” tra la voce sorgente e la voce di destinazione. In particolare, il metodo prevede una fase di analisi di un primo dato vocale di configurazione prodotto mediante la voce sorgente e di un secondo dato vocale di configurazione prodotto mediante la voce di destinazione. Tali primo e secondo dato di configurazione presentano il medesimo contenuto fonetico.
L’analisi è effettuata sullo spettro in frequenza dei dati, per individuare, per la voce sorgente e la voce di destinazione, le frequenze associate a ciascun fonema del rispettivo dato di configurazione. Tale associazione viene memorizzata, e sulla base della stessa è possibile successivamente effettuare la conversione di qualsiasi dato vocale prodotto mediante la voce sorgente in un dato vocale generato mediante la voce di destinazione.
Vantaggiosamente, è possibile realizzare tale configurazione per una qualsiasi coppia di voce sorgente / voce di destinazione, e memorizzare le associazioni tra le rispettive frequenze per usi successivi.
Altri vantaggi, caratteristiche e le modalità di impiego della presente invenzione risulteranno evidenti dalla seguente descrizione dettagliata di alcune forme di realizzazione, presentate a scopo esemplificativo e non limitativo.
Descrizione breve delle figure
Verrà fatto riferimento alla Figura 1 allegata, che mostra uno schema a blocchi esemplificativo di una forma di realizzazione preferita di un sistema secondo la presente invenzione.
La Figura 1 suindicata è da intendersi a fini esclusivamente esemplificativi e non limitativi.
Descrizione dettagliata di forme di realizzazione preferite
Con riferimento alla Figura 1, il metodo di elaborazione secondo la presente invenzione può essere implementato mediante un sistema 1 di rimodulazione del timbro vocale.
Il metodo prevede l’elaborazione di un primo dato vocale prodotto mediante una voce sorgente, in cui il dato vocale comprende fonemi appartenenti ad un linguaggio naturale, per ottenere un secondo dato vocale prodotto mediante una voce di destinazione. Tali dati sono rispettivamente generati mediante fonti vocali diverse, caratterizzate da un proprio contenuto spettrale, cioè da diverse frequenze associate a ciascun fonema del linguaggio naturale, in cui la frequenza determina parametri caratteristici della voce, quali ad esempio il timbro.
Il metodo secondo la presente invenzione comprende una prima fase di configurazione, in cui è stabilita una determinata “funzione di corrispondenza” tra la voce sorgente e la voce di destinazione. Una volta stabilita detta “funzione di corrispondenza”, questa viene memorizzata, per impiegarla successivamente nella conversione di un qualsiasi dato vocale dalla voce sorgente alla voce di destinazione.
In particolare, la fase di configurazione prevede l’acquisizione di un primo dato vocale di configurazione e di un secondo dato vocale di configurazione mediante mezzi di acquisizione 2, ad esempio nella forma di uno o più microfoni.
Il primo dato vocale di configurazione è prodotto mediante la voce sorgente e comprende un contenuto fonetico di configurazione. Il contenuto fonetico di configurazione comprende più fonemi del linguaggio naturale (in sostanza è una frase espressa in linguaggio naturale, che verrà confrontata con il secondo dato vocale).
Il secondo dato vocale di configurazione è prodotto mediante la voce di destinazione e comprende il medesimo contenuto fonetico di configurazione del primo dato. In altre parole, il contenuto fonetico dei dati coincide, pertanto il secondo dato è diverso dal primo esclusivamente per il fatto che è prodotto da una fonte vocale diversa e quindi presenta un diverso contenuto spettrale, che si esplicita in un diverso spettro di frequenza.
Detti primo e secondo dato vocale di configurazione sono elaborati mediante un’unità di elaborazione e controllo 3 per ottenere rispettivi primo e secondo spettro di frequenza.
Nello spettro di frequenza del primo dato di configurazione e nello spettro di frequenza del secondo dato di configurazione si individua la rispettiva frequenza di sorgente e frequenza di destinazione associata a ciascun fonema.
Per effettuare tale individuazione, il primo spettro in frequenza e il secondo spettro in frequenza sono preferibilmente suddivisi in bande, e per ciascuna banda è individuata la posizione del baricentro spettrale che indica ed identifica ciascun fonema. Preferibilmente, dette bande presentano una larghezza pari a 1000 Hz.
Preferibilmente, il primo e il secondo spettro di frequenza, prima dell’analisi delle frequenze associate a ciascun fonema, sono filtrati a comprendere frequenze fino ai 5.000 Hz per voce maschile e frequenze fino ai 5.500 Hz per voce femminile.
La frequenza di sorgente e la frequenza di destinazione associate a ciascun fonema sono determinate in base alla posizione del baricentro spettrale in ciascuna banda.
Infatti, la posizione del baricentro spettrale indica la distribuzione dell’energia sonora in ciascuna banda. Considerata tale distribuzione, alla luce della variabile temporale, si identificano univocamente i diversi fonemi in un sonorogramma. L’analisi in bande consente di riferirsi alle stesse grandezze (tra le due sorgenti vocali nell’analisi del messaggio di configurazione), quali alle formanti, indipendente dall’altezza della nota pronunciata.
Si considerano anche le differenze tra vocali e consonanti. In particolare, per quanto riguarda le consonanti, anche quando è possibile effettuare una sonorizzazione delle stesse, in generale presentano una valenza “rumoristica”, soprattutto per quanto riguarda le sibilanti “s” e “z”, le labiali “p” e “b” e le dentali “t” e “d”, che costituisce una discontinuità nel corso dell’intonazione delle vocali. Le consonanti sonore mantengono traccia delle parziali in rapporti armonici, perché sono pronunciate assieme al suono proprio della voce. Ad esempio, la consonante “r” pronunciata in maniera dura induce una modulazione di ampiezza del suono piuttosto rapida (equivalente ad una frequenza di battimento di circa 28 Hz), mentre la pronuncia della “n” comporta una risonanza della bocca smorzata, o del tutto eliminata a favore della risonanza del naso. Le consonanti sorde possiedono uno spettro continuo a larga banda, tipico ad esempio dei rumori.
Inoltre, viene determinata la differenza di frequenza tra dette frequenza di sorgente e frequenza di destinazione associate a ciascun fonema, in altre parole una mappa di differenze di frequenza.
Pertanto, la differenza tra detta frequenza di sorgente e frequenza di destinazione associate a ciascun fonema è determinata anche in base alla presenza di vocali o consonanti comprese in ciascun fonema, in cui a ciascuna di dette vocali e dette consonanti è attribuito un rispettivo valore numerico, o “peso”. In particolare, è attribuito un “peso” diverso alle vocali formanti rispetto alle altre vocali. Il peso è, tra gli altri, un parametro oggetto di continui test, in modo da ottenere risultati sempre più veritieri, pertanto gli algoritmi impiegati, che consentono l’attribuzione di diversi pesi alle varie vocali e consonanti e il calcolo stesso di tali pesi, possono subire variazioni ed ottimizzazioni a fronte di tali test.
In particolare, il peso può essere attribuito in funzione della percentuale di probabilità di utilizzo di ciascuna lettera dell’alfabeto nel linguaggio naturale considerato, calcolata con riferimento a dati sulla frequenza dell’utilizzo di tali lettere, cioè dati che si riferiscono a quanto spesso ciascuna lettera è impiegata. Ad esempio, per ciascuna lettera, si possono adottare pesi che corrispondono alla percentuale di probabilità di utilizzo, nel linguaggio naturale considerato, di quella specifica lettera.
Secondo varianti preferite di realizzazione, il peso può essere calcolato in base alla differenza di frequenza ed alla probabilità di presenza di una vocale o di una consonante, ad esempio definita in una tabella di frequenze modello di vocali e consonanti, sulla scorta di informazioni sul sesso e sulla nazionalità del linguaggio di destinazione.
In particolare, le frequenze relative a fonemi acquisite dal linguaggio sorgente sono moltiplicate per il rispettivo fattore peso per ottenere le frequenze di destinazione.
Nella Tabella 1 sono riportati dati statistici esemplificativi delle percentuali di probabilità di utilizzo delle diverse lettere dell’alfabeto, considerando come linguaggio naturale la lingua italiana. Nella Tabella 2 sono riportati in comparazione, a titolo esemplificativo, i dati statistici sulle percentuali di probabilità di utilizzo di alcune lettere dell’alfabeto, considerando come linguaggio naturale rispettivamente la lingua italiana e la lingua inglese.
Secondo forme di realizzazione preferite dell’invenzione, ad ogni lettera viene attributo un valore diverso, in particolare compreso tra 0 e 100, che corrisponde alla percentuale di probabilità di utilizzo di ciascuna lettera -per uno specifico linguaggio naturale- definita rispetto ad una distribuzione delle probabilità di frequenza delle lettere che segue preferibilmente una curva di Gauss. In tal caso, alla “z” è attributo ad esempio un valore numerico pari a 99, oppure pari a 2 (cioè valori prossimi agli estremi della curva di Gauss, perché la “z” non è una lettera usata molto di frequente), mentre alla “a” ed alla “e” ad esempio sono attribuiti rispettivamente i valori 43 e 47 (più prossimi alla probabilità massima rispetto alla “z”).
Tabella 1.
Tabella 2.
La associazione tra ciascuna frequenza di sorgente, frequenza di destinazione e differenza di frequenza determinata per ogni fonema del dato di configurazione analizzato viene memorizzata in un’unità di memoria 5.
Sulla base di tale associazione frequenze/fonemi, è possibile successivamente effettuare la conversione di qualsiasi dato vocale prodotto mediante la voce sorgente per generare un dato vocale presentante il medesimo contenuto fonemico e riprodurlo mediante la voce di destinazione.
È possibile effettuare tale configurazione per diverse coppie di voce sorgente / voce di destinazione, e memorizzarla per usi successivi.
Dopo la fase di configurazione, per convertire un dato vocale da una voce sorgente ad una voce di destinazione, è sufficiente acquisire un nuovo dato vocale comprendente fonemi appartenenti al linguaggio naturale, prodotto mediante la voce sorgente, ed elaborarlo sulla base delle associazioni frequenza di sorgente/frequenza di destinazione/differenza di frequenza memorizzate per ciascun fonema per generare un dato vocale prodotto mediante la voce di destinazione. I fonemi dei dati vocali da convertire, dopo la configurazione, non sono necessariamente quelli già presenti nei dati di configurazione, vale a dire che il metodo consente di convertire qualsiasi messaggio vocale nella voce di destinazione.
Ulteriormente, è prevista la riproduzione sonora mediante la voce di destinazione del dato vocale così elaborato, mediante dei mezzi di riproduzione 4, ad esempio degli altoparlanti.
Come è facile intuire, il metodo secondo la presente invenzione può essere implementato mediante un elaboratore elettronico (es. smartphone, pc, tablet) configurato per ricevere e trasmettere dati vocali, o che è connesso o connettibile a mezzi di acquisizione di dati vocali e a mezzi per la riproduzione degli stessi. Ad esempio, il metodo può essere implementato mediante un’Applicazione, compatibile con sistemi operativi IOS e Android.
Vantaggiosamente, il metodo proposto permette di trasformare la voce di una persona in quella di un'altra, parlare con la voce di un attore o di un amico, consentendo di realizzare doppiaggi, imitazioni, ripetizione di frasi celebri ad esempio pronunciate da personaggi di film o cartoni animati.
Vantaggiosamente, può essere prevista la riproduzione di un video-messaggio in sincronia con la riproduzione del dato o messaggio vocale mediante la voce di destinazione, ad esempio un video del soggetto a cui appartiene la voce di destinazione, così da simulare la riproduzione del messaggio vocale da parte di quel soggetto.
La presente invenzione è stata fin qui descritta con riferimento a forme preferite di realizzazione. È da intendersi che possano esistere altre forme di realizzazione che afferiscono al medesimo nucleo inventivo, come definito dall’ambito di protezione delle rivendicazioni qui di seguito riportate.

Claims (9)

  1. RIVENDICAZIONI 1. Metodo di elaborazione di un dato vocale sorgente comprendente fonemi appartenenti ad un linguaggio naturale, prodotto mediante una voce sorgente, per ottenere un dato vocale di destinazione prodotto mediante una voce di destinazione diversa dalla voce sorgente, detto metodo comprendente i seguenti passi: a) acquisire un primo dato vocale di configurazione, comprendente un contenuto fonetico di configurazione, prodotto mediante la voce sorgente, il quale contenuto fonetico di configurazione comprende fonemi del linguaggio naturale; b) acquisire un secondo dato vocale di configurazione, comprendente detto contenuto fonetico di configurazione, prodotto mediante la voce di destinazione; c) elaborare detti primo e secondo dato vocale di configurazione per ottenere rispettivi primo e secondo spettro di frequenza; d) individuare in detto primo spettro in frequenza la frequenza di sorgente associata a ciascun fonema, ed individuare in detto secondo spettro in frequenza la frequenza di destinazione associata a ciascun fonema; e) determinare la differenza di frequenza tra dette frequenza di sorgente e frequenza di destinazione associate a ciascun fonema; f) memorizzare, per ciascun fonema, l’associazione tra le corrispondenti frequenza di sorgente, frequenza di destinazione e differenza di frequenza; g) acquisire il dato vocale sorgente, comprendente fonemi appartenenti al linguaggio naturale, prodotto mediante la voce sorgente; h) elaborare detto dato vocale sorgente per generare un dato vocale di destinazione comprendente, per ciascun fonema, una frequenza di destinazione determinata sulla base di dette associazioni memorizzate, per ciascun fonema, tra le corrispondenti frequenza di sorgente, frequenza di destinazione e differenza di frequenza.
  2. 2. Metodo secondo la rivendicazione 1, comprendente un ulteriore passo di riproduzione sonora del dato vocale di destinazione.
  3. 3. Metodo secondo una delle rivendicazioni precedenti, in cui la differenza tra detta frequenza di sorgente e frequenza di destinazione rispettivamente associate a ciascun fonema è determinata in funzione delle diverse lettere comprese in ciascun fonema, in cui a ciascuna di dette diverse lettere è attribuito un rispettivo valore numerico che corrisponde alla percentuale di probabilità di utilizzo di ciascuna lettera nel suddetto linguaggio naturale.
  4. 4. Metodo secondo la rivendicazione precedente, in cui detto valore numerico attribuito a ciascuna lettera è compreso tra 0 e 100.
  5. 5. Metodo secondo una delle rivendicazioni precedenti, in cui il passo d) comprende le fasi di: suddividere detto primo spettro in frequenza e detto secondo spettro in frequenza in bande, individuare per ciascuna banda la posizione del baricentro spettrale che indica ed identifica ciascun fonema, in cui la frequenza di sorgente e la frequenza di destinazione associata a ciascun fonema sono determinate in base alla posizione del baricentro spettrale.
  6. 6. Metodo secondo la rivendicazione precedente, in cui dette bande presentano una larghezza pari a 1000 Hz.
  7. 7. Metodo secondo una delle rivendicazioni precedenti, in cui detto primo spettro di frequenza è filtrato a comprendere: frequenze fino ai 5.000 Hz per voce di sorgente maschile e frequenze fino ai 5.500 Hz per voce di sorgente femminile, e in cui in cui detto secondo spettro di frequenza è filtrato a comprendere: frequenze fino ai 5.000 Hz per voce di destinazione maschile e frequenze fino ai 5.500 Hz per voce di destinazione femminile.
  8. 8. Sistema (1) configurato per l’implementazione del metodo secondo una delle rivendicazioni precedenti, detto sistema (1) essendo atto ad elaborare un dato vocale sorgente comprendente fonemi appartenenti ad un linguaggio naturale, prodotto mediante una voce sorgente, per ottenere un dato vocale di destinazione, prodotto mediante una voce di destinazione diversa dalla voce sorgente, il quale sistema (1) comprende: − mezzi di acquisizione (2) di un primo dato vocale di configurazione, un secondo dato vocale di configurazione e un dato vocale sorgente, ad esempio comprendenti uno o più microfoni; − un’unità di elaborazione e controllo (3) connessa a detti mezzi di acquisizione (2) e configurata per elaborare detti primo e secondo dato vocale di configurazione per ottenere rispettivi primo e secondo spettro di frequenza e differenza di frequenza determinata per ogni fonema di detti primo e secondo dato vocale di configurazione, e per elaborare detto dato vocale sorgente per ottenere detto dato vocale di destinazione; − mezzi di riproduzione (4), configurati per la riproduzione sonora mediante la voce di destinazione del dato vocale di destinazione, ad esempio comprendenti uno o più altoparlanti; e − un’unità di memoria (5), in cui è memorizzata ciascuna frequenza di destinazione e differenza di frequenza determinata per ogni fonema di detti primo e secondo dato vocale di configurazione.
  9. 9. Programma per elaboratore, comprendente delle istruzioni tali che, quando detto programma è eseguito su un elaboratore elettronico connesso a mezzi di acquisizione di dati vocali, implementa il metodo secondo una delle rivendicazioni da 1 a 7.
IT102018000005283A 2018-05-11 2018-05-11 Rimodulatore del timbro vocale IT201800005283A1 (it)

Priority Applications (1)

Application Number Priority Date Filing Date Title
IT102018000005283A IT201800005283A1 (it) 2018-05-11 2018-05-11 Rimodulatore del timbro vocale

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
IT102018000005283A IT201800005283A1 (it) 2018-05-11 2018-05-11 Rimodulatore del timbro vocale

Publications (1)

Publication Number Publication Date
IT201800005283A1 true IT201800005283A1 (it) 2019-11-11

Family

ID=63143326

Family Applications (1)

Application Number Title Priority Date Filing Date
IT102018000005283A IT201800005283A1 (it) 2018-05-11 2018-05-11 Rimodulatore del timbro vocale

Country Status (1)

Country Link
IT (1) IT201800005283A1 (it)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1589524A1 (en) * 2004-04-15 2005-10-26 Multitel ASBL Method and device for speech synthesis
US20060129403A1 (en) * 2004-12-13 2006-06-15 Delta Electronics, Inc. Method and device for speech synthesizing and dialogue system thereof
US20100030561A1 (en) * 2005-07-12 2010-02-04 Nuance Communications, Inc. Annotating phonemes and accents for text-to-speech system
US8234110B2 (en) * 2007-09-29 2012-07-31 Nuance Communications, Inc. Voice conversion method and system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1589524A1 (en) * 2004-04-15 2005-10-26 Multitel ASBL Method and device for speech synthesis
US20060129403A1 (en) * 2004-12-13 2006-06-15 Delta Electronics, Inc. Method and device for speech synthesizing and dialogue system thereof
US20100030561A1 (en) * 2005-07-12 2010-02-04 Nuance Communications, Inc. Annotating phonemes and accents for text-to-speech system
US8234110B2 (en) * 2007-09-29 2012-07-31 Nuance Communications, Inc. Voice conversion method and system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MOHAMMADI SEYED HAMIDREZA ET AL: "An overview of voice conversion systems", SPEECH COMMUNICATION, ELSEVIER SCIENCE PUBLISHERS, AMSTERDAM, NL, vol. 88, 16 January 2017 (2017-01-16), pages 65 - 82, XP029933932, ISSN: 0167-6393, DOI: 10.1016/J.SPECOM.2017.01.008 *

Similar Documents

Publication Publication Date Title
US20160365087A1 (en) High end speech synthesis
US20230036020A1 (en) Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score
CN108831436A (zh) 一种模拟说话者情绪优化翻译后文本语音合成的方法
Vydana et al. Vowel-based non-uniform prosody modification for emotion conversion
Konno et al. Whisper to normal speech conversion using pitch estimated from spectrum
Heeren Vocalic correlates of pitch in whispered versus normal speech
Cernak et al. On structured sparsity of phonological posteriors for linguistic parsing
TWI467566B (zh) 多語言語音合成方法
IT201800005283A1 (it) Rimodulatore del timbro vocale
Khan et al. You speak, we detect: Quantitative diagnosis of anomic and Wernicke's aphasia using digital signal processing techniques
Vekkot et al. Vocal emotion conversion using WSOLA and linear prediction
García et al. A Spanish multispeaker database of esophageal speech
Yadav et al. Generation of emotional speech by prosody imposition on sentence, word and syllable level fragments of neutral speech
Petrushin et al. Whispered speech prosody modeling for TTS synthesis
TW202129626A (zh) 同步語音產生裝置及其產生方法
Wu et al. Pitch shape modulates the time course of tone vs pitch-accent identification in Mandarin Chinese
Přibilová et al. Spectrum modification for emotional speech synthesis
Wu et al. Evaluation of a method for vowel-specific voice source control of an electrolarynx using visual information
Singh et al. Analysis of stop consonants in Devanagari alphabet
Wang et al. 8 Automatic assessment of consonant omission and speech intelligibility in cleft palate speech
US9905218B2 (en) Method and apparatus for exemplary diphone synthesizer
Chlébowski et al. Nasal grunts” in the NECTE corpus, Meaningful interactional sounds
Evgrafova et al. A new technique to record a voice source signal
Oleskowicz-Popiel et al. Manipulations of F0 contours in affective speech analysis
Nagy et al. Synthesis of speaking styles with corpus-and HMM-based approaches