IT201800005283A1 - Rimodulatore del timbro vocale - Google Patents
Rimodulatore del timbro vocale Download PDFInfo
- Publication number
- IT201800005283A1 IT201800005283A1 IT102018000005283A IT201800005283A IT201800005283A1 IT 201800005283 A1 IT201800005283 A1 IT 201800005283A1 IT 102018000005283 A IT102018000005283 A IT 102018000005283A IT 201800005283 A IT201800005283 A IT 201800005283A IT 201800005283 A1 IT201800005283 A1 IT 201800005283A1
- Authority
- IT
- Italy
- Prior art keywords
- voice
- frequency
- source
- data
- phoneme
- Prior art date
Links
- 238000000034 method Methods 0.000 claims description 28
- 238000001228 spectrum Methods 0.000 claims description 17
- 230000001755 vocal effect Effects 0.000 claims description 13
- 230000003595 spectral effect Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 5
- 230000005484 gravity Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000007634 remodeling Methods 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 230000035559 beat frequency Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
Description
RIMODULATORE DEL TIMBRO VOCALE
DESCRIZIONE
Campo tecnico dell’invenzione
La presente invenzione attiene al settore dell’elaborazione di dati sonori, quali dati vocali. L’invenzione si riferisce principalmente ad un metodo che consente di riprodurre un messaggio vocale, generato da una voce sorgente, mediante una voce di destinazione diversa da detta voce sorgente.
Background
Con riferimento al settore dell’elaborazione di dati sonori, ad oggi sono note molteplici soluzioni che consentono di riprodurre messaggi vocali, in particolare per applicazioni nell’ambito ludico.
Le soluzioni note consentono ad un utente di registrare un messaggio vocale e di riprodurlo tal quale o in una versione modificata, in cui ad esempio il messaggio vocale registrato è sottoposto a distorsione, mediante l’uso di amplificatori o filtri.
Sommario dell’invenzione
Il problema tecnico posto e risolto dalla presente invenzione è pertanto quello di fornire un metodo che consenta di ovviare agli inconvenienti sopra menzionati con riferimento alla tecnica nota. La soluzione fornita prevede di modificare un dato vocale, prodotto mediante una voce sorgente, in un dato vocale presentante il medesimo contenuto, in particolare la medesima successione di fonemi, riprodotto mediante una voce di destinazione.
Tale problema viene risolto da un metodo secondo la rivendicazione 1.
Secondo ulteriori aspetti, la presente invenzione fornisce altresì un sistema di rimodulazione del timbro vocale, configurato per consentire l’implementazione del metodo secondo l’invenzione. Ancora, l’invenzione fornisce un programma per elaboratore che consente di implementare il metodo suddetto quando eseguito mediante un elaboratore elettronico.
Caratteristiche preferite della presente invenzione sono oggetto delle rivendicazioni dipendenti.
Come menzionato sopra, l’invenzione fornisce un metodo -e un corrispondente sistema- per la conversione di un dato vocale da una voce sorgente ad un a voce di destinazione diversa dalla voce sorgente, senza modificarne il contenuto fonetico.
Il metodo comprende innanzitutto una fase di configurazione, in cui è stabilita e memorizzata una determinata “funzione di corrispondenza” tra la voce sorgente e la voce di destinazione. In particolare, il metodo prevede una fase di analisi di un primo dato vocale di configurazione prodotto mediante la voce sorgente e di un secondo dato vocale di configurazione prodotto mediante la voce di destinazione. Tali primo e secondo dato di configurazione presentano il medesimo contenuto fonetico.
L’analisi è effettuata sullo spettro in frequenza dei dati, per individuare, per la voce sorgente e la voce di destinazione, le frequenze associate a ciascun fonema del rispettivo dato di configurazione. Tale associazione viene memorizzata, e sulla base della stessa è possibile successivamente effettuare la conversione di qualsiasi dato vocale prodotto mediante la voce sorgente in un dato vocale generato mediante la voce di destinazione.
Vantaggiosamente, è possibile realizzare tale configurazione per una qualsiasi coppia di voce sorgente / voce di destinazione, e memorizzare le associazioni tra le rispettive frequenze per usi successivi.
Altri vantaggi, caratteristiche e le modalità di impiego della presente invenzione risulteranno evidenti dalla seguente descrizione dettagliata di alcune forme di realizzazione, presentate a scopo esemplificativo e non limitativo.
Descrizione breve delle figure
Verrà fatto riferimento alla Figura 1 allegata, che mostra uno schema a blocchi esemplificativo di una forma di realizzazione preferita di un sistema secondo la presente invenzione.
La Figura 1 suindicata è da intendersi a fini esclusivamente esemplificativi e non limitativi.
Descrizione dettagliata di forme di realizzazione preferite
Con riferimento alla Figura 1, il metodo di elaborazione secondo la presente invenzione può essere implementato mediante un sistema 1 di rimodulazione del timbro vocale.
Il metodo prevede l’elaborazione di un primo dato vocale prodotto mediante una voce sorgente, in cui il dato vocale comprende fonemi appartenenti ad un linguaggio naturale, per ottenere un secondo dato vocale prodotto mediante una voce di destinazione. Tali dati sono rispettivamente generati mediante fonti vocali diverse, caratterizzate da un proprio contenuto spettrale, cioè da diverse frequenze associate a ciascun fonema del linguaggio naturale, in cui la frequenza determina parametri caratteristici della voce, quali ad esempio il timbro.
Il metodo secondo la presente invenzione comprende una prima fase di configurazione, in cui è stabilita una determinata “funzione di corrispondenza” tra la voce sorgente e la voce di destinazione. Una volta stabilita detta “funzione di corrispondenza”, questa viene memorizzata, per impiegarla successivamente nella conversione di un qualsiasi dato vocale dalla voce sorgente alla voce di destinazione.
In particolare, la fase di configurazione prevede l’acquisizione di un primo dato vocale di configurazione e di un secondo dato vocale di configurazione mediante mezzi di acquisizione 2, ad esempio nella forma di uno o più microfoni.
Il primo dato vocale di configurazione è prodotto mediante la voce sorgente e comprende un contenuto fonetico di configurazione. Il contenuto fonetico di configurazione comprende più fonemi del linguaggio naturale (in sostanza è una frase espressa in linguaggio naturale, che verrà confrontata con il secondo dato vocale).
Il secondo dato vocale di configurazione è prodotto mediante la voce di destinazione e comprende il medesimo contenuto fonetico di configurazione del primo dato. In altre parole, il contenuto fonetico dei dati coincide, pertanto il secondo dato è diverso dal primo esclusivamente per il fatto che è prodotto da una fonte vocale diversa e quindi presenta un diverso contenuto spettrale, che si esplicita in un diverso spettro di frequenza.
Detti primo e secondo dato vocale di configurazione sono elaborati mediante un’unità di elaborazione e controllo 3 per ottenere rispettivi primo e secondo spettro di frequenza.
Nello spettro di frequenza del primo dato di configurazione e nello spettro di frequenza del secondo dato di configurazione si individua la rispettiva frequenza di sorgente e frequenza di destinazione associata a ciascun fonema.
Per effettuare tale individuazione, il primo spettro in frequenza e il secondo spettro in frequenza sono preferibilmente suddivisi in bande, e per ciascuna banda è individuata la posizione del baricentro spettrale che indica ed identifica ciascun fonema. Preferibilmente, dette bande presentano una larghezza pari a 1000 Hz.
Preferibilmente, il primo e il secondo spettro di frequenza, prima dell’analisi delle frequenze associate a ciascun fonema, sono filtrati a comprendere frequenze fino ai 5.000 Hz per voce maschile e frequenze fino ai 5.500 Hz per voce femminile.
La frequenza di sorgente e la frequenza di destinazione associate a ciascun fonema sono determinate in base alla posizione del baricentro spettrale in ciascuna banda.
Infatti, la posizione del baricentro spettrale indica la distribuzione dell’energia sonora in ciascuna banda. Considerata tale distribuzione, alla luce della variabile temporale, si identificano univocamente i diversi fonemi in un sonorogramma. L’analisi in bande consente di riferirsi alle stesse grandezze (tra le due sorgenti vocali nell’analisi del messaggio di configurazione), quali alle formanti, indipendente dall’altezza della nota pronunciata.
Si considerano anche le differenze tra vocali e consonanti. In particolare, per quanto riguarda le consonanti, anche quando è possibile effettuare una sonorizzazione delle stesse, in generale presentano una valenza “rumoristica”, soprattutto per quanto riguarda le sibilanti “s” e “z”, le labiali “p” e “b” e le dentali “t” e “d”, che costituisce una discontinuità nel corso dell’intonazione delle vocali. Le consonanti sonore mantengono traccia delle parziali in rapporti armonici, perché sono pronunciate assieme al suono proprio della voce. Ad esempio, la consonante “r” pronunciata in maniera dura induce una modulazione di ampiezza del suono piuttosto rapida (equivalente ad una frequenza di battimento di circa 28 Hz), mentre la pronuncia della “n” comporta una risonanza della bocca smorzata, o del tutto eliminata a favore della risonanza del naso. Le consonanti sorde possiedono uno spettro continuo a larga banda, tipico ad esempio dei rumori.
Inoltre, viene determinata la differenza di frequenza tra dette frequenza di sorgente e frequenza di destinazione associate a ciascun fonema, in altre parole una mappa di differenze di frequenza.
Pertanto, la differenza tra detta frequenza di sorgente e frequenza di destinazione associate a ciascun fonema è determinata anche in base alla presenza di vocali o consonanti comprese in ciascun fonema, in cui a ciascuna di dette vocali e dette consonanti è attribuito un rispettivo valore numerico, o “peso”. In particolare, è attribuito un “peso” diverso alle vocali formanti rispetto alle altre vocali. Il peso è, tra gli altri, un parametro oggetto di continui test, in modo da ottenere risultati sempre più veritieri, pertanto gli algoritmi impiegati, che consentono l’attribuzione di diversi pesi alle varie vocali e consonanti e il calcolo stesso di tali pesi, possono subire variazioni ed ottimizzazioni a fronte di tali test.
In particolare, il peso può essere attribuito in funzione della percentuale di probabilità di utilizzo di ciascuna lettera dell’alfabeto nel linguaggio naturale considerato, calcolata con riferimento a dati sulla frequenza dell’utilizzo di tali lettere, cioè dati che si riferiscono a quanto spesso ciascuna lettera è impiegata. Ad esempio, per ciascuna lettera, si possono adottare pesi che corrispondono alla percentuale di probabilità di utilizzo, nel linguaggio naturale considerato, di quella specifica lettera.
Secondo varianti preferite di realizzazione, il peso può essere calcolato in base alla differenza di frequenza ed alla probabilità di presenza di una vocale o di una consonante, ad esempio definita in una tabella di frequenze modello di vocali e consonanti, sulla scorta di informazioni sul sesso e sulla nazionalità del linguaggio di destinazione.
In particolare, le frequenze relative a fonemi acquisite dal linguaggio sorgente sono moltiplicate per il rispettivo fattore peso per ottenere le frequenze di destinazione.
Nella Tabella 1 sono riportati dati statistici esemplificativi delle percentuali di probabilità di utilizzo delle diverse lettere dell’alfabeto, considerando come linguaggio naturale la lingua italiana. Nella Tabella 2 sono riportati in comparazione, a titolo esemplificativo, i dati statistici sulle percentuali di probabilità di utilizzo di alcune lettere dell’alfabeto, considerando come linguaggio naturale rispettivamente la lingua italiana e la lingua inglese.
Secondo forme di realizzazione preferite dell’invenzione, ad ogni lettera viene attributo un valore diverso, in particolare compreso tra 0 e 100, che corrisponde alla percentuale di probabilità di utilizzo di ciascuna lettera -per uno specifico linguaggio naturale- definita rispetto ad una distribuzione delle probabilità di frequenza delle lettere che segue preferibilmente una curva di Gauss. In tal caso, alla “z” è attributo ad esempio un valore numerico pari a 99, oppure pari a 2 (cioè valori prossimi agli estremi della curva di Gauss, perché la “z” non è una lettera usata molto di frequente), mentre alla “a” ed alla “e” ad esempio sono attribuiti rispettivamente i valori 43 e 47 (più prossimi alla probabilità massima rispetto alla “z”).
Tabella 1.
Tabella 2.
La associazione tra ciascuna frequenza di sorgente, frequenza di destinazione e differenza di frequenza determinata per ogni fonema del dato di configurazione analizzato viene memorizzata in un’unità di memoria 5.
Sulla base di tale associazione frequenze/fonemi, è possibile successivamente effettuare la conversione di qualsiasi dato vocale prodotto mediante la voce sorgente per generare un dato vocale presentante il medesimo contenuto fonemico e riprodurlo mediante la voce di destinazione.
È possibile effettuare tale configurazione per diverse coppie di voce sorgente / voce di destinazione, e memorizzarla per usi successivi.
Dopo la fase di configurazione, per convertire un dato vocale da una voce sorgente ad una voce di destinazione, è sufficiente acquisire un nuovo dato vocale comprendente fonemi appartenenti al linguaggio naturale, prodotto mediante la voce sorgente, ed elaborarlo sulla base delle associazioni frequenza di sorgente/frequenza di destinazione/differenza di frequenza memorizzate per ciascun fonema per generare un dato vocale prodotto mediante la voce di destinazione. I fonemi dei dati vocali da convertire, dopo la configurazione, non sono necessariamente quelli già presenti nei dati di configurazione, vale a dire che il metodo consente di convertire qualsiasi messaggio vocale nella voce di destinazione.
Ulteriormente, è prevista la riproduzione sonora mediante la voce di destinazione del dato vocale così elaborato, mediante dei mezzi di riproduzione 4, ad esempio degli altoparlanti.
Come è facile intuire, il metodo secondo la presente invenzione può essere implementato mediante un elaboratore elettronico (es. smartphone, pc, tablet) configurato per ricevere e trasmettere dati vocali, o che è connesso o connettibile a mezzi di acquisizione di dati vocali e a mezzi per la riproduzione degli stessi. Ad esempio, il metodo può essere implementato mediante un’Applicazione, compatibile con sistemi operativi IOS e Android.
Vantaggiosamente, il metodo proposto permette di trasformare la voce di una persona in quella di un'altra, parlare con la voce di un attore o di un amico, consentendo di realizzare doppiaggi, imitazioni, ripetizione di frasi celebri ad esempio pronunciate da personaggi di film o cartoni animati.
Vantaggiosamente, può essere prevista la riproduzione di un video-messaggio in sincronia con la riproduzione del dato o messaggio vocale mediante la voce di destinazione, ad esempio un video del soggetto a cui appartiene la voce di destinazione, così da simulare la riproduzione del messaggio vocale da parte di quel soggetto.
La presente invenzione è stata fin qui descritta con riferimento a forme preferite di realizzazione. È da intendersi che possano esistere altre forme di realizzazione che afferiscono al medesimo nucleo inventivo, come definito dall’ambito di protezione delle rivendicazioni qui di seguito riportate.
Claims (9)
- RIVENDICAZIONI 1. Metodo di elaborazione di un dato vocale sorgente comprendente fonemi appartenenti ad un linguaggio naturale, prodotto mediante una voce sorgente, per ottenere un dato vocale di destinazione prodotto mediante una voce di destinazione diversa dalla voce sorgente, detto metodo comprendente i seguenti passi: a) acquisire un primo dato vocale di configurazione, comprendente un contenuto fonetico di configurazione, prodotto mediante la voce sorgente, il quale contenuto fonetico di configurazione comprende fonemi del linguaggio naturale; b) acquisire un secondo dato vocale di configurazione, comprendente detto contenuto fonetico di configurazione, prodotto mediante la voce di destinazione; c) elaborare detti primo e secondo dato vocale di configurazione per ottenere rispettivi primo e secondo spettro di frequenza; d) individuare in detto primo spettro in frequenza la frequenza di sorgente associata a ciascun fonema, ed individuare in detto secondo spettro in frequenza la frequenza di destinazione associata a ciascun fonema; e) determinare la differenza di frequenza tra dette frequenza di sorgente e frequenza di destinazione associate a ciascun fonema; f) memorizzare, per ciascun fonema, l’associazione tra le corrispondenti frequenza di sorgente, frequenza di destinazione e differenza di frequenza; g) acquisire il dato vocale sorgente, comprendente fonemi appartenenti al linguaggio naturale, prodotto mediante la voce sorgente; h) elaborare detto dato vocale sorgente per generare un dato vocale di destinazione comprendente, per ciascun fonema, una frequenza di destinazione determinata sulla base di dette associazioni memorizzate, per ciascun fonema, tra le corrispondenti frequenza di sorgente, frequenza di destinazione e differenza di frequenza.
- 2. Metodo secondo la rivendicazione 1, comprendente un ulteriore passo di riproduzione sonora del dato vocale di destinazione.
- 3. Metodo secondo una delle rivendicazioni precedenti, in cui la differenza tra detta frequenza di sorgente e frequenza di destinazione rispettivamente associate a ciascun fonema è determinata in funzione delle diverse lettere comprese in ciascun fonema, in cui a ciascuna di dette diverse lettere è attribuito un rispettivo valore numerico che corrisponde alla percentuale di probabilità di utilizzo di ciascuna lettera nel suddetto linguaggio naturale.
- 4. Metodo secondo la rivendicazione precedente, in cui detto valore numerico attribuito a ciascuna lettera è compreso tra 0 e 100.
- 5. Metodo secondo una delle rivendicazioni precedenti, in cui il passo d) comprende le fasi di: suddividere detto primo spettro in frequenza e detto secondo spettro in frequenza in bande, individuare per ciascuna banda la posizione del baricentro spettrale che indica ed identifica ciascun fonema, in cui la frequenza di sorgente e la frequenza di destinazione associata a ciascun fonema sono determinate in base alla posizione del baricentro spettrale.
- 6. Metodo secondo la rivendicazione precedente, in cui dette bande presentano una larghezza pari a 1000 Hz.
- 7. Metodo secondo una delle rivendicazioni precedenti, in cui detto primo spettro di frequenza è filtrato a comprendere: frequenze fino ai 5.000 Hz per voce di sorgente maschile e frequenze fino ai 5.500 Hz per voce di sorgente femminile, e in cui in cui detto secondo spettro di frequenza è filtrato a comprendere: frequenze fino ai 5.000 Hz per voce di destinazione maschile e frequenze fino ai 5.500 Hz per voce di destinazione femminile.
- 8. Sistema (1) configurato per l’implementazione del metodo secondo una delle rivendicazioni precedenti, detto sistema (1) essendo atto ad elaborare un dato vocale sorgente comprendente fonemi appartenenti ad un linguaggio naturale, prodotto mediante una voce sorgente, per ottenere un dato vocale di destinazione, prodotto mediante una voce di destinazione diversa dalla voce sorgente, il quale sistema (1) comprende: − mezzi di acquisizione (2) di un primo dato vocale di configurazione, un secondo dato vocale di configurazione e un dato vocale sorgente, ad esempio comprendenti uno o più microfoni; − un’unità di elaborazione e controllo (3) connessa a detti mezzi di acquisizione (2) e configurata per elaborare detti primo e secondo dato vocale di configurazione per ottenere rispettivi primo e secondo spettro di frequenza e differenza di frequenza determinata per ogni fonema di detti primo e secondo dato vocale di configurazione, e per elaborare detto dato vocale sorgente per ottenere detto dato vocale di destinazione; − mezzi di riproduzione (4), configurati per la riproduzione sonora mediante la voce di destinazione del dato vocale di destinazione, ad esempio comprendenti uno o più altoparlanti; e − un’unità di memoria (5), in cui è memorizzata ciascuna frequenza di destinazione e differenza di frequenza determinata per ogni fonema di detti primo e secondo dato vocale di configurazione.
- 9. Programma per elaboratore, comprendente delle istruzioni tali che, quando detto programma è eseguito su un elaboratore elettronico connesso a mezzi di acquisizione di dati vocali, implementa il metodo secondo una delle rivendicazioni da 1 a 7.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IT102018000005283A IT201800005283A1 (it) | 2018-05-11 | 2018-05-11 | Rimodulatore del timbro vocale |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IT102018000005283A IT201800005283A1 (it) | 2018-05-11 | 2018-05-11 | Rimodulatore del timbro vocale |
Publications (1)
Publication Number | Publication Date |
---|---|
IT201800005283A1 true IT201800005283A1 (it) | 2019-11-11 |
Family
ID=63143326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
IT102018000005283A IT201800005283A1 (it) | 2018-05-11 | 2018-05-11 | Rimodulatore del timbro vocale |
Country Status (1)
Country | Link |
---|---|
IT (1) | IT201800005283A1 (it) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1589524A1 (en) * | 2004-04-15 | 2005-10-26 | Multitel ASBL | Method and device for speech synthesis |
US20060129403A1 (en) * | 2004-12-13 | 2006-06-15 | Delta Electronics, Inc. | Method and device for speech synthesizing and dialogue system thereof |
US20100030561A1 (en) * | 2005-07-12 | 2010-02-04 | Nuance Communications, Inc. | Annotating phonemes and accents for text-to-speech system |
US8234110B2 (en) * | 2007-09-29 | 2012-07-31 | Nuance Communications, Inc. | Voice conversion method and system |
-
2018
- 2018-05-11 IT IT102018000005283A patent/IT201800005283A1/it unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1589524A1 (en) * | 2004-04-15 | 2005-10-26 | Multitel ASBL | Method and device for speech synthesis |
US20060129403A1 (en) * | 2004-12-13 | 2006-06-15 | Delta Electronics, Inc. | Method and device for speech synthesizing and dialogue system thereof |
US20100030561A1 (en) * | 2005-07-12 | 2010-02-04 | Nuance Communications, Inc. | Annotating phonemes and accents for text-to-speech system |
US8234110B2 (en) * | 2007-09-29 | 2012-07-31 | Nuance Communications, Inc. | Voice conversion method and system |
Non-Patent Citations (1)
Title |
---|
MOHAMMADI SEYED HAMIDREZA ET AL: "An overview of voice conversion systems", SPEECH COMMUNICATION, ELSEVIER SCIENCE PUBLISHERS, AMSTERDAM, NL, vol. 88, 16 January 2017 (2017-01-16), pages 65 - 82, XP029933932, ISSN: 0167-6393, DOI: 10.1016/J.SPECOM.2017.01.008 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20160365087A1 (en) | High end speech synthesis | |
US20230036020A1 (en) | Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score | |
CN108831436A (zh) | 一种模拟说话者情绪优化翻译后文本语音合成的方法 | |
Vydana et al. | Vowel-based non-uniform prosody modification for emotion conversion | |
Konno et al. | Whisper to normal speech conversion using pitch estimated from spectrum | |
Heeren | Vocalic correlates of pitch in whispered versus normal speech | |
Cernak et al. | On structured sparsity of phonological posteriors for linguistic parsing | |
TWI467566B (zh) | 多語言語音合成方法 | |
IT201800005283A1 (it) | Rimodulatore del timbro vocale | |
Khan et al. | You speak, we detect: Quantitative diagnosis of anomic and Wernicke's aphasia using digital signal processing techniques | |
Vekkot et al. | Vocal emotion conversion using WSOLA and linear prediction | |
García et al. | A Spanish multispeaker database of esophageal speech | |
Yadav et al. | Generation of emotional speech by prosody imposition on sentence, word and syllable level fragments of neutral speech | |
Petrushin et al. | Whispered speech prosody modeling for TTS synthesis | |
TW202129626A (zh) | 同步語音產生裝置及其產生方法 | |
Wu et al. | Pitch shape modulates the time course of tone vs pitch-accent identification in Mandarin Chinese | |
Přibilová et al. | Spectrum modification for emotional speech synthesis | |
Wu et al. | Evaluation of a method for vowel-specific voice source control of an electrolarynx using visual information | |
Singh et al. | Analysis of stop consonants in Devanagari alphabet | |
Wang et al. | 8 Automatic assessment of consonant omission and speech intelligibility in cleft palate speech | |
US9905218B2 (en) | Method and apparatus for exemplary diphone synthesizer | |
Chlébowski et al. | Nasal grunts” in the NECTE corpus, Meaningful interactional sounds | |
Evgrafova et al. | A new technique to record a voice source signal | |
Oleskowicz-Popiel et al. | Manipulations of F0 contours in affective speech analysis | |
Nagy et al. | Synthesis of speaking styles with corpus-and HMM-based approaches |