SE516521C2 - Anordning och förfarande vid talsyntes - Google Patents

Anordning och förfarande vid talsyntes

Info

Publication number
SE516521C2
SE516521C2 SE9303902A SE9303902A SE516521C2 SE 516521 C2 SE516521 C2 SE 516521C2 SE 9303902 A SE9303902 A SE 9303902A SE 9303902 A SE9303902 A SE 9303902A SE 516521 C2 SE516521 C2 SE 516521C2
Authority
SE
Sweden
Prior art keywords
phoneme
points
time scale
time
information
Prior art date
Application number
SE9303902A
Other languages
English (en)
Other versions
SE9303902D0 (sv
SE9303902L (sv
Inventor
Tomas Svensson
Original Assignee
Telia Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Publication of SE9303902D0 publication Critical patent/SE9303902D0/sv
Priority to SE9303902A priority Critical patent/SE516521C2/sv
Application filed by Telia Ab filed Critical Telia Ab
Priority to AU78856/94A priority patent/AU676389B2/en
Priority to GB9423236A priority patent/GB2284328B/en
Priority to FR9413979A priority patent/FR2713006B1/fr
Priority to IT94RM000763A priority patent/IT1276336B1/it
Priority to CH03548/94A priority patent/CH689883A5/de
Priority to NL9401964A priority patent/NL194481C/nl
Priority to DE4441906A priority patent/DE4441906C2/de
Priority to ES09402427A priority patent/ES2106669B1/es
Publication of SE9303902L publication Critical patent/SE9303902L/sv
Priority to US08/834,391 priority patent/US5729657A/en
Publication of SE516521C2 publication Critical patent/SE516521C2/sv

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Description

516 521 j Z g l vid transformeringen. I patent EP 252544 beskrivs talskalemodefiering av en ny signalpunkt. Man utgår bl a från insikten att tidsskalekomprimering reducerar informationsinnehållet och tidsskaleexpansion ökar informa- tionsinnehållet. Härvid kan man ta bort respektive infoga pitch periods" över segment. Uppfinningen utgör en metod att förbättra SOLA-metoden genom överlagring av delvis överlappande block.
Patent US 4435832 visar talsyntes med förlängning och kompression av tidsskalan utan ändring av tonhöjden hos det syntetiska talet. LPC- parametrar samplas från segmenterade vågformer uttagna från naturligt tal vid ett givet tidsintervall, från information om tonande/tonlöst fonem, tonhöjds- och volyminformation. Interpolation av LPC sker och förbättring av tidsskale-intervallet för interpolation görs.
I patentskrift US 4864620 beskrivs en metod för tidsskalemodefiering av talinformation eller talsignaler för återgivning av inspelat tal vid en annan hastighet utan tonhöjdsförändringar. Tidsdomänsamplingar tas i ramar där antalet samplingar/ram är en funktion av önskad talförändringsfaktor.
Block bildas av ramarna. Relativt mjuka övergångar åstadkommes genom graderad viktning.
Vidare anges i patent US 5216744 tidsskalemodefiering av talsignaler. Man bestämmer antalet samplingar som konstituerar en "pitch period". Vidare bildar man en kombinerad sample group bildad av en första sample group och en andra sample group. Antalet "samples" i varje group är lika med antalet "samples" som konstituerar en "pitch period".
REDoGöRELsE FÖR UPPFINNINGEN TEKNisKT PROBLEM Vid talsyntes är det väsentligt att ord och meningar som skapas artificiellt återskapas naturligt. Vidare är det väsentligt att tal skapat av människan identifieras på ett riktigt sätt. För olika språk kan härvid ett antal karakteristiska ljud, fonem, identifieras. Dessa fonem anordnas i olika former av bibliotek. Nämnda fonem utgör en grundstomme. Fonemen kan i beroende av i vilket sammanhang och i vilka ord de ingår utsträcka sig över längre eller kortare tid än de tidsintervall som grundfonemet representerar. Detta innebär att de fonem som finns representerade i 000100 II III I II OIOO 516 521 - 3 'tunnt 000000 I i I I I 0000050 biblioteket skall transformeras till längre eller kortare tidsperioder. Vid dyliga transformeringar är det härvid väsentligt att fonemets karakteristik inte förändras. Detta innebär att fonemets informationsbärande delar inte bör förändras. Det är således önskvärt att tidsförändringar sker i fonemets mindre informationsbärande delar. Vid sammansättning av ett antal fonem till ord och meningar är det vidare väsentligt att Övergångarna mellan fonemen sker på ett sådant sätt att respektive fonems informationsbärande delar inte förändras.
I naturligt tal ändras grundtonen inom ett och samma fonem under talets gång. De lösningar som hittills presenterats har inte tagit hänsyn till detta fenomen. Det är således önskvärt att hänsyn till grundtonens förändring, högre- eller längre frekvens, iaktas vid transformering av fonem.
Rubricerade uppfinning avser att ange en lösning på rubricerade problem.
LÖSNINGEN Föreliggande uppfinning avser en metod vid talsyntes. Ett fonem identifieras i ett antal punkter i motsvarande stämbansexitationen hos en talare. Fonemet skall transformeras till en annan tid än den som det ursprungliga fonemet representerar. Efter det att punkterna valts identifieras Med informationsbärande menas i detta sammanhang de delar i fonemet som vilka punkter i fonemet som är informationsbärande. erfordras för att fonemet skall uppfattas riktigt. Vidare identifieras fonemets mindre informations-bärande delar. Mindre informationsbärande delar kan förändras utan att fonemets karakteristik i sin väsentligaste del förändras.
Vid utnyttjande av fonem, exempelvis vid alstrande av ett artificiellt tal, är det önskvärt att man kan utnyttja ett antal grundfonem som transformeras till önskade värden vid olika tillfällen. Uppfinningen tar fasta på detta förhållande och förlägger övergångar mellan olika fonem till de mindre informationsbärande delarna. Vid transformering till en ny tidsskala sker komprimering respektive töjning i allt väsentligt i de mindre informationsbärande delarna i fonemet. På detta sätt bibehålls fonemets infomationsbärande delar väsentligen intakt.
Anordningen innefattar ett organ vilket ur en talad sekvens eller ur ett lagringsorgan väljer ett fonem. Organet identifierar ett antal punkter i fonemet. Varefter fonemets informationsbärande respektive mindre OO IDIO C IC III' O O 5 1.6 521 - f/ g _ . informationsbärande delar identifieras. Organet ombesörjer därefter att transformering av fonemet över en längre/ kortare tid sker genom komprimering respektive töjning i fonemets mindre informationsbärande delar. På detta sätt bibehålls fonemets karaktär i allt väsentligt. Vidare ges en möjlighet att erhålla övergångar mellan olika fonem som ger ett naturligt 000000 010000 I 0 I 0 OIO0I00 intryck.
FÖRDELAR Uppfinningen medger att en uppsättning bibioteksfonem, representerande ett antal standardljud som finns i språket, lagras. Dessa biblioteksfonem kan därefter utnyttjas för transformering över längre eller kortare tid än biblioteksfonemet representerar. Med den angivna lösningen förvanskas det transformerade fonemet minimalt i förhållande till biblioteksfonemet.
Detta till följd av att de delar av fonemet som är väsentliga för tolkningen av fonemet är oförändrade eller förändrade i en mindre grad. Vidare medger uppfinningen att hänsyn kan tas till grundtonsförändringar i fonemet. Sålunda medges att grundtonsvariationer kan införas i det transformerade fonemet i förhållande till biblioteksfonemet. Innebörden av detta är att skapade talsekvenser kan ges en med naturligt tal överens- stämmande karaktär. Detta är väsentligt dels för förståelsen av talet dels för att en naturlig intonation i det skapade ljudet erhålls.
FIGURBESKRIVNING Figur 1 visar exempel på linjär tidsskalemappning.
Figur 2 visar tidsskalning enligt uppfinningen.
Figur 3 visar uppfinningen i blockschemaforrn.
Figur 4 visar ett fonem vari ett fönster, A, skär ut en puls osymmetriskt.
FÖREDRAGEN UTFömNGsroRM I det följande beskrivs uppfinningen utifrån figurerna. Vid skapandet av ett artificiellt tal inkommer en text till 1 i figur 3. Texten analyseras av 1 och bryts ner i sina grundläggande beståndsdelar. Därefter uttags fonemen ur biblioteket. Fonemet i biblioteket representerar ett standardvärde. Detta 000000 000000 I I O. , n n 516 521 - s IIOOOO OIOUOI I I I innebär att fonemet beträffande duration, tonhöjd etc givits ett standard- värde. När fonemet nu skall insättas i den text som inkommit erfordras i regel någon form av modifiering av fonemet. Detta innebär att fonemets utsträckning i tiden skall förändras. Detta representeras exempelvis av långa, korta eller medellånga tider varunder exempelvis en vokal skall representeras. För att transformera biblioteksfonemet identifieras detta i ett antal punkter. Fonemet analyseras därefter av 1. Vid analysen fastställs informationsbärande partier respektive mindre informationsbärande delar.
De mindre informationsbärande delarna väljs därefter ut för transformationen. Det har konstaterats att Övergångarna mellan olika fonem är av större beydelse än de mer stabila delarna i det inre av fonemen.
Av särskild betydelse är härvid insvängningsförloppet som innehåller avgörande information beträffande fonemets tolkning. De mindre informationsbärande punkterna kopieras därefter till ett antal likvärdiga punkter i den nya tidsskalan vid förlängning av tiden. Detta åskådliggörs i figur 2 utav att vissa punkter från den kortare tidsskalan överförs till ett antal punkter i den längre tidsskalan. På detta sätt bibehålls fonemets informationsbärande delar vid förlängning av tidsskalan utan att fonemets karakteristik förändras.
En förkortning av tidsskalan sker på ett motsvarande sätt. Härvid sammanslås två eller flera punkter i den icke informationsbärande delen av fonemet till en punkt. På detta sätt erhålls även vid en förkortning av tidsskalan i fonemet att de informationsbärande delarna i huvudsak bibehålls intakta.
För att minska inverkan av föregående stämbandsexitation har ett osynunetriskt utskuret fönster valts. Detta illustreras i figur 4. Sålunda skärs fönstret brant i början varvid pulsens initialskede registreras och en minimal del av föregående puls slutdel. Vidare utskärs en så stor del av pulsen att dess maximivärde samt en lämplig del av den dämpade pulsen erhålls. Med denna lösning erhålls möjlighet att förlägga Övergångarna mellan stämbandsexitationspulsema till områdema där pulsen är dämpad och ej innehåller information av betydelse. En fönsterutskärning av detta slag medför vidare att de individuella pulsernas betydelse för förståelse av fonemen kan identifieras.
Uppfinningen medger vidare att olika punkter i biblioteksfonemet viktas i förhållande till det informationsbärande elementen. Viktningen utnyttjas I Q IOCCIIO QO IOUI OQOQOI 000000 IOUI vid transformeringen av fonemet på så vis att de punkter som givits en läg- re viktning transformeras över en längre tidsperiod än de delar som erhållit högre viktning. Således fördelas punkter med låg viktning till exempelvis tre punkter i en längre tidsskala medan punkter som representerar en me- delviktning exempelvis transformeras till två punkter i den nya tidsskalan och att punkter med högsta viktning överförs oförändrade i den nya skalan.
Vid transformering till en kortare tidsskala än den som representeras i grundfonemet sammanslås på liknande sätt exempelvis tre punkter som re- presenterar lägsta viktningen till en punkt och punkter som representerar medelviktningen sammanslås två och två till en punkt i det tidsförkortade fonemet. Punkter med högsta viktning överförs oförändrade i den nya tids- skalan.
Uppfinningen medger på detta sätt att tidsskalning av fonem är genomför- bar utan fonemets informationsbärande delar i allt väsentligt förändras. Me- toden medger vidare att olika fonem sammanlänkas på ett sådant sätt att viktig information i fonemen ej förstörs vid fonemövergångarna. Detta åstadkommes genom att övergång mellan fonemen sker i icke informa- tionsbärande delar. På detta sätt medger uppfinningen att ord och uttryck som skapas via talsyntesen blir nära nog naturligt.
Genom att de i fonemet utvalda punkterna representerar stämbands- exitationer i talet är det möjligt att förändra grundtonen. Detta är exempelvis nödvändigt för att ge rätt karaktär åt fonemet som skapas.
Förändringen av grundtonen erhålls genom att stämbandsexitationerna i det skapade fonemet återbildas i punkter som är förändrade i förhållande till ursprungsfonemet. Antag exempelvis att grundfonemet representerar ett ljud med oförändrad grundton. Detta innebär att stämbandsexitationerna uppträder med sinsemellan samma avstånd. I ett transformerat fonem förändras emellertid grundtonen under fonemets varaktighet. Med vetskap om ändringen i grundtonskaraktäristik skall hänsyn tas härtill tas vid transformeringen. I det nya fonemet, det kan i detta fall avse fonem som är oförändrat i tiden eller transformeras till längre eller kortare tid, fastställs tidsavstånden mellan varje stämbandsexitation som skall uppträda i fonemet. Således är exempelvis tidsavståndet mellan den första och den andra stämbandsexitationen T1 och avståndet mellan den sista och näst sista stämbandsexitationen T2. Om det i detta fall föreligger att förändringen CO III OI OIIO O I 516 521 . _7- I III III IIIIOII , Q ¿ g oo uu i grundtonen förändras likformigt över tiden skall mellanliggande stäm- bandsexitationer fördelas med hänsyn härtill. Nämnda fördelning sker lämpligen med kända matematiska modeller. Respektive stämbands- exitationer i grundfonemet öveförs därefter till respektive punkter i det transformerade fonemet. På detta sätt erhålls en variation i grundtonen som motsvarar det naturliga talet.
Uppfinningen är inte begränsad till den i ovan visade utföringsformen utan kan underkasta sig modifikationer inom ramen för efterföljande patentkrav och uppfinningstanke. ounøIn-

Claims (9)

516 521 .. .. g- PATENTKRAV
1. Metod vid talsyntes för transformering av ett givet fonem från en första tidsskala till en andra tidsskala, punkter med ett omkringliggande tidsintervall, representerande en del av fonemkurvan, fastställs, k ä n n e t e c k n a d därav, att fonemets mer respektive mindre informationsbärande delar identifieras, att ett antal av punkterna, med de omkringliggande tidsintervallen, i fonemkurvans mindre informationsbärande del utväljs, att vid förkortning av tidsskalan, de utvalda punkterna sammanslås åtminstone parvis i den andra tidsskalan, respektive vid förlängning av tidsskalan, att de utvalda punkterna dupliceras i den andra tidsskalan, och att fonemets mindre informationsbärande delar transformeras till den andra tidsskalan över en längre/ kortare tidsrymd pâ den andra tidsskalan, samt att fonemets mer informationsbärande delar transformeras till den andra tidsskalan utan att väsentligen förändras i tiden, varvid fonemets ursprungliga karaktär väsentligen bibehålls.
2. Metod enligt patentkrav 1, k ä n n e t e c k n a d därav, att de olika punkterna i fonemet identifieras och ges olika viktning med hänsyn till graden av information de representerar.
3. Metod enligt patentkrav 1 eller 2, k ä n n e t e c k n a d därav, att punkterna med en lägre viktning transformeras över en längre/ kortare tidsrymd än punkterna med högre viktning, och att transformeringen sker genom duplicering eller borttagning av punkter med den lägre viktningen.
4. Metod enligt patentkrav 1, k ä n n e t e c k n a d därav, att fonemövergångarna sker i de icke informationsbärande delarna av fonemet.
5. Metod enligt patentkrav 1, k ä n n e te c k n a d därav, att de valda punkterna i den andra tidsskalan utväljs med samma eller annat 516 521 -- . f: ss tidsavstånd än den första tidsskalan varvid grundtonen bibehålls eller förändras i förhållande till det givna fonemet vid transformeringen av fonemet.
6. Anordning vid talsyntes, innefattande ett urvalsorgan vilket ur en talad sekvens eller ur ett lagringsorgan utväljer ett fonem, för överföring av fonemet från en första tidsskala till en andra tidsskala, ett antal punkter med ett omkringliggande tidsintervall representerande en del av fonemkurvan hos fonemet, varvid fonemets informationsbärande delar respektive mindre informationsbärande delar identifieras, k ä n n e t e c k n a d därav, att urvalsorganet är anordnat att sammanslå ett antal av punkterna till en punkt, tidsintervall, i den andra tidsskalan, respektive att urvalsorganet är anordnat att duplicera punkterna, tidsintervallen, i den första tidsskalan till den andra tidsskalan, vid förlängning av den andra tidsskalan, och att organet transformerar fonemets mindre informationsbärande delar över en längre/ kortare tid och urvalsorganet identifierar vid transformering av fonemet till den andra tidsskalan än den ursprungliga tidsskalan fonemet representerar, och att fonemets ursprungliga karaktär väsentligen bibehålls.
7. Anordning enligt patentkrav 6, k ä n n e t e c k n a d därav, att urvalsorganet identifierar och viktar olika punkter i beroende av nämnda punkters informatoriska innehåll i förhållande till fonemets identifierbarhet.
8. Anordning enligt patentkrav 6 eller 7, k ä n n e t e c k n a d därav, att urvalsorganet transformerar punkter med lägre viktning över en längre tidsskala än de punkter som representerar en medelviktning och att punkter som erhållit en hög viktning transformeras oförändrade.
9. Anordning enligt patentkrav 6 eller 7, k ä n n e t e c k n a d därav, att tre eller flera punkter med låg viktning sammanslås och att punkter med medelviktning sammanslås i ett lägre antal punkter än punkter med låg viktning samt att punkter med hög viktning transformeras oförändrade.
SE9303902A 1993-11-25 1993-11-25 Anordning och förfarande vid talsyntes SE516521C2 (sv)

Priority Applications (10)

Application Number Priority Date Filing Date Title
SE9303902A SE516521C2 (sv) 1993-11-25 1993-11-25 Anordning och förfarande vid talsyntes
AU78856/94A AU676389B2 (en) 1993-11-25 1994-11-15 Speech synthesis arrangement and method
GB9423236A GB2284328B (en) 1993-11-25 1994-11-17 Method and arrangement for speech synthesis
FR9413979A FR2713006B1 (fr) 1993-11-25 1994-11-22 Appareil et procédé de synthèse de la parole.
IT94RM000763A IT1276336B1 (it) 1993-11-25 1994-11-23 Disposizione e metodo di sintesi vocale
CH03548/94A CH689883A5 (de) 1993-11-25 1994-11-24 Anordnung und Verfahren zur Sprachsynthese.
DE4441906A DE4441906C2 (de) 1993-11-25 1994-11-24 Anordnung und Verfahren für Sprachsynthese
NL9401964A NL194481C (nl) 1993-11-25 1994-11-24 Spraaksynthese-inrichting.
ES09402427A ES2106669B1 (es) 1993-11-25 1994-11-25 Metodo relativo a la sintesis del habla y disposicion correspondiente.
US08/834,391 US5729657A (en) 1993-11-25 1997-04-16 Time compression/expansion of phonemes based on the information carrying elements of the phonemes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
SE9303902A SE516521C2 (sv) 1993-11-25 1993-11-25 Anordning och förfarande vid talsyntes

Publications (3)

Publication Number Publication Date
SE9303902D0 SE9303902D0 (sv) 1993-11-25
SE9303902L SE9303902L (sv) 1995-05-26
SE516521C2 true SE516521C2 (sv) 2002-01-22

Family

ID=20391875

Family Applications (1)

Application Number Title Priority Date Filing Date
SE9303902A SE516521C2 (sv) 1993-11-25 1993-11-25 Anordning och förfarande vid talsyntes

Country Status (10)

Country Link
US (1) US5729657A (sv)
AU (1) AU676389B2 (sv)
CH (1) CH689883A5 (sv)
DE (1) DE4441906C2 (sv)
ES (1) ES2106669B1 (sv)
FR (1) FR2713006B1 (sv)
GB (1) GB2284328B (sv)
IT (1) IT1276336B1 (sv)
NL (1) NL194481C (sv)
SE (1) SE516521C2 (sv)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2118424T3 (es) * 1993-08-04 1998-09-16 British Telecomm Sintesis de voz mediante la conversion de fonemas en formas de onda digitales.
US7089184B2 (en) * 2001-03-22 2006-08-08 Nurv Center Technologies, Inc. Speech recognition for recognizing speaker-independent, continuous speech
CN1682281B (zh) * 2002-09-17 2010-05-26 皇家飞利浦电子股份有限公司 在语音合成中用于控制持续时间的方法
JP4455633B2 (ja) * 2007-09-10 2010-04-21 株式会社東芝 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
JP6047922B2 (ja) 2011-06-01 2016-12-21 ヤマハ株式会社 音声合成装置および音声合成方法
JP6992612B2 (ja) * 2018-03-09 2022-01-13 ヤマハ株式会社 音声処理方法および音声処理装置

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3158685A (en) * 1961-05-04 1964-11-24 Bell Telephone Labor Inc Synthesis of speech from code signals
FR1602936A (sv) * 1968-12-31 1971-02-22
US3704345A (en) * 1971-03-19 1972-11-28 Bell Telephone Labor Inc Conversion of printed text into synthetic speech
US4214125A (en) * 1977-01-21 1980-07-22 Forrest S. Mozer Method and apparatus for speech synthesizing
JPS55147697A (en) * 1979-05-07 1980-11-17 Sharp Kk Sound synthesizer
JPS5650398A (en) * 1979-10-01 1981-05-07 Hitachi Ltd Sound synthesizer
US4406001A (en) * 1980-08-18 1983-09-20 The Variable Speech Control Company ("Vsc") Time compression/expansion with synchronized individual pitch correction of separate components
US4435831A (en) * 1981-12-28 1984-03-06 Mozer Forrest Shrago Method and apparatus for time domain compression and synthesis of unvoiced audible signals
US4700301A (en) * 1983-11-02 1987-10-13 Dyke Howard L Method of automatically steering agricultural type vehicles
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
US4701937A (en) * 1985-05-13 1987-10-20 Industrial Technology Research Institute Republic Of China Signal storage and replay system
JPH0632020B2 (ja) * 1986-03-25 1994-04-27 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声合成方法および装置
US4802221A (en) * 1986-07-21 1989-01-31 Ncr Corporation Digital system and method for compressing speech signals for storage and transmission
US4833718A (en) * 1986-11-18 1989-05-23 First Byte Compression of stored waveforms for artificial speech
US5189702A (en) * 1987-02-16 1993-02-23 Canon Kabushiki Kaisha Voice processing apparatus for varying the speed with which a voice signal is reproduced
JPS63285598A (ja) * 1987-05-18 1988-11-22 ケイディディ株式会社 音素接続形パラメ−タ規則合成方式
IL84902A (en) * 1987-12-21 1991-12-15 D S P Group Israel Ltd Digital autocorrelation system for detecting speech in noisy audio signal
FR2636163B1 (fr) * 1988-09-02 1991-07-05 Hamon Christian Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
EP0392049B1 (de) * 1989-04-12 1994-01-12 Siemens Aktiengesellschaft Verfahren zur Dehnung oder Raffung eines Zeitsignals
US5216744A (en) * 1991-03-21 1993-06-01 Dictaphone Corporation Time scale modification of speech signals
JP3278863B2 (ja) * 1991-06-05 2002-04-30 株式会社日立製作所 音声合成装置
US5175769A (en) * 1991-07-23 1992-12-29 Rolm Systems Method for time-scale modification of signals
EP0527527B1 (en) * 1991-08-09 1999-01-20 Koninklijke Philips Electronics N.V. Method and apparatus for manipulating pitch and duration of a physical audio signal

Also Published As

Publication number Publication date
ITRM940763A1 (it) 1996-05-23
GB2284328B (en) 1998-01-28
SE9303902D0 (sv) 1993-11-25
ES2106669B1 (es) 1998-06-01
CH689883A5 (de) 1999-12-31
AU676389B2 (en) 1997-03-06
US5729657A (en) 1998-03-17
AU7885694A (en) 1995-06-01
DE4441906A1 (de) 1995-06-01
NL194481C (nl) 2002-05-03
NL194481B (nl) 2002-01-02
GB2284328A (en) 1995-05-31
SE9303902L (sv) 1995-05-26
ES2106669A1 (es) 1997-11-01
NL9401964A (nl) 1995-06-16
FR2713006A1 (fr) 1995-06-02
ITRM940763A0 (it) 1994-11-23
GB9423236D0 (en) 1995-01-04
FR2713006B1 (fr) 1998-03-20
DE4441906C2 (de) 2003-02-13
IT1276336B1 (it) 1997-10-28

Similar Documents

Publication Publication Date Title
US10347238B2 (en) Text-based insertion and replacement in audio narration
US6308156B1 (en) Microsegment-based speech-synthesis process
US5400434A (en) Voice source for synthetic speech system
EP0831460B1 (en) Speech synthesis method utilizing auxiliary information
US5740320A (en) Text-to-speech synthesis by concatenation using or modifying clustered phoneme waveforms on basis of cluster parameter centroids
Donovan et al. A hidden Markov-model-based trainable speech synthesizer
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP2000172285A (ja) フィルタパラメ―タとソ―ス領域において独立にクロスフェ―ドを行う半音節結合型のフォルマントベ―スのスピ―チシンセサイザ
US5978764A (en) Speech synthesis
US5463715A (en) Method and apparatus for speech generation from phonetic codes
US5659664A (en) Speech synthesis with weighted parameters at phoneme boundaries
SE516521C2 (sv) Anordning och förfarande vid talsyntes
Matoušek et al. ARTIC: a new czech text-to-speech system using statistical approach to speech segment database construciton
JP5175422B2 (ja) 音声合成における時間幅を制御する方法
JP3081300B2 (ja) 残差駆動型音声合成装置
US6112178A (en) Method for synthesizing voiceless consonants
JPH11161297A (ja) 音声合成方法及び装置
JP3133347B2 (ja) 韻律制御装置
Klatt Synthesis of stop consonants in initial position
Olaszy et al. Interactive, TTS supported speech message composer for large, limited vocabulary, but open information systems.
Nooteboom et al. Speech synthesis by rule; Why, what and how?
Campbell Mapping from read speech to real speech
Jilka Identifying Intonational Foreign Accent with the help of different methods of F0 Generation
KADIAN MULTILINGUAL TEXT TO SPEECH ANALYSIS & SYNTHESIS
JPH0447840B2 (sv)

Legal Events

Date Code Title Description
NUG Patent has lapsed