SE516521C2

SE516521C2 - Anordning och förfarande vid talsyntes

Info

Publication number: SE516521C2
Application number: SE9303902A
Authority: SE
Inventors: Tomas Svensson
Original assignee: Telia Ab
Priority date: 1993-11-25
Filing date: 1993-11-25
Publication date: 2002-01-22
Also published as: ITRM940763A1; GB2284328B; SE9303902D0; ES2106669B1; CH689883A5; AU676389B2; US5729657A; AU7885694A; DE4441906A1; NL194481C; NL194481B; GB2284328A; SE9303902L; ES2106669A1; NL9401964A; FR2713006A1; ITRM940763A0; GB9423236D0; FR2713006B1; DE4441906C2

Description

516 521 j Z g l vid transformeringen. I patent EP 252544 beskrivs talskalemodefiering av en ny signalpunkt. Man utgår bl a från insikten att tidsskalekomprimering reducerar informationsinnehållet och tidsskaleexpansion ökar informa- tionsinnehållet. Härvid kan man ta bort respektive infoga pitch periods" över segment. Uppfinningen utgör en metod att förbättra SOLA-metoden genom överlagring av delvis överlappande block.

Patent US 4435832 visar talsyntes med förlängning och kompression av tidsskalan utan ändring av tonhöjden hos det syntetiska talet. LPC- parametrar samplas från segmenterade vågformer uttagna från naturligt tal vid ett givet tidsintervall, från information om tonande/tonlöst fonem, tonhöjds- och volyminformation. Interpolation av LPC sker och förbättring av tidsskale-intervallet för interpolation görs.

I patentskrift US 4864620 beskrivs en metod för tidsskalemodefiering av talinformation eller talsignaler för återgivning av inspelat tal vid en annan hastighet utan tonhöjdsförändringar. Tidsdomänsamplingar tas i ramar där antalet samplingar/ram är en funktion av önskad talförändringsfaktor.

Block bildas av ramarna. Relativt mjuka övergångar åstadkommes genom graderad viktning.

Vidare anges i patent US 5216744 tidsskalemodefiering av talsignaler. Man bestämmer antalet samplingar som konstituerar en "pitch period". Vidare bildar man en kombinerad sample group bildad av en första sample group och en andra sample group. Antalet "samples" i varje group är lika med antalet "samples" som konstituerar en "pitch period".

REDoGöRELsE FÖR UPPFINNINGEN TEKNisKT PROBLEM Vid talsyntes är det väsentligt att ord och meningar som skapas artificiellt återskapas naturligt. Vidare är det väsentligt att tal skapat av människan identifieras på ett riktigt sätt. För olika språk kan härvid ett antal karakteristiska ljud, fonem, identifieras. Dessa fonem anordnas i olika former av bibliotek. Nämnda fonem utgör en grundstomme. Fonemen kan i beroende av i vilket sammanhang och i vilka ord de ingår utsträcka sig över längre eller kortare tid än de tidsintervall som grundfonemet representerar. Detta innebär att de fonem som finns representerade i 000100 II III I II OIOO 516 521 - 3 'tunnt 000000 I i I I I 0000050 biblioteket skall transformeras till längre eller kortare tidsperioder. Vid dyliga transformeringar är det härvid väsentligt att fonemets karakteristik inte förändras. Detta innebär att fonemets informationsbärande delar inte bör förändras. Det är således önskvärt att tidsförändringar sker i fonemets mindre informationsbärande delar. Vid sammansättning av ett antal fonem till ord och meningar är det vidare väsentligt att Övergångarna mellan fonemen sker på ett sådant sätt att respektive fonems informationsbärande delar inte förändras.

I naturligt tal ändras grundtonen inom ett och samma fonem under talets gång. De lösningar som hittills presenterats har inte tagit hänsyn till detta fenomen. Det är således önskvärt att hänsyn till grundtonens förändring, högre- eller längre frekvens, iaktas vid transformering av fonem.

Rubricerade uppfinning avser att ange en lösning på rubricerade problem.

LÖSNINGEN Föreliggande uppfinning avser en metod vid talsyntes. Ett fonem identifieras i ett antal punkter i motsvarande stämbansexitationen hos en talare. Fonemet skall transformeras till en annan tid än den som det ursprungliga fonemet representerar. Efter det att punkterna valts identifieras Med informationsbärande menas i detta sammanhang de delar i fonemet som vilka punkter i fonemet som är informationsbärande. erfordras för att fonemet skall uppfattas riktigt. Vidare identifieras fonemets mindre informations-bärande delar. Mindre informationsbärande delar kan förändras utan att fonemets karakteristik i sin väsentligaste del förändras.

Vid utnyttjande av fonem, exempelvis vid alstrande av ett artificiellt tal, är det önskvärt att man kan utnyttja ett antal grundfonem som transformeras till önskade värden vid olika tillfällen. Uppfinningen tar fasta på detta förhållande och förlägger övergångar mellan olika fonem till de mindre informationsbärande delarna. Vid transformering till en ny tidsskala sker komprimering respektive töjning i allt väsentligt i de mindre informationsbärande delarna i fonemet. På detta sätt bibehålls fonemets infomationsbärande delar väsentligen intakt.

Anordningen innefattar ett organ vilket ur en talad sekvens eller ur ett lagringsorgan väljer ett fonem. Organet identifierar ett antal punkter i fonemet. Varefter fonemets informationsbärande respektive mindre OO IDIO C IC III' O O 5 1.6 521 - f/ g _ . informationsbärande delar identifieras. Organet ombesörjer därefter att transformering av fonemet över en längre/ kortare tid sker genom komprimering respektive töjning i fonemets mindre informationsbärande delar. På detta sätt bibehålls fonemets karaktär i allt väsentligt. Vidare ges en möjlighet att erhålla övergångar mellan olika fonem som ger ett naturligt 000000 010000 I 0 I 0 OIO0I00 intryck.

FÖRDELAR Uppfinningen medger att en uppsättning bibioteksfonem, representerande ett antal standardljud som finns i språket, lagras. Dessa biblioteksfonem kan därefter utnyttjas för transformering över längre eller kortare tid än biblioteksfonemet representerar. Med den angivna lösningen förvanskas det transformerade fonemet minimalt i förhållande till biblioteksfonemet.

Detta till följd av att de delar av fonemet som är väsentliga för tolkningen av fonemet är oförändrade eller förändrade i en mindre grad. Vidare medger uppfinningen att hänsyn kan tas till grundtonsförändringar i fonemet. Sålunda medges att grundtonsvariationer kan införas i det transformerade fonemet i förhållande till biblioteksfonemet. Innebörden av detta är att skapade talsekvenser kan ges en med naturligt tal överens- stämmande karaktär. Detta är väsentligt dels för förståelsen av talet dels för att en naturlig intonation i det skapade ljudet erhålls.

FIGURBESKRIVNING Figur 1 visar exempel på linjär tidsskalemappning.

Figur 2 visar tidsskalning enligt uppfinningen.

Figur 3 visar uppfinningen i blockschemaforrn.

Figur 4 visar ett fonem vari ett fönster, A, skär ut en puls osymmetriskt.

FÖREDRAGEN UTFömNGsroRM I det följande beskrivs uppfinningen utifrån figurerna. Vid skapandet av ett artificiellt tal inkommer en text till 1 i figur 3. Texten analyseras av 1 och bryts ner i sina grundläggande beståndsdelar. Därefter uttags fonemen ur biblioteket. Fonemet i biblioteket representerar ett standardvärde. Detta 000000 000000 I I O. , n n 516 521 - s IIOOOO OIOUOI I I I innebär att fonemet beträffande duration, tonhöjd etc givits ett standard- värde. När fonemet nu skall insättas i den text som inkommit erfordras i regel någon form av modifiering av fonemet. Detta innebär att fonemets utsträckning i tiden skall förändras. Detta representeras exempelvis av långa, korta eller medellånga tider varunder exempelvis en vokal skall representeras. För att transformera biblioteksfonemet identifieras detta i ett antal punkter. Fonemet analyseras därefter av 1. Vid analysen fastställs informationsbärande partier respektive mindre informationsbärande delar.

De mindre informationsbärande delarna väljs därefter ut för transformationen. Det har konstaterats att Övergångarna mellan olika fonem är av större beydelse än de mer stabila delarna i det inre av fonemen.

Av särskild betydelse är härvid insvängningsförloppet som innehåller avgörande information beträffande fonemets tolkning. De mindre informationsbärande punkterna kopieras därefter till ett antal likvärdiga punkter i den nya tidsskalan vid förlängning av tiden. Detta åskådliggörs i figur 2 utav att vissa punkter från den kortare tidsskalan överförs till ett antal punkter i den längre tidsskalan. På detta sätt bibehålls fonemets informationsbärande delar vid förlängning av tidsskalan utan att fonemets karakteristik förändras.

En förkortning av tidsskalan sker på ett motsvarande sätt. Härvid sammanslås två eller ﬂera punkter i den icke informationsbärande delen av fonemet till en punkt. På detta sätt erhålls även vid en förkortning av tidsskalan i fonemet att de informationsbärande delarna i huvudsak bibehålls intakta.

För att minska inverkan av föregående stämbandsexitation har ett osynunetriskt utskuret fönster valts. Detta illustreras i figur 4. Sålunda skärs fönstret brant i början varvid pulsens initialskede registreras och en minimal del av föregående puls slutdel. Vidare utskärs en så stor del av pulsen att dess maximivärde samt en lämplig del av den dämpade pulsen erhålls. Med denna lösning erhålls möjlighet att förlägga Övergångarna mellan stämbandsexitationspulsema till områdema där pulsen är dämpad och ej innehåller information av betydelse. En fönsterutskärning av detta slag medför vidare att de individuella pulsernas betydelse för förståelse av fonemen kan identifieras.

Uppfinningen medger vidare att olika punkter i biblioteksfonemet viktas i förhållande till det informationsbärande elementen. Viktningen utnyttjas I Q IOCCIIO QO IOUI OQOQOI 000000 IOUI vid transformeringen av fonemet på så vis att de punkter som givits en läg- re viktning transformeras över en längre tidsperiod än de delar som erhållit högre viktning. Således fördelas punkter med låg viktning till exempelvis tre punkter i en längre tidsskala medan punkter som representerar en me- delviktning exempelvis transformeras till två punkter i den nya tidsskalan och att punkter med högsta viktning överförs oförändrade i den nya skalan.

Vid transformering till en kortare tidsskala än den som representeras i grundfonemet sammanslås på liknande sätt exempelvis tre punkter som re- presenterar lägsta viktningen till en punkt och punkter som representerar medelviktningen sammanslås två och två till en punkt i det tidsförkortade fonemet. Punkter med högsta viktning överförs oförändrade i den nya tids- skalan.

Uppfinningen medger på detta sätt att tidsskalning av fonem är genomför- bar utan fonemets informationsbärande delar i allt väsentligt förändras. Me- toden medger vidare att olika fonem sammanlänkas på ett sådant sätt att viktig information i fonemen ej förstörs vid fonemövergångarna. Detta åstadkommes genom att övergång mellan fonemen sker i icke informa- tionsbärande delar. På detta sätt medger uppfinningen att ord och uttryck som skapas via talsyntesen blir nära nog naturligt.

Genom att de i fonemet utvalda punkterna representerar stämbands- exitationer i talet är det möjligt att förändra grundtonen. Detta är exempelvis nödvändigt för att ge rätt karaktär åt fonemet som skapas.

Förändringen av grundtonen erhålls genom att stämbandsexitationerna i det skapade fonemet återbildas i punkter som är förändrade i förhållande till ursprungsfonemet. Antag exempelvis att grundfonemet representerar ett ljud med oförändrad grundton. Detta innebär att stämbandsexitationerna uppträder med sinsemellan samma avstånd. I ett transformerat fonem förändras emellertid grundtonen under fonemets varaktighet. Med vetskap om ändringen i grundtonskaraktäristik skall hänsyn tas härtill tas vid transformeringen. I det nya fonemet, det kan i detta fall avse fonem som är oförändrat i tiden eller transformeras till längre eller kortare tid, fastställs tidsavstånden mellan varje stämbandsexitation som skall uppträda i fonemet. Således är exempelvis tidsavståndet mellan den första och den andra stämbandsexitationen T1 och avståndet mellan den sista och näst sista stämbandsexitationen T2. Om det i detta fall föreligger att förändringen CO III OI OIIO O I 516 521 . _7- I III III IIIIOII , Q ¿ g oo uu i grundtonen förändras likformigt över tiden skall mellanliggande stäm- bandsexitationer fördelas med hänsyn härtill. Nämnda fördelning sker lämpligen med kända matematiska modeller. Respektive stämbands- exitationer i grundfonemet öveförs därefter till respektive punkter i det transformerade fonemet. På detta sätt erhålls en variation i grundtonen som motsvarar det naturliga talet.

Uppfinningen är inte begränsad till den i ovan visade utföringsformen utan kan underkasta sig modifikationer inom ramen för efterföljande patentkrav och uppfinningstanke. ounøIn-

Claims

516 521 .. .. g- PATENTKRAV

1. Metod vid talsyntes för transformering av ett givet fonem från en första tidsskala till en andra tidsskala, punkter med ett omkringliggande tidsintervall, representerande en del av fonemkurvan, fastställs, k ä n n e t e c k n a d därav, att fonemets mer respektive mindre informationsbärande delar identifieras, att ett antal av punkterna, med de omkringliggande tidsintervallen, i fonemkurvans mindre informationsbärande del utväljs, att vid förkortning av tidsskalan, de utvalda punkterna sammanslås åtminstone parvis i den andra tidsskalan, respektive vid förlängning av tidsskalan, att de utvalda punkterna dupliceras i den andra tidsskalan, och att fonemets mindre informationsbärande delar transformeras till den andra tidsskalan över en längre/ kortare tidsrymd pâ den andra tidsskalan, samt att fonemets mer informationsbärande delar transformeras till den andra tidsskalan utan att väsentligen förändras i tiden, varvid fonemets ursprungliga karaktär väsentligen bibehålls.

2. Metod enligt patentkrav 1, k ä n n e t e c k n a d därav, att de olika punkterna i fonemet identifieras och ges olika viktning med hänsyn till graden av information de representerar.

3. Metod enligt patentkrav 1 eller 2, k ä n n e t e c k n a d därav, att punkterna med en lägre viktning transformeras över en längre/ kortare tidsrymd än punkterna med högre viktning, och att transformeringen sker genom duplicering eller borttagning av punkter med den lägre viktningen.

4. Metod enligt patentkrav 1, k ä n n e t e c k n a d därav, att fonemövergångarna sker i de icke informationsbärande delarna av fonemet.

5. Metod enligt patentkrav 1, k ä n n e te c k n a d därav, att de valda punkterna i den andra tidsskalan utväljs med samma eller annat 516 521 -- . f: ss tidsavstånd än den första tidsskalan varvid grundtonen bibehålls eller förändras i förhållande till det givna fonemet vid transformeringen av fonemet.

6. Anordning vid talsyntes, innefattande ett urvalsorgan vilket ur en talad sekvens eller ur ett lagringsorgan utväljer ett fonem, för överföring av fonemet från en första tidsskala till en andra tidsskala, ett antal punkter med ett omkringliggande tidsintervall representerande en del av fonemkurvan hos fonemet, varvid fonemets informationsbärande delar respektive mindre informationsbärande delar identifieras, k ä n n e t e c k n a d därav, att urvalsorganet är anordnat att sammanslå ett antal av punkterna till en punkt, tidsintervall, i den andra tidsskalan, respektive att urvalsorganet är anordnat att duplicera punkterna, tidsintervallen, i den första tidsskalan till den andra tidsskalan, vid förlängning av den andra tidsskalan, och att organet transformerar fonemets mindre informationsbärande delar över en längre/ kortare tid och urvalsorganet identifierar vid transformering av fonemet till den andra tidsskalan än den ursprungliga tidsskalan fonemet representerar, och att fonemets ursprungliga karaktär väsentligen bibehålls.

7. Anordning enligt patentkrav 6, k ä n n e t e c k n a d därav, att urvalsorganet identifierar och viktar olika punkter i beroende av nämnda punkters informatoriska innehåll i förhållande till fonemets identifierbarhet.

8. Anordning enligt patentkrav 6 eller 7, k ä n n e t e c k n a d därav, att urvalsorganet transformerar punkter med lägre viktning över en längre tidsskala än de punkter som representerar en medelviktning och att punkter som erhållit en hög viktning transformeras oförändrade.

9. Anordning enligt patentkrav 6 eller 7, k ä n n e t e c k n a d därav, att tre eller ﬂera punkter med låg viktning sammanslås och att punkter med medelviktning sammanslås i ett lägre antal punkter än punkter med låg viktning samt att punkter med hög viktning transformeras oförändrade.