FI119859B - Menetelmä puhesynteesin tuottamiseksi - Google Patents

Menetelmä puhesynteesin tuottamiseksi Download PDF

Info

Publication number
FI119859B
FI119859B FI20051181A FI20051181A FI119859B FI 119859 B FI119859 B FI 119859B FI 20051181 A FI20051181 A FI 20051181A FI 20051181 A FI20051181 A FI 20051181A FI 119859 B FI119859 B FI 119859B
Authority
FI
Finland
Prior art keywords
sound
burst
unit
units
database
Prior art date
Application number
FI20051181A
Other languages
English (en)
Swedish (sv)
Other versions
FI20051181A0 (fi
FI20051181A (fi
Inventor
Jarmo Vaelikangas
Martti Vainio
Markus Volk
Original Assignee
Bitlips Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bitlips Oy filed Critical Bitlips Oy
Priority to FI20051181A priority Critical patent/FI119859B/fi
Publication of FI20051181A0 publication Critical patent/FI20051181A0/fi
Publication of FI20051181A publication Critical patent/FI20051181A/fi
Application granted granted Critical
Publication of FI119859B publication Critical patent/FI119859B/fi

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

MENETELMÄ PUHESYNTEESIN TUOTTAMISEKSI KEKSINNÖN ALA
Keksintö liittyy tekstistä puheeksi-puhesynteesin (text-to-speech TTS) tuottamiseen. Kek-5 sinnön mukaisessa menetelmässä puhesynteesissä käytettävän tietokannan esimerkiksi difonitietokannan kokoa saadaan pienennettyä siten, että osa synteesissä käytettävistä äänneyksiköistä kuten difoneista korvataan foneettisesti samanlaisella, kohdekielessä yleisemmäl-10 lä äänneyksiköllä. Lisäksi kohdekielessä harvinaiset äänneyksiköt korvataan pienemmillä äänneyksiköillä kuten semifoneilla.
KEKSINNÖN TAUSTA
15 Puhesignaali on äärimmäisen monimutkainen signaali, jonka rakenne riippuu kielellisen sisällön lisäksi puhujan ääntöelinten koosta ja tilasta puhetta tuotettaessa. Ääntä voidaan digitalisoida eli muuttaa numeeriseksi kuten esimerkiksi CD-levyissä on tehty. 20 Ihmispuheen tai vaikkapa musiikin tallentaminen digitaalisena ei siten ole kovinkaan suuri ongelma, vaikka digitaalinen puhe vie paljon enemmän tilaa kuin tekstin muodossa oleva.
Keinotekoisen puheen tuottaminen on sen si-25 jaan haastava tehtävä. Sanojen tunnistus sanaluokkiin ja painotus saattavat vaatia monimutkaista analysointia ennen kuin tekstistä saadaan puhetta. Keinotekoisen puheen tuottaminen varastoidusta ihmisen puheesta on eräässä suhteessa edullista, koska kokonaiset virk-30 keet tai äänen painotus ovat tällä tavoin luonnollisen kuuloisia. Erinäisillä tavoilla voidaan leikattuja ja liimattuja osia vaihdella puhunnoksissa. Tällaisia valmiiksi nauhoitettuja kuulutuksia käytetään esimerkiksi joidenkin kaupunkien liikennelaitoksissa bus-35 seissa ja raitiovaunuissa, joissa kullakin pysäkillä kerrotaan vaihtomahdollisuuksista tai aikatauluista.
2
Mitä enemmän leikataan ja liimataan erilaisia yhdistelmiä, sitä enemmän on myös vaaraa saumakohtien epä-j atkuvuuksista.
Leikkaa ja liimaa -menetelmässä voitetaan 5 usein syntetisoidun puheen luonnollisuudessa ja voitetaan sitä enemmän, mitä laajempia valmiita yksiköitä käytetään. Vastaavasti leikkaa ja liimaa -menetelmässä saattaa olla vaikea sovittaa puhetta noudattamaan luonnollisen puheen prosodiaa 1. puheen rytmiä, paino-10 tusta ja intonaatiota etenkin silloin kun tuotetaan täysin uutta materiaalia. Puheen tauotusta ja intensiteettiä voidaan sovittaa tarpeen mukaan tietyissä rajoissa, mutta puheen sävelkulun sovittaminen luonnollisten virkkeiden tai repliikkien mukaiseksi saattaa 15 olla haastavaa, koska on sekä vaivalloista että vaikeaa saada riittävän laajaa näytevalikoimaa yhdeltä ja samalta puhujalta synteesin pohjaksi.
Tekstistä puheeksi -synteesissä voidaan myös käyttää aikaisemmin tallennettua puhetta. Konkatenaa-20 tiosynteesissä ennalta äänitetystä tietokannasta valitaan lyhyitä puhesegmenttejä, jotka liitetään peräkkäin haluttujen ilmaisujen aikaansaamiseksi. Mitä pidempiä puhesegmenttejä käytetään, sitä vähemmän syntetisoituun puheeseen tulee ongelmallisia segmenttien 25 liitoskohtia ja muita häiritseviä epäjatkuvuuksia, mutta samalla muistin tarve kasvaa.
Yleisesti kielitieteessä ja fonetiikassa sanojen katsotaan koostuvan foneemeista, jotka reaalis-tuvat ns. allofoneina tai äänteinä. Foneemi on abst-30 raktinen äänteellisesti toteutettavissa oleva yksikkö, jota ei voida jakaa pienempiin segmentteihin, mutta jonka voidaan katsoa koostuvan ns. distinktiivisistä piirteistä. Selkeämmän käsityksen sanojen jakamisesta kielellisiin segmentteihin 1. äänneyksiköihin saa ku-35 viosta 1, jossa on esitetty sanan "takka" jakaminen kirjaimista äänteisiin, semifoneihin sekä difoneihin. Toisaalta, difonin koostuessa äänteen puolikkaista, 3 muodostuu trifoni yhdestä kokonaisesta äänteestä sekä tämän äänteen edeltävän ja seuraavan äänteen puolikkaista .
Kokonaisten äänteiden leikkaaminen ja liimaa-5 minen sellaisenaan ei kuitenkaan toimi toivotulla tavalla puhesynteesin kannalta. Tämän vuoksi difonikon-katenaatiossa leikataan äänteen jälkimmäinen puolikas ja sitä seuraavan äänteen ensimmäinen puolikas yhteen näytteeseen. Difoniääninäytesegmentit on esitetty 10 ylimmällä rivillä kuviossa 1. Difonikonkatenaatiossa samoin kuin trifonikonkatenaatiossakin segmenttien liitoskohdat osuvat kunkin äänteen keskikohtaan, jolloin äänteiden muutokset ovat pienimmillään ja liitoskohtien vääristymien voidaan olettaa minimoituvan. Di-15 fonit saadaan leikkaamalla ne kaikista mahdollisista foneemi ja/tai allofonipareista, mitä toteutettavassa kielessä esiintyy. (Difoni)konkatenaatiosynteesi yksinkertaisimmillaan ei vaadi laajaa foneettista ymmärrystä ja se on hyvin suosittu puhesynteesin muoto 20 markkinoilla.
Ongelmana konkatenaatiosynteesissä on ääninäytteet käsittävän tietokannan suuri koko. Jos kaikki mahdolliset kombinaatiot halutaan ottaa mukaan, vie näytekirjasto paljon muistitilaa. Ongelmalliseksi muo-25 dostuu erityisesti puhesynteesin tuottaminen kannetta vissa päätelaitteissa, joissa tietokannan muistitila on rajoitettu.
KEKSINNÖN TARKOITUS
30 Keksinnön tarkoituksena on tuoda esille mene telmä puhesynteesin tuottamiseksi. Erityisesti keksinnön tarkoituksena on pienentää puhesynteesissä tarvittavan tietokannan kokoa korvaamalla osa puhesynteesissä käytettävistä äänneyksiköistä jonkin toisen foneet-35 tisesti samanlaisen, kohdekielessä yleisemmän, ään- neyksikön ääninäytteellä.
4
KEKSINNÖN YHTEENVETO
Esillä olevan keksinnön tarkoituksena on tuoda esiin menetelmä, järjestelmä sekä ohjelmistotuote puhesynteesin generoimiseksi tietokantaan tallenne-5 tuista äänneyksiköiden ääninäytteistä siten, että käytössä olevan tietokannan koko on mahdollisimman pieni. Äänneyksiköillä ja niiden pienemmillä osilla tarkoitetaan tässä hakemuksessa erityisesti difoneita ja semi-fooneja. Äänneyksikkö voi kuitenkin olla jokin muu 10 tarkoitukseen sopiva äänne tai sen osa, kuten trifoni, tavu tai puolitavu.
Esillä olevan keksinnön tunnusomaisten piirteiden suhteen viitataan patenttivaatimuksiin.
Keksinnön mukaisessa menetelmässä generoidaan 15 synteettinen puhe äänneyksiköitä vastaavista ääninäyt teistä, jotka on tallennettu tietokantaan, jossa menetelmässä vastaanotetaan tekstisyöte ja jaetaan vastaanotettu tekstisyöte äänneyksiköihin. Keksinnön mukaisessa menetelmässä lisäksi poimitaan 20 äänneyksikköjonoja vastaavat ääninäytteet tietokannas ta siten, että ne täyttävät ehdot: määritetään kohdekielessä erittäin yleiset äänneyksiköt (difonit), yleiset äänneyksiköt sekä harvinaiset äänneyksiköt; määritetään, onko äänneyksikkö tilastoitu kohdekielessä 25 harvinaiseksi äänneyksiköksi; mikäli äänne on tilastoitu harvinaiseksi äänneyksiköksi kohdekielessä, se kootaan pienemmistä äänneyksiköistä kuten semifoneista; muutoin, määritetään onko äänneyksikkö foneettisesti samanlainen kuin jokin toinen kohdekielessä yleisempi äänneyk-30 sikkö; mikäli äänneyksikkö on foneettisesti samanlai nen kuin jokin toinen kohdekielessä yleisempi äänneyksikkö, korvataan se yleisemmän äänneyksikön ääninäytteellä; muutoin, haetaan tietokannasta alkuperäistä äänneyksikköä vastaava ääninäyte; ja generoidaan puhe-35 synteesi tietokannasta poimituista ääninäytteistä.
Edelleen keksinnön mukaisessa menetelmässä määritetään lisäksi kohdekielessä erittäin harvinaiset 5 äänneyksiköt ja korvataan nämä kohdekielessä erittäin harvinaisiksi tilastoidut äänneyksiköt hiljaisuus-hiljaisuus -ääninäytteellä.
Ääniyksiköiden määrittäminen erittäin ylei-5 seksi, yleiseksi, harvinaiseksi tai erittäin harvinaiseksi äänneyksiköiksi perustuu kullekin kohdekielelle ominaisiin kunkin äänneyksikön suhteellisen esiintymis todennäköisyyden raj a-arvoihin.
Esillä olevan keksinnön kohteena on lisäksi 10 järjestelmä puhesynteesin generoimiseksi ääninäytteistä, jotka on tallennettu tietokantaan, joka järjestelmä käsittää: keskusyksikön puhesynteesin generoimisek si, näytön, välineet tekstisyötteen antamiseksi, muistin sekä ääninäytteet sisältävän tietokannan, johon 15 tietokantaan tallennettaessa ääninäytteitä kohdekie lessä harvinaisiksi tilastoidut äänneyksiköt korvataan semifoneilla; foneettisesti samanlaiset äänneyksiköt korvataan toisella, kohdekielessä yleisemmällä, ään-neyksiköllä; sekä erittäin yleiset äänneyksiköt tal-20 lennetään sellaisenaan. Lisäksi järjestelmä käsittää ulostulon puhesynteesissä generoidun puheen välittämiseksi .
Edelleen keksinnön kohteena on ohjelmistotuote puhesynteesin generoimiseksi ääninäytteistä, 25 jotka on tallennettu tietokantaan, joka ohjelmisto tuote on järjestetty vastaanottamaan tekstisyöte ja jakamaan vastaanotettu tekstisyöte äänneyksiköihin. Ohjelmistotuote on lisäksi järjestetty poimimaan ään-neyksikköä vastaava ääninäyte tietokannasta siten, et-30 tä se täyttää ehdot: ohjelmistotuote on järjestetty määrittämään kohdekielessä erittäin yleiset äänneyksiköt, yleiset äänneyksiköt sekä harvinaiset äänneyksiköt. Ohjelmistotuote on lisäksi järjestetty määrittämään, onko äänneyksikkö tilastoitu kohdekielessä harvi-35 naiseksi äänneyksiköksi; mikäli äänneyksikkö on tilas toitu harvinaiseksi kohdekielessä, ohjelmistotuote on edelleen järjestetty kokoamaan äänneyksikkö pienemmistä 6 äänneyksiköistä kuten semifoneista; muutoin, ohjelmistotuote on järjestetty määrittämään onko äänneyksikkö foneettisesti samanlainen kuin jokin toinen kohdekielessä yleisempi äänneyksikkö; mikäli äänneyksikkö on 5 foneettisesti samanlainen kuin jokin toinen kohdekielessä yleisempi äänneyksikkö, ohjelmistotuote on järjestetty korvaamaan se yleisemmän äänneyksikön ääninäytteellä; muutoin, ohjelmistotuote on järjestetty hakemaan tietokannasta alkuperäistä äänneyksikköä vas-10 taava ääninäyte. Lisäksi ohjelmistotuote on järjestetty generoimaan puhesynteesi tietokannasta poimituista ääninäytteistä.
Esillä olevan keksinnön avulla konkatenaatio-synteesissä käytettävän tietokannan, kuten difonitie-15 tokannan, vaatima muistitila pienenee. Esillä olevan keksinnön avulla mahdollistetaan entistä paremmin puhesynteesin toteuttaminen erityisesti kannettavissa laitteissa, joiden muistikapasiteetti on rajallinen. Edelleen keksinnön avulla mahdollistetaan puhesyntee-20 sin käyttö monikielisesti päätelaitteissa, jolloin useampia kohdekieliä sisältävät tietokannat vaativat yhä vähemmän muistikapasiteettia. Tällöin kannettavan päätelaitteen muistikapasiteetista entistä suurempi osa voidaan käyttää muuhun tarkoitukseen. Lisäksi ver-25 kossa voidaan välittää haluttua dataa tekstimuodossa riippumatta siitä, missä muodossa (1. tekstimuodossa vai äänisignaalina) käyttäjä vastaanottaa viestin.
KUVIOLUETTELO
30 Kuvio 1 esittää sanan "takka" segmentoinnin pienemmiksi yksiköiksi, kuvio 2 esittää erään toimintalohkokaavion keksinnön mukaisen puhesynteesin toteuttamiseksi, kuvio 3 esittää erään keksinnön mukaisen so-35 velluksen äänneyksiköiden yleisyyden määrittämiseen, 7 kuvio 4 esittää erään keksinnön mukaisen sovelluksen äänneyksiköiden indeksoinnille tietokannassa, ja kuvio 5 esittää keksinnön mukaisen järjestel-5 män puhesynteesin generoimiseksi yksinkertaistettuna.
KEKSINNÖN YKSITYISKOHTAINEN KUVAUS
Kuvio 2 esittää erään sovelluksen keksinnön mukaisen puhesynteesin toimintalohkokaaviosta. Keksin-10 nön mukaisessa menetelmässä vastaanotetaan syöte tekstimuodossa 21. Tekstisyöte normalisoidaan eli muutetaan numerot lukusanoiksi, kirjoitetaan lyhenteet auki jne. Tämän jälkeen tekstiä käsitellään vielä mm. muuntamalla sanat äänneyksiköiksi (22) esimerkiksi difo-15 neiksi, jakamalla äänneyksikköjonot ja niitä vastaa vat difonit tavuiksi, ja laskemalla difoneille äänne-kestot sekä sävelkulku. Sävelkulkuun kuuluu puheen rytmi, painotukset ja intonaatio, joiden ominaisuuksia analysoidaan luonnollisesta puheesta. Analysoinnin pe-20 rusteella luodaan sääntöjä vastaavien ominaisuuksien tuottamiseksi synteettiseen puheeseen. Kutakin difonia analysoidaan erikseen. Difonin analysoinnissa määritetään onko kyseessä oleva difoni luokiteltu kohdekielessä harvinaiseksi difoniksi 23. Jos difoni on luoki-25 teltu kohdekielessä harvinaiseksi difoniksi, se kootaan pienemmistä äänneyksiköistä kuten semifoneista 24. Jos difonia ei ole luokiteltu harvinaiseksi difoniksi, määritetään, onko se foneettisesti samanlainen kuin jokin kohdekielessä yleisempi difoni 25. 30 Jos difoni on samanlainen kuin jokin toinen kohdekielessä yleisempi difoni, se korvataan tällä difonilla 26. Jos difoni ei ole foneettisesti samanlainen kuin jokin yleisempi difoni, käytetään alkuperäistä difonia 27. Kutakin difonia vastaava ääninäyte haetaan tieto-35 kannasta 28, valitaan näytteelle sen kesto 29 ja generoidaan itse puhesignaali 210. Jokaiselle tekstisyöt-teen äänneyksikölle haetaan sitä vastaava ääninäyte 8 tietokannasta kunnes kaikki tekstisyötteen difonit on käyty läpi.
Suomen kielen yleisimmät ja harvinaisimmat difonit voidaan määrittää esimerkiksi seuraavalla ta-5 valla. Luodaan tekstikorpus eli sellainen tietokanta, joka sisältää massoittain suomenkielistä tekstiä. Tästä tekstikorpuksesta voidaan tarkastella tilastollisesti mitkä difonit ovat suomenkielessä yleisiä ja mitkä harvinaisia määrittelemällä äänneyksikön/difonin 10 esiintymistiheydelle jokin raja-arvo. Raja-arvon ylittyessä difonin voidaan määrittää olevan yleinen. Kuvio 3 esittää erään sovelluksen difoneiden yleiseksi tai harvinaiseksi määrittämiselle. Kuvion 3 y-akseli kuvaa difoneiden suhteellista esiintymistiheyttä eli sitä, 15 kuinka yleinen difoni on ja x-akseli kuvaa todennäköisyyttä sille, että difonille käytetään korvaavan ään-neyksikön ääninäytettä. Kuvion 3 tapauksessa raja-arvon 31 ylittävät difonit määritellään erittäin yleisiksi. Raja-arvon 32 ylittävät difonit määritellään 20 yleisiksi, jolloin sen alle jäävät difonit määritellään harvinaisiksi. Raja-arvon 33 alle jäävät difonit ovat kohdekielen erittäin harvinaisia. Kuviossa 3 ensimmäisen raja-arvon 31 ylittävät difonit ovat niin yleisiä, että ne voidaan tallentaa tietokantaan sel-25 laisenaan. Toisen raja-arvon 32 ylittävät difonit voidaan korvata jollakin muulla esimerkiksi edelliseen kategoriaan kuuluvalla difonilla. Toisen raja-arvon 32 alittavat difonit sen sijaan määritellään niin harvinaisiksi, että ne muodostetaan pienemmistä äänneyksi-30 köistä, kuten difonien puolikkaista, semifoneista. Erittäin harvinaiset difonit eli raja-arvojen 33 ja 34 väliin jäävät äänneyksiköt voidaan korvata esimerkiksi pelkällä hiljaisuudella.
Jos difoni, ei ylitä kuvion 3 kynnystä 32 35 riittävän yleiseksi difoniksi määrittämiselle, muodostetaan difoni sen puolikkaista, semifoneista. Tällöin difoni luokitellaan tilastollisesti harvinaiseksi 9 kohdekielessä. Jos sanassa esiintyy esimerkiksi difoni "h-j", kootaan tämä harvinainen difoni pareista "h-hiljaisuus" ja "hiljaisuus-j". Jos difonia ei ole luokiteltu erittäin harvinaiseksi äänneyksiköksi, tarkis-5 tetaan onko kyseinen difoni foneettisesti samanlainen kuin jokin toinen, kielessä yleisempi difoni. Esimerkiksi "g-ö" ja "k-ö" ovat foneettisesti samanlaisia difoneita. Jos kyseessä oleva difoni on foneettisesti samanlainen kuin jokin muu difoni, voidaan se korvata 10 tällä yleisemmällä difonilla. Jos difonia ei ole luokiteltu foneettisesti samanlaiseksi kuin jokin muu kielessä yleisempi difoni, käytetään alkuperäistä difonia puhesynteesin muodostamiseen.
Difonin korvaaminen jonkin toisen, kohdekie-15 lessä yleisemmän difonin, ääninäytteellä perustuu ään-neyksiköiden foneettiseen samanlaisuuteen eli siihen, kuinka lähellä äänneyksiköt ovat toisiaan niitä tuotettaessa. Toisen äänneyksikön korvaaminen hyvin samantyyppisellä ääninäytteellä ei tuota täysin vastaa-20 vaa puhetta kuin alkuperäisillä ääninäytteillä toteutettu puhe, mutta sen laadussa olevat muutokset ovat niin vähäisiä ettei ihmiskorva välttämättä erota niitä laisinkaan.
Difonien korvaaminen voidaan toteuttaa myös 25 seuraavan periaatteen mukaisesti. Luokitellaan kaikki kuvion 3 raja-arvon 31 ylittävät difonit erittäin yleisiksi difoneiksi ja tallennetaan kaikki tämän raja-arvon ylittävät difonit difonitietokantaan sellaisenaan. Raja-arvojen 31 ja 32 väliin jäävät difonit 30 korvataan jollakin raja-arvon 31 ylittävällä erittäin yleisellä difonilla, joka on foneettisesti samanlainen kuin esillä oleva raja-arvojen 31 ja 32 väliin jäävä difoni. Kuvion 3 raja-arvojen 32 ja 33 väliin jäävät difonit määritellään harvinaisiksi difoneiksi, jolloin 35 ne korvataan kahdella difonin puolikkaalla eli semifo-neilla. Lisäksi raja-arvojen 33 ja 34 väliin jäävät difonit (erittäin harvinaiset difonit) korvataan pel- 10 källä hiljaisuudella eli hiljaisuus_hiljaisuus -parilla .
Kaikki mahdolliset kohdekielessä esiintyvät äänneyksiköt on merkitty tietokannassa asianmukaisilla 5 nimilapuilla 1. indekseillä, jotta määrätyn segmentin hakeminen tietokannasta onnistuu. Tekniikan tason tietokannassa kutakin difonia vastaa yksi ääninäyte, jolloin difonia tunnistettaessa sille annettu indeksi osoittaa suoraan vastaavaan ääninäytteeseen tietokan-10 nassa. Tällöin difonitietokanta vaatii kuitenkin kohtuuttoman paljon muistitilaa.
Keksinnön mukaisen järjestelmän äänneyksiköi-den ääninäytteet käsittävässä tietokannassa osa difo-neista on korvattu foneettisesti samanlaisella di-15 fonilla tai kahdella semifonilla. Kuviossa 4 on esitetty keksinnön mukainen difoneiden 41 indeksointi di-fonitietokannassa 42. Jokaiselle difonille 41 on annettu indeksi 43, jonka perusteella sitä vastaava ääninäyte haetaan difonitietokannasta 42. Difonit 411 ja 20 412 on merkitty samalla indeksillä ii, joka vastaa ky seessä olevaa ääninäytettä 413 tietokannassa 42. Difo-nin 411 kanssa foneettisesti samanlainen difoni 412 on korvattu difonin 411 ääninäytteellä 413. Myös difonien puolikkaita eli semifoneja voidaan korvata foneettis-25 ten ominaisuuksien perusteella. Esimerkiksi äänne _a 414 on äänteen m tai p jälkeen foneettisesti samanlainen, jolloin tällaisesta äänneyksiköstä ei tietokannassa tarvita kuin yksi näyte. Tällöin indeksi iy viittaa äänteen m_a 415 koottavan semifoneista 30 m_hiljaisuus 417 ja hiljaisuus_a 414. Vastaavasti ään-neylsikön p_a 416 indeksi iz viittaa ääninäytteeseen p_hiljaisuus 418 ja hiljaisuus_a 414. Harvinaisiksi luokitellut difonit on tietokannassa koottu semifoneista. Esimerkiksi kohdekielessä harvinaiseksi ään-35 teeksi tilastoidun difonin t_k 419 indeksi ix viittaa kahteen semifoniin: t_hiljaisuus ja hiljaisuus_k.
11
Tietokantaan tallennettujen ääninäytteiden määrää saadaan pienennettyä huomattavasti korvaamalla osa difoneista toisella foneettisesti samanlaisella, kohdekielessä yleisemmällä, difonilla. Pienentämällä 5 ääninäytteiden lukumäärää saadaan luonnollisesti vähennettyä myös tietokannan vaatimaa muistitilaa. Di-fonitietokannasta ei kuitenkaan poisteta sellaisia di-foneita, joiden alku- tai loppuosa on hiljaisuus-äänneyksikkö, koska harvinaiset äänneyksiköt, esimer-10 kiksi t_k, muodostetaan t_hiljaisuus ja hiljaisuus_k parista.
Keksinnön mukainen järjestelmä on esitetty yksinkertaistettuna kuviossa 5. Järjestelmä käsittää näytön 50 sekä syöttölaitteen 54 kuten perinteisen 15 näppäimistön tai hiiren tekstin syöttämiseksi. Keksinnön mukainen järjestelmä käsittää keskusyksikön (CPU) 51, joka kontrolloi koko järjestelmän toimintaa. Keskusyksikkö huolehtii tekstisyötteen vastaanottamisesta sekä sen käsittelystä. Se etsii difonitietokannasta 55 20 kutakin difonia vastaavan ääninäytteen ja välittää muodostetun puheen ulostulolle 53. Ulostulo voi olla esimerkiksi mikrofoni, joka välittää tekstistä muodostetun synteettisen puheen käyttäjälle. Muisti 52 sisältää difonitietokannan 55 lisäksi ohjelmistot, joi-25 den perusteella keskusyksikkö 51 toteuttaa sille tarkoitetut tehtävät.
Vaikka edellä esitetyissä esimerkeissä tietokantana on mainittu difonitietokanta, voidaan keksinnön mukaista menetelmää hyödyntää myös käytettäessä 30 muita äänneyksiköitä tai äänneyksiköiden pienempiä yksiköitä, esimerkiksi trifoneita, semifooneja, tavuja tai puolitavuja, puhesynteesin generoimisessa. Vastaavasti, vaikka kohdekielenä on edellä esitetyissä esimerkeissä suomen kieli, voidaan keksinnön mukaista me-35 netelmää soveltaa myös muille kohdekielille.
Keksintöä ei rajata pelkästään edellä esitettyjä sovellusesimerkkejä koskevaksi, vaan monet muun 12 nokset ovat mahdollisia pysyttäessä patenttivaatimusten määrittelemän keksinnöllisen ajatuksen puitteissa.

Claims (9)

1. Menetelmä puhesynteesin generoimiseksi äänneyksiköitä vastaavista ääninäytteistä, jotka on tallennettu tietokantaan, joka menetelmä käsittää vai- 5 heet: vastaanotetaan tekstisyöte (21); ja jaetaan vastaanotettu tekstisyöte äänneyksiköihin (22) ; tunnettu siitä, että menetelmä edelleen 10 käsittää vaiheet: poimitaan äänneyksikköä vastaava ääninäyte tietokannasta siten, että se täyttää ehdot: määritetään kohdekielessä erittäin yleiset äänneyksiköt, yleiset äänneyksiköt sekä harvinaiset 15 äänneyksiköt; määritetään, onko äänneyksikkö tilastoitu kohdekielessä harvinaiseksi äänneyksiköksi (23); mikäli äänneyksikkö on tilastoitu harvinaiseksi äänneyksiköksi kohdekielessä, se kootaan pienemmistä 20 äänneyksiköistä (24) ; muutoin, määritetään onko äänneyksikkö fo-neettisesti samanlainen kuin jokin toinen kohdekielessä yleisempi äänneyksikkö (25); mikäli äänneyksikkö on foneettisesti saman-25 lainen kuin jokin toinen kohdekielessä yleisempi ään neyksikkö, korvataan se yleisemmän äänneyksikön ääninäytteellä (26) ; muutoin, haetaan tietokannasta alkuperäistä äänneyksikköä vastaava ääninäyte (27); ja 30 generoidaan puhesynteesi tietokannasta poimituista äännenäytteistä (210).
2. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että menetelmä edelleen käsittää vaiheet: 35 määritetään kohdekielessä erittäin harvinaiset äänneyksiköt; korvataan kohdekielessä erittäin harvinaiseksi äänneyksiköksi tilastoitu äänneyksikkö hiljaisuus hiljaisuus -ääninäytteellä.
3. Patenttivaatimuksen 1 tai 2 mukainen mene-5 telmä, tunnettu siitä, että äänneyksiköiden määrittäminen erittäin yleiseksi, yleiseksi, harvinaiseksi tai erittäin harvinaiseksi äänneyksiköksi perustuu kullekin kohdekielelle ominaisiin äänneyksikön suhteellisen esiintymistiheyden raja-arvoihin. 10
4. Järjestelmä puhesynteesin generoimiseksi ääninäytteistä, jotka on tallennettu tietokantaan, joka järjestelmä käsittää: keskusyksikön puhesynteesin generoimiseksi(51)/ näytön (50); 15 välineet (54) tekstisyötteen antamiseksi; ja muistin (52); tunnettu siitä, että järjestelmä edelleen käsittää: tietokannan (55), johon tietokantaan ääninäytteitä 20 tallennettaessa kohdekielessä harvinaisiksi tilas toidut äänneyksiköt korvataan pienemmillä äänneyksi-köillä; foneettisesti samanlaiset äänneyksiköt korvataan jollakin toisella, kohdekielessä yleisemmällä, äänneyksiköliä; sekä erittäin yleiset äänneyksiköt 25 tallennetaan sellaisenaan; ja ulostulon (53) puhesynteesissä generoidun puheen välittämiseksi.
5. Patenttivaatimuksen 4 mukainen järjestelmä, tunnettu siitä, että tietokantaan tallennetta- 30 essa ääninäytteitä kohdekielessä erittäin harvinaiset äänneyksiköt korvataan hiljaisuus_hiljaisuus -ääninäytteellä .
6. Patenttivaatimuksen 4 tai 5 mukainen järjestelmä, tunnettu siitä, että äänneyksikön mää- 35 rittäminen erittäin yleiseksi, yleiseksi, harvinaisek si tai erittäin harvinaiseksi äänneyksiköksi perustuu kullekin kohdekielelle ominaisiin äänneyksikön suhteellisen esiintymistiheyden raja-arvoihin.
7. Ohjelmistotuote puhesynteesin generoimiseksi ääninäytteistä, jotka on tallennettu tietokan-5 taan (55), joka ohjelmistotuote on järjestetty: vastaanottamaan tekstisyöte (21); ja jakamaan vastaanotettu tekstisyöte äänneyksiköihin (22) ; tunnettu siitä, että ohjelmistotuote 10 edelleen järjestetty: poimimaan äänneyksikköä vastaava ääninäyte tietokannasta siten, että se täyttää ehdot: ohjelmistotuote on järjestetty määrittämään kohdekielessä erittäin yleiset äänneyksiköt, yleiset 15 äänneyksiköt sekä harvinaiset äänneyksiköt; ohjelmistotuote on lisäksi järjestetty määrittämään, onko äänneyksikkö tilastoitu kohdekielessä harvinaiseksi äänneyksiköksi (23) ; mikäli äänneyksikkö on tilastoitu harvinaiseksi 20 äänneyksiköksi kohdekielessä, ohjelmistotuote on edelleen järjestetty kokoamaan äänneyksikkö pienemmistä ään-neyksiköistä (24); muutoin, ohjelmistotuote on järjestetty määrittämään onko äänneyksikkö foneettisesti samanlainen 25 kuin jokin toinen kohdekielessä yleisempi äänneyksikkö (25) ; mikäli äänneyksikkö on foneettisesti samanlainen kuin jokin toinen kohdekielessä yleisempi äänneyksikkö, ohjelmistotuote on järjestetty korvaamaan 30 äänneyksikkö yleisemmän äänneyksikön ääninäytteellä (26) ; muutoin, ohjelmistotuote on järjestetty hakemaan tietokannasta alkuperäistä äänneyksikköä vastaava ääninäyte (27); ja 35 ohjelmistotuote on järjestetty generoimaan puhe- synteesi tietokannasta poimituista ääninäytteistä (210) .
8. Patenttivaatimuksen 7 mukainen ohjelmistotuote, tunnettu siitä, että se on järjestetty: määrittämään kohdekielessä erittäin harvinaiset äänneyksiköt/ 5 korvaamaan kohdekielessä erittäin harvinaiseksi äänneyksiköksi tilastoitu äänneyksikkö hiljai-suus_hiljaisuus -ääninäytteellä.
9. Patenttivaatimuksen 7 tai 8 mukainen ohjelmistotuote, tunnettu siitä, että ohjelmisto- 10 tuote on järjestetty: määrittämään äänneyksikkö erittäin yleiseksi, yleiseksi, harvinaiseksi tai erittäin harvinaiseksi äänneyksiköksi perustuen kullekin kohdekielelle ominaisiin äänneyksikön suhteellisen esiintymistiheyden 15 raja-arvoihin.
FI20051181A 2005-11-18 2005-11-18 Menetelmä puhesynteesin tuottamiseksi FI119859B (fi)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FI20051181A FI119859B (fi) 2005-11-18 2005-11-18 Menetelmä puhesynteesin tuottamiseksi

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI20051181A FI119859B (fi) 2005-11-18 2005-11-18 Menetelmä puhesynteesin tuottamiseksi
FI20051181 2005-11-18

Publications (3)

Publication Number Publication Date
FI20051181A0 FI20051181A0 (fi) 2005-11-18
FI20051181A FI20051181A (fi) 2007-05-19
FI119859B true FI119859B (fi) 2009-04-15

Family

ID=35458787

Family Applications (1)

Application Number Title Priority Date Filing Date
FI20051181A FI119859B (fi) 2005-11-18 2005-11-18 Menetelmä puhesynteesin tuottamiseksi

Country Status (1)

Country Link
FI (1) FI119859B (fi)

Also Published As

Publication number Publication date
FI20051181A0 (fi) 2005-11-18
FI20051181A (fi) 2007-05-19

Similar Documents

Publication Publication Date Title
US8566099B2 (en) Tabulating triphone sequences by 5-phoneme contexts for speech synthesis
US8990089B2 (en) Text to speech synthesis for texts with foreign language inclusions
US7565291B2 (en) Synthesis-based pre-selection of suitable units for concatenative speech
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
US6173263B1 (en) Method and system for performing concatenative speech synthesis using half-phonemes
US20060041429A1 (en) Text-to-speech system and method
US20200082805A1 (en) System and method for speech synthesis
US8775185B2 (en) Speech samples library for text-to-speech and methods and apparatus for generating and using same
US20030158734A1 (en) Text to speech conversion using word concatenation
Qian et al. A cross-language state sharing and mapping approach to bilingual (Mandarin–English) TTS
JP2002530703A (ja) 音声波形の連結を用いる音声合成
Bigorgne et al. Multilingual PSOLA text-to-speech system
Gooskens et al. The position of Frisian in the Germanic language area
KR100669241B1 (ko) 화행 정보를 이용한 대화체 음성합성 시스템 및 방법
Vijayalakshmi et al. A multilingual to polyglot speech synthesizer for indian languages using a voice-converted polyglot speech corpus
FI119859B (fi) Menetelmä puhesynteesin tuottamiseksi
Francini et al. Study of a System of Minimal Speech‐Reproducing Units for Italian Speech
Pucher et al. Resources for speech synthesis of Viennese varieties
EP1640968A1 (en) Method and device for speech synthesis
Leonardo et al. A general approach to TTS reading of mixed-language texts
El-Imam Synthesis of arabic from short sound clusters
Jokisch et al. Learning syllable duration and intonation of Mandarin Chinese
Lindh Introductory Evaluation of the Swedish RealSpeak System
Fernandez et al. The 2006 TCSTAR evaluation of the IBM text-to-speech synthesis system
Tian et al. Modular design for Mandarin text-to-speech synthesis

Legal Events

Date Code Title Description
FG Patent granted

Ref document number: 119859

Country of ref document: FI

MM Patent lapsed