FI119859B - A method for producing speech synthesis - Google Patents

A method for producing speech synthesis Download PDF

Info

Publication number
FI119859B
FI119859B FI20051181A FI20051181A FI119859B FI 119859 B FI119859 B FI 119859B FI 20051181 A FI20051181 A FI 20051181A FI 20051181 A FI20051181 A FI 20051181A FI 119859 B FI119859 B FI 119859B
Authority
FI
Finland
Prior art keywords
sound
burst
unit
units
database
Prior art date
Application number
FI20051181A
Other languages
Finnish (fi)
Swedish (sv)
Other versions
FI20051181A (en
FI20051181A0 (en
Inventor
Jarmo Vaelikangas
Martti Vainio
Markus Volk
Original Assignee
Bitlips Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bitlips Oy filed Critical Bitlips Oy
Priority to FI20051181A priority Critical patent/FI119859B/en
Publication of FI20051181A0 publication Critical patent/FI20051181A0/en
Publication of FI20051181A publication Critical patent/FI20051181A/en
Application granted granted Critical
Publication of FI119859B publication Critical patent/FI119859B/en

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

MENETELMÄ PUHESYNTEESIN TUOTTAMISEKSI KEKSINNÖN ALAMETHOD FOR PRODUCTION OF SPEECH SYNTHESIS FIELD OF THE INVENTION

Keksintö liittyy tekstistä puheeksi-puhesynteesin (text-to-speech TTS) tuottamiseen. Kek-5 sinnön mukaisessa menetelmässä puhesynteesissä käytettävän tietokannan esimerkiksi difonitietokannan kokoa saadaan pienennettyä siten, että osa synteesissä käytettävistä äänneyksiköistä kuten difoneista korvataan foneettisesti samanlaisella, kohdekielessä yleisemmäl-10 lä äänneyksiköllä. Lisäksi kohdekielessä harvinaiset äänneyksiköt korvataan pienemmillä äänneyksiköillä kuten semifoneilla.The invention relates to the production of text-to-speech TTS. In the method of the Kek-5 invention, for example, the size of the database used in speech synthesis can be reduced such that some of the sound units used in the synthesis, such as diphones, are phonetically replaced by a similar sound unit more general in the target language. In addition, in the target language, rare sound units are replaced by smaller sound units such as semifones.

KEKSINNÖN TAUSTABACKGROUND OF THE INVENTION

15 Puhesignaali on äärimmäisen monimutkainen signaali, jonka rakenne riippuu kielellisen sisällön lisäksi puhujan ääntöelinten koosta ja tilasta puhetta tuotettaessa. Ääntä voidaan digitalisoida eli muuttaa numeeriseksi kuten esimerkiksi CD-levyissä on tehty. 20 Ihmispuheen tai vaikkapa musiikin tallentaminen digitaalisena ei siten ole kovinkaan suuri ongelma, vaikka digitaalinen puhe vie paljon enemmän tilaa kuin tekstin muodossa oleva.15 A speech signal is an extremely complex signal whose structure depends not only on linguistic content but also on the size and state of the speaker's vocal cords during speech production. Audio can be digitized or digitized, as is the case with CDs. 20 Recording human speech or even music in digital form is thus not a major problem, although digital speech takes up much more space than text.

Keinotekoisen puheen tuottaminen on sen si-25 jaan haastava tehtävä. Sanojen tunnistus sanaluokkiin ja painotus saattavat vaatia monimutkaista analysointia ennen kuin tekstistä saadaan puhetta. Keinotekoisen puheen tuottaminen varastoidusta ihmisen puheesta on eräässä suhteessa edullista, koska kokonaiset virk-30 keet tai äänen painotus ovat tällä tavoin luonnollisen kuuloisia. Erinäisillä tavoilla voidaan leikattuja ja liimattuja osia vaihdella puhunnoksissa. Tällaisia valmiiksi nauhoitettuja kuulutuksia käytetään esimerkiksi joidenkin kaupunkien liikennelaitoksissa bus-35 seissa ja raitiovaunuissa, joissa kullakin pysäkillä kerrotaan vaihtomahdollisuuksista tai aikatauluista.Producing artificial speech is a challenging task for its si-25. Identifying words into word categories and accentuation may require complex analysis before text can be spoken. In some respects, producing artificial speech from stored human speech is advantageous, since whole sentences or weighting of sound are naturally natural in this way. In different ways, cut and glued parts can be varied in speech. Such pre-recorded announcements are used, for example, in buses and buses of some cities and buses, where each stop tells about alternatives or timetables.

22

Mitä enemmän leikataan ja liimataan erilaisia yhdistelmiä, sitä enemmän on myös vaaraa saumakohtien epä-j atkuvuuksista.The more the various combinations are cut and glued, the more there is also a risk of joint misalignment.

Leikkaa ja liimaa -menetelmässä voitetaan 5 usein syntetisoidun puheen luonnollisuudessa ja voitetaan sitä enemmän, mitä laajempia valmiita yksiköitä käytetään. Vastaavasti leikkaa ja liimaa -menetelmässä saattaa olla vaikea sovittaa puhetta noudattamaan luonnollisen puheen prosodiaa 1. puheen rytmiä, paino-10 tusta ja intonaatiota etenkin silloin kun tuotetaan täysin uutta materiaalia. Puheen tauotusta ja intensiteettiä voidaan sovittaa tarpeen mukaan tietyissä rajoissa, mutta puheen sävelkulun sovittaminen luonnollisten virkkeiden tai repliikkien mukaiseksi saattaa 15 olla haastavaa, koska on sekä vaivalloista että vaikeaa saada riittävän laajaa näytevalikoimaa yhdeltä ja samalta puhujalta synteesin pohjaksi.The Cut and Paste method overcomes the naturalness of the 5 frequently synthesized speeches and the more the more extensive finished units are used. Similarly, in the cut and glue method, it may be difficult to match speech to the prosody of natural speech with the rhythm, weight, and intonation of 1st speech, especially when producing completely new material. The pause and intensity of speech can be adjusted as needed within certain limits, but adjusting the tone of speech to natural sentences or replies can be challenging because it is both cumbersome and difficult to obtain a sufficiently wide range of samples from one and the same speaker for synthesis.

Tekstistä puheeksi -synteesissä voidaan myös käyttää aikaisemmin tallennettua puhetta. Konkatenaa-20 tiosynteesissä ennalta äänitetystä tietokannasta valitaan lyhyitä puhesegmenttejä, jotka liitetään peräkkäin haluttujen ilmaisujen aikaansaamiseksi. Mitä pidempiä puhesegmenttejä käytetään, sitä vähemmän syntetisoituun puheeseen tulee ongelmallisia segmenttien 25 liitoskohtia ja muita häiritseviä epäjatkuvuuksia, mutta samalla muistin tarve kasvaa.Previously recorded speech can also be used in a text-to-speech synthesis. In the concatenate-20 thiosynthesis, short speech segments are selected from a prerecorded database, which are linked sequentially to provide the desired expressions. The longer the speech segments are used, the less synthesized speech becomes to problematic segment junctions and other annoying discontinuities, but at the same time the need for memory increases.

Yleisesti kielitieteessä ja fonetiikassa sanojen katsotaan koostuvan foneemeista, jotka reaalis-tuvat ns. allofoneina tai äänteinä. Foneemi on abst-30 raktinen äänteellisesti toteutettavissa oleva yksikkö, jota ei voida jakaa pienempiin segmentteihin, mutta jonka voidaan katsoa koostuvan ns. distinktiivisistä piirteistä. Selkeämmän käsityksen sanojen jakamisesta kielellisiin segmentteihin 1. äänneyksiköihin saa ku-35 viosta 1, jossa on esitetty sanan "takka" jakaminen kirjaimista äänteisiin, semifoneihin sekä difoneihin. Toisaalta, difonin koostuessa äänteen puolikkaista, 3 muodostuu trifoni yhdestä kokonaisesta äänteestä sekä tämän äänteen edeltävän ja seuraavan äänteen puolikkaista .In linguistics and phonetics in general, words are considered to consist of phonemes that come to be known as "phonemes". as allophones or sounds. The phoneme is an abst-30 key sonically feasible unit that cannot be divided into smaller segments, but can be considered to consist of so-called. of the discriminatory features. For a clearer idea of how words are divided into linguistic segments, 1. sound units can be found in Ku-35 bar 1, which shows the division of the word "fireplace" from letters to sounds, semifones and diphones. On the other hand, when a diphon is composed of halves of a sound, 3 is made up of a single triple and the halves of the preceding and following sounds.

Kokonaisten äänteiden leikkaaminen ja liimaa-5 minen sellaisenaan ei kuitenkaan toimi toivotulla tavalla puhesynteesin kannalta. Tämän vuoksi difonikon-katenaatiossa leikataan äänteen jälkimmäinen puolikas ja sitä seuraavan äänteen ensimmäinen puolikas yhteen näytteeseen. Difoniääninäytesegmentit on esitetty 10 ylimmällä rivillä kuviossa 1. Difonikonkatenaatiossa samoin kuin trifonikonkatenaatiossakin segmenttien liitoskohdat osuvat kunkin äänteen keskikohtaan, jolloin äänteiden muutokset ovat pienimmillään ja liitoskohtien vääristymien voidaan olettaa minimoituvan. Di-15 fonit saadaan leikkaamalla ne kaikista mahdollisista foneemi ja/tai allofonipareista, mitä toteutettavassa kielessä esiintyy. (Difoni)konkatenaatiosynteesi yksinkertaisimmillaan ei vaadi laajaa foneettista ymmärrystä ja se on hyvin suosittu puhesynteesin muoto 20 markkinoilla.However, cutting and gluing whole sounds as such does not work as desired for speech synthesis. Therefore, in the diphonicon catenation, the latter half of the sound and the first half of the subsequent sound are cut into one sample. Diphon sample segments are shown in the top 10 rows in Figure 1. In diphon collagenization, as in triphon collagenization, the junctions of the segments hit the center of each sound, thus minimizing the changes in sound and minimizing distortion of the junctions. Di-15 phones are obtained by cutting them out of any pair of phonemes and / or allophones that occur in the language being implemented. (Diphone) concatenation synthesis at its simplest does not require extensive phonetic understanding and is a very popular form of speech synthesis in 20 markets.

Ongelmana konkatenaatiosynteesissä on ääninäytteet käsittävän tietokannan suuri koko. Jos kaikki mahdolliset kombinaatiot halutaan ottaa mukaan, vie näytekirjasto paljon muistitilaa. Ongelmalliseksi muo-25 dostuu erityisesti puhesynteesin tuottaminen kannetta vissa päätelaitteissa, joissa tietokannan muistitila on rajoitettu.The problem with concatenation synthesis is the large size of the database containing the sound samples. If you want to include all possible combinations, take up a lot of memory space in the sample library. Particularly problematic is the production of speech synthesis on portable terminals where the database storage space is limited.

KEKSINNÖN TARKOITUSPURPOSE OF THE INVENTION

30 Keksinnön tarkoituksena on tuoda esille mene telmä puhesynteesin tuottamiseksi. Erityisesti keksinnön tarkoituksena on pienentää puhesynteesissä tarvittavan tietokannan kokoa korvaamalla osa puhesynteesissä käytettävistä äänneyksiköistä jonkin toisen foneet-35 tisesti samanlaisen, kohdekielessä yleisemmän, ään- neyksikön ääninäytteellä.It is an object of the invention to provide a method for producing speech synthesis. In particular, it is an object of the invention to reduce the size of the database required for speech synthesis by replacing some of the voice units used in speech synthesis with a sound sample of another phonetically similar voice unit, which is more general in the target language.

44

KEKSINNÖN YHTEENVETOSUMMARY OF THE INVENTION

Esillä olevan keksinnön tarkoituksena on tuoda esiin menetelmä, järjestelmä sekä ohjelmistotuote puhesynteesin generoimiseksi tietokantaan tallenne-5 tuista äänneyksiköiden ääninäytteistä siten, että käytössä olevan tietokannan koko on mahdollisimman pieni. Äänneyksiköillä ja niiden pienemmillä osilla tarkoitetaan tässä hakemuksessa erityisesti difoneita ja semi-fooneja. Äänneyksikkö voi kuitenkin olla jokin muu 10 tarkoitukseen sopiva äänne tai sen osa, kuten trifoni, tavu tai puolitavu.It is an object of the present invention to provide a method, system and software product for generating speech synthesis from sound samples of sound units stored in a database, so that the size of the database used is as small as possible. In this application, sound units and their smaller parts are especially meant diphones and semi-phons. However, the sound unit may be any other sound portion or part thereof, such as a tryphone, byte or half-byte, suitable for the purpose.

Esillä olevan keksinnön tunnusomaisten piirteiden suhteen viitataan patenttivaatimuksiin.With respect to the features of the present invention, reference is made to the claims.

Keksinnön mukaisessa menetelmässä generoidaan 15 synteettinen puhe äänneyksiköitä vastaavista ääninäyt teistä, jotka on tallennettu tietokantaan, jossa menetelmässä vastaanotetaan tekstisyöte ja jaetaan vastaanotettu tekstisyöte äänneyksiköihin. Keksinnön mukaisessa menetelmässä lisäksi poimitaan 20 äänneyksikköjonoja vastaavat ääninäytteet tietokannas ta siten, että ne täyttävät ehdot: määritetään kohdekielessä erittäin yleiset äänneyksiköt (difonit), yleiset äänneyksiköt sekä harvinaiset äänneyksiköt; määritetään, onko äänneyksikkö tilastoitu kohdekielessä 25 harvinaiseksi äänneyksiköksi; mikäli äänne on tilastoitu harvinaiseksi äänneyksiköksi kohdekielessä, se kootaan pienemmistä äänneyksiköistä kuten semifoneista; muutoin, määritetään onko äänneyksikkö foneettisesti samanlainen kuin jokin toinen kohdekielessä yleisempi äänneyk-30 sikkö; mikäli äänneyksikkö on foneettisesti samanlai nen kuin jokin toinen kohdekielessä yleisempi äänneyksikkö, korvataan se yleisemmän äänneyksikön ääninäytteellä; muutoin, haetaan tietokannasta alkuperäistä äänneyksikköä vastaava ääninäyte; ja generoidaan puhe-35 synteesi tietokannasta poimituista ääninäytteistä.The method of the invention generates 15 synthetic speech samples of voice samples stored in a database, the method of receiving a text input and dividing the received text input into sound units. The method of the invention further comprises extracting sound samples corresponding to 20 sound unit strings from the database so that they satisfy the following conditions: determining very common sound units (diphons), common sound units, and rare sound units in the target language; determining whether the sound unit is statistically classified as 25 rare sound units in the target language; if the sound is statistically reported as a rare sound unit in the target language, it is compiled from smaller sound units such as semifones; otherwise, determining if the sound unit is phonetically similar to another sound unit more common in the target language; if the sound unit is phonetically similar to another sound unit that is more general in the target language, it is replaced by the sound sample of the more general sound unit; otherwise, retrieving from the database a sample of the sound corresponding to the original sound unit; and generating a speech-35 synthesis from the audio samples extracted from the database.

Edelleen keksinnön mukaisessa menetelmässä määritetään lisäksi kohdekielessä erittäin harvinaiset 5 äänneyksiköt ja korvataan nämä kohdekielessä erittäin harvinaisiksi tilastoidut äänneyksiköt hiljaisuus-hiljaisuus -ääninäytteellä.Furthermore, the method of the invention further determines the extremely rare sound units in the target language and replaces these sound units, which are very rare in the target language, with a silence-silence sample.

Ääniyksiköiden määrittäminen erittäin ylei-5 seksi, yleiseksi, harvinaiseksi tai erittäin harvinaiseksi äänneyksiköiksi perustuu kullekin kohdekielelle ominaisiin kunkin äänneyksikön suhteellisen esiintymis todennäköisyyden raj a-arvoihin.The definition of sound units as very common, generic, rare or very rare is based on the limits of the relative likelihood of each sound unit being specific to each target language.

Esillä olevan keksinnön kohteena on lisäksi 10 järjestelmä puhesynteesin generoimiseksi ääninäytteistä, jotka on tallennettu tietokantaan, joka järjestelmä käsittää: keskusyksikön puhesynteesin generoimisek si, näytön, välineet tekstisyötteen antamiseksi, muistin sekä ääninäytteet sisältävän tietokannan, johon 15 tietokantaan tallennettaessa ääninäytteitä kohdekie lessä harvinaisiksi tilastoidut äänneyksiköt korvataan semifoneilla; foneettisesti samanlaiset äänneyksiköt korvataan toisella, kohdekielessä yleisemmällä, ään-neyksiköllä; sekä erittäin yleiset äänneyksiköt tal-20 lennetään sellaisenaan. Lisäksi järjestelmä käsittää ulostulon puhesynteesissä generoidun puheen välittämiseksi .The present invention further relates to a system for generating speech synthesis from voice samples stored in a database comprising: a central processing unit for speech synthesis, a display, means for text input, a memory and a database containing voice samples, where ; phonetically identical sound units are replaced by another, more general, sound unit in the target language; and the very common sound units tal-20 are flown as such. In addition, the system comprises an output for transmitting speech generated in speech synthesis.

Edelleen keksinnön kohteena on ohjelmistotuote puhesynteesin generoimiseksi ääninäytteistä, 25 jotka on tallennettu tietokantaan, joka ohjelmisto tuote on järjestetty vastaanottamaan tekstisyöte ja jakamaan vastaanotettu tekstisyöte äänneyksiköihin. Ohjelmistotuote on lisäksi järjestetty poimimaan ään-neyksikköä vastaava ääninäyte tietokannasta siten, et-30 tä se täyttää ehdot: ohjelmistotuote on järjestetty määrittämään kohdekielessä erittäin yleiset äänneyksiköt, yleiset äänneyksiköt sekä harvinaiset äänneyksiköt. Ohjelmistotuote on lisäksi järjestetty määrittämään, onko äänneyksikkö tilastoitu kohdekielessä harvi-35 naiseksi äänneyksiköksi; mikäli äänneyksikkö on tilas toitu harvinaiseksi kohdekielessä, ohjelmistotuote on edelleen järjestetty kokoamaan äänneyksikkö pienemmistä 6 äänneyksiköistä kuten semifoneista; muutoin, ohjelmistotuote on järjestetty määrittämään onko äänneyksikkö foneettisesti samanlainen kuin jokin toinen kohdekielessä yleisempi äänneyksikkö; mikäli äänneyksikkö on 5 foneettisesti samanlainen kuin jokin toinen kohdekielessä yleisempi äänneyksikkö, ohjelmistotuote on järjestetty korvaamaan se yleisemmän äänneyksikön ääninäytteellä; muutoin, ohjelmistotuote on järjestetty hakemaan tietokannasta alkuperäistä äänneyksikköä vas-10 taava ääninäyte. Lisäksi ohjelmistotuote on järjestetty generoimaan puhesynteesi tietokannasta poimituista ääninäytteistä.The invention further relates to a software product for generating speech synthesis from audio samples stored in a database, which software product is arranged to receive a text input and divide the received text input into sound units. The software product is further arranged to extract an audio sample corresponding to a sound unit from a database so that it satisfies the conditions: the software product is arranged to determine very common sound units, common sound units, and rare sound units in the target language. The software product is further arranged to determine whether the audio unit is statistically identified as a rare-35 audio unit in the target language; if the sound unit is spatially rare in the target language, the software product is further arranged to assemble the sound unit from smaller 6 sound units such as semifones; otherwise, the software product is arranged to determine whether the sound unit is phonetically similar to another sound unit more common in the target language; if the sound unit 5 is phonetically similar to another sound unit more general in the target language, the software product is arranged to replace it with the sound sample of the more general sound unit; otherwise, the software product is arranged to retrieve from the database an audio sample corresponding to the original audio unit. In addition, the software product is arranged to generate speech synthesis from audio samples extracted from a database.

Esillä olevan keksinnön avulla konkatenaatio-synteesissä käytettävän tietokannan, kuten difonitie-15 tokannan, vaatima muistitila pienenee. Esillä olevan keksinnön avulla mahdollistetaan entistä paremmin puhesynteesin toteuttaminen erityisesti kannettavissa laitteissa, joiden muistikapasiteetti on rajallinen. Edelleen keksinnön avulla mahdollistetaan puhesyntee-20 sin käyttö monikielisesti päätelaitteissa, jolloin useampia kohdekieliä sisältävät tietokannat vaativat yhä vähemmän muistikapasiteettia. Tällöin kannettavan päätelaitteen muistikapasiteetista entistä suurempi osa voidaan käyttää muuhun tarkoitukseen. Lisäksi ver-25 kossa voidaan välittää haluttua dataa tekstimuodossa riippumatta siitä, missä muodossa (1. tekstimuodossa vai äänisignaalina) käyttäjä vastaanottaa viestin.With the present invention, the amount of memory required for a database used in concatenation synthesis, such as the diphtheritie-15, is reduced. The present invention further facilitates the implementation of speech synthesis, particularly in portable devices with limited memory capacity. Furthermore, the invention enables multilingual use of speech synthesis terminals, whereby databases containing multiple target languages require less and less memory capacity. In this case, a larger portion of the memory capacity of the portable terminal may be used for other purposes. In addition, ver-25 can transmit the desired data in plain text, regardless of the form (in plain text format or as an audio signal) the user receives the message.

KUVIOLUETTELOLIST OF FIGURES

30 Kuvio 1 esittää sanan "takka" segmentoinnin pienemmiksi yksiköiksi, kuvio 2 esittää erään toimintalohkokaavion keksinnön mukaisen puhesynteesin toteuttamiseksi, kuvio 3 esittää erään keksinnön mukaisen so-35 velluksen äänneyksiköiden yleisyyden määrittämiseen, 7 kuvio 4 esittää erään keksinnön mukaisen sovelluksen äänneyksiköiden indeksoinnille tietokannassa, ja kuvio 5 esittää keksinnön mukaisen järjestel-5 män puhesynteesin generoimiseksi yksinkertaistettuna.Figure 1 shows a segmentation of the word "fireplace" into smaller units, Figure 2 illustrates a functional block diagram for implementing speech synthesis according to the invention, Figure 3 shows an application for determining the frequency of sound units according to the invention; 5 shows a system according to the invention for generating speech synthesis in simplified form.

KEKSINNÖN YKSITYISKOHTAINEN KUVAUSDETAILED DESCRIPTION OF THE INVENTION

Kuvio 2 esittää erään sovelluksen keksinnön mukaisen puhesynteesin toimintalohkokaaviosta. Keksin-10 nön mukaisessa menetelmässä vastaanotetaan syöte tekstimuodossa 21. Tekstisyöte normalisoidaan eli muutetaan numerot lukusanoiksi, kirjoitetaan lyhenteet auki jne. Tämän jälkeen tekstiä käsitellään vielä mm. muuntamalla sanat äänneyksiköiksi (22) esimerkiksi difo-15 neiksi, jakamalla äänneyksikköjonot ja niitä vastaa vat difonit tavuiksi, ja laskemalla difoneille äänne-kestot sekä sävelkulku. Sävelkulkuun kuuluu puheen rytmi, painotukset ja intonaatio, joiden ominaisuuksia analysoidaan luonnollisesta puheesta. Analysoinnin pe-20 rusteella luodaan sääntöjä vastaavien ominaisuuksien tuottamiseksi synteettiseen puheeseen. Kutakin difonia analysoidaan erikseen. Difonin analysoinnissa määritetään onko kyseessä oleva difoni luokiteltu kohdekielessä harvinaiseksi difoniksi 23. Jos difoni on luoki-25 teltu kohdekielessä harvinaiseksi difoniksi, se kootaan pienemmistä äänneyksiköistä kuten semifoneista 24. Jos difonia ei ole luokiteltu harvinaiseksi difoniksi, määritetään, onko se foneettisesti samanlainen kuin jokin kohdekielessä yleisempi difoni 25. 30 Jos difoni on samanlainen kuin jokin toinen kohdekielessä yleisempi difoni, se korvataan tällä difonilla 26. Jos difoni ei ole foneettisesti samanlainen kuin jokin yleisempi difoni, käytetään alkuperäistä difonia 27. Kutakin difonia vastaava ääninäyte haetaan tieto-35 kannasta 28, valitaan näytteelle sen kesto 29 ja generoidaan itse puhesignaali 210. Jokaiselle tekstisyöt-teen äänneyksikölle haetaan sitä vastaava ääninäyte 8 tietokannasta kunnes kaikki tekstisyötteen difonit on käyty läpi.Figure 2 illustrates an embodiment of a functional block diagram of speech synthesis according to the invention. In the method according to the invention -10, the input is received in text format 21. The text input is normalized, i.e., the numbers are converted into read words, the abbreviations are written out, etc. After that, the text is further processed e.g. converting the words into sound units (22), for example diphones, dividing the sound unit strings and their corresponding diphones into bytes, and calculating the sound durations and the pitch of the diphones. The musical flow includes speech rhythm, accents, and intonation, the characteristics of which are analyzed from natural speech. An analysis p-20 platform is used to create rules for producing similar properties to synthetic speech. Each diphtheria is analyzed separately. Analyzing a diphon determines whether the diphon in question is classified as a rare diphon in the target language. Diphon 25. 30 If the diphon is similar to another diphon that is more common in the target language, it will be replaced by this diphon 26. If the diphon is not phonetically similar to a more general diphon, the original diphon 27 will be used. its duration 29 and generating the speech signal 210 itself. For each text input audio unit, a corresponding audio sample is retrieved from 8 databases until all text input diphones have been processed.

Suomen kielen yleisimmät ja harvinaisimmat difonit voidaan määrittää esimerkiksi seuraavalla ta-5 valla. Luodaan tekstikorpus eli sellainen tietokanta, joka sisältää massoittain suomenkielistä tekstiä. Tästä tekstikorpuksesta voidaan tarkastella tilastollisesti mitkä difonit ovat suomenkielessä yleisiä ja mitkä harvinaisia määrittelemällä äänneyksikön/difonin 10 esiintymistiheydelle jokin raja-arvo. Raja-arvon ylittyessä difonin voidaan määrittää olevan yleinen. Kuvio 3 esittää erään sovelluksen difoneiden yleiseksi tai harvinaiseksi määrittämiselle. Kuvion 3 y-akseli kuvaa difoneiden suhteellista esiintymistiheyttä eli sitä, 15 kuinka yleinen difoni on ja x-akseli kuvaa todennäköisyyttä sille, että difonille käytetään korvaavan ään-neyksikön ääninäytettä. Kuvion 3 tapauksessa raja-arvon 31 ylittävät difonit määritellään erittäin yleisiksi. Raja-arvon 32 ylittävät difonit määritellään 20 yleisiksi, jolloin sen alle jäävät difonit määritellään harvinaisiksi. Raja-arvon 33 alle jäävät difonit ovat kohdekielen erittäin harvinaisia. Kuviossa 3 ensimmäisen raja-arvon 31 ylittävät difonit ovat niin yleisiä, että ne voidaan tallentaa tietokantaan sel-25 laisenaan. Toisen raja-arvon 32 ylittävät difonit voidaan korvata jollakin muulla esimerkiksi edelliseen kategoriaan kuuluvalla difonilla. Toisen raja-arvon 32 alittavat difonit sen sijaan määritellään niin harvinaisiksi, että ne muodostetaan pienemmistä äänneyksi-30 köistä, kuten difonien puolikkaista, semifoneista. Erittäin harvinaiset difonit eli raja-arvojen 33 ja 34 väliin jäävät äänneyksiköt voidaan korvata esimerkiksi pelkällä hiljaisuudella.The most common and rare diphthongs in the Finnish language can be determined, for example, in the following way. Create a text corpus, a database that contains masses of Finnish text. From this corpus of text it is possible to statistically examine which diphones are common and rare in Finnish by defining a threshold for the frequency of sound unit / diphon 10. Exceeding the threshold can be determined to be general. Figure 3 illustrates an application for the general or rare determination of diphones. The y-axis of Figure 3 represents the relative frequency of the diphones, that is, how common the diphon is, and the x-axis represents the probability that a replacement sample of the sound unit will be used for the diphon. In the case of Figure 3, diphones above the threshold 31 are defined as very common. Diphones above the threshold 32 are defined as common, with diphones below that defined as rare. Diphones below threshold 33 are extremely rare in the target language. In Figure 3, diphones above the first threshold 31 are so common that they can be stored in a database as such. Diphones above the second cut-off value 32 can be replaced by another diphon, e.g. Diphones below the second cut-off value 32, on the other hand, are defined as rare enough to be formed of smaller voices, such as half-diphones, semiphones. Very rare diphones, that is, sound units between the limit values 33 and 34, can be replaced, for example, by mere silence.

Jos difoni, ei ylitä kuvion 3 kynnystä 32 35 riittävän yleiseksi difoniksi määrittämiselle, muodostetaan difoni sen puolikkaista, semifoneista. Tällöin difoni luokitellaan tilastollisesti harvinaiseksi 9 kohdekielessä. Jos sanassa esiintyy esimerkiksi difoni "h-j", kootaan tämä harvinainen difoni pareista "h-hiljaisuus" ja "hiljaisuus-j". Jos difonia ei ole luokiteltu erittäin harvinaiseksi äänneyksiköksi, tarkis-5 tetaan onko kyseinen difoni foneettisesti samanlainen kuin jokin toinen, kielessä yleisempi difoni. Esimerkiksi "g-ö" ja "k-ö" ovat foneettisesti samanlaisia difoneita. Jos kyseessä oleva difoni on foneettisesti samanlainen kuin jokin muu difoni, voidaan se korvata 10 tällä yleisemmällä difonilla. Jos difonia ei ole luokiteltu foneettisesti samanlaiseksi kuin jokin muu kielessä yleisempi difoni, käytetään alkuperäistä difonia puhesynteesin muodostamiseen.If the diphon does not exceed the threshold 32 of Figure 3 for a sufficiently generalized diphon, the diphon is formed from its half semiphones. In this case, the diphtheria is statistically classified as rare in the 9 target languages. For example, if the word contains a diphon "h-j", this rare diphon is assembled from the pairs "h-silence" and "silence-j". If the diphtheria is not classified as a very rare sound unit, it is checked whether the diphtheria is phonetically similar to another diphtheria which is more common in the language. For example, "g-ö" and "k-ö" are phonetically similar diphones. If the diphon in question is phonetically similar to another diphon, it may be replaced by 10 more general diphones. Unless the diphtheria is classified phonetically similar to another diphtheria more common in the language, the original diphon is used to generate speech synthesis.

Difonin korvaaminen jonkin toisen, kohdekie-15 lessä yleisemmän difonin, ääninäytteellä perustuu ään-neyksiköiden foneettiseen samanlaisuuteen eli siihen, kuinka lähellä äänneyksiköt ovat toisiaan niitä tuotettaessa. Toisen äänneyksikön korvaaminen hyvin samantyyppisellä ääninäytteellä ei tuota täysin vastaa-20 vaa puhetta kuin alkuperäisillä ääninäytteillä toteutettu puhe, mutta sen laadussa olevat muutokset ovat niin vähäisiä ettei ihmiskorva välttämättä erota niitä laisinkaan.The replacement of a diphon by a sound sample of another diphon, which is more common in the target language, is based on the phonetic similarity of the sound units, that is, the proximity of the sound units to each other when producing them. Replacing another unit of sound with a very similar type of sound sample does not produce exactly the same speech as the original sound sample, but the changes in its quality are so slight that it may not be distinguished at all by the human ear.

Difonien korvaaminen voidaan toteuttaa myös 25 seuraavan periaatteen mukaisesti. Luokitellaan kaikki kuvion 3 raja-arvon 31 ylittävät difonit erittäin yleisiksi difoneiksi ja tallennetaan kaikki tämän raja-arvon ylittävät difonit difonitietokantaan sellaisenaan. Raja-arvojen 31 ja 32 väliin jäävät difonit 30 korvataan jollakin raja-arvon 31 ylittävällä erittäin yleisellä difonilla, joka on foneettisesti samanlainen kuin esillä oleva raja-arvojen 31 ja 32 väliin jäävä difoni. Kuvion 3 raja-arvojen 32 ja 33 väliin jäävät difonit määritellään harvinaisiksi difoneiksi, jolloin 35 ne korvataan kahdella difonin puolikkaalla eli semifo-neilla. Lisäksi raja-arvojen 33 ja 34 väliin jäävät difonit (erittäin harvinaiset difonit) korvataan pel- 10 källä hiljaisuudella eli hiljaisuus_hiljaisuus -parilla .Substitution of diphones can also be accomplished according to the following 25 principles. All diphones above the limit 31 of Figure 3 are classified as very common diphones and all diphones above this limit are stored as such in the diphone database. The diphones 30 between the thresholds 31 and 32 are replaced by a very common diphon above the threshold 31, which is phonetically similar to the present diphon between the thresholds 31 and 32. Diphones between the boundary values 32 and 33 of Figure 3 are defined as rare diphones, whereby they are replaced by two halves of the diphon, semiphones. In addition, the diphones (very rare diphones) between the limit values 33 and 34 are replaced by the silence only, i.e. the silence-silence pair.

Kaikki mahdolliset kohdekielessä esiintyvät äänneyksiköt on merkitty tietokannassa asianmukaisilla 5 nimilapuilla 1. indekseillä, jotta määrätyn segmentin hakeminen tietokannasta onnistuu. Tekniikan tason tietokannassa kutakin difonia vastaa yksi ääninäyte, jolloin difonia tunnistettaessa sille annettu indeksi osoittaa suoraan vastaavaan ääninäytteeseen tietokan-10 nassa. Tällöin difonitietokanta vaatii kuitenkin kohtuuttoman paljon muistitilaa.All possible sound units in the target language are marked in the database with the appropriate 5 name tags, 1. indexes, in order to retrieve a specific segment from the database. In the prior art database, each diphtheria is represented by a single sample of sound, whereupon the index assigned to it recognizes it directly to the corresponding sound sample in the database. However, in this case, the diphone database requires a disproportionate amount of memory.

Keksinnön mukaisen järjestelmän äänneyksiköi-den ääninäytteet käsittävässä tietokannassa osa difo-neista on korvattu foneettisesti samanlaisella di-15 fonilla tai kahdella semifonilla. Kuviossa 4 on esitetty keksinnön mukainen difoneiden 41 indeksointi di-fonitietokannassa 42. Jokaiselle difonille 41 on annettu indeksi 43, jonka perusteella sitä vastaava ääninäyte haetaan difonitietokannasta 42. Difonit 411 ja 20 412 on merkitty samalla indeksillä ii, joka vastaa ky seessä olevaa ääninäytettä 413 tietokannassa 42. Difo-nin 411 kanssa foneettisesti samanlainen difoni 412 on korvattu difonin 411 ääninäytteellä 413. Myös difonien puolikkaita eli semifoneja voidaan korvata foneettis-25 ten ominaisuuksien perusteella. Esimerkiksi äänne _a 414 on äänteen m tai p jälkeen foneettisesti samanlainen, jolloin tällaisesta äänneyksiköstä ei tietokannassa tarvita kuin yksi näyte. Tällöin indeksi iy viittaa äänteen m_a 415 koottavan semifoneista 30 m_hiljaisuus 417 ja hiljaisuus_a 414. Vastaavasti ään-neylsikön p_a 416 indeksi iz viittaa ääninäytteeseen p_hiljaisuus 418 ja hiljaisuus_a 414. Harvinaisiksi luokitellut difonit on tietokannassa koottu semifoneista. Esimerkiksi kohdekielessä harvinaiseksi ään-35 teeksi tilastoidun difonin t_k 419 indeksi ix viittaa kahteen semifoniin: t_hiljaisuus ja hiljaisuus_k.In the database of the sound samples of the sound units of the system according to the invention, some of the diphones have been phonetically replaced by a similar di-15 phon or two semiphones. Figure 4 shows an indexing of diphones 41 according to the invention in a diphonic database 42. Each diphon 41 is given an index 43, based on which a corresponding voice sample is retrieved from a diphone database 42. Diphones 411 and 20412 are designated 42. A phonetically similar diphone 411 to diphone 411 has been replaced by a diphone 411 sound sample 413. Also, half-diphones, i.e. semiphones, can be replaced on the basis of their phonetic properties. For example, the sound _a 414 after the sound m or p is phonetically similar so that only one sample of such a sound unit is needed in the database. In this case, the index iy refers to the m_a 415 of the semiphones composed 30 of the silence 417 and of the silence 414. For example, the index ix of the diphon t_k 419, compiled as a rare sound 35 in the target language, refers to two semiphones: t_silence and silence_k.

1111

Tietokantaan tallennettujen ääninäytteiden määrää saadaan pienennettyä huomattavasti korvaamalla osa difoneista toisella foneettisesti samanlaisella, kohdekielessä yleisemmällä, difonilla. Pienentämällä 5 ääninäytteiden lukumäärää saadaan luonnollisesti vähennettyä myös tietokannan vaatimaa muistitilaa. Di-fonitietokannasta ei kuitenkaan poisteta sellaisia di-foneita, joiden alku- tai loppuosa on hiljaisuus-äänneyksikkö, koska harvinaiset äänneyksiköt, esimer-10 kiksi t_k, muodostetaan t_hiljaisuus ja hiljaisuus_k parista.The number of sound samples stored in the database can be significantly reduced by replacing some of the diphones with another phonetically similar diphon, which is more common in the target language. Of course, reducing the number of sound samples by 5 also reduces the amount of memory required by the database. However, di-phones that begin or end with a silence-sound unit are not removed from the di-phonebook because rare sound units, such as 10-tkk, are formed from t-silence-silence-k.

Keksinnön mukainen järjestelmä on esitetty yksinkertaistettuna kuviossa 5. Järjestelmä käsittää näytön 50 sekä syöttölaitteen 54 kuten perinteisen 15 näppäimistön tai hiiren tekstin syöttämiseksi. Keksinnön mukainen järjestelmä käsittää keskusyksikön (CPU) 51, joka kontrolloi koko järjestelmän toimintaa. Keskusyksikkö huolehtii tekstisyötteen vastaanottamisesta sekä sen käsittelystä. Se etsii difonitietokannasta 55 20 kutakin difonia vastaavan ääninäytteen ja välittää muodostetun puheen ulostulolle 53. Ulostulo voi olla esimerkiksi mikrofoni, joka välittää tekstistä muodostetun synteettisen puheen käyttäjälle. Muisti 52 sisältää difonitietokannan 55 lisäksi ohjelmistot, joi-25 den perusteella keskusyksikkö 51 toteuttaa sille tarkoitetut tehtävät.The system according to the invention is shown in simplified form in Figure 5. The system comprises a display 50 and an input device 54 such as a traditional 15 keyboard or mouse for entering text. The system of the invention comprises a central processing unit (CPU) 51 which controls the operation of the entire system. The Central Unit is responsible for receiving and processing the text input. It searches the Diphone Database 55 20 for a sample of voice corresponding to each diphon and forwards the generated speech to the output 53. The output may be, for example, a microphone that transmits the text-generated synthetic speech to the user. The memory 52 contains, in addition to the diphon database 55, software for the central processing unit 51 to perform the functions assigned to it.

Vaikka edellä esitetyissä esimerkeissä tietokantana on mainittu difonitietokanta, voidaan keksinnön mukaista menetelmää hyödyntää myös käytettäessä 30 muita äänneyksiköitä tai äänneyksiköiden pienempiä yksiköitä, esimerkiksi trifoneita, semifooneja, tavuja tai puolitavuja, puhesynteesin generoimisessa. Vastaavasti, vaikka kohdekielenä on edellä esitetyissä esimerkeissä suomen kieli, voidaan keksinnön mukaista me-35 netelmää soveltaa myös muille kohdekielille.Although the diphtheria database is mentioned as the database in the above examples, the method of the invention can also be utilized to generate speech synthesis using other sound units or smaller units of sound units, for example triphones, semiphones, bytes or half-bytes. Correspondingly, although the target language in the above examples is Finnish, the method of the invention can also be applied to other target languages.

Keksintöä ei rajata pelkästään edellä esitettyjä sovellusesimerkkejä koskevaksi, vaan monet muun 12 nokset ovat mahdollisia pysyttäessä patenttivaatimusten määrittelemän keksinnöllisen ajatuksen puitteissa.The invention is not limited only to the above exemplary embodiments, but many other embodiments are possible within the scope of the inventive idea defined by the claims.

Claims (9)

1. Förfarande för talsyntes generering ur spräkljudenheter som motsvarar ljudprov, vilka är lag- 5 rade i en databas, vilket förfarande omfattar skedena: en textinmatning (21) mottas; den mottagna textinmatningen uppdelas i spräkljudenheter (22); kännetecknat därav, att förfaran-10 det ytterligare omfattar skedena: ur databasen plockas ett ljudprov motsvarande spräkljudenheten ut sä, att det uppfyller villkoren: i mälspräket definieras synnerligen allmänna spräkljudenheter, allmänna spräkljudenheter samt ovan-15 liga spräkljudenheter; definieras, om spräkljudenheten i mälspräket är statistikförd som en ovanlig spräkljudenhet (23); om spräkljudenheten är statikförd som en ovanlig spräkljudenhet i mälspräket, läggs den ihop av 20 mindre spräkljudenheter (24); annars, definieras om spräkljudenheten är fo-netiskt likadan som nägon annan i mälspräket allmänna-re spräkljudenhet (25); om spräkljudenheten fonetiskt är likadan som 25 nägon annan i mälspräket allmännare spräkljudenhet, ersätts den med den allmännare spräkljudenhetens ljudprov (26) ; annars, söks ur databasen fram ett ljudprov (27) som motsvarar den ursprungliga spräkljudenheten; 3 0 och talsyntesen genereras av de ur databasen ut-plockade spräkljudproven (210).A method of speech synthesis generation from burst sound units corresponding to sound samples stored in a database, the method comprising the steps of: a text input (21) being received; the received text input is divided into burst audio units (22); characterized in that the method further comprises the stages: from the database, a sound sample corresponding to the burst sound unit is selected so as to meet the conditions: in the milling puncture, particularly general burst sound units, general burst sound units and unusual burst sound units are defined; is defined, if the burst sound unit in the burst is statistically recorded as an unusual burst sound unit (23); if the burst sound unit is statically recorded as an unusual burst sound unit in the molar crest, it is joined by 20 smaller burst sound units (24); otherwise, it is defined whether the burst sound unit is phonetically similar to any other burst sound general burner (25); if the burst sound unit is phonetically the same as any other burst sound unit, it is replaced by the sound burner sound sample (26); otherwise, an audio sample (27) corresponding to the original burst sound unit is retrieved from the database; And speech synthesis is generated by the cracked sound samples (210) extracted from the database. 2. Förfarande enligt patentkrav 1, kännetecknat därav, att förfarandet ytterligare 35 omfattar skedena: i mälspräket definieras de synnerligen ovan-liga spräkljudenheterna; de i mälspräket som synnerligen ovanliga spräkljudenheter statikförda spräkljudenheterna er-sätts med ett tystnad_tystnad-ljudprov.2. A method according to claim 1, characterized in that the method further comprises the stages: in the milling puncture, the particularly unusual cracking sound units are defined; the static-sounded burst units in the target slog as particularly unusual bursting sound units are replaced with a silence-silence sound sample. 3. Förfarande enligt patentkrav 1 eller 2, 5 kännetecknat därav, att spräkljudenheternas definiering som synnerligen allmänna, allmänna, ovanliga eller synnerligen ovanliga spräkljudenheter grun-dar sig pä kannetecknande gränsvärden för tätheten av spräkljudenhetens relativa förekomst i vart och ett 10 mälspräk.3. A method according to claims 1 or 2, 5, characterized in that the definition of the explosive sound units as extremely general, general, unusual or particularly unusual sound sound units is based on pitch-drawing limit values for the density of the relative presence of the spray sound unit in each mill. 4. System för talsyntesens generering ur 1judprov, vilka är lagrade i en databas, vilket system omfattar: en centralenhet för talsyntesens generering 15 (51); en bildskärm (50); medel (54) för givande av en textinmatning; och ett minne (52); 20 kännetecknat därav, att systemet ytterligare omfattar: en databas (55) , i vilken databas vid lag-ringen av 1judprov de spräkljudenheter som i mälspräket är statikförda som ovanliga ersätts med mindre 25 spräkljudenheter; fonetiskt likadana spräkljudenheter ersätts med nägon annan, i mälspräket allmännare spräkljudenhet; samt synnerligen allmänna spräkljudenheter sparas som sädana; och en utgäng (53) för förmedlande av det i tal-30 syntesen genererade talet.A system for speech synthesis generation from sound samples stored in a database, comprising: a central unit for speech synthesis generation (51); a display (50); means (54) for providing a text entry; and a memory (52); Characterized in that the system further comprises: a database (55), in which the database when storing sound samples the bursting sound units which are statically recorded in the target seam, which are unusually replaced with smaller bursting sounding units; phonetically similar explosive sound devices are replaced by someone else, in general, a more pronounced sound sound device; and particularly general cracking sound units are saved as such; and an output (53) for conveying the speech generated in speech synthesis. 5. System enligt patentkrav 4, kännetecknat därav, att vid lagrandet av ljudprov i databasen ersätts de i mälspräket synnerligen ovanliga spräkljudenheterna med ett tystnad_tystnad-ljudprov.5. A system according to claim 4, characterized in that when storing sound samples in the database, the unusually unusual crack sound units are replaced by a silent-silent sound sample. 6. System enligt patentkrav 4 eller 5, kännetecknat därav, att definierande av spräkljudenheten som en synnerligen allmän, allmän, ovanlig eller synnerligen ovanlig spräkljudenhet grun-dar sig pä kännetecknande gränsvärden för tätheten av spräkljudenhetens reiätiva förekomst i vart och ett mälspräk.6. A system according to claim 4 or 5, characterized in that defining the burst sound unit as a very general, general, unusual or particularly unusual bursting unit is based on characteristic limit values for the density of the bursting unit's occurrence in each mill. 7. Programvaraprodukt för talsyntes genere- ring ur ljudprov, vilka är lagrade i en databas (55) , vilken programvaraprodukt är anordnad att: motta en textinmatning (21); och uppdela den mottagna textinmatningen i spräk-10 ljudenheter (22); kännetecknad därav, att programva-raprodukten ytterligare är anordnad att: ur databasen plocka ut ett ljudprov som mot-svarar spräkljudenheten sä, att det uppfyller villko-15 ren: programvaraprodukten är anordnad att i mäl-spräket definiera synnerligen allmänna spräkljudenhe-ter, allmänna spräkljudenheter samt ovanliga spräk-1judenheter; 20 programvaraprodukten är ytterligare anordnad att definiera, om spräkljudenheten i mälspräket är statistikförd som en ovanlig spräkljudenhet (23); om spräkljudenheten är statikförd som en ovanlig spräkljudenhet i mälspräket, är programvara-25 produkten ytterligare anordnad att lägga ihop spräk-ljudenheten av mindre spräkljudenheter (24); annars, är programvaraprodukten anordnad att definiera om spräkljudenheten fonetiskt är likadan som nägon annan i mälspräket allmännare spräkljudenhet 30 (25); om spräkljudenheten fonetiskt är likadan som nägon annan i mälspräket allmännare spräkljudenhet, är programvaraprodukten anordnad att ersätta spräkljudenheten med ett ljudprov (26) av en allmännare spräk-35 ljudenhet; annars, är programvaraprodukten anordnad att ur databasen söka fram ett ljudprov (27) som motsvarar den ursprungliga spräkljudenheten; och programvaraprodukten är anordnad att generera 5 talsyntesen av de ur databasen utplockade ljudproven (210) .7. Software product for speech synthesis generation from sound samples stored in a database (55), which software product is arranged to: receive a text input (21); and dividing the received text input into crack audio units (22); characterized in that the software product is further arranged to: extract from the database a sound sample corresponding to the spray sound unit, so that it fulfills the condition: the software product is arranged to define in the target language particularly general spray sound devices, general sound devices and unusual speech audio devices; The software product is further arranged to define if the burst sound unit in the burst is statistically recorded as an unusual burst sound unit (23); if the burst sound unit is statically listed as an uncommon burst sound unit in the burst, the software product is further arranged to assemble the burst sound unit of smaller burst sound units (24); otherwise, the software product is arranged to define whether the burst sound unit is phonetically similar to any other burst sound unit 30 (25) in the mill. if the burst sound unit is phonetically similar to any other burst sound unit, the software product is adapted to replace the burst sound unit with a sound sample (26) of a more general burst sound unit; otherwise, the software product is arranged to retrieve from the database a sound sample (27) corresponding to the original burst sound unit; and the software product is arranged to generate the speech synthesis of the audio samples extracted from the database (210). 8. Programvaraprodukt enligt patentkrav 7, kännetecknad därav, att den är anordnad att: 10 definiera de i mälspräket synnerligen ovanli- ga spräkljudenheterna; i mälspräket ersätta en som en synnerligen ovanlig spräkljudenhet statikförd spräkljudenhet med ett tystnad_tystnad-ljudprov.8. A software product according to claim 7, characterized in that it is arranged to: 10 define the highly explosive sound devices in the milling language; in the target slug, replace a static-sounded unit with a silent-silent sound sample as a particularly unusual burst sound unit. 9. Programvaraprodukt enligt patentkrav 7 el- ler 8, kännetecknad därav, att programvaraprodukten är anordnad att: definiera spräkljudenheten som en synnerligen allmän, allmän, ovanlig eller synnerligen ovanlig 20 spräkljudenhet baserande sig pä kännetecknande gräns-värden för tätheten av spräkljudenhetens reiätiva fö-rekomst i vart och ett mälspräk.9. A software product according to claim 7 or 8, characterized in that the software product is arranged to: define the spray sound unit as a particularly general, general, unusual or extremely unusual spray sound unit based on the characteristic limit values for the density of the spray sound device. in each mill.
FI20051181A 2005-11-18 2005-11-18 A method for producing speech synthesis FI119859B (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FI20051181A FI119859B (en) 2005-11-18 2005-11-18 A method for producing speech synthesis

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI20051181 2005-11-18
FI20051181A FI119859B (en) 2005-11-18 2005-11-18 A method for producing speech synthesis

Publications (3)

Publication Number Publication Date
FI20051181A0 FI20051181A0 (en) 2005-11-18
FI20051181A FI20051181A (en) 2007-05-19
FI119859B true FI119859B (en) 2009-04-15

Family

ID=35458787

Family Applications (1)

Application Number Title Priority Date Filing Date
FI20051181A FI119859B (en) 2005-11-18 2005-11-18 A method for producing speech synthesis

Country Status (1)

Country Link
FI (1) FI119859B (en)

Also Published As

Publication number Publication date
FI20051181A (en) 2007-05-19
FI20051181A0 (en) 2005-11-18

Similar Documents

Publication Publication Date Title
US8566099B2 (en) Tabulating triphone sequences by 5-phoneme contexts for speech synthesis
US8990089B2 (en) Text to speech synthesis for texts with foreign language inclusions
US7565291B2 (en) Synthesis-based pre-selection of suitable units for concatenative speech
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
US6173263B1 (en) Method and system for performing concatenative speech synthesis using half-phonemes
US20200082805A1 (en) System and method for speech synthesis
US8775185B2 (en) Speech samples library for text-to-speech and methods and apparatus for generating and using same
US20030158734A1 (en) Text to speech conversion using word concatenation
Qian et al. A cross-language state sharing and mapping approach to bilingual (Mandarin–English) TTS
Bigorgne et al. Multilingual PSOLA text-to-speech system
Gooskens et al. The position of Frisian in the Germanic language area
KR100669241B1 (en) System and method of synthesizing dialog-style speech using speech-act information
Vijayalakshmi et al. A multilingual to polyglot speech synthesizer for indian languages using a voice-converted polyglot speech corpus
FI119859B (en) A method for producing speech synthesis
Francini et al. Study of a System of Minimal Speech‐Reproducing Units for Italian Speech
EP1589524B1 (en) Method and device for speech synthesis
Pucher et al. Resources for speech synthesis of Viennese varieties
EP1640968A1 (en) Method and device for speech synthesis
Leonardo et al. A general approach to TTS reading of mixed-language texts
Jokisch et al. Learning syllable duration and intonation of Mandarin Chinese.
El-Imam Synthesis of arabic from short sound clusters
Lindh Introductory Evaluation of the Swedish RealSpeak System
Fernandez et al. The 2006 TCSTAR evaluation of the IBM text-to-speech synthesis system
Tian et al. Modular design for Mandarin text-to-speech synthesis
Isard Speech Synthesis

Legal Events

Date Code Title Description
FG Patent granted

Ref document number: 119859

Country of ref document: FI

MM Patent lapsed