FI66268C - Moenster och filterkoppling foer aotergivning av akustisk ljudvaeg anvaendningar av moenstret och moenstret tillaempandetalsyntetisator - Google Patents
Moenster och filterkoppling foer aotergivning av akustisk ljudvaeg anvaendningar av moenstret och moenstret tillaempandetalsyntetisator Download PDFInfo
- Publication number
- FI66268C FI66268C FI803928A FI803928A FI66268C FI 66268 C FI66268 C FI 66268C FI 803928 A FI803928 A FI 803928A FI 803928 A FI803928 A FI 803928A FI 66268 C FI66268 C FI 66268C
- Authority
- FI
- Finland
- Prior art keywords
- model
- transfer function
- acoustic
- filters
- bus
- Prior art date
Links
- 230000006870 function Effects 0.000 claims description 111
- 238000012546 transfer Methods 0.000 claims description 98
- 238000004458 analytical method Methods 0.000 claims description 9
- 230000002238 attenuated effect Effects 0.000 claims description 5
- 230000010355 oscillation Effects 0.000 claims description 2
- 239000003513 alkali Substances 0.000 claims 1
- 230000008878 coupling Effects 0.000 claims 1
- 238000010168 coupling process Methods 0.000 claims 1
- 238000005859 coupling reaction Methods 0.000 claims 1
- 230000005284 excitation Effects 0.000 claims 1
- 238000000926 separation method Methods 0.000 claims 1
- 238000000034 method Methods 0.000 description 30
- 230000015572 biosynthetic process Effects 0.000 description 18
- 238000003786 synthesis reaction Methods 0.000 description 18
- 238000004519 manufacturing process Methods 0.000 description 10
- 238000012937 correction Methods 0.000 description 6
- 239000000243 solution Substances 0.000 description 5
- 238000005094 computer simulation Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 210000000214 mouth Anatomy 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 239000003637 basic solution Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 238000009533 lab test Methods 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 238000004215 lattice model Methods 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 210000003800 pharynx Anatomy 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012892 rational function Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Filters That Use Time-Delay Elements (AREA)
Description
, 66268
Malli ja suodinkytkentä akustisen ääniväylän mallintamiseksi, mallin käytöt ja mallia soveltava puhesyntetisaattori Mönster och filterkoppling för ätergivning av akustisk ljudväg, användningar av mönstret och mönstret tillämpande tal-syntetisator
Keksinnön kohteena on ihmisen Mäntöjärjestelmän ja/tai musiikki-inst-rumentteihin liittyvän akustisen ääniväylän malli, joka on toteutettu sähköisellä suodinjärjestelmällä.
5 Keksinnön kohteena on lisäksi keksinnön mukaisten mallien uudenlaiset käyttökohteet sekä keksinnön mukaisia malleja soveltava puhesyntetisaattori.
Keksinnön kohteena on myös suodinkytkentä akustisen ääniväylän mallin-10 tamiseksi.
Tämä keksintö liittyy tyypillisimmillään puhesynteesiin ja puheen keinotekoiseen tuottamiseen elektronisin menetelmin.
15 Keksinnön eräänä tarkoituksena on luoda uusi malli esim. ihmisen puhe-mekanismin akustisten ominaisuuksien eli puheen tuottamisen mallintamiseksi. Menetelmällä aikaansaatuja malleja voidaan myös käyttää puheentunnistuksessa, aidon puhesignaalin parametrien estimoinnissa sekä ns. VOCODER-laitteissa, joissa puhesignaalin analyysin ja synteesin 20 avulla puheviestejä siirretään pienellä informaatiomäärällä esim. pieni-kapasiteettista kanavaa pitkin samalla kun puheen laatu ja ymmärrettävyys pyritään säilyttämään mahdollisimman korkeatasoisina.
Koska keksinnön mallin on tarkoitus soveltua akustisessa putkessa ta-25 pahtuvien ilmiöiden mallintamiseen yleensä, voidaan keksintöä myös soveltaa elektronisiin musiikkisyntetisaattoreihin.
Ennestään tunnetut puheen keinotekoisen tuottamisen menetelmät voidaan jakaa kahteen pääryhmään. Ensimmäisen ryhmän menetelmillä kyetään tuot- 2 66268 tamaan vain sellaisia puheviestejä, jotka on aikaisenmin vastaavista aidoista puhetuotoksista analysoitu, koodattu ja tallennettu. Tunnetuimpia näistä menetelmistä ovat PCM (Pulse Code Modulation), DPCM (Differential Pulse Code Modulation), DM (Delta Modulation) sekä ADPCM 5 (Adaptive Differential Pulse Code Modulation) ja APC (Adaptive Predictive Coding) Näille tunnetuille menetelmille on yhteistä on se, että ne liittyvät läheisesti signaaliteoriaan ja sen pohjalta kehitettyihin yleisiin signaalinkäsittelymenetelmiin, eivätkä siten edellytä yksityiskohtaisempaa tietoa puhesignaalin luonteesta tai sen syntytavasta.
10
Toisen ryhmän muodostavat tunnetut menetelmät, joissa aitoa puhesignaalia ei sellaisenaan eikä koodattuna ole tallennettu, vaan puhe synnytetään laitteistolla, joka mallintaa ihmisen puhemekanismin toimintoja. Aidosta puheesta ensinnä analysoidaan toistuvia, suhteellisen invariant-15 teja elementtejä, äänneyksiköitä eli foneemeja sekä näiden muunnoksia eli foneemien variantteja eri äänneympäristöissä. Puhetta syntetisoitaessa ohjataan ihmisen ääntöeysteemin elektronista vastinetta eli ns. terminaalianalogiaa siten, että aitoa puhetta vastaavia äänteitä ja niiden yhdistelmiä saadaan muodostettua. Toistaiseksi vain näillä mene-20 telmillä on ollut mahdollista tuottaa synteettistä puhetta rajoittamattomasta tekstistä.
Mainittujen kahden tunnetun menetelmäryhmän välimaastoon sijoittuu li-neaarlprediktointi ell LPC (Linear Predictive Coding) /1/ J.D. Markel, 25 A.H. Gray Jr.; Linear prediction of Speech New York, Springer-Verlag 1976. Tämä menetelmä, muista koodausmenetelmistä poiketen, edellyttää puheen tuottamisen mallin hyväksikäyttöä. Llneaariprediktoinnissa läh-töoletuksena on, että puhesignaalin synnyttää lineaarinen systeemi, minkä sisäänmenoon on syötetty soinnillisissa äänteissä säännöllinen 30 impulssljono ja soinnittomissa äänteissä satunnainen impulssijono.
Yleensä identifioitavana siirtofunktiona käytetään napamallia (all-pole-model, vrt. kaskadimalll). Puhesignaalin analyysin avulla voidaan laskea estimaatit siirtofunktion nimittäjäpolynomln kertoimille (a^). Mitä korkeamman asteluvun, joka on sama kuin prediktolnnin asteluku, 35 polynomi omaa, sitä tarkemmin aito puhesignaali saadaan karakterisoitua kertoimien a^ avulla.
3 66268
Mainitut suodinkertoimet a£ ovat kuitenkin foneettiselta kannalta epä-havainnollisiä. Myös digitaalisen suotimen realisoiminen näitä kertoimia käyttäen on ongelmallista mm. suotimien kovorakenteita (hardware) ja Stabiilisuustarkasteluja ajatellen. Osin näistä syistä on lineaari-5 prediktoinnissa ryhdytty käyttämään vastaavan siirtofunktion omaavaa, mutta erilaisella sisäisellä rakenteella varustettua ja erityyppisiä kertoimia käyttävää ristikkosuodinta.
Tunnetussa ristikkosuotimessa on kaksisuuntaisesti toimivia, rakenteelli-10 sesti samanlaisia elementtejä kytketty kaskadiin. Tämä suodintyyppi saadaan tietyin edellytyksin vastaamaan samanmittaisista homogeenisista putkista muodostetun ääniväylän siirtolinjamallia. Suodinkertoimet vastaavat tällöin heijastuskertoimia (| b^ | < 1). Kertoimet b^ saadaan määritettyä puhesignaalista ns. PARCOR (Partial Correlation) menetel-15 mää käyttäen. Vaikka heijastuskertoimet b^ liittyvätkin jo läheisemmin puheen tuottamiseen, eli sen artikulatoriseen puoleen, on näidenkin kertoimien generoiminen sääntösynteesiperiaattein osoittautunut vaikeaksi.
20 Ennestään tunnetut terminaalianalogia-tyyppiset puhesynteesilaitteet edellyttävät siis puheen tuottamisen mallintamista akustis-foneettiselta perustalta. Akustiselle ääntösysteemille, joka koostuu kurkunpäästä, nielusta sekä suu- ja nenäonteloista, on löydettävä sellainen elektroninen vastine, suodin, jonka siirtofunktio noudattelee akustisen sys-25 teemin siirtofunktiota kaikissa ääntötilanteissa. Tällaista aikavariant-tia suodinta kutsutaan terminaalianalogiaksi, koska sen kokonaissiirto-funktio sisäänmenosta ulostuloon eli terminaalien välillä, pyrkii analogisuuteen vastaavan ihmisen ääntöjärjestelmän akustisen siirtofunktion kanssa. Terminaalianalogian keskeisintä osaa kutsutaan ääniväylämalliksi. 30 Tämä on tunnetusti käytössä mm. vokaaliäänteissä ja osittain myös muita äänteitä syntetisoitaessa käytettävän mallin tyypistä riippuen.
Koska ihmisen ääntösysteemi on akustisilta ominaisuuksiltaan erittäin monimutkainen, käytäntöön sovellettavia malleja muodostettaessa joudu-35 taan suorittamaan useita yksinkertaistuksia ja approksimaatioita. Eräs keskeinen periaatteellinen ongelma näiden mallien laadinnassa on se, että ääniväylä on jakautunut systeemi, jonka akustinen siirtofunktio 4 66268 koostuu transkendentaalisista funktioista. Jotta vastaava terminaali-analogia voitaisiin luoda keskitetyistä sähköisistä komponenteista, akustista siirtofunktiota on kyettävä approksimoimaan rationaalisten, meromorfisten funktioiden avulla.
5
Toinen keskeinen seikka on mallin ohjattavuus, eli kuinka monta ja minkä tyyppisiä ohjausparametreja malli vaatii jatkuvan puheen synnyttämiseksi sekä miten optimaalinen, "ortogonaalinen", ja foneettisesti selväpiirteinen valittu ohjausparametrien joukko on.
10
Seuraavassa keksintöön liittyvää tekniikan tasoa ja sen teoreettista perustaa selostetaan yksityiskohtaisesti viittaamalla oheisten piirustusten kuvioihin A-F.
15 Kuvio A esittää tekniikan tason mukaista sarja-(kaskadi) mallia.
Kuvio B esittää tekniikan tason mukaista rinnakkais-mallia.
Kuvio C esittää tekniikan tason mukaista yhdistelmämallia.
20
Kuviot D,E ja F esittävät, keksinnön lähtökohtana olevien ongelmien havainnollistamiseksi, tietokonesimuloinnin graafisia tuloksia.
Ääniväylämalleja muodostettaessa akustinen ääniväylä tunnetusti yksin-25 kertaistetaan suoraksi homgeeniseksi putkeksi sekä lasketaan tälle siirtolinjayhtälöt (vrt. /2/ G. Fant: Acoustic Theory of Speech Production, The Hague, Mouton 1970, luvut 1.2 ja 1.3, sekä /3/ J.L. Flanagan: Speech Analysis Synthesis and Perception, Berlin, Springer-Verlag 1972, ss. 214-228). Tällöin oletetaan, että putki on 30 pienihäviöinen ja suljettu toisesta päästä, glottis 1. äänirako suljettu, toisen pään avautuessa vapaaseen kenttään. Suuaukon akustista kuor-maä voidaan yksinkertaisesti mallintaa joko oikosululla tai äärellisellä impedanssilla Zr· Approksimoitava akustinen siirtofunktio saa tällöin muodon: 35 1 (1) HA(s)--2- cosh y (s) l + ~ sinh γ (s) £ o 5 66268 missä γ (s) = α + jB = etenemiskerroin a = vaimennuskerroin 3 = ω/c = vaihekerroin ω = kulmataajuus 5 c äänen nopeus = akustisen kuorman impedanssi Zq * väylän ominaisimpedanssi I * väylän pituus 10 Kun oletetaan, että väylän häviöt ovat pienet ja että väylä on päätetty oikosulkuun (Zf 0) tai että väylä on häviötön ja Z^_ resistiivinen saa yhtälö (1) muodon (2) ΗΑ(ω) = ---—-:—r A cos kw + j a sm km 15 missä A,a ja k ovat reaalisia. Siirtofunktion Η^(ω) itseisarvon logaritminen amplitudikäyrä on esitetty oheisessa kuviossa 7. Approksimaatioiden lähtökohdaksi valittu homogeeninen ääniväylä vastaa lähinnä neutraali-vokaalin l3l ääntötilannetta. Muissa vokaaliäänteissä ääniväylän profiili 20 ja sen siirtofunktio muuttuvat.
Yleisesti ennestään tunnettu menetelmä idealisoidun akustisen siirtofunktion H (ω) approksimoimiseksi rationaalifunktioilla on elektronisen
A
suotimen konstruoiminen resonanssin omaavista toisen kertaluvun ali-25 tai kaistanpäästösuodinelementeistä. Yleisimmin on käytetty kuviossa A esitettyä alipäästÖsuotimien kaskadikytkentää ja kaistanpäästösuotimien rinnankytkentää, joka on lohkokaaviona esitetty kuviossa B.
Jos akustisessa ääniväylässä väylän profiilin muuttuessa vierekkäiset 30 resonanssit lähenevät toisiaan, vahvistuvat niiden ympäristön signaali-komponentit samoin kuin sarjaankytketyissä elektronisissa resonanssi-piireissä tapahtuu. Tästä johtuen on tunnettu kaskadimalli (kuvio A) rinnakkaismall ia (kuvio B) edullisempi. Jotta resonanssien (eli formant-tien) amplitudisuhteet asettuisivat toivotulla tavalla, joudutaan rin-35 nakkaismallissa säätämään jokaisen amplitudia erikseen (kuviossa B kertoimet A1...A4). Kaskadimallissa amplitudisuhteet asettuvat automaattisesti likimain oikein eikä erillisiä säätöjä välttämättä tarvita. Tosin 6 66268 tässäkin mallissa syntyy tietyissä tilanteissa huomattavia virheitä formaattien amplitudisuhteissa, kuten tuonnempana osoitetaan.
Konsonanttiäänteiden synteesiä ajatellen on puolestaan rinnakkaismalli 5 kaskadimallia edullisempi. Erillisten amplitudisäätöjen ansiosta sen siirtofunktio saadaan aina vastaamaan suhteellisen hyvin akustista siirtofunktiota. Kaskadimallilla ei konsonanttiäänteiden synteesi onnistu ilman väylän rinnalle ja/tai sarjaan kytkettyjä lisäpiirejä. Eräs kaskadi-mallin ongelma, edellisten lisäksi, on valkeus saavuttaa opti-10 maalinen signaali-kohinasuhde. Signaalia joudutaan vuoroin derivoimaan ja vuoroin Integroimaan, jolloin ylemmillä taajuuksilla kohina ja häiriöt lisääntyvät. Malli on tästä perusominaisuudestaan johtuen epäoptl-maalinen myös ajatellen digitaalisia realisaatioita. Mallin vaatima laskentatarkkuus on suurempi kuin rinnankytketyssä mallissa.
15
Kuviossa C on esitetty eräs varsin uusi ennestään tunnettu ratkaisu, ns. Klatt-malll, missä rinnan- ja sarjaankytkettyjen mallien hyvät puolet on pyritty yhdistämään /4/ J. Allen, R. Carlson, B. Granströra, S. Hunnicutt, D. Klatt, D. Flsoni: Conversion of Unrestricted English 20 Text to Speech, Massachusetts Institute of Technology 1979. Tämä tunnettu yhdistelmästäni vaatii saman ohjausparametrljoukon kuin rinnakkais-mallikin. Kaskadlhaaraa F1-F4 käytetään pääasiassa soinnillisten äänteiden ja rinnakkaishaaraa Fl'-F4' frlkatliviäänteiden ja transienttien synteesiin. Tällä yhdistelmämallilla syntetisoitu englanninkielinen 25 puhe on ehkä korkealaatulsinta, mitä tunnetulla sääntösynteeslllä on tähän mennessä saatu aikaan. YhdistelmämalIin käytännöllisiä sovellutuksia vaikeuttaa sen rakenteellisen toteutuksen monimutkaisuus. Yhdistelmämal li vaatii kaksinkertaisen formanttipiirijoukon vastaaviin kaskadi-ja rinnakkaismalleihin verrattuna. Vaikka yhdistelmän eri haaroissa ole-30 via samoihin formantteihin liittyviä piirejä voidaan ohjata samoilla muuttujilla (taajuus, Q-arvo) hankaloittaa rakenteen monimutkaisuus niin digitaalisia kuin analogistakin realisaatioita.
Akustisen siirtofunktion approksimointi rlnnakkalsmallilla on periaat-35 teessä yksinkertaista. Kalstanpäästösuotimien resonanssitaajuudet F1...F4 ja Q-arvot Q1...Q4 säädetään vastaamaan akustisen siirtofunktion arvoja, suotimien ulostulot summataan vaiheistettuina siten, ettei siir- 7 66268 tofunktioon synny nollakohtia ja lopuksi amplitudisuhteet säädetään oikeiksi kertoimien A1...A4 avulla. Rinnakkaismallin käyttö on varsin suoraviivaista approksimointia, eikä siihen liity sen vahvempaa matemaattista taustaa.
5
Sen sijaan menetelmä, millä kaskadimalli luodaan, perustuu selvemmin matemaattiseen analyysiin (kts. /3/ s. 214- ). Kun pienihäviöisen akustisen putken kuorma kuvataan oikosululla, saa yhtälö (1) muodon 10 (3) H (s) = -r-7-v·".
a cosh γ (s) i.
Soveltamalla tähän kompleksimuuttujien funktioille johdettua sarjakehi-telmää, saa lauseke muodon 2 1 00 ω 15 (4) -i- = Π --- cosh γ (s) £ n=l (s-s )(s-s *) n n missä s s funktion cosh γ (s) 1. nollakohta n s» edellisen kompleksikonjugaatti 20 ui^ nollakohtaa vastaava resonanssit aa j uus
Yhtälön (4) mukaan ääniväylän akustinen siirtofunktio, mikä käsittää äärettömän määrän taajuusasteikolla tasavälein sijaitsevia saman kaistaleveyden omaavia resonansseja (kts. kuvio 7), voidaan saattaa ratio-25 naalilausekkeiden tulon muotoon. Kukin rationaalilauseke edustaa resonanssin omaavan toisen kertaluvun alipäästösuotimen siirtofunktiota. Täten haluttu siirtofunktio saadaan periaatteessa syntymään kytkemällä ääretön joukko mainitun tyyppisiä alipäästösuotimia kaskadiin. Käytännön realisaatioissa mukaan tunnetusti otetaan kolmesta neljään alinta reso-30 nanssia, jolloin tätä ylempien formanttien vaikutuksia alemmille taajuuksille approksimoidaan derivoivalla korjaustekijällä (correction of higher poles kts. /2/ ss. 50-51). Sarjakehitelmästä laskettu korjaus-tekijä on esitetty graafisesti kuviossa D (käyrä a). Kaskadimallin koko-naissiirtofunktio korjaustekijöineen on esitetty samassa kuviossa D 35 käyränä b. Kuviossa D käyrä c kuvaa mallin virhettä akustiseen siirto-funktioon verrattuna. Approksimointivirhe on erittäin pieni mallissa mukana olevien formanttien alueella.
8 66268 » i
Todellisuudessa puhetta muodostettaessa ääniväylän profiili ja sen siirtofunktio varioituvat laajassa mitassa. Puhesynteesin kannalta on tärkeää, että käytettävä terminaalianalogia kykenee mallintamaan akustisia ilmiöitä puheen kaikissa vaiheissa ja variaatioissa. Tunnetussa 5 kaskadikytketyssä mallissa on aiemmin kuvattujen vaikeuksien lisäksi havaittu ongelmia epähomogeenisen ääniväylän siirtofunktioiden mallintamisessa. Epähomogeenisen väylän tapauksissa, mitkä muodostavat valtaosan reaalipuheen tilanteista, kaskadimalli aiheuttaa virheitä formant-tien amplitudisuhteisiin. VOCODER-sovellutuksia ajatellen on tätä on- 10 gelmaa pyritty poistamaan spektrin jälkikäteiskorjaukseen perustuvalla patentoidulla ratkaisulla /5/ G. Fant: Vocoder System, US Patent Nr 3,346,695, Oct. 10, 1967. Erityisen ristiriitaisia vaatimuksia aiheuttavat etu- ja takavokaalien saattaminen sävytasapainoon keskenään.
15 Kuvioissa E ja F on edellä kosketeltua ongelmaa havainnollistettu tietokonesimuloinnein. Simuloinneissa akustista ääniväylää on mallinnettu kahdella eri poikkipinnan ja pituuden omaavalla pienihäviöisellä homogeenisella putkella (vrt. /3/ s. 69-72). Tämän epähomogeenisen väylän akustiseen siirtofunktioon on kaskadimalli sovitettu siten, että for- 20 mänttien taajuudet ja Q-arvot ovat samat kuin akustisessa siirtofunktiossa. Kaskadimallin siirtofunktio on kuvissa esitetty käyrinä a ja syntynyt virhe käyrinä b. Kuvio E edustaa lähinnä takavokaalia /o/ ja kuvio F etuvokaalia /e/.
25 Kuvioista E ja F on todettavissa, että kaskadimalli aiheuttaa varsin huomattavaa virhettä niin etu- kuin takavokaaleissakin. Lisäksi virheet ovat erityyppisiä, mikä vaikeuttaa niiden kompensoimista.
| Edellä on tarkasteltu yleisimmin tunnettuja menetelmiä puheen tuotta- t 30 misen mallintamiseksi. Tiivistetysti voidaan todeta, että tunnetuissa malleissa ilmenee seuraavia ongelmia, joiden ainakin osittainen ratkaisu on eräänä esillä olevan keksinnön tarkoituksena.
»
Kaskadimallit (kuvio A): 35 - ei sovellu sellaisenaan frikatiivien eikä useiden muidenkaan konso nanttiäänteiden synteesiin 66268 9 - aiheuttaa dynamiikkaongelmia - aiheuttaa virheitä vokaaliäänteidenkin amplitudisuhteisiin, erityisenä ongelmana on löytää sävybalanssi etu- ja takavokaalien kesken 5 Rinnakkaismallit (kuvio B): - tarvittava ohjausparametrien joukko on suuri - amplitudiparametrien arvot vaikeasti generoitavissa sääntösynteesillä - malli ei toteuta akustisen ääniväylän kaskadiperiaatetta 10 Yhdistelmämallit (Klatt) (kuvio C): - rinnakkais- ja kaskadihaaran osalta ongelmat ovat periaatteessa samat kuin vastaavassa rinnakkais- ja kaskadimalleissa, mainitut haarat kuitenkin täydentävät toisiaan siten, että moni ongelma voidaan välttää kahden erityyppisen haaran rinnakkaisuuden ansiosta 15 - rakenteellinen monimutkaisuus ja parametrien vaikea hallittavuus LPC-synteesi: - suodinparametrit vaikeasti generoitavissa sääntösynteesillä - LPC-synteesin käyttämään puheentuottamisen malliin liittyvät ongelmat, 20 jotka heikentävät synteettisen äänen laatua (vrt. esim. D.Y. Wong:
On Understanding the Quality Problems of LPC Speech, ICA SSP 80,
Denver, Proc., ss. 725-728).
Keksinnön mukaisella menetelmällä aikaansaatuja ääniväylämalleja voidaan 25 soveltaa myös puheanalyysissä ja puheentunnistuksessa, jossa puhesignaalien piirteiden ja parametrien estimoinnilla on keskeinen asema.
Tällaisia parametrejä ovat mm. formanttitaajuudet, formanttien Q-arvot, amplitudisuhteet, soinnillisuus/soinnittomuus sekä soinnillisten ääntei-30 den perustaajuus. Yleensä tähän tarkoitukseen sovelletaan Fourier- muunnosta tai lähinnä säätötekniikan alueelta tuttua estimointiteoriaa. Lineaariprediktointi on yksi estimointimenetelmä.
Estimointiteorioiden perusideana on, että estimoitavasta systeemistä on 35 olemassa jokin apriorinen malli. Estimoinnin periaatteena on, että kun malliin syötetään samankaltainen signaali kuin identifioitavaan systeemiin, saadaan mallin ulostulo vastaamaan sitä paremmin identifioitavan ίο 6 6268 systeemin ulostulosignaalia mitä tarkemmin mallin parametrit vastaavat analysoitavaa järjestelmää. Täten on selvää, että mitä tarkemmin estimoinnissa käytettävä malli vastaa identifioitavaa systeemiä, sitä luotettavampia ovat mallin avulla saatavat estimointitulokset.
5
Esillä olevan keksinnön tarkoitus on tarjota uudenlainen menetelmä puheen tuottamisen mallintamiseksi. Keksinnön menetelmää soveltaen voidaan luoda joukko rakenteellisesti toisistaan eroavia terminaalianalogioita. Keksinnön menetelmällä aikaansaatavien mallien sisäinen organisaatio voi 10 vaihdella puhtaasti kaskadikytketystä puhtaasti rinnankytkettyyn käsittäen myös näiden välimuotoja eli ns. sekamalleja (mixed type models). Kaikissa konfiguraatioissa keksinnön menetelmä antaa kuitenkin yksikäsitteisen ohjeen siitä, millainen yksittäisen formantin siirtofunktion tulee olla yhtälöön (2) nähden parhaan approksimaation aikaansaamiseksi. 15
Esillä olevan keksinnön yleistarkoituksena on edellä ilmenneisiin päämääriin pääseminen sekä aiemmin kosketeltujen epäkohtien välttäminen. Tässä tarkoituksessa keksinnön mukaiselle mallille on pääasiallisesti tunnusomaista se, 20 että mainitun sähköisen suodinjärjestelmän siirtofunktio on olennaisesti yhdenmukainen sellaisen mainittua ääniväylää mallintavan akustisen siirtofunktion kanssa, joka on approksimoitu jakamalla alla olevan yhtälön (5) mukainen homogeenisen ääniväylän akustinen siirtofunktio 25 (5) H. - --:- A cos x + j a sm x kahdeksi tai useammaksi (n kpl) osasiirtofunktioksi H.., joissa on mukana enää joka n:s alkuperäisen siirtofunktion formantti (taulukko 1), 30 että ääniväylän malli vastaa sitä mallia, joka on saatavissa approksimoimalla mainittuja osasiirtofunktioita H.. realisoituvilla rationaa- ij lisiirtofunktioilla, joita kutakin erikseen vastaa sähköisen suodinjärjestelmän elektroninen suodin, että mainitut suotimet on kytketty keskenään sekä rinnan että sarjaan akustisen ääniväylän mallin edellyttämällä tavalla ja 35 11 66268 että suotimien mainittu kytkentä on järjestetty siten, että taajuus-asteikolla vierekkäiset formanttipiirit ovat kaskadissa keskenään.
Lisäksi keksinnön kohteena on keksinnön mukaisten väylämalllen käyttö 5 puhesyntetisaattorin ääniväylämalllna, puheen analyysissä ja tunnistuksessa, keksinnön mukaisten väylämalllen käyttö estimointimallina puhesignaalin parametrejä estimoitaessa sekä myöhemmin esitettävää kaavaa (6) toistuvasti käyttämällä aikaansaatavan, yksittäistä, ideaalia akustista resonanssia kuvaavan siirtofunktion käyttö puhesignaalin 10 analyysissä, parametroinnissa ja puheen tunnistuksessa.
Lisäksi keksinnön kohteena on puhesyntetisaattori, joka käsittää syöttölaitteet, mikrotietokoneen, pulsslgeneraattorin ja kohinageneraattorin, ääniväylämallin sekä laitteet, joilla sähköiset signaalit muutetaan 15 akustisiksi signaaleiksi ja jossa syntetisaattorissa mainitun syöttölaitteen välityksellä mikrotietokoneelle annetaan syntetisoitava teksti ja jonka syöttölaitteen lähettämä koodattu teksti siirtyy sarja- tai rinnakkaismuotoisina signaaleina mainitun mikrotietokoneen ottopli-rien kautta sen väliaikaiemuistiin ja jonka mikrotietokoneen aritmeettis-20 looginen yksikkö toimii pysyväismulstin talletetun ohjelman määräämällä tavalla ja jossa puhesyntetisaattorissa mikrotietokone lukee ottopli-relltä sisäänsyötetyn tekstin ja tallentaa sen väliaikaiemuistiin ja jossa puhesyntetisaattorissa sen jälkeen kun syntetisoitava merkkijono on tallennettu, käynnistetään sääntösynteesiohjelma, joka analysoi tal-25 lennetun tekstin sekä muodostaa taulukolta ja säännöstöjä käyttäen ohjaussignaalit terminaallanaloglalle, joka koostuu pulssi- ja kohina-generaattorista sekä äänlväylämallista. Edellä määritellylle, keksinnön kohteena olevalle puhesyntetisaattorille on pääasiallisesti tunnusomaista se, että ääniväylämalllna puhesyntetisaattorissa on keksinnön mukai-30 nen rinnakkais-sarja-malli.
Keksintö eroaa ennestään tunnetuista vastaavista menetelmistä ja malleista olennaisesti siinä, että muotoa (2) olevaa akustista siirtofunktiota el approksimoida yhtenä kokonaisuutena, vaan se ensin jaetaan eksaktein 35 menetelmin spektrirakenteeltaan yksinkertaisempiin osasiirtofunktioihln. Vasta tämän jälkeen suoritetaan varsinainen approksimointi. Näin edeten menetelmä minimoi approksimointlvlrheen, jolloin saatujen mallien siirto- 12 66268 funktiot eivät enää vaadi korjaustekijöitä epähomogeenisissäkään tapauksissa.
Keksinnön menetelmän sopivin keksijän tiedossa oleva käyttöalue on seka-5 mallien toteutuksessa. Selostuksessa keksinnön mukaisista sekamalleis-ta, jotka ovat määrätynlaisia rinnakkais-sarja-malleja, käytetään nimitystä FARCAS-malli, mikä on johdettu sanayhdistelmästä PARALLEL & CASCADE.
Keksinnön mukaiset PARCAS-mallit ovat realisoitavissa rakenteellisesti 10 yksinkertaisilla suotimilla. Yksinkertaisuudestaan huolimatta keksinnön malleilla saavutetaan aiempaa parempi vastaavuus ja tarkkuus ihmisen ääntöjärjestelmän akustisten ilmiöiden mallintamisessa. Keksinnössä sama rakenne kykenee mallintamaan efektiivisesti kaikkia ihmisen puheeseen liittyviä ilmiöitä ilman huomattavaa määrää ulkopuolisia lisäsuotimia 15 tai vastaavia lisärakenteita. PARCAS-mallien tarvitsema ohjausparametrien joukko on suhteellisen kompakti ja ortogonaalinen. Kaikki parametrit ovat akustis-foneettisesti relevantteja sekä sääntösynteesiperiaattein helposti generoitavissa.
20 Keksinnön mukaisesti PARCAS-malleissa yhdistyvät sarja- ja rinnakkais-mallien edut haittojen samalla monilta osin eliminoituessa.
Keksinnön mukainen malli antaa yksityiskohtaiset ohjeet siitä, minkä tyyppisiä esim. kuvion 1 mallissa käytettävien yksittäisten formantti-25 piirien F1...F4 tulee suodinominaisuuksiltaan olla, jotta mallin koko-naissiirtofunktio approksimoisi mahdollisimman tarkkaan yhtälön (2) mukaista akustista siirtofunktiota. Keksinnön menetelmä perustuu nimenomaan yhtälön (2) jakamiseen yksinkertaisempiin osasiirtofunktioihin, joissa tarkastellulla taajuuskaistalla esiintyy alkuperäiseen nähden vä-30 hemmän resonansseja. Jako osasiirtofunktioihin voidaan homogeenisen ääniväylän tapauksessa tehdä täysin eksaktisti. Menetelmän seuraavan vaiheen muodostaa osasiirtofunktioiden approksimointi esim. toisen kertaluvun suotimilla.
35 Seuraavassa keksintöä selostetaan yksityiskohtaisesti viittaamalla oheisen piirustuksen kuvioissa esitettyihin keksinnön eräisiin sovellutus-esimerkkeihin, joiden yksityiskohtiin keksintö ei ole mitenkään ahtaasti rajoitettu.
13 66268
Kuvio 1 esittää keksinnön mukaista rinnakkais-sarja-(PARCAS)-mallia lohkokaaviona.
Kuvio 2 esittää erästä keksinnön mukaisen yksittäisen formanttipiirin 5 toteutusta ali-, yli- ja kaistanpäästösuotimien siirtofunktioiden yhdistelmällä.
Kuvio 3 esittää lohkokaaviona keksinnön mukaista mallia käyttävää puhe-syntetisaattoria.
10
Kuvio 4 esittää lohkokaaviona kuvion 3 mukaisen puhesyntetisaattorin mikrotietokoneen tarkempaa toteutusta ja sen eri yksiköiden välistä kommunikointia.
15 Kuvio 5 esittää keksinnön mukaiseen PARCAS-malliin perustuvan terminaa-lianalogian tarkempaa toteutusta.
Kuvio 6 esittää erästä vaihtoehtoista keksinnön mukaisen mallin toteutusta.
20 Kuviot 7,8,9,10,11,12 ja 13 esittävät erilaisia tietokonesimuloinnilla aikaansaatuja, taajuuden funktiona olevia amplitudikäyriä, joiden tarkoituksena on havainnollistaa keksinnön mukaisella mallilla aikaansaatavia etuja tekniikan tasoon verrattuna.
25 Kuviossa 1 on esitetty eräs tyypillinen keksinnöllä luotu PARCAS-malli. Kuviosta 1 on välittömästi todettavissa, että PARCAS-malli toteuttaa ääniväylän kaskadiperiaatteen, ts. vierekkäiset formaatit (lohkot F1...F4) ovat edelleen kaskadissa keskenään (F1 ja F2, F2 ja F3, F3 ja F4 jne.). Samanaikaisesti kuvion 1 malli toteuttaa myös sen rinnakkaismallien omi-30 naisuuden, että signaalin alempia ja ylempiä taajuuskomponentteja voidaan käsitellä toisistaan riippumatta parametrien A^,A^,k^,k2 säädön avulla. Tämän mahdollistaa suodinelementteissä A ja B olevat rinnakkaiset formanttipiirit F1,F3 ja F2,F4. Tästä rakenteellisesta ominaisuudesta johtuen kuvion 1 PARCAS-malli soveltuu soinnillisten äänteiden lisäksi 35 hyvin myös mm. frikatiivien, sekä soinnillisten että soinnittomien, että transienttityyppisten efektien synteesiin. Esimerkiksi s-äänteen mahdollisesti vaatima viides formanttipiiri voidaan kytkeä joko kuvion 1 lohkon A rinnalle tai koko suodinjärjestelmän kanssa kaskadiin. Nasaalien 14 66268 vaatima 250 Hz:n formanttipiiri voidaan myös lisätä peruskonstruktioon usealla eri tavalla. Kuvion 1 lohkojen A ja B rinnakkaisrakenteiden ansiosta PARCAS-mallilla on saavutettavissa rinnakkaismallin tasoinen signaalidynamiikka ja hyvä signaali-kohinasuhde. Samasta syystä malli 5 on edullinen myös puhtaasti digitaalisten realisaatioiden kannalta.
Seuraavassa käsitellään yksityiskohtaisesti keksinnön mallin analyyttistä perustaa.
10 Yhtälön (2) mukaisesta siirtofunktiosta voidaan jatkotarkasteluissa jättää amplituditekijä A pois, jolloin approksimoitava akustinen siirtofunktio saa muodon (5) H (ω) = --J-,-,- A cos x + j a sm x 15 missä a on väylän häviöistä ja/tai sen akustisesta kuormasta riippuva reaalinen kerroin (a < 1) ja x = km. Yhtälön (5) mukainen lauseke voidaan esittää täsmällisesti kahden osasiirtofunktion tulona seuraavasti: 20 (6) .....-....4_,___,_i_,_,_ cos x + j a sin x (b cos x_ + j c sin x_) (b cos x+ + j c sin x+) missä x_ = (χ-π/2)/2 25 x+ = (x+it/2)/2 b * ( V 1+a + \A.-a)/ n/T"
c = (/Ϊ+2 - VT^a)/ \TP
Yhtälön (6) osasiirtofunktiot voidaan esittää myös muodossa: 30 (7) _1_ = _v ' ’ b cos x+ + j a sin x+ cos x+ + j a’ sin x+ missä a' = (1- 'Z 1-a^)/a b* = 1/b = c/a * ( V 1+a - 1-a)/( '/ι - a)
Yhtälöt (6) ja (7) osoittavat, että alkuperäinen siirtofunktio (2) voidaan jakaa kahdeksi osasiirtofunktioksi, jotka ovat periaatteessa saman 35 15 66268 tyyppisiä kuin alkuperäinen. Osasiirtofunktioissa on kuitenkin mukana vain joka toinen alkuperäinen funktion resonanssi.
Edellä esitetyssä analyysissä alkuperäinen akustinen siirtofunktio on 5 jaettu kahteen osaan. Soveltamalla samaa menettelyä uudestaan osiin, voidaan kumpikin hajottaa edelleen vähemmän resonansseja sisältäviin osasiirtofunktioihin.
Kuvioissa 7 on esitetty graafisesti alkuperäinen akustinen siirtofunktio 10 Η^(ω) tapauksessa = 100 Hz (kaistaleveydet vakiot). Funktio Η^(ω) edustaa toista ensimmäisestä osituksesta saaduista osasiirtofunktioista ja funktio Η^(ω) tästä edelleen osittamalla saatua siirtofunktiota. Osasiirtofunktio Η2^(ω) on funktion Η^(ω) muotoinen formanttihuippujen sijaitessa toisen ja neljännen formantin kohdalla. Vastaavasti saadaan 15 osasiirtofunktiot Η^(ω), Η^ίω) ja Η^(ω) kuvaajaa Η^(ω) taajuusasteikon suuntaisesti siirtämällä.
Edellä esitetyn kaltaisin periaattein on alkuperäinen akustinen siirto-funktio jaettavissa kahden asemesta myös kolmeen, neljään jne. keskenään 20 samankaltaiseen osasiirtofunktioon. Jako kahteen osaan on kuitenkin käytännöllisin ajatellen neljästä formantista koostuvia väylämalleja.
Yhtälöä (6) ensimmäisen kerran yhtälöön (2) sovellettaessa päädytään kuvion 1 mukaiseen PARCAS-rakenteeseen. Kun yhtälöä (6) sovelletaan 25 toistamiseen osasiirtofunktioihin ja H^^ päädytään puhtaasti kaska-dikytkettyyn malliin, missä jokaisen formanttipiirin siirtofunktio on, tai tulisi olla, muotoa H^. Kyseisellä mallintamismenetelmällä voitaisiin siis luoda myös puhtaasti kaskadikytketty malli, joka ei kuitenkaan ole edullinen. Aikaisemmista poiketen olisi tämän uuden mallin formantit 30 lähempänä kaistanpäästö- kuin alipäästötyyppiä. Mikäli H^n mukaisia siirtofunktioita onnistuttaisiin approksimoimaan riittävän tarkasti, ei muodostettu kaskadimalli vaatisi enää spektriä korjaavia lisäsuotimia. Samalla olisi kuitenkin suodinkokonaisuuden dynamiikka muuttunut huomattavasti paremmaksi verrattuna esim. tunnettuun kaskadimalliin (kuvio A). 35
Yleisesti ottaen edellä kuvattua periaatetta noudattamalla voidaan yhtälön (5) mukainen homogeenisen ääniväylän akustinen siirtofunktio H
A
ie 66268 jakaa n kpl osasiirto£unktioksi, joissa on mukana joka n:s alkuperäisen siirtofunktion formantti ja joiden kaskadikytkentänä syntyy täsmälleen alkuperäinen siirtofunktio H^. Seuraavassa taulukossa 1 on esitetty, minkälaisia osasiirtofunktioita syntyy erityistapauksissa n » 2 ja 5 n = 3 sekä yleisessä tapauksessa. Taulukko 1 ilmaisee myös, mitkä formantit kuuluvat mihinkin osasiirtofunktioon: TAULUKKO 1 10 n = 2 V H13 Δ { Fx, F3, F5,...} »24 i { F2* F4· F6.....> n * 3 15 Ha: Hu Δ { Yv F4, F7,...} H25 - * F2* F5* F8’···^ H36 - * F3’ F6* F9*"* ** yleinen muoto: 20 HA: Hl(n+1) - { Fl’ F(n+1)’ Ρ(2η+1)’·',} H2(n+2) - { F2* F(n+2) ’ F(2n+2)’",}
Hn(2n) ± < Fn* F2n’ F3n’*--} 25 Yhtälö (5) on myös jaettavissa kahteen siirtofunktioon, joiden suomana alkuperäinen funktio muodostuu.
cos x_ + j sin x_ (Q\ _} rn 1 t + v ' cos x + j a sin x b-c b cos x + j c sin x^ 30 cos x+ + j sin x+ b cos x_ + j c sin x missä x_, x+, b ja c ovat kuteh yhtälössä (6).
Saadut siirtofunktiot poikkeavat yhtälössä (6) esitetyistä vain osoittajassa olevien vaihetekijöiden osalta. Soveltamalla yhtälöä (8) ensin yhtälöön (2) ja tämän jälkeen saatuihin osasiirtofunktioihin muodostuu 35 17 66268 rinnakkaismalli, jossa yksittäisten formanttipiirien siirtofunktiot ovat muotoa H^. Yhtälöä (8) voidaan soveltaa myös osasiirtofunktioiden ja H24 jakamiseen rinnakkaisiin elementteihin ja l^· Täten voidaan saada tarkempi kuva miten alempi ja ylempi formantti tulee approksimoida ja 5 miten vaihesuhteet järjestää, jotta tavoitteena oleva yhdistetty siirto-funktio syntyisi.
On ilmeistä, että tarkan ja samalla yksinkertaisen polynomiapproksimaation löytäminen tyyppiselle funktiolle on vaikeaa. Akustisen resonanssin 10 amplitudikäyrä on lineaarisella taajuusasteikolla symmetrinen, mitä useimmat yksinkertaiset toisen kertaluvun suotimien siirtofunktiot eivät ole. Samoin on vaikea löytää approksimaatio, mikä olisi tarkka koko tarkastelulla taajuuskaistalla. Tämä tarkkuusvaatimus on oleellinen puhtaassa kaskadimallissa, sensijaan puhdas rinnakkaismalli ei ole tässä 15 suhteessa kriittinen.
Keksinnön mukaisia ääniväylämalleja voidaan soveltaa mm. puhesyntetisaattoreissa esim. kuvion 3 esittämällä tavalla. Syöttölaitteen 10 (input device) välityksellä mikrotietokoneelle 11 annetaan sähköiseen muotoon 20 saatettu syntetisoitava teksti Cl (coded text). Syöttölaitteena 10 voi toimia joko alfanumeerinen näppäimistö tai jokin laajempi tietojenkäsittelyjärjestelmä. Syöttölaitteen 10 lähettämä koodattu teksti Cl siirtyy sarja- tai rinnakkaismuotoisina signaaleina mikrotietokoneen 11 ottopiirien (input) kautta sen väliaikaismuistiin (RAM). Mikrotietoko-25 neelta 11 saadaan ohjaussignaalit C2, jotka ohjaavat sekä pulssigene-raattoria 13 ja kohinageneraattoria 14, jotka viimemainitut on kytketty yhteillä C3 keksinnön mukaiseen PARCAS-malliin 15. PARCAS-mallin lähtö-signaalina C4 saadaan sähköinen puhesignaali, joka muutetaan kaiutti-mella 16 akustiseksi signaaliksi C5.
30
Mikrotietokoneen 11 muodostaa joukko kuvion 4 mukaisia integroituja piirejä tai yksi integroitu piiri, mikä sisältää mainitut yksiköt. Yksiköiden välinen kommunikointi tapahtuu data-, osoite- ja kontrollilinjojen välityksellä. Mikrotietokoneen 11 aritmeettis-looginen yksikkö (C.P.U.) 35 toimii pysyväismuistiin (ROM) tallennetun ohjelmän määräämällä tavalla. Prosessori lukee ottopiireiltä (input) sisäänsyötetyn tekstin ja tallentaa sen väliaikaismuistiin (RAM). Kun syntetisoitava merkkijono on tallennettu, sääntösysteemiohjelma käynnistyy. Tämä analysoi tallennetun 18 66268 tekstin sekä muodostaa taulukoita ja säännöstöjä käyttäen ohjaussignaalit (controls) terminaalianalogialle, mikä koostuu pulssi- ja kohina-generaattorista 13,14 sekä keksinnön mukaisesta ääniväylämallista 15.
5 PARCAS-malliin perustuvan terminaalianalogian tarkempi rakenne on esitetty kuvassa 5. Soinnillisissa äänteissä toimii pääasiallisena signaali-lähteenä pulssigeneraattori 13, minkä värähtelytaajuutta F0 ja pulssien amplitudia A0 voidaan erikseen ohjata. Frikatiiviäänteissä lähteenä toimii kohinageneraattori 14 (noise generator). Soinnillisissa frikatii-10 veissa molemmat signaalilähteet 13,14 toimivat samanaikaisesti. Lähteistä saatavat herätteet syötetään kolmeen rinnankytkettyyn suotimeen F^,F^ ja F^,- amplitudisäätimien kautta. Sekä soinnillisten että frikatiivi-äänteiden spektrien ylempien ja alempien taajuuksien amplitudeja voidaan säätää erikseen ohjauksilla VL,VH ja vastaavasti FL,FH. Suotimilta F^, 15 F^ Ja tulevat signaalit summataan. Joko ennen summausta tai summauksen yhteydessä suotimesta F^ saatavaa signaalia vaimennetaan kertoimella k,, ja suotimesta F, _ saatavaa kertoimella k,„. Suotimista 11 15 13 F11...F15 saatu summattu signaali viedään suotimille F^ Ja ^4· Rinnan edellä mainittujen suotimien kanssa on kytketty nasaaliresonaattori N 20 (resonanssitaajuus 250 Hz), minkä ulostulo summataan suotimilta F^ ja F^ saatavien signaalien kanssa, samalla kun suotimen F^ kautta kulkenutta signaalikomponenttia vaimennetaan kertoimella k^· Terminaali-analogian muita parametreja ovat formanttien Q-arvot (Qll,Q12,Q13,Q14,QN). Terminaalianalogian parametreja sopivasti ohjaamalla saadaan ulostulo-25 signaali vastaamaan haluttuja äänteitä.
Kuvan 5 terminaalianalogia edustaa yhtä keksinnön mukaisen PARCAS-peri-aatteen realisaatiota. Samaa perusratkaisua voidaan modifioida mm. for-manttipiirien F^,. ja N asemaa muuttamalla. Kuviossa 6 on esitetty eräs 30 tällainen variantti.
Sekä tietokonesimuloinnein että käytännön laboratoriokokein on voitu todeta, että keksinnön mukaisella PARCAS-mallilla on mahdollista saavuttaa muita ratkaisuja suurempi tarkkuus siirtofunktion approksimoinnissa.
35 Tämä johtuu pääasiassa suodinelementtien A ja B (kuvio 6) sisäisistä rakenteista. Jos esim. halutaan muodostaa puhdas kaskadimalli H^ tyyppisistä siirtofunktioista (kuvio 7), olisi tällaista siirtofunktiota 19 66268 kyettävä approksimoimaan tarkasti koko tarkastellulla taajuuskaistalla. Tämä kuitenkin osoittautuu käytännössä vaikeaksi.
Kuviossa 2 on havainnollistettu H2:n approksimointia alipäästösuotimella 5 LP, ali- ja kaistanpäästösuodinyhdistelmällä LP/BP sekä ali-ylipäästö-suodinyhdistelmällä LP/HP. Mainitut suotimet voidaan realisoida esim. kuvion 2 mukaisella parametrisuodinperiaatteella. Kuvion 8 toteutusesi-merkissä alipäästöapproksimaatio aiheuttaa suurimman ja LP/HP yhdistelmä keskimäärin pienimmän virheen. Kaikissa tapauksissa approksimointivirhe 10 on suuri taajuuskaistan yläpäässä.
PARCAS-malleissa, missä approksimoitavat siirtofunktiot ovat muotoa (kuvio 9), on approksimointivirhe mahdollista saada laajalla kaistalla hyvin pieneksi. Kuviossa 9 on approksimoitu LP/BP ja HP/BP suotimien 15 rinnankytkennällä ja virheen voidaan todeta jäävän erittäin pieneksi keskeisellä taajuuskaistalla. Kuvio 10 esittää H24:n approksimointia pelkillä ali- ja ylipäästösuotimilla. Tässäkin virhe E24 jää keskimäärin pieneksi.
20 Kuviossa 11 on esitetty kuvien 9 ja 10 mukaisten approksimaatioiden yhteistuloksena syntyvän keksinnön periaatteiden mukaisen PARCAS-mallin kokonaissiirtofunktio ja virhe E akustiseen siirtofunktioon verrattuna. Mallin kertoimet (kts. kuvio 1) ovat tässä tapauksessa k^ = -0,2, k2 = 0,43 ja A^ = A^. Kyseiset kertoimien k^ arvot edustavat neutraali-25 vokaalitapausta. Epähomogeenisen väylän tapauksessa mainittuja kertoimia tulee säätää formanttien Q-arvoja vastaten seuraavasti· (9) kt = Q1/Q3 k2 = Q2/Q4.
30 Mikäli kaistaleveydet pysyvät vakiona, esim. Bi * 100 Hz, kertoimet voidaan määritellä suoraan resonanssitaajuuksista (10) kx - P1/P3 k2 = F2/F4.
35 Säätämällä kertoimia k^ yhtälöiden (10) mukaisesti saavutetaan PARCAS-mallilla suurempi tarkkuus kaikissa vokaaliäänteissä. Kuvioissa 12 ja 13 on noudatettu tätä periaatetta simuloitaessa vokaaleja /o/ ja lii ja voidaan todeta, että approksimointivirhe jää näissä epähomogeenisen 20 66268 väylän tapauksissa keskeisimmällä taajuusalueella merkittävästi pienemmäksi kuin kaskadimallilla (vrt. kuviot E ja F).
Edellä oleva esimerkki osoittaa, että keksinnön mukainen PARCAS-ratkaisu 5 poistaa monet kaskadimallin ongelmat. Samalla keksinnön mukainen malli on tunnettua kaskadimallia olennaisesti yksinkertaisempi, esim. koska se ei vaadi korjaavaa suodinta ja lisäksi se on tarkempi epähomogeenisten ääniväyläprofiilien tapauksissa.
10 Kuten aiemmin selityksen johdanto-osassa todettiin, keksintöä voidaan soveltaa myös puheentunnistuksen yhteydessä. Tämän keksinnön mukaisella menetelmällä luodut mallit on voitu todeta yksinkertaisiksi ja tarkoiksi akustisen ääniväylän malleiksi. Täten on ilmeistä, että näiden mallien käyttö myös puhesignaalin parametrien estimoinnissa on edullista. Tämän 15 keksinnön suojapiiriin kuuluvat täten myös keksinnön mukaisten mallien käyttö puheentunnistuksessa, sen parametrien estimointiprosessissa.
Lisäksi käyttämällä kaavaa (6) toistuvasti (rajatta) saadaan syntymään yksittäistä (ideaalia) akustista resonanssia kuvaava siirtofunktio.
20 Myös tällä siirtofunktiolla ja sen polynomiapproksimaatiolla on käyttöä puhesignaalin parametrien, lähinnä formanttitaajuuksien, estimoinnissa. Sovittamalla mainittua ideaalia resonanssia puhesignaalin spektriin ovat formanttitaajuudet efektiivieesti identifioitavissa. Tämän keksinnön suojapiiriin kuuluvat myös mainitun ideaaliformantin käyttö puhesignaa-25 Iin analyysissä.
Seuraavassa esitetään patenttivaatimukset, joiden määrittelemän keksinnöllisen ajatuksen puitteissa keksinnön eri yksityiskohdat voivat vaihdella.
Claims (12)
1. Ihmisen ääntöjärjeetelmän ja/tal muslikki-instrumenttelhin liittyvän akustisen ääniväylän malli· joka on toteutettu sähköisellä suodin-järjestelmällä, tunnettu siitä· 5 että mainitun sähköisen suodinjärjestelmän siirtofunktio on olennaisesti yhdenmukainen sellaisen mainittua ääniväylää mallintavan akustisen siirtofunktion kanssa, joka on aproksimoitu jakamalla alla olevan yhtälön (5) mukainen homogeenisen ääniväylän akustinen siirtofunktio 10 (5) H - _i- Λ cos x + j a sin x kahdeksi tai useammaksi (n kpl) osasiirtofunktioksl H^» joissa on mukana enää joka n:s alkuperäisen siirtofunktion formanttl (taulukko 1), 15 että ääniväylän malli vastaa sitä vallia, joka on saatavissa approksimoimalla mainittuja osasilrtofunktloita realisoituvilla ratlonaa-lisiirtofunktloilla, jolta kutakin erikseen vastaa sähköisen suodinjärjestelmän elektroninen suodin, 20 että mainitut suotimet on kytketty keskenään sekä rinnan että sarjaan akustisen ääniväylän mallin edellyttämällä tavalla ja että suotimien mainittu kytkentä on järjestetty siten, että taajuus-asteikolla vierekkäiset foxmanttiplirit (F1 ja F2; F2 ja F3; F3 ja F4; ...) 25 ovat kaekadlsea keskenään.
2. Patenttivaatimuksen 1 mukainen akustisen ääniväylän malli, tunnettu siitä, että rinnankytkettyjen formanttipllrien lähtöampli-tudien summauksessa niiden painokertoimet ovat vakioineet. 30
3. Patenttivaatimuksen 1 tai 2 mukainen kertalukua n 2 oleva rinnak-kaissarjamalll, tunnettu siitä, että sähköisen suodinjärjestelmän siirtofunktiolta ja on approksimoitu alipääetösuotlmella (LP), ali- ja kaistanpääetösuodinyhdistelmällä (LP/BP) sekä ali- ja ylipääs- 35 tösuodinyhdistelmällä (LP/HP) (kuviot 2,10 ja 11). 22 66268
4. Patenttivaatimuksen 3 mukainen rinnakkaisearj amalii, tunnet-t u siltä, että k-kertoimet (kuvio 1) on valittu yhtälön (9,10) mukaan seuraavasti: k^ 4 0,5/2,5 ja k^ * 1,5/3,5.
5. Patenttivaatimuksen 3 mukainen rlnnakkaissarjamalli, tunnet- t u siltä, että mallin eri haarojen summauspleteisiin on järjestetty myös signaalien erotus niin, että siirtofunktioon syntyy nollakohtia eli antlresonaneseja,
6. Patenttivaatimuksen 3 mukainen rlnnakkaissarjamalli, tunnet- t u siitä, että suodlnelementtlln (H^j) slsäänmenevlen signaalien amplitudeja kontrolloidaan toisistaan riippumatta (A^ ja A^, kuvio 1).
7, Patenttivaatimuksen 1,2,3,4,5 tai 6 mukaisen äänlväylämallin käyttö 15 puheentunnistuksessa.
8. Patenttivaatimuksen 1,2,3,4,5 tai 6 mukaisen äänlväylämallin käyttö estlmointimallina puhesignaalin parametreja estimoitaessa.
9. Patenttivaatimuksen 1,2,3,4,5 tai 6 mukaisen äänlväylämallin käyttö puhesyntetisaattorin ääniväylämallina (15).
10. Puhesyntetisaattori, joka käsittää syöttölaitteet (10), mikrotietokoneen (11), pulssigeneraattorin (13) ja kohinageneraattorin (14), äänl-25 väylämallln (15) sekä laitteet (16), joilla sähköiset signaalit muutetaan akustisiksi signaaleiksi Ja jossa syntetisaattorissa mainitun syöttölaitteen (10) välityksellä mikrotietokoneelle (11) annetaan syntetisoitava teksti (cp ja jonka syöttölaitteen (10) lähettämä koodattu teksti (C^ siirtyy sarja- tai rinnakkaismuotoisina signaaleina mai-30 nitun mikrotietokoneen (10) ottopilrien kautta sen välialkalsmuistiin (RAM) Ja jonka mikrotietokoneen (11) arltmeettis-looginen yksikkö (CPU) toimii pysyväismuistin (ROM) talletetun ohjelman määräämällä tavalla ja jossa puhesyntetisaattorissa mikrotietokone lukee ottopiirelltä sisääneyötetyn tekstin ja tallentaa sen välialkalsmuistiin (RAM) ja 35 jossa puhesyntetisaattorissa sen jälkeen kun syntetisoitava merkkijono on tallennettu, käynnistetään säätösynteesiohjelma, joka analysoi tallennetun tekstin sekä muodostaa taulukolta ja säännöstöjä käyttäen oh- 66268 23 jaussignaalit (C^) terminäniianalogialle (13,14,15), joka koostuu pulssi- ja kohinageneraattorista (13,14) sekä ääniväylämallista, tunnettu siitä, että mainittu ääniväylämalli koostuu sähköisestä suodinjärjestelmästä, jonka siirtofunktio on olennaisesti yhdenmukainen sellaisen mainittua ääniväylää mallintavan akustisen 5 siirtofunktion kanssa, joka on approksimoitu jakamalla alla olevan yhtälön (5) mukainen homogeenisen ääniväylän akustinen siirtofunktio (5) H = _\_____ cos x + j a sin x 10 kahdeksi tai useammaksi (n kpl) osasiirtofunktioksi , joissa on mukana enää joka n:s alkuperäisen siirtofunktion formantti (taulukko 1), että ääniväylän malli vastaa sitä mallia, joka on saatavissa approksimoimalla mainittuja osasiirtofunktioita IL realisoituvilla rationaali lisiirtofunktioilla, joita kutakin erikseen vastaa sähköisen suodin-järjesfelmän elektroninen suodin, että mainitut suotimet on kytketty keskenään sekä rinnan että sarjaan akustisen ääniväylän mallin edellyttämällä tavalla ja .'0 että suotimien mainittu kytkentä on järjestetty siten, että taajuus-asteikolla vierekkäiset formanttipiirit (Il ja F2; F2 ja F3; F3 ja F4; ...) ovat. kaskadissa keskenään.
11. Patenttivaatimuksen 10 mukainen puhesyntetisaattori, tunnet- t u siitä että signaalilähteenä soinnillisissa äänteissä on järjestetty toimimaan pääasiallisesti pulssigeneraattori (14), jonka värähtely-taajuutta (F0) ja pulssien amplitudia (A0) erikseen ohjataan ja että frikatiiviäänteiden lähteenä on järjestetty toimimaan pääasiallisesti 10 kohinageneraattori (14) sekä että soinnillisissa frikatiiveissa molemmat signaalilähteet (13,14) on järjestetty toimimaan samanaikaisesti.
12. Patenttivaatimuksen 1.1 mukainen puhesyntetisaattori, tunnet-t u siitä, että mainituista signaalilähteistä (13,14) saatavat herät-?5 teet syötetään kolmeen rinnankytkettyyn suotimeen (Fjj.F^.. ja Fj^) amplitu-disäätimlen (Vh, VI!, F]-, FII) kautta, että mainituilta suotimilta 24 66268 ja Κ|Γ) tulevat signaalit: summataan (Σ), että joko ennen mainittua summausta tai sen jälkeen yhdestä mainitusta suotimesta (F^) saatava signaali vaimenne ti; an tietyllä kertoimella (kjj), että toisesta mainitusta suotimesta (Fj r) saatavaa signaalia vaimennetaan toisella kertoimella (k.,.), että mainituista suotimista (F. ....F,,) saatu summattu 1 .< L 1 1 ) signaali viedään toisille suotimille (F^ ja ) ja että edellä mni· ς tuttujen suotimien kanssa on kytketty rinnan nasaali- resonaattori (N), jonka ulostulo summataan jälkimmäisiltä suotimilla »FI . ja 1’|ή) saatavien signaalien kanssa samalla kun toisen viimemainitun suotimen (F^) kautta kulkenutta signaalikomponenttia vaimennetaan tietyllä kertoimella (k^). 10 II. Patenttivaatimuksen 12 mukainen puhesyntetisaattori, tunnet-t u siitä, että mainitun terminaalianalogian muina parametreinä käytetään formant tien Q-arvoja (Qjj ^ Ja etta kaikkia tei" minaalianalogian parametreja ohjataan siten, että terminaalianalogian 1l' ulostulosignaali saadaan riittävällä tarkkuudella vastaamaan kulloinkin syntetisoi tavia äänteitä. 66268
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FI803928A FI66268C (fi) | 1980-12-16 | 1980-12-16 | Moenster och filterkoppling foer aotergivning av akustisk ljudvaeg anvaendningar av moenstret och moenstret tillaempandetalsyntetisator |
US06/413,342 US4542524A (en) | 1980-12-16 | 1981-12-15 | Model and filter circuit for modeling an acoustic sound channel, uses of the model, and speech synthesizer applying the model |
JP57500212A JPS57502140A (fi) | 1980-12-16 | 1981-12-15 | |
EP82900108A EP0063602A1 (en) | 1980-12-16 | 1981-12-15 | Filter system for modelling a sound channel and speech synthesizer using the same |
PCT/FI1981/000091 WO1982002109A1 (en) | 1980-12-16 | 1981-12-15 | Method and system for modelling a sound channel and speech synthesizer using the same |
DK354582A DK354582A (da) | 1980-12-16 | 1982-08-06 | Model og filterkreds til dannelse af model af en akustisk lydkanal,anvendelser af modeller og talesyntesizer,hvori modellen anvendes |
NO822711A NO822711L (no) | 1980-12-16 | 1982-08-09 | Fremgangsmaate og system for utforming av en lydkanal og talesyntetiserer som bruker denne |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FI803928 | 1980-12-16 | ||
FI803928A FI66268C (fi) | 1980-12-16 | 1980-12-16 | Moenster och filterkoppling foer aotergivning av akustisk ljudvaeg anvaendningar av moenstret och moenstret tillaempandetalsyntetisator |
Publications (3)
Publication Number | Publication Date |
---|---|
FI803928L FI803928L (fi) | 1982-06-17 |
FI66268B FI66268B (fi) | 1984-05-31 |
FI66268C true FI66268C (fi) | 1984-09-10 |
Family
ID=8513987
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FI803928A FI66268C (fi) | 1980-12-16 | 1980-12-16 | Moenster och filterkoppling foer aotergivning av akustisk ljudvaeg anvaendningar av moenstret och moenstret tillaempandetalsyntetisator |
Country Status (6)
Country | Link |
---|---|
US (1) | US4542524A (fi) |
EP (1) | EP0063602A1 (fi) |
JP (1) | JPS57502140A (fi) |
FI (1) | FI66268C (fi) |
NO (1) | NO822711L (fi) |
WO (1) | WO1982002109A1 (fi) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58161000A (ja) * | 1982-03-19 | 1983-09-24 | 三菱電機株式会社 | 音声合成器 |
US4644476A (en) * | 1984-06-29 | 1987-02-17 | Wang Laboratories, Inc. | Dialing tone generation |
FR2632725B1 (fr) * | 1988-06-14 | 1990-09-28 | Centre Nat Rech Scient | Procede et dispositif d'analyse, synthese, codage de la parole |
JP2564641B2 (ja) * | 1989-01-31 | 1996-12-18 | キヤノン株式会社 | 音声合成装置 |
NL8902463A (nl) * | 1989-10-04 | 1991-05-01 | Philips Nv | Inrichting voor geluidsynthese. |
KR920008259B1 (ko) * | 1990-03-31 | 1992-09-25 | 주식회사 금성사 | 포만트의 선형전이구간 분할에 의한 한국어 합성방법 |
CA2056110C (en) * | 1991-03-27 | 1997-02-04 | Arnold I. Klayman | Public address intelligibility system |
US5450522A (en) * | 1991-08-19 | 1995-09-12 | U S West Advanced Technologies, Inc. | Auditory model for parametrization of speech |
US5300838A (en) * | 1992-05-20 | 1994-04-05 | General Electric Co. | Agile bandpass filter |
US5339057A (en) * | 1993-02-26 | 1994-08-16 | The United States Of America As Represented By The Secretary Of The Navy | Limited bandwidth microwave filter |
JPH08263094A (ja) * | 1995-03-10 | 1996-10-11 | Winbond Electron Corp | メロディを混合した音声を発生する合成器 |
US6993480B1 (en) | 1998-11-03 | 2006-01-31 | Srs Labs, Inc. | Voice intelligibility enhancement system |
US6385581B1 (en) | 1999-05-05 | 2002-05-07 | Stanley W. Stephenson | System and method of providing emotive background sound to text |
US7251601B2 (en) * | 2001-03-26 | 2007-07-31 | Kabushiki Kaisha Toshiba | Speech synthesis method and speech synthesizer |
US8050434B1 (en) | 2006-12-21 | 2011-11-01 | Srs Labs, Inc. | Multi-channel audio enhancement system |
JP2011066570A (ja) * | 2009-09-16 | 2011-03-31 | Toshiba Corp | 半導体集積回路 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS4910156U (fi) * | 1972-04-25 | 1974-01-28 | ||
US3842292A (en) * | 1973-06-04 | 1974-10-15 | Hughes Aircraft Co | Microwave power modulator/leveler control circuit |
US4157723A (en) * | 1977-10-19 | 1979-06-12 | Baxter Travenol Laboratories, Inc. | Method of forming a connection between two sealed conduits using radiant energy |
-
1980
- 1980-12-16 FI FI803928A patent/FI66268C/fi not_active IP Right Cessation
-
1981
- 1981-12-15 JP JP57500212A patent/JPS57502140A/ja active Pending
- 1981-12-15 US US06/413,342 patent/US4542524A/en not_active Expired - Fee Related
- 1981-12-15 WO PCT/FI1981/000091 patent/WO1982002109A1/en not_active Application Discontinuation
- 1981-12-15 EP EP82900108A patent/EP0063602A1/en not_active Ceased
-
1982
- 1982-08-09 NO NO822711A patent/NO822711L/no unknown
Also Published As
Publication number | Publication date |
---|---|
FI803928L (fi) | 1982-06-17 |
NO822711L (no) | 1982-08-09 |
FI66268B (fi) | 1984-05-31 |
EP0063602A1 (en) | 1982-11-03 |
JPS57502140A (fi) | 1982-12-02 |
US4542524A (en) | 1985-09-17 |
WO1982002109A1 (en) | 1982-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
FI66268C (fi) | Moenster och filterkoppling foer aotergivning av akustisk ljudvaeg anvaendningar av moenstret och moenstret tillaempandetalsyntetisator | |
JP5275612B2 (ja) | 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法 | |
JP2595235B2 (ja) | 音声合成装置 | |
Mullen et al. | Real-time dynamic articulations in the 2-D waveguide mesh vocal tract model | |
Meyer et al. | A quasiarticulatory speech synthesizer for German language running in real time | |
Styger et al. | Formant synthesis | |
Ito et al. | Zero-crossing measurements for analysis and recognition of speech sounds | |
Smith | Virtual acoustic musical instruments: Review and update | |
EP1246163B1 (en) | Speech synthesis method and speech synthesizer | |
US7596497B2 (en) | Speech synthesis apparatus and speech synthesis method | |
Mathur et al. | Vocal-tract modeling: Fractional elongation of segment lengths in a waveguide model with half-sample delays | |
Mohammadi et al. | Transmutative voice conversion | |
Estes et al. | Speech synthesis from stored data | |
Verfaille et al. | Adaptive effects based on STFT, using a source-filter model | |
Rabiner et al. | A hardware realization of a digital formant speech synthesizer | |
Peterson et al. | Objectives and techniques of speech synthesis | |
Karjalainen et al. | Speech synthesis using warped linear prediction and neural networks | |
Penttinen et al. | Morphing instrument body models | |
Schnell et al. | Analysis of lossy vocal tract models for speech production | |
Fries | Hybrid time-and frequency-domain speech synthesis with extended glottal source generation | |
Karjalainen et al. | Generalized source-filter structures for speech synthesis | |
Yang et al. | An acoustic-phonetic oriented system for synthesizing Chinese | |
Laine | PARCAS, a new terminal analog model for speech synthesis | |
Schnell et al. | Inverse filtering of tube models with frequency dependent tube terminations. | |
D'Alessandro et al. | MaxMBROLA: A Max/MSP MBROLA-based tool for real-time voice synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM | Patent lapsed |
Owner name: ROBCON OY |