FI117954B

FI117954B - Puhujan varmentamisjärjestelmä

Info

Publication number: FI117954B
Application number: FI974339A
Authority: FI
Inventors: Richard J Mammone; Manish Sharma; Xiaoyu Zhang; Han-Sheng Liou; Kevin Farrell; Naik Devang; Khaled Assaleh
Original assignee: Rutgers The State Univesity Of
Priority date: 1995-06-07
Filing date: 1997-11-26
Publication date: 2007-04-30
Also published as: DE69636057D1; NO975475L; NZ311289A; JPH11507443A; US5839103A; KR19990022391A; EP0870300B1; FI974339A; EP0870300A1; ATE323934T1; AU6257696A; CN1197526A; DE69636057T2; NO975475D0; WO1996041334A1; RU2161336C2; IL122354A; CA2221415A1; IL122354A0; NO321125B1

Description

117954 j PUHUJAN VARMENTAMISJÄRJESTELMÄ

Esillä olevan keksintö liittyy hahmontunnistus järjestelmään ja erityisesti puhujan verifiointi-järjestelmään, joka käyttää datafuusiota yhdistääkseen 5 dataa joukosta irrotettuja piirteitä ja joukosta luokittelijoita vaaditun identiteetin tunnistamiseksi tarkasti.

Hahmontunnistus liittyy hahmon identifiointiin, kuten puheen, puhujan tai kuvan identifiointiin.

10 Identifioitua puhujan hahmoa voidaan käyttää puhujan tunnistusjärjestelmässä sen määrittämiseksi, kuka puhuja puhuu äänteen perusteella.

Puhujan verifiointijärjestelmän tarkoituksena on verifioida puhujalta vaadittu identiteetti ääntees-15 tä. Puhuttu syöte puhujan tunnistusjärjestelmään voi olla tekstiriippuvaa tai tekstiriippumatonta. Teksti-riippuva puhujan verifipintijärjestelmä identifioi puhujan ennaltamäärätyn määreen tai salasanan äänteiden '1 perusteella. Tekstiriippumaton puhuj anturini s tus jär jes-20 telmä identifioi puhujan riippumatta äänteistä. Perin-

Jh teiset tekstiriippumattomat järjestelmät ovat mukavam- ... pia käyttäjän näkökulmasta katsottuna siinä mielessä, • · • · · , että ei tarvita salasanaa.

* · · ; ·' Piirreirrotus puhujan informaatiosta on suo- * · · : .' 25 ritettu modulointimallilla käyttäen adaptiivista kom- ponentin painottamista puheen kussakin kehyksessä, ku-: ten kuvataan patenttijulkaisussa US-A-5522012. Adap- :*·*; tiivinen komponentin painotusmenetelmä vaimentaa ei- vokaaliset äännekomponentit ja normalisoi puhekom-. .·. 30 ponentit puhujan tunnistamisen parantamiseksi kanaval- * * * -h ::: ia. v • * • · "* Muihin perinteisiin piirreirrotusmenetelmiin v • · · • V kuuluu kepstrikertoimien määrittäminen taajuusspekt- f :[*[: ristä tai lineaarinen ennustaminen spektrin koodaus- I·, 35 kertoimista. Neuraalipuuverkkoja (NTN) on käytetty pu- * · · "I hujariippumattoman datan yhteydessä diskriminointipe- * · *’·* rustaisten puhujakeskeisten parametrien määrittämisek- 2 117954 si. NTN on hierärkinen luokittelija, joka yhdistää päättelypuiden ja neuraaliverkkojen ominaisuudet, kuten kuvataan julkaisussa A. Sankar ja R.J. Mammone, "Growing and Pruning Neural Tree Networks", IEEE 5 Transactions on Computers, 0-42:221-229, maaliskuu 1993. Puhujan tunnistamiseksi opetusdata NTN:lie sisältää dataa haluttua puhujaa varten ja dataa muilta puhujilta. NTN jakaa piirreavaruuden alueiksi, joille annetaan todennäköisyydet siitä, miten todennäköistä 10 on, että puhuja on generoinut piirrevektorin, joka osuu puhujan alueelle. Tekstiriippumattornien järjestelmien ongelmana on, että ne vaativat suuren määrän dataa puhujan akustisten piirteiden mallintamiseksi ja arvioimiseksi.

15 Patenttijulkaisu US 4,957,961 kuvaa neuraali- verkon, joka voidaan helposti opettaa tiettyjen sanojen luotettavaan tunnistamiseen. Dynaamista ohjelmointitekniikkaa käytetään siten, että tulon neuroniyksi-köt tulokerroksessa ryhmitellään monikerroksiseen neu-20 raaliverkkoon. Tulokuvion tunnistamiseksi vektorikom- ponentit kussakin piirrevektorissa annetaan vastaaville tuloneuroniyksiköille yhdellä tulokerroksella, joka • · · *.* * valitaan kolmesta peräkkäisestä numeroidusta tuloker- * · • V roskehyksestä. Välikerros yhdistää tuloneuroniyksiköt j ' 25 ainakin kahdelta tulokerroskehykseltä. Lähtöneuroniyk- ··· sikkö yhdistetään välikerrokseen. Säätöyksikkö on kyt- * · · · .".4> ketty välikerrokseen välikerroksen tulon ja väliker- roksen lähdön yhteyksien säätämiseksi lähtösignaalin * · · muodostamiseksi lähtöyksiköllä. Neuraaliverkko tunnis- . 30 taa tulokuvion ennalta määrätyksi kuvioksi, kun sää- # · · töyksikkö maksimoi lähtösignaalin. Kunkin puhekuvion '*··* yhteydessä käytetään noin 40-kertaista opetusta dynaa- ·'·*· misen neuraali verkon opettamiseksi.

• * .*·*. On huomattu, että opetukseen ja testaukseen M* •t 35 käytetyn datan määrää voidaan vähentää käyttämällä • · « *·:.* ristiriippuvia puhujan äänteitä. Eräs perinteinen « «« tekstiriippuva puhujan verifiointi järjestelmä käyttää 3 117954 dynaamista aikasovitusta (DTW) ajan kohdistamiseksi piirteidenn diagnosoimisessa perustuen säröön, katso S. Furui, " Cepstral Analysis Technique For Automatic Speaker Verification", IEEE Transactions on Acoustics, 5 Speech, and Signal Processing, ASSP-29:254-272, huhtikuu 1981. Vertailuhahmo generoidaan useista salasanan äänteistä testauksen aikana. Päätös puhujalta vaaditun identiteetin hyväksymiseksi tai hylkäämiseksi tehdään sillä perusteella, osuuko puhujan äänteen särö alle 10 ennalta määrätyn kynnyksen. Tämän järjestelmän ongelmana on puuttuva tarkkuus.

Toinen tekniikka, joka käyttää piilotettuja Markovin malleja (HMM), on suorituskyvyltään parempi kuin DTW-järjestelmät, kuten kuvataan julkaisussa J.J. 15 Naik, L.P. Netsch, ja G.R. Doddington, "Speaker Verification Over Long Distance Telephone Lines", Proceedings ICASSP (1989). HMM:n useita sovelluksia on käytetty tekstiriippuvassa puhujan verifioinnissa. Esimerkiksi alisanamalleja, kuten kuvataan julkaisussa 20 A.E. Rosenberg, C.H. Lee ja F.K. Soong, "Subword Unit Talker Vefication Using Hidden Markov Models", Proceedings ICASSP, sivut 269-272(1990) ja täyssanamalleja • ·· ’.· · A.E. Rosenberg, C.H* Lee ja S. Gokeen, "Connected Word • \* Talker Recognition Using Whole Word Hidden Markov Mo- :***: 25 dels", Proceedings ICASSP, sivut 381-384 (1991) on • · ··· käytetty puhuja tunnistamiseen. HMM-tekniikoilla on se • · · :·. rajoitus, että ne yleensä vaativat suuren määrän dataa * · * mallin parametrien estimoimiseksi riittävästi. Eräs • v · yleinen ongelma DTW- ja HMM-järjestelmissä on, että ne . 30 mallintavat vain puhujaa eivätkä ota huomioon muiden • · · *···* järjestelmää käyttävien puhujien mallintamisdataa* On- • · · gelmat diskriminoidussa opetuksessa mahdollistavat murtautumisen näihin järjestelmiin.

• · .*··. Toinen järjestelmä on kuvattu dokumentissa • * ’·[ 35 "Text-Dependent Speaker Verification Using data Fusi- ’·!·* on", Farrell, ICASSP-95, joka esittää menetelmän kai- • * · ·...· uttimen puhujan verifioimiseksi. Järjestelmässä käyte- 117954 4 tään datafuusio käsitteitä vääristymäpohjaisten ja erottelupohjäisten luokittelijoiden yhdistämiseksi. Fuusioitujen luokittelijoiden ulostulon perusteella määritetään hyväksytäänkö vai hylätäänkö puhuja.

5 Näin ollen tarvitaan hahmontunnistusjärjes telmä, jossa joukko muodostettuja ominaisuuksia voidaan yhdistää joukossa ennalta määrättyjä luokittelijoita hahmontunnistuksen tarkkuuden parantamiseksi.

10 KEKSINNÖN YHTEENVETO

Esillä oleva keksintö käsittää vaatimuksessa 1 esiin tuodun menetelmän ja vaatimuksessa 18 esiin tuodun järjestelmän. Muita sovellusmuotoja on tuotu esiin epäitsenäisissä vaatimuksissa.

15

Keksintöä kuvataan seuraavassa tarkemmin viittaamalla oheisiin piirustuksiin.

Kuvio 1 on kaaviokuva eräästä esillä olevan keksinnön mukaisesta puhujaverifiointijärjestelmästä.

20 Kuvio 2A on kaaviokuva kuviossa 1 esitetystä sanantunnistusmoduulista järjestelmän opetuksen aikana.

··· *.· * Kuvio 2B on kaaviokuva kuvion 1 sanantunnis- * · * • tusmoduulista järjestelmän testauksen aikana.

: *: 25 Kuvio 3 on kaaviokuva puhuja verifiointimo- • · ··· duulista, joka yhdistää joukon muodostettuja piirteitä « · * · :*. luokittelijoihin.

• · ·

Kuvio 4 on kaaviokuva modifioidun neuraali- • · · puuverkon ja dynaamisten aikasovitusluokittelijoiden 30 yhdistelmästä, jota käytetään puhujan verifiointimo- * · · *”·* duulissa, joka esitetään kuviossa 1.

Kuvio 5 on kaaviokuva modifioidusta neuraali-puuverkkoluokittelijasta (MNDN) , jota käytetään kuvi- * * .*··. ossa 1 esitetyssä puhujan verifiointimoduulissa.

• * • 35 Kuvio 6 on kaaviokuva dynaamisesta aikasovi- tusluokittelijasta (DTW), jota käytetään puhujan veri-:...· fiointimoduulissa, joka esitetään kuviossa 1.

5 117954

Kuvio 7 A on kaaviokuva äännejoukosta, jota käytetään puhujan verifiointimoduulin opetuksessa.

Kuvio 7B on kaaviokuva kuviossa 7A esitetyn *· äännejoukon soveltamisesta puhujan verifiointimoduu-5 lissa.

Kuvio 8 on käyrä puhujan ja muiden puhujien tuloksista.

Kuvio 9 on kaaviokuva alisanaan perustuvasta puhujan verifiointijärjestelmästä.

10 Kuvio 10A on kaaviokuva alisanaan perustuvas- ta luokittelujärjestelmästä opetuksen aikana.

Kuvio 10B on kaaviokuva alisanaan perustuvasta luokittelujärjestelmästä testauksen aikana.

Kuvio 11A on kaaviokuva tunnetun tekniikan 15 mukaisesta normalisointijärjestelmästä.

Kuvio 11B on kaaviokuva esillä olevan keksinnön mukaisesta kanavan normalisointijärjestelmästä.

Kuvio 12 on napasuodattimen kanavanorma-lisoinnin kuvaaja.

20 Kuvio 13A on kuvaaja puhekehyksen spektristä.

Kuvio 13B on kuvaaja puhekehyksen spektristä esillä olevan keksinnön mukaisessa normalisointijär- * · · V* ί jestelmässä verrattuna tunnetun tekniikan mukaisen :***: normalisointi jär j es telmän kehykseen.

• · ·*·*; 25 Kuvio 14 on kaaviokuva affiini muunnos jär j es- • · telmästä.

···# • · • · • · ·

KEKSINNÖN YKSITYISKOHTAINEN KUVAUS

• * · • · · * Tässä selityksessä viitenumerolta käytetään 30 vastaavien elementtien identifioimiseksi eri kuviois- sa, jotka esittävät keksintöä.

* · ·

Kuvio 1 esittää kaaviokuvaa puhujan verifi- ointijärjestelmän 10 sovelluksesta esillä olevan kek- » · .···. sinnön mukaisesti. Puhuja 11 ääntää puhetta 12. Puhe * · 35 12 syötetään puhetulosignaalina 13 piirreirrotusmoduu- * liin 14. piirreirrotusmoduuli määrittää puheen piirre- • · « ϊ,.,ί vektorit 15, jotka edustavat puhetulosignaalin omi- 6 117954 naisparametrejä. Edullisesti puhepiirrevektorit 15 määritellään lineaariennusteanalyysillä (LP) LP-kepstrikertoimien määrittämiseksi. LP-kepstrikertoimet voidaan kaistanpäästösuodattaa käyttäen kohotettua si-5 ni-ikkunaa perinteistä tekniikkaa käyttäen kepstriker-toimien tunnistamisen parantamiseksi.

Vaihtoehtoisesti tai yhdessä LP-analyysin kanssa piirreirrotusmoduuli 14 voi muodostaa piirteen useilla menetelmillä. Esimerkiksi adaptiivista kom-10 ponentinpainotusmenetelmää, joka kuvataan yllä viitatussa patenttijulkaisussa US-A-5522012, voidaan käyttää puheen piirrevektorien 15 muodostamiseen. Adaptiivinen komponentinpainotustekniikka laajentaa muodostettuja piirteitä syöttämällä painotukset ennalta mää-15 rätyille komponenteilla puhetulosignaalissa 13 normalisoidun spektrin muodostamiseksi, joka spektri parantaa vokaaliäänneominaisuuksia signaalissa vähentämällä samalla ei-vokaalisten äänteiden vaikutuksia. Piirreirrotusmoduuli 14 voi myös generoida muita lineaari-20 sella ennustamisella saatuja piirteitä lineaarisen ennustamisen (LP) kertoimista käyttäen perinteisiä menetelmiä, kuten logaritmialueiden suhteita, viivaspekt- »·» ·/ · ripareja ja heijastuskertoimia. Piirreirrotusmoduuli 14 voi myös generoida nopean Fourier-muunnoksen (FFT) • · ·*·’; 25 avulla johdettuja spektripiirteitä lineaarisella ja • * logaritmisella taajuusasteikolla, fundamentaalisen * - ;·. taajuuden (äänenkörkeus) , äänikertoimia ja nollan yli- • ·· *... tys arvoja.

* · · * Sanantunnistusmoduuli 20 vastaanottaa piirre-30 vektorin 15 ja vertaa puhepiirrevektoreita 15 dataan *.!.* 16, joka liittyy puhepiirrevektoreihin 15. Data 16 *** I · *...*· voidaan tallentaa tietokantaan 50. Esimerkiksi puhuja 11 voi ääntää salasanan puheena 12. Puhepiirrevektorit • · ]···# 15 edustavat puhujan 11 salasanan äänteitä. Suljettu • · 35 salasanajoukko voidaan esittää datalla 16 ja tallentaa tietokantaan 50. Suljettu salasana joukko vastaa puhu- * · · ί.,.ϊ jän identiteetti joukkoa sisältäen salasanan puhujalle 7 117954 11. Puheentunnistusmoduulissa 20, jos vastaanotetut puhepiirrevektorit 15 sanantunnistusmoduulissa 20 vastaavat dataa 16, joka on tallennettu tietokantaan 50, : esimerkiksi vastaavat salasanaa vaaditulle identitee- 5 tille, käynnistetään puhujan verifiointimoduuli 30.

Jos vastaanotetut puhepiirrevektorit 15 eivät vastaa dataa 16, joka on tallennettu tietokantaan 50, esimerkiksi eivät vastaa salasanaa, joka on tallennettu tietokantaan 50 vaaditulle identiteetille, niin käyttäjää 10 11 voidaan pyytää soittamaan uudelleen moduulissa 21.

Puhujan verifiointimoduuli 30 edullisesti käyttää datafuusiota yhdistääkseen luokittelijajoukon puhepiirrevektoreihin 15, joka tekniikka kuvataan yksityiskohtaisemmin alla. Fuusioidut luokittelijalähdöt 15 35 puhujan verifiointimoduulissa 30 vastaanotetaan päättelyfuusion logiikkamoduulissa 40. Päättelyfuusion logiikkamoduuli 40 antaa lopullisen päätöksen siitä, hyväksytäänkö vai hylätäänkö vaadittu puhujan identiteetti verifioiden täten puhujalta vaaditun identitee-20 tin.

Kuviot 2A ja 2B esittävät sanantunnistusmo- duulia 20 puhujan 11 liittämis- ja testausvaiheessa, : vastaavasti. Liitettäessä puhuja 11 puhujaverifiointi- ·1·1· järjestelmään 10, opetuspuhetta 22 annetaan puhujalta • 1 25 11. Esimerkiksi opetuspuhe 22 voi sisältää neljä sa- • · lasanan toistokertaa puhujalle 11. Jokainen toistoker-roista tunnistetaan sanasovituksen tunnistusmoduulissa • 28. Edullisesti käytetään DTW-perustaista kaavaimen * 1 · ’·1 1 sovitusalgoritmia sanansovituksen tunnistusmoduulissa 30 28 tunnistettujen sanojen muodostamiseksi. Tunnistetut sanat 23 klusteroidaan puhujariippuvaan kaavaimeen 24. Puhujarloppumattomat kaavaimet 26 voidaan myös gene-roida tunnistetuilla sanoilla 23 ja saman opetuspuheen I 1 22 toistodatalla, joka on saatu muilta puhujilta 25 • · *"2 35 käyttäen puhujan verifiointijärjestelmää 10. Enemmis- ::: töä tunnistetuista sanoista 23 sanatunnistuksen sovi- • 1 1 · · • · * · 2 • · · 8 117954 tusmoduulissa 28 voidaan käyttää käyttäjän salasanan 27 identifioimiseksi puhujalle 11.

Testattaessa puhuja 11 puhetta 12 puhutaan käyttäjältä 11 ja sitä verrataan puhujariippuvaan kaa-5 vaimeen 24 ja puhujariippumattomaan kaavaimeen 26 sanan tunnistuksen sovitusmoduulissa 28. Jos puhe 12 edustaa puhujan 11 salasanaa 27 ja vastaa joko puhuja-riippuvaa sanakaavainta 24 tai puhujariippumatonta sa-nakaavainta 26, "hyväksy"-vaste annetaan johtimeen 29. 10 Jos puhe 12 ei vastaa puhujariippuvaa sanakaavainta 24 tai puhujariippumatonta sanakaavainta 26, "hylkää"-vaste annetaan johtimeen 29.

Edullisesti puhujan tunnistusmoduuli 30 käyttää datafuusiota yhdistääkseen joukon irrotettuja 15 piirteitä 60, 61 ja 62 luokittelijoihin 70, 71 ja 72, kuten esitetään kuvassa 3. Piirteet 60, 61 ja 62 voivat edustaa puheen piirrevektoreita 15, jotka on muodostettu erilaisilla ennalta määrätyillä irrotusmene-telmillä, kuten yllä kuvattiin. Luokittelijat 70, 71 20 ja 72 voivat edustaa erilaisia ennaltamäärättyjä luokittelumenetelmiä, kuten esim. neuraalipuuverkkoa (NTN), monikerroksista ennustamista (MLP), piilotettu- iti : ja Markovin malleja (HMM) , dynaamista aikasovitusta :***: (DTW) , Gaussin sekoitettua mallia (GMM) ja vektori- • · 25 kvantitointia (VQ) . Vaihtoehtoisesti piirteet 60, 61 * * ja 62 voivat edustaa irrotettuja piirteitä vaihtoeh- I*]* toisista kuvioista, kuten puheesta tai kuvasta, ja • ·· *... luokittelijat 70, 71 ja 72 voivat edustaa ennalta mää- • * « ’·* * rättyjä luokittelumenetelmiä puheelle tai kuvalle.

30 Lähde 73, 74, 75 vastaavilta luokittelijoilta 70, 71, ja 72 voidaan yhdistää päättelyfuusion logiikkamoduu- * * * lissa 40 lopullisen päätöksen tekemiseksi siitä, hy-väksytäänkö tai hylätäänkö puhuja 11. Päättelyfuusion • · 1 moduuli 40 voi käyttää perinteisiä tekniikoita, kuten • * ”** 35 lineaarista mielipidevarastoa, loogista mielipideva- ϊ#: ϊ rastoa, Baysian liittymissääntöjä, äänestämismenetel- ;***♦ mää tai ylimääräisiä luokittelijoita yhdistääkseen ♦ ·· 9 - * 117954 luokittelijat 70, 71 ja 72. Huomattakoon, että mikä tahansa määrä piirteitä tai luokittelijoita voidaan yhdistää. Luokittelijoihin voi myös kuulua erilaisilla limittäin menevillä opetusdatan substraateilla opetet-5 tuja luokittelijoita, esim. "jätä yksipois"-tekniikalla opetettuja luokittelijoita, kuten yllä kuvat-tiin.

Kuvio 4 esittää edullista puhujan tunnistus-moduulia 30 käytettäväksi esillä olevan keksinnön mu-10 kaisessa puhujan tunnistusjärjestelmässä. Puhepiirre-vektorit 102 syötetään neurolippuverkkoluokitteli-joihin 104, 106, 108 ja 110 ja dynaamisille aikasovi-tus(DTW)luokittelijoille 120, 122, 124, 126. Luokittelun aikana jokainen luokittelija 104, 106, 108 ja 110 15 ja 126 määrittävät sen, onko piirrevektori 102 ennal-tamäärätyn suhteellisen kynnyksen "T^", joka on tallennettu tietokantaan 132, yläpuolella. Jokainen DTW-luokittelija 120, 122, 124 ja 126 määrittää sen, onko piirrevektori 102 kynnyksen "T^" , joka on tallennettu 20 tietokantaan 132, yläpuolella. Jos piirrevektorit 102 ovat vastaavien kynnysten “T^" ja "Tirra" yläpuolella, annetaan johtoihin 240 ja 241 binaarilähtö "1", vas-taavasti. Jos piirrevektorit ovat alle ennaltamäärät- • · · tyjen kynnysten "T^" ja "T^", annetaan johtoihin 240 ·· *· 25 ja 241 binaarilähtö "0", vastaavasti.

• · i • · * I Puhujan 11 testaamisen aikana puhuj anturini s- • · · ···· tus järjestelmän 10 päättelymoduuli 40 vastaanottaa bi- ‘ ** näärilähdöt johdoilta 240 ja 241. Päättelymoduulin 40 • · * · edullisessa sovelluksessa enemmistöäänestys voidaan 30 ottaa binäärilähdöistä päättelymoduulissa 240 sen mää- : riitämiseksi, hyväksytäänkö vai hylätäänkö puhuja 11.

• * m ·***: Tässä sovelluksessa, jos enemmistö binäärilähdöistä ♦ · · ovat "1", puhuja hyväksytään, ja jos enemmistö binää- * * · \#·* rilähdöistä ovat "0", niin puhuja hylätään.

*···* 35 Edullinen luokittelija on suunniteltu modifi- : oiduksi neuraalipuuverkoksi (MNTN) 200, ja sitä voi- ♦ · ·***. daan käyttää erottelupohjäisenä luokittelijana puheen- • · · 10 117954 tunnistusmoduulissa 30. MNTN:ään 200 kuuluu joukko yhdistettyjä solmuja 202, 204 ja 206, kuten esitetään kuviossa 5. Solmu 204 on kytketty lehtisol muun 208 ja lehtisolmu 210 ja solmu 206 on kytketty lehtisolmuun 5 212 ja lehtisolmuun 214. Kussakin lehtisolmussa 208, 210, 212 ja 214 käytetään todennäköisyysmittausta, johtuen puun "etenevästä karsimisesta" typistämällä MNTN:n kasvu alle ennaltamäärätyn tason.

MNTN 200 opetetaan puhujaa varten soveltamal- 1 10 la dataa 201 muilta puhujilta 25 käyttäen puheentunnistus järjestelmää 10. Muodostetut piirrevektorit 15, puheelle 11 identifioidaan vektoreiksi "S/, ja niille annetaan otsikon "1" ja piirrevektorit muille puhujille 25 käyttäen puhujantunnistusjärjestelmää 10 saavat 15 otsikon "0". Data 220, 230, 240 ja 250 syötetään vastaavasti lehtisolmuihin 208, 210, 212 ja 214 muodostetuilla piirrevektoreilla. Kussakin lehtisolmussa 208, 210, 212 ja 214 voidaan muodostaa äänestys. Jokaiselle ; lehtisolmulle 208, 210, 212, ja 214 nimetään otsikko 20 äänestyksen enemmistöstä. "Luotettavuus" määritellään enemmistöotsikoiden määrän suhteena otsikoiden kokonaismäärään. Esimerkiksi data 220, joka sisältää kah- *·* :.· * deksan "0" piirrettä saa otsikon "0" ja luotettavuuden • "1.0". Data 230, joka sisältää kuusi "1" piirrettä ja :*·*: 25 neljä "0" piirrettä saa otsikon "1" ja luotettavuuden • * "0.6".

• f • « · * .*·. Opetettua MNTN:tä 200 voidaan käyttää puhu- • · · jantunnistusmoduulissa 3 0 puhujaa vastaavan tuloksen • · · määrittämiseksi piirrevektoreiden "X" sekvenssistä pu- . 30 heesta 12. Vastaava puhujan tulos (X/Sj) voidaan • * · ‘·:·* määrittää seuraavalla yhtälöllä: • · * * * • * ···.: > C.

* ** P (X /S')— - ‘ ΓΜΝΤΝ'Λ ' ^if VW , VW ,

*··»* 2^j*\Ci 2^j=iCJ

• · · • · · · · • ·« • * • « • m · u 117954 jossa puhuja 11 merkitään S^llä, C1 on puhujan 11 luotettavuusarvoja, C° on muiden puhujien luotettavuusarvo. M ja N vastaavat "1" ja "0" luokiteltuja vektoreita, vastaavasti.

5 Edullinen STW-luokittelija käyttää säröön pe rustuvaa sovellusta aaltomuodon tai piirrekuvion aika-kohdistamiseksi, kuten esitetään kuviossa 6. Aaltomuodot esitetään referenssikuviolla puhevektoreista 15 X-akselilla ja testikuviolla puhevektoreista 15 ΥΙΟ akselilla 15, jossa N edustaa referenssikuvioiden määrä ja M edustaa testikuvioiden määrä. Globaalit arvot 270, 271, 272 ja 273 edustavat rajoja dynaamiselle ai-kasovitusreitille 275. Dynaaminen aikasovitusreitti 275 voidaan määrittää perinteisillä menetelmillä, ku-15 ten niillä, joita kuvataan julkaisussa H. Sakoe ja S.

Chiba, "Dynamic programming algorithm optimization for spoken word recognization" IEEE Trans, on Acoustics,

Speech and Signal Processing,vol. ASSP-26, nro 1, ss.

43-49, helmikuu 1978.

20 On edullista yhdistää luokittelija, joka pe rustuu särömenetelmään eli DTW-luokittelija, puhujaan liittyvän informaation aikaansaamiseksi ja luokitteli- ··♦ · ja perustuen erottelumenetelmään, NTN tai MNTN, luo- * * · • kittelijoita puhujaan liittyvän informaation aikaan- **·’: 25 saamiseksi suhteessa muihin puhujiin käyttäen puhujan- • · tunnistusjär jestelmää 10. DTW-luokitteli jän ja NMTN- :*, tai NTN-luokitteli joiden fuusio on edullista, koska * DTW-luokitteli ja antaa temporaalista informaatiota, • · · * joka ei yleensä ole NTN- tai MNTN-luokittelijoiden 30 ominaisuus.

*·!·* NTN-luokitteli jät 104, 106, 108 ja 110 ja • · * DTW-luokitteli jät 120, 122, 124 ja 126 voidaan opettaa opetusmoduulilla 300, kuten esitetään kuvioissa 7A ja ♦ * • · ,···, 7B. Opetusmoduulia voidaan myös käyttää MNTN- • * 35 luokittelijoiden, DTW-luokittelijoiden ja muiden luo- , * kittelijoiden, joita voidaan käyttää puhujantunnistus- • · * •...5 moduulissa 30, opettamiseen. Uudelleennäyttöesitystek- 12 117954 nilkka, jota kutsutaan "jätä yksi ulkopuolelle" tekniikaksi on edullisesti käytössä opetusmoduulissa 300. Ennalta määrätty määrä puheen äänteitä vastaanotetaan puhujalta 11. Tässä sovelluksessa, neljä ään-5 nettä, jotka määritellään numeroilla 302, 304, 306 ja 308, puheesta 22, kuten puhujan salasanasta, on käytössä. Kolmen äänteen yhdistelmä neljästä, jossa yksi äänne jätetään pois, annetaan NTN-luokittelijoille 104, 106, 108 ja 110 ja DTW-luokittelijoille 120, 122, 10 124 ja 126. Kolmea äännettä käytetään luokittelijoiden opetukseen ja jäljelle jäävää äännettä käytetään riip- ^ pumattomana testitapauksena. Esim. äänteet 302, 304 ja 306 voidaan antaa NTN-luokittelijalle 104 ja DTW-luokittelijalle 120; äänteet 304, 306 ja 308 voidaan 15 antaa NTN-luokittelijalle 106 ja DTW-luokittelijalle 122, äänteet 302, 306 ja 308 voidaan antaa NTN- luokitteli jalle 108 ja DTW luokittelijalle 108 ja DTW-luokittelijalle 124 ja äänteet 302, 304 ja 308 voidaan antaa NTN-luokittelijalle 110 ja DTW-luokittelijalle 20 126.

Kun kolme äännettä on annettu kullekin luo-kittelijaparille NTN-luokittelijoista 104, 106 108 ja 110 ja DTW-luokit teli joista 120, 122, 124 ja 126, jäl-jelle jäänyt äänne annetaan kullekin vastaavalle pa- • · ·*·*; 25 rille NTN-luokitteli joita 104, 106, 108 ja 110 ja DTW- luokittelijoita 120, 122, 124 j 126, kuten esitetään ;·[ kuviossa 7C. Esimerkiksi äänne 308 annetaan NTN- # ** luokittelijalle 104 ja DTW-luokittelijalle 120, äänne * · « • 302 annetaan NTN:lle 106 ja DTW:lle 122, äänne 304 an-30 netaan NTN:lie 108 ja DTW:lle 124 ja äänne 306 anne- taan NTNrlle 110 ja DTW:lle 126. Todennäköisyys, p, 0 ja 1 välillä nimettynä 310, 312, 314 ja 316 lasketaan. Todennäköisyyksiä 310, 312, 314 ja 316 verrataan kyn- • · ]·». nykseen T^ ja todennäköisyyksiä 317, 318, 319 ja 320 * · *!* 35 kynnykseen T^ äänestysmoduulissa 321 päättelyfuusion logiikka moduulissa 40.

* · · • · • · • * · , 13 117954

Kuvio 8 on kuvaaja puhujan välisistä tuloksista muilta puhujilta 25 ja puhujien välisistä tuloksista puhujalta 11, jota kuvaajaa voidaan käyttää kynnysten määräämiseen luokittelijoille, joita käytetään 5 puheentunnistusjärjestelmässä 10, esim. kynnykset ja T^. Puhujienväliset tulokset puhujalle 11 puheesta 12 esitetään käyrällä 350, jolla on puhujan keskiarvo-tulos 351. Puhujaväliset tulokset muilta puhujilta 25 puheelle 12 esitetään käyrällä 360, jolla myös on pu- 10 hujan keksiarvotulos 361. Kynnykset, T, voidaan määrittää seuraavasta yhtälöstä: interspeaker = puhujien välinen 15 Pehmeä tulos, S, voidaan määrittää siitä mää rästä, jonka puhe 12 on suurempi tai pienempi kuin kynnys, T. Kunkin luokittelijan, C, tulos on nollan ja ykkösen välillä, jossa nolla johtaa todennäköisimmin hylkäykseen ja ykkönen todennäköisimmin hyväksyntään.

20 Hyväksymisluotettavuus, Caecept, on kynnyksen T ja ykkösen välillä ja se voidaan määrittä seuraavasta yhtä- 1 löstä: ··· * * · • * ·

** t C_T

: * : c = - 1 * · '"'accept i rr • · ' : 25 • · · **’* Hylkäysluotettavuus, Creject, on nollan ja kyn- • ** nyksen T välillä ja se voidaan määrittää seuraavasti: • * * • « · • t t • ,

C - T'S

, ^reject T

• * · i • · · 30 • ·

Kuvio 9 esittää kaaviokuvaa alisanaan perus- ·· * : tuvasta puheentunnistusjärjestelmästä 400. Puhepiirre-

»M

vektorien 15 irrottamisen jälkeen piirreirrotusmoduu-. .·. lissa 14 puhepiirrevektorit 15 segmentoidaan alisa- • tl 35 noiksi 404 alisanan segmentointimoduulissa 402. Edul- * ·

• M

14 117954 lisesti alisanat 404 ovat ääniä. Alisanat 404 voidaan antaa opetuspuhujamoduuliin 406 ja testipuhujamoduu-liin 408.

Kuvio 10A on kaaviokuva alisanaan perustuvas-5 ta puhujantunnistusjärjestelmästä 400 opetuspuhemoduu-lin 406 käytön aikana. Puhujan muodostetut piirteet 15 tulkiten puhujan 11 opetusäänteitä ja salasanakuvausta 410 annetaan alisanan äännetason segmentointi moduulille 402. Salasanakuvaus 410 voidaan puhua puhujalle 10 11, syöttää tietokoneella tai skannata kortilta tai vastaavalta. Puheen segmentointimoduli 402 segmentoi puhujan muodostetut piirteet 15 alisanoiksi l:stä M:ään, esimerkiksi, alisana "1" moduulissa 420, alisa-na "m" moduulissa 422 ja alisana "M" moduulissa 424, 15 jossa iso M on segmentoitujen alisanojen määrä. Alisanat 420, 422 ja 424 voidaan tallentaa alisanatietokan- ; taan 425. Ohjattu opetusvektorin nimikointikaavio 430 määrittää otsikot opetuspuhevektoreille "0":ksi tai "l":ksi opetusluokittelijoille 440, 442 ja 444. Esi- 20 merkiksi kaikki alisanat muille puhujille 25 voidaan otsikoida merkeillä "0" ja alisanat puhujalle 15 voidaan otsikoida merkillä "1". Vaihtoehtoisesti lähimmät · ♦ «* V ' äänteet voidaan etsiä tietokannasta 425. Alisana- ·***: luokittelijat 440, 442 ja 444 ovat käytössä vastaavil- * 25 le alisanoille 420, 422 ja 424 kunkin alisanan luokit-* * J • · telemiseksi. Edullisesti alisanaluokittelijät 440, 442 j"* ja 444 käyttävät NTN- ja MNTN-luokittelumenetelmiä.

* · *

Kuvio 10B on kaaviokuva alisanaperustaisesta «49 *** puhujan tunnistus järjestelmästä 400 testipuhujamoduu- 30 Iin 408 käytön aikana. Puhujan muodostettu ominaisuus 15 mallin tai puhujan 11 testiäänteitä annetaan alisa- ·«· nan äännetason segmentointimoduulin 402 yhdessä sa- ··*· lasanan kuvauksen 410 kanssa. Alisanaluokitteli jät • · · ^ • · *..* 440, 442 ja 444 luokittelevat vastaavat alisanat 420, • · ·;* 35 422 ja 424, jotka on määritetty muodostetuista puhu- janominaisuuksista 15 tulkiten puhujan 11 testiääntei-tä. Lähtö 445 luokittelijalta 440, 442 ja 444 annetaan *** 15 1 117954 päättelyfuusion logiikkamoduulille 40 sen määrittämiseksi, hyväksytäänkö vai hylätäänkö puhuja 11 perustuen fuusioituun lähtöön luokittejalta 440, 442, ja 444 perustuen laskettuun hyväksymisluotettavuuteen Caeeept, 5 kuten yllä kuvattiin.

Edullinen menetelmä, jota voidaan kuvata "na-pasuodatukseksi", voi olla käytössä piirteen irrotus-moduulissa 14 puheominaisuusvektoreiden 15 saamiseksi, jotka vektorit ovat robusteja kanavanmuutoksille. Na-10 pasuodatus suorittaa kanavan normalisoinnin käyttäen älykästä suodatusta kaikille lineaarisen ennustus-suodattimen (LP) navoille.

Puhdas puhe Ca konvoloidaan kanavalle impuls-sivastaajalla h, jonka jälkeen kanavan kepstri normaa-15 lista kepstrikeskiarvosta voidaan esittää seuraavasti, c = Σί".+Λ’ «Ι·Ι jossa 20 V, £>. ;

Hl=l II» • · * ··»*' *’·*: vastaa kepstrikeskiarvokomponenttia perustuen pelkäs- • Λ tään puhtaaseen puheeseen. Komponentti johtuen puh- • · taas ta puheesta pitäisi olla nollakeskiarvoinen, jotta 25 kanavan kepstriestimaatti Ca vastaisi kepstri es timaat- f· tia, h, sen hetkisellä konvoluutiosäröllä.

• · « \ *** Voidaan empiirisesti osoittaa, että keskiar- vokepstrikomponentti, joka seuraa puhtaasta puheesta, :.:.J ei ole koskaan 0 lyhyille äänteille ja sama tilanne ·*· :,..ϊ 30 voi olla uuden tunnistus järjestelmän 10 opetuksessa ja :v. testauksessa.

* *

Tunnetun tekniikan mukainen normalisointijär-jestelmä 500 esitetään kuviossa 11A, jossa puhe syöte-tään kehyksen väliseen painotusmoduuliin 502. Adaptii-35 vinen komponenttipainotus (ACW) on esimerkki kehysten 16 117954 välisestä painotuksesta kanavan normalisointia varten. Painotettu puhe 504 vastaanotetaan kehyksen välisessä käsittelymoduulissa 506 ylimääräisten kanavavaikutuk-sen poistamiseksi. Eräs perinteinen kehystenvälinen 5 menetelmä kanavan vaikutusten poistamiseksi on käyttää kepstrikeskiarvon vähennystä (CMS). Koska kanavan kepstri käsittää ristispektrijakauman, joka on seurausta kanavasta ja puheesta, perinteinen kanavan kepst-rin häiriöidyn estimaatin eliminointi kunkin puheke-10 hyksen kepstristä vastaa tehollista dekonvolointia epäluotettavalle kanavaestimaatille.

Kuvio HB esittää esillä olevan keksinnön mukaista kanavan normalisointijärjestelmää 600. Puhe 12 syötetään kanavaestimaatin napasuodatusmoduulin 602. 15 Napasuodatus poistaa painotuksen puheesta sa muuttumattomana komponettilisäyksestä johtuen. Uudelleenmääri-tettyä kanavaestimaattia käytetään kanavan normalisointiin. Edullisesti kanavakepstrin uudelleenmäärittäminen voidaan suorittaa iteratiivisesti.

20 Kanavakepstrin C„ riippuu äänteessä olevien puhekehysten määrästä. Tilanteessa, jossa saatavilla oleva puhe on riittävän pitkä, on mahdollista saada i·· : estimaatti kanavakepstristä, joka approksimoi todel- ·*·*· lista kanavan estimaattia h. Kaikkein käytännön is im- * * 25 missä tilanteissa äänteiden kestot opetusta tai testa- • · usta varten eivät ole koskaan riittävän pitkiä sa - 0:n J!” mahdollistamiseksi. Kepstrikeskiarvoestimaattia voi- • ·♦ daan kehittää määrittämällä napojen dominanssit puhe- • · · *·* * kehyksessä ja niiden vaikutus kanavakepstrien esti- 30 maattiin.

Kunkin vokaalisen äänteen moodin vaikutus « · · kepstrikeskiarvoon määritetään muuttamalla kepstrikes-;·]·. kiarvo lineaarisen ennusteen kertoimiksi ja tarkaste-

* · I

'..l lemalla vastaavien kompleksikonjukaattinapaparien do- • · “* 35 minanssia. Spektrikomponentti puhekehykselle on do- :,:V minoivin, jos se vastaa yksikköympyrää lähimpänä ole- vaa kompleksikonjukaattinapaparia (minimikaistanleve- 17 117954 ys) ja vähiten dominoiva, jos se vastaa yksikköympy-rästä kauimpana olevaa kompleksikonjukaattinapapa-ria (maksi-mikaistanleveys).

Rajoittamalla puheen navat tasaisemman ja tä-5 ten tarkemman käänteiskanavaestimaatin saamiseksi kepstrialueella vastaa modifioitua kepstrikeskiarvoa, ' cf 10 joka poistaa painatuksen kepstribiasilta liittyen epä-varianttiin komponenttiin puheen seurauksena. Uudelleen määritetyn kepstrikeskiarvon poistaminen vapauttaa ristispektrijakaumakomponentin puheen seurauksena ja tarjoaa paremman kanavan normalisoinnin.

15 Kanavaestimaatti määritettynä parhaiten ka- vananapojen suoritusmoduulista 602 yhdistetään puheeseen 12 dekonvoluutiomoduulissa 730 aika-alueen dekon-vuloimiseksi normalisoidun puheen aikaansaamiseksi.

Perinteinen kehyksenvälinen kytkentä 502 ja häiriökä-20 sittely 506 voidaan soveltaa normalisoituiin puheeseen 735 kanavalle normalisoidun puhevektorin 740 muodostamiseksi. Puhepiirrevektori 740 voidaan syöttää vastaa- *·· V * valla tavalla kuin puhepiirrevektorit 15, kuten esi- ·· · • tettiin kuviossa 1. Eräs edullinen menetelmä kanavan :1: 25 estimaatin parantamiseksi käyttää napasuodatettuja • » kepstrikertoimia, PFCC, jossa kapeakaistaiset navat : ··*♦ :·. laajennetaan niiden kaistanleveyksille, kun taas nii- ♦ ·· #··.ρ den taajuudet jätetään muuttumattomiksi, kuten esitetään kuviossa 12. Navat 801, 802, 803, 804, 805, 806 t 30 siirretään modifioituihin napoihin 811, 812, 813, 814, « · · *·:·* 815 ja 816. Vaikutus on sama kuin siirrettäisiin ka- «*« peakaistaiset navat yksikköympyrän sisällä samalla sä-teellä, jolloin pidetään taajuus vakiona ja laajenne- • * ,··*. taan kaistanleveyksiä.

• · *·| 35 Napasuodatetut kepstrikertoimet, PFCC, määri- tetään puheelle jatkuvasti puhepiirresektoreista 15.

« * ·

Napasuodatetut kepstrikertoimet, PFCC, määritetään 18 117954 analysoimalla, täyttääkö napa kehyksessä 12 kaistaleveyttä, joka on pienempi kuin ennalta määrätty kynnys t. Jos puhe 12 on pienempi kuin ennalta määrätty kynnys, niin navan kaistanleveys leikkautuu kynnykseen t.

5 Napasuodatettuja kepstrikertoimia voidaan käyttää kepstrikeskiarvojen arvioimiseen. Parannettu käänteis- ; suoda- tusestimaatti saadaan käyttämällä napasuodatettuja kepstrikertoimia PFCC, jotka paremmin approksimoivat todellista käänteistä kanavasuodatinta. Modifi-10 oidun kepstrikeskiarvon vähentäminen kepstrikehyksistä puheessa säilyttää spektri-informaation ja samalla tarkemmin kompensoi kanavan spektrikallistumaa.

Kuvio 13A esittää puhekehyksen esimerkki-spektriä 700. Kuvio 13B esittää tunnetun tekniikan mu-15 kaista kepstrikeskiarvoa Cs spektrille 710 vähennettynä spektri 700. Spektri 720 on napasuodatettu modifioitu kepstrikeskiarvo Cf , joka on vähennetty spektristä 700. Spektri 720 esittää parannettua spektri-informaatiota spektristä 710.

20 Kuvio 14 esittää affiini muunnosjärjestelmää 900, jota voidaan käyttää puhujan tunnistusjärjestelmän 10 opetukseen ja testaukseen. Epäsovitus puhe- ja V · testausympäristöjen kanssa voidaan poistaa suoritta- !*·*: maila affiini muunnos kepstrikertoimille, jotka on **·*· 25 saatu piirreirrotusmoduulista 14. Affiini muunnos y * · vektorista x määritetään seuraavasti, • · · · ;·. y = Ax + b • ·· missä A on matriisi, joka edustaa lineaarimuunnosta ja • · · ·' b on ei-nollavektori, joka edustaa affiini muunnosta, 30 y on testidataa ja x vastaa opetusdataa. Puheen käsit- *.ί.* telyalueella matriisi A mallintaa yksittäisten kepst- :.,.ϊ rikertoimien kustistumista johtuen kohinasta ja vekto- :v. ri b laskee kepstrikeskiarvojen kohdistamattomuutta • · johtuen kanavavaikutuksista.

• · 35 Singulaariarvojen uudelleen muodostaminen (SVD) kuvaa affiini muunnoksen geometriaa seuraavalla yhtälöllä: 19 117954 y-uYy'x+b missä U ja VT ovat unitaarisia matriiseja ja on diagonaali. Geometrinen tulkinta on, että x kierretään Vr:llä, skaalataan £ :llä ja kierretään uudelleen 5 U:lla. Lisäksi on vektorilla b muodostettu muunnos.

On huomattu, että jokainen kepstrikerroin skaalataan käytännössä eri arvolla ja kepstrikertoimi-en uudelleenskaalauksen liittäminen on kulmien muutosta. Kohinainen kepstrivektori CM voidaan esittää puh-10 taan keskivektorin c tulolla matriisin a kanssa eli

Cng = Ac.

Samanaikaisesti voidaan esittää sekä kanavan että kohinan muodostama häiriö ja siinä voidaan käyttää sovitusta, joka esitetään seuraavasti 15 C = Ac + b. Af fiini muunnosparametri x määritetään affiini muunnoksella, x - A'1 (y-b) jossa x vastaa x.-ää. Affiini muunnosparametrit A ja b voidaan löytää käyttämällä neliömenetelmää yllä olevan 20 yhtälön ratkaisemiseksi opetus- tai ristivalidointi datajoukolla. Puhujan tunnistusjärjestelmän 10 ... opetuksen aikana puhepiirrevektorit 15 yhdistetään af- • « · fiini muunnosmoduliin 902 ja syötetään luokittelijan : .* tulojohdolla 901 luokittelijaan 904. Opetuksen aikana «· · • *.· 25 puhepiirrevektorit 15 liitetään affiini muunnosmodu- liin 902 ja syötetään luokittelijan tulojohdolla 903 ·*♦.. luokittelijaan 904. Edullisesti luokittelija 804 on vektorikvantisoi jaluokitteli ja. Luokittelija 804 voi vastata esimerkiksi luokittelijoita 70, 71, 72, jotka 30 esitetään kuviossa 2, tai NTN-luokittelijoita 104, 106, 108, 110 ja DTW-luokittelijät 120, 122, 124 ja • · *···* 126, jotka esitetään kuviossa 4.

:*·*: Puhu jantunnis tus järjestelmässä 10 puhujat, * · jotka vaativat niiden todellista identiteettiä, voivat

Ml 35 olla tosipuhujia, kun taas puhujat 11, jotka vaativat • · * **j*' hämättyä identiteettiä, voivat olla hämääjiä. Arvioi- • · • · ··« 20 117954 taessa puhujia, puhujantunnistusjärjestelmä 10 voi tehdä kahdentyyppisiä virheitä: (a) väärä hylkäys (FR) ja väärä hyväksyntä (FA). väärä hylkäys (FR) -virhe johtuu siitä, kun todellinen puhuja vaatii todellista 5 identiteettiä ja hylätään puhujantunnistusjärjestelmällä 10. Kun hämääjä saa hyväksynnän puhujantunnis- > tusjärjestelmältä 10, virhehyväksyntä (FA) -virhe on tapahtunut. Päätös identiteetin hyväksymisestä tai hylkäämisestä riippuu kynnyksestä T, kuten yllä kuvat-10 tiin. Riippuen kunkin virhetyypin kustannuksista järjestelmä voidaan suunnitella hylkäämään toinen virheistä toisen kustannuksella. Vaihtoehtoisesti kilpailevien tekniikoiden arvioimiseksi todellinen virheno-peus (EER) järjestelmässä voidaan tutkia. Virhenopeus 15 saadaan, kun molemman tyypin virheitä (nimittäin FR ja FA) esiintyy samalla todennäköisyydellä.

Alisanaan perustuva puhujantunnistusjärjestelmä esillä olevan keksinnön mukaan arvioitiin perinteisellä puhekokoelmalla, jota kutsutaan YOHO:ksi, jo-20 ka saadaan Linguistic Data Consortiumilta (LDC), Philadelphia. Alisanaan perustuva puhujan tunnistusjärjestelmä 10 esillä olevan keksinnön mukaan antoi vir-ij’: henopeuden (EER) 0.36 %, verrattuna perinteiseen pii- ·*·*. lotettuun Markovin malliin (HMM) - perustuvien järjes- • · 25 telmien EER:ää 1.66 % samoissa olosuhteissa.

• · * ·

Esillä olevalla keksinnöllä on etu useiden ΙΓ" eri luokittelijoiden attribuuttien yhdistämisestä te- • * ·« hokkaan tunnistus järjestelmän muodostamiseksi, jossa * · · ’·* ’ järjestelmässä voidaan tarkasti tunnistaa annettu ku- 30 vio. Puhujan tunnistussovelluksessa säröön perustuva :.:.ί luokittelija voidaan yhdistää erotteluun perustuvaan : luokittelijaan puhujaa ja puhujana muihin puhujiin ./•t liittyvien attribuuttien yhdistämiseksi. Edullisesti neuraalipuuverkkoa käytetään puhujilta ja muilta puhu- • · **··* 35 jilta saadun datan luokitteluun prosessoinnin vähentä- ::: miseksi. Sanatunnistuksen kytkentämoduuli voi lisätä ylimääräistä tarkkuutta tunnistus järjestelmään ja vä- • · · 21 117954 hentää hylättyjen puhujien käsittelyä. Edelleen luokittelija voi olla aiisanaperustäinen tekstiriippuval-la tai -riippumattomalla datalla. Lisäksi tunnistus-järjestelmä voidaan opettaa jätä yksi pois - ' 5 menetelmällä järjestelmän opettamiseen tarvittavan da- ‘ tan vähentämiseksi. Napasuodatusta voidaan käyttää ka-navasäröjen vähentämiseksi järjestelmässä. Irrotettujen piirteiden affiini muunnos aikaansaa paremman korrelaation opetus- ja testausdatan välillä. Lisäksi 10 järjestelmä voi päivittää puhujan malleja positiivisen tunnistuksen jälkeen ikääntymisen ottamiseksi huomioon.

Edellä keksintöä on kuvattu viitaten edulliseen sovellukseen, ja selitystä ei ole tarkoitettu ra-15 joittavaksi. Ammattimiehelle on selvää, että muunnoksia voidaan tehdä poikkeamatta esillä olevan keksinnön vaatimuksissa määritetystä keksinnön suojapiiristä.

··· ·♦·:'· ····'· ·· · • · · * · • · ·· · • ♦ · • · * ♦ ··* ··♦· ·· • · * • * · • · · • · · • · · • · · • · · • · · • · * * • · · ·· • * · ' * · * · • · · • · • · « • ♦ · • · · ··· ··· ♦ · ·····'* ·«·

Claims

117954

1. Menetelmä puhujan varmentamiseksi, joka menetelmä käsittää vaiheet: irrotetaan ainakin yksi piirre ensimmäisestä 5 puhujan puhumasta puheesta; luokitellaan mainittu ainakin yksi piirre luokittelijoilla luokitellun lähtöjoukon muodostamiseksi; yhdistetään mainitut luokitellut lähdöt yh-10 distettyjen luokiteltujen lähtöjen muodostamiseksi,- tunnistetaan mainitut yhdistetyt luokitellut lähdöt määrittämällä mainittujen yhdistettyjen luokiteltujen lähtöjen ja mainitulle puhujalle ennen mainittua puhujan varmentamista tallennetun datan vastaa-15 vuus;; määritetään mainituista tunnistetuista yhdistetyistä luokitelluista lähdöistä se, hyväksytäänkö vai hylätäänkö puhuja; tunnettu siitä, että menetelmä edel-20 leen käsittää vaiheet: tunnistetaan mainitun puhujan puhuman ensim-;*·*. mäisen puheen sana vertaamalla mainittua ainakin yhtä piirrettä puhujan ennen puhujan varmentamista tallen- • m • · tamaan dataan sen määrittämiseksi, hyväksytäänkö vai • · 25 hylätäänkö puhuja alustavasti; ja "** käynnistetään luokittelu mainitulle ainakin * · : ** yhdelle piirteelle, jos päätetään alustavasti hyväksyä • · · *.* * puhuja tai kytketään takaisinsoittomoduuli, jos pääte tään alustavasti hylätä puhuja. • · ϊ : : 30

2. Patenttivaatimuksen 1 mukainen menetelmä, ··· · ' tunnettu siitä, että * . määritetään mainittujen tunnistettujen yhdis tettyjen luokiteltujen lähtöjen luotettavuus.

3. Patenttivaatimuksen 1 mukainen menetelmä, ·:**; 35 tunnettu siitä, että ensimmäiseen puheeseen ;**t; kuuluu ainakin yksi kuultava salasana puhujalle. • · _2¾ 117954

4. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että mainittu data käsittää pu-hujariippuvaisen kaavaimen puhujan etukäteen puhumasta puheesta ja puhujariippumattoman kaavaimen, joka on 5 muodostettu ainakin yhden toisen puhujan puheesta etu käteen.

5. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että luokitteluvaihe suoritetaan neuraalipuuverkolla (Neural Tree Network, NTN) ja 10 dynaamisella aikamuuttuvalla luokittelijalla.

6. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että luokitteluvaihe suoritetaan modifioidulla neuraalipuuverkolla (MNTN) ja dynaamisella aikariippuvalla luokittelijalla.

7. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että tunnistamisvaiheessa .· sovelletaan mainittujen luokittelijoiden luo-kittelijaparille joukkoa puheen ensimmäisiä äänteitä mainitulta puhujalta ja jätetään yksi äänteistä ulko-20 puoliseksi äänteeksi mainittujen luokittelijoiden opettamiseksi; ... sovelletaan ulkopuolelle jätetyt äänteet mai- • · · ]·* nitulle luokittelijoiden parille luokittelijoiden * i « I .* testaamiseksi riippumattomasti; • · · : 25 lasketaan ensimmäinen todennäköisyys ensim- ..*·* mäiselle luokittelijalle luokittelijaparissa ja toinen todennäköisyys toiselle luokittelijalle luokittelija-parissa; ja määritetään ensimmäinen kynnys ensimmäiselle • 30 luokittelijalle luokittelijaparissa ensimmäisestä to- • · · dennäköisyydestä ja toinen kynnys toiselle luokitteli- • · ·;** jalle luokittelijaparissa toisesta todennäköisyydestä, ·"*: ja että ·;·: luokiteltujen lähtöjen vastaavuus määritetään 35 vertaamalla ensimmäistä luokittelijaa luokittelijapa- . . rissa ensimmäiseen kynnykseen ja toista luokittelijaa • · « ** luokittelijaparissa toiseen kynnykseen. 2H 117954

8. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että irrotusvaihe suoritetaan modifioimalla napoja napasuodattimessa mainitun puhujan ensimmäisessä ja toisessa puheessa ennen mainittua 5 puhujan varmentamista mainitun ainakin yhden piirteen muodostamiseksi.

9. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että segmentoidaan ainakin yksi piirre puheesta joukoksi ensimmäisiä alisanoja 10 irrotusvaiheen jälkeen.

10. Patenttivaatimuksen 9 mukainen menetelmä, tunnettu siitä, että alisanat ovat äänteitä.

11. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että mainittu ainakin yksi 15 piirre korjataan käyttäen affiinimuunnosta, jossa muunnos esitetään yhtälöllä y = Ax + b, jossa y on vektorin x affiinimuunnos, A on matriisi edustaen lineaarimuunnosta ja vektori b esittää kään- 20 nöstä.

12. Patenttivaatimuksen 8 mukainen menetelmä, ... tunnettu siitä, että napoja modifioidaan seu- • · 1 *·1 1 raavilla vaiheilla: • 1 · • · · .1 määritetään mainitun ainakin yhden piirteen *« · i 25 spektrikomponentti; ja ..1·1 rajoitetaan napoja kanavaestimaatin saamisek- si. *

13. Patenttivaatimuksen 12 mukainen menetelmä, tunnettu siitä, että menetelmä edelleen kä- ; ,·, 30 sittää vaiheet: • · ♦ [!!.1 dekonvoloidaan mainitun puhujan ensimmäinen puhe ja toinen puhe ennen mainittua puhujan varmenta-*"1! mistä kanavaestimaatilla normalisoidun puheen saarni- *:1·· seksi; ja . 35 lasketaan spektriominaisuudet normalisoidusta • 1 . . puheesta normalisoitujen puhepiirrevektorien saamisek- * 4 · '· 1· si, joita vektoreita käytetään luokitteluvaiheessa. • · 25 117954

14. Patenttivaatimuksen 12 mukainen menetelmä, tunnettu siitä, että menetelmä edelleen käsittää vaiheet: konvertoidaan kanavaestimaatti kepstrikertoi-5 miksi modifioidun kanavaestimaatin saamiseksi kepstri-alueella; ja vähennetään modifioitu kanavaestimaatti mainitun puhujan aiemmin puhumista mainitun ensimmäisen puheen ja mainitun toisen puheen kepstrikehyksistä.

15. Patenttivaatimuksen 10 mukainen menetel mä, tunnettu siitä, että mainittu ainakin yksi piirre on kepstrikerroin, joita kertoimia korjataan käyttäen affiinimuunnosta.

16. Patenttivaatimuksen 1 mukainen menetelmä, 15 tunnettu siitä, että menetelmä edelleen käsittää vaiheet: irrotetaan ainakin yksi piirre muiden puhujien puhumasta toisesta puheesta; määritetään ensimmäinen nimiö mainitulle ai-20 nakin yhdelle piirteelle puhujan puhumasta ensimmäisestä puheesta; määritetään toinen nimiö mainitulle ainakin »*· « · · !*' yhdelle piirteelle muiden puhujien puhumasta toisesta : *,· puheesta; ja Il · • V 25 opetetaan mainittuja luokittelijoita ensim- *: mäisellä ja toisella nimiöllä.

• * · ·*·,, 17. Patenttivaatimuksen 9 mukainen menetelmä, tunnettu siitä, että menetelmä edelleen käsit- • · · tää vaiheet: , , 30 irrotetaan ainakin yksi piirre muiden puhuji- •*|/ en puhumasta toisesta puheesta; ***** segmentoidaan mainittu ainakin yksi piirre ·;**: toisesta puheesta joukoksi toisia alisanoja irrotus- vaiheen jälkeen; * , 3 5 tallennetaan mainittu ensimmäinen ] * alisanajoukko ja mainittu toinen alisanajoukko " alisanatietokantaan; 2to 1 1 7954 määritetään tallennetuista ensimmäisistä alisanoista ensimmäiset nimiöt mainitulle puhujalle ja toisista alisanoista toiset nimiöt toisille puhujille; ja 5 opetetaan mainitut luokittelijat ensimmäisel lä ja toisella nimiöllä.

18. Järjestelmä puhujan varmentamiseksi, joka järjestelmään käsittää: välineet (14) ainakin yhden piirteen 10 irrottamiseksi ensimmäisestä puhujan puhumasta puhees ta; välineet mainitun ainakin yhden piirteen luokittelemiseksi luokittelijajoukolla luokiteltujen lähtöjen muodostamiseksi; 15 välineet (40) mainittujen luokiteltujen lähtöjen yhdistämiseksi yhdistettyjen luokiteltujen läh töjen muodostamiseksi; välineet mainittujen yhdistettyjen luokiteltujen lähtöjen tunnistamiseksi määrittämällä mainittu-20 jen yhdistettyjen luokiteltujen lähtöjen ja mainitulle puhujalle ennen mainittua puhujan varmentamista tal lennetun datan vastaavuus; • · · *** ’ välineet puhujan hyväksymiseksi tai hylkäämi- • · · : *.*' seksi määrittämällä mainitut tunnistetut yhdistetyt • 25 luokitellut lähdöt; >t*:* tunnettu siitä, että järjestelmä edel- ·*·.. leen käsittää • • *j*. välineet (20) sanan tunnistuksen suorittami- seksi puhujan puhumassa ensimmäisessä puheessa vertaa- • t· 30 maila mainittua ainakin yhtä piirrettä puhujan ennen • * · *!*,’ puhujan varmentamista tallentamaan dataan sen määrit- • · ···* tämiseksi, hyväksytäänkö vai hylätäänkö puhuja alusta- "**: vasti; ja ·;··· välineet (20) mainitun ainakin yhden piirteen *, 35 luokittelun käynnistämiseksi, jos päätetään alustavas- t 4 ti hyväksyä puhuja tai takaisinsoittomoduulin käynnis- • · · *· *· tämiseksi, jos päätetään alustavasti hylätä puhuja. 2? 117954

19. Patenttivaatimuksen 18 mukainen järjes telmä, tunnettu siitä, että mainittu data käsittää puhujariippuvan kaavaimen, joka on muodostettu mainitun puhujan puhumasta puheesta etukäteen ja puhu- 5 jariippumattoman kaavaimen, joka on muodostettu ainakin yhden toisen puhujan etukäteen puhumasta puheesta. f.

20. Patenttivaatimuksen 19 mukainen järjes telmä, tunnettu siitä, että luokitteluvälineet käsittävät modifioidun neuraalipuuverkon (MNTN) ja dy- 10 naamisen aikariippuvan luokittelijan.

21. Patenttivaatimuksen 20 mukainen järjes telmä, tunnettu siitä, että mainitut irrotusvä-lineet suorittavat napojen rajoittamisen napasuodatti-messa.

22. Patenttivaatimuksen 21 mukainen järjestelmä, tunnettu siitä, että mainittu ainakin yksi piirre on kepstrikerroin, jota korjataan käyttäen affiinimuunnosta. 20 »·· • · • · · *· * • ♦ · · · · » · • * • * « • · · * · • · • · · f »··· ·» « » • ·· • · a * · » • a • a · • « · • ·· Λ »*· * « ♦ · · m a + · *·· • * · * · * · *·· * · • · • · ♦ • a a * · '1 2t 1179£4