FI117954B - Puhujan varmentamisjärjestelmä - Google Patents

Puhujan varmentamisjärjestelmä Download PDF

Info

Publication number
FI117954B
FI117954B FI974339A FI974339A FI117954B FI 117954 B FI117954 B FI 117954B FI 974339 A FI974339 A FI 974339A FI 974339 A FI974339 A FI 974339A FI 117954 B FI117954 B FI 117954B
Authority
FI
Finland
Prior art keywords
speaker
classifier
speakers
speech
utterance
Prior art date
Application number
FI974339A
Other languages
English (en)
Swedish (sv)
Other versions
FI974339A (fi
FI974339A0 (fi
Inventor
Richard J Mammone
Manish Sharma
Xiaoyu Zhang
Han-Sheng Liou
Kevin Farrell
Naik Devang
Khaled Assaleh
Original Assignee
Rutgers The State Univesity Of
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rutgers The State Univesity Of filed Critical Rutgers The State Univesity Of
Publication of FI974339A0 publication Critical patent/FI974339A0/fi
Publication of FI974339A publication Critical patent/FI974339A/fi
Application granted granted Critical
Publication of FI117954B publication Critical patent/FI117954B/fi

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/10Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Selective Calling Equipment (AREA)
  • Traffic Control Systems (AREA)
  • Electric Propulsion And Braking For Vehicles (AREA)
  • Train Traffic Observation, Control, And Security (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Eye Examination Apparatus (AREA)

Description

117954 j PUHUJAN VARMENTAMISJÄRJESTELMÄ
Esillä olevan keksintö liittyy hahmontunnistus järjestelmään ja erityisesti puhujan verifiointi-järjestelmään, joka käyttää datafuusiota yhdistääkseen 5 dataa joukosta irrotettuja piirteitä ja joukosta luokittelijoita vaaditun identiteetin tunnistamiseksi tarkasti.
Hahmontunnistus liittyy hahmon identifiointiin, kuten puheen, puhujan tai kuvan identifiointiin.
10 Identifioitua puhujan hahmoa voidaan käyttää puhujan tunnistusjärjestelmässä sen määrittämiseksi, kuka puhuja puhuu äänteen perusteella.
Puhujan verifiointijärjestelmän tarkoituksena on verifioida puhujalta vaadittu identiteetti ääntees-15 tä. Puhuttu syöte puhujan tunnistusjärjestelmään voi olla tekstiriippuvaa tai tekstiriippumatonta. Teksti-riippuva puhujan verifipintijärjestelmä identifioi puhujan ennaltamäärätyn määreen tai salasanan äänteiden '1 perusteella. Tekstiriippumaton puhuj anturini s tus jär jes-20 telmä identifioi puhujan riippumatta äänteistä. Perin-
Jh teiset tekstiriippumattomat järjestelmät ovat mukavam- ... pia käyttäjän näkökulmasta katsottuna siinä mielessä, • · • · · , että ei tarvita salasanaa.
* · · ; ·' Piirreirrotus puhujan informaatiosta on suo- * · · : .' 25 ritettu modulointimallilla käyttäen adaptiivista kom- ponentin painottamista puheen kussakin kehyksessä, ku-: ten kuvataan patenttijulkaisussa US-A-5522012. Adap- :*·*; tiivinen komponentin painotusmenetelmä vaimentaa ei- vokaaliset äännekomponentit ja normalisoi puhekom-. .·. 30 ponentit puhujan tunnistamisen parantamiseksi kanaval- * * * -h ::: ia. v • * • · "* Muihin perinteisiin piirreirrotusmenetelmiin v • · · • V kuuluu kepstrikertoimien määrittäminen taajuusspekt- f :[*[: ristä tai lineaarinen ennustaminen spektrin koodaus- I·, 35 kertoimista. Neuraalipuuverkkoja (NTN) on käytetty pu- * · · "I hujariippumattoman datan yhteydessä diskriminointipe- * · *’·* rustaisten puhujakeskeisten parametrien määrittämisek- 2 117954 si. NTN on hierärkinen luokittelija, joka yhdistää päättelypuiden ja neuraaliverkkojen ominaisuudet, kuten kuvataan julkaisussa A. Sankar ja R.J. Mammone, "Growing and Pruning Neural Tree Networks", IEEE 5 Transactions on Computers, 0-42:221-229, maaliskuu 1993. Puhujan tunnistamiseksi opetusdata NTN:lie sisältää dataa haluttua puhujaa varten ja dataa muilta puhujilta. NTN jakaa piirreavaruuden alueiksi, joille annetaan todennäköisyydet siitä, miten todennäköistä 10 on, että puhuja on generoinut piirrevektorin, joka osuu puhujan alueelle. Tekstiriippumattornien järjestelmien ongelmana on, että ne vaativat suuren määrän dataa puhujan akustisten piirteiden mallintamiseksi ja arvioimiseksi.
15 Patenttijulkaisu US 4,957,961 kuvaa neuraali- verkon, joka voidaan helposti opettaa tiettyjen sanojen luotettavaan tunnistamiseen. Dynaamista ohjelmointitekniikkaa käytetään siten, että tulon neuroniyksi-köt tulokerroksessa ryhmitellään monikerroksiseen neu-20 raaliverkkoon. Tulokuvion tunnistamiseksi vektorikom- ponentit kussakin piirrevektorissa annetaan vastaaville tuloneuroniyksiköille yhdellä tulokerroksella, joka • · · *.* * valitaan kolmesta peräkkäisestä numeroidusta tuloker- * · • V roskehyksestä. Välikerros yhdistää tuloneuroniyksiköt j ' 25 ainakin kahdelta tulokerroskehykseltä. Lähtöneuroniyk- ··· sikkö yhdistetään välikerrokseen. Säätöyksikkö on kyt- * · · · .".4> ketty välikerrokseen välikerroksen tulon ja väliker- roksen lähdön yhteyksien säätämiseksi lähtösignaalin * · · muodostamiseksi lähtöyksiköllä. Neuraaliverkko tunnis- . 30 taa tulokuvion ennalta määrätyksi kuvioksi, kun sää- # · · töyksikkö maksimoi lähtösignaalin. Kunkin puhekuvion '*··* yhteydessä käytetään noin 40-kertaista opetusta dynaa- ·'·*· misen neuraali verkon opettamiseksi.
• * .*·*. On huomattu, että opetukseen ja testaukseen M* •t 35 käytetyn datan määrää voidaan vähentää käyttämällä • · « *·:.* ristiriippuvia puhujan äänteitä. Eräs perinteinen « «« tekstiriippuva puhujan verifiointi järjestelmä käyttää 3 117954 dynaamista aikasovitusta (DTW) ajan kohdistamiseksi piirteidenn diagnosoimisessa perustuen säröön, katso S. Furui, " Cepstral Analysis Technique For Automatic Speaker Verification", IEEE Transactions on Acoustics, 5 Speech, and Signal Processing, ASSP-29:254-272, huhtikuu 1981. Vertailuhahmo generoidaan useista salasanan äänteistä testauksen aikana. Päätös puhujalta vaaditun identiteetin hyväksymiseksi tai hylkäämiseksi tehdään sillä perusteella, osuuko puhujan äänteen särö alle 10 ennalta määrätyn kynnyksen. Tämän järjestelmän ongelmana on puuttuva tarkkuus.
Toinen tekniikka, joka käyttää piilotettuja Markovin malleja (HMM), on suorituskyvyltään parempi kuin DTW-järjestelmät, kuten kuvataan julkaisussa J.J. 15 Naik, L.P. Netsch, ja G.R. Doddington, "Speaker Verification Over Long Distance Telephone Lines", Proceedings ICASSP (1989). HMM:n useita sovelluksia on käytetty tekstiriippuvassa puhujan verifioinnissa. Esimerkiksi alisanamalleja, kuten kuvataan julkaisussa 20 A.E. Rosenberg, C.H. Lee ja F.K. Soong, "Subword Unit Talker Vefication Using Hidden Markov Models", Proceedings ICASSP, sivut 269-272(1990) ja täyssanamalleja • ·· ’.· · A.E. Rosenberg, C.H* Lee ja S. Gokeen, "Connected Word • \* Talker Recognition Using Whole Word Hidden Markov Mo- :***: 25 dels", Proceedings ICASSP, sivut 381-384 (1991) on • · ··· käytetty puhuja tunnistamiseen. HMM-tekniikoilla on se • · · :·. rajoitus, että ne yleensä vaativat suuren määrän dataa * · * mallin parametrien estimoimiseksi riittävästi. Eräs • v · yleinen ongelma DTW- ja HMM-järjestelmissä on, että ne . 30 mallintavat vain puhujaa eivätkä ota huomioon muiden • · · *···* järjestelmää käyttävien puhujien mallintamisdataa* On- • · · gelmat diskriminoidussa opetuksessa mahdollistavat murtautumisen näihin järjestelmiin.
• · .*··. Toinen järjestelmä on kuvattu dokumentissa • * ’·[ 35 "Text-Dependent Speaker Verification Using data Fusi- ’·!·* on", Farrell, ICASSP-95, joka esittää menetelmän kai- • * · ·...· uttimen puhujan verifioimiseksi. Järjestelmässä käyte- 117954 4 tään datafuusio käsitteitä vääristymäpohjaisten ja erottelupohjäisten luokittelijoiden yhdistämiseksi. Fuusioitujen luokittelijoiden ulostulon perusteella määritetään hyväksytäänkö vai hylätäänkö puhuja.
5 Näin ollen tarvitaan hahmontunnistusjärjes telmä, jossa joukko muodostettuja ominaisuuksia voidaan yhdistää joukossa ennalta määrättyjä luokittelijoita hahmontunnistuksen tarkkuuden parantamiseksi.
10 KEKSINNÖN YHTEENVETO
Esillä oleva keksintö käsittää vaatimuksessa 1 esiin tuodun menetelmän ja vaatimuksessa 18 esiin tuodun järjestelmän. Muita sovellusmuotoja on tuotu esiin epäitsenäisissä vaatimuksissa.
15
Keksintöä kuvataan seuraavassa tarkemmin viittaamalla oheisiin piirustuksiin.
Kuvio 1 on kaaviokuva eräästä esillä olevan keksinnön mukaisesta puhujaverifiointijärjestelmästä.
20 Kuvio 2A on kaaviokuva kuviossa 1 esitetystä sanantunnistusmoduulista järjestelmän opetuksen aikana.
··· *.· * Kuvio 2B on kaaviokuva kuvion 1 sanantunnis- * · * • tusmoduulista järjestelmän testauksen aikana.
: *: 25 Kuvio 3 on kaaviokuva puhuja verifiointimo- • · ··· duulista, joka yhdistää joukon muodostettuja piirteitä « · * · :*. luokittelijoihin.
• · ·
Kuvio 4 on kaaviokuva modifioidun neuraali- • · · puuverkon ja dynaamisten aikasovitusluokittelijoiden 30 yhdistelmästä, jota käytetään puhujan verifiointimo- * · · *”·* duulissa, joka esitetään kuviossa 1.
Kuvio 5 on kaaviokuva modifioidusta neuraali-puuverkkoluokittelijasta (MNDN) , jota käytetään kuvi- * * .*··. ossa 1 esitetyssä puhujan verifiointimoduulissa.
• * • 35 Kuvio 6 on kaaviokuva dynaamisesta aikasovi- tusluokittelijasta (DTW), jota käytetään puhujan veri-:...· fiointimoduulissa, joka esitetään kuviossa 1.
5 117954
Kuvio 7 A on kaaviokuva äännejoukosta, jota käytetään puhujan verifiointimoduulin opetuksessa.
Kuvio 7B on kaaviokuva kuviossa 7A esitetyn *· äännejoukon soveltamisesta puhujan verifiointimoduu-5 lissa.
Kuvio 8 on käyrä puhujan ja muiden puhujien tuloksista.
Kuvio 9 on kaaviokuva alisanaan perustuvasta puhujan verifiointijärjestelmästä.
10 Kuvio 10A on kaaviokuva alisanaan perustuvas- ta luokittelujärjestelmästä opetuksen aikana.
Kuvio 10B on kaaviokuva alisanaan perustuvasta luokittelujärjestelmästä testauksen aikana.
Kuvio 11A on kaaviokuva tunnetun tekniikan 15 mukaisesta normalisointijärjestelmästä.
Kuvio 11B on kaaviokuva esillä olevan keksinnön mukaisesta kanavan normalisointijärjestelmästä.
Kuvio 12 on napasuodattimen kanavanorma-lisoinnin kuvaaja.
20 Kuvio 13A on kuvaaja puhekehyksen spektristä.
Kuvio 13B on kuvaaja puhekehyksen spektristä esillä olevan keksinnön mukaisessa normalisointijär- * · · V* ί jestelmässä verrattuna tunnetun tekniikan mukaisen :***: normalisointi jär j es telmän kehykseen.
• · ·*·*; 25 Kuvio 14 on kaaviokuva affiini muunnos jär j es- • · telmästä.
···# • · • · • · ·
KEKSINNÖN YKSITYISKOHTAINEN KUVAUS
• * · • · · * Tässä selityksessä viitenumerolta käytetään 30 vastaavien elementtien identifioimiseksi eri kuviois- sa, jotka esittävät keksintöä.
* · ·
Kuvio 1 esittää kaaviokuvaa puhujan verifi- ointijärjestelmän 10 sovelluksesta esillä olevan kek- » · .···. sinnön mukaisesti. Puhuja 11 ääntää puhetta 12. Puhe * · 35 12 syötetään puhetulosignaalina 13 piirreirrotusmoduu- * liin 14. piirreirrotusmoduuli määrittää puheen piirre- • · « ϊ,.,ί vektorit 15, jotka edustavat puhetulosignaalin omi- 6 117954 naisparametrejä. Edullisesti puhepiirrevektorit 15 määritellään lineaariennusteanalyysillä (LP) LP-kepstrikertoimien määrittämiseksi. LP-kepstrikertoimet voidaan kaistanpäästösuodattaa käyttäen kohotettua si-5 ni-ikkunaa perinteistä tekniikkaa käyttäen kepstriker-toimien tunnistamisen parantamiseksi.
Vaihtoehtoisesti tai yhdessä LP-analyysin kanssa piirreirrotusmoduuli 14 voi muodostaa piirteen useilla menetelmillä. Esimerkiksi adaptiivista kom-10 ponentinpainotusmenetelmää, joka kuvataan yllä viitatussa patenttijulkaisussa US-A-5522012, voidaan käyttää puheen piirrevektorien 15 muodostamiseen. Adaptiivinen komponentinpainotustekniikka laajentaa muodostettuja piirteitä syöttämällä painotukset ennalta mää-15 rätyille komponenteilla puhetulosignaalissa 13 normalisoidun spektrin muodostamiseksi, joka spektri parantaa vokaaliäänneominaisuuksia signaalissa vähentämällä samalla ei-vokaalisten äänteiden vaikutuksia. Piirreirrotusmoduuli 14 voi myös generoida muita lineaari-20 sella ennustamisella saatuja piirteitä lineaarisen ennustamisen (LP) kertoimista käyttäen perinteisiä menetelmiä, kuten logaritmialueiden suhteita, viivaspekt- »·» ·/ · ripareja ja heijastuskertoimia. Piirreirrotusmoduuli 14 voi myös generoida nopean Fourier-muunnoksen (FFT) • · ·*·’; 25 avulla johdettuja spektripiirteitä lineaarisella ja • * logaritmisella taajuusasteikolla, fundamentaalisen * - ;·. taajuuden (äänenkörkeus) , äänikertoimia ja nollan yli- • ·· *... tys arvoja.
* · · * Sanantunnistusmoduuli 20 vastaanottaa piirre-30 vektorin 15 ja vertaa puhepiirrevektoreita 15 dataan *.!.* 16, joka liittyy puhepiirrevektoreihin 15. Data 16 *** I · *...*· voidaan tallentaa tietokantaan 50. Esimerkiksi puhuja 11 voi ääntää salasanan puheena 12. Puhepiirrevektorit • · ]···# 15 edustavat puhujan 11 salasanan äänteitä. Suljettu • · 35 salasanajoukko voidaan esittää datalla 16 ja tallentaa tietokantaan 50. Suljettu salasana joukko vastaa puhu- * · · ί.,.ϊ jän identiteetti joukkoa sisältäen salasanan puhujalle 7 117954 11. Puheentunnistusmoduulissa 20, jos vastaanotetut puhepiirrevektorit 15 sanantunnistusmoduulissa 20 vastaavat dataa 16, joka on tallennettu tietokantaan 50, : esimerkiksi vastaavat salasanaa vaaditulle identitee- 5 tille, käynnistetään puhujan verifiointimoduuli 30.
Jos vastaanotetut puhepiirrevektorit 15 eivät vastaa dataa 16, joka on tallennettu tietokantaan 50, esimerkiksi eivät vastaa salasanaa, joka on tallennettu tietokantaan 50 vaaditulle identiteetille, niin käyttäjää 10 11 voidaan pyytää soittamaan uudelleen moduulissa 21.
Puhujan verifiointimoduuli 30 edullisesti käyttää datafuusiota yhdistääkseen luokittelijajoukon puhepiirrevektoreihin 15, joka tekniikka kuvataan yksityiskohtaisemmin alla. Fuusioidut luokittelijalähdöt 15 35 puhujan verifiointimoduulissa 30 vastaanotetaan päättelyfuusion logiikkamoduulissa 40. Päättelyfuusion logiikkamoduuli 40 antaa lopullisen päätöksen siitä, hyväksytäänkö vai hylätäänkö vaadittu puhujan identiteetti verifioiden täten puhujalta vaaditun identitee-20 tin.
Kuviot 2A ja 2B esittävät sanantunnistusmo- duulia 20 puhujan 11 liittämis- ja testausvaiheessa, : vastaavasti. Liitettäessä puhuja 11 puhujaverifiointi- ·1·1· järjestelmään 10, opetuspuhetta 22 annetaan puhujalta • 1 25 11. Esimerkiksi opetuspuhe 22 voi sisältää neljä sa- • · lasanan toistokertaa puhujalle 11. Jokainen toistoker-roista tunnistetaan sanasovituksen tunnistusmoduulissa • 28. Edullisesti käytetään DTW-perustaista kaavaimen * 1 · ’·1 1 sovitusalgoritmia sanansovituksen tunnistusmoduulissa 30 28 tunnistettujen sanojen muodostamiseksi. Tunnistetut sanat 23 klusteroidaan puhujariippuvaan kaavaimeen 24. Puhujarloppumattomat kaavaimet 26 voidaan myös gene-roida tunnistetuilla sanoilla 23 ja saman opetuspuheen I 1 22 toistodatalla, joka on saatu muilta puhujilta 25 • · *"2 35 käyttäen puhujan verifiointijärjestelmää 10. Enemmis- ::: töä tunnistetuista sanoista 23 sanatunnistuksen sovi- • 1 1 · · • · * · 2 • · · 8 117954 tusmoduulissa 28 voidaan käyttää käyttäjän salasanan 27 identifioimiseksi puhujalle 11.
Testattaessa puhuja 11 puhetta 12 puhutaan käyttäjältä 11 ja sitä verrataan puhujariippuvaan kaa-5 vaimeen 24 ja puhujariippumattomaan kaavaimeen 26 sanan tunnistuksen sovitusmoduulissa 28. Jos puhe 12 edustaa puhujan 11 salasanaa 27 ja vastaa joko puhuja-riippuvaa sanakaavainta 24 tai puhujariippumatonta sa-nakaavainta 26, "hyväksy"-vaste annetaan johtimeen 29. 10 Jos puhe 12 ei vastaa puhujariippuvaa sanakaavainta 24 tai puhujariippumatonta sanakaavainta 26, "hylkää"-vaste annetaan johtimeen 29.
Edullisesti puhujan tunnistusmoduuli 30 käyttää datafuusiota yhdistääkseen joukon irrotettuja 15 piirteitä 60, 61 ja 62 luokittelijoihin 70, 71 ja 72, kuten esitetään kuvassa 3. Piirteet 60, 61 ja 62 voivat edustaa puheen piirrevektoreita 15, jotka on muodostettu erilaisilla ennalta määrätyillä irrotusmene-telmillä, kuten yllä kuvattiin. Luokittelijat 70, 71 20 ja 72 voivat edustaa erilaisia ennaltamäärättyjä luokittelumenetelmiä, kuten esim. neuraalipuuverkkoa (NTN), monikerroksista ennustamista (MLP), piilotettu- iti : ja Markovin malleja (HMM) , dynaamista aikasovitusta :***: (DTW) , Gaussin sekoitettua mallia (GMM) ja vektori- • · 25 kvantitointia (VQ) . Vaihtoehtoisesti piirteet 60, 61 * * ja 62 voivat edustaa irrotettuja piirteitä vaihtoeh- I*]* toisista kuvioista, kuten puheesta tai kuvasta, ja • ·· *... luokittelijat 70, 71 ja 72 voivat edustaa ennalta mää- • * « ’·* * rättyjä luokittelumenetelmiä puheelle tai kuvalle.
30 Lähde 73, 74, 75 vastaavilta luokittelijoilta 70, 71, ja 72 voidaan yhdistää päättelyfuusion logiikkamoduu- * * * lissa 40 lopullisen päätöksen tekemiseksi siitä, hy-väksytäänkö tai hylätäänkö puhuja 11. Päättelyfuusion • · 1 moduuli 40 voi käyttää perinteisiä tekniikoita, kuten • * ”** 35 lineaarista mielipidevarastoa, loogista mielipideva- ϊ#: ϊ rastoa, Baysian liittymissääntöjä, äänestämismenetel- ;***♦ mää tai ylimääräisiä luokittelijoita yhdistääkseen ♦ ·· 9 - * 117954 luokittelijat 70, 71 ja 72. Huomattakoon, että mikä tahansa määrä piirteitä tai luokittelijoita voidaan yhdistää. Luokittelijoihin voi myös kuulua erilaisilla limittäin menevillä opetusdatan substraateilla opetet-5 tuja luokittelijoita, esim. "jätä yksipois"-tekniikalla opetettuja luokittelijoita, kuten yllä kuvat-tiin.
Kuvio 4 esittää edullista puhujan tunnistus-moduulia 30 käytettäväksi esillä olevan keksinnön mu-10 kaisessa puhujan tunnistusjärjestelmässä. Puhepiirre-vektorit 102 syötetään neurolippuverkkoluokitteli-joihin 104, 106, 108 ja 110 ja dynaamisille aikasovi-tus(DTW)luokittelijoille 120, 122, 124, 126. Luokittelun aikana jokainen luokittelija 104, 106, 108 ja 110 15 ja 126 määrittävät sen, onko piirrevektori 102 ennal-tamäärätyn suhteellisen kynnyksen "T^", joka on tallennettu tietokantaan 132, yläpuolella. Jokainen DTW-luokittelija 120, 122, 124 ja 126 määrittää sen, onko piirrevektori 102 kynnyksen "T^" , joka on tallennettu 20 tietokantaan 132, yläpuolella. Jos piirrevektorit 102 ovat vastaavien kynnysten “T^" ja "Tirra" yläpuolella, annetaan johtoihin 240 ja 241 binaarilähtö "1", vas-taavasti. Jos piirrevektorit ovat alle ennaltamäärät- • · · tyjen kynnysten "T^" ja "T^", annetaan johtoihin 240 ·· *· 25 ja 241 binaarilähtö "0", vastaavasti.
• · i • · * I Puhujan 11 testaamisen aikana puhuj anturini s- • · · ···· tus järjestelmän 10 päättelymoduuli 40 vastaanottaa bi- ‘ ** näärilähdöt johdoilta 240 ja 241. Päättelymoduulin 40 • · * · edullisessa sovelluksessa enemmistöäänestys voidaan 30 ottaa binäärilähdöistä päättelymoduulissa 240 sen mää- : riitämiseksi, hyväksytäänkö vai hylätäänkö puhuja 11.
• * m ·***: Tässä sovelluksessa, jos enemmistö binäärilähdöistä ♦ · · ovat "1", puhuja hyväksytään, ja jos enemmistö binää- * * · \#·* rilähdöistä ovat "0", niin puhuja hylätään.
*···* 35 Edullinen luokittelija on suunniteltu modifi- : oiduksi neuraalipuuverkoksi (MNTN) 200, ja sitä voi- ♦ · ·***. daan käyttää erottelupohjäisenä luokittelijana puheen- • · · 10 117954 tunnistusmoduulissa 30. MNTN:ään 200 kuuluu joukko yhdistettyjä solmuja 202, 204 ja 206, kuten esitetään kuviossa 5. Solmu 204 on kytketty lehtisol muun 208 ja lehtisolmu 210 ja solmu 206 on kytketty lehtisolmuun 5 212 ja lehtisolmuun 214. Kussakin lehtisolmussa 208, 210, 212 ja 214 käytetään todennäköisyysmittausta, johtuen puun "etenevästä karsimisesta" typistämällä MNTN:n kasvu alle ennaltamäärätyn tason.
MNTN 200 opetetaan puhujaa varten soveltamal- 1 10 la dataa 201 muilta puhujilta 25 käyttäen puheentunnistus järjestelmää 10. Muodostetut piirrevektorit 15, puheelle 11 identifioidaan vektoreiksi "S/, ja niille annetaan otsikon "1" ja piirrevektorit muille puhujille 25 käyttäen puhujantunnistusjärjestelmää 10 saavat 15 otsikon "0". Data 220, 230, 240 ja 250 syötetään vastaavasti lehtisolmuihin 208, 210, 212 ja 214 muodostetuilla piirrevektoreilla. Kussakin lehtisolmussa 208, 210, 212 ja 214 voidaan muodostaa äänestys. Jokaiselle ; lehtisolmulle 208, 210, 212, ja 214 nimetään otsikko 20 äänestyksen enemmistöstä. "Luotettavuus" määritellään enemmistöotsikoiden määrän suhteena otsikoiden kokonaismäärään. Esimerkiksi data 220, joka sisältää kah- *·* :.· * deksan "0" piirrettä saa otsikon "0" ja luotettavuuden • "1.0". Data 230, joka sisältää kuusi "1" piirrettä ja :*·*: 25 neljä "0" piirrettä saa otsikon "1" ja luotettavuuden • * "0.6".
• f • « · * .*·. Opetettua MNTN:tä 200 voidaan käyttää puhu- • · · jantunnistusmoduulissa 3 0 puhujaa vastaavan tuloksen • · · määrittämiseksi piirrevektoreiden "X" sekvenssistä pu- . 30 heesta 12. Vastaava puhujan tulos (X/Sj) voidaan • * · ‘·:·* määrittää seuraavalla yhtälöllä: • · * * * • * ···.: > C.
* ** P (X /S')— - ‘ ΓΜΝΤΝ'Λ ' ^if VW , VW ,
*··»* 2^j*\Ci 2^j=iCJ
• · · • · · · · • ·« • * • « • m · u 117954 jossa puhuja 11 merkitään S^llä, C1 on puhujan 11 luotettavuusarvoja, C° on muiden puhujien luotettavuusarvo. M ja N vastaavat "1" ja "0" luokiteltuja vektoreita, vastaavasti.
5 Edullinen STW-luokittelija käyttää säröön pe rustuvaa sovellusta aaltomuodon tai piirrekuvion aika-kohdistamiseksi, kuten esitetään kuviossa 6. Aaltomuodot esitetään referenssikuviolla puhevektoreista 15 X-akselilla ja testikuviolla puhevektoreista 15 ΥΙΟ akselilla 15, jossa N edustaa referenssikuvioiden määrä ja M edustaa testikuvioiden määrä. Globaalit arvot 270, 271, 272 ja 273 edustavat rajoja dynaamiselle ai-kasovitusreitille 275. Dynaaminen aikasovitusreitti 275 voidaan määrittää perinteisillä menetelmillä, ku-15 ten niillä, joita kuvataan julkaisussa H. Sakoe ja S.
Chiba, "Dynamic programming algorithm optimization for spoken word recognization" IEEE Trans, on Acoustics,
Speech and Signal Processing,vol. ASSP-26, nro 1, ss.
43-49, helmikuu 1978.
20 On edullista yhdistää luokittelija, joka pe rustuu särömenetelmään eli DTW-luokittelija, puhujaan liittyvän informaation aikaansaamiseksi ja luokitteli- ··♦ · ja perustuen erottelumenetelmään, NTN tai MNTN, luo- * * · • kittelijoita puhujaan liittyvän informaation aikaan- **·’: 25 saamiseksi suhteessa muihin puhujiin käyttäen puhujan- • · tunnistusjär jestelmää 10. DTW-luokitteli jän ja NMTN- :*, tai NTN-luokitteli joiden fuusio on edullista, koska * DTW-luokitteli ja antaa temporaalista informaatiota, • · · * joka ei yleensä ole NTN- tai MNTN-luokittelijoiden 30 ominaisuus.
*·!·* NTN-luokitteli jät 104, 106, 108 ja 110 ja • · * DTW-luokitteli jät 120, 122, 124 ja 126 voidaan opettaa opetusmoduulilla 300, kuten esitetään kuvioissa 7A ja ♦ * • · ,···, 7B. Opetusmoduulia voidaan myös käyttää MNTN- • * 35 luokittelijoiden, DTW-luokittelijoiden ja muiden luo- , * kittelijoiden, joita voidaan käyttää puhujantunnistus- • · * •...5 moduulissa 30, opettamiseen. Uudelleennäyttöesitystek- 12 117954 nilkka, jota kutsutaan "jätä yksi ulkopuolelle" tekniikaksi on edullisesti käytössä opetusmoduulissa 300. Ennalta määrätty määrä puheen äänteitä vastaanotetaan puhujalta 11. Tässä sovelluksessa, neljä ään-5 nettä, jotka määritellään numeroilla 302, 304, 306 ja 308, puheesta 22, kuten puhujan salasanasta, on käytössä. Kolmen äänteen yhdistelmä neljästä, jossa yksi äänne jätetään pois, annetaan NTN-luokittelijoille 104, 106, 108 ja 110 ja DTW-luokittelijoille 120, 122, 10 124 ja 126. Kolmea äännettä käytetään luokittelijoiden opetukseen ja jäljelle jäävää äännettä käytetään riip- ^ pumattomana testitapauksena. Esim. äänteet 302, 304 ja 306 voidaan antaa NTN-luokittelijalle 104 ja DTW-luokittelijalle 120; äänteet 304, 306 ja 308 voidaan 15 antaa NTN-luokittelijalle 106 ja DTW-luokittelijalle 122, äänteet 302, 306 ja 308 voidaan antaa NTN- luokitteli jalle 108 ja DTW luokittelijalle 108 ja DTW-luokittelijalle 124 ja äänteet 302, 304 ja 308 voidaan antaa NTN-luokittelijalle 110 ja DTW-luokittelijalle 20 126.
Kun kolme äännettä on annettu kullekin luo-kittelijaparille NTN-luokittelijoista 104, 106 108 ja 110 ja DTW-luokit teli joista 120, 122, 124 ja 126, jäl-jelle jäänyt äänne annetaan kullekin vastaavalle pa- • · ·*·*; 25 rille NTN-luokitteli joita 104, 106, 108 ja 110 ja DTW- luokittelijoita 120, 122, 124 j 126, kuten esitetään ;·[ kuviossa 7C. Esimerkiksi äänne 308 annetaan NTN- # ** luokittelijalle 104 ja DTW-luokittelijalle 120, äänne * · « • 302 annetaan NTN:lle 106 ja DTW:lle 122, äänne 304 an-30 netaan NTN:lie 108 ja DTW:lle 124 ja äänne 306 anne- taan NTNrlle 110 ja DTW:lle 126. Todennäköisyys, p, 0 ja 1 välillä nimettynä 310, 312, 314 ja 316 lasketaan. Todennäköisyyksiä 310, 312, 314 ja 316 verrataan kyn- • · ]·». nykseen T^ ja todennäköisyyksiä 317, 318, 319 ja 320 * · *!* 35 kynnykseen T^ äänestysmoduulissa 321 päättelyfuusion logiikka moduulissa 40.
* · · • · • · • * · , 13 117954
Kuvio 8 on kuvaaja puhujan välisistä tuloksista muilta puhujilta 25 ja puhujien välisistä tuloksista puhujalta 11, jota kuvaajaa voidaan käyttää kynnysten määräämiseen luokittelijoille, joita käytetään 5 puheentunnistusjärjestelmässä 10, esim. kynnykset ja T^. Puhujienväliset tulokset puhujalle 11 puheesta 12 esitetään käyrällä 350, jolla on puhujan keskiarvo-tulos 351. Puhujaväliset tulokset muilta puhujilta 25 puheelle 12 esitetään käyrällä 360, jolla myös on pu- 10 hujan keksiarvotulos 361. Kynnykset, T, voidaan määrittää seuraavasta yhtälöstä: interspeaker = puhujien välinen 15 Pehmeä tulos, S, voidaan määrittää siitä mää rästä, jonka puhe 12 on suurempi tai pienempi kuin kynnys, T. Kunkin luokittelijan, C, tulos on nollan ja ykkösen välillä, jossa nolla johtaa todennäköisimmin hylkäykseen ja ykkönen todennäköisimmin hyväksyntään.
20 Hyväksymisluotettavuus, Caecept, on kynnyksen T ja ykkösen välillä ja se voidaan määrittä seuraavasta yhtä- 1 löstä: ··· * * · • * ·
** t C_T
: * : c = - 1 * · '"'accept i rr • · ' : 25 • · · **’* Hylkäysluotettavuus, Creject, on nollan ja kyn- • ** nyksen T välillä ja se voidaan määrittää seuraavasti: • * * • « · • t t • ,
C - T'S
, ^reject T
• * · i • · · 30 • ·
Kuvio 9 esittää kaaviokuvaa alisanaan perus- ·· * : tuvasta puheentunnistusjärjestelmästä 400. Puhepiirre-
»M
vektorien 15 irrottamisen jälkeen piirreirrotusmoduu-. .·. lissa 14 puhepiirrevektorit 15 segmentoidaan alisa- • tl 35 noiksi 404 alisanan segmentointimoduulissa 402. Edul- * ·
• M
14 117954 lisesti alisanat 404 ovat ääniä. Alisanat 404 voidaan antaa opetuspuhujamoduuliin 406 ja testipuhujamoduu-liin 408.
Kuvio 10A on kaaviokuva alisanaan perustuvas-5 ta puhujantunnistusjärjestelmästä 400 opetuspuhemoduu-lin 406 käytön aikana. Puhujan muodostetut piirteet 15 tulkiten puhujan 11 opetusäänteitä ja salasanakuvausta 410 annetaan alisanan äännetason segmentointi moduulille 402. Salasanakuvaus 410 voidaan puhua puhujalle 10 11, syöttää tietokoneella tai skannata kortilta tai vastaavalta. Puheen segmentointimoduli 402 segmentoi puhujan muodostetut piirteet 15 alisanoiksi l:stä M:ään, esimerkiksi, alisana "1" moduulissa 420, alisa-na "m" moduulissa 422 ja alisana "M" moduulissa 424, 15 jossa iso M on segmentoitujen alisanojen määrä. Alisanat 420, 422 ja 424 voidaan tallentaa alisanatietokan- ; taan 425. Ohjattu opetusvektorin nimikointikaavio 430 määrittää otsikot opetuspuhevektoreille "0":ksi tai "l":ksi opetusluokittelijoille 440, 442 ja 444. Esi- 20 merkiksi kaikki alisanat muille puhujille 25 voidaan otsikoida merkeillä "0" ja alisanat puhujalle 15 voidaan otsikoida merkillä "1". Vaihtoehtoisesti lähimmät · ♦ «* V ' äänteet voidaan etsiä tietokannasta 425. Alisana- ·***: luokittelijat 440, 442 ja 444 ovat käytössä vastaavil- * 25 le alisanoille 420, 422 ja 424 kunkin alisanan luokit-* * J • · telemiseksi. Edullisesti alisanaluokittelijät 440, 442 j"* ja 444 käyttävät NTN- ja MNTN-luokittelumenetelmiä.
* · *
Kuvio 10B on kaaviokuva alisanaperustaisesta «49 *** puhujan tunnistus järjestelmästä 400 testipuhujamoduu- 30 Iin 408 käytön aikana. Puhujan muodostettu ominaisuus 15 mallin tai puhujan 11 testiäänteitä annetaan alisa- ·«· nan äännetason segmentointimoduulin 402 yhdessä sa- ··*· lasanan kuvauksen 410 kanssa. Alisanaluokitteli jät • · · ^ • · *..* 440, 442 ja 444 luokittelevat vastaavat alisanat 420, • · ·;* 35 422 ja 424, jotka on määritetty muodostetuista puhu- janominaisuuksista 15 tulkiten puhujan 11 testiääntei-tä. Lähtö 445 luokittelijalta 440, 442 ja 444 annetaan *** 15 1 117954 päättelyfuusion logiikkamoduulille 40 sen määrittämiseksi, hyväksytäänkö vai hylätäänkö puhuja 11 perustuen fuusioituun lähtöön luokittejalta 440, 442, ja 444 perustuen laskettuun hyväksymisluotettavuuteen Caeeept, 5 kuten yllä kuvattiin.
Edullinen menetelmä, jota voidaan kuvata "na-pasuodatukseksi", voi olla käytössä piirteen irrotus-moduulissa 14 puheominaisuusvektoreiden 15 saamiseksi, jotka vektorit ovat robusteja kanavanmuutoksille. Na-10 pasuodatus suorittaa kanavan normalisoinnin käyttäen älykästä suodatusta kaikille lineaarisen ennustus-suodattimen (LP) navoille.
Puhdas puhe Ca konvoloidaan kanavalle impuls-sivastaajalla h, jonka jälkeen kanavan kepstri normaa-15 lista kepstrikeskiarvosta voidaan esittää seuraavasti, c = Σί".+Λ’ «Ι·Ι jossa 20 V, £>. ;
Hl=l II» • · * ··»*' *’·*: vastaa kepstrikeskiarvokomponenttia perustuen pelkäs- • Λ tään puhtaaseen puheeseen. Komponentti johtuen puh- • · taas ta puheesta pitäisi olla nollakeskiarvoinen, jotta 25 kanavan kepstriestimaatti Ca vastaisi kepstri es timaat- f· tia, h, sen hetkisellä konvoluutiosäröllä.
• · « \ *** Voidaan empiirisesti osoittaa, että keskiar- vokepstrikomponentti, joka seuraa puhtaasta puheesta, :.:.J ei ole koskaan 0 lyhyille äänteille ja sama tilanne ·*· :,..ϊ 30 voi olla uuden tunnistus järjestelmän 10 opetuksessa ja :v. testauksessa.
* *
Tunnetun tekniikan mukainen normalisointijär-jestelmä 500 esitetään kuviossa 11A, jossa puhe syöte-tään kehyksen väliseen painotusmoduuliin 502. Adaptii-35 vinen komponenttipainotus (ACW) on esimerkki kehysten 16 117954 välisestä painotuksesta kanavan normalisointia varten. Painotettu puhe 504 vastaanotetaan kehyksen välisessä käsittelymoduulissa 506 ylimääräisten kanavavaikutuk-sen poistamiseksi. Eräs perinteinen kehystenvälinen 5 menetelmä kanavan vaikutusten poistamiseksi on käyttää kepstrikeskiarvon vähennystä (CMS). Koska kanavan kepstri käsittää ristispektrijakauman, joka on seurausta kanavasta ja puheesta, perinteinen kanavan kepst-rin häiriöidyn estimaatin eliminointi kunkin puheke-10 hyksen kepstristä vastaa tehollista dekonvolointia epäluotettavalle kanavaestimaatille.
Kuvio HB esittää esillä olevan keksinnön mukaista kanavan normalisointijärjestelmää 600. Puhe 12 syötetään kanavaestimaatin napasuodatusmoduulin 602. 15 Napasuodatus poistaa painotuksen puheesta sa muuttumattomana komponettilisäyksestä johtuen. Uudelleenmääri-tettyä kanavaestimaattia käytetään kanavan normalisointiin. Edullisesti kanavakepstrin uudelleenmäärittäminen voidaan suorittaa iteratiivisesti.
20 Kanavakepstrin C„ riippuu äänteessä olevien puhekehysten määrästä. Tilanteessa, jossa saatavilla oleva puhe on riittävän pitkä, on mahdollista saada i·· : estimaatti kanavakepstristä, joka approksimoi todel- ·*·*· lista kanavan estimaattia h. Kaikkein käytännön is im- * * 25 missä tilanteissa äänteiden kestot opetusta tai testa- • · usta varten eivät ole koskaan riittävän pitkiä sa - 0:n J!” mahdollistamiseksi. Kepstrikeskiarvoestimaattia voi- • ·♦ daan kehittää määrittämällä napojen dominanssit puhe- • · · *·* * kehyksessä ja niiden vaikutus kanavakepstrien esti- 30 maattiin.
Kunkin vokaalisen äänteen moodin vaikutus « · · kepstrikeskiarvoon määritetään muuttamalla kepstrikes-;·]·. kiarvo lineaarisen ennusteen kertoimiksi ja tarkaste-
* · I
'..l lemalla vastaavien kompleksikonjukaattinapaparien do- • · “* 35 minanssia. Spektrikomponentti puhekehykselle on do- :,:V minoivin, jos se vastaa yksikköympyrää lähimpänä ole- vaa kompleksikonjukaattinapaparia (minimikaistanleve- 17 117954 ys) ja vähiten dominoiva, jos se vastaa yksikköympy-rästä kauimpana olevaa kompleksikonjukaattinapapa-ria (maksi-mikaistanleveys).
Rajoittamalla puheen navat tasaisemman ja tä-5 ten tarkemman käänteiskanavaestimaatin saamiseksi kepstrialueella vastaa modifioitua kepstrikeskiarvoa, ' cf 10 joka poistaa painatuksen kepstribiasilta liittyen epä-varianttiin komponenttiin puheen seurauksena. Uudelleen määritetyn kepstrikeskiarvon poistaminen vapauttaa ristispektrijakaumakomponentin puheen seurauksena ja tarjoaa paremman kanavan normalisoinnin.
15 Kanavaestimaatti määritettynä parhaiten ka- vananapojen suoritusmoduulista 602 yhdistetään puheeseen 12 dekonvoluutiomoduulissa 730 aika-alueen dekon-vuloimiseksi normalisoidun puheen aikaansaamiseksi.
Perinteinen kehyksenvälinen kytkentä 502 ja häiriökä-20 sittely 506 voidaan soveltaa normalisoituiin puheeseen 735 kanavalle normalisoidun puhevektorin 740 muodostamiseksi. Puhepiirrevektori 740 voidaan syöttää vastaa- *·· V * valla tavalla kuin puhepiirrevektorit 15, kuten esi- ·· · • tettiin kuviossa 1. Eräs edullinen menetelmä kanavan :1: 25 estimaatin parantamiseksi käyttää napasuodatettuja • » kepstrikertoimia, PFCC, jossa kapeakaistaiset navat : ··*♦ :·. laajennetaan niiden kaistanleveyksille, kun taas nii- ♦ ·· #··.ρ den taajuudet jätetään muuttumattomiksi, kuten esitetään kuviossa 12. Navat 801, 802, 803, 804, 805, 806 t 30 siirretään modifioituihin napoihin 811, 812, 813, 814, « · · *·:·* 815 ja 816. Vaikutus on sama kuin siirrettäisiin ka- «*« peakaistaiset navat yksikköympyrän sisällä samalla sä-teellä, jolloin pidetään taajuus vakiona ja laajenne- • * ,··*. taan kaistanleveyksiä.
• · *·| 35 Napasuodatetut kepstrikertoimet, PFCC, määri- tetään puheelle jatkuvasti puhepiirresektoreista 15.
« * ·
Napasuodatetut kepstrikertoimet, PFCC, määritetään 18 117954 analysoimalla, täyttääkö napa kehyksessä 12 kaistaleveyttä, joka on pienempi kuin ennalta määrätty kynnys t. Jos puhe 12 on pienempi kuin ennalta määrätty kynnys, niin navan kaistanleveys leikkautuu kynnykseen t.
5 Napasuodatettuja kepstrikertoimia voidaan käyttää kepstrikeskiarvojen arvioimiseen. Parannettu käänteis- ; suoda- tusestimaatti saadaan käyttämällä napasuodatettuja kepstrikertoimia PFCC, jotka paremmin approksimoivat todellista käänteistä kanavasuodatinta. Modifi-10 oidun kepstrikeskiarvon vähentäminen kepstrikehyksistä puheessa säilyttää spektri-informaation ja samalla tarkemmin kompensoi kanavan spektrikallistumaa.
Kuvio 13A esittää puhekehyksen esimerkki-spektriä 700. Kuvio 13B esittää tunnetun tekniikan mu-15 kaista kepstrikeskiarvoa Cs spektrille 710 vähennettynä spektri 700. Spektri 720 on napasuodatettu modifioitu kepstrikeskiarvo Cf , joka on vähennetty spektristä 700. Spektri 720 esittää parannettua spektri-informaatiota spektristä 710.
20 Kuvio 14 esittää affiini muunnosjärjestelmää 900, jota voidaan käyttää puhujan tunnistusjärjestelmän 10 opetukseen ja testaukseen. Epäsovitus puhe- ja V · testausympäristöjen kanssa voidaan poistaa suoritta- !*·*: maila affiini muunnos kepstrikertoimille, jotka on **·*· 25 saatu piirreirrotusmoduulista 14. Affiini muunnos y * · vektorista x määritetään seuraavasti, • · · · ;·. y = Ax + b • ·· missä A on matriisi, joka edustaa lineaarimuunnosta ja • · · ·' b on ei-nollavektori, joka edustaa affiini muunnosta, 30 y on testidataa ja x vastaa opetusdataa. Puheen käsit- *.ί.* telyalueella matriisi A mallintaa yksittäisten kepst- :.,.ϊ rikertoimien kustistumista johtuen kohinasta ja vekto- :v. ri b laskee kepstrikeskiarvojen kohdistamattomuutta • · johtuen kanavavaikutuksista.
• · 35 Singulaariarvojen uudelleen muodostaminen (SVD) kuvaa affiini muunnoksen geometriaa seuraavalla yhtälöllä: 19 117954 y-uYy'x+b missä U ja VT ovat unitaarisia matriiseja ja on diagonaali. Geometrinen tulkinta on, että x kierretään Vr:llä, skaalataan £ :llä ja kierretään uudelleen 5 U:lla. Lisäksi on vektorilla b muodostettu muunnos.
On huomattu, että jokainen kepstrikerroin skaalataan käytännössä eri arvolla ja kepstrikertoimi-en uudelleenskaalauksen liittäminen on kulmien muutosta. Kohinainen kepstrivektori CM voidaan esittää puh-10 taan keskivektorin c tulolla matriisin a kanssa eli
Cng = Ac.
Samanaikaisesti voidaan esittää sekä kanavan että kohinan muodostama häiriö ja siinä voidaan käyttää sovitusta, joka esitetään seuraavasti 15 C = Ac + b. Af fiini muunnosparametri x määritetään affiini muunnoksella, x - A'1 (y-b) jossa x vastaa x.-ää. Affiini muunnosparametrit A ja b voidaan löytää käyttämällä neliömenetelmää yllä olevan 20 yhtälön ratkaisemiseksi opetus- tai ristivalidointi datajoukolla. Puhujan tunnistusjärjestelmän 10 ... opetuksen aikana puhepiirrevektorit 15 yhdistetään af- • « · fiini muunnosmoduliin 902 ja syötetään luokittelijan : .* tulojohdolla 901 luokittelijaan 904. Opetuksen aikana «· · • *.· 25 puhepiirrevektorit 15 liitetään affiini muunnosmodu- liin 902 ja syötetään luokittelijan tulojohdolla 903 ·*♦.. luokittelijaan 904. Edullisesti luokittelija 804 on vektorikvantisoi jaluokitteli ja. Luokittelija 804 voi vastata esimerkiksi luokittelijoita 70, 71, 72, jotka 30 esitetään kuviossa 2, tai NTN-luokittelijoita 104, 106, 108, 110 ja DTW-luokittelijät 120, 122, 124 ja • · *···* 126, jotka esitetään kuviossa 4.
:*·*: Puhu jantunnis tus järjestelmässä 10 puhujat, * · jotka vaativat niiden todellista identiteettiä, voivat
Ml 35 olla tosipuhujia, kun taas puhujat 11, jotka vaativat • · * **j*' hämättyä identiteettiä, voivat olla hämääjiä. Arvioi- • · • · ··« 20 117954 taessa puhujia, puhujantunnistusjärjestelmä 10 voi tehdä kahdentyyppisiä virheitä: (a) väärä hylkäys (FR) ja väärä hyväksyntä (FA). väärä hylkäys (FR) -virhe johtuu siitä, kun todellinen puhuja vaatii todellista 5 identiteettiä ja hylätään puhujantunnistusjärjestelmällä 10. Kun hämääjä saa hyväksynnän puhujantunnis- > tusjärjestelmältä 10, virhehyväksyntä (FA) -virhe on tapahtunut. Päätös identiteetin hyväksymisestä tai hylkäämisestä riippuu kynnyksestä T, kuten yllä kuvat-10 tiin. Riippuen kunkin virhetyypin kustannuksista järjestelmä voidaan suunnitella hylkäämään toinen virheistä toisen kustannuksella. Vaihtoehtoisesti kilpailevien tekniikoiden arvioimiseksi todellinen virheno-peus (EER) järjestelmässä voidaan tutkia. Virhenopeus 15 saadaan, kun molemman tyypin virheitä (nimittäin FR ja FA) esiintyy samalla todennäköisyydellä.
Alisanaan perustuva puhujantunnistusjärjestelmä esillä olevan keksinnön mukaan arvioitiin perinteisellä puhekokoelmalla, jota kutsutaan YOHO:ksi, jo-20 ka saadaan Linguistic Data Consortiumilta (LDC), Philadelphia. Alisanaan perustuva puhujan tunnistusjärjestelmä 10 esillä olevan keksinnön mukaan antoi vir-ij’: henopeuden (EER) 0.36 %, verrattuna perinteiseen pii- ·*·*. lotettuun Markovin malliin (HMM) - perustuvien järjes- • · 25 telmien EER:ää 1.66 % samoissa olosuhteissa.
• · * ·
Esillä olevalla keksinnöllä on etu useiden ΙΓ" eri luokittelijoiden attribuuttien yhdistämisestä te- • * ·« hokkaan tunnistus järjestelmän muodostamiseksi, jossa * · · ’·* ’ järjestelmässä voidaan tarkasti tunnistaa annettu ku- 30 vio. Puhujan tunnistussovelluksessa säröön perustuva :.:.ί luokittelija voidaan yhdistää erotteluun perustuvaan : luokittelijaan puhujaa ja puhujana muihin puhujiin ./•t liittyvien attribuuttien yhdistämiseksi. Edullisesti neuraalipuuverkkoa käytetään puhujilta ja muilta puhu- • · **··* 35 jilta saadun datan luokitteluun prosessoinnin vähentä- ::: miseksi. Sanatunnistuksen kytkentämoduuli voi lisätä ylimääräistä tarkkuutta tunnistus järjestelmään ja vä- • · · 21 117954 hentää hylättyjen puhujien käsittelyä. Edelleen luokittelija voi olla aiisanaperustäinen tekstiriippuval-la tai -riippumattomalla datalla. Lisäksi tunnistus-järjestelmä voidaan opettaa jätä yksi pois - ' 5 menetelmällä järjestelmän opettamiseen tarvittavan da- ‘ tan vähentämiseksi. Napasuodatusta voidaan käyttää ka-navasäröjen vähentämiseksi järjestelmässä. Irrotettujen piirteiden affiini muunnos aikaansaa paremman korrelaation opetus- ja testausdatan välillä. Lisäksi 10 järjestelmä voi päivittää puhujan malleja positiivisen tunnistuksen jälkeen ikääntymisen ottamiseksi huomioon.
Edellä keksintöä on kuvattu viitaten edulliseen sovellukseen, ja selitystä ei ole tarkoitettu ra-15 joittavaksi. Ammattimiehelle on selvää, että muunnoksia voidaan tehdä poikkeamatta esillä olevan keksinnön vaatimuksissa määritetystä keksinnön suojapiiristä.
··· ·♦·:'· ····'· ·· · • · · * · • · ·· · • ♦ · • · * ♦ ··* ··♦· ·· • · * • * · • · · • · · • · · • · · • · · • · · • · * * • · · ·· • * · ' * · * · • · · • · • · « • ♦ · • · · ··· ··· ♦ · ·····'* ·«·

Claims (22)

117954
1. Menetelmä puhujan varmentamiseksi, joka menetelmä käsittää vaiheet: irrotetaan ainakin yksi piirre ensimmäisestä 5 puhujan puhumasta puheesta; luokitellaan mainittu ainakin yksi piirre luokittelijoilla luokitellun lähtöjoukon muodostamiseksi; yhdistetään mainitut luokitellut lähdöt yh-10 distettyjen luokiteltujen lähtöjen muodostamiseksi,- tunnistetaan mainitut yhdistetyt luokitellut lähdöt määrittämällä mainittujen yhdistettyjen luokiteltujen lähtöjen ja mainitulle puhujalle ennen mainittua puhujan varmentamista tallennetun datan vastaa-15 vuus;; määritetään mainituista tunnistetuista yhdistetyistä luokitelluista lähdöistä se, hyväksytäänkö vai hylätäänkö puhuja; tunnettu siitä, että menetelmä edel-20 leen käsittää vaiheet: tunnistetaan mainitun puhujan puhuman ensim-;*·*. mäisen puheen sana vertaamalla mainittua ainakin yhtä piirrettä puhujan ennen puhujan varmentamista tallen- • m • · tamaan dataan sen määrittämiseksi, hyväksytäänkö vai • · 25 hylätäänkö puhuja alustavasti; ja "** käynnistetään luokittelu mainitulle ainakin * · : ** yhdelle piirteelle, jos päätetään alustavasti hyväksyä • · · *.* * puhuja tai kytketään takaisinsoittomoduuli, jos pääte tään alustavasti hylätä puhuja. • · ϊ : : 30
2. Patenttivaatimuksen 1 mukainen menetelmä, ··· · ' tunnettu siitä, että * . määritetään mainittujen tunnistettujen yhdis tettyjen luokiteltujen lähtöjen luotettavuus.
3. Patenttivaatimuksen 1 mukainen menetelmä, ·:**; 35 tunnettu siitä, että ensimmäiseen puheeseen ;**t; kuuluu ainakin yksi kuultava salasana puhujalle. • · _2¾ 117954
4. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että mainittu data käsittää pu-hujariippuvaisen kaavaimen puhujan etukäteen puhumasta puheesta ja puhujariippumattoman kaavaimen, joka on 5 muodostettu ainakin yhden toisen puhujan puheesta etu käteen.
5. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että luokitteluvaihe suoritetaan neuraalipuuverkolla (Neural Tree Network, NTN) ja 10 dynaamisella aikamuuttuvalla luokittelijalla.
6. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että luokitteluvaihe suoritetaan modifioidulla neuraalipuuverkolla (MNTN) ja dynaamisella aikariippuvalla luokittelijalla.
7. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että tunnistamisvaiheessa .· sovelletaan mainittujen luokittelijoiden luo-kittelijaparille joukkoa puheen ensimmäisiä äänteitä mainitulta puhujalta ja jätetään yksi äänteistä ulko-20 puoliseksi äänteeksi mainittujen luokittelijoiden opettamiseksi; ... sovelletaan ulkopuolelle jätetyt äänteet mai- • · · ]·* nitulle luokittelijoiden parille luokittelijoiden * i « I .* testaamiseksi riippumattomasti; • · · : 25 lasketaan ensimmäinen todennäköisyys ensim- ..*·* mäiselle luokittelijalle luokittelijaparissa ja toinen todennäköisyys toiselle luokittelijalle luokittelija-parissa; ja määritetään ensimmäinen kynnys ensimmäiselle • 30 luokittelijalle luokittelijaparissa ensimmäisestä to- • · · dennäköisyydestä ja toinen kynnys toiselle luokitteli- • · ·;** jalle luokittelijaparissa toisesta todennäköisyydestä, ·"*: ja että ·;·: luokiteltujen lähtöjen vastaavuus määritetään 35 vertaamalla ensimmäistä luokittelijaa luokittelijapa- . . rissa ensimmäiseen kynnykseen ja toista luokittelijaa • · « ** luokittelijaparissa toiseen kynnykseen. 2H 117954
8. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että irrotusvaihe suoritetaan modifioimalla napoja napasuodattimessa mainitun puhujan ensimmäisessä ja toisessa puheessa ennen mainittua 5 puhujan varmentamista mainitun ainakin yhden piirteen muodostamiseksi.
9. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että segmentoidaan ainakin yksi piirre puheesta joukoksi ensimmäisiä alisanoja 10 irrotusvaiheen jälkeen.
10. Patenttivaatimuksen 9 mukainen menetelmä, tunnettu siitä, että alisanat ovat äänteitä.
11. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että mainittu ainakin yksi 15 piirre korjataan käyttäen affiinimuunnosta, jossa muunnos esitetään yhtälöllä y = Ax + b, jossa y on vektorin x affiinimuunnos, A on matriisi edustaen lineaarimuunnosta ja vektori b esittää kään- 20 nöstä.
12. Patenttivaatimuksen 8 mukainen menetelmä, ... tunnettu siitä, että napoja modifioidaan seu- • · 1 *·1 1 raavilla vaiheilla: • 1 · • · · .1 määritetään mainitun ainakin yhden piirteen *« · i 25 spektrikomponentti; ja ..1·1 rajoitetaan napoja kanavaestimaatin saamisek- si. *
13. Patenttivaatimuksen 12 mukainen menetelmä, tunnettu siitä, että menetelmä edelleen kä- ; ,·, 30 sittää vaiheet: • · ♦ [!!.1 dekonvoloidaan mainitun puhujan ensimmäinen puhe ja toinen puhe ennen mainittua puhujan varmenta-*"1! mistä kanavaestimaatilla normalisoidun puheen saarni- *:1·· seksi; ja . 35 lasketaan spektriominaisuudet normalisoidusta • 1 . . puheesta normalisoitujen puhepiirrevektorien saamisek- * 4 · '· 1· si, joita vektoreita käytetään luokitteluvaiheessa. • · 25 117954
14. Patenttivaatimuksen 12 mukainen menetelmä, tunnettu siitä, että menetelmä edelleen käsittää vaiheet: konvertoidaan kanavaestimaatti kepstrikertoi-5 miksi modifioidun kanavaestimaatin saamiseksi kepstri-alueella; ja vähennetään modifioitu kanavaestimaatti mainitun puhujan aiemmin puhumista mainitun ensimmäisen puheen ja mainitun toisen puheen kepstrikehyksistä.
15. Patenttivaatimuksen 10 mukainen menetel mä, tunnettu siitä, että mainittu ainakin yksi piirre on kepstrikerroin, joita kertoimia korjataan käyttäen affiinimuunnosta.
16. Patenttivaatimuksen 1 mukainen menetelmä, 15 tunnettu siitä, että menetelmä edelleen käsittää vaiheet: irrotetaan ainakin yksi piirre muiden puhujien puhumasta toisesta puheesta; määritetään ensimmäinen nimiö mainitulle ai-20 nakin yhdelle piirteelle puhujan puhumasta ensimmäisestä puheesta; määritetään toinen nimiö mainitulle ainakin »*· « · · !*' yhdelle piirteelle muiden puhujien puhumasta toisesta : *,· puheesta; ja Il · • V 25 opetetaan mainittuja luokittelijoita ensim- *: mäisellä ja toisella nimiöllä.
• * · ·*·,, 17. Patenttivaatimuksen 9 mukainen menetelmä, tunnettu siitä, että menetelmä edelleen käsit- • · · tää vaiheet: , , 30 irrotetaan ainakin yksi piirre muiden puhuji- •*|/ en puhumasta toisesta puheesta; ***** segmentoidaan mainittu ainakin yksi piirre ·;**: toisesta puheesta joukoksi toisia alisanoja irrotus- vaiheen jälkeen; * , 3 5 tallennetaan mainittu ensimmäinen ] * alisanajoukko ja mainittu toinen alisanajoukko " alisanatietokantaan; 2to 1 1 7954 määritetään tallennetuista ensimmäisistä alisanoista ensimmäiset nimiöt mainitulle puhujalle ja toisista alisanoista toiset nimiöt toisille puhujille; ja 5 opetetaan mainitut luokittelijat ensimmäisel lä ja toisella nimiöllä.
18. Järjestelmä puhujan varmentamiseksi, joka järjestelmään käsittää: välineet (14) ainakin yhden piirteen 10 irrottamiseksi ensimmäisestä puhujan puhumasta puhees ta; välineet mainitun ainakin yhden piirteen luokittelemiseksi luokittelijajoukolla luokiteltujen lähtöjen muodostamiseksi; 15 välineet (40) mainittujen luokiteltujen lähtöjen yhdistämiseksi yhdistettyjen luokiteltujen läh töjen muodostamiseksi; välineet mainittujen yhdistettyjen luokiteltujen lähtöjen tunnistamiseksi määrittämällä mainittu-20 jen yhdistettyjen luokiteltujen lähtöjen ja mainitulle puhujalle ennen mainittua puhujan varmentamista tal lennetun datan vastaavuus; • · · *** ’ välineet puhujan hyväksymiseksi tai hylkäämi- • · · : *.*' seksi määrittämällä mainitut tunnistetut yhdistetyt • 25 luokitellut lähdöt; >t*:* tunnettu siitä, että järjestelmä edel- ·*·.. leen käsittää • • *j*. välineet (20) sanan tunnistuksen suorittami- seksi puhujan puhumassa ensimmäisessä puheessa vertaa- • t· 30 maila mainittua ainakin yhtä piirrettä puhujan ennen • * · *!*,’ puhujan varmentamista tallentamaan dataan sen määrit- • · ···* tämiseksi, hyväksytäänkö vai hylätäänkö puhuja alusta- "**: vasti; ja ·;··· välineet (20) mainitun ainakin yhden piirteen *, 35 luokittelun käynnistämiseksi, jos päätetään alustavas- t 4 ti hyväksyä puhuja tai takaisinsoittomoduulin käynnis- • · · *· *· tämiseksi, jos päätetään alustavasti hylätä puhuja. 2? 117954
19. Patenttivaatimuksen 18 mukainen järjes telmä, tunnettu siitä, että mainittu data käsittää puhujariippuvan kaavaimen, joka on muodostettu mainitun puhujan puhumasta puheesta etukäteen ja puhu- 5 jariippumattoman kaavaimen, joka on muodostettu ainakin yhden toisen puhujan etukäteen puhumasta puheesta. f.
20. Patenttivaatimuksen 19 mukainen järjes telmä, tunnettu siitä, että luokitteluvälineet käsittävät modifioidun neuraalipuuverkon (MNTN) ja dy- 10 naamisen aikariippuvan luokittelijan.
21. Patenttivaatimuksen 20 mukainen järjes telmä, tunnettu siitä, että mainitut irrotusvä-lineet suorittavat napojen rajoittamisen napasuodatti-messa.
22. Patenttivaatimuksen 21 mukainen järjestelmä, tunnettu siitä, että mainittu ainakin yksi piirre on kepstrikerroin, jota korjataan käyttäen affiinimuunnosta. 20 »·· • · • · · *· * • ♦ · · · · » · • * • * « • · · * · • · • · · f »··· ·» « » • ·· • · a * · » • a • a · • « · • ·· Λ »*· * « ♦ · · m a + · *·· • * · * · * · *·· * · • · • · ♦ • a a * · '1 2t 1179£4
FI974339A 1995-06-07 1997-11-26 Puhujan varmentamisjärjestelmä FI117954B (fi)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US08/479,012 US5839103A (en) 1995-06-07 1995-06-07 Speaker verification system using decision fusion logic
US47901295 1995-06-07
US9609260 1996-06-06
PCT/US1996/009260 WO1996041334A1 (en) 1995-06-07 1996-06-06 Speaker verification system

Publications (3)

Publication Number Publication Date
FI974339A0 FI974339A0 (fi) 1997-11-26
FI974339A FI974339A (fi) 1998-02-06
FI117954B true FI117954B (fi) 2007-04-30

Family

ID=23902297

Family Applications (1)

Application Number Title Priority Date Filing Date
FI974339A FI117954B (fi) 1995-06-07 1997-11-26 Puhujan varmentamisjärjestelmä

Country Status (16)

Country Link
US (1) US5839103A (fi)
EP (1) EP0870300B1 (fi)
JP (1) JPH11507443A (fi)
KR (1) KR19990022391A (fi)
CN (1) CN1197526A (fi)
AT (1) ATE323934T1 (fi)
AU (1) AU711496B2 (fi)
CA (1) CA2221415A1 (fi)
DE (1) DE69636057T2 (fi)
FI (1) FI117954B (fi)
IL (1) IL122354A (fi)
NO (1) NO321125B1 (fi)
NZ (1) NZ311289A (fi)
RU (1) RU2161336C2 (fi)
TR (1) TR199701555T1 (fi)
WO (1) WO1996041334A1 (fi)

Families Citing this family (102)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5937381A (en) * 1996-04-10 1999-08-10 Itt Defense, Inc. System for voice verification of telephone transactions
US6038528A (en) * 1996-07-17 2000-03-14 T-Netix, Inc. Robust speech processing with affine transform replicated data
US6003002A (en) * 1997-01-02 1999-12-14 Texas Instruments Incorporated Method and system of adapting speech recognition models to speaker environment
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
AU744678B2 (en) * 1997-10-15 2002-02-28 British Telecommunications Public Limited Company Pattern recognition using multiple reference models
US6519561B1 (en) * 1997-11-03 2003-02-11 T-Netix, Inc. Model adaptation of neural tree networks and other fused models for speaker verification
US6233555B1 (en) * 1997-11-25 2001-05-15 At&T Corporation Method and apparatus for speaker identification using mixture discriminant analysis to develop speaker models
US6243695B1 (en) * 1998-03-18 2001-06-05 Motorola, Inc. Access control system and method therefor
AU4135199A (en) * 1998-04-20 1999-11-08 Koninklijke Kpn N.V. Threshold setting and training of a speaker verification system
WO1999059136A1 (en) * 1998-05-08 1999-11-18 T-Netix, Inc. Channel estimation system and method for use in automatic speaker verification systems
JP3090119B2 (ja) * 1998-05-15 2000-09-18 日本電気株式会社 話者照合装置、方法及び記憶媒体
DE19824353A1 (de) * 1998-05-30 1999-12-02 Philips Patentverwaltung Vorrichtung zur Verifizierung von Signalen
DE19824354A1 (de) * 1998-05-30 1999-12-02 Philips Patentverwaltung Vorrichtung zur Verifizierung von Signalen
US6178400B1 (en) * 1998-07-22 2001-01-23 At&T Corp. Method and apparatus for normalizing speech to facilitate a telephone call
TW418383B (en) * 1998-09-23 2001-01-11 Ind Tech Res Inst Telephone voice recognition system and method and the channel effect compensation device using the same
US6411930B1 (en) * 1998-11-18 2002-06-25 Lucent Technologies Inc. Discriminative gaussian mixture models for speaker verification
JP2000200098A (ja) * 1999-01-07 2000-07-18 Sony Corp 学習装置および学習方法、並びに認識装置および認識方法
JP2000259198A (ja) * 1999-03-04 2000-09-22 Sony Corp パターン認識装置および方法、並びに提供媒体
US20010044818A1 (en) * 2000-02-21 2001-11-22 Yufeng Liang System and method for identifying and blocking pornogarphic and other web content on the internet
US6735562B1 (en) * 2000-06-05 2004-05-11 Motorola, Inc. Method for estimating a confidence measure for a speech recognition system
US6735563B1 (en) * 2000-07-13 2004-05-11 Qualcomm, Inc. Method and apparatus for constructing voice templates for a speaker-independent voice recognition system
US6671669B1 (en) * 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
US6728674B1 (en) * 2000-07-31 2004-04-27 Intel Corporation Method and system for training of a classifier
US20040190688A1 (en) * 2003-03-31 2004-09-30 Timmins Timothy A. Communications methods and systems using voiceprints
US20020147694A1 (en) * 2001-01-31 2002-10-10 Dempsey Derek M. Retraining trainable data classifiers
US6792434B2 (en) * 2001-04-20 2004-09-14 Mitsubishi Electric Research Laboratories, Inc. Content-based visualization and user-modeling for interactive browsing and retrieval in multimedia databases
GB0112749D0 (en) * 2001-05-25 2001-07-18 Rhetorical Systems Ltd Speech synthesis
ATE426234T1 (de) * 2001-06-19 2009-04-15 Speech Sentinel Ltd Sprecherverifikation
WO2003005344A1 (en) * 2001-07-03 2003-01-16 Intel Zao Method and apparatus for dynamic beam control in viterbi search
WO2003005346A1 (en) * 2001-07-03 2003-01-16 Intel Zao Method and apparatus for fast calculation of observation probabilities in speech recognition
US8793146B2 (en) * 2001-12-31 2014-07-29 Genworth Holdings, Inc. System for rule-based insurance underwriting suitable for use by an automated system
US7630910B2 (en) 2001-12-31 2009-12-08 Genworth Financial, Inc. System for case-based insurance underwriting suitable for use by an automated system
US7844476B2 (en) 2001-12-31 2010-11-30 Genworth Financial, Inc. Process for case-based insurance underwriting suitable for use by an automated system
US8005693B2 (en) 2001-12-31 2011-08-23 Genworth Financial, Inc. Process for determining a confidence factor for insurance underwriting suitable for use by an automated system
US7844477B2 (en) 2001-12-31 2010-11-30 Genworth Financial, Inc. Process for rule-based insurance underwriting suitable for use by an automated system
US7895062B2 (en) 2001-12-31 2011-02-22 Genworth Financial, Inc. System for optimization of insurance underwriting suitable for use by an automated system
US7818186B2 (en) 2001-12-31 2010-10-19 Genworth Financial, Inc. System for determining a confidence factor for insurance underwriting suitable for use by an automated system
US7899688B2 (en) 2001-12-31 2011-03-01 Genworth Financial, Inc. Process for optimization of insurance underwriting suitable for use by an automated system
US20030149881A1 (en) * 2002-01-31 2003-08-07 Digital Security Inc. Apparatus and method for securing information transmitted on computer networks
US6687672B2 (en) 2002-03-15 2004-02-03 Matsushita Electric Industrial Co., Ltd. Methods and apparatus for blind channel estimation based upon speech correlation structure
US7424425B2 (en) * 2002-05-19 2008-09-09 International Business Machines Corporation Optimization of detection systems using a detection error tradeoff analysis criterion
FR2848715B1 (fr) * 2002-12-11 2005-02-18 France Telecom Procede et systeme de correction multi-references des deformations spectrales de la voix introduites par un reseau de communication
US7734025B2 (en) * 2003-02-28 2010-06-08 Grape Technology Group, Inc. Methods and systems for providing on-line bills for use in communications services
US7383239B2 (en) 2003-04-30 2008-06-03 Genworth Financial, Inc. System and process for a fusion classification for insurance underwriting suitable for use by an automated system
US7801748B2 (en) 2003-04-30 2010-09-21 Genworth Financial, Inc. System and process for detecting outliers for insurance underwriting suitable for use by an automated system
US7567914B2 (en) 2003-04-30 2009-07-28 Genworth Financial, Inc. System and process for dominance classification for insurance underwriting suitable for use by an automated system
US7813945B2 (en) 2003-04-30 2010-10-12 Genworth Financial, Inc. System and process for multivariate adaptive regression splines classification for insurance underwriting suitable for use by an automated system
CN1308911C (zh) * 2003-07-10 2007-04-04 上海优浪信息科技有限公司 一种说话者身份识别方法和系统
US7698159B2 (en) 2004-02-13 2010-04-13 Genworth Financial Inc. Systems and methods for performing data collection
US20050288930A1 (en) * 2004-06-09 2005-12-29 Vaastek, Inc. Computer voice recognition apparatus and method
US7386448B1 (en) 2004-06-24 2008-06-10 T-Netix, Inc. Biometric voice authentication
KR100571574B1 (ko) * 2004-07-26 2006-04-17 한양대학교 산학협력단 비선형 분석을 이용한 유사화자 인식방법 및 그 시스템
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7865362B2 (en) * 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7853539B2 (en) * 2005-09-28 2010-12-14 Honda Motor Co., Ltd. Discriminating speech and non-speech with regularized least squares
US7539616B2 (en) * 2006-02-20 2009-05-26 Microsoft Corporation Speaker authentication using adapted background models
CN101051463B (zh) * 2006-04-06 2012-07-11 株式会社东芝 说话人认证的验证方法及装置
CN101154380B (zh) * 2006-09-29 2011-01-26 株式会社东芝 说话人认证的注册及验证的方法和装置
US7822605B2 (en) * 2006-10-19 2010-10-26 Nice Systems Ltd. Method and apparatus for large population speaker identification in telephone interactions
WO2008126627A1 (ja) * 2007-03-26 2008-10-23 Nec Corporation 音声分類装置、音声分類方法、および音声分類用プログラム
US8886663B2 (en) * 2008-09-20 2014-11-11 Securus Technologies, Inc. Multi-party conversation analyzer and logger
US8145483B2 (en) * 2009-08-05 2012-03-27 Tze Fen Li Speech recognition method for all languages without using samples
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US20120116764A1 (en) * 2010-11-09 2012-05-10 Tze Fen Li Speech recognition method on sentences in all languages
WO2012068705A1 (en) * 2010-11-25 2012-05-31 Telefonaktiebolaget L M Ericsson (Publ) Analysis system and method for audio data
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9390445B2 (en) 2012-03-05 2016-07-12 Visa International Service Association Authentication using biometric technology through a consumer device
CN102664011B (zh) * 2012-05-17 2014-03-12 吉林大学 一种快速说话人识别方法
EA023695B1 (ru) * 2012-07-16 2016-07-29 Ооо "Центр Речевых Технологий" Способ распознавания речевых сообщений и устройство для его осуществления
US9240184B1 (en) * 2012-11-15 2016-01-19 Google Inc. Frame-level combination of deep neural network and gaussian mixture models
US9230550B2 (en) * 2013-01-10 2016-01-05 Sensory, Incorporated Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination
US8694315B1 (en) * 2013-02-05 2014-04-08 Visa International Service Association System and method for authentication using speaker verification techniques and fraud model
US9865266B2 (en) * 2013-02-25 2018-01-09 Nuance Communications, Inc. Method and apparatus for automated speaker parameters adaptation in a deployed speaker verification system
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US10237399B1 (en) 2014-04-01 2019-03-19 Securus Technologies, Inc. Identical conversation detection method and apparatus
US9621713B1 (en) 2014-04-01 2017-04-11 Securus Technologies, Inc. Identical conversation detection method and apparatus
CN103986725A (zh) * 2014-05-29 2014-08-13 中国农业银行股份有限公司 一种客户端、服务器端以及身份认证系统和方法
US9922048B1 (en) 2014-12-01 2018-03-20 Securus Technologies, Inc. Automated background check via facial recognition
CN104410697A (zh) * 2014-12-02 2015-03-11 广东安居宝数码科技股份有限公司 考勤信息的处理方法和系统
JP6481939B2 (ja) * 2015-03-19 2019-03-13 株式会社レイトロン 音声認識装置および音声認識プログラム
US10133538B2 (en) * 2015-03-27 2018-11-20 Sri International Semi-supervised speaker diarization
CN109313902A (zh) * 2016-06-06 2019-02-05 思睿逻辑国际半导体有限公司 语音用户接口
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
CN106228976B (zh) * 2016-07-22 2019-05-31 百度在线网络技术(北京)有限公司 语音识别方法和装置
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
CN107886955B (zh) * 2016-09-29 2021-10-26 百度在线网络技术(北京)有限公司 一种语音会话样本的身份识别方法、装置及设备
US10614813B2 (en) * 2016-11-04 2020-04-07 Intellisist, Inc. System and method for performing caller identity verification using multi-step voice analysis
KR102125549B1 (ko) * 2017-04-20 2020-06-22 한국전자통신연구원 심층신경망 기반 음성 인식 시스템을 위한 발화 검증 방법
DK179496B1 (en) * 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US10957318B2 (en) * 2018-11-02 2021-03-23 Visa International Service Association Dynamic voice authentication
US11024291B2 (en) 2018-11-21 2021-06-01 Sri International Real-time class recognition for an audio stream
US11114103B2 (en) 2018-12-28 2021-09-07 Alibaba Group Holding Limited Systems, methods, and computer-readable storage media for audio signal processing
US10891318B2 (en) * 2019-02-22 2021-01-12 United States Of America As Represented By The Secretary Of The Navy Temporal logic fusion of real time data
US20220238097A1 (en) * 2019-06-07 2022-07-28 Nec Corporation Speech processing device, speech processing method, and non-transitory computer readable medium storing program
JP7259981B2 (ja) * 2019-10-17 2023-04-18 日本電気株式会社 話者認証システム、方法およびプログラム
CN111081255B (zh) * 2019-12-31 2022-06-03 思必驰科技股份有限公司 说话人确认方法和装置
CN116153336B (zh) * 2023-04-19 2023-07-21 北京中电慧声科技有限公司 一种基于多域信息融合的合成语音检测方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
US4975961A (en) * 1987-10-28 1990-12-04 Nec Corporation Multi-layer neural network to which dynamic programming techniques are applicable
JPH0673080B2 (ja) * 1987-11-25 1994-09-14 日本電気株式会社 連続音声認識方式
EP0435282B1 (en) * 1989-12-28 1997-04-23 Sharp Kabushiki Kaisha Voice recognition apparatus
US5220640A (en) * 1990-09-20 1993-06-15 Motorola, Inc. Neural net architecture for rate-varying inputs
US5271088A (en) * 1991-05-13 1993-12-14 Itt Corporation Automated sorting of voice messages through speaker spotting
US5430827A (en) * 1993-04-23 1995-07-04 At&T Corp. Password verification system
US5528728A (en) * 1993-07-12 1996-06-18 Kabushiki Kaisha Meidensha Speaker independent speech recognition system and method using neural network and DTW matching technique
WO1995005656A1 (en) * 1993-08-12 1995-02-23 The University Of Queensland A speaker verification system
US5457770A (en) * 1993-08-19 1995-10-10 Kabushiki Kaisha Meidensha Speaker independent speech recognition system and method using neural network and/or DP matching technique
US5522012A (en) * 1994-02-28 1996-05-28 Rutgers University Speaker identification and verification system

Also Published As

Publication number Publication date
DE69636057D1 (de) 2006-05-24
NO975475L (no) 1998-01-21
NZ311289A (en) 1998-12-23
JPH11507443A (ja) 1999-06-29
US5839103A (en) 1998-11-17
KR19990022391A (ko) 1999-03-25
EP0870300B1 (en) 2006-04-19
FI974339A (fi) 1998-02-06
EP0870300A1 (en) 1998-10-14
ATE323934T1 (de) 2006-05-15
AU6257696A (en) 1996-12-30
CN1197526A (zh) 1998-10-28
DE69636057T2 (de) 2007-04-12
NO975475D0 (no) 1997-11-28
WO1996041334A1 (en) 1996-12-19
RU2161336C2 (ru) 2000-12-27
IL122354A (en) 2000-10-31
CA2221415A1 (en) 1996-12-19
IL122354A0 (en) 1998-04-05
NO321125B1 (no) 2006-03-20
TR199701555T1 (xx) 1998-04-21
EP0870300A4 (en) 1999-04-21
FI974339A0 (fi) 1997-11-26
AU711496B2 (en) 1999-10-14

Similar Documents

Publication Publication Date Title
FI117954B (fi) Puhujan varmentamisjärjestelmä
Reynolds et al. Speaker verification using adapted Gaussian mixture models
US5862519A (en) Blind clustering of data with application to speech processing systems
Murthy et al. Robust text-independent speaker identification over telephone channels
AU2002311452B2 (en) Speaker recognition system
Furui Recent advances in speaker recognition
US7529665B2 (en) Two stage utterance verification device and method thereof in speech recognition system
US5950157A (en) Method for establishing handset-dependent normalizing models for speaker recognition
AU2002311452A1 (en) Speaker recognition system
KR20010102549A (ko) 화자 인식 방법 및 장치
Munteanu et al. Automatic speaker verification experiments using HMM
Pandey et al. Multilingual speaker recognition using ANFIS
Rosenberg et al. Overview of speaker recognition
Tzudir et al. Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients
KR100917419B1 (ko) 화자 인식 시스템
BenZeghiba et al. Speaker verification based on user-customized password
Furui Speaker recognition
Tiwari ‘Text-independent speaker recognition using Gaussian mixture model
Wu et al. Discriminative features by MLP preprocessing for robust speaker recognition in noise
JP3589508B2 (ja) 話者適応音声認識方法および話者適応音声認識装置
Amornkul et al. Addable stress speech recognition with multiplexing hmm: Training and non-training decision
Nedic et al. Recent developments in speaker verification at IDIAP
Fakotakis et al. High performance text-independent speaker recognition system based on voiced/unvoiced segmentation and multiple neural nets.
Belfield et al. Speaker verification based on a vector quantization approach that incorporates speaker cohort models and a linear discriminator
BenZeghiba Joint speech and speaker recognition

Legal Events

Date Code Title Description
FG Patent granted

Ref document number: 117954

Country of ref document: FI

MA Patent expired