FI91925C - Menetelmä puhujan tunnistamiseksi - Google Patents

Menetelmä puhujan tunnistamiseksi Download PDF

Info

Publication number
FI91925C
FI91925C FI912088A FI912088A FI91925C FI 91925 C FI91925 C FI 91925C FI 912088 A FI912088 A FI 912088A FI 912088 A FI912088 A FI 912088A FI 91925 C FI91925 C FI 91925C
Authority
FI
Finland
Prior art keywords
model
speaker
calculated
cross
stored
Prior art date
Application number
FI912088A
Other languages
English (en)
Swedish (sv)
Other versions
FI912088A0 (fi
FI912088L (fi
FI91925B (fi
Inventor
Marko Vaenskae
Original Assignee
Nokia Telecommunications Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Telecommunications Oy filed Critical Nokia Telecommunications Oy
Publication of FI912088A0 publication Critical patent/FI912088A0/fi
Priority to FI912088A priority Critical patent/FI91925C/fi
Priority to AT92909205T priority patent/ATE140552T1/de
Priority to AU16530/92A priority patent/AU653811B2/en
Priority to DE69212261T priority patent/DE69212261T2/de
Priority to PCT/FI1992/000128 priority patent/WO1992020064A1/en
Priority to JP50856192A priority patent/JP3184525B2/ja
Priority to EP92909205A priority patent/EP0537316B1/en
Publication of FI912088L publication Critical patent/FI912088L/fi
Priority to NO924782A priority patent/NO306965B1/no
Publication of FI91925B publication Critical patent/FI91925B/fi
Application granted granted Critical
Publication of FI91925C publication Critical patent/FI91925C/fi
Priority to US08/387,623 priority patent/US5522013A/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Complex Calculations (AREA)
  • Analogue/Digital Conversion (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

91925
Menetelmå puhujan tunnistamiseksi
Keksinnon kohteena on menetelmå puhujan tunnistamiseksi, joka menetelmå kåsittåå puhesignaalista otettujen 5 nåytteiden perusteella lasketun mallin vertaamisen ainakin yhden tunnetun puhujan tallennettuun malliin.
Eras tunnettu tapa tunnistaa ja varmentaa kåyttåjå erilaisissa jårjestelmisså, kuten tietokonejårjestelmisså tai puhelinjårjestelmissa, on tunnistaa kayttajå puhesig-10 naalin perusteella. Kaikissa tunnetuissa puhujantunnistus-menetelmisså pyritåån loytåmåån sellaisia puheåånen omi-naisuuksia, joiden avulla voidaan automaattisesti tunnistaa ja erotella puhujat toisistaan. Talloin kunkin puhujan puheesta otetun nåytteen perusteella muodostetaan tiettyjå 15 puheåånelle ominaisia parametreja sisåltåviå malleja, jot-ka tallennetaan puhujantunnistusjår jestelmån muistiin. Kun sitten nimeton puhuja halutaan tunnistaa, hånen puhesig-naalistaan otetuista nåytteistå muodostetaan samat para-metrit sisåltåvå malli, jota verrataan jårjestelmån muis-20 tissa oleviin vertailumalleihin. Mikåli tunnistettavasta puhesignaalista kehitetty malli riittåvållå tarkkuudella ennalta mååråtyn kriteerin mukaisesti vastaa jotakin muistiin tallennettua tunnetun puhujan mallia, nimeton puhuja tunnistetaan henkiloksi, jonka puhesignaalista kyseinen ' 25 vertailumalli on muodostettu. Yleisesti ottaen kaikissa tunnetuissa puhujantunnistusjårjestelmisså noudatetaan edellå esitettyå yleisperiaatetta, mutta puhujan åånen mallintamisessa kåytetyt parametrit ja ratkaisut poik-keavat hyvinkin paljon toisistaan. Esimerkkejå puhujan 30 tunnistusmenetelmistå ja -jårjestelmistå on esitetty US-patenttijulkaisuissa 4 720 863 ja 4 837 830, GB-patentti-hakemuksessa 2 169 120 sekå EP-patenttihakemuksessa 0 369 485.
Keksinnon pååmåårånå on uudentyyppinen puhujantun-35 nistusmenetelmå, jolla pyritåån aikaisempaa paremmin ja 2 91*25 yksinkertaisemmalla algoritmilla tunnistamaan puhuja mie-livaltaisen puhesignaalin perusteella.
T&mS saavutetaan johdannossa esitetyn tyyppiselia menetelmaiia, jolle on keksinnOn mukaisesti tunnusomaista, 5 etta verrataan puhesignaalin naytteista laskettuja, puhu-jan aanivayiaa mallintavan haviOttOman putken osien poik-kipinta-alojen tai muiden poikkimittojen keskiarvoja aina-kin yhden tunnetun puhujan tallennetun aanivMyiamallin osien vastaaviin keskiarvoihin.
10 KeksinnOn perusajatuksena on tunnistaa puhuja puhu- jalle ominaisen aanivayian perusteella. Åanivayiaiia tar-koitetaan tassa yhteydessa ihmisen aanijånteiden, kurkun-paan, nielun, suun ja huulten muodostamaa aanikanavaa, jonka avulla ihminen muodostaa puheaanen. Puhujan aani-15 vaylån profiili muuttuu ajassa jatkuvasti ja aanivayian tarkkaa muotoa on vaikea laskea pelkastaan puhesignaalista saatavilla tiedoilla, mika johtuu aånivåyian eri osien monimutkaisista vuorovaikutussuhteista ja aanivayian sei-namamateriaalin eri koostumuksesta eri ihmisilia. Keksin-20 non mukaisessa menetelmassa ei kuitenkaan tarvita aanivayian tarkkaa muotoa. KeksinnSssa puhujan aanivayiaa mal-linnetaan ns. haviStt6man putken mallilla, jonka muoto on puhujalle ominainen. Lisaksi vaikka puhujan åånivayian profiili ja samalla haviottfiman putken malli muuttuu jat-25 kuvasti puhumisen aikana, aanivayian ja havi0tt5man putken mallin aarimitat ja keskiarvo sen sijaan ovat puhujalle tyypillisia vakioita. Taman vuoksi keksinnOn mukaisessa menetelmåssa voidaan kohtalaisella tarkkuudella tunnistaa puhuja puhujan aanivåylåå mallintaman haviSttoman putken 30 keskimaaraisen muodon tai muotojen perusteella. KeksinnOn eraassa suoritusmuodossa tunnistuksessa kaytetåan haviOt-tOman putken mallin sylinteriosien keskimaaraisten poikki-pinta-alojen lisaksi myOs sylinteriosien poikkipinta-alo-jen aariarvoja eli maksimi- ja minimiarvoja.
35 KeksinnOn toisessa suoritusmuodossa henkilOn tun- 3 91925 nistamisen tarkkuutta on edelleen parannettu muodostamalla haviOttOman putken mallin keskiarvo yksittaisille aan-teille. Tietyn aanteen aikana aanivaylån muoto pysyy lahes muuttumattomana ja kuvaa paremmin puhujan aanivayiaa. Kun 5 tunnistamisessa kåytetåSn useampia aanteita, saadaan hyvin tarkka tunnistus.
Keksinndssa kaytettavan haviOttOman putken mallin sylinteriosien poikkipinta-alat voidaan helposti laskea tavanomaisissa puheenkoodausalgoritmeissa muodostetuista 10 ns. heijastuskertoimista. Luonnollisesti pinta-alasta voi daan maarittaa vertailuparametriksi muukin poikkimitta, kuten sade tai halkaisija. Toisaalta putken poikkileik-kauksella voi olla ympyramuodon sijasta jokin muukin muoto.
15 Keksintda selitetåan seuraavassa yksityiskohtaisem- min suoritusesimerkin avulla viitaten oheiseen piirrok-seen, joissa kuviot 1 ja 2 havainnollistavat puhujan aanivayian mallintamista havi6tt6mån putken avulla, joka muodostuu 20 perakkaisista sylinteriosista, kuvio 3 esittaå vuokaavion, joka havainnollistaa erasta keksinndn mukaista puhujan tunnistusmenetelmaa, kuvio 4 havainnollistaa havidttdman putken mallien muuttumista puheen aikana, ja 25 kuvio 5 esittåå lohkokaavion, joka havainnollistaa puhujan tunnistamista aannetasolla.
Nyt viitataan kuvioon 1, jossa on esitetty perspek-tiivikuvana perakkaisista sylinteriosuuksista C1-C8 muo-dostuva havidttdman putken malli, joka muodostaa karkean 30 mallin ihmisen åanivayiaile. Kuvion 1 haviOttfiman putken malli on nahtavissa sivukuvana kuviossa 2. Ihmisen aani-vayiaiia tarkoitetaan yleensa ihmisen aanijanteiden, kur-kun, nielunsuun ja huulten muodostamaa aanikaytavaa, jolla ihminen muodostaa puheaanet. Kuvioissa 1 ja 2 sylinteriosa 35 Cl kuvaa vaiittOmasti aanijanteiden vaiisen aaniraon (glottis) jaikeen olevan aanivayian osuuden muotoa, sylin- 4 91925 teriosuus C8 kuvaa aanivayian muotoa huulien kohdalla ja vaiissa olevat sylinteriosuudet C2-C7 kuvaavat SSniraon ja huulten vaiissa olevien diskreettien aanivayiaosuuksien muotoa. Aanivayian muodolle on ominaista, etta se vaihte-5 lee jatkuvasti puhumisen aikana, kun muodostetaan erilai-sia aanteita. Samalla tavoin myOs aanivayian eri osia ku-vaavien diskreettien sylintereiden C1-C8 halkaisijat ja pinta-alat vaihtelevat puhumisen aikana. Keksija on kui-tenkin havainnut, etta suurehkosta maarasta hetkellisia 10 aanivayian muotoja laskettu keskimaarainen aanivayian muo-to on kullekin puhujalle ominainen vakio, jota voidaan kayttaa puhujan tunnistamiseen. Samalla tavoin my6s aani-vayiaa mallintavan haviOttOman putken mallin sylintereiden C1-C8 poikkipinta-alojen hetkellisista arvoista pitkaiia 15 aikavaiilia lasketut sylinteriosuuksien C1-C8 poikkipinta-alojen keskiarvot ovat suhteellisen tarkkaan vakioita. Edelleen myOs sylintereiden poikkimittojen aariarvot maa-raytyvat todellisen aanivayian aarimitoista ja ovat siten puhujalle ominaisia suhteellisen tarkkoja vakioita.
20 KeksinnOn mukaisessa menetelmassa kaytetaan hyvaksi alalia hyvin tunnetussa lineaarisessa ennustavassa koo-dauksessa (LPC=Linear Predictive Coding) vaiituloksena muodostettavia ns. heijastuskertoimia eli ns. PARCOR-ker-toimia rk, joilla on tietty yhteys aanivayian muotoon ja 25 rakenteeseen. Hei j astuskertoimien rk ja aanivayiaa kuvaavan haviOttOman putken mallin sylinteriosuuksien pinta-alo-jen Ak vaiinen yhteys on yhtaidn (1) mukainen A(k+1) - A(k) - r(k) - - (1) 30 A(k+1) + A(k) : missa k - 1,2,3,....
Keksinndssa kaytettavat heijastuskertoimet tuottavaa LPC-analyysia kaytetaan hyvaksi monissa tunnetuissa pu-35 heenkoodausmenetelmissa. KeksinnOn mukaisen menetelman eraaksi edulliseksi sovellutukseksi on ajateltu tilaajien
II
s tunnistamista radiopuhelinjårjestelmisså, erityisesti yleiseurooppalaisessa digitaalisessa radiopuhelinj&rjes-telmSsså GSM. GSM-suositus 06.10 maarittelee hyvin tarkas-ti jarjestelmSssa kaytettSvSn RPE-LTP-puheenkoodausmene-5 telman (Regular Pulse Excitation-Long Term Prediction). KeksinnOn mukaisen menetelman kayttO tam&n puheenkoodaus-menetelman yhteydessa on edullista, koska keksinnOssa tar-vittavat heijastuskertoimet saadaan vaiituloksena edelia mainitussa RPE-LPC-koodausmenetelmassa. KeksinnOn ensisi-10 jaisessa suoritusmuodossa kaikki menetelman vaiheet hei-jastuskertoimien laskemiseen asti noudattavat mainittua GSM 06.10 suosituksen mukaista puheenkoodausalgoritmia ja naiden vaiheiden yksityiskohtien osalta viitataan mainit-tuun suositukseen. Seuraavassa naita menetelmavaiheita 15 kuvataan vain yleisesti keksinnOn ymmartamisen kannalta oleellisilta osin viitaten kuvion 3 vuokaavioon.
Kuviossa 3 lohkossa 10 otetaan naytteita sisaantu-losignaalista IN nåytteenottotaajuudella 8 kHz ja muodos-tetaan 8 bitin naytteiden jono sG. Lohkossa 11 nåytteista 20 poistetaan tasakomponentti (dc-komponentti) koodauksessa mahdollisesti syntyvan hairitsevan sivuaånen poistamisek-si. Taman jaikeen lohkossa 12 esikorostetaan nåytesignaa-lia painottamalla korkeita signaalitaajuuksia ensimmaisen asteen FIR-suodattimella. Lohkossa 13 naytteet segmentoi-25 daan 160 naytteen kehyksiksi, jolloin kehyksen kesto on noin 20 ms.
Lohkossa 14 puhesignaalin spektri mallinnetaan suo-rittamalla jokaiselle kehykselle autokorrelaatiomenetel-maiia LPC-analyysi, jonka astelukuna on p=8. TailOin ke-30 hyksesta lasketaan p+1 kappaletta autokorrelaatiofunktio ACF:n airvoja 160 ACF(k) = Σ s(i)s(i-k) (2) i = l 35 missa k=0,1,...,8.
Autokorrelaatiofunktion sijasta voidaan kayttaa 91925 6 muutakin sopivaa funktiota, kuten esim. kovarianssifunk-tiota. Saaduista autokorrelaatiofunktion arvoista laske-taan Schurin rekursiolla tai muulla sopivalla rekur-siomenetelmaiia puhekooderissa kaytettåvan lyhyen aikavå-5 lin analyysisuodattimen kahdeksan ns. heijastuskertoimen rk arvot. Schurin rekursio tuottaa uudet heijastuskertoimet aina joka 20 ms. KeksinnOn ensisijaisessa suoritusmuodossa kertoimet ovat 16-bittisia ja niita on 8 kappaletta. Jat-kamalla Schurin rekursiota pidempaan heijastuskertoimien 10 maaraa voidaan haluttaessa lisata.
Lohkossa 16 lasketaan kustakin kehyksesta laske-tuista heijastuskertoimista rk puhujan aanivayiaa sylinte-rimaisilia osilla mallintavan håviOttOmån putken kunkin sylinteriosan Ck pinta-ala Ak. Koska Schurin rekursio tuot-15 taa uudet heijastuskertoimet joka 20. ms, pinta-aloja kul-lekin sylinteriosalla Ck saadaan 50 kpl/s. Kun on laskettu havidttOmån putken sylinteripinta-alat n-kappaleelle ke-hyksia, kohdassa 17 lasketaan nain saatujen N:n håviOttO-mån putken mallin sylinteriosien Ck pinta-alojen keskiarvot 20 Ak.ave seka maaritetaan kullekin sylinteriosuudelle Ck suurin poikkipinta-ala Ak nax, joka nåiden N kehyksen aikana on esiintynyt. Tåman jaikeen kohdassa 18 verrataan nåin saa-tuja puhujan aanivayiaa mallintavan haviottomån putken sylinteriosien Ck keskimaaraisia pinta-aloja Ak ave ja maksi-25 mipinta-aloja Ak max ainakin yhden tunnetun puhujan tallen-netun håviOttOman putken malliin sylinteriosien keskimaa-raisiin ja maksimipinta-aloihin. Mikåli laskettu keskimaa-rainen haviOttOman putken muoto vertailtujen parametrien perusteella vastaa jotakin tallennettua mallia, paatOksen-30 tekolohkosta 19 siirrytaan lohkoon 21, jossa puhuja vah-vistetaan tunnistetuksi kyseisen mallin osoittamaksi hen-kilOksi. Mikåli lasketut parametrit eivat vastaa minkaan tallennetun mallin vastaavia parametreja, paatåksenteko-lohkosta 19 siirrytåån lohkoon 20, jossa puhuja osoitetaan 35 tuntemattomaksi.
7 91925
Esimerkiksi radiopuhelinjårjestelmåssa lohko 21 voi sallia esimerkiksi yhteyden muodostamisen tai jonkin pal-velun kaytdn ja lohko 20 vastaavasti estaa nåma toimenpi-teet.
5 Uusien mallien laskeminen ja tallentaminen muistiin tunnistamista vårten voidaan suorittaa oleellisesti saman-laisella proseduurilla kuin kuvion 3 vuokaaviossa, paitsi ettå keskimaarSisten ja maksimipinta-alojen laskemisen jaikeen lohkossa 18 namå pinta-alatiedot tallennetaan pu-10 hujakohtaiseksi tiedostoksi jarjestelman muistiin yhdessa muiden tarvittavien henkildtietojen, kuten nimi, puhelin-numero jne., kanssa.
KeksinnOn toisessa suoritusmuodossa tunnistuksessa kaytettåvåa analyysia tarkennetaan aannetasolle siten, 15 etta aanivayiaa mallintavan havidttdmån putken mallin sy-linteriosien poikkipinta-alojen keskiarvot lasketaan ana-lysoitavasta puhesignaalista tietyn aanteen aikana muodos-tettujen hetkellisten hMvi5ttfiman putken mallien sylinte-riosien pinta-aloista. Yhden aanteen kestoaika on melko 20 pitka, joten yhdesta puhesignaalissa esiintyvastå aantees-ta voidaan laskea useita, jopa kymmenia ajallisesti peråk-kaisia haviottdman putken malleja. Tata on havainnollistaa kuvio 4, jossa on esitetty nelja ajallisesti perakkaista hetkellista havidttdmån putken mallia S1-S4. Kuviosta 4 25 voidaan selvasti havaita, etta haviiJttdman putken yksit-taisten sylintereiden sateet (ja poikkipinta-alat) muuttu-vat ajan mukana. Esimerkiksi hetkellisten mallien SI, S2 ja S3 voisivat karkeasti luokiteltuna olla saman aanteen aikana muodostettuja, jolloin niista voitaisiin laskea 30 keskiarvo. Sen sijaan malli S4 on selvasti erilainen ja eri aanteeseen liittyva eika sen vuoksi tule huomioiduksi keskiarvon laskemisessa.
Seuraavassa selostetaan aénnetasolla tapahtuvaa tunnistusta viitaten kuvion 5 lohkokaavioon. Vaikka tun-35 nistus voidaan tehda jo yhden aanteen perusteella, tunnis- 91925 8 tuksessa kSytetSån edullisesti våhintaan kahta eri aannet-ta, esim. vokaalia ja/tai konsonanttia, joita vastaavat tunnetun puhujan tallennetut haviGttGman putken mallit muodostavat ns. kombinaatiotaulukon 58. Yksinkertainen 5 kombinaatiotaulukko voi sisaitaa esimerkiksi kolmelle aan-teelle "a", "e" ja "i" laskettujen haviGttGman putken mal-lien sylinterien keskimaaraiset pinta-alat, ts. kolme eri-laista keskimaaraista haviGttGman putken mallia. Tåmå kombinaatiotaulukko tallennetaan mainittuun puhujakohtaiseen 10 tiedostoon. Kun puhujaa tunnistettaessa puheesta heijas-tuskertoimien avulla laskettu (lohko 51) hetkellinen haviGttGman putken malli tunnistetaan ( "kvantisoidaan") kar-keasti jotakin naista ennalta maaratyista malleista vas-taavaksi (lohko 52), se tallennetaan muistiin (lohko 53) 15 myGhempaa keskiarvon laskemista vårten. Kun jokaista aan-netta vårten on saatu riittavan monta hetkellista haviGt-tOmån putken mallia, lasketaan kullekin aanteelle erikseen haviGttGman putken mallin sylinteriosien poikkipinta-alo-jen keskiarvot Ai;| (lohko 55), joita sitten verrataan kom-20 binaatiotaulukkoon 58 tallennettuihin vastaavien mallien sylintereiden poikkipinta-aloihin Α1ν Kombinaatiotaulukon 58 jokaista mallia vårten on oma vertailufunktio 56 ja 57, esim. ristikorrelaatiofunktio, jolla puheesta lasketun mallin ja kombinaatiotaulukon 58 kyseisen tallennetun mal-25 lin valinen yhtenevyys tai korrelaatio arvioidaan. Tun-tematon puhuja mååritellåan tunnistetuksi, jos kaikki tai riittavån monen MSnteen tapauksessa laskettu malli ja tal-lennettu malli korreloi riittåvån tarkasti keskenåån.
Puhesignaalista muodostettu hetkellinen haviGttGmån 30 putken malli 59 voidaan tunnistaa lohkossa 52 tiettyå SSn-: nettå vastaavaksi mikali hetkellisen haviOttOman putken - mallin 59 jokaisen sylinteriosan poikkimitta on tunnetun puhujan vastaavan aanteen ennalta maarattyjen tallennettu-jen raja-arvojen sisalla. Nåma aannekohtaiset ja sylinte-35 rikohtaiset raja-arvot ovat tallennettuina ns. kvantisoin- 9 91925 titaulukkoon 54. Kuviossa 5 viitenumeroilla 60 ja 61 on havainnollistettu kuinka mainitut aanne- ja sylinterikoh-taiset raja-arvot muodostavat kullekin aanteelle maskin tai mallinteen, joiden sallitulle alueelle 60A ja 61A 5 (varjostamattomat alueet) tunnistettavan hetkellisen aani- vayiamallin 59 on sovittava. Kuviossa 5 hetkellinen aani-vayiamalli 59 sopii aannemaskiin 60 mutta ei selvastikaan sovi aannemaskiin 61. Lohko 52 toimii siten eraanlaisena aannesuodattimena, joka lajittelee aanivayiamallit oikei-10 siin aanneryhmiin a, e, i, jne.
Menetelma voidaan kaytannGssa toteuttaa esimerkiksi ohjelmallisesti tavanomaisessa signaaliprosessorissa.
Kuviot ja niihin liittyva selitys on tarkoitettu vain havainnollistamaan esilia olevaa keksintoa. Yksityis-15 kohdiltaan keksinnOn mukainen menetelma voi vaihdella oheisten patenttivaatimusten puitteissa.

Claims (7)

91925
1. Menetelmå puhujan tunnistamiseksi, joka menetel-må kåsittåå puhesignaalista otettujen nåytteiden perus- 5 teella lasketun mallin vertaamisen ainakin yhden tunnetun puhujan tallennettuun malliin, tunnettu siitå, et-tå verrataan puhesignaalin nåytteistå laskettuja, puhujan åånivåylåå mallintavan håviGttOmån putken osien poikkipin-ta-alojen tai muiden poikkimittojen keskiarvoja ainakin 10 yhden tunnetun puhujan tallennetun åånivåylåmallin osien vastaaviin keskiarvoihin.
2. Patenttivaatimuksen 1 mukainen menetelmå, joka kåsittåå a) puhesignaalista otettujen nåytteiden ryhmit-15 telemisen M kappaletta nåytteitå sisåltåviksi kehyksiksi, b) ennalta mååråtyn autokorrelaatiofunktion tai vastaavan funktion arvojen laskemisen kehyksen nåytteistå, c) heijastuskertoimien laskemisen rekursiivisesti autokorrelaatiofunktion tai vastaavan arvoista, 20 d) heijastuskertoimia hyvåksikåyttåen laskettujen parametrien vertaamisen muistiin tallennettuihin, ainakin yhden tunnetun puhujan vastaaviin parametreihin, tunnettu siitå, ettå vaiheessa d) lasketaan kehyksen heijastuskertoimista puhujan 25 åånivåylåa sylinterimåisilia osilla mallintavan håviGtto-mån putken kunkin sylinteriosan pinta-ala, toistetaan mainittujen pinta-alojen laskenta N kap-paleella kehyksiå ja lasketaan nåin saatujen pinta-alojen keskiarvo erikseen kullekin sylinteriosalle, ja 30 verrataan nåin laskettuja keskimååråisiå pinta-alo- . ja ainakin yhden tunnetun puhujan tallennetun mallin sy- linteriosien keskimååråisiin pinta-aloihin.
3. Patenttivaatimuksen 1 tai 2 mukainen menetelmå, tunnettu siitå, ettå mååritetåån kunkin sylinte- 35 riosan pinta-alan ååriarvo N kehyksen aikana, ja verrataan II 91925 sylinteriosien keskimåaråisia ja maksimipinta-aloja aina-kin yhden tunnetun puhujan tallennetun aanivSylSmallin sylinteriosien keskimaårSisiin ja maksimipinta-aloihin.
4. Patenttivaatimuksen 1, 2 tai 3 mukainen menetel-5 ma, tunnettu siita, etta SSnivSylSå mallintavan hSviOttOman putken mallin sylinteriosien keskimaaraiset poikkimitat muodostuvat tietyn aanteen aikana muodostet-tujen hetkellisten havidttdmån putken mallien sylinteriosien poikkimittojen keskiarvoista.
5. Patenttivaatimuksen 4 mukainen menetelma, tun nettu siita, etta havidttdmån putken mallin sylinteriosien poikkimittojen keskiarvot lasketaan erikseen vahintaan kahdelle eri aanteelle, 15 kunkin aanteen haviOttOman putken mallin sylinteri osien keskiarvoja verrataan tunnetun puhujan vastaavan aanteen tallennetun haviOttOman putken mallin sylinteriosien poikkimittoihin, ja puhuja tunnistetaan mikali riittavan monen aanteen 20 laskettu havidttdman putken malli korreloi riittavan tar-kasti sita vastaavan tallennetun haviottoman putken mallin kanssa.
6. Patenttivaatimuksen 4 tai 5 mukainen menetelma, tunnettu siitå, etta puhesignaalista muodostettu 25 hetkellinen havidttdman putken malli tunnistetaan tiettya aannetta vastaavaksi mikali hetkellisen haviOttttman putken mallin jokaisen osan poikkimitta on kvantisointitaulukkoon tallennettujen vastaavan aanteen ennalta måarattyjen raja-arvojen sisalla.
7. Patenttivaatimuksen 4, 5 tai 6 mukainen menetel- må,tunnettu siita, etta mainitut aanteet ovat vokaaleja ja/tai konsonantteja. 91925
FI912088A 1991-04-30 1991-04-30 Menetelmä puhujan tunnistamiseksi FI91925C (fi)

Priority Applications (9)

Application Number Priority Date Filing Date Title
FI912088A FI91925C (fi) 1991-04-30 1991-04-30 Menetelmä puhujan tunnistamiseksi
PCT/FI1992/000128 WO1992020064A1 (en) 1991-04-30 1992-04-29 Speaker recognition method
AU16530/92A AU653811B2 (en) 1991-04-30 1992-04-29 Speaker recognition method
DE69212261T DE69212261T2 (de) 1991-04-30 1992-04-29 Verfahren zur sprechererkennung
AT92909205T ATE140552T1 (de) 1991-04-30 1992-04-29 Verfahren zur sprechererkennung
JP50856192A JP3184525B2 (ja) 1991-04-30 1992-04-29 話者認識方法
EP92909205A EP0537316B1 (en) 1991-04-30 1992-04-29 Speaker recognition method
NO924782A NO306965B1 (no) 1991-04-30 1992-12-10 Fremgangsmåte for gjenkjennelse av en taler
US08/387,623 US5522013A (en) 1991-04-30 1995-02-13 Method for speaker recognition using a lossless tube model of the speaker's

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI912088 1991-04-30
FI912088A FI91925C (fi) 1991-04-30 1991-04-30 Menetelmä puhujan tunnistamiseksi

Publications (4)

Publication Number Publication Date
FI912088A0 FI912088A0 (fi) 1991-04-30
FI912088L FI912088L (fi) 1992-10-31
FI91925B FI91925B (fi) 1994-05-13
FI91925C true FI91925C (fi) 1994-08-25

Family

ID=8532415

Family Applications (1)

Application Number Title Priority Date Filing Date
FI912088A FI91925C (fi) 1991-04-30 1991-04-30 Menetelmä puhujan tunnistamiseksi

Country Status (8)

Country Link
EP (1) EP0537316B1 (fi)
JP (1) JP3184525B2 (fi)
AT (1) ATE140552T1 (fi)
AU (1) AU653811B2 (fi)
DE (1) DE69212261T2 (fi)
FI (1) FI91925C (fi)
NO (1) NO306965B1 (fi)
WO (1) WO1992020064A1 (fi)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI96246C (fi) * 1993-02-04 1996-05-27 Nokia Telecommunications Oy Menetelmä koodatun puheen lähettämiseksi ja vastaanottamiseksi
FI96247C (fi) * 1993-02-12 1996-05-27 Nokia Telecommunications Oy Menetelmä puheen muuntamiseksi
JP4556028B2 (ja) * 2005-11-04 2010-10-06 株式会社国際電気通信基礎技術研究所 発話主体同定装置及びコンピュータプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1334868C (en) * 1987-04-14 1995-03-21 Norio Suda Sound synthesizing method and apparatus
FR2632725B1 (fr) * 1988-06-14 1990-09-28 Centre Nat Rech Scient Procede et dispositif d'analyse, synthese, codage de la parole
US5054082A (en) 1988-06-30 1991-10-01 Motorola, Inc. Method and apparatus for programming devices to recognize voice commands

Also Published As

Publication number Publication date
NO306965B1 (no) 2000-01-17
FI912088A0 (fi) 1991-04-30
NO924782D0 (no) 1992-12-10
FI912088L (fi) 1992-10-31
AU653811B2 (en) 1994-10-13
NO924782L (no) 1993-02-26
EP0537316B1 (en) 1996-07-17
FI91925B (fi) 1994-05-13
DE69212261D1 (de) 1996-08-22
JP3184525B2 (ja) 2001-07-09
ATE140552T1 (de) 1996-08-15
DE69212261T2 (de) 1997-02-20
JPH05508242A (ja) 1993-11-18
WO1992020064A1 (en) 1992-11-12
AU1653092A (en) 1992-12-21
EP0537316A1 (en) 1993-04-21

Similar Documents

Publication Publication Date Title
CN112133277B (zh) 样本生成方法及装置
KR20010040669A (ko) 잡음 보상되는 음성 인식 시스템 및 방법
JPH08505715A (ja) 定常的信号と非定常的信号との識別
FI96247C (fi) Menetelmä puheen muuntamiseksi
KR100216018B1 (ko) 배경음을 엔코딩 및 디코딩하는 방법 및 장치
JP2004511003A (ja) 音声コーディングにおける雑音のロバストな分類のための方法
CN113611330A (zh) 一种音频检测方法、装置、电子设备及存储介质
US5522013A (en) Method for speaker recognition using a lossless tube model of the speaker's
US6915257B2 (en) Method and apparatus for speech coding with voiced/unvoiced determination
FI91925C (fi) Menetelmä puhujan tunnistamiseksi
KR100291584B1 (ko) 피치 구간별 fo/f1률의 유사성에 의한 음성파형 압축방법
KR100399057B1 (ko) 이동통신 시스템의 음성 활성도 측정 장치 및 그 방법
KR100434538B1 (ko) 음성의 천이 구간 검출 장치, 그 방법 및 천이 구간의음성 합성 방법
JPH09247800A (ja) 左右音像方向抽出方法
KR100345402B1 (ko) 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법
KR100647291B1 (ko) 음성의 특징을 이용한 음성 다이얼링 장치 및 방법
KR100278640B1 (ko) 이동 전화기를 위한 음성 다이얼링 장치 및방법
KR100322704B1 (ko) 음성신호의지속시간변경방법
EP0929065A2 (en) A modular approach to speech enhancement with an application to speech coding
HK1015183B (en) Method and apparatus for encoding/decoding of background sounds
JPS6054000A (ja) 音声の有声・無声判定方法
JP2002527796A (ja) 音声処理方法および音声処理装置

Legal Events

Date Code Title Description
HC Name/ company changed in application

Owner name: NOKIA TELECOMMUNICATIONS OY

BB Publication of examined application