FI91925B

FI91925B - Menetelmä puhujan tunnistamiseksi

Info

Publication number: FI91925B
Application number: FI912088A
Authority: FI
Inventors: Marko Vaenskae
Original assignee: Nokia Telecommunications Oy
Priority date: 1991-04-30
Filing date: 1991-04-30
Publication date: 1994-05-13
Also published as: AU653811B2; FI91925C; WO1992020064A1; FI912088L; ATE140552T1; JP3184525B2; DE69212261T2; NO306965B1; EP0537316B1; FI912088A0; JPH05508242A; AU1653092A; DE69212261D1; NO924782D0; EP0537316A1; NO924782L

Description

91925

Menetelmä puhujan tunnistamiseksi

Keksinnön kohteena on menetelmä puhujan tunnistamiseksi, joka menetelmä käsittää puhesignaalista otettujen 5 näytteiden perusteella lasketun mallin vertaamisen ainakin yhden tunnetun puhujan tallennettuun malliin.

Eräs tunnettu tapa tunnistaa ja varmentaa käyttäjä erilaisissa järjestelmissä, kuten tietokonejärjestelmissä tai puhelinjärjestelmissä, on tunnistaa käyttäjä puhesig-10 naalin perusteella. Kaikissa tunnetuissa puhujantunnistus-menetelmissä pyritään löytämään sellaisia puheäänen ominaisuuksia, joiden avulla voidaan automaattisesti tunnistaa ja erotella puhujat toisistaan. Tällöin kunkin puhujan puheesta otetun näytteen perusteella muodostetaan tiettyjä 15 puheäänelle ominaisia parametreja sisältäviä malleja, jotka tallennetaan puhujantunnistusjärjestelmän muistiin. Kun sitten nimetön puhuja halutaan tunnistaa, hänen puhesignaalistaan otetuista näytteistä muodostetaan samat parametrit sisältävä malli, jota verrataan järjestelmän muis-20 tissa oleviin vertailumalleihin. Mikäli tunnistettavasta puhesignaalista kehitetty malli riittävällä tarkkuudella ennalta määrätyn kriteerin mukaisesti vastaa jotakin muistiin tallennettua tunnetun puhujan mallia, nimetön puhuja tunnistetaan henkilöksi, jonka puhesignaalista kyseinen ' 25 vertailuinani on muodostettu. Yleisesti ottaen kaikissa tunnetuissa puhujantunnistusjärjestelmissä noudatetaan edellä esitettyä yleisperiaatetta, mutta puhujan äänen mallintamisessa käytetyt parametrit ja ratkaisut poikkeavat hyvinkin paljon toisistaan. Esimerkkejä puhujan 30 tunnistusmenetelmistä ja -järjestelmistä on esitetty US-patenttijulkaisuissa 4 720 863 ja 4 837 830, GB-patentti-hakemuksessa 2 169 120 sekä EP-patenttihakemuksessa 0 369 485.

Keksinnön päämääränä on uudentyyppinen puhujantun-35 nistusmenetelmä, jolla pyritään aikaisempaa paremmin ja 91 >25 2 yksinkertaisemmalla algoritmilla tunnistamaan puhuja mielivaltaisen puhesignaalin perusteella.

Tämä saavutetaan johdannossa esitetyn tyyppisellä menetelmällä, jolle on keksinnön mukaisesti tunnusomaista, 5 että verrataan puhesignaalin näytteistä laskettuja, puhujan ääniväylää mallintavan häviöttömän putken osien poikkipinta-alojen tai muiden poikkimittojen keskiarvoja ainakin yhden tunnetun puhujan tallennetun ääniväylämallin osien vastaaviin keskiarvoihin.

10 Keksinnön perusajatuksena on tunnistaa puhuja puhu jalle ominaisen ääniväylän perusteella. Ääniväylällä tarkoitetaan tässä yhteydessä ihmisen äänijänteiden, kurkunpään, nielun, suun ja huulten muodostamaa äänikanavaa, jonka avulla ihminen muodostaa puheäänen. Puhujan ääni-15 väylän profiili muuttuu ajassa jatkuvasti ja ääniväylän tarkkaa muotoa on vaikea laskea pelkästään puhesignaalista saatavilla tiedoilla, mikä johtuu ääniväylän eri osien monimutkaisista vuorovaikutussuhteista ja ääniväylän sei-nämämateriaalin eri koostumuksesta eri ihmisillä. Keksin-20 nön mukaisessa menetelmässä ei kuitenkaan tarvita ääni-väylän tarkkaa muotoa. Keksinnössä puhujan ääniväylää mallinnetaan ns. häviöttömän putken mallilla, jonka muoto on puhujalle ominainen. Lisäksi vaikka puhujan ääniväylän profiili ja samalla häviöttömän putken malli muuttuu jat-25 kuvasti puhumisen aikana, ääniväylän ja häviöttömän putken mallin äärimitat ja keskiarvo sen sijaan ovat puhujalle tyypillisiä vakioita. Tämän vuoksi keksinnön mukaisessa menetelmässä voidaan kohtalaisella tarkkuudella tunnistaa puhuja puhujan ääniväylää mallintaman häviöttömän putken 30 keskimääräisen muodon tai muotojen perusteella. Keksinnön eräässä suoritusmuodossa tunnistuksessa käytetään häviöttömän putken mallin sylinteriosien keskimääräisten poikkipinta-alojen lisäksi myös sylinteriosien poikkipinta-alojen ääriarvoja eli maksimi- ja minimiarvoja.

35 Keksinnön toisessa suoritusmuodossa henkilön tun- 3 91925 nistamisen tarkkuutta on edelleen parannettu muodostamalla häviöttömän putken mallin keskiarvo yksittäisille äänteille. Tietyn äänteen aikana ääniväylän muoto pysyy lähes muuttumattomana ja kuvaa paremmin puhujan ääniväylää. Kun 5 tunnistamisessa käytetään useampia äänteitä, saadaan hyvin tarkka tunnistus.

Keksinnössä käytettävän häviöttömän putken mallin sylinteriosien poikkipinta-alat voidaan helposti laskea tavanomaisissa puheenkoodausalgoritmeissa muodostetuista 10 ns. heijastuskertoimista. Luonnollisesti pinta-alasta voi daan määrittää vertailuparametriksi muukin poikkimitta, kuten säde tai halkaisija. Toisaalta putken poikkileikkauksella voi olla ympyrämuodon sijasta jokin muukin muoto.

15 Keksintöä selitetään seuraavassa yksityiskohtaisem min suoritusesimerkin avulla viitaten oheiseen piirrokseen, joissa kuviot 1 ja 2 havainnollistavat puhujan ääniväylän mallintamista häviöttömän putken avulla, joka muodostuu 20 peräkkäisistä sylinteriosista, kuvio 3 esittää vuokaavion, joka havainnollistaa erästä keksinnön mukaista puhujan tunnistusmenetelmää, kuvio 4 havainnollistaa häviöttömän putken mallien muuttumista puheen aikana, ja 25 kuvio 5 esittää lohkokaavion, joka havainnollistaa puhujan tunnistamista äännetasolla.

Nyt viitataan kuvioon 1, jossa on esitetty perspektiivikuvana peräkkäisistä sylinteriosuuksista C1-C8 muodostuva häviöttömän putken malli, joka muodostaa karkean 30 mallin ihmisen ääniväylälle. Kuvion 1 häviöttömän putken malli on nähtävissä sivukuvana kuviossa 2. Ihmisen ääni-väylällä tarkoitetaan yleensä ihmisen äänijänteiden, kurkun, nielunsuun ja huulten muodostamaa äänikäytävää, jolla ihminen muodostaa puheäänet. Kuvioissa 1 ja 2 sylinteriosa 35 Cl kuvaa välittömästi äänijänteiden välisen ääniraon (glottis) jälkeen olevan ääniväylän osuuden muotoa, sylin- 4 91925 teriosuus C8 kuvaa ääniväylän muotoa huulien kohdalla ja välissä olevat sylinteriosuudet C2-C7 kuvaavat ääniraon ja huulten välissä olevien diskreettien ääniväyläosuuksien muotoa. Ääniväylän muodolle on ominaista, että se vaihte-5 lee jatkuvasti puhumisen aikana, kun muodostetaan erilaisia äänteitä. Samalla tavoin myös ääniväylän eri osia kuvaavien diskreettien sylintereiden C1-C8 halkaisijat ja pinta-alat vaihtelevat puhumisen aikana. Keksijä on kuitenkin havainnut, että suurehkosta määrästä hetkellisiä 10 ääniväylän muotoja laskettu keskimääräinen ääniväylän muoto on kullekin puhujalle ominainen vakio, jota voidaan käyttää puhujan tunnistamiseen. Samalla tavoin myös ääni-väylää mallintavan häviöttömän putken mallin sylintereiden C1-C8 poikkipinta-alojen hetkellisistä arvoista pitkällä 15 aikavälillä lasketut sylinteriosuuksien C1-C8 poikkipinta-alojen keskiarvot ovat suhteellisen tarkkaan vakioita. Edelleen myös sylintereiden poikkimittojen ääriarvot määräytyvät todellisen ääniväylän äärimitoista ja ovat siten puhujalle ominaisia suhteellisen tarkkoja vakioita.

20 Keksinnön mukaisessa menetelmässä käytetään hyväksi alalla hyvin tunnetussa lineaarisessa ennustavassa koodauksessa (LPOLinear Predictive Coding) välituloksena muodostettavia ns. heijastuskertoimia eli ns. PARCOR-ker-toimia rk, joilla on tietty yhteys ääniväylän muotoon ja 25 rakenteeseen. Hei j astuskertoimien rk ja ääni väylää kuvaavan häviöttömän putken mallin sylinteriosuuksien pinta-alojen Ak välinen yhteys on yhtälön (1) mukainen A(k+1) - A(k) - r(k) - - (1) 30 A(k+1) + A(k) : missä k - 1,2,3,....

Keksinnössä käytettävät heijastuskertoimet tuottavaa LPC-analyysiä käytetään hyväksi monissa tunnetuissa pu-35 heenkoodausmenetelmissä. Keksinnön mukaisen menetelmän erääksi edulliseksi sovellutukseksi on ajateltu tilaajien

II

5 ?'Ί?'έ5 tunnistamista radiopuhelinjärjestelmissä, erityisesti yleiseurooppalaisessa digitaalisessa radiopuhelinjärjestelmässä GSM. GSM-suositus 06.10 määrittelee hyvin tarkasti järjestelmässä käytettävän RPE-LTP-puheenkoodausmene-5 telmän (Regular Pulse Excitation-Long Term Prediction). Keksinnön mukaisen menetelmän käyttö tämän puheenkoodaus-menetelmän yhteydessä on edullista, koska keksinnössä tarvittavat heijastuskertoimet saadaan välituloksena edellä mainitussa RPE-LPC-koodausmenetelmässä. Keksinnön ensisi-10 jäisessä suoritusmuodossa kaikki menetelmän vaiheet hei-jastuskertoimien laskemiseen asti noudattavat mainittua GSM 06.10 suosituksen mukaista puheenkoodausalgoritmia ja näiden vaiheiden yksityiskohtien osalta viitataan mainittuun suositukseen. Seuraavassa näitä menetelmävaiheita 15 kuvataan vain yleisesti keksinnön ymmärtämisen kannalta oleellisilta osin viitaten kuvion 3 vuokaavioon.

Kuviossa 3 lohkossa 10 otetaan näytteitä sisääntu-losignaalista IN näytteenottotaajuudella 8 kHz ja muodostetaan 8 bitin näytteiden jono sG. Lohkossa 11 näytteistä 20 poistetaan tasakomponentti (dc-komponentti) koodauksessa mahdollisesti syntyvän häiritsevän sivuäänen poistamiseksi. Tämän jälkeen lohkossa 12 esikorostetaan näytesignaa-lia painottamalla korkeita signaalitaajuuksia ensimmäisen asteen FIR-suodattimella. Lohkossa 13 näytteet segmentoi-25 daan 160 näytteen kehyksiksi, jolloin kehyksen kesto on noin 20 ms.

Lohkossa 14 puhesignaalin spektri mallinnetaan suorittamalla jokaiselle kehykselle autokorrelaatiomenetel-mällä LPC-analyysi, jonka astelukuna on p=8. Tällöin ke-30 hyksestä lasketaan p+1 kappaletta autokorrelaatiofunktio ACF:n arvoja 160 ACF(k) = Σ s(i)s(i-k) (2) i = l 35 missä k=0,1,...,8.

Autokorrelaatiofunktion sijasta voidaan käyttää 6 91925 muutakin sopivaa funktiota, kuten esim. kovarianssifunk-tiota. Saaduista autokorrelaatiofunktion arvoista lasketaan Schurin rekursiolla tai muulla sopivalla rekur-siomenetelmällä puhekooderissa käytettävän lyhyen aikavä-5 Iin analyysisuodattimen kahdeksan ns. heijastuskertoimen rk arvot. Schurin rekursio tuottaa uudet heijastuskertoimet aina joka 20 ms. Keksinnön ensisijaisessa suoritusmuodossa kertoimet ovat 16-bittisiä ja niitä on 8 kappaletta. Jatkamalla Schurin rekursiota pidempään heijastuskertoimien 10 määrää voidaan haluttaessa lisätä.

Lohkossa 16 lasketaan kustakin kehyksestä lasketuista heijastuskertoimista rk puhujan ääniväylää sylinte-rimäisillä osilla mallintavan häviöttömän putken kunkin sylinteriosan Ck pinta-ala Ak. Koska Schurin rekursio tuot-15 taa uudet heijastuskertoimet joka 20. ms, pinta-aloja kullekin sylinteriosalla Ck saadaan 50 kpl/s. Kun on laskettu häviöttömän putken sylinteripinta-alat n-kappaleelle kehyksiä, kohdassa 17 lasketaan näin saatujen N:n häviöttömän putken mallin sylinteriosien Ck pinta-alojen keskiarvot 20 Ak.ave sekä määritetään kullekin sylinteriosuudelle Ck suurin poikkipinta-ala Ak nax, joka näiden N kehyksen aikana on esiintynyt. Tämän jälkeen kohdassa 18 verrataan näin saatuja puhujan ääniväylää mallintavan häviöttömän putken sylinteriosien Ck keskimääräisiä pinta-aloja Ak ave ja maksi-25 mipinta-aloja Ak max ainakin yhden tunnetun puhujan tallennetun häviöttömän putken malliin sylinteriosien keskimääräisiin ja maksimipinta-aloihin. Mikäli laskettu keskimääräinen häviöttömän putken muoto vertailtujen parametrien perusteella vastaa jotakin tallennettua mallia, päätöksen-30 tekolohkosta 19 siirrytään lohkoon 21, jossa puhuja vah- vistetaan tunnistetuksi kyseisen mallin osoittamaksi henkilöksi. Mikäli lasketut parametrit eivät vastaa minkään tallennetun mallin vastaavia parametreja, päätöksenteko-lohkosta 19 siirrytään lohkoon 20, jossa puhuja osoitetaan 35 tuntemattomaksi.

7 91925

Esimerkiksi radiopuhelinjärjestelmässä lohko 21 voi sallia esimerkiksi yhteyden muodostamisen tai jonkin palvelun käytön ja lohko 20 vastaavasti estää nämä toimenpiteet.

5 Uusien mallien laskeminen ja tallentaminen muistiin tunnistamista varten voidaan suorittaa oleellisesti samanlaisella proseduurilla kuin kuvion 3 vuokaaviossa, paitsi että keskimääräisten ja maksimipinta-alojen laskemisen jälkeen lohkossa 18 nämä pinta-alatiedot tallennetaan pu-10 hujakohtaiseksi tiedostoksi järjestelmän muistiin yhdessä muiden tarvittavien henkilötietojen, kuten nimi, puhelinnumero jne., kanssa.

Keksinnön toisessa suoritusmuodossa tunnistuksessa käytettävää analyysiä tarkennetaan äännetasolle siten, 15 että ääniväylää mallintavan häviöttömän putken mallin sy-linteriosien poikkipinta-alojen keskiarvot lasketaan analysoitavasta puhesignaalista tietyn äänteen aikana muodostettujen hetkellisten häviöttömän putken mallien sylinte-riosien pinta-aloista. Yhden äänteen kestoaika on melko 20 pitkä, joten yhdestä puhesignaalissa esiintyvästä äänteestä voidaan laskea useita, jopa kymmeniä ajallisesti peräkkäisiä häviöttömän putken malleja. Tätä on havainnollistaa kuvio 4, jossa on esitetty neljä ajallisesti peräkkäistä hetkellistä häviöttömän putken mallia S1-S4. Kuviosta 4 25 voidaan selvästi havaita, että häviöttömän putken yksittäisten sylintereiden säteet (ja poikkipinta-alat) muuttuvat ajan mukana. Esimerkiksi hetkellisten mallien SI, S2 ja S3 voisivat karkeasti luokiteltuna olla saman äänteen aikana muodostettuja, jolloin niistä voitaisiin laskea 30 keskiarvo. Sen sijaan malli S4 on selvästi erilainen ja eri äänteeseen liittyvä eikä sen vuoksi tule huomioiduksi keskiarvon laskemisessa.

Seuraavassa selostetaan äännetasolla tapahtuvaa tunnistusta viitaten kuvion 5 lohkokaavioon. Vaikka tun-35 nistus voidaan tehdä jo yhden äänteen perusteella, tunnis- 8 91925 tuksessa käytetään edullisesti vähintään kahta eri äännettä, esim. vokaalia ja/tai konsonanttia, joita vastaavat tunnetun puhujan tallennetut häviöttömän putken mallit muodostavat ns. kombinaatiotaulukon 58. Yksinkertainen 5 kombinaatiotaulukko voi sisältää esimerkiksi kolmelle äänteelle "a", "e" ja "i" laskettujen häviöttömän putken mallien sylinterien keskimääräiset pinta-alat, ts. kolme erilaista keskimääräistä häviöttömän putken mallia. Tämä kombinaatiotaulukko tallennetaan mainittuun puhujakohtaiseen 10 tiedostoon. Kun puhujaa tunnistettaessa puheesta heijas-tuskertoimien avulla laskettu (lohko 51) hetkellinen häviöttömän putken malli tunnistetaan ( "kvantisoidaan") karkeasti jotakin näistä ennalta määrätyistä malleista vastaavaksi (lohko 52), se tallennetaan muistiin (lohko 53) 15 myöhempää keskiarvon laskemista varten. Kun jokaista äännettä varten on saatu riittävän monta hetkellistä häviöttömän putken mallia, lasketaan kullekin äänteelle erikseen häviöttömän putken mallin sylinteriosien poikkipinta-alojen keskiarvot Ai;| (lohko 55), joita sitten verrataan kom-20 binaatiotaulukkoon 58 tallennettuihin vastaavien mallien sylintereiden poikkipinta-aloihin A^. Kombinaatiotaulukon 58 jokaista mallia varten on oma vertailufunktio 56 ja 57, esim. ristikorrelaatiofunktio, jolla puheesta lasketun mallin ja kombinaatiotaulukon 58 kyseisen tallennetun mal-25 Iin välinen yhtenevyys tai korrelaatio arvioidaan. Tuntematon puhuja määritellään tunnistetuksi, jos kaikki tai riittävän monen äänteen tapauksessa laskettu malli ja tallennettu malli korreloi riittävän tarkasti keskenään.

Puhesignaalista muodostettu hetkellinen häviöttömän 30 putken malli 59 voidaan tunnistaa lohkossa 52 tiettyä ään-: nettä vastaavaksi mikäli hetkellisen häviöttömän putken - mallin 59 jokaisen sylinteriosan poikkimitta on tunnetun puhujan vastaavan äänteen ennalta määrättyjen tallennettujen raja-arvojen sisällä. Nämä äännekohtaiset ja sylinte-35 rikohtaiset raja-arvot ovat tallennettuina ns. kvantisoin- 9 91925 titaulukkoon 54. Kuviossa 5 viitenumeroilla 60 ja 61 on havainnollistettu kuinka mainitut äänne- ja sylinterikoh-taiset raja-arvot muodostavat kullekin äänteelle maskin tai mallinteen, joiden sallitulle alueelle 60A ja 61A 5 (varjostamattomat alueet) tunnistettavan hetkellisen ääni- väylämallin 59 on sovittava. Kuviossa 5 hetkellinen ääni-väylämalli 59 sopii äännemaskiin 60 mutta ei selvästikään sovi äännemaskiin 61. Lohko 52 toimii siten eräänlaisena äännesuodattimena, joka lajittelee ääniväylämallit oikei-10 siin äänneryhmiin a, e, i, jne.

Menetelmä voidaan käytännössä toteuttaa esimerkiksi ohjelmallisesti tavanomaisessa signaaliprosessorissa.

Kuviot ja niihin liittyvä selitys on tarkoitettu vain havainnollistamaan esillä olevaa keksintöä. Yksityis-15 kohdiltaan keksinnön mukainen menetelmä voi vaihdella oheisten patenttivaatimusten puitteissa.

Claims

91925

1. Menetelmä puhujan tunnistamiseksi, joka menetelmä käsittää puhesignaalista otettujen näytteiden perus- 5 teella lasketun mallin vertaamisen ainakin yhden tunnetun puhujan tallennettuun malliin, tunnettu siitä, että verrataan puhesignaalin näytteistä laskettuja, puhujan ääniväylää mallintavan häviöttömän putken osien poikkipinta-alojen tai muiden poikkimittojen keskiarvoja ainakin 10 yhden tunnetun puhujan tallennetun ääniväylämallin osien vastaaviin keskiarvoihin.

2. Patenttivaatimuksen 1 mukainen menetelmä, joka käsittää a) puhesignaalista otettujen näytteiden ryhmit-15 telemisen M kappaletta näytteitä sisältäviksi kehyksiksi, b) ennalta määrätyn autokorrelaatiofunktion tai vastaavan funktion arvojen laskemisen kehyksen näytteistä, c) heijastuskertoimien laskemisen rekursiivisesti autokorrelaatiofunktion tai vastaavan arvoista, 20 d) heijastuskertoimia hyväksikäyttäen laskettujen parametrien vertaamisen muistiin tallennettuihin, ainakin yhden tunnetun puhujan vastaaviin parametreihin, tunnettu siitä, että vaiheessa d) lasketaan kehyksen heijastuskertoimista puhujan 25 ääniväylää sylinterimäisillä osilla mallintavan häviöttömän putken kunkin sylinteriosan pinta-ala, toistetaan mainittujen pinta-alojen laskenta N kappaleella kehyksiä ja lasketaan näin saatujen pinta-alojen keskiarvo erikseen kullekin sylinteriosalle, ja 30 verrataan näin laskettuja keskimääräisiä pinta-alo- . ja ainakin yhden tunnetun puhujan tallennetun mallin sy- linteriosien keskimääräisiin pinta-aloihin.

3. Patenttivaatimuksen 1 tai 2 mukainen menetelmä, tunnettu siitä, että määritetään kunkin sylinte- 35 riosan pinta-alan ääriarvo N kehyksen aikana, ja verrataan II 91925 sylinteriosien keskimääräisiä ja maksimipinta-aloja ainakin yhden tunnetun puhujan tallennetun ääniväylämallin sylinteriosien keskimääräisiin ja maksimipinta-aloihin.

4. Patenttivaatimuksen 1, 2 tai 3 mukainen menetel-5 mä, tunnettu siitä, että ääniväylää mallintavan häviöttömän putken mallin sylinteriosien keskimääräiset poikkimitat muodostuvat tietyn äänteen aikana muodostettujen hetkellisten häviöttömän putken mallien sylinteri-osien poikkimittojen keskiarvoista.

5. Patenttivaatimuksen 4 mukainen menetelmä, tun nettu siitä, että häviöttömän putken mallin sylinteriosien poikkimittojen keskiarvot lasketaan erikseen vähintään kahdelle eri äänteelle, 15 kunkin äänteen häviöttömän putken mallin sylinteri- osien keskiarvoja verrataan tunnetun puhujan vastaavan äänteen tallennetun häviöttömän putken mallin sylinteri-osien poikkimittoihin, ja puhuja tunnistetaan mikäli riittävän monen äänteen 20 laskettu häviöttömän putken malli korreloi riittävän tarkasti sitä vastaavan tallennetun häviöttömän putken mallin kanssa.

6. Patenttivaatimuksen 4 tai 5 mukainen menetelmä, tunnettu siitä, että puhesignaalista muodostettu 25 hetkellinen häviöttömän putken malli tunnistetaan tiettyä äännettä vastaavaksi mikäli hetkellisen häviöttömän putken mallin jokaisen osan poikkimitta on kvantisointitaulukkoon tallennettujen vastaavan äänteen ennalta määrättyjen raja-arvojen sisällä.

7. Patenttivaatimuksen 4, 5 tai 6 mukainen menetel mä, tunnettu siitä, että mainitut äänteet ovat vokaaleja ja/tai konsonantteja. 91925