FI124869B - Ääniaktiviteetin tunnistin ja hyväksyjä kohinallisia ympäristöjä varten - Google Patents

Ääniaktiviteetin tunnistin ja hyväksyjä kohinallisia ympäristöjä varten Download PDF

Info

Publication number
FI124869B
FI124869B FI20041013A FI20041013A FI124869B FI 124869 B FI124869 B FI 124869B FI 20041013 A FI20041013 A FI 20041013A FI 20041013 A FI20041013 A FI 20041013A FI 124869 B FI124869 B FI 124869B
Authority
FI
Finland
Prior art keywords
frame
input
speech
energy acceleration
buffer
Prior art date
Application number
FI20041013A
Other languages
English (en)
Swedish (sv)
Other versions
FI20041013A (fi
Inventor
Douglas Ralph Ealey
Holly Louise Kelleher
David John Benjamin Pearce
Original Assignee
Motorola Mobility Llc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Mobility Llc filed Critical Motorola Mobility Llc
Publication of FI20041013A publication Critical patent/FI20041013A/fi
Application granted granted Critical
Publication of FI124869B publication Critical patent/FI124869B/fi

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Description

Ääniaktiviteetin tunnistin ja hyväksyjä kohinallisia ympäristöjä varten
Keksinnön ala
Keksintö koskee puheen tunnistusta (tunnetaan yleisesti nimellä ääniaktiviteetin tunnistus (VAD)) kohinallisessa ympäristössä. Keksintöä voidaan soveltaa, vaikka ei vain tähän rajattuna, äänisignaalien energiakiihtyvyysmittaukseen puheentunnistus j ärj estelmässä.
Keksinnön tausta
Monet ääniviestintäjärjestelmät kuten GSM- matkapuhelinstandardin järjestelmä (global system for mobile communications) ja TETRA-järjestelmä (TErrestial Trunked RA-dio) yksityisiä matkaviestinradiokäyttäjiä varten, käyttävät puheenkäsittely-yksiköitä puhehahmomallien koodaamiseksi ja dekoodaamiseksi. Tällaisissa ääniviestintäjärjestelmissä pu-hekooderi muuntaa analogisen puhehahmomallin soveltuvaan digitaaliseen muotoon lähettämistä varten. Puhedekooderi muuntaa vastaanotetun digitaalisen puhesignaalin kuultavaksi au-diopuhehahmomalliksi.
Alalla tunnetaan menetelmiä ja laitteistoja ääniaktiviteetin tunnistamiseksi. Ääniaktiviteetin tunnistin (VAD) toimii sillä oletuksella, että puhetta on vain osalla aikaa audiosignaalia. Tämä oletus on tavallisesti oikein, koska audio-signaalisissa on monia aikavälejä, joiden aikana esiintyy vain hiljaisuutta tai taustakohinaa. Ääniaktiviteetin tunnistinta voidaan käyttää moneen tarkoitukseen. Näihin kuuluvat kokonaislähetysaktiviteetin vaimennus lähetysjärjestelmässä, kun puhetta ei esiinny, jolloin säästetään mahdollisesti energiaa ja kanavan kaistanleveyttä. Kun VAD havaitsee, että puheaktiviteetti on palannut, se voi aloittaa lähetysaktiviteetin uudelleen. Ääniaktiviteetin tunnistinta voidaan käyttää myös puheental-lennuslaitteiden kanssa erottamaan puhetta sisältävät audio-osuudet "puheettomista" osuuksista. Puhetta sisältävät osuudet tallennetaan sitten tallennuslaitteeseen ja "puheetto-mat" osuudet hylätään.
Tavanomaiset menetelmät äänen tunnistamiseksi perustuvat ainakin osaksi menetelmiin puhesignaalin tehon tunnistamiseksi ja arvioimiseksi. Estimoitua tehoa verrataan joko vakioon tai sovitettavaan kynnysarvoon päätöksen tekemiseksi siitä, onko signaali puhetta vaiko ei. Näiden menetelmien suurimpia etuja on niiden vähäinen monimutkaisuus, mikä tekee niistä sopivia toteutuksiin, joissa käsittelyresursseja on vähän. Näiden menetelmien suurimpia haittoja on se, että taustakohina voi vahingossa aiheuttaa "puheen" tunnistuksen, kun mitään "puhetta" ei esiinny tosiasiallisesti. Vaihtoehtoisesti esiintyvää "puhetta ei välttämättä tunnisteta, koska se on epäselvää ja vaikeasti tunnistettavaa taustakohinan takia.
Jotkin puheaktiviteetin tunnistamisen menetelmät on tarkoitettu kohinalliseen autoympäristöön ja ne perustuvat puhesignaalin adaptiiviseen suodatukseen. Tämä vähentää ko-hinasisällön signaalista ennen lopullista päätöstä. Taajuus-spektri ja kohinataso voi vaihdella, koska menetelmää käyte tään eri puhujien osalta ja erilaisissa ympäristöissä. Näin ollen tulosuodatin ja kynnysarvot ovat sovitettavia, jotta pysyttäisiin näiden vaihtelujen mukana.
Esimerkkejä näistä menetelmistä on annettu GSM:n teknisissä määrittelyissä 06.42 "Ääniaktiviteetin tunnistin (VAD) vastaavasti puolen nopeuden, täyden nopeuden ja korotetun täyden nopeuden puheliikennekanaville". Toinen tällainen menetelmä on "Multiboundary Voice Activity Detection Algorithm" jota on esitetty ITU G.729:n liitteessä B. Nämä menetelmät on tarkkoja kohinallisessa ympäristössä, mutta ovat huomattavan monimutkaisia toteuttaa.
Kaikki nämä menetelmät vaativat puhesignaalin tulona. Jotkin sovellukset, joissa käytetään puheen pakkauksenpurkumenetel-miä, vaativat, että puheen tunnistus suoritetaan puheen pak-kauksenpurkuprosessin aikana.
Eurooppapatenttihakemus Nro EP-A-0785419, jossa keksijöinä ovat Benyassine ym., on tarkoitettu ääniaktiviteetin tunnistuksen menetelmäksi, joka sisältää seuraavat vaiheet: (i) selvitetään ennalta määrätty joukko parametreja tulevasta puhesignaalista kunkin kehyksen osalta ja (ii) tehdään tulevan puhesignaalin kehyksen ääntä koskeva päätös jokaisen kehyksen osalta ennalta määrätystä joukosta parametreja selvitettyjen eromittojen joukon mukaisesti.
Matkapuhelinjärjestelmien VAD:tä esiohjataan sen varmistamiseksi, että kun osapuoli puhuu, radiojärjestelmä - mukaan lukien puhekoodekki ja RF-piiri jne. - on aktiivinen kuljettamaan tämän puheen toiselle osapuolelle taustakohinan ja muiden heikkoustilanteiden vallitessa. Tämä aiheuttaa kuitenkin datanlähetyksen silloin, kun osapuoli ei puhu. Tämän hintana on hieman lyhentynyt akunkesto ja hieman suurentunut häiriö saman taajuuskanavan käyttäjille järjestelmän toisissa soluissa. Nämä ovat olennaisesti tärkeysjärjestyksessä toisen (tai korkeamman) luokan vaikutuksia. Näissä järjestelmissä ei ole konseptia sen osalta, että käytettävissä on rajallinen resurssi kaksisuuntaista puhelua varten. On täysin mahdollista ja johdonmukaista, että yläsuuntainen linkki ja alasuuntainen linkki, jotka käyttävät tavallisesti eri kantoaaltoa, käyttävät samanaikaisesti täyttä kaistanleveyttä. Tämän keksinnön alalla tiedetään, että jotkin ääniaktivitee-tin tunnistimet tai äänen päälle tulon tunnistimet (VAD/VOD) yrittävät käyttää puheen ominaisuuksia, kuten sen harmonisia koskevaa rakennetta (esimerkiksi autokorreloinnin avulla) erottaakseen ääntä sisältävän puheen. Kohinassa tämä raken-neindikaattorit voivat kuitenkin epäonnistua, joko puheen rakenteen hajoamisen takia tai johtuen rakenteen jäämisestä kohinan sekaan. Tässä voi olla kyse esimerkiksi moottorin, renkaiden tai ilmastointilaitteen kohinasta auton sisässä. Nämä menetelmät ovat lisäksi huonoja tunnistamaan soinnitonta puhetta.
Vaihtoehtona on yksinkertaisesti se, että käytetään kehyksen energiatasoa puheen tunnistamiseksi. Tämä riittää sellaisen puheen osalta, joka tapahtuu hyvissä signaali-kohina-suhteen (SNR) olosuhteissa, joissa mielivaltainen kohinatason ylittävä kynnysarvo voidaan asettaa puhetta merkitseväksi. Tämä menetelmä ei kuitenkaan toimi tätä realistisemmissa kohina-olosuhteissa .
Normalisoimattomien tietokantojen eli todellisuuden sovellusten kohdalla on todennäköistä, että kohinatasot voivat olla yhdessä esimerkkijoukossa suuremmat kuin puhetasot toisessa, ja tämä tekee kynnysarvon asettamisen mahdottomaksi. Perinteinen menetelmä selvitä tästä on ottaa keskiarvo ensimmäisestä 100 ms.sta tai suurin piirtein sellaisesta ajasta ääni-ilmaisua käyttäen oletuksena sitä, että tämä edustaa kohinaa, ja luodaan tätä tapausta varten oma kynnysarvo. Taaskaan tämä ei riitä tasaisena pysymättömälle kohinalle, missä kohina voi poiketa äkillisesti alkuarviosta silloin, kun kohinalla on suuri varianssi tai kun muutamat ensimmäiset kehykset sisältävät tosiasiallisesti puhetta eivät oletuksena olevaa kohinaa.
Siksi on olemassa tarve parannetusta, kohinaympäristöihin tarkoitetusta ääniaktiviteetin tunnistimesta ja hyväksyjästä, jolla saadaan lievennetyksi edellä mainittuja haittapuolia .
Keksinnön yhteenveto
Esillä olevan keksinnön ensimmäisen puolen mukaisesti saadaan patenttivaatimuksessa 1 esitetyn kaltainen viestintälaite.
Esillä olevan keksinnön toisen puolen mukaisesti saadaan patenttivaatimuksessa 11 esitetyn kaltainen menetelmä viestintälaitteeseen tulevan puhesignaalin tunnistamiseksi.
Esillä olevan keksinnön kolmannen puolen mukaisesti saadaan patenttivaatimuksessa 14 esitetyn kaltainen menetelmä sen päättämiseksi, onko viestintälaitteeseen tuleva signaali puhetta vai kohinaa.
Epäitsenäisissä patenttivaatimuksissa on esitetty esillä olevan keksinnön muita puolia.
Yhteenvetona voidaan lausua, että esillä olevan keksinnön tavoitteena on ratkaista tapaus, jossa on kyse mielivaltaisesta amplitudista ja muuttuvasta kohinasta, käyttämällä energiakiihtyvyysmittausta ensisijaisesti energian amplitudin mittauksen sijasta puheen olemassa olon tai puuttumisen merkkinä.
Kuvioiden lyhyt selostus
Esillä olevan keksinnön esimerkinomaisia suoritusmuotoja kuvataan nyt viitaten oheistettuihin kuvioihin, joista: kuvio 1 esittää lohkokaavion viestintälaitteesta, joka on sovitettu suorittamaan ääniaktiviteetin tunnistus ja hyväksyntä esillä olevan keksinnön edullisen suoritusmuodon mukaisesti, kuvio 2 esittää vuokaavion energiakiihtyvyyteen perustuvasta ääniaktiviteetin tunnistuksesta kohinallisia ympäristöjä varten esillä olevan keksinnön edullisen suoritusmuodon mukaisesti, kuvio 3 esittää vuokaavion energiakiihtyvyyteen perustuvasta ääniaktiviteetin tunnistuksesta kohinallisia ympäristöjä varten esillä olevan keksinnön edullisen suoritusmuodon mukaisesti ja kuvio 4 esittää puskurointitoiminnan esillä olevan keksinnön edullisen suoritusmuodon mukaisesti.
Edullisten suoritusmuotojen kuvaus
Puheäänellä on verrattain suuri energiakiihtyvyysarvo, koska sen alkaminen riippuu aktivoinnista äänihuulissa, jotka joko värähtelevät tai ovat paikallaan. Vastaavasti soinnittomissa aluissa (esim. plosiivit) on myös suuri energiakiihtyvyys.
Keksijät ovat havainneet, että edustavassa alueessa, jossa äänen olemassaolo korostuu, kuten kapeakaistainen tehospektri eli Mel-spektri, syntyvä energiakiihtyvyys on huomattavasti suurempi kuin muuttumattomana pysyvä kohina. Ainoat merkittävät poikkeukset ovat impulsiiviset meluäänet (esimerkiksi käsien taputus). Täten, esillä olevan keksinnön edullisen suoritusmuodon mukaisesti, keksijät ovat arvioineet, että nämäkin äänet voidaan lisäksi erottaa keskittymällä energiaan taajuusalueella, joka sisältää todennäköisesti ihmisäänisignaalin perus-sävelkorkeuden. Esillä olevan keksinnön keksijät esittävät erityisesti, että käytetään puheen strukturoimatonta ominai suutta, nimittäin energiakiihtyvyyttä (tai jonkin mitan, joka heijastelee puheen tai sen komponenttien energiaa, kiihtyvyyttä) .
Keksinnöllisen konseptin edullinen sovellus on erityisesti hajautettu puheen tunnistus (DSR, Distributed Speech Recognition), jonka standardin on nykyään määritellyt ETSI (European Telecommunications Standards Institute - "Speech Processing, Transmission and Quality aspects (STQ); Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithm", ETSI ES 201 108 VI.1.2 (200-2004), huhtikuu 2000.
Viitataan nyt kuvioon 1, jossa on esitetty lohkokaavio au-diotilaajalaitteesta 100, joka on sovitettu tukemaan esillä olevan keksinnön edullisten suoritusmuotojen keksinnöllistä konseptia.
Esillä olevan keksinnön edullista suoritusmuotoa kuvataan käsitellen langatonta audioviestintälaitetta, esimerkiksi sellaista, joka pystyy toimimaan tulevaisuuden langattomien matkapuhelinviestintäjärjestelmien 3. sukupolven yhteistoi-mintaprojektin (3GPP, 3rd generation partnership project) standardin mukaisesti ja joka tarjoaa DSR-ominaisuudet. Keksinnön mukaisesti on kuitenkin ajateltavissa, että tässä kuvattua keksinnöllistä konseptia, joka koskee ääniaktivitee-tin tunnistusta ja sen hyväksyntää, voidaan soveltaa yhtä hyvin mihin tahansa elektroniseen laitteeseen, joka reagoi äänisignaaleihin ja joka voi hyötyä parannetusta ääniaktivi-teetin tunnistuspiiristä.
Kuten alalla tiedetään, audiotilaajalaite 100 sisältää antennin 102, joka on kytketty edullisesti duplex-suodattimeen, antennikytkimen eli kiertohaaroittimen 104, joka muodostaa erotuksen vastaanotto- ja lähetysketjun välillä audiotilaajalaitteen 100 sisässä.
Vastaanotinketju sisältää vastaanottimen etupään piirin 106 (joka toimintana on suorittaa vastaanotto, suodatus ja muunto välitaajuuskaistalle tai kantataajuuskaistalle). Etupään piiri 106 on kytketty sarjamuoisesti signaalinkäsittelytoi-mintoon (joka on toteutettu yleensä digitaalisella signaaliprosessorilla (DSP)) 108. Signaalinkäsittelytoiminto 108 suorittaa signaalin demoduloinnin, virheenkorjauksen ja muotoilun. Ennalleen palautettu data signaalinkäsittelytoimin-nosta 108 on kytketty sarjamuotoisesti audiokäsittelytoimin-toon 109, joka muotoilee vastaanotetun signaalin sopivalla tavalla lähetettäväksi audioilmaisimeen/näytölle 111.
Keksinnön erilaisissa suoritusmuodoissa signaalinkäsittely-toiminto 108 ja audiokäsittelytoiminto 109 voi olla järjestetty samaan fyysiseen laitteeseen. Ohjain 114 on konfigu-roitu ohjaamaan informaatiovirtaa ja tilaajalaitteen 100 elinten toiminnallista tilaa.
Mitä tulee lähetysketjuun, se sisältää olennaisin osin au-diotulolaitteen 120, joka on kytketty sarjaan audiokäsitte-lytoiminnon 109, signaalinkäsittelytoiminnon 108, lähetin-/modulointipiirin 122 ja tehovahvistimen 124 kanssa. Prosessori 108, lähetin-/modulointipiiri 122 ja tehovahvistin 124 toimivat vasteellisesti ohjaimeen nähden. Tehovahvistimen lähtö on kytketty duplex-suodattimeen, antennikytkimeen eli kiertohaaroittimeen 104 ja antenniin 102 lopullisen radio-taajuussignaalin lähettämiseksi.
Audiokäsittelytoiminto 109 sisältää erityisesti ääniaktivi-teetin (äänen alkamisen) tunnistuksen (VAD) toiminnon 130, joka on kytketty toiminnallisesti ääniaktiviteettipäätöstoi-mintoon 135. Esillä olevan keksinnön edullisten suoritusmuotojen mukaisesti VAD-toiminto 130 ja ääniaktiviteettipäätös-toiminto 135 on sovitettu antamaan parannettu äänen tunnistuksen ja päätöksenteon mekanismi, jonka toimintaa kuvataan kuvioihin 2 ja 3 viitaten. On huomattava, että ääniaktivi-teetin tunnistustoiminto 130 sisältää kehys kehykseltä -tunnistusvaiheen, joka koostuu kolmesta mittauksesta: Kolmen taajuusosa-alueen mittauksiin kuuluvat: (i) koko spektri (ii) spektrin osakaistat ja (iii) spektrin varianssi. Ääniaktiviteettipäätöstoiminto 135 suorittaa päätöksen sitten perustuen puskuroituihin mittauksiin, jotka analysoidaan niiden puhetodennäköisyyden osalta. Lopullinen päätös pää-tösasteesta kohdistetaan takautuvasti varhaisempaan kehykseen puskurissa.
Esillä olevan keksinnön edullisessa suoritusmuodossa ajas-tin/laskuri 118 on myös sovitettu suorittamaan ajoitustoi-minnot kuvioiden 2 ja 3 tunnistus- ja päätöksentekoprosessissa.
Signaaliprosessoritoiminto 108, audiokäsittelytoiminto 109, VAD-toiminto 130 ja ääniaktiviteettipäätöstoiminto 135 voi olla toteutettu erillisinä, toiminnallisesti kytkettyinä kä-sittelyeliminä. Vaihtoehtoisesti yhtä tai useampaa prosessoria voidaan käyttää toteuttamaan yksi tai useampi vastaavista käsittelytoiminnoista. Vielä yhdessä vaihtoehtoisessa suoritusmuodossa edellä mainitut toiminnot voi olla toteutettu laitteisto-, ohjelmisto- ja kiinto-ohjelmistoelimien sekakokoonpanolla, käyttäen sovelluskohtaisia integroituja piiriä (ASIC) ja/tai prosessoreja, esimerkiksi digitaalisia signaaliprosessoreja (DSP).
Tietenkin eri komponentit audiotilaajalaitteen 100 sisässä voi olla toteutettu erilliskomponenttien tai integroitujen komponenttien muodossa niin, että lopullinen rakenne on vain mielivaltainen valinta. Tämän lisäksi on olemassa lukuisia menetelmiä, joilla voidaan saada energiakiihtyvyystieto käytettäväksi esillä olevan keksinnön edullisessa suoritusmuodossa. (i) Teoreettisesti ideaalinen menetelmä on kirjaimellisesti kaksoisdifferentioida energiataso ilmaisun peräkkäisisten kehyksten suhteen, kuten on nähtävissä aiemmin julkaistusta patenttihakemuksesta US 6009391. Tämän ratkaisumallin haittana on se, että se on omiaan aiheuttamaan viiveitä, koska analyysissä on analysoitava joukko kehyksiä kehyksen kummaltakin puolelta. (ii) Energiakiihtyvyyden nollaviive-estimointi voidaan saavuttaa vertaamalla lyhyen ajan keskiarvon suhdetta hetkelliseen arvoon, esimerkiksi: käyttämällä kehyskeskiarvoa:
Figure FI124869BD00141
[1] tai käyttämällä liukuvaa keskiarvoa
Figure FI124869BD00142
[2]
Kummassakin tapauksessa menetelmä antaa arvon, jota voidaan tulkita seuraavasti: heikkenevyys < 1 < kiihtyvyys. Näin voidaan löytää kokemusperäisiä arvoja termille A ja nimittäjän pituus, joka erottaa parhaiten puheen kohinasta.
Esillä olevan keksinnön keksijät ovat havainneet, että edullinen optimaalinen ratkaisu on löytää nimittäjä, joka pystyy jäljittämään muuttuvaa kohinaa nopeasti, mutta joka on liian pitkä pysymään alkavan äänen perässä. Ehdotettu arvosekvens-si liukuvalle keskiarvolle on a=0,2m b=0,8*a, c=0,8*b jne., mikä voidaan ilmaista yksinkertaisesti rekursiolla: dt = 0,2xt+0, 8dt-i [3]
Sitten: A = xt/dt [4]
Edullisena pidetty VAD ja parametrien alustusjärjestelmä tunnistusasteessa on esitetty koosteena kuvion 2 vuokaaviossa. Ei-muuttumattomana pysyvässä kohinassa pitkän ajan ener-giakynnykset eivät ole luotettavia puheen indikaattoreita. Vastaavasti suuren kohinan oloissa puheen rakenteeseen (esimerkiksi harmonisiin) ei voida täysin luottaa indikaattorina, koska ne voivat olla kohinan sotkemia tai rakenteellinen kohina voi sekoittaa tunnistimen. Edullisena pidetty ääniak-tiviteetin tunnistin käyttää täten puheen kohinan sietävää ominaispiirrettä, nimittäin energiakiihtyvyyttä äänen alku-hetkellä.
Viitataan nyt kuvioon 2, jossa on esitetty vuokaavio 200 edullisena pidetystä tunnistusprosessista. Kuten edellä on ilmoitettu, prosessi sisältää kehys kehykseltä -analyysin. Edullisena pidetty VAD-mekanismi koskee mittausmekanismia "koko spektri". Aluksi arvioidaan kehyslaskuri sen määrittämiseksi, onko se pienempi kuin "N", joka määrittelee puskuroitujen kehysten lukumäärän, kuten on esitetty vaiheessa 205. Esimerkkinä edullisesta suoritusmuodosta N asetetaan arvoon 15 sillä oletuksella, että järjestelmässä kukin kehys kestää 10 ms. Jos kehyslaskuri on pienempi kuin "N" vaiheessa 205, tällöin päivitetään liukuva keskiarvo alun kiihty-vyystestistä, kuten on esitetty vaiheessa 210. Jos kehyslaskuri ei ole pienempi kuin "N" vaiheessa 205, tällöin vaihe 210 jätetään väliin.
Sitten tehdään määritys, onko energiakiihtyvyysmittaus yhden tai useamman määritellyn marginaalin sisässä, kuten on esitetty vaiheessa 235. Jos energiakiihtyvyysmittaus on yhden tai useamman määritellyn marginaalin sisässä vaiheessa 235, liukuva keskiarvo päivitetään myöhempien energiakiihtyvyys-testien tuloksilla, kuten vaiheessa 240. Jos energiakiihty-vyysmittaus ei ole yhden tai useamman määritellyn marginaalin sisässä vaiheessa 235, vaihe 240 jätetään väliin.
Sitten tehdään määritys sen arvioimiseksi, onko energiakiih-tyvyysmittaus suurempi kuin määritelty kynnysarvo, kuten on esitetty vaiheessa 260. Jos energiakiihtyvyysmittaus on suurempi kuin määritelty kynnysarvo vaiheessa 260, tällöin kehys oletetaan puhekehykseksi, kuten vaiheessa 265. Jos energiakiihtyvyysmittaus ei ole suurempi kuin määritelty kynnysarvo vaiheessa 260, tällöin kehys oletetaan kohinakehyk-seksi, kuten vaiheessa 270.
Kehyslaskuria kasvatetaan siten, kuten vaiheessa 275, ja prosessi toistuu vaiheesta 205.
Parannuksena tähän prosessiin, koko spektriin mittausprosessin sijasta tai sen lisäksi voidaan suorittaa osa-alueen mittausprosessi, joka on esitetty valinnaisissa vaiheissa 215 ja 245. Erityiseksi spektrin osa-alueeksi valitaan sellainen spektrin osa-alue, joka sisältää todennäköisimmin perus sävel korkeuden .
Osa-alueprosessissa heti, kun alun kiihtyvyystestin liukuva keskiarvo on päivitetty vaiheessa 210 koko spektrin mittauksessa, tehdään päätös tarkastaa, onko energiakiihtyvyysmittaus suurempi kuin kynnysarvo, kuten on esitetty vaiheessa 220. Jos energiakiihtyvyysmittaus on suurempi kuin kynnysarvo vaiheessa 220, muiden parametrien alustusprosessi keskeytetään, kuten on esitetty vaiheessa 225. Jos energiakiihty- vyysmittaus ei ole suurempi kuin kynnysarvo vaiheessa 220, muiden parametrien alustus päivitetään, kuten vaiheessa 230. Prosessi palaa sitten esitetyn mukaisesti vaiheeseen 235.
Sitten tehdään vielä yksi edullisena pidetty määritys sen jälkeen kun on tehty määritys sen arvioimiseksi, onko ener-gianiihtyvyysmittaus yhden tai useamman määritellyn marginaalin sisässä vaiheessa 235. Heikkenemisarvo arvioidaan sen määrittämiseksi, onko se tilassa "suuri" vaiheessa 250, ja jos on, energian kiihtyvyyden testin liukuvaa keskiarvoa päivitetään hitaasti, kuten on esitetty vaiheessa 255. Prosessi palaa sitten kokospektrimenetelmään vaiheessa 260. Tällä tavalla osakaistan tunnistimen yleensä suuret signaa-li-kohina-suhteet (SNR) tekevät tästä tunnistimesta hyvin kohinaa sietävän. Se on kuitenkin haavoittuva haitallisille mikrofoni- ja kaiutinmuutoksille sekä kaistarajatulle kohinalle. Täten mittauksiin ei saisi luottaa kaikissa olosuhteissa. Sen takia esillä olevan keksinnön edullinen suoritusmuoto sisältää osakaistan tunnistimen koko spektrin mittauksen lisätueksi.
Lisämittausprosessi suoritetaan edullisesti käyttäen arvojen varianssin "kiihtyvyyttä" esimerkiksi kunkin kehyksen spektrin alemman puolikkaan sisässä. Varianssin mitta ilmaisee rakenteen spektrin alemmassa puolikkaassa, mikä tekee siitä erittäin herkän soinnilliselle puheelle. Varianssimittaus noudattaa osakaistaprosessin menettelytapaa siten, että valitaan tietyksi osakaistaksi spektrin alapuolikas. Tämä va-rianssimittaus täydentää edelleen koko spektrin menettelyä, joka pystyy paremmin tunnistamaan soinnittoman ja plosiivi-sen osan.
Kaikki nämä kolme mittausta ottavat raakatulonsa kaksois-Wiener-suodattimen ensimmäisen asteen muodostamien suodatin-vahvistusten spektriesityksestä, kuten on esitetty yhdysvaltalaisessa patenttihakemuksessa nro. US 09/427497, jossa hakijana on Motorola INc. ja keksijänä Yan-Ming Chen. Kuten edellä on kuvattu, kukin mittaus käyttää tämän datan eri tarkastelupuolta.
Kokospektritunnistin käyttää erityisesti tunnettua kaksois-Wiener-suodattimen ensimmäisen asteen muodostamien suodatin-vahvistusten Mel-suodatettua spektriesitystä. Yksi tuloarvo saadaan neliöimällä Mel-suodatinpankkien summa.
Kokospektritunnistin käyttää keksinnön edullisessa suoritusmuodossa seuraavaa prosessia kaikille kehyksille, kuten on kuvattu seuraavassa:
Vaihe yksi alustaa kohinaestimaatin Jäljittäjä seuraavasti:
Jos Kehys<15 JA Kiihtyvyys<2,5 niin Jäijittäjä=MAX(Jäijittäjä, Tulo).
Energiakiihtyvyysmitta estää Jäljittäjän päivityksen, jos puhe esiintyy 15 kehyksen alukeaikana.
Vaihe 2 päivittää Jäljittäjän arvon, jos ajankohtainen tulo on samanlainen kuin kohinaestimaatti, seuraavasti:
Jos Tulo<Jäjittäjä*YläRaja ja Tulo>Jäjittäj ä*AlaRaj a niin Jäjittäjä=a*Jäijittäjä+(1-a)*Tulo
Vaihe kolme antaa varmistetun mekanismin niille tapauksille, joissa ensimmäisten muutaman kehyksen aikana on puhetta tai epätyypillisen suuri kohinasisältö. Tämä saa aikaan seurauksena olevan virheellisen suuren kohinaestimaatin häviämisen. Vaihe kolme toimii edullisesti seuraavasti:
Jos Tulo<Jäijittäjä*Pohjataso, niin Jäi j ittäj ä=£>* Jäi j ittäj ä+ (1 -h) *Tulo
Vaihe 4 palauttaa puheen määritykseen "tosi" , jos ajankohtainen tulo on enemmän kuin 165% suurempi kuin Jäljittäjä, seuraavasti:
Jos Tulo>Jäjittäjä*Kynnysarvo niin lähtö TOSI muutoin EPÄTOSI.
Hetkellisen tulon suhde lyhyen ajan Jäljittäjän keskiarvoon on peräkkäisten tulojen energiakiihtyvyyden funktio.
Jolloin edellä olevassa: a=0,8 ja jb=0,97
YläRaja on 150 % ja AlaRaja 75 %
Pohjataso on 50 % ja Kynnysarvo on 165 %.
On huomattava, että päivitystä ei tapahdu, jos arvo on suurempi kuin YläRaja tai AlaRajan ja Pohjatason välillä. Lisäksi energiakiihtyvyystulo, sellaisena kuin se on ilmoitettu edellä, voidaan laskea joko: peräkkäisten tulojen kaksoisdifferentioinnilla tai estimoinnin avulla jäljittämällä tulojen kahden liukuvan keskiarvon suhde.
On huomattava, että nopean ja hitaasti asettuvan liukuvan keskiarvon suhde heijastelee peräkkäisten tulojen energia-kiihtyvyyttä .
Esimerkin vuoksi mainittakoon, että vaikutusnopeudet edellä käytetyille keskiarvoille olivat: (i) O*keskiarvo + l*tulo, ja (ii) ((Kehys-1)^keskiarvo + l*tulo)/kehys, mikä tekee energiakiihtyvyysmitasta erittäin herkän yli ensimmäisten viidentoista kehyksen.
Osakaistan tunnistin käyttää edullisesti "kokospektri"-mittaukseen johdettua toisen, kolmannen ja neljännen Mel-suodatinpankin keskiarvoa. Tunnistin soveltaa sitten seuraa-vaa prosessia kaikille kehyksille seuraavassa kuvatulla tavalla : (i) Tulo=p*AjankohtainenTulo+(1-p)*EdellinenTulo (ii) Jos Kehys<15, niin Jäijittäjä=MAX(Jäijittäjä, Tulo) (iii) Jos Tulo<Jäijittäjä*YläRaja ja Tulo>Jäjittäj ä*AlaRaj a, niin Jäijittäjä=a*Jäijittäjä+(1-a)*Tulo (iv) Jos Tulo<Jäijittäjä*Pohjataso, niin Jäi j ittäj ä=£>* Jäi j ittäj ä+ (1-A) *Tulo (v) Jos Tulo>Jäljittäjä*Kynnysarvo,
niin lähtö TOSI muutoin lähtö EPÄTOSI
Jolloin osa-aluemittauksessa p= 0,75
Kaikki muut parametrit ovat samat kuin kokospektrimittauk-sessa, paitsi Kynnysarvo, joka on yhtä kuin 3,25.
Spektrivarianssimittauksen osalta tulona käytetään varianssia arvoista, jotka käsittävät kunkin kehyksen osalta vahvistuksen kapeakaistaisen spektriesityksen alemman taajuus-puoliskon. Tunnistin käyttää sitten tarkalleen samaa prosessia kuin kokospektrimittauksessa.
Varianssi lasketaan seuraavasti:
Figure FI124869BD00211
[5] jossa N=FFT pituus/4, ja wi ovat vahvistuksen kapeakaistaisen spektriesityksen arvot.
Esillä olevan keksinnön edullisen suoritusmuodon mukaisesti edellä yksityiskohtaisesti kuvatut kolme mittaa esitetään VAD-päätöksentekoalgoritmille, kuten on esitetty kuvion 3 vuokaaviossa. Peräkkäiset tulot viedään puskuriin, mikä antaa kokonaistilanteellisen analyysin. Tämä saa aikaan kehys-viiveen, joka on yhtä kuin puskurin pituus miinus yksi kehys .
Viitataan nyt kuvioon 3, jossa on esitetty vuokaavio 300 kiihtyvyyspohjaisesta ääniaktiviteetin hyväksyntäprosessista kohinallisia ympäristöjä varten, esillä olevan keksinnön edullisen suoritusmuodon mukaisesti.
Puskurin jossa on N=1 kehystä osalta viimeisin tosi/epätosi-puhetulo tallennetaan paikkaan N datapuskurissa, kuten on esitetty vaiheessa 305. Päätöksentekologiikka soveltaa joukkoa vaiheita ja edullisesti kutakin seuraavista vaiheista:
Vaihe 1: VN = Mitta 1 TAI Mitta 2 TAI Mitta 3;
Tulo VN on määritelty arvoksi "tosi" (T), jos jokin kolmesta mittauksesta antaa arvon tosi puheen merkiksi.
Vaihe 2:
Figure FI124869BD00221
[6]
Algoritmi etsii pisimmän yhtenäisen sekvenssin arvoja "tosi" puskurista, kuten vaiheessa 310. Täten esimerkiksi sekvens- sin " T T E T T T E" osalta M olisi yhtä kuin "3".
Vaihe 3:
Jos M>=Sp JA. T<LS, T=LS, jossa SP on yhtä kuin ensimmäinen kynnysarvo vaiheessa 315. Jos pisin sekvenssin on tosi (T), puheen arvo on yhtä kuin tai suurempi kuin ensimmäinen kynnys vaiheessa 315, so. SP= 3 tai useampia peräkkäisiä arvoja "tosi", puskurin arvioidaan sisältävän "mahdollisen" puheen. Lyhytaikaislaskuri T, sanotaan vaikka Ls= 5 kehystä (Aika_l) aktivoidaan, vaiheessa 325, jos se ei ole jo voimassa (tai ylittynyt) vaiheessa 320 tehdystä määrityksestä. vaihe 4:
Jos M>=Sl JA F>Fs, T=Lm muutoin T=Ll, jossa SL on yhtä kuin toinen kynnysarvo vaiheessa 330. Jos on SL=4 tai useampia peräkkäisiä arvoja "tosi", puskurin arvioidaan taaskin sisältävä "todennäköisen" puheen. Keskipitkän välin ajastin T, sanotaan vaikka Lm=22 kehystä aktivoidaan vaiheessa 340, jos ajankohtainen kehys F on alustavan aluketurvajakson Fs ulkopuolella, kuten määritetään vaiheessa 335. Muussa tapauksessa varmistavaa pitkän ajan ajastinta T, sanotaan vaikkapa Ll=40 kehystä, käytetään vaiheessa 345. Tällaista järjestelyä käytetään, koska puheen aikainen esiintyminen ilmaisussa voi aiheuttaa sen, että VAD:n ko-hinaestimaatti on liian suuri.
Vaihe 5:
Jos M<Sp JA T>0, T-
Jos prosessi määrittää, että on vähemmän kuin SP=3 peräkkäistä arvoa "tosi", vaiheessa 350, ja ajastin on suurempi kuin nolla vaiheessa 355, tällöin ajastimen arvoa pienennetään vaiheessa 360.
Vaihe 6:
Jos T>0, lähtö TOSI, muutoin lähtö EPÄTOSI
Jos ajastin on suurempi kuin nolla vaiheessa 365, prosessi antaa lähtönä puhepäätöksen "tosi", kuten on esitetty vaiheessa 370. Vaihtoehtoisesti, jos ajastin ei ole suurempi kuin nolla vaiheessa 365, prosessi antaa lähtönä päätöksen "kohina", kuten on esitetty vaiheessa 375.
Vaihe 7:
Kehys++, siirrä puskuria vasemmalle ja paluu vaiheeseen 1.
Valmistelemiseksi seuraavaa kehystä varten vaiheessa 380 puskuria siirretään vasemmalle tilan saamiseksi seuraavalle tulolle, kuten on esitetty kuviossa 4. Lähtöä puhepäätös sovelletaan kehykseen, joka poistetaan puskurista. Sitten prosessi toistuu vaiheesta 305 puskuriin tulevan seuraavalle tosi/epätosi-tulon osalta.
Ajateltavissa on, että voidaan toteuttaa vaihtoehtoinen mekanismi puhe- tai kohinapäätöksen tekemiseksi edellä kuvatun energiakiihtyvyysprosessin perusteella. Päätöksentekomekanismi ei esimerkiksi välttämättä perustu yhteen tai useampaan ajastimeen, ja päätös voidaan tehdä puhtaasti sen mukaan, ylittyykö yksi tai useampi energiakiihtyvyyskynnysar-vo.
Viitataan nyt kuvioon 4, jossa on esitetty tarkemmin esimerkki puskurointitoiminnasta 400 esillä olevan keksinnön edullisen suoritusmuodon mukaisesti. Olettakaamme, että ensimmäinen kynnys on asetettu kolmen peräkkäisen "tosi"-arvoon. Olettakaamme, että ajanhetkenä "t" 410 vain ajankohtainen tulo (kehys #7) 425 ja edellinen tulo (kehys #6) 420 olivat "tosia". Sen mukaisesti, kun puskuria siirretään, ensimmäinen kehys (kehys #1) 415 merkataan epätodeksi.
Ajanhetkenä "t+1" 430 kolmas "tosi" tulo (kehys #8) 450 on otettu vastaan kahden aiemman "tosi" tulon 440, 445 jatkoksi. Siksi, kun puskuria siirretään, seuraava lähtökehys (kehys #2) 435 merkitään "todeksi".
On huomattava, että edellä olevassa päätöksentekoprosessissa ainoat rajoitukset ovat: (i) Aika_l < Aika_2 < Aika 3 ja (ii) Kynnysarvo 1 < Kynnysarvo 2.
Kun oletetaan, että vain nämä kolme tuloa (kehys #6, kehys #t ja kehys #8) ovat "tosia", täysi lähtösekvenssi on: ETTTTTTTT T T Τ Τ Τ Τ Τ Τ E E E E Ε 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 jossa kehykset #2-#5 ilmoittavat arvon „tosi" puskurin alu-ketoiminnon takia. Kehykset #6-#8 ilmoittavat arvon "tosi", koska näissä kohdissa oli alun perin puhetulolla arvo "tosi". Kehykset #9-#12 ilmoittavat arvon "tosi", puskurin lo-puketoiminnon takia. Kehykset #13-#18 ilmoittavat arvon "tosi" vasteena käytettyyn ajastimen kestoaikaan. Heti kun ilmaisun kaikki kehykset on otettu tulona, puskuri siirtää "epätosi" kirjauksia (kehykset #19-#LM) kunnes tyhjenee.
Keksinnössä on ajateltavissa, että puskurin pituutta ja kes-toaika-ajastimia voidaan säätää dynaamisesti sopimaan audio-viestintälaitteen tarpeisiin. Näin ollen edullinen suoritusmuoto, jossa käytetään puskuripituutena "N" on 8 ja kestoai-ka-ajastimen arvona viittä kehystä, on vain esimerkin vuoksi. On kuitenkin huomattava, että puskuripituus "N" on aina päätettävä niin, että N>=SL.
Vaikka keksinnön käytöllä VAD:ssä on omat oikeutuksensa, keksinnössä on ajateltavissa, että kuvion 2 menetelmävai-heissa hankittua energiakiihtyvyysmittaa voidaan käyttää muiden parametrien alustuksen hyväksynnässä. Esimerkiksi spektrisupistusmenettely edellyttää alkuestimaattia kohinalle puheen ensimmäisten kymmenen kehyksen (tyypillisesti 100 ms) perusteella. Siinäkin tapauksessa, että kohina on muuttumatonta, voi sattua lukuisia tapahtumia, jotka tekevät al-kuestimaatista epäkelvon. Esimerkkejä tällaisista tapahtumista ovat: (a) Signaalin nousu:
Erilaisista mahdollisista syistä johtuen tallennuksen aivan alku voi "nousta" täydelle voimakkuudelle arviointijakson aikana. Syinä tällaiseen täyteen nousuun voivat olla: puskurin täyttyminen digitaalisissa järjestelmissä, kapasitanssi tai nauhapään kosketus analogisissa järjestelmissä. Tällaisten tapahtumien vaikutus voi tehdä estimaatista epäkelvolli-sen. Energiakiihtyvyysmittaa voidaan täten käyttää tunnistamaan tällainen nousu ja estämään virhe. (b) Piikit alkuperäisessä signaalissa
Yleisesti "piikki" esiintyy, kun tilaajaradiolaitteen paina kun haluat puhua -nappi (PPT, press-to-talk) on täysin ulos ponnahtaneena, jolloin sähköinen kosketus edeltää hiukan kytkimen selkään iskeytyvää nappia. Energiakiihtyvyysmittaa, sellaisena kuin se on kuvattu edellä, voidaan käyttää lykkäämään kuvion 2 vaiheessa 225 esitetyn kaltaista estimoin-tiprosessia, kun tällainen tapahtuma esiintyy. (c) Puhetta alkusignaalissa:
Toinen yleinen tapahtuma erityisesti PTT-järjestelmissä on se, että käyttäjä aloittaa puhumisen heti, kun painanut PTT-nappia. Tällaisen toimintatavan kanssa sähköinen kosketus syntyy vasta sen jälkeen, kun puhe on aloitettu. Energia-kiihtyvyysmitta pystyy tunnistamaan tämän ja lykkäämään kuvion 2 vaiheessa 225 esitetyn kaltaista kohinaan perustuvaa alustusta tai ohjaamaan käytettäväksi oletusestimaatit.
Yhteenvetona voidaan sanoa, että on kuvattu viestintälaitetta, joka sisältää ääniaktiviteetin tunnistusmekanismin sisältävän audiokäsittely-yksikön. Ääniaktiviteetin tunnistus-mekanismi antaa ilmoituksen energiakiihtyvyydestä signaali-tulossa viestintälaitteeseen ja määrittää, onko mainittu tu-losignaali puhetta vai kohinaa, mainitun ilmoituksen perusteella .
Lisäksi on kuvattu menetelmää viestintälaitteeseen tulevan puhesignaalin tunnistamiseksi. Menetelmä sisältää vaiheina sen, että ilmoitetaan kiihtyvyys tulosignaalissa viestintälaitteeseen; ja määritetään, onko mainittu tulosignaali puhetta vai kohinaa mainitun ilmoitusvaiheen perusteella.
Lisäksi on kuvattu menetelmää sen päättämiseksi, onko viestintälaitteeseen tuleva signaali puhetta vai kohinaa. Menetelmä sisältää vaiheet, joissa päätetään, onko mainittu tulosignaali puhetta vai kohinaa, energiakiihtyvyyden perusteella, käyttäen esimerkiksi tulosignaalien joukon kehyskes-kiarvoa tai liukuvaa keskiarvoa. Täten on ymmärrettävä, että edellä kuvattu kohinallisiin ympäristöihin tarkoitettu energiakiihtyvyyteen perustuva ääniaktiviteetin tunnistin ja hyväksyjä antaa etuina ko-hinasiedon ja nopean vasteen. Koska edullinen suoritusmuoto käyttää energiakiihtyvyydestä riippuvaa mittaa absoluuttisen mitan sijasta, tässä kuvattua keksinnöllistä konseptia voidaan soveltaa millä tahansa voimakkuustasolla tulevaan puheeseen .
Vaikka edellä on kuvattu erityisiä ja edullisena pidettyjä toteutuksia esillä olevan keksinnön suoritusmuodoista, on selvää, että alaan perehtynyt voisi käyttää tämän keksinnöllisen konseptin vaihtoehtoja ja muunnoksia, jotka jäisivät esillä olevan keksinnön piiriin.
On siis kuvattu kohinallisiin ympäristöihin tarkoitettua parannettua ääniaktiviteetin tunnistinta ja hyväksyjää, jossa on vähennetty olennaisesti edellä mainittuja ennestään tunnettuun tekniikkaan liittyviä haittoja.

Claims (21)

1. Viestintälaite (100), joka käsittää ääniaktiviteetin tun nistusmekanismin (130, 135) sisältävän audiokäsittely-yksikön (109), joka viestintälaite (100) on tunnettu siitä, että ääniaktiviteetin tunnistusmekanismi (130, 135) on sovi tettu mittaamaan viestintälaitteeseen (100) tulevan signaalin energiakiihtyvyyden seuraamalla sisäänmenojen nopean ja hitaasti asettuvan liukuvan keskiarvon suhdetta ja määrittämään kehys kehykseltä, onko mainittu tulosignaali puhetta vai kohinaa, mainitun mittauksen perusteella, jolloin jos energiakiihtyvyysmittaus antaa energiakiihtyvyysarvon, joka on suurempi kuin energiakiihtyvyyden kynnysarvo, niin tulokehystä pidetään puhekehyksenä (265).
2. Patenttivaatimuksen 1 mukainen viestintälaite (100), jossa ääniaktiviteetin tunnistusmekanismi sisältää ääniaktiviteetin tunnistustoiminnon (130), joka suorittaa puheen tunnistuksen kehys kehykseltä ääniaktiviteetin tunnistusmekanismiin (130, 135) tulevien signaalien osalta.
3. Patenttivaatimuksen 2 mukainen viestintälaite (100), jossa mainittu kehys kehykseltä -tunnistus koostuu siitä, että suoritetaan energiakiihtyvyysmittaus ääniaktiviteetin tunnistusmekanismiin (130, 135) tulevalle signaalille koskien yhtä tai useampaa seuraavista taajuusosa-alueista: (i) koko spektriä, (ii) spektrin osakaistoja ja (iii) spektrivarianssia.
4. Patenttivaatimuksen 3 mukainen viestintälaite (100), jossa ääniaktiviteetin tunnistusmekanismi sisältää ääniaktivi-teetin päätöksentekotoiminnon (135), joka on kytketty toiminnallisesti ääniaktiviteetin tunnistustoimintoon (130) ja järjestetty päättämään, onko mainittu tulosignaali puhetta, perustuen puskurissa olevan tulosignaalin tulokehysten pus-kurointitoimintaan ja yhteen tai useampaan mainittuun ener-giakiihtyvyysmittaukseen, jolloin ääniaktiviteetin päätök-sentekotoiminto (135) on lisäksi järjestetty nimeämään tosi-tai väärä-indikaatio kullekin puskurissa olevalle puskuroidulle tulokehykselle, jolloin tosi-indikointi nimetään kun yksikin yhdestä tai useammasta mainituista tulokehyksen energiakiihtyvyysmittauksista tuottaa puheindikaation ja jolloin ääniaktiviteetin päätöksentekotoiminto (135) on lisäksi järjestetty määrittelemään, että mainittu puskurissa oleva sisääntulosignaali on puhetta kun kullekin puskurissa olevalle puskuroiduille sisääntulokehyksien sekvenssille nimetyt indikaatiot ovat tosia.
5. Patenttivaatimuksen 1 mukainen viestintälaite (100), jossa ääniaktiviteetin ilmaisumekanismi (135) on järjestetty mittaamaan energiakiihtyvyyttä käyttäen mainittujen tulosig-naalien joukon kehyskeskiarvoa tai liukuvaa keskiarvoa.
6. Minkä tahansa patenttivaatimuksen 1-4 mukainen viestintälaite (100), jossa energiakiihtyvyys arvioidaan seuraamalla kahden tulosignaalin liukuvan keskiarvon suhdetta käyttäen (0*keskiarvo + l*tulo) ja ((Kehys-1)^keskiarvo + l*tulo)/kehys, jossa Kehys vastaa kehyslaskurin arvoa.
7. Patenttivaatimuksen 5 mukainen viestintälaite (100), jossa energiakiihtyvyyden estimaatti käyttäen kehyskeskiarvoa on:
<img img-format="tif" img-content="drawing" file="FI124869BC00331.tif" id="icf0001" />
[1]
8. Patenttivaatimuksen 5 tai 6 mukainen viestintälaite (100), jossa energiakiihtyvyyden mittaus on yhden tai useamman määritellyn rajan sisällä, energiakiihtyvyyden estimaatti käyttäen liukuvaa keskiarvoa on:
<img img-format="tif" img-content="drawing" file="FI124869BC00332.tif" id="icf0002" />
[2]
9. Patenttivaatimuksen 4 mukainen viestintälaite (100), jossa puskurilla on N:n kehyksen puskuripituus ja peräkkäiset tulokehykset esitetään puskurille ja poistetaan puskurilta ja jolloin kun puskurissa oleva tulokehys määritetään puhe-kehykseksi, päätös siitä, että tulokehys on puhekehys (265) sovelletaan takautuvasti aikaisempaan kehykseen puskurissa.
10. Jonkin patenttivaatimuksen 3, 4 tai 9 viestintälaite (100), jossa jos valitaan tulosignaalin spektrin osa-alue, valinta perustuu siihen osa-alueeseen, joka sisältää äänisignaalin perussävelkorkeuden.
11. Vaatimuksen 1 mukainen viestintälaite (100), jossa ää-niaktiviteetin ilmaisumekanismi on järjestetty mittaamaan energiakiihtyvyyttä signaalisisääntulosta, joka otetaan suo-datinvahvistuksen mel-suodatetusta spektriesityksestä, joka mudostetaan kaksois-Wiener-suodattimen ensimmäisessä asteessa .
12. Menetelmä viestintälaitteeseen tulevan puhesignaalin tunnistamiseksi, joka menetelmä on tunnettu vaiheista, joissa seurataan sisäänmenojen nopean ja hitaasti asettuvan liukuvan keskiarvon suhdetta; ja määritetään (315, 330, 350) kehys kehykseltä, onko mainittu tulosignaali puhetta (370) vai kohinaa (375), mainitun mittausvaiheen perusteella, jolloin jos energiakiihtyvyysmitta-us antaa energiakiihtyvyysarvon, joka on suurempi kuin ener-giakiihtyvyyden kynnysarvo, niin tulokehystä pidetään puhe-kehyksenä (265) .
13. Menetelmä puhesignaalin tunnistamiseksi patenttivaatimuksen 12 mukaisesti, tunnettu edelleen vaiheesta, jossa suoritetaan äänen tunnistus kehys kehykseltä viestintälaitteen tulosignaalien osalta.
14. Menetelmä puhesignaalin tunnistamiseksi patenttivaatimuksen 13 mukaisesti, jossa menetelmässä kehys kehykseltä -tunnistus sisältää vaiheen, jossa: suoritetaan energiankiihtyvyysmittaus mainitulle tulosignaa-lille koskien yhtä tai useampaa seuraavista taajuusosa-alueista: (i) koko spektriä, (ii) spektrin osakaistoja ja (iii) spektrivarianssia.
15. Jonkin vaatimuksen 12-14 mukainen menetelmä puhesignaalin tunnistamiseksi, jossa vaihe energiakiihtyvyyden mittaamiseksi käyttää tulosignaalien joukon kehyskeskiarvoa tai liukuvaa keskiarvoa.
16. Patenttivaatimuksen 12, 13 tai 14 mukainen menetelmä puhesignaalin tunnistamiseksi, jossa energiakiihtyvyys arvioidaan seuraamalla kahden tulosignaalin liukuvan keskiarvon suhdetta käyttäen (O*keskiarvo + l*tulo) ja ((Kehys-l)*keskiarvo + l*tulo)/kehys, jossa Kehys vastaa kehyslasku-rin arvoa.
17. Patenttivaatimuksen 15 mukainen menetelmä puhesignaalin tunnistamiseksi, jossa vaihe energiakiihtyvyyden mittaamiseksi sisältää energiakiihtyvyyden estimoinnin käyttäen kehyskeskiarvoa laskemalla:
<img img-format="tif" img-content="drawing" file="FI124869BC00351.tif" id="icf0003" />
[1]
18. Patenttivaatimuksen 15 tai 16 mukainen menetelmä puhesignaalin ilmaisemiseksi, jossa vaihe energiakiihtyvyyden mittaamiseksi sisältää energiakiihtyvyyden estimoinnin käyttäen liukuvaa keskiarvoa, milloin energiakiihtyvyyden mittaus on yhden tai useamman määritellyn rajan sisällä,
<img img-format="tif" img-content="drawing" file="FI124869BC00352.tif" id="icf0004" />
[2]
19. Patenttivaatimuksen 12 mukainen menetelmä puhesignaalin tunnistamiseksi, joka lisäksi käsittää, että: sovelletaan mainittua määritystä, että tulokehys on puheke-hys takautuvasti aikaisempaan kehykseen tulosignaalien puskurissa.
20. Patenttivaatimuksen 12 mukainen menetelmä puhesignaalin tunnistamiseksi, jossa määrittelyvaihe lisäksi käsittää, että : puskuroidaan tulosignaalin tulokehyksiä puskurissa; nimetään tosi- tai väärä- indikaattori kuhunkin puskuroituun tulokehykseen puskurissa; nimetään tosi-indikaatio kun energiakiihtyvyysmitta-us tulokehykselle antaa puheindikaation; ja määritetään, että mainittu tulosignaali puskurissa on puhetta kun puskuriin puskuroidun tulokehyksien kunkin sekvenssin nimetyt indikaatiot ovat tosia.
21. Vaatimuksen 12 mukainen menetelmä puhesignaalin tunnistamiseksi, jossa energiakiihtyvyyden mittaus signaalisisään-tulosta käsittää energiakiihtyvyyden mittaamisen signaa-lisisääntulosta, joka otetaan suodatinvahvistuksen mel-suodatetusta spektriesityksestä, joka mudostetaan kaksois-Wiener-suodattimen ensimmäisessä asteessa.
FI20041013A 2002-01-24 2004-07-22 Ääniaktiviteetin tunnistin ja hyväksyjä kohinallisia ympäristöjä varten FI124869B (fi)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
GB0201585A GB2384670B (en) 2002-01-24 2002-01-24 Voice activity detector and validator for noisy environments
GB0201585 2002-01-24
PCT/EP2003/000271 WO2003063138A1 (en) 2002-01-24 2003-01-10 Voice activity detector and validator for noisy environments
EP0300271 2003-01-10

Publications (2)

Publication Number Publication Date
FI20041013A FI20041013A (fi) 2004-09-22
FI124869B true FI124869B (fi) 2015-02-27

Family

ID=9929648

Family Applications (1)

Application Number Title Priority Date Filing Date
FI20041013A FI124869B (fi) 2002-01-24 2004-07-22 Ääniaktiviteetin tunnistin ja hyväksyjä kohinallisia ympäristöjä varten

Country Status (6)

Country Link
JP (2) JP2005516247A (fi)
KR (2) KR20040075959A (fi)
CN (1) CN1307613C (fi)
FI (1) FI124869B (fi)
GB (1) GB2384670B (fi)
WO (1) WO2003063138A1 (fi)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100657912B1 (ko) * 2004-11-18 2006-12-14 삼성전자주식회사 잡음 제거 방법 및 장치
JP4758879B2 (ja) * 2006-12-14 2011-08-31 日本電信電話株式会社 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置、方法
GB2450886B (en) 2007-07-10 2009-12-16 Motorola Inc Voice activity detector and a method of operation
EP2359361B1 (en) 2008-10-30 2018-07-04 Telefonaktiebolaget LM Ericsson (publ) Telephony content signal discrimination
CN102044241B (zh) 2009-10-15 2012-04-04 华为技术有限公司 一种实现通信系统中背景噪声的跟踪的方法和装置
EP2561508A1 (en) * 2010-04-22 2013-02-27 Qualcomm Incorporated Voice activity detection
US8898058B2 (en) 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
KR101196518B1 (ko) 2011-04-05 2012-11-01 한국과학기술연구원 실시간 음성 활동 검출 장치 및 검출 방법
RU2544293C1 (ru) * 2013-10-11 2015-03-20 Сергей Александрович Косарев Способ измерения физической величины с помощью мобильного электронного устройства и внешнего блока
US9953661B2 (en) * 2014-09-26 2018-04-24 Cirrus Logic Inc. Neural network voice activity detection employing running range normalization
CN104575498B (zh) * 2015-01-30 2018-08-17 深圳市云之讯网络技术有限公司 有效语音识别方法及系统
JP2016167678A (ja) * 2015-03-09 2016-09-15 株式会社リコー 通信装置、通信システム、ログデータ蓄積方法、及びプログラム
CN109841223B (zh) * 2019-03-06 2020-11-24 深圳大学 一种音频信号处理方法、智能终端及存储介质
US11217262B2 (en) * 2019-11-18 2022-01-04 Google Llc Adaptive energy limiting for transient noise suppression
KR102453919B1 (ko) 2022-05-09 2022-10-12 (주)피플리 인공지능 기반 문화 콘텐츠 관련 가이드 음원의 검증 방법, 장치 및 시스템

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1209561B (it) * 1983-07-14 1989-08-30 Gte Laboratories Inc Rivelazione complementare della parola.
JP2559475B2 (ja) * 1988-09-22 1996-12-04 積水化学工業株式会社 音声検出方式
JPH03114100A (ja) * 1989-09-28 1991-05-15 Matsushita Electric Ind Co Ltd 音声区間検出装置
JP3024447B2 (ja) * 1993-07-13 2000-03-21 日本電気株式会社 音声圧縮装置
JP3109978B2 (ja) * 1995-04-28 2000-11-20 松下電器産業株式会社 音声区間検出装置
US5774849A (en) 1996-01-22 1998-06-30 Rockwell International Corporation Method and apparatus for generating frame voicing decisions of an incoming speech signal
JPH10171497A (ja) * 1996-12-12 1998-06-26 Oki Electric Ind Co Ltd 背景雑音除去装置
US5946649A (en) * 1997-04-16 1999-08-31 Technology Research Association Of Medical Welfare Apparatus Esophageal speech injection noise detection and rejection
JP3297346B2 (ja) * 1997-04-30 2002-07-02 沖電気工業株式会社 音声検出装置
JPH10327089A (ja) * 1997-05-23 1998-12-08 Matsushita Electric Ind Co Ltd 携帯電話装置
JPH113091A (ja) * 1997-06-13 1999-01-06 Matsushita Electric Ind Co Ltd 音声信号の立ち上がり検出装置
US6032116A (en) * 1997-06-27 2000-02-29 Advanced Micro Devices, Inc. Distance measure in a speech recognition system for speech recognition using frequency shifting factors to compensate for input signal frequency shifts
FR2768544B1 (fr) * 1997-09-18 1999-11-19 Matra Communication Procede de detection d'activite vocale
JP4221537B2 (ja) * 2000-06-02 2009-02-12 日本電気株式会社 音声検出方法及び装置とその記録媒体

Also Published As

Publication number Publication date
KR100976082B1 (ko) 2010-08-16
CN1307613C (zh) 2007-03-28
CN1623186A (zh) 2005-06-01
JP2005516247A (ja) 2005-06-02
GB0201585D0 (en) 2002-03-13
WO2003063138A1 (en) 2003-07-31
FI20041013A (fi) 2004-09-22
GB2384670B (en) 2004-02-18
GB2384670A (en) 2003-07-30
KR20090127182A (ko) 2009-12-09
JP2010061151A (ja) 2010-03-18
KR20040075959A (ko) 2004-08-30

Similar Documents

Publication Publication Date Title
FI124869B (fi) Ääniaktiviteetin tunnistin ja hyväksyjä kohinallisia ympäristöjä varten
JP3878482B2 (ja) 音声検出装置および音声検出方法
CN101010722B (zh) 用于检测语音信号中话音活动的设备和方法
US8977556B2 (en) Voice detector and a method for suppressing sub-bands in a voice detector
KR100883712B1 (ko) 음원 방향 추정 방법, 및 음원 방향 추정 장치
US8751221B2 (en) Communication apparatus for adjusting a voice signal
KR100636317B1 (ko) 분산 음성 인식 시스템 및 그 방법
US9368112B2 (en) Method and apparatus for detecting a voice activity in an input audio signal
WO1997022117A1 (en) Method and device for voice activity detection and a communication device
US8280726B2 (en) Gender detection in mobile phones
US20110254688A1 (en) User state recognition in a wireless communication system
KR101298434B1 (ko) 무선 통신 시스템의 스펙트럼 점유를 검출하는 스펙트럼검출 장치 및 스펙트럼 검출 방법
US8788265B2 (en) System and method for babble noise detection
US20080147389A1 (en) Method and Apparatus for Robust Speech Activity Detection
EP1040467A1 (en) Communication terminal
KR101336203B1 (ko) 전자기기에서 음성 검출 방법 및 장치
RU2427079C1 (ru) Способ оценки состояний мобильного устройства пользователя в системе беспроводной связи
JPH10177397A (ja) 音声検出方法
EP1269462B1 (en) Voice activity detection apparatus and method
EP1551006A1 (en) Apparatus and method for voice activity detection
KR20050088698A (ko) 휴대폰의 음성구간 검출방법
GB2538093A (en) Method and apparatus for detecting audio surveillance devices

Legal Events

Date Code Title Description
GB Transfer or assigment of application

Owner name: MOTOROLA MOBILITY, INC.

Free format text: MOTOROLA MOBILITY, INC.

PC Transfer of assignment of patent

Owner name: MOTOROLA MOBILITY LLC

FG Patent granted

Ref document number: 124869

Country of ref document: FI

Kind code of ref document: B

PC Transfer of assignment of patent

Owner name: GOOGLE TECHNOLOGY HOLDINGS LLC