FI92113B - Puheprosessori ja soluradiopääte - Google Patents
Puheprosessori ja soluradiopääte Download PDFInfo
- Publication number
- FI92113B FI92113B FI872450A FI872450A FI92113B FI 92113 B FI92113 B FI 92113B FI 872450 A FI872450 A FI 872450A FI 872450 A FI872450 A FI 872450A FI 92113 B FI92113 B FI 92113B
- Authority
- FI
- Finland
- Prior art keywords
- speech
- gain
- stored
- speech processor
- level
- Prior art date
Links
- 230000001413 cellular effect Effects 0.000 title claims description 7
- 230000003595 spectral effect Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 claims 1
- 125000004122 cyclic group Chemical group 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000003321 amplification Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000034 method Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/38—Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
- H04B1/40—Circuits
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02168—Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Control Of Amplification And Gain Control (AREA)
- Interface Circuits In Exchanges (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Mobile Radio Communication Systems (AREA)
- Noise Elimination (AREA)
- Telephonic Communication Services (AREA)
- Circuits Of Receivers In General (AREA)
- Facsimiles In General (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Machine Translation (AREA)
- Analogue/Digital Conversion (AREA)
- Display Devices Of Pinball Game Machines (AREA)
- Telephone Function (AREA)
- Multi-Process Working Machines And Systems (AREA)
- Sewing Machines And Sewing (AREA)
Description
92113
Puheprosessori ja soluradiopääte. - Talprocessor och cellular radioterminal.
Keksinnön kohteena ovat puheprosessorit, joilla on automaattinen vahvistuksen säätö, ja erityisesti puheentunnistimet, sekä puheprosessorin sisältävät soluradiopäätteet.
Automaattiset puheentunnistimet toimivat vertaamalla ominaisuuksia, jotka on poimittu kuuluvista puhesignaaleista. Niitä puheesta poimittuja ominaisuuksia, jotka on tarkoitus tunnistaa, verrataan talletettuihin ominaisuuksiin, jotka on poimittu tunnetusta lausumasta.
Tarkkaa tunnistusta varten on tärkeää, että samasta sanasta tai äänestä poimitut piirteet ovat eri kerroilla lausuttuna riittävän samanlaisia. Puheen laaja dynaaminen alue tekee tämän saavuttamisen vaikeaksi, erityisesti sellaisilla alueilla kuten hands-free-puhelinliikenne, jossa mikrofonissa vastaanotettu äänen taso voi vaihdella laajalla alueella. Äänitason vaihteluiden kompensoimiseksi käyttävät useimmat äänentunnistimet jonkunlaista automaattista vahvistuksen säätöä (AGC).
AGC-piiri ohjaa vahvistusta varmistaakseen, että keskiarvoinen signaalitaso, jota käytetään ominaisuuspoimijalla, on niin lähellä vakiota kuin mahdollista annetussa aikajaksossa. Siten hiljaisille lausumille annetaan suurempi vahvistus kuin kovaäänisille lausumille. Tämän kaltainen AGC toimii hyvin, kun sisääntulosignaalina on jatkuva puhe, koska tietyn ajanjakson jälkeen piirin vahvistus optimoi signaalitason antaen yhdenmukaisen omainsuuspoiminnan. Puheen puuttuessa kuitenkin AGC— piirin vahvistus nousee tasolle, jonka määrää taustakohina siten, että aloitettaessa puhe AGC-piirin vahvistus on asetettu liian suureksi. Lausuman aikana piirin vahvistusta pienennetään automaattisesti, jolloin vahvistuksen muutoksen nopeuden määrää AGC:n iskuvasteaika. Puheen alkuun kohdistetaan siten paljon 2 92113 suurempi vahvistus ja millä tahansa poimitulla ominaisuudella on paljon suurempi energiasisältö kuin samanlaisilla ominaisuuksilla, jotka poimitaan myöhemmin, kun vahvistus on pienentynyt.
Tämä vääristymäilmiö riippuu sisääntulosignaalin tasosta; mitä suurempi puhetaso on, sitä suurempi on vääristymä. Siten ensimmäiset poimitut ominaisuudet eivät vastaa samanlaisia talletettuja ominaisuuksia, ja tästä voi usein olla seurauksena huono tunnistussuoritus.
Keksinnön tarkoitus on muodostaa ratkaisu tähän ongelmaan.
Keksinnön mukaisesti on muodostettu puheprosessori, joka koostuu sisääntulosta, joka vastaanottaa puhesignaalit; signaalin käsittelyelimestä spektriparametrien poimimiseksi mainituista puhesignaaleista: analogia-digitaalimuuntimesta mainittujen poimittujen parametrien digitoimiseksi; automaattisesta vahvistuksen ohjauselimestä mainittuun muuntajaan syötetyn signaali-tason ohjaamiseksi; tunnettu siitä, että spektriparametrit talletetaan ainakin tilapäisesti, ja jokaista tällaista talletettua parametria kohti talletetaan myös vahvistuskerroin, joka ilmaisee vahvistuksen ohjauselimen syöttämän vahvistuksen; ja että näytteenottoajän lopussa tässä ajassa talletetut vahvis-tuskertoimet, jos ne ovat erilaisia, asetetaan yhtäsuureksi kuin tässä ajassa talletettu alhaisin vahvistuskerroin, jolloin vastaavasti talletettujen spektriparametrien suuruuksia säädetään samassa suhteessa.
Keksinnön mukaisessa puheprosessorissa, joka on rakennettu puheentunnistimeksi, on automaattinen vahvistuksen ohjaus muodostettu digitaalisesti kytketyllä vaimentimella, jonka vahvistuksen määrää puheentunnistuksen suorittava mikroprosessori. Mikroprosessori ohjaa vahvistusta varmistaakseen, että analo-giadigitaalimuuntimen dynaamista aluetta (mikä tapahtuu ominai- 3 92113 suuksien poiminnan ja mikroprosessorin tunnistinohjauksen välissä, vaikka käytetään analogisia AGC:tä) ei ylitetä (paitsi AGC:n sovituksen aikana). Periaatteellinen ero tunnettujen analogisten AGCrden ja keksinnön mukaisen järjestelmän välillä on, että jälkimmäisessä mikroprosessori ohjaa vahvistuksen asetusta ja se voi tämän vuoksi tallettaa kullekin poimitulle ominaisuudelle käytetyn vahvistuksen. Kun puhe on loppunut, mikroprosessori voi määrittää optimaalisen vahvistuksen asetuksen koko lauseelle. Kaikki talletetut ominaisuudet normalisoidaan sitten tälle optimaaliselle vahvistuksen asetukselle. Tällä tavalla poimitaan yhdenmukainen sarja ominaisuuksia riippumatta sisään-tulosignaalin vahvistuksesta. Keksinnön mukaisen soluradiopäät-teen suhteen viitataan vaatimukseen 8.
Keksinnön toteutuksia kuvataan ja selitetään lisää viitaten liitteenä olevaan piirrokseen, jossa kuva 1 on kaaviokuva keksinnön mukaisesta puheentunnistimesta.
Tässä patenttihakemuksessa keksintö kuvataan viitaten puheentunnistimeen, joka käyttää malli-yhteensovitusta, mutta kuten alan asiantuntijat ovat tietoisia, on keksintö sovellettavissa yhtä hyvin mihin tahansa konventionaalisen tyyppiseen puheentunnistimeen, jolloin näihin kuuluvat myös ne, jotka käyttävät stokastista mallitusta, Markov-ketjuja, dynaamista-aikakiertoa ja foneemitunnistusta.
Puheentunnistus perustuu energiaääriviivojen vertailuun lukuisilta (yleensä 8 tai 16) suodatinkanavilta. Puhuttaessa digitoidaan energiaspektri jokaiselta suodatinkanavalta analogia-digitaalimuuntimella, jotta muodostettaisiin malli, joka talletetaan muistiin.
Tunnistuksen alkuvaihe tunnetaan "harjoitteluna" ja se koostuu referenssimallien muodostamisesta puhumalla tunnistimeen ne sanat, jotka on tarkoitus tunnistaa. Kun referenssimallit on • · 4 921 ί 3 muodostettu tunnistettaville sanoille, voidaan yrittää puheen tunnistusta.
Kun tunnistimeen syötetään lause, se muodostaa testimallin, jota voidaan verrata referenssimalliin muistissa lähimmän yhtäläisyyden löytämiseksi.
Keksinnön mukaisen puheentunnistimen peruselementit on esitetty kuvassa 1. Mikrofonilla 1 vastaanotetut ja vahvistimella 2 vahvistetut äänisignaalit viedään suodatinryhmään 3a. Suodatinryh-mässä äänisignaalit suodatetaan lukuisiin (tässä tapauksessa 16) taajuuskaistaan ja signaalit tasasuunnataan tasasuuntaajalla 4. Suodatetut ja tasasuunnatut signaalit tasoitetaan ali-päästösuodattimilla 3b ja kerätään sitten sekventiaalisesti limittimellä 5, joka syöttää seurauksena olevan yksikanavasig-naalin DAGC-piiriin 8, joka puolestaan syöttää analogiadigitaa-limuunninta 6, josta digitoitu signaalivirta viedään ohjaavalle mikroprosessorille 7.
Limitin osoittaa kutakin suodatinkanavaa 20 mikrosekunttia, ennen seuraavan osoittamista. Jokaisen 10 millisekunnin aikavälin lopuksi jokaisen kanavan koottu energia tällä aikavälillä talletetaan. Mallit, jotka on muodostettu harjoituksessa tai tunnistuksessa, koostuvat enintään 100 aikavälinäytteestä jokaista suodatinkanavaa kohti.
Digitaalinen AGC toimii seuraavalla tavalla. Joka kerta, kun limitin osoittaa suodatinkanavaa, mikroprosessori hakee kanavan energiatason määrätäkseen, onko analogia-digitaalimuunnin ollut ylikuormitettu, eli vahvistus on liian suuri. Kun mikroprosessori määrittää, että vahvistus on liian suuri, se pienentää AGC:n vahvistusta askelella 1, mikä vastaa vahvistuksen pienentämistä tekijällä 1.5dB, ja tarkistaa uudelleen kanavan energiatason. Limitin ei siirry seuraavalle kanavalle, ennenkuin mikroprosessori on määrännyt, että vahvistusta on pienennetty • « • · 5 92113 riittävästi analogia-digitaalimuuntimen ylikuormituksen estämiseksi. Kun limitin siirtyy seuraavalle suodatinkanavalle, pidetään AGC-piirin vahvistus uudella matalalla tasolla, jollei tämä taso aiheuta analogia-digitaalimuuntimen ylikuormitusta uuden kanavan energiatasolla, missä tapauksessa vahvistusta pienennetään kuten edellä kuvattiin. Kun limitin on osoittanut viimeisen suodatinkanavan, normalisoi mikroprosessori kaikkien kanavien energiatasot asettamalla niiden vahvistuskertoimet (jotka on talletettu yhdessä energiatasotiedon kanssa mikroprosessorissa olevaan muistiin) uuteen minimiin, jonka mikroprosessori on muodostanut. Tällä tavalla poimitaan yhteneväiset joukot ominaisuuksia riippumatta alussa olevasta sisääntulosig-naalin vahvistuksesta ja mistä tahansa muutoksista vahvistuksessa mallin muodostamisen aikana.
Puheentunnistimelta vaaditaan myös, että se havaitsee puheen tai sanan alun ja lopun suurella tarkkuudella. Keksinnön mukainen puheentunnistin käyttää seuraavaa tekniikkaa: A. Taustakohinan energiataso mitataan ja talletetaan 32 aikaväliin (10 millisekuntia näytettä kohti), kun samanaikaisesti säädetään (vähennetään) AGC-piirin vahvistuksia, kuten yllä on kuvattu, jotta pystyttäisiin käsittelemään maksimaalista kohi-naenergiaa.
B. Maksimaalinen energianäyte löydetään summaamalla kaikki suo-datinarvot kutakin aikaväliä kohti, jakamalla 16:ta (suodatin-kanavien lukumäärä) ja kertomalla vahvistustekijällä, joka vastaa DAGC-piirin vahvistusta, ja vertaamalla sitten jokaista aikaväliä maksimin löytämiseksi.
C. Kynnys, joka tarvitsee ylittää, ennenkuin puhetta pidetään alkaneena, asetetaan yhtäsuureksi kuin 1.5-kertaa maksimaalinen kohinaenergia, joka määrättiin kohdassa B.
D. Keskiarvoinen kohinaenergia kutakin suodatinkanavaa kohti löydetään ja talletetaan (kullekin kanavalle se on kaikkien 32 aikavälin energioiden summa jaettuna 32:11a) kohinamallin muodostamiseksi .
• · 92113 6 E. Tämän jälkeen suodatinryhmää skannataan joka 10 millisekunt-ti ja tieto talletetaan väliaikaiseen sykliseen muistiin, jossa on 100 aikanäytettä, kunnes keskiarvoinen suodatinenergia ylittää kohina/puhekynnyksen, joka laskettiin kohdassa C.
F. Jos kohina/puhekynnystä ei ylitetä 32 näytteen jälkeen, suoritetaan tarkistus, jotta varmistettaisiin, ettei DAGC-piirin vahvistusta ole asetettu liian matalaksi. Tämä tehdään katsomalla maksimaalista suodatinkanava-arvoa, joka on talletettu mainittuihin 32 aikaväliin. Jos tämä maksimitaso on 1.5dB tai enemmän maksimaalisen hyväksyttävän sisääntulotason alapuolella analogia-digitaalimuuntimelle, lisätään AGC:n vahvistusta arvolla 1, jotta lisättäisiin vahvistusta 1.5dB. Jos kynnystä ei saavuteta 32 näytteen jälkeen ja DAGCrn asetus on oikein, niin kohina/puhekynnys lasketaan uudelleen etsimällä maksimi-energia 32 näytteen yli (kuten kohdassa B), ja kertomalla tämä arvolla 1.5 (kuten kohdassa C).
G. Kun kohina/puhekynnys on ylitetty, skannataan suodatinryhmää joka 10 millisekuntti, ja suodatintieto talletetaan muistiin muodostamaan puhemalleja, kunnes joko 100 näytettä on saatu tai kunnes energiataso putoaa kohina/puhekynnyksen alapuolelle 20 peräkkäiseksi näytteeksi. Kuten edellä on kuvattu, jos tiedon sisääntulon aikaan analogia-digitaalimuunnin on ylikuormitettu, pienennetään AGC:n asetusta tekijällä 1, ja sitä suodatinkana-vaa koskeva tieto käsitellään uudelleen. Jos 16 suodatinkanavan skannauksen aikana DAGC-piirin vahvistusta pienennetään, syötetään tieto kaikilta 16 kanavalta uudelleen sisään siten, että kaikki suodatintieto vastaa samaa AGC-asetusta. Käytetty AGC-arvo talletetaan muistiin yhdessä suodatintiedon kanssa. Jokaisen aikavälin alussa käytetty AGC-asetus otetaan edellisestä aikakehyksestä, joten vahvistusta voidaan pienentää (ei suurentaa) ainoastaan puheen käsittelyn aikana. Tämä ei ole ongelma, koska mallijakson lopussa kaikki mallitieto normalisoidaan yhtenäiseen AGC-asetukseen.
H. Sen varmistamiseksi, että puheen alku ei jää huomaamatta puhe/kohinailmaisimen kynnyksen takia, siirretään puheen • · i • ·' 7 92113 havaitsemista edeltävät 15 aikanäytettä väliaikaisesta syklisestä muistista "puhe"-mallin eteen.
I. Jos yli 100 näytettä käsiteltiin, ennenkuin puhe havaittiin, lasketaan kohinamalli uudelleen analysoimalla (kuten kohdassa D) 32 vanhinta aikakehystä väliaikaisessa syklisessä muistissa. Jos käsiteltiin vähemmän kuin 100 näytettä, ennenkuin puhe havaittiin, käytetään kohdassa D muodostettua kohinamallia seuraavilla askelmilla.
J. AGC:n minimivahvistusasetus puhemallille löydetään sitten ja sekä puhe- että kohinamallit normalisoidaan tälle asetukselle, mistä on seurauksena, että molemmat mallit sisältävät arvot, jotka olisi saatu, jos tätä vahvistusta olisi käytetty alusta lähtien.
K. Normalisoitu kohinamalli vähennetään sitten normalisoidun puhemallin jokaisesta aikakehyksestä.
L. Maksimaalinen energia normalisoidussa puhemallissa löydetään nyt, ja lasketaan uusi kohina/puhekynnys - yhtäsuuri kuin maksimienergia miinus 18dB. Tätä uutta kynnystä käytetään skannaamaan normalisoitua puhemallia, jotta määritettäisiin puheen alku- ja loppukohdat.
M. Puhemalli katkaistaan sitten alku- ja loppupisteistään ja se joko talletetaan muistiin (harjoittelu) tai sitä käytetään tunnistukseen. Seuraava taulukkoesimerkki edustaa talletettuja arvoja sen jälkeen, kun taustakohinaa on mitattu 320 millise-kunttia (32 aikaväliä, kukin 10 millisekuntia).
92113 8
Suodatinryhmä todell. keskim.
DAGC 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 energia 4 210 220 232 245 224 216 167 188 176 234 250 177 134 170 213 209 408 4 210 218 230 250 220 222 170 190 173 230 255 170 137 172 215 212 409 4 210 222 234 247 216 225 171 189 178 233 253 171 140 170 214 208 410 4 213 220 231 251 218 223 166 184 174 230 250 168 133 165 220 216 408 4 215 217 228 253 220 220 160 186 180 231 254 166 132 164 223 220 409 4 210 220 232 245 224 216 172 187 177 235 253 160 130 172 214 207 407 4 210 220 232 245 224 216 167 188 176 234 250 177 134 170 213 209 408 A 4 211 218 230 250 220 222 170 190 173 230 255 170 137 172 215 212 409 I 4 210 222 234 247 216 225 171 189 178 233 253 171 140 170 214 208 410 K 4 213 220 231 251 218 223 166 184 174 230 250 168 133 165 220 216 408 4 215 217 228 253 220 220 160 186 180 231 254 166 132 164 223 220 409 A 4 210 220 232 245 224 216 172 187 177 235 253 160 130 172 214 207 407 v 4 210 220 232 245 224 216 167 188 176 234 250 177 134 170 213 209 408 Ä 4 211 218 230 250 220 222 170 190 173 230 255 170 137 172 215 212 409 L 4 210 222 234 247 216 225 171 189 178 233 253 171 140 170 214 208 410 j 4 213 220 231 251 218 223 166 184 174 230 250 168 133 165 220 216 408 _ 4 215 217 228 253 220 220 160 186 180 231 254 166 132 164 223 220 409 1 4 210 220 232 245 224 216 172 187 177 235 253 160 130 172 214 207 407 4 210 220 232 245 224 216 167 188 176 234 250 177 134 170 213 209 408 4 211 218 230 250 220 222 170 190 173 230 255 170 137 172 215 212 409 4 210 222 234 247 216 225 171 189 178 233 253 171 140 170 214 208 410 4 213 220 231 251 218 223 166 184 174 230 250 168 133 165 220 216 408 4 215 217 228 253 220 220 160 186 180 231 254 166 132 164 223 220 409 4 210 220 232 245 224 216 172 187 177 235 253 160 130 172 214 207 407 4 210 222 234 247 216 225 171 189 178 233 253 171 140 170 214 208 410 4 213 220 231 251 218 223 166 184 174 230 250 168 133 165 220 216 408 ψ 4 215 217 228 253 220 220 160 186 180 231 254 166 132 164 223 220 409 4 210 220 232 245 224 216 172 187 177 235 253 160 130 172 214 207 407 4 210 220 232 245 224 216 167 188 176 234 250 177 134 170 213 209 408 4 211 218 230 250 220 222 170 190 173 230 255 170 137 172 215 212 409 4 213 220 231 251 218 223 166 184 174 230 250 168 133 165 220 216 408 4 215 217 228 253 220 220 160 186 180 231 254 166 132 164 223 220 409
Keskimääräinen kohinamalli: 212 219 231 248 220 220 167 187 176 232 252 169 134 169 217 212 > · >•1 9 92113 DAGCrn arvo 4 vastaa analogia-digitaalimuuntimeen menevän signaalin vaimennusta 6dB, siten "todellisen" energian laskemiseksi täytyy kaikki ylläolevat suodatinryhmän arvot kaksinkertaistaa. Maksimaalinen todellinen energia (keskiarvona kaikkien suodattimien yli) oli 410. Mallin tallettamisen aloittami-seen/lopettamiseen tarvittava kynnys on 615.
Koska keksinnön ensimmäinen sovellutus on äänen tunnistus, on se kuvattu viitaten tähän sovellutukseen. Kuten alan asiantuntijat kuitenkin ovat tietoisia, ei keksinnön ainoa sovellutus ole äänentunnistus, vaan sitä voidaan soveltaa käytännöllisesti katsoen mihin tahansa tilanteeseen, jossa äänisignaaleja käsitellään näytteiden poimintaa varten.
Keksinnön mukainen puheprosessori on erityisen sopiva käytettäväksi sovellutuksissa, joissa taustakohina ja tämän taustakohinan tason muutokset ovat ongelmana tunnetuille puheprosesso-reille. Eräs tällainen sovellutus on hands-free-puhelinliiken-teessä, ja erityisesti kun käytössä on soluradiopäätteitä. Tällaisia päätteitä käytetään useasti autoissa, jossa on edullista käyttää puheentunnistusta hands-free-kutsunkytkennän ja numeronvalinnan muodostamiseksi. Ongelmaksi nousee kuitenkin, että tuuli-, tie- ja moottorimelut aaltoilevat suuressa määrin ja tekevät puheen tarkan tunnistuksen vaikeaksi. On selvää, että jos puheentunnistuksen hands-free-puhelinliiken-teessä täytyy olla täysin hyväksyttävää tässä sovellutuksessa, on tarpeen, että tunnistin hyväksyy ja toimii oikein vastineena puhutuille komennoille taustakohinan aikana ilman, että vaaditaan koko ajan komentojen toistoa.
Keksinnön muodostama parempi tunnistuksen tarkkuus on erityinen etu tässä sovellutuksessa.
Claims (8)
1. Puheprosessori, joka koostuu sisääntulosta, joka vastaanottaa puhesignaalit; signaalin käsittelyelimestä spektriparamet-rien poimimiseksi mainituista puhesignaaleista: analogia-digitaalimuuntimesta mainittujen poimittujen parametrien digitoimiseksi: automaattisesta vahvistuksen ohjauselimestä mainittuun muuntimeen syötetyn signaalitason säätämiseksi; tunnettu siitä, että spektriparametrit talletetaan ainakin tilapäisesti, ja jokaista tällaista talletettua parametria kohti talletetaan myös vahvistuskerroin, joka ilmaisee vahvistuksen ohjauselimen syöttämän vahvistuksen: ja että näytteenottoajän lopussa tässä ajassa talletetut vahvistusker-toimet, jos ne ovat erilaisia, asetetaan yhtäsuureksi kuin tässä ajassa talletettu alhaisin vahvistuskerroin, jolloin vastaavasti talletettujen spektriparametrien suuruuksia säädetään samassa suhteessa.
2. Patenttivaatimuksen 1 mukainen puheprosessori, jossa jokainen poimittu spektriparametri vastaa tietyn taajuuskaistan energiasisältöä t:n pituisessa aikavälissä, tunnettu siitä, että jokaista poimittua parametria kohti analogia-digitaalimuuntimeen syötetty signaalitaso määrätään pienessä ajan t osassa, ja jos signaalitaso on suurempi kuin edeltämäärätty taso, vahvistusta pienennetään ja signaalitaso arvioidaan uudelleen, jolloin signaalitason arviointi ja vahvistuksen pienennys toistetaan aikavälissä t, kunnes signaalitaso on lopullisella tasolla, joka ei ylitä mainittua edeltämäärättyä tasoa.
3. Patenttivaatimuksen 2 mukainen puheprosessori, tunnettu siitä, että mainittu edeltämäärätty taso on yhtäsuuri kuin maksimitaso, joka ei ylitä analogia-digitaalimuuntimen dynaamista aluetta. • « 9211 3
4. Patenttivaatimuksen 2 tai 3 mukainen puheprosessori, jossa t:n pituisessa yksittäisessä aikavälissä muodostetaan spektri-parametrit lukuisille diskreeteille taajuuskaistoille, tunnettu siitä, että eri taajuuskaistoja osoitetaan sekventiaalisesti, jolloin minkä tahansa taajuuskaistan lopullista vahvistuskerrointa käytetään seuraavan osoitetun taajuuskaistan aloitusvahvistuskertoimena.
5. Minkä tahansa patenttivaatimuksen 2-4 mukainen puheprosessori, tunnettu siitä, että näytteenottoaika muodostuu lukuisista t:n pituisista aikaväleistä.
6. Minkä tahansa edelläolevan patenttivaatimuksen mukainen puheprosessori, tunnettu siitä, että se on rakennettu puheentunnistimeksi.
7. Minkä tahansa edelläolevan patenttivaatimuksen mukainen puheprosessori, tunnettu siitä, että vahvistuksen ohjauselin pitää sisällään digitaalisesti kytketyn vaimentimen sellaisen mikroprosessorin ohjauksessa, jonka yksi sisääntuloista on kytketty analogia-digitaalimuuntimen digitoituun ulostuloon, jolloin vaimentimen vahvistus määrätään mikroprosessorilla . 1 • · Soluradiopääte, joka sisältää puheentunnistimen toimintojen valitsemiseksi vastineena puhutuille käskyille, tunnettu siitä, että puheentunnistin sisältää puheprosessorin, joka on minkä tahansa patenttivaatimusten 1 - 5 mukainen. 92113
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB8613327 | 1986-06-02 | ||
GB868613327A GB8613327D0 (en) | 1986-06-02 | 1986-06-02 | Speech processor |
Publications (4)
Publication Number | Publication Date |
---|---|
FI872450A0 FI872450A0 (fi) | 1987-06-02 |
FI872450A FI872450A (fi) | 1987-12-03 |
FI92113B true FI92113B (fi) | 1994-06-15 |
FI92113C FI92113C (fi) | 1994-09-26 |
Family
ID=10598774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FI872450A FI92113C (fi) | 1986-06-02 | 1987-06-02 | Puheprosessori ja soluradiopääte |
Country Status (13)
Country | Link |
---|---|
US (1) | US4912766A (fi) |
EP (2) | EP0750291B1 (fi) |
JP (3) | JP2561850B2 (fi) |
KR (1) | KR950011963B1 (fi) |
AT (2) | ATE109582T1 (fi) |
CA (1) | CA1310418C (fi) |
DE (2) | DE3750314T2 (fi) |
DK (1) | DK171426B1 (fi) |
ES (1) | ES2056819T3 (fi) |
FI (1) | FI92113C (fi) |
GB (1) | GB8613327D0 (fi) |
HK (1) | HK137096A (fi) |
WO (1) | WO1987007750A1 (fi) |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DK510275A (da) * | 1975-11-12 | 1977-05-13 | Struers K S | Elektrolytisk polerapparat |
JPH02189600A (ja) * | 1989-01-19 | 1990-07-25 | Sanyo Electric Co Ltd | 音声認識装置 |
US5333155A (en) * | 1991-04-25 | 1994-07-26 | Rohde & Schwarz Gmbh & Co. Kg | Method and system for transmitting digital audio signals from recording studios to the various master stations of a broadcasting network |
US6134521A (en) * | 1994-02-17 | 2000-10-17 | Motorola, Inc. | Method and apparatus for mitigating audio degradation in a communication system |
NZ316124A (en) * | 1995-08-24 | 2000-02-28 | British Telecomm | Pattern recognition for speech recognising noise signals signatures |
US5774841A (en) * | 1995-09-20 | 1998-06-30 | The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration | Real-time reconfigurable adaptive speech recognition command and control apparatus and method |
US6012027A (en) * | 1997-05-27 | 2000-01-04 | Ameritech Corporation | Criteria for usable repetitions of an utterance during speech reference enrollment |
US7630895B2 (en) * | 2000-01-21 | 2009-12-08 | At&T Intellectual Property I, L.P. | Speaker verification method |
US6353809B2 (en) * | 1997-06-06 | 2002-03-05 | Olympus Optical, Ltd. | Speech recognition with text generation from portions of voice data preselected by manual-input commands |
US6188986B1 (en) | 1998-01-02 | 2001-02-13 | Vos Systems, Inc. | Voice activated switch method and apparatus |
GB9822529D0 (en) * | 1998-10-16 | 1998-12-09 | Dragon Syst Uk Ltd | Speech processing |
DE19960161C2 (de) * | 1998-12-15 | 2002-03-28 | Daimler Chrysler Ag | Verfahren zur Detektion von sprachmodulierten Sendungen |
FI118359B (fi) * | 1999-01-18 | 2007-10-15 | Nokia Corp | Menetelmä puheentunnistuksessa ja puheentunnistuslaite ja langaton viestin |
US6519559B1 (en) * | 1999-07-29 | 2003-02-11 | Intel Corporation | Apparatus and method for the enhancement of signals |
US6910011B1 (en) | 1999-08-16 | 2005-06-21 | Haman Becker Automotive Systems - Wavemakers, Inc. | Noisy acoustic signal enhancement |
US7117149B1 (en) | 1999-08-30 | 2006-10-03 | Harman Becker Automotive Systems-Wavemakers, Inc. | Sound source classification |
US6594630B1 (en) * | 1999-11-19 | 2003-07-15 | Voice Signal Technologies, Inc. | Voice-activated control for electrical device |
US7155385B2 (en) | 2002-05-16 | 2006-12-26 | Comerica Bank, As Administrative Agent | Automatic gain control for adjusting gain during non-speech portions |
KR100841096B1 (ko) * | 2002-10-14 | 2008-06-25 | 리얼네트웍스아시아퍼시픽 주식회사 | 음성 코덱에 대한 디지털 오디오 신호의 전처리 방법 |
US8271279B2 (en) | 2003-02-21 | 2012-09-18 | Qnx Software Systems Limited | Signature noise removal |
US8073689B2 (en) | 2003-02-21 | 2011-12-06 | Qnx Software Systems Co. | Repetitive transient noise removal |
US7895036B2 (en) | 2003-02-21 | 2011-02-22 | Qnx Software Systems Co. | System for suppressing wind noise |
US7949522B2 (en) | 2003-02-21 | 2011-05-24 | Qnx Software Systems Co. | System for suppressing rain noise |
US7885420B2 (en) | 2003-02-21 | 2011-02-08 | Qnx Software Systems Co. | Wind noise suppression system |
US8326621B2 (en) | 2003-02-21 | 2012-12-04 | Qnx Software Systems Limited | Repetitive transient noise removal |
US7725315B2 (en) | 2003-02-21 | 2010-05-25 | Qnx Software Systems (Wavemakers), Inc. | Minimization of transient noises in a voice signal |
AU2003901539A0 (en) * | 2003-03-28 | 2003-05-01 | Cochlear Limited | Noise floor estimator |
US7716046B2 (en) | 2004-10-26 | 2010-05-11 | Qnx Software Systems (Wavemakers), Inc. | Advanced periodic signal enhancement |
US7680652B2 (en) | 2004-10-26 | 2010-03-16 | Qnx Software Systems (Wavemakers), Inc. | Periodic signal enhancement system |
US8170879B2 (en) | 2004-10-26 | 2012-05-01 | Qnx Software Systems Limited | Periodic signal enhancement system |
US7949520B2 (en) | 2004-10-26 | 2011-05-24 | QNX Software Sytems Co. | Adaptive filter pitch extraction |
US8306821B2 (en) | 2004-10-26 | 2012-11-06 | Qnx Software Systems Limited | Sub-band periodic signal enhancement system |
US8543390B2 (en) | 2004-10-26 | 2013-09-24 | Qnx Software Systems Limited | Multi-channel periodic signal enhancement system |
US8284947B2 (en) | 2004-12-01 | 2012-10-09 | Qnx Software Systems Limited | Reverberation estimation and suppression system |
US20060146652A1 (en) * | 2005-01-03 | 2006-07-06 | Sdi Technologies, Inc. | Sunset timer |
US8027833B2 (en) | 2005-05-09 | 2011-09-27 | Qnx Software Systems Co. | System for suppressing passing tire hiss |
US8170875B2 (en) | 2005-06-15 | 2012-05-01 | Qnx Software Systems Limited | Speech end-pointer |
US8311819B2 (en) | 2005-06-15 | 2012-11-13 | Qnx Software Systems Limited | System for detecting speech with background voice estimates and noise estimates |
US7117075B1 (en) * | 2005-08-15 | 2006-10-03 | Report On Board Llc | Driver activity and vehicle operation logging and reporting |
US7995713B2 (en) * | 2006-04-03 | 2011-08-09 | Agere Systems Inc. | Voice-identification-based signal processing for multiple-talker applications |
US7844453B2 (en) | 2006-05-12 | 2010-11-30 | Qnx Software Systems Co. | Robust noise estimation |
US8326620B2 (en) | 2008-04-30 | 2012-12-04 | Qnx Software Systems Limited | Robust downlink speech and noise detector |
US8335685B2 (en) | 2006-12-22 | 2012-12-18 | Qnx Software Systems Limited | Ambient noise compensation system robust to high excitation noise |
US8850154B2 (en) | 2007-09-11 | 2014-09-30 | 2236008 Ontario Inc. | Processing system having memory partitioning |
US8904400B2 (en) | 2007-09-11 | 2014-12-02 | 2236008 Ontario Inc. | Processing system having a partitioning component for resource partitioning |
US8694310B2 (en) | 2007-09-17 | 2014-04-08 | Qnx Software Systems Limited | Remote control server protocol system |
US8209514B2 (en) | 2008-02-04 | 2012-06-26 | Qnx Software Systems Limited | Media processing system having resource partitioning |
DE102010041435A1 (de) * | 2010-09-27 | 2012-03-29 | Siemens Medical Instruments Pte. Ltd. | Verfahren zum Rekonstruieren eines Sprachsignals und Hörvorrichtung |
WO2013061252A2 (en) | 2011-10-24 | 2013-05-02 | Cochlear Limited | Post-filter common-gain determination |
JP6127422B2 (ja) | 2012-09-25 | 2017-05-17 | セイコーエプソン株式会社 | 音声認識装置及び方法、並びに、半導体集積回路装置 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3411153A (en) * | 1964-10-12 | 1968-11-12 | Philco Ford Corp | Plural-signal analog-to-digital conversion system |
US4000369A (en) * | 1974-12-05 | 1976-12-28 | Rockwell International Corporation | Analog signal channel equalization with signal-in-noise embodiment |
US4032710A (en) * | 1975-03-10 | 1977-06-28 | Threshold Technology, Inc. | Word boundary detector for speech recognition equipment |
CA1056504A (en) * | 1975-04-02 | 1979-06-12 | Visvaldis A. Vitols | Keyword detection in continuous speech using continuous asynchronous correlation |
US4052568A (en) * | 1976-04-23 | 1977-10-04 | Communications Satellite Corporation | Digital voice switch |
FR2451680A1 (fr) * | 1979-03-12 | 1980-10-10 | Soumagne Joel | Discriminateur parole/silence pour interpolation de la parole |
US4262355A (en) * | 1979-05-11 | 1981-04-14 | Rca Corporation | System for limiting intermodulation distortion of talkspurt signals |
US4292470A (en) * | 1979-09-10 | 1981-09-29 | Interstate Electronics Corp. | Audio signal recognition computer |
JPS56126896A (en) * | 1980-03-10 | 1981-10-05 | Nippon Electric Co | Voice recognizing system |
US4352957A (en) * | 1980-03-17 | 1982-10-05 | Storage Technology Corporation | Speech detector circuit with associated gain control for a tasi system |
JPS56159400U (fi) * | 1980-04-24 | 1981-11-27 | ||
JPS57177197A (en) * | 1981-04-24 | 1982-10-30 | Hitachi Ltd | Pick-up system for sound section |
JPS57178299A (en) * | 1981-04-27 | 1982-11-02 | Kyosan Electric Mfg | Recognition pattern preparation system |
US4410763A (en) * | 1981-06-09 | 1983-10-18 | Northern Telecom Limited | Speech detector |
US4489434A (en) * | 1981-10-05 | 1984-12-18 | Exxon Corporation | Speech recognition method and apparatus |
JPS5984300A (ja) * | 1982-11-08 | 1984-05-15 | 株式会社日立製作所 | 音声区間検出回路 |
JPS59111697A (ja) * | 1982-12-17 | 1984-06-27 | 株式会社日立製作所 | 音声認識方式 |
US4627091A (en) * | 1983-04-01 | 1986-12-02 | Rca Corporation | Low-energy-content voice detection apparatus |
JPS6063600A (ja) * | 1983-08-26 | 1985-04-11 | 日本電気株式会社 | 可変閾値型音声検出器 |
US4696040A (en) * | 1983-10-13 | 1987-09-22 | Texas Instruments Incorporated | Speech analysis/synthesis system with energy normalization and silence suppression |
JPS6085628A (ja) * | 1983-10-15 | 1985-05-15 | Fujitsu Ten Ltd | 通信装置 |
JPS60254100A (ja) * | 1984-05-30 | 1985-12-14 | 沖電気工業株式会社 | 音声認識方式 |
JPS6195398A (ja) * | 1984-10-17 | 1986-05-14 | 株式会社東芝 | 音声認識装置 |
JPS61113100A (ja) * | 1984-11-08 | 1986-05-30 | ヤマハ株式会社 | 音声パラメ−タ検出装置 |
US4821325A (en) * | 1984-11-08 | 1989-04-11 | American Telephone And Telegraph Company, At&T Bell Laboratories | Endpoint detector |
FR2576472B1 (fr) * | 1985-01-22 | 1988-02-12 | Alcatel Thomson Faisceaux | Procede et dispositif de commande automatique de gain d'un recepteur en acces multiple a repartition temporelle |
JPH0673079B2 (ja) * | 1985-03-29 | 1994-09-14 | 沖電気工業株式会社 | 音声区間検出回路 |
JPH06105394B2 (ja) * | 1986-03-19 | 1994-12-21 | 株式会社東芝 | 音声認識方式 |
-
1986
- 1986-06-02 GB GB868613327A patent/GB8613327D0/en active Pending
-
1987
- 1987-05-29 ES ES87304793T patent/ES2056819T3/es not_active Expired - Lifetime
- 1987-05-29 AT AT87304793T patent/ATE109582T1/de active
- 1987-05-29 DE DE3750314T patent/DE3750314T2/de not_active Expired - Fee Related
- 1987-05-29 EP EP93203407A patent/EP0750291B1/en not_active Expired - Lifetime
- 1987-05-29 DE DE3752288T patent/DE3752288T2/de not_active Expired - Fee Related
- 1987-05-29 KR KR1019880700114A patent/KR950011963B1/ko not_active IP Right Cessation
- 1987-05-29 WO PCT/GB1987/000376 patent/WO1987007750A1/en unknown
- 1987-05-29 EP EP87304793A patent/EP0248609B1/en not_active Expired - Lifetime
- 1987-05-29 AT AT93203407T patent/ATE183009T1/de not_active IP Right Cessation
- 1987-05-29 JP JP62503341A patent/JP2561850B2/ja not_active Expired - Lifetime
- 1987-06-01 US US07/055,966 patent/US4912766A/en not_active Expired - Lifetime
- 1987-06-01 CA CA000538514A patent/CA1310418C/en not_active Expired - Fee Related
- 1987-06-02 FI FI872450A patent/FI92113C/fi not_active IP Right Cessation
- 1987-06-02 DK DK282587A patent/DK171426B1/da not_active IP Right Cessation
-
1993
- 1993-01-11 JP JP5019720A patent/JP2654503B2/ja not_active Expired - Fee Related
-
1996
- 1996-07-25 HK HK137096A patent/HK137096A/xx not_active IP Right Cessation
-
1997
- 1997-01-30 JP JP9032774A patent/JPH09325790A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
CA1310418C (en) | 1992-11-17 |
DE3752288D1 (de) | 1999-09-09 |
ES2056819T3 (es) | 1994-10-16 |
HK137096A (en) | 1996-08-02 |
JPH0677894A (ja) | 1994-03-18 |
KR950011963B1 (ko) | 1995-10-12 |
JP2654503B2 (ja) | 1997-09-17 |
DE3752288T2 (de) | 2000-07-06 |
DK282587A (da) | 1987-12-03 |
EP0750291B1 (en) | 1999-08-04 |
ATE183009T1 (de) | 1999-08-15 |
ATE109582T1 (de) | 1994-08-15 |
US4912766A (en) | 1990-03-27 |
DE3750314T2 (de) | 1994-11-17 |
FI92113C (fi) | 1994-09-26 |
WO1987007750A1 (en) | 1987-12-17 |
DE3750314D1 (de) | 1994-09-08 |
DK282587D0 (da) | 1987-06-02 |
KR880701435A (ko) | 1988-07-27 |
EP0248609A1 (en) | 1987-12-09 |
DK171426B1 (da) | 1996-10-21 |
EP0248609B1 (en) | 1994-08-03 |
JPS63503487A (ja) | 1988-12-15 |
GB8613327D0 (en) | 1986-07-09 |
EP0750291A1 (en) | 1996-12-27 |
FI872450A (fi) | 1987-12-03 |
FI872450A0 (fi) | 1987-06-02 |
JP2561850B2 (ja) | 1996-12-11 |
JPH09325790A (ja) | 1997-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
FI92113B (fi) | Puheprosessori ja soluradiopääte | |
US4455676A (en) | Speech processing system including an amplitude level control circuit for digital processing | |
US4531228A (en) | Speech recognition system for an automotive vehicle | |
US4610023A (en) | Speech recognition system and method for variable noise environment | |
EP0077194A1 (en) | Speech recognition system | |
US4597098A (en) | Speech recognition system in a variable noise environment | |
US4833713A (en) | Voice recognition system | |
EP0093303A1 (en) | Speech recognition system for an automotive vehicle | |
US4516215A (en) | Recognition of speech or speech-like sounds | |
EP0411290A2 (en) | Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns | |
JPS6329754B2 (fi) | ||
US6768801B1 (en) | Hearing aid having improved speech intelligibility due to frequency-selective signal processing, and method for operating same | |
US20040236571A1 (en) | Subband method and apparatus for determining speech pauses adapting to background noise variation | |
JPH027099A (ja) | 過大音声検出装置 | |
JPS6334477B2 (fi) | ||
JPH0646359B2 (ja) | 単語音声認識装置 | |
WO1991011696A1 (en) | Method and apparatus for recognizing command words in noisy environments | |
JPH09297596A (ja) | 音声認識装置 | |
JPH04369697A (ja) | 音声認識装置 | |
JPS59185394A (ja) | 音声認識装置 | |
JPH06130983A (ja) | 音声認識機構の音声区間検出装置 | |
JPH0422999A (ja) | 信号処理回路及び音声認識装置 | |
JPH02189600A (ja) | 音声認識装置 | |
JPS6255798B2 (fi) | ||
JPH0731506B2 (ja) | 音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
BB | Publication of examined application | ||
MM | Patent lapsed |
Owner name: BRITISH TELECOMMUNICATIONS PUBLIC LIMITED COMPANY |