FI115328B - Äänen aktiivisuuden ilmaisu - Google Patents
Äänen aktiivisuuden ilmaisu Download PDFInfo
- Publication number
- FI115328B FI115328B FI20010933A FI20010933A FI115328B FI 115328 B FI115328 B FI 115328B FI 20010933 A FI20010933 A FI 20010933A FI 20010933 A FI20010933 A FI 20010933A FI 115328 B FI115328 B FI 115328B
- Authority
- FI
- Finland
- Prior art keywords
- signal
- input signal
- voice activity
- noise
- tai
- Prior art date
Links
- 230000000694 effects Effects 0.000 title claims abstract description 40
- 230000003595 spectral effect Effects 0.000 claims abstract description 26
- 238000001514 detection method Methods 0.000 claims abstract description 6
- 238000005259 measurement Methods 0.000 claims description 5
- 238000000034 method Methods 0.000 claims 2
- 230000000153 supplemental effect Effects 0.000 claims 1
- 238000001228 spectrum Methods 0.000 description 24
- 239000013598 vector Substances 0.000 description 12
- 230000004044 response Effects 0.000 description 11
- 230000003044 adaptive effect Effects 0.000 description 7
- 230000006978 adaptation Effects 0.000 description 6
- 238000001914 filtration Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 235000014121 butter Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000009089 cytolysis Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000011045 prefiltration Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Telephonic Communication Services (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Telephone Function (AREA)
- Noise Elimination (AREA)
- Mobile Radio Communication Systems (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Geophysics And Detection Of Objects (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
Description
115328 Äänen aktiivisuuden ilmaisu. - Uttryck för ljudet aktivitet.
Esillä oleva hakemus on jakamalla erotettu hakemuksesta Fl 904410.
5 Äänen aktiivisuuden ilmaisin on laite, jolle syötetään signaali puhejaksojen tai vain kohinaa sisältävien jaksojen ilmaisemista varten. Vaikka esillä oleva keksintö ei rajoitu tähän, tällaisten ilmaisinten eräänä erikoisen mielenkiintoisena sovelluskohteena ovat matkaradiopuhelinjärjestelmät, joissa puhekooderi voi käyttää tietoa puheen esiintymisestä tai puuttumisesta parantamaan radiospek-10 trin hyväksikäyttöä ja joissa myös kohinataso (kulkuvälineeseen asennetusta yksiköstä) on todennäköisesti suuri.
Äänen aktiivisuuden ilmaisun olennaisena sisältönä on löytää mitta, joka eroaa selvästi puhejaksoilla ja puheettomilla jaksoilla. Puhekooderin sisältävässä lait-15 teessä kooderin eri asteista voidaan saada helposti useita parametrejä ja tarvittavaa prosessointia on tämän vuoksi suotavaa vähentää käyttämällä jotakin tällaista parametria. Monissa ympäristöissä pääkohinalähteet esiintyvät taajuus-spektrin määrätyillä tunnetuilla alueilla. Esimerkiksi liikkuvassa autossa suuri osa kohinasta (esim. moottorin melu) keskittyy spektrin pientaajuisille alueille.
20 Kun tällaista tietoa kohinan spektriasemasta on käytettävissä, päätös puheen esiintymisestä tai puuttumisesta on edullista perustaa mittauksiin, jotka on suo-·.·, ritettu spektrin siinä osassa, joka sisältää suhteellisen vähän kohinaa. Käytän- :· .·. nössä olisi luonnollisesti mahdollista suodattaa signaali ennakolta ennen pu-
• I
heen aktiivisuuden ilmaisemiseksi suoritettua analyysia, mutta silloin kun äänen . 25 aktiivisuuden ilmaisin seuraa puhekooderin lähtöä, esisuodatus vääristäisi koo- dattavaa äänisignaalia.
Keksintö kohdistuu siten äänen aktiivisuuden ilmaisinlaitteeseen, joka käsittää: ‘ : 30 (i) ensimmäisen äänen aktiivisuuden ilmaisimen, joka toimii muodostamalla ', mitan tulosignaalin osan ja tulosignaalin sellaisen osan, jonka katsotaan ! / olevan vapaa puheesta, väliselle spektraaliselle samankaltaisuudelle läh- tösignaalin tuottamiseksi, joka osoittaa puheen esiintymisen tai puuttumisen tulosignaalissa; 115328 2 (ii) muistin tallentamaan dataan, joka on saatu mainitusta puheesta vapaasta osasta; ja (iii) äänen aktiivisuuden lisäilmaisimen; 5 jolle on tunnusomaista, että äänen aktiivisuuden lisäilmaisin ohjaa muistin päivitystä, jolloin äänen aktiivisuuden lisäilmaisin toimii muodostamalla mitan tulo-signaalin sen hetkisen osan ja tulosignaalin aiemman osan väliselle spektraa-liselle samankaltaisuudelle.
10 Mitta on edullisesti Itakura-Saito-vääristymämitta.
Esillä olevan keksinnön muut muodot ovat patenttivaatimuksissa määritellyn mukaisia.
15 Keksinnön erästä suoritusmuotoa selitetään seuraavassa esimerkkinä oheisiin piirustuksiin viitaten, joissa:
Kuviot 1 ja 2 esittävät keksinnön erään suoritusmuodon mahdollisia komponentteja, ja 20
Kuvio 3 esittää esillä olevan keksinnön erästä edullista suoritusmuotoa.
• t : *. ·. Keksinnön yhden suoritusmuodon mukaisen ensimmäisen äänen aktiivisuuden . ·: ·. ilmaisimen perustana oleva yleinen periaate on seuraava.
• · » 25 ....: Kehyksestä, jossa on n signaalinäytettä (s0, sv s2, s3, s4 ... sn-1), saadaan, kun se johdetaan neljännen kertaluvun äärellisen impulssivasteen (FIR) digitaalisen • %» laskentasuotimen kautta, jonka impulssivaste on (1, h0, h1p h2, h3), tuloksena t: suodatettu signaali (kun näytteet aikaisemmista kehyksistä jätetään huomiotta) 30 s’= (So), :· (s.| + h0s0), j’ (s2 + h0s.| + h-|S0), 3 115328 (s3 + h0s2 + h1s1 + h2s0) (s4 + h0s3 + h1s2 + h^ + h-|S0), (s5 + h0s4 + h1s3 + h2s2 + hgs^, (s 6 + h0s5 + h1s4 + h2s3 + h3s2), 5 (s7...)
Kertaluvun nolla autokorrelaatiokerroin on termien neliösumma, joka voidaan normalisoida ts. jakaa termien kokonaislukumäärällä (kehysten ollessa vakio-pituisia jakolasku on helpointa jättää pois). Suodatetun signaalin kerroin on 10 siten
R’o = ΣW
i=0 15 ja tämä muodostaa siten mitan laskennallisen suodatetun signaalin s’ - toisin sanoen laskentasuotimen päästökaistan sisälle osuvan signaalin s osan -teholle.
Kun lauseke ratkaistaan, saadaan jätettäessä 4 ensimmäistä termiä huomiotta 20 R o = (s4 + ^os3 + h-|S2 + h2s1 + h3s0) + (s5 + h0s4 + h1s3 + h2s2 + h3s / • * * + ...
• « : 25 = S4 + h0s4s3 + h.,s4s2 + h2s4s1 + h3s4s0 + hoS4s3 + hgSo + hoh-|S3s2 + h0h2s3s1 + h0h3s3s0
* * h^s4s2 + hQh.|S3s2 + h^Sj + h^h2s2s-| + h^h3s2SQ
1,,, * ^ h2s4s1 + h0h1s3s1 + h1h2s2s1 ^ h2S^ 4· h2h3s^SQ
+ h3s4s0 + h0h3s3s0 +h1h3s2s0 + h^s^o + h23s20 30 +...
!;> = R0 (1 + ho + h, + hj + hj) : + R-, (2h0 + 2h0h1 +2h1h2 + 2h2h3) + R2 (2h^ + 2h^h3 + 2hgh2) ,:. + R3 (2h2 + 2h0h3) 35 +R4(2h3) I i > 115328 4 R'o voidaan siten saada autokorrelaatiokertoimien Rj yhdistelmästä painotettuina suluissa olevilla vakioilla, jotka määräävät taajuuskaistan, jossa kertoimen R'0 arvo vaikuttaa. Suluissa olevat termit ovat itse asiassa laskentasuotimen impulssivasteen autokorrelaatiokertoimia, joten edellä esitetty lauseke voidaan 5 yksinkertaistaa muotoon
N
R'o * R0H0 + 2 Σ RA..................................(1) i=1 10 missä N on suotimen kertaluku ja Hj ovat suotimen impulssivasteen (normali-soimattomia) autokorrelaatikertoimia.
Toisin sanoen signaalin suodatuksen vaikutusta signaalin autokorrelaatiokertoi-15 miin voidaan simuloida muodostamalla (suodattamattoman) signaalin autokorrelaatiokertoimien painotettu summa käyttämällä impulssivastetta, joka vaaditulla suotimella olisi ollut.
Suhteellisen yksinkertainen algoritmi, jossa käytetään vain vähän kertolaskutoi-20 mituksia, voi siten simuloida digitaalisen suotimen vaikutusta, jossa tarvitaan tyypillisesti sata kertaa tämä lukumäärä kertolaskutoimituksia.
; >: Suodatustoimitusta voidaan vaihtoehtoisesti tarkastella sen muotoisena spektri- vertailuna, jossa signaalispektriä verrataan vertailuspektriin (laskentasuotimen v · 25 vasteen käänteisarvoon). Koska laskentasuodin valitaan tässä sovelluksessa :,, / siten, että se approksimoi kohinaspektrin käänteisarvoa, tämä toimitus voidaan : "· katsoa puhe- ja kohinaspektrien spektrivertailuksi ja siten kehitetty nollas auto- •, korrelaatiokerroin (ts. käänteissuodatetun signaalin energia) voidaan katsoa spektrien erilaisuuden mitaksi. Itakura-Saito-mittaa käytetään lineaariprediktio- * : 30 koodauksessa LPC prediktorisuotimen ja tulospektrin välisen yhteensopivuuden arvioimiseksi ja se voidaan ilmaista eräässä muodossa *
N
M = RoA0 + 2 Z RA, :· 35 i=i
• 1 I
5 115328 missä Aq jne. ovat LPC-parametrijoukon autokorrelaatiokertoimia. Havaitaan, että lauseke on hyvin samankaltainen kuin edellä johdettu riippuvuus ja kun muistetaan, että LPC-kertoimet ovat sellaisen FIR-suotimen tappeja, jolla on tulosignaalin käänteinen spektrivaste, niin että LPC-kerroinjoukko on kääntei-5 sen LPC-suotimen impulssivaste, on ilmeistä, että Itakura-Saito-vääristymä-mitta on itse asiassa vain yhtälön 1 sellainen muoto, jossa suotimen vaste H on tulosignaalin pelkkiä napoja sisältävän mallin spektrimuodon käänteisarvo.
Itse asiassa on myös mahdollista muuntaa spektrit käyttämällä testispektrin 10 LPC-kertoimia ja vertailuspektrin autokorrelaatiokertoimia erilaisen mitan saamiseksi spektrien samanlaisuudelle.
l-S-vääristymämittaa on käsitelty enemmän julkaisussa A Buzo, A H Gray, R M Gray ja J D Markel, "Speech Coding based upon Vector Quantisation", IEEE 15 Trans on ASSP, Voi ASSP-28, No 5, lokakuu 1980.
Koska signaalikehyksillä on vain äärellinen pituus ja tietty lukumäärä termejä (N, missä N on suotimen kertaluku) jätetään ottamatta huomioon, edellä esitetty tulos on vain likiarvo. Se antaa kuitenkin hämmästyttävän hyvän ilmaisun pu-20 heen esiintymisestä tai puuttumisesta ja sitä voidaan siten käyttää mittana M puheen ilmaisussa. Ympäristössä, jossa kohinaspektri on hyvin tunnettu ja v, muuttumaton, on täysin mahdollista käyttää yksinkertaisesti kiinteitä kertoimia h0, h., jne. käänteisen kohinasuotimen mallintamiseksi.
$ t • t t * t * * · * , ···, 25 Kuitenkin sellaista laitetta, joka voi adaptoitua erilaisiin kohinaympäristöihin, , ’'!; voidaan käyttää yleisemmin.
Kuvion 1 suoritusmuodossa mikrofonista (ei esitetty) tuleva signaali vastaanote- ,.; taan tulossa 1 ja muunnetaan digitaalisiksi näytteiksi s sopivalla näytteenotto- ( » 30 taajuudella analogia-digitaalimuuntimella 2. LPC-analyysiyksikkö 3 (sisältyy tun-*, netun tyyppiseen LPC-kooderiin) johtaa tällöin n (esim. 160) näytteen peräkkäi- i » ;;,: sille kehyksille joukon N (esim. 8 tai 12) LPC-suodinkertoimia Lj, jotka siirretään edustamaan tulevaa puhetta. Puhesignaali s syötetään myös korrelaattoriyksi-.! i * kölle 4 (sisältyy normaalisti osana LPCkooderiin 3, koska myös puheen auto- I i 6 115328 korrelaatiovektori Rj kehitetään LPC-analyysin yhtenä vaiheena, vaikka on selvää, että myös erillistä korrelaattoria voitaisiin käyttää). Korrelaattori 4 kehittää autokorrelaatiovektorin Rj, johon sisältyy nollakertaluvun korrelaatiokerroin R0 ja ainakin kaksi muuta autokorrelaatiokerrointa R1( R2, R3. Ne syötetään tämän 5 jälkeen kertojayksikölle 5.
Toinen tulo 11 on kytketty toiseen mikrofoniin, joka on kaukana puhujasta siten, että tämä mikrofoni vastaanottaa vain taustakohinaa. Tästä mikrofonista tuleva tulo muunnetaan AD-muuntimella 12 digitaaliseksi tulonäytejonoksi ja se LPC-10 analysoidaan toisella LPC-analysaattorilla 13. Analysaattorista 13 kehitetyt "kohina"-LPC-kertoimet johdetaan korrelaattoriyksikölle 14 ja siten kehitetty autokorrelaattorivektori kerrotaan termeittäin puhemikrofonista tulevan tulosig-naalin autokorrelaatiokertoimien Rj kanssa kertojassa 5 ja siten kehitetyt painotetut kertoimet yhdistetään summaimessa 6 yhtälön 1 mukaan, jotta saataisiin 15 suodinvaikutus, jolla on pelkkää kohinaa havaitsevan mikrofonin kohinaspektriin (joka on käytännössä sama kuin kohinaspektrin muoto signaalin ja kohinan vastaanottavassa mikrofonissa) nähden käänteinen muoto ja joka siten suodattaa pois suurimman osan kohinasta. Tuloksena olevaa mittaa M verrataan kynnysarvoon kynnysarvopiirissä 7 logiikkalähdön 8 kehittämiseksi, joka ilmaisee pu-20 heen esiintymisen tai puuttumisen. Jos M on suuri, puheen katsotaan esiinty-*.*. vän.
. · :*. Tämä suoritusesimerkki vaatii kuitenkin kaksi mikrofonia ja kaksi LPC-analy- .' “. saattona, mikä lisää tarvittavan laitteiston kustannuksia ja monimutkaisuutta.
25 . ·' ·. Toisessa suoritusmuodossa käytetään vaihtoehtoisesti vastaavaa mittaa, joka muodostettu käyttämällä kohinamikrofonista 11 saatuja autokorrelaatioita ja •:: päämikrofonista 1 saatuja LPC-kertoimia, joten ylimääräisen LPC-analysaatto- •"': rin sijasta tarvitaan ylimääräinen autokorrelaattori.
,30 Nämä suoritusmuodot voivat siten toimia erilaisissa ympäristöissä, joissa esiintyy kohinaa eri taajuuksilla, tai kohinaspektrin muuttuessa määrätyssä ympäristössä.
7 115328
Kuvion 2 suoritusmuodossa on puskuri 15, johon on tallennettu LPC-kerroin-joukko (tai joukon autokorrelaatiovektori), joka on johdettu mikrofonitulosta 1 sellaisen jakson aikana, joka on tunnistettu "puheettomaksi" jaksoksi (ts. pelkäksi kohinajaksoksi). Näitä kertoimia käytetään tämän jälkeen mitan johtami-5 seksi käyttämällä yhtälöä 1, joka mitta myös tietenkin vastaa Itakura-Saito-vää-ristymämittaa, paitsi että tällöin käytetään yhtä tallennettua LPC-kerrointen kehystä, joka vastaa käänteisen kohinaspektrin approksimaatiota, eikä sen hetkistä LPC-kerrointen kehystä.
10 Analysaattorin 3 antama LPC-kerroinvektori johdetaan myös korrelaattorille 14, joka muodostaa LPC-kerroinvektorin autokorrelaatiovektorin. Kynnysarvopiirin 7 puhe/puheetonlähtö ohjaa puskurimuistia 15 sillä tavalla, että puskuri säilyttää "puhekehysten" aikana "kohinan" autokorrelaatiokertoimet, mutta "kohinakehys-ten" aikana voidaan käyttää uutta LPC-kerrointen joukkoa puskurin päivittämi- 15 seksi, esimerkiksi monikkokytkimellä 16, jonka välityksellä korrelaattorin 14 lähdöt, joissa kussakin on autokorrelaatiokerroin, on kytketty puskuriin 15. On selvää, että korrelaattori 14 voitaisiin sijoittaa puskurin 15 jälkeen. Lisäksi puhe/pu-heeton-päätöstä kerrointen päivittämiseksi ei tarvitse tehdä lähdöstä 8, vaan se voitaisiin johtaa (ja edullisesti johdetaan) muulla tavalla.
20 •. . Koska puheettomia jaksoja esiintyy usein, puskuriin tallennetut LPC-kertoimet • » : v. tulevat päivitetyiksi ajoittain, niin että laite kykenee siten seuraamaan kohina- . : ·. spektrin muutoksia, on selvää että tällainen puskurin päivitys saattaa olla tar- . · ·. peen vain satunnaisesti tai se voi tapahtua vain kerran ilmaisimen toiminan ....: 25 alussa, jos (kuten usein on asianlaita) kohinaspektri on ajallisesti suhteellisen .' · *; muuttumaton, mutta matkaradiopuhelinympäristössä usein tapahtuva päivitys •»· on edullisempi.
.' *': Tämän suoritusesimerkin eräässä muunnoksessa järjestelmä käyttää aluksi . ‘ . 30 yhtälöä 1 kerrointermien vastatessa yksinkertaista kiinteää ylipäästösuodinta ja ‘* tämän jälkeen järjestelmä alkaa adaptoitua siirtymällä käyttämään "kohinajak- ' i ‘ son" LPC-kertoimia. Jos puheenilmaisu jostakin syystä epäonnistuu, järjestelmä
I I I
• · ·: voi palata käyttämään yksinkertaista ylipäästösuodinta.
» · 8 115328
Edellä esitetty mitta voidaan normalisoida jakamalla arvolla R0, niin että lauseke, jota verrataan kynnysarvoon, on muodoltaan n RjAj 5 M=Ao + 2£--- i=1 R0 Tämä mitta on riippumaton kehyksen kokonaissignaalienergiasta ja kokonais-signaalitason muutokset on siten kompensoitu siinä, mutta se antaa heikom-10 man kontrastin "kohina-" ja "puhetasojen" välillä ja sitä ei tämän vuoksi edullisimmin käytetä erittäin häiriöllisissä ympäristöissä.
Sen sijaan että käytettäisiin LPC-analyysiä kohinasignaalin känteisen suotimen kertoimien johtamiseen (joko kohinamikrofonista tai pelkkää kohinaa sisältävis-15 tä jaksoista, kuten edellä selitetyissä eri esimerkeissä), käänteinen kohinaspek-tri on mahdollista mallintaa käyttämällä tunnetun tyyppistä adaptiivista suodinta. Koska kohinaspektri muuttuu vain hitaasti (kuten seuraavassa selitetään), tällaisissa suotimissa tavallinen suhteellisen hidas kertoimien adaptoitumisnopeus voidaan hyväksyä. Eräässä suoritusmuodossa, joka vastaa kuviota 1, LPC-ana-20 lyysiyksikkö 13 korvataan yksinkertaisesti adaptiivisella suotimella (esimerkiksi FIR-poikittaissuotimella tai verkkosuotimella), joka on kytketty siten, että se te-; kee tulevan kohinan valkoisemmaksi mallintamalla käänteistä suodinta, ja sen | *]: kertoimet syötetään kuten edellä autokorrelaattorille 14.
• » · :, t / 25 Eräässä toisessa suoritusmuodossa, joka vastaa kuvion 2 suoritusmuotoa, LPC-analyysiväline 3 on korvattu tällaisella adaptiivisella suotimella, ja puskuri-:,, ,·* väline 15 jätetään pois, mutta kytkin 16 toimii siten, että se estää adaptiivista suodinta adaptoimasta kertoimiaan puhejaksojen aikana.
* * » · 4 · > 30 Seuraavassa selitetään toista äänen aktiivisuuden ilmaisinta, joka on tarkoitettu käytettäväksi keksinnön erään suoritusmuodon yhteydessä.
• ' Edellä olevan perusteella on selvää, että LPC-kerroinvektori on yksinkertaisesti sellaisen FIR-suotimen impulssivaste, jonka vaste approksimoi tulosignaalin 35 käänteistä spektrimuotoa. Kun muodostetaan viereisten kehysten välinen 9 115328
Itakura-Saito-vääristymämitta, tämä on itse asiassa yhtä suuri kuin signaalin teho edellisen kehyksen LPC-suotimen suodattamana. Siten jos viereisten kehysten spektrit eroavat vähän, vastaava pieni päärä kehyksen spektritehosta jää suodattamatta ja mitta on pieni. Vastaavasti kehysten välinen suuri ero kehittää 5 suuren Itakura-Saito-vääristymämitan, niin että mitta kuvastaa vierekkäisten kehysten spektraalista samankaltaisuutta. Puhekooderissa on toivottavaa minimoida datataajuus, joten kehyksen pituus tehdään niin suureksi kuin mahdollista. Toisin sanoen jos kehyksen pituus on tarpeeksi suuri, tällöin puhesignaalissa olisi esiinnyttävä huomattava spektrimuutos kehysten välillä (jos näin ei ole, 10 kyseessä on ylimääräkoodaus). Kohinalla on toisaalta spektrimuoto, joka vaih-telee hitaasti kehyksestä toiseen, ja siten jaksolla, jossa signaalissa ei esiinny puhetta, Itakura-Saito-vääristymämitta on siten vastaavasti pieni - koska aikaisemman kehyksen käänteisen LPC-suotimen käyttäminen "suodattaa pois" suurimman osan kohinatehosta.
15
Itakura-Saito-vääristymämitta ajoittaista puhetta sisältävän kohinaisen signaalin vierekkäisten kehysten välillä on tyypillisesti suurempi puhejaksojen aikana kuin kohinajaksojen aikana. Vaihtelun aste (standardipoikkeaman kuvaamana) on myös suurempi ja vähemmän ajoittain vaihteleva.
20 on huomattava, että mitan M standardipoikkeaman standardipoikkeama on myös luotettava mitta. Kunkin standardipoikkeaman muodostamisen vaikutus : -. itse asiassa tasoittaa mittaa.
11 · ,,,,: 25 Tässä äänen aktiivisuuden ilmaisimen toisessa muodossa mitattu parametri, , jota käytetään päätettäessä esiintyykö puhetta, on edullisesti Itakura-Saito-vää ristymämitan standardipoikkeama, mutta myös muita vaihtelumittoja ja muita ., spektrivääristymän mittoja (jotka perustuvat esimerkiksi FFT-analyysiin) voitai- ,· ·. siin käyttää.
30 :Adaptiivisen kynnyksen käyttö äänen aktiivisuuden ilmaisussa on havaittu edul-'liseksi. Tällaisia kynnyksiä ei saa asetella puhejaksojen aikana tai muuten pu-hesignaali tulee leikatuksi. Kynnyksenadaptointipiiriä on tämän vuoksi ohjattava > * * · 10 115328 käyttämällä puhe/puheeton-ohjaussignaalia ja tämän ohjaussignaalin tulisi edullisesti olla kynnyksenadaptointipiirin lähdöstä riippumaton.
Kynnys T asetellaan adaptiivisesti siten, että kynnysarvo pidetään juuri mitan M 5 tason yläpuolella pelkän kohinan esiintyessä. Koska mitta vaihtelee yleensä satunnaisesti kohinan esiintyessä, kynnystä muutetaan määräämällä keskimääräinen taso useiden lohkojen aikana ja kynnys asetetaan tähän keskiarvoon verrannolliselle tasolle. Tämä ei kuitenkaan yleensä riitä kohinaisessa ympäristössä ja siten myös parametrin vaihtelun asteen määritys useiden lohkojen 10 ajalta otetaan myös huomioon.
Kynnysarvo T lasketaan siten edullisesti seuraavan lausekkeen mukaan T = M’ + K.d 15 missä M’ on mitan keskiarvo useiden peräkkäisten kehysten yli, d on mitan standardipoikkeama näiden kehysten aikana ja K on vakio (joka voi olla tyypillisesti 2).
20 Käytännössä on edullista, että adaptoimista ei aloiteta uudelleen välittömästi sen jälkeen, kun puheen on ilmaistu puuttuvan, vaan että odotetaan sen var- • · ^ mistamiseksi, että pudotus on stabiili (jotta vältettäisiin nopea toistuva kytkentä adaptoituvan ja ei-adaptoituvan tilan välillä).
25 Kuten kuviosta 3 ilmenee, edellä mainitut piirteet sisältävässä esillä olevan kek-,* · ·. sinnön eräässä edullisessa suoritusmuodossa tulo 1 vastaanottaa signaalin, josta on otettu näytteitä ja joka on muunnettu digitaaliseksi analogia-digitaali-,muuntimen (ADC) 2 avulla ja signaali syötetään käänteisen suotimen analy-saattorin 3 tuloon, joka käytännössä kuuluu osana siihen puhekooderiin, jonka 30 kanssa äänen aktiivisuuden ilmaisimen on tarkoitus toimia ja joka kehittää tulo-;signaalispektrin käänteisarvoa vastaavan suotimen kertoimet Li (tyypillisesti 8).
• Digitalisoitu signaali syötetään myös autokorrelaattorille 4 (joka sisältyy osana analysaattoriin 3), joka kehittää tulosignaalin autokorrelaatiovektorin R| (tai aina-:kin yhtä monta kertaluvultaan alempaa termiä kuin LPC-kertoimia on). Laitteen 11 115328 näiden osien toiminta on kuvioissa 1 ja 2 selitetyn mukainen. Tällöin muodostetaan edullisesti autokorrelaatiokertoimien Ri keskiarvot useiden peräkkäisten puhekehysten yli (pituus tyypillisesti 5-20 ms) niiden luotettavuuden parantamiseksi. Tämä voidaan saada aikaan tallentamalla jokainen autokorrelaattorin 4 5 antama autokorrelaatiokertoimien joukko puskuriin 4a ja käyttämällä keskiar-vonmuodostajaa 4b sen hetkisten autokorrelaatiokertoimien Rj ja puskuriin 4a tallennettujen ja sieltä syötettyjen aikaisempien kehysten kertoimien painotetun summan muodostamiseksi. Siten johdetut keskimääräiset autokorrelaatiokertoi-met Ra, syötetään painotus- ja summausvälineille 5, 6, jotka vastaanottavat 10 myös tallennetut kohinajakson käänteisen suotimen suodinkertoimien Lf auto-korrelaatiovektorin Aj autokorrelaattorilta 14 puskurin 15 kautta ja jotka muodostavat arvoista Raj ja A, mitan M, joka on edullisesti määritelty seuraavasti:
RajAj 15 M = A0 + 2£ ------
Ro Tätä mittaa verrataan tämän jälkeen kynnystasoon kynnysarvopiirissä 7 ja looginen tulos antaa ilmaisun puheen esiintymisestä tai puuttumisesta lähdöstä 8.
20
Jotta käänteisen suotimen kertoimet L| vastaisivat kohtuullista estimaattia kohi-·': naspektrin käänteisarvosta, nämä kertoimet on suotavaa päivittää kohinajakso- ': jen aikana (ja tietenkin olla päivittämättä puhejaksojen aikana), on kuitenkin • : edullista, että puhe/puheeton-päätös, johon päivitys perustuu, ei riipu päivityk- :" 25 sen tuloksesta tai muuten yksi ainoa väärin tunnistettu signaalikehys voi aiheut- taa äänen aktiivisuuden ilmaisimen "lukituksen katoamisen" tämän jälkeen ja :' ': seuraavien kehysten virheellisen tunnistamisen. Tämän vuoksi on edullista käyttää ohjaussignaalinkehityspiiriä 20, joka on itse asiassa erillinen äänen i aktiivisuuden ilmaisin, joka muodostaa riippumattoman ohjaussignaalin, joka ' : 30 osoittaa puheen esiintymisen tai puuttumisen, käänteisen suotimen analysaat torin 3 (eli puskurin 8) ohjaamiseksi, niin että mitan M muodostamiseen käytet-tyjä käänteisen suotimen autokorrelaatiokertoimia Aj päivitetään vain "kohina-jaksojen" aikana. Ohjaussignaalinkehityspiiri 20 sisältää LPC-analysaattorin 21 ;;; (joka myös voi kuulua osana puhekooderiin ja jonka erikoisesti voi toteuttaa 35 analysaattori 3), joka kehittää tulosignaalia vastaavan LPC-kerrointen Mj jou- 12 115328 kon, ja autokorrelaattorin 21a (jonka voi toteuttaa autokorrelaattori 3a), joka johtaa kertoimien Mj autokorrelaatiokertoimet Bj. Jos analysaattorin 21 toteuttaa analysaattori 3, tällöin Mj = Ls ja Bj = Aj. Nämä autokorrelaatiokertoimet syötetään tällöin painotus-ja summausvälineille 22, 23 (vastaavat elimiä 5, 6), jotka 5 vastaanottavat myös tulosignaalin autokorrelaatiovektorin Rj autokorrelaattorilta 4. Siten lasketaan mitta spektraaliselle samankaltaisuudelle tulevan puhekehyk-sen ja edellisen puhekehyksen välillä. Tämä mitta voi olla Itakura-Saito-vääris-tymämitta sen hetkisen kehyksen kertoimien Rj ja edellisen kehyksen kertoimien Bj välillä, kuten edellä on esitetty, tai se voidaan sen sijaan johtaa laske-10 maila Itakura-Saito-vääristymämitta sen hetkisen kehyksen kertoimille Rj ja Bj ja vähentämällä (vähennyslaskuelimessä 25) puskuriin 24 tallennettu vastaava aikaisempi mitta spektrierosignaalin kehittämiseksi (kummassakin tapauksessa mitan energia normalisoidaan jakamalla arvolla R0). Tämän jälkeen puskuri 24 luonnollisesti päivitetään. Tämä spektrierosignaali muodostaa edellä selitetyn 15 mukaisen kynnysarvopiirissä 26 suoritetun kynnysarvovertailun jälkeen ilmaisi men puheen esiintymiselle tai puuttumiselle, olemme kuitenkin havainneet, että vaikka tämä mitta on erinomainen kohinan erottamiseksi ääntiöttömästä puheesta (tehtävä, johon tunnetut järjestelmät eivät yleensä pysty), se kykenee yleensä jonkin verran huonommin erottamaan kohinan ääntiöllisestä puheesta.
20 Tämän mukaisesti piirissä 20 käytetään edullisesti lisäksi ääntiöllisen puheen ilmaisinpiiriä, jossa on äänenkorkeuden analysaattori 27 (joka voi käytännössä ! toimia puhekooderin osana ja voi erikoisesti mitata monipulssi-LPC-kooderissa syntyvää pitkäaikaista prediktorin viivearvoa). Äänenkorkeuden analysaattori 27 kehittää loogisen signaalin, joka on "tosi", kun ääntiöllinen puhe havaitaan, ja ' ‘ ‘; 25 tämä signaali johdetaan yhdessä kynnysarvopiiriltä 26 johdetun kynnysarvover- .. , taillun mitan kanssa (joka on yleensä "tosi" ääntiöttömän puheen esiintyessä) TAI-EI-portin 28 tuloihin signaalin kehittämiseksi, joka on "epätosi" puheen esiintyessä ja "tosi" kohinan esiintyessä. Tämä signaali syötetään puskuriin 8 ·. (tai käänteisen suotimen analysaattorille 3), niin että käänteisen suotimen ker- 30 toimia Li päivitetään vain kohinajaksojen aikana.
1 I
;·’ Kynnyksenadaptointipiiri 29 on myös kytketty vastaanottamaan ohjaussignaali- * ;·* generaattoripiirin 20 puheettoman signaalin ohjauslähdön. Kynnyksenadap- > t · ,,tointipiirin 29 lähtö syötetään kynnysarvopiirille 7. Kynnyksenadaptointipiiri suu- 115328 13 rentaa tai pienentää kynnystä portaissa, jotka ovat verrannollisia sen hetkiseen kynnysarvoon, kunnes kynnys approksimoi kohinatehotasoa (joka voidaan käytännöllisesti johtaa esimerkiksi painotus- ja summauspiireistä 22, 23).
5 Kun tulosignaali on erittäin alhainen, saattaa olla edullista, että kynnys asetetaan automaattisesti kiinteään alhaiseen tasoon, koska analogia-digitaalimuun-timen 2 synnyttämä signaalin kvantisointivaikutus saattaa aiheuttaa alhaisilla signaalitasoilla epäluotettavia tuloksia.
10 Lisäksi voidaan käyttää "ylityksen" kehittäviä välineitä 30, jotka mittaavat puheilmaisujen kestot kynnysarvopiirin 7 jälkeen, ja kun puheen esiintymisen on ilmaistu jatkuvan ennaltamäärätyn aikavakion yli, lähtö pidetään ylemmässä tilassa lyhyen "ylitysjakson" ajan. Tällä tavalla vältetään pientasoisten puhe-purskeiden leikkautuminen keskeltä ja aikavakion oikea valinta estää ylitys-15 generaattorin 30 liipaisun lyhyiden, virheellisesti puheeksi ilmaistujen kohina-piikkien vaikutuksesta.
on luonnollisesti selvää, että kaikki edellä mainitut toiminnat voi suorittaa yksi sopivasti ohjelmoitu digitaalinen prosessoriväline, kuten digitaalinen signaalin-20 käsittelypiiri (DSP), joka on siten toteutetun LPC-koodekin osana (tämä on . . parhaana pidetty toteutus), tai sopivasti ohjelmoitu mikrotietokone tai mikrokont- rolleripiiri siihen liittyvine muistilaitteineen.
I · · I · * t · I . ’ Kuten edellä on selitetty, äänen ilmaisulaite voidaan käytännöllisesti toteuttaa I * ’ ’ . 25 LPC-koodekin osana. Vaihtoehtoisesti kun signaalin autokorrelaatiokertoimet t > * tai niihin liittyvät mitat (osittaiskorrelaatio eli "parcor"-kertoimet) lähetetään t · I · etäällä olevalle asemalle äänen ilmaisu voi tapahtua kaukana koodekista.
* · » . » < · » 1 f I • : I · I · « • t * ·
Claims (7)
115328 14 1. Äänen aktiivisuuden ilmaisinlaite, joka käsittää: 5 (i) ensimmäisen äänen aktiivisuuden ilmaisimen (3-6, 14), joka toimii muo dostamalla mitan tulosignaalin osan ja tulosignaalin sellaisen osan, jonka katsotaan olevan vapaa puheesta, väliselle spektraaliselle samankaltaisuudelle lähtösignaalin tuottamiseksi, joka osoittaa puheen esiintymisen tai puuttumisen tulosignaalissa; 10 (ii) muistin (15) tallentamaan dataan, joka on saatu mainitusta puheesta vapaasta osasta; ja (iii) äänen aktiivisuuden lisäilmaisimen (20); tunnettu siitä, että äänen aktiivisuuden lisäilmaisin (20) yksinään ohjaa 15 muistin (15) päivitystä, jolloin äänen aktiivisuuden lisäilmaisin (20) toimii muodostamalla mitan tulosignaalin sen hetkisen osan ja tulosignaalin aiemman osan väliselle spektraaliselle samankaltaisuudelle. 2. Äänen aktiivisuuden ilmaisinlaite, joka käsittää: 20 V (i) välineet (1) tulosignaalin vastaanottamiseksi; ' (ii) muistin (15) kohinaa edustavan signaalin tallentamiseksi, joka signaali ; edustaa mainitun tulosignaalin estimoitua kohinakomponenttia; 1 · • ·' (iii) välineet (3-6, 14) muodostamaan jaksollisesti tulosignaalista ja ' ' 25 mainitusta kohinaa edustavasta signaalista mitan tulosignaalin osan ja •: mainitun estimoidun kohinakomponentin väliselle spektraaliselle samankaltaisuudelle; » : (iv) välineet (7) vertaamaan mittaa kynnysarvoon lähdön tuottamiseksi, joka osoittaa puheen esiintymisen tai puuttumisen; l 30 (v) äänen aktiivisuuden lisäilmaisin (20); ja i (vi) muistin päivitysvälineet muistin päivittämiseksi tulosignaalista; . tunnettu siitä, että äänen aktiivisuuden lisäilmaisin on toimiva riippuen : tulosignaalin senhetkisen osan ja tulosignaalin edeltävän osan välisen spektraalisen samankaltaisuuden mitasta tuottamaan lähtösignaalin, joka 15 1 1 5328 osoittaa puheen esiintymisen tai puuttumisen, ja että muistin päivitysvälineet ovat toimintakykyiset päivittämään muistia sisääntulosignaalista ainoastaan silloin, kun mainittu ohjaussignaali osoittaa, että puhe puuttuu.
3. Patenttivaatimuksen 2 mukainen laite, tunnettu siitä, että se lisäksi käsittää välineet mainitun kynnysarvon säätämiseksi niiden jaksojen aikana, kun mainittu ohjaussignaali osoittaa puheen puuttuvan.
4. Patenttivaatimuksen 2 tai 3 mukainen laite, tunnettu siitä, että mainittu ää-10 nen aktiivisuuden lisäilmaisin käsittää lisäksi ääntiöllisen puheen ilmaisinväli-neet (27), jotka käsittävät äänen korkeuden analyysivälineet ääntiöllisen puheen esiintymisen ilmaisevan signaalin kehittämiseksi, josta signaalista äänen aktiivisuuden lisäilmaisimen (20) tuottava ohjaussignaali myös riippuu.
5. Laite puhesignaalien koodaamiseksi, tunnettu siitä, että siihen sisältyy jonkin edellä olevan vaatimuksen mukainen laite.
6. Matkapuhelinlaite, tunnettu siitä, että siihen sisältyy jonkin edellä olevan vaatimuksen mukainen laite. 20
7. Menetelmä puheen aktiivisuuden ilmaisemiseksi tulosignaalissa, käsittäen : vaiheet: • · * · • · ’ ·.. * mainitun tulosignaalin vastaanottaminen; • · · « · * ’ 25 mainitun tulosignaalin kohinasignaalikomponentin estimointi; * · · : mainittua kohinasignaalikomponenttia edustavan datan tallentaminen; mitan M muodostaminen tulosignaalin osan ja mainitun kohinasignaali- » * • » * ‘ · komponentin spektraaliselle samankaltaisuudelle; ja mitasta M johdetun parametrin vertaaminen ensimmäisen kynnysarvon ; 30 T kanssa primäärisen äänen aktiivisuuden osoituksen tuottamiseksi : osoittamaan puheen esiintyminen tai puuttuminen riippuen siitä, onko tämä arvo ylitetty vai ei; missä mainittu estimointivaihe käsittää äänen aktiivisuuden lisäosoituksen tuottamisen ja joka menetelmä on tunnettu siitä, että mainittu äänen aktiivisuuden lisäosoituksen tuottaminen käsittää: 115328 16 muodostetaan spektrivääristymämitta tulosignaalin senhetkisen osan ja tulosignaalin aiempien osien väliselle samankaltaisuudelle; verrataan spektrivääristymämittaa toiseen kynnysarvoon osoituksen tuottamiseksi puheen esiintymisestä tai puuttumisesta riippuen siitä, onko tämä arvo ylitetty vai 5 ei; ja päivitetään mainittu tallennettu data sisääntulosignaalista ainoastaan jaksoista, joissa mainittua äänen aktiivisuuden lisäosoitus osoittaa puheen puuttumisen.
10 Patentkrav
Applications Claiming Priority (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB8805795 | 1988-03-11 | ||
GB888805795A GB8805795D0 (en) | 1988-03-11 | 1988-03-11 | Voice activity detector |
GB888813346A GB8813346D0 (en) | 1988-06-06 | 1988-06-06 | Voice activity detection |
GB8813346 | 1988-06-06 | ||
GB8820105 | 1988-08-24 | ||
GB888820105A GB8820105D0 (en) | 1988-08-24 | 1988-08-24 | Voice activity detection |
PCT/GB1989/000247 WO1989008910A1 (en) | 1988-03-11 | 1989-03-10 | Voice activity detection |
GB8900247 | 1989-03-10 |
Publications (2)
Publication Number | Publication Date |
---|---|
FI20010933A FI20010933A (fi) | 2001-05-04 |
FI115328B true FI115328B (fi) | 2005-04-15 |
Family
ID=27263821
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FI904410A FI110726B (fi) | 1988-03-11 | 1990-09-07 | Äänen aktiivisuuden ilmaisu |
FI20010933A FI115328B (fi) | 1988-03-11 | 2001-05-04 | Äänen aktiivisuuden ilmaisu |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FI904410A FI110726B (fi) | 1988-03-11 | 1990-09-07 | Äänen aktiivisuuden ilmaisu |
Country Status (16)
Country | Link |
---|---|
EP (2) | EP0548054B1 (fi) |
JP (2) | JP3321156B2 (fi) |
KR (1) | KR0161258B1 (fi) |
AU (1) | AU608432B2 (fi) |
BR (1) | BR8907308A (fi) |
CA (1) | CA1335003C (fi) |
DE (2) | DE68910859T2 (fi) |
DK (1) | DK175478B1 (fi) |
ES (2) | ES2047664T3 (fi) |
FI (2) | FI110726B (fi) |
HK (1) | HK135896A (fi) |
IE (1) | IE61863B1 (fi) |
NO (2) | NO304858B1 (fi) |
NZ (1) | NZ228290A (fi) |
PT (1) | PT89978B (fi) |
WO (1) | WO1989008910A1 (fi) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2643593B2 (ja) * | 1989-11-28 | 1997-08-20 | 日本電気株式会社 | 音声・モデム信号識別回路 |
CA2040025A1 (en) * | 1990-04-09 | 1991-10-10 | Hideki Satoh | Speech detection apparatus with influence of input level and noise reduced |
US5241692A (en) * | 1991-02-19 | 1993-08-31 | Motorola, Inc. | Interference reduction system for a speech recognition device |
FR2697101B1 (fr) * | 1992-10-21 | 1994-11-25 | Sextant Avionique | Procédé de détection de la parole. |
SE470577B (sv) * | 1993-01-29 | 1994-09-19 | Ericsson Telefon Ab L M | Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud |
JPH06332492A (ja) * | 1993-05-19 | 1994-12-02 | Matsushita Electric Ind Co Ltd | 音声検出方法および検出装置 |
SE501305C2 (sv) * | 1993-05-26 | 1995-01-09 | Ericsson Telefon Ab L M | Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler |
EP0633658A3 (en) * | 1993-07-06 | 1996-01-17 | Hughes Aircraft Co | Automatic gain control circuit coupled to the transmission and activated by speech. |
IN184794B (fi) * | 1993-09-14 | 2000-09-30 | British Telecomm | |
SE501981C2 (sv) * | 1993-11-02 | 1995-07-03 | Ericsson Telefon Ab L M | Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler |
US5742734A (en) * | 1994-08-10 | 1998-04-21 | Qualcomm Incorporated | Encoding rate selection in a variable rate vocoder |
FR2727236B1 (fr) * | 1994-11-22 | 1996-12-27 | Alcatel Mobile Comm France | Detection d'activite vocale |
WO1996034382A1 (en) * | 1995-04-28 | 1996-10-31 | Northern Telecom Limited | Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals |
GB2306010A (en) * | 1995-10-04 | 1997-04-23 | Univ Wales Medicine | A method of classifying signals |
FR2739995B1 (fr) * | 1995-10-13 | 1997-12-12 | Massaloux Dominique | Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole |
US5794199A (en) * | 1996-01-29 | 1998-08-11 | Texas Instruments Incorporated | Method and system for improved discontinuous speech transmission |
US6427134B1 (en) | 1996-07-03 | 2002-07-30 | British Telecommunications Public Limited Company | Voice activity detector for calculating spectral irregularity measure on the basis of spectral difference measurements |
US6618701B2 (en) * | 1999-04-19 | 2003-09-09 | Motorola, Inc. | Method and system for noise suppression using external voice activity detection |
DE10052626A1 (de) * | 2000-10-24 | 2002-05-02 | Alcatel Sa | Adaptiver Geräuschpegelschätzer |
CN1617606A (zh) * | 2003-11-12 | 2005-05-18 | 皇家飞利浦电子股份有限公司 | 一种在语音信道传输非语音数据的方法及装置 |
US7139701B2 (en) * | 2004-06-30 | 2006-11-21 | Motorola, Inc. | Method for detecting and attenuating inhalation noise in a communication system |
US7155388B2 (en) * | 2004-06-30 | 2006-12-26 | Motorola, Inc. | Method and apparatus for characterizing inhalation noise and calculating parameters based on the characterization |
FI20045315A (fi) * | 2004-08-30 | 2006-03-01 | Nokia Corp | Ääniaktiivisuuden havaitseminen äänisignaalissa |
US8708702B2 (en) * | 2004-09-16 | 2014-04-29 | Lena Foundation | Systems and methods for learning using contextual feedback |
US8775168B2 (en) | 2006-08-10 | 2014-07-08 | Stmicroelectronics Asia Pacific Pte, Ltd. | Yule walker based low-complexity voice activity detector in noise suppression systems |
US8954324B2 (en) * | 2007-09-28 | 2015-02-10 | Qualcomm Incorporated | Multiple microphone voice activity detector |
US8175871B2 (en) | 2007-09-28 | 2012-05-08 | Qualcomm Incorporated | Apparatus and method of noise and echo reduction in multiple microphone audio systems |
US8223988B2 (en) | 2008-01-29 | 2012-07-17 | Qualcomm Incorporated | Enhanced blind source separation algorithm for highly correlated mixtures |
US8275136B2 (en) | 2008-04-25 | 2012-09-25 | Nokia Corporation | Electronic device speech enhancement |
US8244528B2 (en) | 2008-04-25 | 2012-08-14 | Nokia Corporation | Method and apparatus for voice activity determination |
US8611556B2 (en) | 2008-04-25 | 2013-12-17 | Nokia Corporation | Calibrating multiple microphones |
ES2371619B1 (es) * | 2009-10-08 | 2012-08-08 | Telefónica, S.A. | Procedimiento de detección de segmentos de voz. |
EP2491549A4 (en) * | 2009-10-19 | 2013-10-30 | Ericsson Telefon Ab L M | DETECTOR AND METHOD FOR DETECTING VOICE ACTIVITY |
CN108985277B (zh) * | 2018-08-24 | 2020-11-10 | 广东石油化工学院 | 一种功率信号中背景噪声滤除方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3509281A (en) * | 1966-09-29 | 1970-04-28 | Ibm | Voicing detection system |
US4052568A (en) * | 1976-04-23 | 1977-10-04 | Communications Satellite Corporation | Digital voice switch |
US4358738A (en) * | 1976-06-07 | 1982-11-09 | Kahn Leonard R | Signal presence determination method for use in a contaminated medium |
JPS5636246A (en) * | 1979-08-31 | 1981-04-09 | Nec Corp | Stereo signal demodulating circuit |
JPS59115625A (ja) * | 1982-12-22 | 1984-07-04 | Nec Corp | 音声検出器 |
DE3370423D1 (en) * | 1983-06-07 | 1987-04-23 | Ibm | Process for activity detection in a voice transmission system |
JPS6196817A (ja) * | 1984-10-17 | 1986-05-15 | Sharp Corp | フイルタ− |
-
1989
- 1989-03-10 EP EP93200015A patent/EP0548054B1/en not_active Expired - Lifetime
- 1989-03-10 ES ES89302422T patent/ES2047664T3/es not_active Expired - Lifetime
- 1989-03-10 EP EP89302422A patent/EP0335521B1/en not_active Expired - Lifetime
- 1989-03-10 DE DE68910859T patent/DE68910859T2/de not_active Expired - Lifetime
- 1989-03-10 DE DE68929442T patent/DE68929442T2/de not_active Expired - Lifetime
- 1989-03-10 NZ NZ228290A patent/NZ228290A/en unknown
- 1989-03-10 PT PT89978A patent/PT89978B/pt not_active IP Right Cessation
- 1989-03-10 WO PCT/GB1989/000247 patent/WO1989008910A1/en active IP Right Grant
- 1989-03-10 AU AU33554/89A patent/AU608432B2/en not_active Expired
- 1989-03-10 IE IE77489A patent/IE61863B1/en not_active IP Right Cessation
- 1989-03-10 BR BR898907308A patent/BR8907308A/pt not_active IP Right Cessation
- 1989-03-10 KR KR1019890702099A patent/KR0161258B1/ko not_active IP Right Cessation
- 1989-03-10 ES ES93200015T patent/ES2188588T3/es not_active Expired - Lifetime
- 1989-03-10 JP JP50377289A patent/JP3321156B2/ja not_active Expired - Lifetime
- 1989-03-10 CA CA000593386A patent/CA1335003C/en not_active Expired - Lifetime
-
1990
- 1990-09-07 FI FI904410A patent/FI110726B/fi not_active IP Right Cessation
- 1990-09-07 DK DK199002156A patent/DK175478B1/da not_active IP Right Cessation
- 1990-09-10 NO NO903936A patent/NO304858B1/no not_active IP Right Cessation
-
1996
- 1996-07-25 HK HK135896A patent/HK135896A/xx not_active IP Right Cessation
-
1998
- 1998-06-04 NO NO982568A patent/NO316610B1/no not_active IP Right Cessation
-
1999
- 1999-11-18 JP JP32819899A patent/JP3423906B2/ja not_active Expired - Lifetime
-
2001
- 2001-05-04 FI FI20010933A patent/FI115328B/fi not_active IP Right Cessation
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
FI115328B (fi) | Äänen aktiivisuuden ilmaisu | |
US5276765A (en) | Voice activity detection | |
Sadjadi et al. | Unsupervised speech activity detection using voicing measures and perceptual spectral flux | |
US20210366496A1 (en) | Estimation of background noise in audio signals | |
Tan et al. | Low-complexity variable frame rate analysis for speech recognition and voice activity detection | |
KR100363309B1 (ko) | 음성액티비티검출기 | |
KR950000842B1 (ko) | 피치 검출기 | |
US5579435A (en) | Discriminating between stationary and non-stationary signals | |
US7254536B2 (en) | Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech | |
JPH08328588A (ja) | ピッチラグを評価するためのシステム、音声符号化装置、ピッチラグを評価する方法、および音声符号化方法 | |
EP0653091B1 (en) | Discriminating between stationary and non-stationary signals | |
JP2892462B2 (ja) | コード励振線形予測符号化器 | |
JP3330178B2 (ja) | 音声符号化装置および音声復号化装置 | |
JPH02266400A (ja) | 有音/無音判定回路 | |
NZ286953A (en) | Speech encoder/decoder: discriminating between speech and background sound | |
JPH10105196A (ja) | 音声符号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FG | Patent granted |
Ref document number: 115328 Country of ref document: FI |
|
MA | Patent expired |