HU219994B - Beszédérzékelő - Google Patents

Beszédérzékelő Download PDF

Info

Publication number
HU219994B
HU219994B HU9600641A HU9600641A HU219994B HU 219994 B HU219994 B HU 219994B HU 9600641 A HU9600641 A HU 9600641A HU 9600641 A HU9600641 A HU 9600641A HU 219994 B HU219994 B HU 219994B
Authority
HU
Hungary
Prior art keywords
speech
input signal
unit
prediction
detector
Prior art date
Application number
HU9600641A
Other languages
English (en)
Other versions
HU9600641D0 (en
HUT73986A (en
Inventor
Paul Alexander Barrett
Original Assignee
British Telecommunications Public Ltd. Co.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=27235491&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=HU219994(B) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Priority claimed from GB939324967A external-priority patent/GB9324967D0/en
Priority claimed from GB9412451A external-priority patent/GB9412451D0/en
Application filed by British Telecommunications Public Ltd. Co. filed Critical British Telecommunications Public Ltd. Co.
Publication of HU9600641D0 publication Critical patent/HU9600641D0/hu
Publication of HUT73986A publication Critical patent/HUT73986A/hu
Publication of HU219994B publication Critical patent/HU219994B/hu

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q1/00Details of selecting apparatus or arrangements
    • H04Q1/18Electrical details
    • H04Q1/30Signalling arrangements; Manipulation of signalling currents
    • H04Q1/44Signalling arrangements; Manipulation of signalling currents using alternate current
    • H04Q1/444Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies
    • H04Q1/46Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies comprising means for distinguishing between a signalling current of predetermined frequency and a complex current containing that frequency, e.g. speech current
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M19/00Current supply arrangements for telephone systems
    • H04M19/08Current supply arrangements for telephone systems with current supply sources at the substations

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Geophysics And Detection Of Objects (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Telephone Function (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Investigating Or Analyzing Materials By The Use Of Electric Means (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Radio Relay Systems (AREA)
  • Investigating Or Analysing Materials By The Use Of Chemical Reactions (AREA)
  • Electromechanical Clocks (AREA)
  • Cosmetics (AREA)
  • Digital Transmission Methods That Use Modulated Carrier Waves (AREA)
  • Measuring Fluid Pressure (AREA)
  • Burglar Alarm Systems (AREA)

Abstract

A találmány tárgya beszédérzékelő, bemenőjelben beszéd jelenléténekérzékelésére. A bemenőjel zajkomponensének becsült formáját tárolópufferrel (113), a bemenőjel és a pufferben (113) tárolt adatokspektrális hasonlóságát felismerő szorzó-/összeadó egységgel (114),valamint a tárolt becsült formát felújító részegységgel vankialakítva, ahol a felújító részegységhez kisegítődetektor vankapcsolva. Ez az általa a bemenőjelben távol levőnek megállapítottbeszéd érzékelésekor a felújító részegységet aktualizálja. Lényege,hogy a bemeneti jelre predikciós nyereségi paramétert (Gp) számítóaritmetikai egységet (303) és a predikciós nyereségi paraméternek (Gp)egy küszöbértéket meghaladó értéke esetén a felújítást kizáró,célszerűen komparátorral (304) és VAGY kapuval (206) működőmódosítóegységet tartalmaz. ŕ

Description

A leírás terjedelme 14 oldal (ezen belül 7 lap ábra)
HU 219 994 Β
A találmány tárgya beszédérzékelő, bemenőjelben beszéd jelenlétének érzékelésére, amely bemenőjel zajkomponensének becsült formáját tároló pufferrel, a bemenőjel és a pufferben tárolt adatok spektrális hasonlóságát felismerő szorzó-/összeadó egységgel, valamint a tárolt becsült formát felújító részegységgel van kialakítva, ahol a felújító részegységhez kisegítődetektor van kapcsolva, és a kisegítődetektor olyan felépítésű, hogy ha az általa észlelt bemenőjelben a beszéd nincs jelen, a felújító részegységet aktualizálja. A jelen találmány szerinti érzékelő alkalmazási lehetőségei szélesek, mindenekelőtt a hordozható rádiótelefonos rendszerekben lehet előnyös, ahol a beszéd jelenléte vagy hiánya kihasználható a teljesítményfelvétel és az interferenciajelenségek korlátozására, mivel a jeltovábbítást a csend időszakára meg lehet szakítani. A hordozható telefonkészülékek környezetében a zaj szintje, például mozgó járműből működtetett berendezés esetében igen magas lehet. Másik felhasználást a rádiós jeltovábbító rendszerek jelentenek, amelyekben a rádióadások spektruma a beszéd érzékelése révén az eddigieknél hatékonyabban használható ki.
A beszéd jelenlétére válaszjelet generáló érzékelők egy korábbi változatát a WO 89/08910 számú nemzetközi közzétételi irat ismerteti, amelynek vázlatos felépítését az 1. ábrára hivatkozással mutatjuk be. Ennél az elrendezésnél 1 bemeneten át zajos beszédet képviselő jelet fogadnak, míg 2 tárolóban a zaj frekvenciaspektrumának egy becsült eloszlási adathalmazát vagy modelljét tárolják. A következő egységet 3 komparátor jelenti, amely a tárolt spektrumot a vett jellel hasonlítja össze és hasonlósági mértéket állapít meg, amelyet ezután 4 komparátor egy küszöbértékkel hasonlít össze. A zajos összetevőben bekövetkező változások követése céljából a beszéd szüneteiben a zajra vonatkozó becsült eloszlási adathalmazt vagy modellt időközönként felújítják, és ugyanígy szükség szerint 6 adapterrel a küszöb egy új értékét adott esetben újra a rendszerbe viszik.
A felújítást célszerűen csak akkor végzik el, ha a beszédet képviselő komponens a bemenőjelben nem észlelhető, vagyis az összehasonlítási alapjelet a zajháttérből származtathatják. Ellenkező esetben ugyanis az ismertetett adaptív rendszer egy rossz döntés következtében progresszív mértékben tér el a megfelelő szintektől, ezért 7 kisegítődetektort használnak, amely 8 zöngétlen beszéddetektort és 9 zöngés beszéddetektort tartalmaz. A 7 kisegítődetektor jelei alapján akkor feltételezhető a beszéd jelenléte, ha a 8 zöngétlen és a 9 zöngés beszéddetektor egyaránt beszédet érzékel, és ilyenkor a felújítást nem szabad végrehajtani, a tárolt modell változatlan marad. A 8 zöngétlen beszéddetektor a jelre vonatkozó lineáris predikciós kódolásos (rövidítve, illetve a későbbi rajzokon LPC) koefficiensek egy sorozatát kapja, és ezeket egymást követő kijelölt periódusokban a koefficiensek autokorrelációs függvényével hasonlítja össze. Egyidejűleg a 9 zöngés beszéddetektor a lineáris predikciós kódolásos jel maradék jelének autokorrelációjában követi a változásokat.
A fentiekben vázolt elrendezés a beszéddel kitöltött időtartamok és a csak a zaj jelenlétével jellemezhető időtartamok közötti megkülönböztetésben igen hasznos. Működésének alapvető problémáját az jelenti, hogy a benne alkalmazott kisegítődetektor a tárcsahangnak megfelelő jelet sok esetben csak zajként érzékeli, vagyis ahhoz nem rendel beszédnek megfelelő állapotot, és így az ismert elrendezés végül is a tárcsahangot zajnak azonosítja, ennek továbbítását vagy nem engedélyezi vagy adott esetben idő előtt megszakítja.
Ezt a hiányosságot úgy lehet megszüntetni, ha az adott tárcsahangok mindegyikére egy-egy hangdetektort hangolunk, de ez csak egy országon belül lehet elfogadható. A különböző országokban szerte a világon számos különböző szintű tárcsahangot alkalmaznak, és ezért a hordozható telefont nagyszámú egyedi detektorral kellene kiegészíteni, ha a telefon felhasználója nemzetközi hívásokat kíván lebonyolítani, és egyidejűleg szükség van a különböző tárcsahangok megbízható érzékelésére függetlenül azok eredetétől.
Megállapítható tehát, hogy nem ismert jelenleg olyan megoldás, amellyel a tárcsahangok felismerhetők, és azokat a beszédérzékelő beszéd jellegű hangként fogadja el. Erre igény van, és célunk ennek az igénynek a kielégítése.
Feladatunk az ennek az igénynek kielégítő olyan hangérzékelő detektor kialakítása, amely beszéd és tárcsahang jelenlétét képes más jelektől megkülönböztetve érzékelni. Felismerésünk szerint predikciós nyereségi paramétert kell a megfigyelt jelre vonatkozóan számítani, és ennek alapján a környezeti zajok modelljének vagy becsült spektrális eloszlásának felújítását engedélyezni.
A predikciós nyereségi paramétert a 7. oldalon definiáljuk.
A kitűzött feladat megoldásaként olyan beszédérzékelőt alkottunk meg, amely bemenőjelben beszéd jelenlétének érzékelésére alkalmas, a bemenőjel zajkomponensének becsült formáját tároló pufferrel, a bemenőjel és a pufferben tárolt adatok spektrális hasonlóságát felismerő szorzó-/összeadó egységgel, valamint a tárolt becsült formát felújító részegységgel van kialakítva, ahol a felújító részegységhez kisegitődetektor van kapcsolva, amely - ha a bemenőjel beszédtől mentes - a felújító részegységet aktualizálja. A találmány értelmében a beszédérzékelő a bemeneti jelre predikciós nyereségi paramétert számító aritmetikai egységet és a predikciós nyereségi paraméternek egy küszöbértéket meghaladó értéke esetén a felújítást kizáró, célszerűen komparátorral és VAGY kapuval működő módosítóegységet tartalmaz.
A szükséges felismerések elvégzésének megbízhatóságát javítja a találmány szerinti beszédérzékelőnek az az előnyös továbbfejlesztése, amelynél a kisegítődetektor - célszerűen összegezővei, kivonóegységgel, puffénál és komparátonal megvalósított - lineáris predikciós kódolás maradékjeléből derivált jelekre érzékeny, zöngés beszédet felismerő detektonal van ellátva.
Ugyancsak a felismerési műveletek hatékonyságát lehet növelni a találmány szerinti beszédérzékelőnek azzal a célszerű kiviteli alakjával, amelynél a nyereségi paraméter legfeljebb hatodrendű, adott esetben legfel2
HU 219 994 Β jebb negyedrendű lineáris predikciós kódolás predikciós nyereségét jelenti.
Egy további előnyös továbbfejlesztett változatában a találmány szerinti beszédérzékelő a bemenőjel egy vagy több primer frekvenciájú összetevőjét érzékelő lineáris predikciós kódolóval van ellátva, amelyhez a frekvenciákat egy előre meghatározott küszöbértékkel összehasonlító és a primer komponensnek a küszöbértéket meghaladó értéke mellett a felújítás elnyomását engedélyező, célszerűen számítóegységből és ÉS kapuból álló eszköz van csatlakoztatva.
A felismerési műveletek elvégzését könnyíti meg a találmány szerinti beszédérzékelőnek az az igen előnyös kiviteli alakja, amelyre jellemző, hogy a predikciós nyereség! paramétert meghatározó predikciós hibaképzővel van ellátva, amelynek bemenetén szűrő van elrendezve.
A találmány szerinti beszédérzékelő egy még további előnyös kiviteli alakját úgy képezzük ki, hogy azt két áteresztési sávhoz rendelt két szűrővel látjuk el, amelyekhez az egyes áteresztési sávokban nyereségi paramétert megállapító predikciós hibaképzők vannak csatlakoztatva, és ez utóbbiak módosítóegységként a felújítás elnyomását akkor engedélyezik, ha a nyereségi paraméter mindkét áteresztési sávban egy adott küszöbértéket túllép. Különösen célszerű ennél a megoldásnál az az intézkedés, hogy a szűrők kimenetén egy-egy almintavevőt rendezünk el.
A találmány tárgyát a továbbiakban példakénti kiviteli alakok kapcsán, a csatolt rajzra hivatkozással ismertetjük részletesen. A rajzon az
1. ábra: az előzőekben már elemzett, ismert felépítésű beszédérzékelő kapcsolási elrendezésének tömbvázlata, a
2. ábra: a találmány szerinti, hangaktivitásra érzékeny detektorral működő beszédérzékelő egy célszerű kiviteli alakjának tömbvázlata, a
3. ábra: telefonhálózatban továbbított különböző jelek időbeni egymásutániságának és jellegzetes lefutásának bemutatása,
4. ábra: 3. ábra szerinti különböző bemenőjelek mellett a találmány szerinti beszédérzékelőben megállapított predikciós nyereségi paraméter értékének grafikus ábrázolása, az
5. ábra: a találmány szerinti beszédérzékelő egy további célszerű kiviteli alakjának tömbvázlata, a
6. ábra: a találmány szerinti beszédérzékelő egy még további célszerű kiviteli alakjának tömbvázlata, a
7. ábra: a találmány szerinti beszédérzékelő egy újabb célszerű kiviteli alakjának tömbvázlata, míg a
8. ábra: a találmány szerinti beszédérzékelő frekvenciasávokat képző változatának tömbvázlata.
A 2. ábra azt mutatja be, hogy a találmány szerinti beszédérzékelő alapját a szakirodalomból már ismert felépítésű 100 beszédkódoló jelenti, amelynek 101 beszédbemenete van. Az itt kapott bemenőjelből 102 A/D átalakító 8 kHz frekvencián mintát vesz, és a mintavételes jelet digitális formába alakítja át. A beszédmintákat ezután 103 ablakozóegység keretekre osztja, amelyek például egyenként 160 mintát tartalmaznak, vagyis egyegy keret időtartama 20 s. Ezeket egy-egy Hamingablakkal vagy más, a keret végén és elején a minta hatását redukáló függvénnyel szorozza be. Az így digitalizált beszédmintákat 104 korrelációs egység fogadja, amely minden keretre egy-egy Rj autokorrelációs koefficienst képez. A 104 korrelációs egység kimenetére 105 elemzőegység kapcsolódik, amely lineáris predikciós kódolást végez és ez egy további szűrő (az irodalomban sokszor szintetizálószűrőként említett egység) számára aj koefficienseket számol, ahol a szűrő a bemeneti beszédjel frekvenciaspektrumának megfelelő frekvenciaválaszt ismert módon, például a Levinson-Durbin-féle vagy a Schurr-algoritmus alapján képezi.
A digitalizált bemenőjelet egyidejűleg 106 inverz szűrőn vagy más néven elemzőszűrőn vezetjük át, amelynek vezérlését a kapott koefficiensek biztosítják, és így olyan maradékjelet képezünk, amelyet 107 hosszú távú előrejelző elemzőegység, mint predikciós egység elemez, és a lineáris predikciós kódolás maradékjelénél a predikció számára az optimális késleltetést az előző értékek alapján meghatározza, egyidejűleg a predikciónál egy megfelelő nyereségi paramétert képez. A 106 inverz szűrő második maradékjelet is létrehoz, vagyis az éppen vizsgált lineáris predikciós kódolásos maradékjel és a késleltetés után keletkező lineáris predikciós maradékjel különbségét állapítja meg, amelyet a kapott paraméterek alapján skáláz. Dekóder számára 108 aktiválóegység képez aktiválási paramétereket, mégpedig a maradékjel egyszerű kvantálásával vagy más ismert módszerrel. A lineáris predikcióra jellemző a, koefficienseket, a hosszú távú predikciós késleltetés d értékét és a predikciós nyereségre jellemző g értéket az e aktiválási paraméterekkel együtt dekóderbe vezetjük. A korábban ismertté vált beszédérzékelőhöz hasonlóan a találmány szerinti elrendezés esetében a hangot követő fő érzékelő az Rj autokorrelációs koefficienseket átlagolja, mégpedig 110 átlagképző segítségével, amelynek kimenetén az áramösszetevők Rj’ súlyozott összege jelenik meg, és ez figyelembe veszi az előzőleg 111 pufferben tárolt keretek súlyozott összegeit is. A 111 puffer kimenetén 112 autokorrelációs egység van, amely aj lineáris predikciós aj koefficiensekből Bj autokorrelációs koefficienseket képez, amelyeket az elrendezés 113 pufferben tárol. A 113 puffer tartalmát a következőkben még leírt 200 kisegítődetektor által csak zajt tartalmazó időszaknak feltételezett időszakokban felújítjuk, és így a 113 pufferban jelen levő Bj autokorrelációs koefficiensek olyan becsült adathalmazt képviselnek, amelynek alapján a bemenőjelben levő zaj várható spektruma előre jelezhető. A 113 puffer kimenetén 114 szorzó-/összeadó egység van, amely az képlet szerint a zaj modelljét határozza meg.
A fenti képletben a zérus index azt jelzi, hogy a zérusrendű autokorrelációs koefficienst kell szerepeltetni, továbbá n a minták száma a beszéd ablakozásával kapott keretek mindegyikében.
A 114 szorzó-/összeadó egység kimenetén 115 komparátor van, amely a fenti M modellt küszöbértékkel ha3
HU 219 994 Β sonlítja össze és ennek alapján kimenetén olyan jelet továbbít, amely a beszéd jelenlétére vagy hiányára jellemző. A küszöbértéket 117 küszöbbeállító egység segítségével határozhatjuk meg, ebben figyelembe vehetjük a zajáram adott pillanatban érvényes szintjét.
A zaj fenti modelljének felújítására a 113 pufferben a 115 komparátor 116 kimenetén kapott jel nincs befolyással, mivel ha a beszéd felismerése hibás döntésnek bizonyul, akkor a 113 puffer tartalmának felújítása a beszédre vonatkozó információval következne be, és ennek eredményeként a további, immár viszonyítási alap nélküli felismerés lehetetlenné válna, tipikus csapdahelyzet jönne létre. Ezért a felújítás felügyeletére 200 kisegítődetektort építünk a rendszerbe, amely a zaj és a zöngétlen beszéd megkülönböztetésére szolgál, és erre a célra 201 összegező a bemeneti nem átlagolt Rs autokorrelációs koefficiensek és a nem pufferolt, a lineáris predikciós kódolással (LPC) kapott Bj autokorrelációs koefficiensek szorzatainak összegét képzi. Ezt az összeget ezután 202 kivonóegység a beszédből kiemelt előző keretekre vonatkozó összegekkel hasonlítja össze, mégpedig 203 pufferban történő késleltetés után. A bemenőjel egymást követő keretei közötti spektrális hasonlóságot ez a különbség jellemzi, amelyet 204 komparátor egy küszöbértékkel hasonlít össze, és kimenetén döntési jelet szolgáltat.
A zöngés beszéd felismerése céljából 205 csúcselemző egységet használunk, amely a hosszú távú predikciós késleltetést, tehát a d értéket méri. A 205 csúcselemző egység kimenete a 204 komparátor kimenetével kombinálva 206 VAGY kapuba jut, és a beszéd jelenlétét az elrendezés akkor feltételezi, ha a 200 kisegítődetektor megállapítása szerint a 204 komparátor és/vagy a 205 csúcselemző egység olyan kimenőjelzést állít elő, amely a beszéd jelenlétére utal. Mint erre már a bevezetőben utaltunk, ha az elrendezésnek a telefonrendszer választójeleit figyelmen kívül kell hagynia, akkor ezeket inkább beszédként mint zajként kell észlelni, és a leírt kisegítődetektor ennek a célnak a megvalósítására kevéssé alkalmas. Egyes hangokat képes felismerni, másokat viszont, különösen azokat, amelyek spektrális összetétele meglehetősen egyértelmű, nem képes azonosítani. Ha a 200 kisegítődetektor nem megfelelően működik, az alapérzékelést végző detektor szintén nem tudja feladatát ellátni, mivel a 113 pufferben ebben az esetben a zajra becsült spektrális eloszlás alapját éppen a telefonhálózat észlelt jelei adják.
Az előzőekből következően felismerésünk szerint a telefonrendszer jeleinek észleléséhez egy további kisegítődetektorra van szükség. Ebben célszerűen a választójelzések és hasonló jelek megfigyelését végezzük, ezek a jelek ugyanis mesterséges eredetűek, kisszámú frekvencia-összetevőt tartalmaznak, amelyek adott esetben moduláltan vannak jelen. A lineáris predikciós kódolás ilyen jelek esetében rendkívül hatékony eszközt jelent és ez adja az alapját annak, hogy az adott esetben több hangból álló jeleket, illetve az ilyen jelekre épülő hangokat a környezeti zajra jellemző jelektől megkülönböztessük.
A lineáris predikciós kódolás során a predikció GP predikciós nyereség! paraméterét úgy határozzuk meg, mint a bemenőjel teljesítményének és a kimenőjel teljesítményének arányát egy, a beszédből kiválasztott keretre, vagyis i=0 ahol Xj a szűrő bemeneti, yj az inverz szűrő kimeneti jelétjelenti és m
y(t)=x(t)+^y(t-i)a,, i«l ahol m a szűrési tényezők száma, általában 8 vagy 10. Az x(i) és y(i) jelek a 100 beszédkódoló kimenetén nyerhetők, illetve a 102 A/D átalakító és a 106 inverz szűrő kimenetén vehetők le. Az értékeket 301 és 302 négyzetképző egységek emelik négyzetre, majd a Gp predikciós nyereség! paramétert a 303 aritmetikai egység képezi, amely a fenti összefüggéseknek megfelelően végzi el a számításokat. A 303 aritmetikai egység kimenetijeiét 304 komparátor egy előre meghatározott T küszöbértékkel hasonlítja össze. Ha a nyereségi paraméter értéke túllépi a küszöböt, amelynek értéke tipikusan T=63 dB vagy T=18 dB, a hangot felismerni rendeli az elrendezés. A hang felismerésének esetére több különböző válasz lehetséges, mégpedig (a) az alapfelismerést végző detektor 116 kimenetét 305 VAGY kapu segítségével letiltjuk, (b) a 200 kisegítődetektor kimenetét a 206 VAGY kapu harmadik bemenete révén letiltjuk, vagy (c) mint a 2. ábrán látszik, mindkét lehetőséget egyszerre valósítjuk meg.
A hányados számítása helyett az x2-es tényezők összegét és az y2-es tényezők összegét külön-külön egyegy küszöbértékkel hasonlíthatjuk össze. A 3. ábra környezeti háttérzaj alapján, beszédből, választójelzések melletti háttérzaj alapján és csak választójelzések mellett a Gp predikciós nyereségi paraméter decibelben kifejezett értékeit mutatja, míg a 4. ábra a Gp predikciós nyereségi paramétert különböző, az Egyesült Királyság területén használatos telefonhálózati választójelzések esetére ábrázolja, mégpedig foglaltsági jelzés, tárcsahang, csengetési hang, elérhetetlen előfizetői szám jelzése és a „berendezés foglalt” jelzés esetére.
A gyakorlatban a foglaltsági jelzést, a tárcsahangot és az elérhetetlen előfizetői szám jelzését a kiegészítő érzékelőegységek sikeresen képesek megkülönböztetni, mivel ezek több frekvenciát tartalmazó jelzések, amelyeket például nyomógombos elrendezés generál. A csengetési hangot és a „berendezés foglalt” jelzést a 205 csúcselemző egység ismeri fel.
Az x(i) és az y(i) jeleket 300 kiegészítődetektor fogadja, amely bizonyos jelzéstípusok és hangtípusok felismerésére tehető alkalmassá. A 2. ábrán látható elrendezés esetében ezt a 300 kiegészítődetektort olyan egységként mutatjuk be, amely alkalmas annak a helyzet4
HU 219 994 Β nek az érzékelésére, amikor az yt jel szintje kicsi és ezért a 107 hosszú távú előrejelző elemzőegységnél, valamint ennek következtében a 205 csúcselemző egységnél nincs szükség nagy teljesítmény biztosítására.
A zöngés beszéd érzékelésének egy másik lehetősé- 5 gét az jelenti, hogy a 205 csúcselemző egységet a 301 és 302 négyzetképző egységből, a 303 aritmetikai egységből és a 304 komparátorból álló elrendezéshez hasonló berendezéssel váltjuk fel, amely a 107 hosszú távú előrejelző elemzőegység jele alapján Gp predik- 10 ciós nyereség! paramétert és küszöböt képez.
Az 5. ábra a 2. ábrán bemutatott elrendezés egy további módosítási lehetőségére utal. A 2. ábrán látható kiviteli alaknál a Gp predikciós nyereségi paramétert a lineáris predikciós kódolás elemzése alapján a 100 be- 15 szédkódolóban számítjuk ki, amely általában a nyolcadik vagy akár a tizedik rendű predikciót hasznosítja. Az elemzésnek ennél a megoldásánál érdemes megjegyezni, hogy a telefonhálózati tájékoztató jelzések a környezeti zajnál nagyobb Gp predikciós nyereségi paramétert 20 eredményeznek, és minél magasabb az elemzés rendje, annál jobb a prediktor képessége a környezeti zaj modellezésére, ezért azt találtuk, hogy ha a Gp predikciós nyereségi paramétert negyedrendű elemzésre korlátozzuk, az egy vagy két hangból álló információs jelzések 25 igen nagy nyereségi paramétert eredményeznek, míg a környezeti zajból származtatott Gp predikciós nyereségi paraméter értéke redukálható.
A fentieknek megfelelő eredmények úgy érhetők el, hogy a 105 elemzőegység és a 106 inverz szűrő mellett, 30 amelyek a nyolcadik rendet hasznosítják, a 200 kisegítődetektor bemeneti jeleit negyedrendű elemzéssel és szűréssel állítjuk elő. Megállapítható azonban, hogy a nyereségi paramétert a reflexiós koefficiensekből (amelyeket az irodalom adott esetben Parcor-koefficiensek- 35 ként határoz meg) egyszerűbben lehet kiszámítani. Az 5. ábra szerint a számításokat ismert módon 400 kalkulátor segítségével végezzük az Rj autokorrelációs koefficiensek alapján (a beszéd kódolására alkalmazott elrendezés felépítésétől függően ezek egy közbenső pon- 40 tón vehetők fel a 105 elemzőegység által végzett lineáris predikciós kódolás eredményeként). A Gp predikciós nyereségi paraméter mértékét úgy kaphatjuk meg, hogy az első négy Rcj reflexiós tényező alapján 401 predikciós hibaképző segítségével a 45
Pe=fl(l-Rch i=l képlet szerint a Pe predikciós hibát meghatározzuk. Ha a Pe predikciós hiba értéke magas, ez a nyereségi párámé- 50 tér alacsony szintjére utal és fordítva, ezért a telefonhálózati választójelzést jelenlevőnek ismeijük el, ha a Pe predikciós hiba értéke kisebb, mint egy Pth küszöbérték.
Az ennek a feltételnek megfelelő értékelést 403 komparátor végzi, amely a 2. ábra szerinti 304 komparator fűnk- 55 ciójával analóg feladatot lát el.
A hordozható telefonkészülékek környezetében kialakuló zajok általában kis frekvenciákon igen erős rezonanciás jelenségeket hordoznak, és ezért a vizsgálatokat abban a vonatkozásban is elvégezzük, hogy mégha- 60 tározzuk, vajon a hang egy adott küszöbfrekvencia alatt van-e. A küszöb meghatározása kompromisszumot jelent, és mivel a tárcsahangok, illetve a telefonjelzések frekvenciáinak többségére a 400 Hz fölötti frekvencia jellemző, javasolható küszöbként a 385 Hz frekvencia kijelölése.
A további ellenőrzés célja annak meghatározása, hogy a lineáris predikciós kódolásos szűrő pólusainak frekvenciája mekkora. Az elemzés bonyolultságát csökkenteni lehet, ha alacsonyabb rendű szűrőket használunk. Ekkor egy további lineáris predikciós kódolásos elemzést lehet elvégezni, de egyszerűbb, ha az 5. ábrán bemutatott módon járunk el, vagyis a reflexiós tényezőkre támaszkodva számítjuk a lineáris predikciós kódolásos a; koefficienseket. Ha a 400 kalkulátor kimenőjelei közül csak az első két reflexiós tényezőt hasznosítjuk, akkor a lineáris predikciós kódolásos aj koefficienseket hagyományos módon 404 lineáris predikciós kódolóval állapítjuk meg, amelynek működési alapját úgy határozzuk meg, hogy a szintézisszűrő válasza
H(z)=l/{a0+a1z-1+a2z2 legyen. Ez esetben a komplex z síkban a pólusok helyzeteit az aoz2+a1z+a2=0 másodfokú egyenlet megoldásai adják az ao= 1 feltétel mellett, vagyis
Ha a négyzetgyök alatti kifejezés értéke negatív, akkor a pólus a valós tengelyen fekszik és a jel maga nem hangnak felel meg. Ha viszont ez a kifejezés pozitív értéket vesz fel, de a pólusra adott pozíció valós része negatív, vagyis a, < 0, akkor a pólus a z sík bal oldali felén fekszik. Ez szükségszerűen azt jelenti, hogy a frekvencia a mintavételi ütem legalább 25%-a, vagyis ha az fs mintavételi frekvencia 8 kHz, akkor legalább 2000 Hz értékű és ez esetben a frekvencia számítására nincs szükség, a további feldolgozáshoz a „>385” jel minden további intézkedés nélkül generálható. A pólushoz tartozó frekvenciát az f=arc tg
-^4a2 -a2
kifejezés határozza meg.
Mivel az f<385 Hz feltételt vesszük figyelembe, ez az összefüggés végül is a (4a2-a,2) <tg2.
2πχ 385 fs kifejezés formájában írható fel, amelyből a mintavétel fs=8 kHz frekvenciáját feltételezve a (4a2-a2) <0,0973 egyenlőtlenség adódik. A megfelelő számításokat a 405 számítóegység végzi.
HU 219 994 Β
A 405 számítóegység kimenete 406 ÉS kapu egyik bemenetére jut, amelynek másik bemenetére a 403 komparátor van vezetve és így a hang jelenlétére utaló döntés akkor születik meg, ha egyrészt a Gp predikciós nyereségi paraméter értéke magas, másrészt pedig ezzel egyidejűleg a pólusfrekvenciára legalább 385 Hz érték adódott.
A pólusfrekvenciák 2000 Hz fölötti vagy még ennél magasabb felső határt meghaladó értékek esetén szükség szerint a számításokból kizárhatók és így elérhető, hogy egy adott várható választási jelzési tartományon kívül eső, azt meghaladó frekvenciákat a rendszer nem hangként azonosítja.
Ha a rendszerben negyedfokú egyenlet megoldására alkalmas számítások is elvégezhetők, akkor a harmadik és a negyedik reflexiós tényezőt is figyelembe vehetjük. Ebben az esetben a pólusok két komplex konjugált párját a hozzájuk tartozó frekvenciákkal azonosíthatjuk és ez a hang felismerésében azt a segítséget adja, hogy hangnak tekintjük a jelzést, ha mindkét frekvencia egy adott küszöbérték alatt marad.
A 2. és 5. ábra kapcsán már említettük azt, hogy célszerű a Hamming-ablak felhasználása a 103 ablakozóegységben végzett autokorrelációs elemzés előtt, ahogy ez az autokorrelációra épülő lineáris predikciós kódolásos elemzés esetén szokásos. Ha az ablakozás a 100 beszédkódolóban nemkívánatos, akkor az 5. ábra szerint a másik lehetőséget az jelenti, hogy a 103 ablakozóegységet elhagyjuk és a 400 kalkulátorban figyelembe vett reflexiós tényezőket az autokorrelációs értékeknek kovarianciaértékekre való konverziójával váltjuk fel. Ennek megfelelően a 401 predikciós hibaképzőt és a 404 lineáris predikciós kódolót úgy módosítjuk, hogy azok a reflexiós tényezők szerint kovarianciaértékeket hasznosítsák. A 6. ábra tanúsága szerint - itt csak azokat az elemeket mutatjuk, amelyek az 5. ábrához képest megváltoztak - olyan megoldás is lehetséges, amelynél a kiinduló feldolgozást a 109 kovarianciaelemző egységgel végezzük, amelynek kimenetét a reflexiós tényezők meghatározása céljából 400’ kalkulátorra vezetjük és azt ugyancsak a módosított 104’ autokorrelációs egység bemenetére is kapcsoljuk. A 105 elemzőegység az előzőeknek megfelelően ez esetben is csatlakoztatható a 104’ autokorrelációs egységre vagy pedig közvetlenül a 109 kovarianciaelemző egységgel köthető össze.
A hangjelek felismerését biztosító, előzőekben leírt kiviteli alakok a működés során kedvező eredményeket hoztak. Egyes területeken azonban a mechanikailag generált hangok felismerését nem biztosítják, mivel ezekben a hangokban a magasabb harmonikusok részaránya viszonylag nagy, és így a predikciós nyereségi paraméter értéke kicsi marad. A magasabb harmonikusok kiszűrése nem igazán kedvező megoldás, mivel minden szűrő beiktatása az összes jel vonatkozásában az autokorreláció növekedését hozza maga után, és így az egyéb jelekre megállapított predikciós nyereségek is növekvő értékeket mutatnak. Úgy találtuk, hogy a prediktor inkább a szűrők pólusainak modellezésére alkalmas, semmint a bemenőjel karakterisztikáinak modellezéses követésére. Azt is észrevettük azonban, hogy a szűrés beiktatása jó eredményeket hozhat, ha a predikciós nyereségi elemzést korlátozni lehet annak előrejelezhetőségére, hogy egy jel csak egy, a harmonikus szűrő áteresztési sávjának megfelelő frekvenciasávban van. Ezt a jelből részminták vételével (almintavétellel) lehet elérni, amikor a szűrő sávszélességének kétszeresét kitevő frekvenciát vesszük alapul, mégpedig a predikciós nyereségi elemzés előtt.
A fentiekben vázolt felismerés legfontosabb elemeit a 7. ábra szerinti kapcsolás megvalósításával hasznosítottuk. Ez a kapcsolás alapvetően hasonlít az 5. ábra szerinti megoldáshoz, itt is 450 szűrő van, amely egyenletesen simító aluláteresztő FIR szűrő, és ennek zéruspontjai 600 Hz-ig (3 dB-es pontig) teijedő áteresztési sávval ellátott egységnyi körön fekszenek, a lezárási sávban csillapításuk 1200 Hz frekvencián 20 dB-t ér el. Feltételezéseink szerint előnyös, ha a lezárási sávban a csillapítás értéke nem túl nagy. A 450 szűrő kimenetét 1200 Hz frekvencián 451 almintavevőben dolgozzuk fel.
Amikor ezt a szűrési mechanizmust alkalmazzuk, a 100 beszédkódolóval a komponensek megosztásához a hang érzékelésének lehetőségei jelentős mértékben korlátozódnak. A 450 szűrőt közvetlenül digitalizált bemenőjellel látjuk el, amelynek forrását a 102 A/D átalakító jelenti és kimenete 400” kalkulátorra van vezetve, amely a reflexiós tényezők elemzését végzi, illetve szükség szerint a kovarianciás vagy autokorrelációs elemzésre szolgál. Az autokorreláció megvalósítása során a fentiekben már vázolt módon szükség van az ablakozásra.
A találmány szerinti elrendezés kialakítható úgy is, hogy a Gp predikciós nyereségi paraméterek elemzésének frekvenciatartományát nem kell feltétlenül a harmonikusok problémájának megoldása céljából korlátozni. Ez esetben úgy járunk el, hogy a jelet két vagy több frekvenciasávra osztjuk, és ezeket a frekvenciasávokat elegendően keskenynek választjuk ahhoz, hogy egy hang alapfrekvenciáját és harmadik felharmonikusát tartalmazzák. Ezek után a csatornák tartalmát részmintavételnek vetjük alá és külön-külön elvégezzük a predikciós nyereségi elemzést.
Az előzőekben vázolt több frekvenciasávra osztott feldolgozást végző elrendezést a 8. ábra mutatja be, amelyben 450a és 450b szűrő bemenetűkre vezetett jelből a 400 Hz és 1200 Hz, illetve az 1200 Hz és 2000 Hz közötti frekvenciasávot jelentő tartományokat választja ki, amelyeket 1,6 kHz frekvencián 451a és 451b almintavevő segítségével dolgozunk fel. A két sávhoz különkülön 400”a és 400”b kalkulátort rendelünk, amelyek rendre 401a és 401b predikciós hibaképzőre, majd 403a és 403b komparátorra vannak csatlakoztatva, és ez utóbbiak egy adott küszöbértéknek megfelelő összehasonlító elemzést végeznek. A 403a és 403b komparátorok kimenetei rendre a 206 VAGY kapu egy-egy megfelelő bemenetére vannak vezetve, és így a csatornák bármelyikében a nagy predikciós nyereség megállapításakor az elrendezés arra következtet, hogy hangjelzés van jelen. A 8. ábra a 7. ábra szerinti elrendezés kiegészítését, illetve módosítását jelenti, így a 7. ábrát és annak elemeit itt nem ismételjük meg.

Claims (8)

  1. SZABADALMI IGÉNYPONTOK
    1. Beszédérzékelő, bemenőjelben beszéd jelenlétének érzékelésére, amely a bemenőjel zajkomponensének becsült formáját tároló pufferrel (113), a bemenőjel és a pufferben (113) tárolt adatok spektrális hasonlóságát felismerő szorzó-/összeadó egységgel (114), valamint a tárolt becsült formát felújító részegységgel van kialakítva, ahol a felújító részegységhez kisegítődetektor van kapcsolva, amely abban az esetben, ha a bemenőjelben nem érzékel beszédet, a felújító részegységet aktualizálja, azzal jellemezve, hogy a bemenetijeire predikciós nyereségi paramétert (Gp) számító aritmetikai egységet (303) és a predikciós nyereségi paraméternek (Gp) egy küszöbértéket meghaladó értéke esetén a felújítást kizáró, célszerűen komparátorral (304) és VAGY kapuval (206) működő módosítóegységet tartalmaz.
  2. 2. Az 1. igénypont szerinti beszédérzékelő, azzal jellemezve, hogy a kisegítődetektor (200) célszerűen összegezővei (201), kivonóegységgel (202), pufferral (203) és komparátorral (204) megvalósított, lineáris predikciós kódolás maradékjeléből derivált jelekre érzékeny, zöngés beszédet felismerő detektorral van ellátva.
  3. 3. Az 1. vagy 2. igénypont szerinti beszédérzékelő, azzal jellemezve, hogy a predikciós nyereségi paraméter (Gp) legfeljebb hatodrendű lineáris predikciós kódolás predikciós nyereségét jelenti.
  4. 4. A 3. igénypont szerinti beszédérzékelő, azzal jellemezve, hogy a predikciós nyereségi paraméter (Gp) negyedrendű lineáris predikciós kódolás predikciós nyereségét jelenti.
  5. 5. Az 1-4. igénypontok bármelyike szerinti beszédérzékelő, azzal jellemezve, hogy a bemenőjel egy vagy több primer frekvenciájú összetevőjét érzékelő lineáris predikciós kódolóval (404) van ellátva, amelyhez a frekvenciákat egy előre meghatározott küszöbértékkel összehasonlító és a primer komponensnek a küszöbértéket meghaladó értéke mellett a felújítás elnyomását engedélyező, célszerűen számítóegységből (405) és ÉS kapuból (406) álló eszköz van csatlakoztatva.
  6. 6. Az 1-5. igénypontok bármelyike szerinti beszédérzékelő, azzal jellemezve, hogy a predikciós nyereségi paramétert (Gp) meghatározó egysége predikciós hibaképzővel (401) van ellátva, amelynek bemenetén szűrő (450) van elrendezve.
  7. 7. A 6. igénypont szerinti beszédérzékelő, azzaljellemezve, hogy két áteresztési sávhoz rendelt két szűrővel (450a, 450b) van ellátva, amelyekhez az egyes áteresztési sávokban predikciós nyereségi paramétert (Gp) megállapító predikciós hibaképzők (401a, 401b) vannak csatlakoztatva, amelyek módosítóegységként a felújítás elnyomását akkor engedélyezik, ha a predikciós nyereségi paraméter (Gp) mindkét áteresztési sávban egy adott küszöbértéket túllép.
  8. 8. A 6. vagy 7. igénypont szerinti beszédérzékelő, azzal jellemezve, hogy a szűrők (450, 450a, 450b) kimenetén almintavevő (451, 451a, 451b) van elrendezve.
HU9600641A 1993-09-14 1994-09-14 Beszédérzékelő HU219994B (hu)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP93307211 1993-09-14
GB939324967A GB9324967D0 (en) 1993-12-06 1993-12-06 Voice activity detector
GB9412451A GB9412451D0 (en) 1994-06-21 1994-06-21 Voice activity detector
PCT/GB1994/001999 WO1995008170A1 (en) 1993-09-14 1994-09-14 Voice activity detector

Publications (3)

Publication Number Publication Date
HU9600641D0 HU9600641D0 (en) 1996-05-28
HUT73986A HUT73986A (en) 1996-10-28
HU219994B true HU219994B (hu) 2001-10-28

Family

ID=27235491

Family Applications (1)

Application Number Title Priority Date Filing Date
HU9600641A HU219994B (hu) 1993-09-14 1994-09-14 Beszédérzékelő

Country Status (23)

Country Link
US (2) US5749067A (hu)
EP (1) EP0719439B1 (hu)
JP (1) JP3224132B2 (hu)
KR (1) KR100363309B1 (hu)
CN (1) CN1064772C (hu)
AT (1) ATE182420T1 (hu)
BR (1) BR9407535A (hu)
CA (1) CA2169745C (hu)
CZ (1) CZ286743B6 (hu)
DE (1) DE69419615T2 (hu)
DK (1) DK0719439T3 (hu)
ES (1) ES2136204T3 (hu)
FI (1) FI118195B (hu)
GR (1) GR3031515T3 (hu)
HK (1) HK1014392A1 (hu)
HU (1) HU219994B (hu)
IN (1) IN184794B (hu)
MY (1) MY111134A (hu)
NO (1) NO307979B1 (hu)
NZ (1) NZ273045A (hu)
SG (1) SG48935A1 (hu)
SK (1) SK281796B6 (hu)
WO (1) WO1995008170A1 (hu)

Families Citing this family (96)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IN184794B (hu) * 1993-09-14 2000-09-30 British Telecomm
JP3522012B2 (ja) * 1995-08-23 2004-04-26 沖電気工業株式会社 コード励振線形予測符号化装置
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
KR20000022285A (ko) * 1996-07-03 2000-04-25 내쉬 로저 윌리엄 음성 액티비티 검출기 및 검출 방법
US6708146B1 (en) * 1997-01-03 2004-03-16 Telecommunications Research Laboratories Voiceband signal classifier
JPH10247098A (ja) * 1997-03-04 1998-09-14 Mitsubishi Electric Corp 可変レート音声符号化方法、可変レート音声復号化方法
US6531982B1 (en) 1997-09-30 2003-03-11 Sirf Technology, Inc. Field unit for use in a GPS system
US5970446A (en) 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
US6385548B2 (en) * 1997-12-12 2002-05-07 Motorola, Inc. Apparatus and method for detecting and characterizing signals in a communication system
US6327471B1 (en) 1998-02-19 2001-12-04 Conexant Systems, Inc. Method and an apparatus for positioning system assisted cellular radiotelephone handoff and dropoff
US5991718A (en) * 1998-02-27 1999-11-23 At&T Corp. System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments
US6182035B1 (en) 1998-03-26 2001-01-30 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for detecting voice activity
US6348744B1 (en) 1998-04-14 2002-02-19 Conexant Systems, Inc. Integrated power management module
US6453289B1 (en) 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
US7711038B1 (en) 1998-09-01 2010-05-04 Sirf Technology, Inc. System and method for despreading in a spread spectrum matched filter
US7545854B1 (en) * 1998-09-01 2009-06-09 Sirf Technology, Inc. Doppler corrected spread spectrum matched filter
US6693953B2 (en) 1998-09-30 2004-02-17 Skyworks Solutions, Inc. Adaptive wireless communication receiver
US6448925B1 (en) 1999-02-04 2002-09-10 Conexant Systems, Inc. Jamming detection and blanking for GPS receivers
US6606349B1 (en) 1999-02-04 2003-08-12 Sirf Technology, Inc. Spread spectrum receiver performance improvement
US6556967B1 (en) 1999-03-12 2003-04-29 The United States Of America As Represented By The National Security Agency Voice activity detector
US6304216B1 (en) 1999-03-30 2001-10-16 Conexant Systems, Inc. Signal detector employing correlation analysis of non-uniform and disjoint sample segments
US6577271B1 (en) 1999-03-30 2003-06-10 Sirf Technology, Inc Signal detector employing coherent integration
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
US6381568B1 (en) 1999-05-05 2002-04-30 The United States Of America As Represented By The National Security Agency Method of transmitting speech using discontinuous transmission and comfort noise
US6351486B1 (en) 1999-05-25 2002-02-26 Conexant Systems, Inc. Accelerated selection of a base station in a wireless communication system
JP3929686B2 (ja) * 2000-08-14 2007-06-13 松下電器産業株式会社 音声スイッチング装置およびその方法
US6788655B1 (en) 2000-04-18 2004-09-07 Sirf Technology, Inc. Personal communications device with ratio counter
US6931055B1 (en) 2000-04-18 2005-08-16 Sirf Technology, Inc. Signal detector employing a doppler phase correction system
US6714158B1 (en) * 2000-04-18 2004-03-30 Sirf Technology, Inc. Method and system for data detection in a global positioning system satellite receiver
US6952440B1 (en) 2000-04-18 2005-10-04 Sirf Technology, Inc. Signal detector employing a Doppler phase correction system
FR2808391B1 (fr) * 2000-04-28 2002-06-07 France Telecom Systeme de reception pour antenne multicapteur
US7885314B1 (en) 2000-05-02 2011-02-08 Kenneth Scott Walley Cancellation system and method for a wireless positioning system
US6778136B2 (en) 2001-12-13 2004-08-17 Sirf Technology, Inc. Fast acquisition of GPS signal
JP4201470B2 (ja) * 2000-09-12 2008-12-24 パイオニア株式会社 音声認識システム
JP4201471B2 (ja) * 2000-09-12 2008-12-24 パイオニア株式会社 音声認識システム
US7472059B2 (en) * 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification
WO2002052546A1 (en) * 2000-12-27 2002-07-04 Intel Corporation Voice barge-in in telephony speech recognition
US6707869B1 (en) * 2000-12-28 2004-03-16 Nortel Networks Limited Signal-processing apparatus with a filter of flexible window design
DE10121532A1 (de) * 2001-05-03 2002-11-07 Siemens Ag Verfahren und Vorrichtung zur automatischen Differenzierung und/oder Detektion akustischer Signale
JP3859462B2 (ja) * 2001-05-18 2006-12-20 株式会社東芝 予測パラメータ分析装置および予測パラメータ分析方法
KR100399057B1 (ko) * 2001-08-07 2003-09-26 한국전자통신연구원 이동통신 시스템의 음성 활성도 측정 장치 및 그 방법
US20030110029A1 (en) * 2001-12-07 2003-06-12 Masoud Ahmadi Noise detection and cancellation in communications systems
US7689406B2 (en) * 2002-03-08 2010-03-30 Koninklijke Kpn. N.V. Method and system for measuring a system's transmission quality
US7454331B2 (en) * 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
US20040064314A1 (en) * 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
US7146316B2 (en) * 2002-10-17 2006-12-05 Clarity Technologies, Inc. Noise reduction in subbanded speech signals
US7230955B1 (en) * 2002-12-27 2007-06-12 At & T Corp. System and method for improved use of voice activity detection
US7272552B1 (en) * 2002-12-27 2007-09-18 At&T Corp. Voice activity detection and silence suppression in a packet network
JP2004341339A (ja) * 2003-05-16 2004-12-02 Mitsubishi Electric Corp 雑音抑圧装置
ES2290764T3 (es) * 2003-05-28 2008-02-16 Dolby Laboratories Licensing Corporation Metodo, aparato y programa de ordenador para calcular y ajustar la sonoridad percibida de una señal de audio.
WO2005007707A1 (ja) 2003-07-16 2005-01-27 Daikin Industries, Ltd. 含フッ素重合体の製造方法、含フッ素重合体水性分散液、2−アシルオキシカルボン酸誘導体及び界面活性剤
SG119199A1 (en) * 2003-09-30 2006-02-28 Stmicroelectronics Asia Pacfic Voice activity detector
JP4497911B2 (ja) * 2003-12-16 2010-07-07 キヤノン株式会社 信号検出装置および方法、ならびにプログラム
US20050209762A1 (en) * 2004-03-18 2005-09-22 Ford Global Technologies, Llc Method and apparatus for controlling a vehicle using an object detection system and brake-steer
FI20045315A (fi) * 2004-08-30 2006-03-01 Nokia Corp Ääniaktiivisuuden havaitseminen äänisignaalissa
WO2006047600A1 (en) 2004-10-26 2006-05-04 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US8199933B2 (en) 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
JP4729927B2 (ja) * 2005-01-11 2011-07-20 ソニー株式会社 音声検出装置、自動撮像装置、および音声検出方法
EA026063B1 (ru) * 2005-04-18 2017-02-28 Басф Се Сополимер, синтезированный из по меньшей мере трех различных моноэтиленненасыщенных мономеров
US7826945B2 (en) * 2005-07-01 2010-11-02 You Zhang Automobile speech-recognition interface
DE102006032967B4 (de) * 2005-07-28 2012-04-19 S. Siedle & Söhne Telefon- und Telegrafenwerke OHG Hausanlage und Verfahren zum Betreiben einer Hausanlage
GB2430129B (en) * 2005-09-08 2007-10-31 Motorola Inc Voice activity detector and method of operation therein
CN101322182B (zh) * 2005-12-05 2011-11-23 高通股份有限公司 用于检测音调分量的系统、方法和设备
US8417185B2 (en) * 2005-12-16 2013-04-09 Vocollect, Inc. Wireless headset and method for robust voice data communication
US7885419B2 (en) 2006-02-06 2011-02-08 Vocollect, Inc. Headset terminal with speech functionality
US7773767B2 (en) 2006-02-06 2010-08-10 Vocollect, Inc. Headset terminal with rear stability strap
ES2525427T3 (es) 2006-02-10 2014-12-22 Telefonaktiebolaget L M Ericsson (Publ) Un detector de voz y un método para suprimir sub-bandas en un detector de voz
US8920343B2 (en) 2006-03-23 2014-12-30 Michael Edward Sabatino Apparatus for acquiring and processing of physiological auditory signals
CN101410892B (zh) * 2006-04-04 2012-08-08 杜比实验室特许公司 改进的离散余弦变换域中的音频信号响度测量及修改
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
CN102684628B (zh) 2006-04-27 2014-11-26 杜比实验室特许公司 修正音频动态处理器的参数的方法以及执行该方法的设备
CN101149921B (zh) * 2006-09-21 2011-08-10 展讯通信(上海)有限公司 一种静音检测方法和装置
KR101137715B1 (ko) 2006-10-20 2012-04-25 돌비 레버러토리즈 라이쎈싱 코오포레이션 리셋을 사용하는 오디오 다이내믹스 프로세싱
US8521314B2 (en) * 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
US20080147389A1 (en) * 2006-12-15 2008-06-19 Motorola, Inc. Method and Apparatus for Robust Speech Activity Detection
CN101681619B (zh) * 2007-05-22 2012-07-04 Lm爱立信电话有限公司 改进的话音活动性检测器
US8396574B2 (en) * 2007-07-13 2013-03-12 Dolby Laboratories Licensing Corporation Audio processing using auditory scene analysis and spectral skewness
US20090043577A1 (en) * 2007-08-10 2009-02-12 Ditech Networks, Inc. Signal presence detection using bi-directional communication data
US8190440B2 (en) * 2008-02-29 2012-05-29 Broadcom Corporation Sub-band codec with native voice activity detection
EP2107553B1 (en) * 2008-03-31 2011-05-18 Harman Becker Automotive Systems GmbH Method for determining barge-in
US8611556B2 (en) * 2008-04-25 2013-12-17 Nokia Corporation Calibrating multiple microphones
US8244528B2 (en) 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
US8275136B2 (en) * 2008-04-25 2012-09-25 Nokia Corporation Electronic device speech enhancement
CN101572090B (zh) * 2008-04-30 2013-03-20 向为 一种自适应多速率窄带编码方法及编码器
USD605629S1 (en) 2008-09-29 2009-12-08 Vocollect, Inc. Headset
KR101547344B1 (ko) 2008-10-31 2015-08-27 삼성전자 주식회사 음성복원장치 및 그 방법
TWI384423B (zh) * 2008-11-26 2013-02-01 Ind Tech Res Inst 以聲音事件為基礎之緊急通報方法與系統以及行為軌跡建立方法
CN101609678B (zh) 2008-12-30 2011-07-27 华为技术有限公司 信号压缩方法及其压缩装置
US8160287B2 (en) 2009-05-22 2012-04-17 Vocollect, Inc. Headset with adjustable headband
JP5793500B2 (ja) 2009-10-19 2015-10-14 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声区間検出器及び方法
US8438659B2 (en) 2009-11-05 2013-05-07 Vocollect, Inc. Portable computing device and headset interface
FR2956539B1 (fr) * 2010-02-16 2012-03-16 Dominique Retali Procede de detection du fonctionnement d'un dispositif de transmission sans fil de signaux de voix.
US20120143604A1 (en) * 2010-12-07 2012-06-07 Rita Singh Method for Restoring Spectral Components in Denoised Speech Signals
US8954322B2 (en) * 2011-07-25 2015-02-10 Via Telecom Co., Ltd. Acoustic shock protection device and method thereof
US9363603B1 (en) 2013-02-26 2016-06-07 Xfrm Incorporated Surround audio dialog balance assessment
CN111261197B (zh) * 2020-01-13 2022-11-25 中航华东光电(上海)有限公司 一种复杂噪声场景下的实时语音段落追踪方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4358738A (en) * 1976-06-07 1982-11-09 Kahn Leonard R Signal presence determination method for use in a contaminated medium
JPS53105303A (en) * 1977-02-25 1978-09-13 Hitachi Ltd Preprocessing system for audio recognition
JPS5850360B2 (ja) * 1978-05-12 1983-11-10 株式会社日立製作所 音声認識装置における前処理方法
JPS59115625A (ja) * 1982-12-22 1984-07-04 Nec Corp 音声検出器
US4731846A (en) * 1983-04-13 1988-03-15 Texas Instruments Incorporated Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal
DE3370423D1 (en) * 1983-06-07 1987-04-23 Ibm Process for activity detection in a voice transmission system
US4700392A (en) * 1983-08-26 1987-10-13 Nec Corporation Speech signal detector having adaptive threshold values
US4696039A (en) * 1983-10-13 1987-09-22 Texas Instruments Incorporated Speech analysis/synthesis system with silence suppression
JPH0748695B2 (ja) * 1986-05-23 1995-05-24 株式会社日立製作所 音声符号化方式
DE68929442T2 (de) * 1988-03-11 2003-10-02 British Telecomm Vorrichtung zur Erfassung von Sprachlauten
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
JP2573352B2 (ja) * 1989-04-10 1997-01-22 富士通株式会社 音声検出装置
US5680508A (en) * 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
IN184794B (hu) * 1993-09-14 2000-09-30 British Telecomm
US5659622A (en) * 1995-11-13 1997-08-19 Motorola, Inc. Method and apparatus for suppressing noise in a communication system

Also Published As

Publication number Publication date
KR100363309B1 (ko) 2003-02-17
JP3224132B2 (ja) 2001-10-29
GR3031515T3 (en) 2000-01-31
DK0719439T3 (da) 2000-02-07
CN1064772C (zh) 2001-04-18
NO307979B1 (no) 2000-06-26
FI118195B (fi) 2007-08-15
EP0719439B1 (en) 1999-07-21
SK31896A3 (en) 1997-03-05
HK1014392A1 (en) 1999-09-24
SG48935A1 (en) 1998-05-18
CZ67896A3 (en) 1996-07-17
CA2169745A1 (en) 1995-03-23
CZ286743B6 (en) 2000-06-14
MY111134A (en) 1999-08-30
FI961158A0 (fi) 1996-03-13
US5749067A (en) 1998-05-05
NO961032D0 (no) 1996-03-13
SK281796B6 (sk) 2001-08-06
FI961158A (fi) 1996-03-13
NZ273045A (en) 1996-11-26
EP0719439A1 (en) 1996-07-03
AU673776B2 (en) 1996-11-21
NO961032L (no) 1996-03-13
KR960705303A (ko) 1996-10-09
JPH09502814A (ja) 1997-03-18
WO1995008170A1 (en) 1995-03-23
IN184794B (hu) 2000-09-30
DE69419615T2 (de) 2000-05-25
CA2169745C (en) 2000-05-16
BR9407535A (pt) 1997-08-26
DE69419615D1 (de) 1999-08-26
AU7619894A (en) 1995-04-03
US6061647A (en) 2000-05-09
CN1130952A (zh) 1996-09-11
HU9600641D0 (en) 1996-05-28
HUT73986A (en) 1996-10-28
ES2136204T3 (es) 1999-11-16
ATE182420T1 (de) 1999-08-15

Similar Documents

Publication Publication Date Title
HU219994B (hu) Beszédérzékelő
EP0909442B1 (en) Voice activity detector
Sadjadi et al. Unsupervised speech activity detection using voicing measures and perceptual spectral flux
FI110726B (fi) Äänen aktiivisuuden ilmaisu
US6023674A (en) Non-parametric voice activity detection
JP3963850B2 (ja) 音声区間検出装置
KR100944252B1 (ko) 오디오 신호 내에서 음성활동 탐지
US5963901A (en) Method and device for voice activity detection and a communication device
KR100455225B1 (ko) 보코더에 의해 인코드되는 다수의 프레임들에 잔존 프레임들을 추가하는 방법 및 장치
US20010001853A1 (en) Low frequency spectral enhancement system and method
GB2450886A (en) Voice activity detector that eliminates from enhancement noise sub-frames based on data from neighbouring speech frames
Sakhnov et al. Approach for Energy-Based Voice Detector with Adaptive Scaling Factor.
US5579432A (en) Discriminating between stationary and non-stationary signals
Sakhnov et al. Dynamical energy-based speech/silence detector for speech enhancement applications
Vahatalo et al. Voice activity detection for GSM adaptive multi-rate codec
AU673776C (en) Voice activity detector
JPH07283860A (ja) ノイズ除去装置
JPH10304023A (ja) 電話機
NZ286953A (en) Speech encoder/decoder: discriminating between speech and background sound

Legal Events

Date Code Title Description
HPC4 Succession in title of patentee

Owner name: LG ELECTRONICS INC., KR