DE69419615T2 - Sprachaktivitaetsdetektor - Google Patents

Sprachaktivitaetsdetektor

Info

Publication number
DE69419615T2
DE69419615T2 DE69419615T DE69419615T DE69419615T2 DE 69419615 T2 DE69419615 T2 DE 69419615T2 DE 69419615 T DE69419615 T DE 69419615T DE 69419615 T DE69419615 T DE 69419615T DE 69419615 T2 DE69419615 T2 DE 69419615T2
Authority
DE
Germany
Prior art keywords
speech
gain
input signal
predictor
activity detector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69419615T
Other languages
English (en)
Other versions
DE69419615D1 (de
Inventor
Paul Barrett
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=27235491&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE69419615(T2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Priority claimed from GB939324967A external-priority patent/GB9324967D0/en
Priority claimed from GB9412451A external-priority patent/GB9412451D0/en
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Application granted granted Critical
Publication of DE69419615D1 publication Critical patent/DE69419615D1/de
Publication of DE69419615T2 publication Critical patent/DE69419615T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q1/00Details of selecting apparatus or arrangements
    • H04Q1/18Electrical details
    • H04Q1/30Signalling arrangements; Manipulation of signalling currents
    • H04Q1/44Signalling arrangements; Manipulation of signalling currents using alternate current
    • H04Q1/444Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies
    • H04Q1/46Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies comprising means for distinguishing between a signalling current of predetermined frequency and a complex current containing that frequency, e.g. speech current
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M19/00Current supply arrangements for telephone systems
    • H04M19/08Current supply arrangements for telephone systems with current supply sources at the substations

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Geophysics And Detection Of Objects (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Telephone Function (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Investigating Or Analyzing Materials By The Use Of Electric Means (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Radio Relay Systems (AREA)
  • Investigating Or Analysing Materials By The Use Of Chemical Reactions (AREA)
  • Electromechanical Clocks (AREA)
  • Cosmetics (AREA)
  • Digital Transmission Methods That Use Modulated Carrier Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measuring Fluid Pressure (AREA)
  • Burglar Alarm Systems (AREA)

Description

  • Ein Sprachaktivitätsdetektor ist eine Vorrichtung, die zum Zweck des Erfassens von Sprachperioden oder von Perioden, die nur ein Rauschen enthalten, mit einem Signal gespeist wird. Auch wenn die vorliegende Erfindung nicht darauf beschränkt ist, ist eine Anwendung dieser Detektoren in Mobilfunk-Telephonsystemen, in denen die Kenntnis hinsichtlich enthaltener oder nicht enthaltener Sprache ausgewertet werden kann, um die Stromaufnahme und -beeinflussung durch Abschalten eines Senders während der Ruheperioden zu verringern, von besonderem Interesse. Hier ist auch der Geräuschpegel (aus einer im Fahrzeug montierten Einheit) wahrscheinlich hoch. Eine weitere mögliche Anwendung in Funksystemen besteht in der Verbesserung der effizienten Nutzung des Funkspektrums.
  • Fig. 1 zeigt einen Sprachaktivitätsdetektor, wie er in der Internationalen Patentanmeldung WO89/08910 des Anmelders beschrieben ist.
  • Verrauschte Sprachsignale werden an einem Eingang 1 empfangen. Ein Speicher 2 enthält Daten, die eine Abschätzung oder ein Modell des Rauschfrequenzspektrums definieren; zwischen diesem Modell und dem Spektrum des momentanen Signals wird ein Vergleich durchgeführt, um ein Maß für die Ähnlichkeit zu erhalten, das mit einem Schwellenwert verglichen wird. Um Änderungen in der Rauschkomponente zu verfolgen, wird das Rauschmodell aus dem Eingangssignal nur bei nicht enthaltener Sprache aktualisiert. Außerdem kann die Schwelle angepaßt werden (Adapter 6).
  • Um zu garantieren, daß die Anpassung nur während Perioden ausschließlichen Rauschens ohne die Gefahr einer auf eine falsche Entscheidung folgenden fortlaufenden, unkorrekten Anpassung geschieht, wird die Anpassung unter der Steuerung eines Hilfsdetektors 7 ausgeführt, der einen Detektor 8 für nicht gesprochene Sprache und einen Detektor 9 für gesprochene Sprache enthält: der Detektor 7 schätzt, daß Sprache enthalten ist, wenn einer der Detektoren Sprache erkennt, und unterdrückt das Aktualisieren und die Schwellenanpassung des Hauptdetektors. Gewöhnlich erhält der Detektor 8 für nicht gesprochene Sprache einen Satz von LPC-Koeffizienten für das Signal und vergleicht die Autokorrelationsfunktion dieser Koeffizienten zwischen aufeinanderfolgenden Rahmenperioden, während der Detektor 9 für gesprochene Sprache nach Änderungen in der Autokorrelation des LPC-Residuums sucht.
  • Diese Anordnung ist sehr erfolgreich beim Unterscheiden zwischen Sprachperioden und Perioden, in denen nur ein Rauschen empfangen wird. Jedoch entsteht ein Problem dadurch, daß Signalisierungstöne vom Hilfsdetektor häufig als einfaches Rauschen angenommen werden (d. h., diese nicht als Sprache erkannt werden), so daß sich der Hauptdetektor den Tönen anpaßt, als wären diese ein Rauschen, wobei die Übertragung der Töne verhindert oder wenigstens vorzeitig beendet wird.
  • Dieses Problem kann durch das Vorsehen von Tondetektoren beseitigt werden, wovon jeder auf die Frequenz(en) eines bestimmten Signalisierungstons abgestimmt ist; jedoch ist die Vielfalt verschiedener Signalisierungstöne in der ganzen Welt groß, so daß eine große Anzahl einzelner Detektoren erforderlich wäre, derart, daß z. B. ein Mobilfunkbenutzer, der einen internationalen Anruf tätigt, den "Besetzt"-Ton unabhängig von dem Land, aus dem dieser stammt, zuverlässig hören kann.
  • Gemäß der vorliegenden Erfindung wird ein Sprachaktivitätsdetektor zum Erfassen von Sprache in einem Eingangssignal geschaffen, der umfaßt:
  • (a) eine Vorrichtung zum Abspeichern einer Abschätzung der Rauschkomponenten in einem Eingangssignal,
  • (b) eine Vorrichtung zum Erkennen der spektralen Ähnlichkeit des Eingangssignals und der abgespeicherten Abschätzung zum Erzeugen eines Entscheidungsausgangssignals,
  • (c) eine Vorrichtung zum Aktualisieren der abgespeicherten Abschätzung,
  • (d) einen Hilfsdetektor, der dazu geeignet ist, die Aktualisierungsvorrichtung derart zu steuern, daß eine Aktualisierung nur stattfindet, wenn durch den Hilfsdetektor angezeigt wird, daß keine Sprache in dem Eingangssignal enthalten ist,
  • gekennzeichnet durch
  • eine Vorrichtung, die dazu dient, einen Vorhersage-Verstärkungsparameter (Prädiktor-Gain-Parameter) für das Eingangssignal zu berechnen, und eine Modifizierungsvorrichtung, die das Aktualisieren für den Fall unterdrückt, daß der Prädiktor-Gain einen Schwellenwert überschreitet.
  • Im folgenden sind einige Ausführungen der Erfindung beispielhaft unter Bezug auf die begleitende Zeichnung beschrieben, worin:
  • Fig. 2 ein Blockdiagramm eines Sprachcodierers mit einem Sprachaktivitätsdetektor gemäß einem Aspekt der vorliegenden Erfindung ist,
  • die Fig. 3 und 4 auf graphische Weise Prädiktor-Gain- Werte aus verschiedenen Eingangssignalen zeigen, die Fig. 5, 6 und 7 Blockdiagramme weiterer Ausführungen des Erfinders sind.
  • In Fig. 2 hat ein herkömmlicher Sprachcodierer 100 einen Spracheingang 101, wobei das Sprachsignal mit 8 kHz abgetastet und durch einen Analog-Digital-Umsetzer 102 in eine digitale Form umgesetzt wird. Eine Fenstertechnikeinheit 103 teilt die Sprachabtastwerte in Rahmen von (z. B.) 160 Abtastwerten (d. h. in 20-ms-Rahmen) ein und multipliziert diese mit einem Hamming-Fenster oder mit einer anderen Funktion, die den Anteil der Abtastwerte am Beginn und am Ende des Rahmens reduziert. Ein Korrelator 104 empfängt die digitalisierten Sprachabtastwerte und erzeugt die Autokorrelationskoeffizienten Ri für jeden Rahmen. Eine LPC-Analyseeinheit 105 berechnet die Koeffizienten ai eines (auch als Synthesefilter bezeichneten) Filters, das eine Frequenzantwort besitzt, die dem Frequenzspektrum des Spracheingangssignals entspricht, mit Hilfe eines herkömmlichen Verfahrens, z. B. eines Levinson-Durbin- oder Schurr-Algorithmus.
  • Das digitalisierte Eingangssignal wird außerdem durch ein durch die Koeffizienten gesteuertes Umkehrfilter (oder Analysefilter) 106 geführt, um ein Restsignal zu erzeugen, das durch eine Langzeitvorhersage-Analyseeinheit 107, die die optimale Verzögerung berechnet, weiter analysiert wird, um das LPC-Restsignal aus seinen vorhergehenden Werten sowie einen entsprechenden Gain-Wert für die Vorhersage vorherzusagen. Die Analyseeinheit 106 bildet außerdem ein zweites Residuum (d. h. die Differenz zwischen dem momentanen LPC-Residuum und dem durch die erhaltenen Parameter verzögerten und skalierten LPC- Residuum). Eine Erregereinheit 108 leitet die Erregungsparameter für die Übertragung zu einem Decodierer einfach durch Quantisieren des LPC-Residuums oder durch herkömmliche Mittel ab.
  • Die LPC-Koeffizienten ai, die Langzeitvorhersage-Verzögerung d und die Langzeitvorhersage-Verstärkung g sowie die Erregungsparameter e werden zu einem Decodierer übertragen.
  • Ein Haupt-Sprachaktivitätsdetektor gemäß der früheren Patentanmeldung des Anmelders mittelt die Autokorrelationskoeffizienten Ri mit Hilfe eines Mittelwertbilders 110, der eine gewichtete Summe Ri' der momentanen Koeffizienten und derjenigen aus den vorhergehenden, in einem Puffer 111 gespeicherten Rahmen erzeugt. Ein weiterer Autokorrelator 112 bildet die Autokorrelationskoeffizienten B der LPC-Koeffizienten ai, die zu einem Puffer 113 weitergeleitet werden. Die Inhalte des Puffers werden nur in Perioden aktualisiert, in denen ein (weiter unten zu beschreibender) Hilfsdetektor annimmt, daß sie nur Rauschen enthalten, so daß die Inhalte Bi' des Puffers 113 eine Abschätzung des Rauschspektrums des Eingangssignals darstellen. Eine Multiplikations-/Additionseinheit 114 bildet ein Maß M für die spektrale Ähnlichkeit zwischen dem Eingangssignal und dem Rauschmodell, das wie folgt definiert ist:
  • wobei der Suffix "0" den Autokorrelationskoeffizienten 0. Ordnung bezeichnet und n die Anzahl der Abtastwerte in einem Sprachrahmen ist.
  • Das Maß M wird in einem Komparator 115 mit einem Schwellenpegel verglichen und erzeugt an einem Ausgang 116 ein Signal, das enthaltene oder nicht enthaltene Sprache angibt. Die Schwelle kann dem momentanen Rauschleistungspegel entsprechend adaptiv eingestellt werden (117).
  • Das Aktualisieren der Rauschabschätzung in dem Pufferspeicher 113 wird nicht durch den Ausgang 116 des eben beschriebenen Detektors gesteuert, da ein Fehler in der Spracherkennung zu einem Aktualisieren des Puffers mit Sprachinformationen führen würde und in der Folge weitere Erkennungsfehler zu einer "Sperr"-Situation führen würden. Deshalb wird das Aktualisieren durch einen Hilfsdetektor 200 gesteuert. Um zwischen einem Rauschen und nicht gesprochener Sprache zu unterscheiden, bildet dieser (201) eine Summe aus den Produkten der (nicht gemittelten) Autokorrelationskoeffizienten Ri des Eingangs und der (nicht zwischengespeicherten) Autokorrelationskoeffizienten Bi der LPC-Koeffizienten. Ein Subtrahierer 202 vergleicht diese Summe mit der entsprechenden Summe für einen vorhergehenden, in einem Puffer 203 verzögerten Sprachrahmen. Diese Differenz, die die spektrale Ähnlichkeit zwischen aufeinanderfolgenden Rahmen des Eingangssignals darstellt, wird mit einer Schwelle verglichen (204), um ein Entscheidungssignal zu erzeugen.
  • Zum Erkennen gesprochener Sprache wird die Langzeitvorhersage-Verzögerung d durch eine Tonhöhe-Analyseeinheit 205 gemessen. Deren Ausgänge werden mit denen der schwellenbildenden Stufe 204 durch ein ODER-Glied 206 verknüpft - d. h., daß der Hilfsdetektor 200 schätzt, daß Sprache enthalten ist, wenn eine der Einheiten 204 und 205 oder beide ein Ausgangssignal erzeugen, das angibt, daß Sprache enthalten ist. Wie einleitend gesagt, müssen, wenn ein System Signalisierungstöne weiterleitet, diese als Sprache anstatt als Rauschen erkannt werden, wobei der eben beschriebene Hilfsdetektor beim Erreichen dieses Ziels nicht sehr effektiv ist. Obwohl er manche Töne erkennt, werden andere (im allgemeinen diejenigen mit relativ unvermischtem spektralem Inhalt) nicht erkannt. Wenn der Hilfsdetektor 200 versagt hat, versagt der Hauptdetektor ebenfalls, da die Rauschabschätzung im Puffer 113 dann auf den Signalisierungston "gerichtet" wird.
  • Dementsprechend wird ein weiterer Hilfsdetektor für die Erfassung von Signalisierungstönen vorgesehen. Vorzugsweise nutzt dieser die Beobachtung aus, daß Signalisierungstöne, wenn sie künstlich erzeugt werden, eine kleine Anzahl von Frequenzkomponenten (die moduliert sein können) enthalten. Die Leistungsfähigkeit eines LPC-Prädiktors ist für solche Signale außergewöhnlich hoch, wobei dies ausgenutzt wird, um zwischen Signalen, die auf Tönen basieren, (einschließlich Mehrfachtonsignalen) und Hintergrund- oder Umgebungsrauschsignalen zu unterscheiden.
  • Der LPC-Prädiktor-Gain Gp ist als Verhältnis der Eingangssignalenergie zur Ausgangssignalenergie für einen Sprachrahmen definiert, nämlich als
  • wobei xi der Filtereingang ist, während yi der Ausgang des Umkehrfilters
  • ist, wobei m die Anzahl der Filterkoeffizienten, gewöhnlich 8 oder 10, ist. Die Signale x(i) und y(i) werden vom LPC-Codierer 100 an den Ausgängen des Konverters 102 bzw. des Filters 106 bereitgestellt. Diese Werte werden quadriert (301, 302), während der Prädiktor-Gain durch eine Arithmetikeinheit 303, die Gp gemäß der obigen Gleichung berechnet, erhalten wird. Deren Ausgang wird durch einen Komparator 304 mit einem festgelegten Schwellenwert T verglichen; wenn der Gain die Schwelle überschreitet (gewöhnlich ist T = 63 oder 18 dB), wird angenommen, daß ein Ton erkannt worden ist. Es gibt verschiedene mögliche Reaktionen auf die Tonerkennung:
  • (a) Aufschalten des Hauptdetektorausgangs mit Hilfe eines ODER-Glieds 303
  • (b) Aufschalten des Hilfsdetektors mit Hilfe eines dritten Eingangs des ODER-Glieds 206
  • (c) beides (wie gezeigt)
  • Natürlich kann statt der Berechnung des Quotienten der Σx²-Ausdruck mit dem durch den Schwellenwert multiplizierten Σy²-Ausdruck verglichen werden. Fig. 3 zeigt Histogramme von Prädiktor-Gains in 45, die aus Hintergrund-Umgebungsrauschen, Sprache, Hintergrundrauschen in Signalisierungstönen und Signalisierungstönen selbst erhalten worden sind, während Fig. 4 Aufzeichnungen des Prädiktor-Gains für verschiedene Signalisierungstöne aus Großbritannien zeigt, nämlich:
  • "Teilnehmer-besetzt"-Ton
  • Wählton
  • Rufton
  • "Nummer-unerreichbar"-Ton
  • "Gerät-belegt"-Ton
  • In der Praxis werden "Teilnehmer-besetzt"-Ton, Wählton und "Nummer-unerreichbar"-Ton durch den weiteren Detektor erkannt, da diese tatsächlich Mehrfrequenztöne (z. B. von einem Tastenfeld) sind. Rufton und "Gerät-belegt"-Ton werden durch die Tonhöhe-Analyseeinheit 205 erkannt.
  • Der weitere Detektor 300 kann als Detektor für bestimmte Tontypen betrachtet werden; alternativ (in der Ausführung nach Fig. 2) kann er zur Erfassung einer Situation vorgesehen werden, in der das Residuum yi klein ist, so daß die Operation des Langzeit-Prädiktors 107 (und somit die der Tonhöhe-Analyse 205) nicht betriebssicher ist.
  • Eine alternative Option für das Erfassen gesprochener Sprache besteht darin, den Tonhöhendetektor 205 durch Elemente zu ersetzen, die zu 301, 302, 303 und 304 analog sind, Um auf der Grundlage der Langzeitvorhersage-Analyse 107 einen Prädiktor-Gain zu bilden (und diesen mit einer Schwelle zu vergleichen).
  • Im folgenden werden zwei weitere Modifikationen der Einrichtung aus Fig. 2 mit Bezug auf Fig. 5 beschrieben. Erstens beruht in der in Fig. 2 gezeigten Ausführung der berechnetet Prädiktor-Gain auf der LPC-Analyse des Sprachcodierers 100, der gewöhnlich einen Prädiktor 8. oder 10. Ordnung verwenden könnte. Jedoch ist unter Beachtung, daß die Grundlage dieses Teils der Analyse darin besteht, daß Meldungstöne zu höheren Prädiktor- Gains führen, als dies das Umgebungsrauschen tut, und daß die Fähigkeit des Prädiktors, die Rauschumgebung nachzubilden, um so größer ist, je höher die Ordnung der Analyse ist, festgestellt worden, daß durch Eingrenzen der Gain-Berechnung auf eine Analyse 4. Ordnung die aus einem oder zwei Tönen bestehenden Meldungssignale einen höheren Prädiktor-Gain ergeben, während der Prädiktor-Gain für das Umgebungsrauschen verkleinert werden kann.
  • Im Prinzip könnte dies durch das Vorsehen einer Analyse und eines Filters 4. Ordnung parallel zu den Einheiten 8. Ordnung 105, 106, um den Hilfsdetektor zu speisen, erreicht werden. Jedoch ist es einfacher, den Prädiktor- Gain aus den (auch als Parcor-Koeffizienten bezeichneten) Reflexionskoeffizienten zu berechnen. In Fig. 5 werden diese auf herkömmliche Weise durch eine Einheit 400 aus den Autokorrelationskoeffizienten Ri berechnet (obwohl es vom Entwurf des Sprachcodierers abhängig möglich wäre, diese mit der LPC-Analyseeinheit 105 an einem Zwischenpunkt aufzunehmen). Ein Maß für den Prädiktor-Gain kann durch Berechnung des Prädiktorfehlers Pe aus den ersten vier Reflexionskoeffizienten Rci wie folgt erhalten werden:
  • wobei diese bei 401 ausgeführt wird. Ein größerer Prädiktorfehler entspricht einem niedrigeren Prädiktor-Gain und umgekehrt, so daß geschätzt wird, daß ein Signalisierungston enthalten ist, wenn Pe kleiner als ein Schwellenwert Pth ist. Dieser Vergleich 403 ersetzt den Vergleich 304 aus Fig. 2.
  • Zweitens enthält ein Rauschen in einer Mobilfunkumgebung sehr starke Resonanzen bei niedrigen Frequenzen, so daß eine weitere Prüfung durchgeführt wird, ob der "Ton" unter einer Schwellenfrequenz liegt. Die Auswahl einer Schwelle birgt einen gewissen Kompromiß, jedoch werden 385 Hz vorgeschlagen, da die meisten Signalisierungstöne über 400 Hz liegen.
  • Diese weitere Prüfung geschieht durch Bestimmen der Frequenzen der Pole des LPC-Filters. Ein Filter niedriger Ordnung wird vorgezogen, um den Umfang der Analyse zu reduzieren. Wiederum könnte eine weitere LPC-Analyse durchgeführt werden, jedoch ist es einfacher, wie in Fig. 5 mit der Berechnung der LPC-Koeffizienten aus den Reflexionskoeffizienten fortzufahren. Angenommen, daß nur die ersten zwei Reflexionskoeffizienten der Einheit 400 verwendet werden, dann werden die LPC-Koeffizienten ai auf herkömmliche Weise durch eine Einheit 404 berechnet, die so definiert ist, daß die Antwort des Synthesefilters
  • H(z) = 1 / {a&sub0; + a&sub1;z&supmin;¹ + a&sub2;z&supmin;²}
  • lautet.
  • Dann ist die Lage der Pole in der z-Ebene durch die Lösung der quadratischen Gleichung
  • a&sub0;z² + a&sub1;z + a&sub2; = 0 a&sub0; = 1
  • d. h.
  • gegeben.
  • Wenn der Ausdruck unter der Quadratwurzel negativ ist, dann liegt der Pol auf der reellen Achse und das Signal ist kein Ton. Wenn er positiv ist, jedoch der reelle Teil der Pollage negativ ist (d. h.: a&sub1; < 0), dann liegt der Pol in der linken Hälfte der z-Ebene. Dies impliziert notwendigerweise, daß die Frequenz größer als 25% der Abtastfrequenz ist - d. h. bei einer Abtastfrequenz fs von 8 kHz über 2000 Hz beträgt, wobei in diesem Fall die Frequenzberechnung überflüssig ist und ein "> 385"-Signal unmittelbar erzeugt werden kann.
  • Die Polfrequenz ist gegeben durch:
  • Die Bedingung, daß f < 385 Hz, kann (unter Vermeidung von Quadratwurzeln) wie folgt geschrieben werden:
  • (4a&sub2; - a&sub1;²)/a&sub1;² < 0,0973 bei fs = 8 kHz
  • Diese Berechnung wird durch die Einheit 405 durchgeführt.
  • Deren Ausgang wird mit jenem des Komparators 403 durch ein UND-Glied verknüpft, so daß eine "Ton"-Entscheidung nur erzeugt wird, wenn gleichzeitig der Prädiktor-Gain groß ist und die Polfrequenz größer als 385 Hz ist.
  • Falls erwünscht können Polfrequenzen über 200 Hz (oder einer beliebigen anderen Obergrenze) ebenfalls erfaßt werden, so daß hohe Frequenzen über dem erwarteten Signalisierungstonbereich nicht als Töne erkannt würden.
  • Wenn die zusätzliche Berechnung bei der Lösung einer Gleichung 4. Grades berücksichtigt werden kann, dann ist es möglich, die dritten und vierten Reflexionskoeffizienten ebenfalls zu verwenden; in diesem Fall könnten potentiell zwei konjugiert komplexe Polpaare - mit zwei zugehörigen Frequenzen - identifiziert werden, mit der Absicht, daß ein Ton als nicht enthalten betrachtet wird, wenn beide Frequenzen unterhalb der Schwelle liegen.
  • Es ist bereits erwähnt worden, daß die Ausführungen der Fig. 2 und 5 vor der Autokorrelationsberechnung 103 (wie auch bei der auf der Autokorrelation basierenden LPC- Analyse) ein Hamming-Fenster verwenden. Wenn eine solche Fenstertechnik in dem Sprachcodierer nicht erwünscht ist, dann besteht eine mögliche Alternative im Fall von Fig. 5 darin, die Fenstertechnik 103 auszulassen und die Reflexionskoeffizientenberechnung 400 durch Konvertierung der Autokorrelationswerte in Kovarianzwerte zu ersetzen, wobei die Einheiten 401, 404 modifiziert werden, um statt Reflexionskoeffizienten Kovarianzwerte zu verwenden. Alternativ kann, wie in Fig. 6 (die nur die Teile zeigt, die sich in bezug auf Fig. 5 geändert haben) gezeigt ist, die anfängliche Verarbeitung mit Hilfe einer Kovarianzanalyse 109 erfolgen, deren Ausgang zu einer Reflexionskoeffizienten-Berechnungsvorrichtung 400' und einer modifizierten Autokorrelationskoeffizienteneinheit 104' geführt wird. Die LPC-Analyseeinheit 105 kann wie zuvor mit der Autokorrelationskoeffizienteneinheit 104' oder, wie gezeigt, direkt mit der Kovarianzanalyseeinheit 109 verbunden sein.
  • Die obenbeschriebenen "Tonerfassungs"-Ausführungen erzeugen gute Ergebnisse; sie können jedoch bei mechanisch erzeugten Tönen, wie sie in manchen Staatsgebieten verwendet werden, versagen, da diese häufig einen Oberwellengehalt besitzen, der zu einem niedrigen Prädiktor-Gain führt. Die Oberwellen einfach herauszufiltern, ist keine Lösung, da das Einführen eines Filters häufig die Autokorrelation sämtlicher Signale ansteigen läßt und somit auch zu höheren Prädiktor-Gains für andere Signale führt. Es ist festgestellt worden, daß der Prädiktor eher die Filterpole als die Eigenschaften des Eingangssignals nachbildet. Es ist jedoch entdeckt worden, daß bei Anwendung der Filterung gute Ergebnisse erzielt werden können, wenn die Prädiktor-Gain-Analyse darauf beschränkt werden kann, die Vorhersagbarkeit des Signals nur innerhalb eines Frequenzbereichs zu schätzen, der dem Durchlaßbereich des Oberwellenfilters entspricht. Dies kann durch Unterabtastung des Signals bei einer Frequenz, die der doppelten Filterbandbreite entspricht, vor der Prädiktor- Gain-Analyse erreicht werden.
  • So verwendet die Ausführung nach Fig. 7, die in anderen. Aspekten der Fig. 5 ähnlich ist, ein Filter 450. Dies ist ein FIR-Gleichwelligkeits-Tiefpaßfilter mit Nullstellen auf dem Einheitskreis, mit einem Durchlaßbereich von bis zu 600 (3-dB-Punkt) und mit einer Sperrbereichsdämpfung von 200 dE bei 1200 Hz. Zweckmäßigerweise wird darauf geachtet, daß die Sperrbereichsdämpfung nicht zu groß ist. Der Filterausgang wird bei 1200 Hz in der Unterabtastungseinheit 451 unterabgetastet.
  • Wird diese Filterung angewandt, sind die Möglichkeiten, daß die Tonerfassung und der Sprachcodierer gemeinsame Komponenten besitzen, natürlich sehr verringert; so wird das Filter 450 mit dem digitalisierten Eingangssignal direkt von dem Analog-Digital-Umsetzer 102 gespeist und versorgt eine Reflexionskoeffizienten-Analyseeinheit 400" oder, wie oben besprochen, eine Kovarianz- oder Autokorrelations-Analalyseeinheit. Die Autokorrelationsoption erfordert, wie oben erwähnt, die Fenstertechnik.
  • Eine weitere Ausführung verkleinert das "Oberwellen"- Problem, ohne den Frequenzbereich der Prädiktor-Gain- Analyse übermäßig zu beschränken; dies wird dadurch erreicht, daß Filter verwendet werden, um das Signal in zwei oder mehrere Frequenzbänder zu zerlegen, wovon jedes schmal genug ist, so daß es die erste und die dritte Oberwelle eines Tons nicht gleichzeitig enthalten kann. Jeder Kanal wird dann unterabgetastet und einer getrennten Prädiktor-Gain-Analyse unterzogen.
  • So wird in Fig. 6 das Signal durch die Filter 450a, 450b in die Frequenzbänder 400-1200 Hz und 1200-2000 Hz zerlegt und bei 1,6 kHz unterabgetastet (451a, 451b). Die Reflexionskoeffizientenberechnung 400"a, 400"b sowie die Prädiktorfehleranalyse 401a, 401b werden für die zwei Bänder getrennt durchgeführt. Die zwei Ausgänge der Komparatoren 403a, 403b werden zu getrennten Eingängen des ODER-Glieds 206 geführt, so daß ein großer Prädiktor- Gain in jedem der Kanäle zur Angabe eines enthaltenen Tons vorausgesetzt wird. Die anderen Elemente 100-303 aus Fig. 7 sind in Fig. 8 nicht gezeigt, da sie nicht verändert sind.

Claims (8)

1. Sprachaktivitätsdetektor zum Erfassen von Sprache in einem Eingangssignal, der umfaßt:
(a) eine Vorrichtung zum Abspeichern einer Abschätzung der Rauschkomponenten in einem Eingangssignal,
(b) eine Vorrichtung zum Erkennen der spektralen Ähnlichkeit des Eingangssignals und der abgespeicherten Abschätzung zum Erzeugen eines Entscheidungsausgangssignals,
(c) eine Vorrichtung zum Aktualisieren der abgespeicherten Abschätzung,
(d) einen Hilfsdetektor, der dazu ausgelegt ist, die Aktualisierungsvorrichtung derart zu steuern, daß eine Aktualisierung nur stattfindet, wenn durch den Hilfsdetektor angezeigt wird, daß keine Sprache in dem Eingangssignal enthalten ist,
gekennzeichnet durch
eine Vorrichtung, die dazu dient, einen Prädiktor-Gain- Parameter für das Eingangssignal als Verhältnis der Prädiktorfiltereingangssignalenergie zu der Prädiktorfilterausgangssignalenergie für einen Sprachrahmen zu berechnen, und eine Modifizierungsvorrichtung, die das Aktualisieren für den Fall unterdrückt, daß der Prädiktor-Gain einen Schwellenwert überschreitet.
2. Sprachaktivitätsdetektor nach Anspruch 1, bei dem der Hilfsdetektor einen Detektor für gesprochene Sprache umfaßt, der auf Signale reagiert, die aus einem LPC- Restsignal abgeleitet worden sind.
3. Sprachaktivitätsdetektor nach Anspruch 1 oder 2, bei dem der Gain-Parameter den Prädiktor-Gain einer LPC- Vorhersage 6. oder niedrigerer Ordnung darstellt.
4. Sprachaktivitätsdetektor nach Anspruch 3, bei dem der Gain-Parameter den Prädiktor-Gain einer LPC-Vorhersage 4. oder niedrigerer Ordnung darstellt.
5. Sprachaktivitätsdetektor nach einem der vorangehenden Ansprüche, der außerdem eine Vorrichtung zum Erfassen einer oder mehrerer primärer Frequenzkomponenten des Eingangssignals und eine Vorrichtung umfaßt, die dazu dient, die Frequenzen mit einem vorgegebenen Schwellenwert zu vergleichen und die Unterdrückung der Aktualisierung ausschließlich zuzulassen, wenn eine primäre Komponente den Schwellenwert übersteigt.
6. Sprachaktivitätsdetektor nach einem der vorangehenden Ansprüche, bei dem die Gain-Berechnungsvorrichtung auf ein Filter zum Entfernen eines oberen Abschnittes des Frequenzbereiches des Eingangssignals folgt, wobei die Gain-Berechnung nur für Frequenzkomponenten innerhalb des Durchlaßbereiches des Filters erfolgt.
7. Sprachaktivitätsdetektor nach Anspruch 6 mit zwei Filtern mit jeweiligen Durchlaßbereichen und jeweiligen Gain-Berechnungsvorrichtungen zum Berechnen von Gain- Paramentern für die jeweiligen Durchlaßbereiche, wobei die Modifizierungsvorrichtung das Aktualisieren für den Fall unterdrückt, daß der Prädiktor-Gain innerhalb eines Durchlaßbereiches einen Schwellenwert überschreitet.
8. Sprachaktivitätsdetektor nach Anspruch 6 oder 7 mit einer Vorrichtung zum Durchführen einer Unterabtastung des/der gefilterten Signals/Signale.
DE69419615T 1993-09-14 1994-09-14 Sprachaktivitaetsdetektor Expired - Lifetime DE69419615T2 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP93307211 1993-09-14
GB939324967A GB9324967D0 (en) 1993-12-06 1993-12-06 Voice activity detector
GB9412451A GB9412451D0 (en) 1994-06-21 1994-06-21 Voice activity detector
PCT/GB1994/001999 WO1995008170A1 (en) 1993-09-14 1994-09-14 Voice activity detector

Publications (2)

Publication Number Publication Date
DE69419615D1 DE69419615D1 (de) 1999-08-26
DE69419615T2 true DE69419615T2 (de) 2000-05-25

Family

ID=27235491

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69419615T Expired - Lifetime DE69419615T2 (de) 1993-09-14 1994-09-14 Sprachaktivitaetsdetektor

Country Status (23)

Country Link
US (2) US5749067A (de)
EP (1) EP0719439B1 (de)
JP (1) JP3224132B2 (de)
KR (1) KR100363309B1 (de)
CN (1) CN1064772C (de)
AT (1) ATE182420T1 (de)
BR (1) BR9407535A (de)
CA (1) CA2169745C (de)
CZ (1) CZ286743B6 (de)
DE (1) DE69419615T2 (de)
DK (1) DK0719439T3 (de)
ES (1) ES2136204T3 (de)
FI (1) FI118195B (de)
GR (1) GR3031515T3 (de)
HK (1) HK1014392A1 (de)
HU (1) HU219994B (de)
IN (1) IN184794B (de)
MY (1) MY111134A (de)
NO (1) NO307979B1 (de)
NZ (1) NZ273045A (de)
SG (1) SG48935A1 (de)
SK (1) SK281796B6 (de)
WO (1) WO1995008170A1 (de)

Families Citing this family (96)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IN184794B (de) * 1993-09-14 2000-09-30 British Telecomm
JP3522012B2 (ja) * 1995-08-23 2004-04-26 沖電気工業株式会社 コード励振線形予測符号化装置
FI100840B (fi) 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
KR20000022285A (ko) * 1996-07-03 2000-04-25 내쉬 로저 윌리엄 음성 액티비티 검출기 및 검출 방법
US6708146B1 (en) * 1997-01-03 2004-03-16 Telecommunications Research Laboratories Voiceband signal classifier
JPH10247098A (ja) * 1997-03-04 1998-09-14 Mitsubishi Electric Corp 可変レート音声符号化方法、可変レート音声復号化方法
US6531982B1 (en) 1997-09-30 2003-03-11 Sirf Technology, Inc. Field unit for use in a GPS system
US5970446A (en) 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
US6385548B2 (en) * 1997-12-12 2002-05-07 Motorola, Inc. Apparatus and method for detecting and characterizing signals in a communication system
US6327471B1 (en) 1998-02-19 2001-12-04 Conexant Systems, Inc. Method and an apparatus for positioning system assisted cellular radiotelephone handoff and dropoff
US5991718A (en) * 1998-02-27 1999-11-23 At&T Corp. System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments
US6182035B1 (en) 1998-03-26 2001-01-30 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for detecting voice activity
US6348744B1 (en) 1998-04-14 2002-02-19 Conexant Systems, Inc. Integrated power management module
US6453289B1 (en) 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
US7545854B1 (en) * 1998-09-01 2009-06-09 Sirf Technology, Inc. Doppler corrected spread spectrum matched filter
US7711038B1 (en) 1998-09-01 2010-05-04 Sirf Technology, Inc. System and method for despreading in a spread spectrum matched filter
US6693953B2 (en) 1998-09-30 2004-02-17 Skyworks Solutions, Inc. Adaptive wireless communication receiver
US6448925B1 (en) 1999-02-04 2002-09-10 Conexant Systems, Inc. Jamming detection and blanking for GPS receivers
US6606349B1 (en) 1999-02-04 2003-08-12 Sirf Technology, Inc. Spread spectrum receiver performance improvement
US6556967B1 (en) 1999-03-12 2003-04-29 The United States Of America As Represented By The National Security Agency Voice activity detector
US6304216B1 (en) * 1999-03-30 2001-10-16 Conexant Systems, Inc. Signal detector employing correlation analysis of non-uniform and disjoint sample segments
US6577271B1 (en) 1999-03-30 2003-06-10 Sirf Technology, Inc Signal detector employing coherent integration
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
US6381568B1 (en) 1999-05-05 2002-04-30 The United States Of America As Represented By The National Security Agency Method of transmitting speech using discontinuous transmission and comfort noise
US6351486B1 (en) 1999-05-25 2002-02-26 Conexant Systems, Inc. Accelerated selection of a base station in a wireless communication system
JP3929686B2 (ja) * 2000-08-14 2007-06-13 松下電器産業株式会社 音声スイッチング装置およびその方法
US6788655B1 (en) 2000-04-18 2004-09-07 Sirf Technology, Inc. Personal communications device with ratio counter
US6714158B1 (en) 2000-04-18 2004-03-30 Sirf Technology, Inc. Method and system for data detection in a global positioning system satellite receiver
US6931055B1 (en) 2000-04-18 2005-08-16 Sirf Technology, Inc. Signal detector employing a doppler phase correction system
US6952440B1 (en) 2000-04-18 2005-10-04 Sirf Technology, Inc. Signal detector employing a Doppler phase correction system
FR2808391B1 (fr) * 2000-04-28 2002-06-07 France Telecom Systeme de reception pour antenne multicapteur
US7885314B1 (en) 2000-05-02 2011-02-08 Kenneth Scott Walley Cancellation system and method for a wireless positioning system
US6778136B2 (en) 2001-12-13 2004-08-17 Sirf Technology, Inc. Fast acquisition of GPS signal
JP4201471B2 (ja) * 2000-09-12 2008-12-24 パイオニア株式会社 音声認識システム
JP4201470B2 (ja) * 2000-09-12 2008-12-24 パイオニア株式会社 音声認識システム
US7472059B2 (en) * 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification
WO2002052546A1 (en) * 2000-12-27 2002-07-04 Intel Corporation Voice barge-in in telephony speech recognition
US6707869B1 (en) * 2000-12-28 2004-03-16 Nortel Networks Limited Signal-processing apparatus with a filter of flexible window design
DE10121532A1 (de) * 2001-05-03 2002-11-07 Siemens Ag Verfahren und Vorrichtung zur automatischen Differenzierung und/oder Detektion akustischer Signale
JP3859462B2 (ja) * 2001-05-18 2006-12-20 株式会社東芝 予測パラメータ分析装置および予測パラメータ分析方法
KR100399057B1 (ko) * 2001-08-07 2003-09-26 한국전자통신연구원 이동통신 시스템의 음성 활성도 측정 장치 및 그 방법
US20030110029A1 (en) * 2001-12-07 2003-06-12 Masoud Ahmadi Noise detection and cancellation in communications systems
DE60308336T2 (de) * 2002-03-08 2007-09-20 Koninklijke Kpn N.V. Verfahren und system zur messung der übertragungsqualität eines systems
US7454331B2 (en) * 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
US20040064314A1 (en) * 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
US7146316B2 (en) * 2002-10-17 2006-12-05 Clarity Technologies, Inc. Noise reduction in subbanded speech signals
US7272552B1 (en) * 2002-12-27 2007-09-18 At&T Corp. Voice activity detection and silence suppression in a packet network
US7230955B1 (en) * 2002-12-27 2007-06-12 At & T Corp. System and method for improved use of voice activity detection
JP2004341339A (ja) * 2003-05-16 2004-12-02 Mitsubishi Electric Corp 雑音抑圧装置
MXPA05012785A (es) * 2003-05-28 2006-02-22 Dolby Lab Licensing Corp Metodo, aparato y programa de computadora para el calculo y ajuste de la sonoridad percibida de una senal de audio.
EP1661916A4 (de) 2003-07-16 2008-10-01 Daikin Ind Ltd Verfahren zur herstellung von fluorhaltigem polymer, wässrige dispersion von fluorhaltigem polymer, 2-acyloxycarbonsäurederivat und tensid
SG119199A1 (en) * 2003-09-30 2006-02-28 Stmicroelectronics Asia Pacfic Voice activity detector
JP4497911B2 (ja) * 2003-12-16 2010-07-07 キヤノン株式会社 信号検出装置および方法、ならびにプログラム
US20050209762A1 (en) * 2004-03-18 2005-09-22 Ford Global Technologies, Llc Method and apparatus for controlling a vehicle using an object detection system and brake-steer
FI20045315A (fi) * 2004-08-30 2006-03-01 Nokia Corp Ääniaktiivisuuden havaitseminen äänisignaalissa
MX2007005027A (es) 2004-10-26 2007-06-19 Dolby Lab Licensing Corp Calculo y ajuste de la sonoridad percibida y/o el balance espectral percibido de una senal de audio.
US8199933B2 (en) 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
JP4729927B2 (ja) * 2005-01-11 2011-07-20 ソニー株式会社 音声検出装置、自動撮像装置、および音声検出方法
BRPI0622303B1 (pt) * 2005-04-18 2016-03-01 Basf Se copolímeros cp na forma de um polímero obtido por polimerização com radical de pelo menos três monômeros m diferentes monoetilenicamente insaturados
US7826945B2 (en) * 2005-07-01 2010-11-02 You Zhang Automobile speech-recognition interface
DE102006032967B4 (de) * 2005-07-28 2012-04-19 S. Siedle & Söhne Telefon- und Telegrafenwerke OHG Hausanlage und Verfahren zum Betreiben einer Hausanlage
GB2430129B (en) * 2005-09-08 2007-10-31 Motorola Inc Voice activity detector and method of operation therein
WO2007120316A2 (en) * 2005-12-05 2007-10-25 Qualcomm Incorporated Systems, methods, and apparatus for detection of tonal components
US8417185B2 (en) * 2005-12-16 2013-04-09 Vocollect, Inc. Wireless headset and method for robust voice data communication
US7885419B2 (en) 2006-02-06 2011-02-08 Vocollect, Inc. Headset terminal with speech functionality
US7773767B2 (en) 2006-02-06 2010-08-10 Vocollect, Inc. Headset terminal with rear stability strap
ES2525427T3 (es) 2006-02-10 2014-12-22 Telefonaktiebolaget L M Ericsson (Publ) Un detector de voz y un método para suprimir sub-bandas en un detector de voz
US8920343B2 (en) 2006-03-23 2014-12-30 Michael Edward Sabatino Apparatus for acquiring and processing of physiological auditory signals
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
EP2002426B1 (de) * 2006-04-04 2009-09-02 Dolby Laboratories Licensing Corporation Lautstärkemessung von tonsignalen und änderung im mdct-bereich
WO2007127023A1 (en) 2006-04-27 2007-11-08 Dolby Laboratories Licensing Corporation Audio gain control using specific-loudness-based auditory event detection
CN101149921B (zh) * 2006-09-21 2011-08-10 展讯通信(上海)有限公司 一种静音检测方法和装置
BRPI0717484B1 (pt) 2006-10-20 2019-05-21 Dolby Laboratories Licensing Corporation Método e aparelho para processar um sinal de áudio
US8521314B2 (en) * 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
US20080147389A1 (en) * 2006-12-15 2008-06-19 Motorola, Inc. Method and Apparatus for Robust Speech Activity Detection
KR101452014B1 (ko) * 2007-05-22 2014-10-21 텔레호낙티에볼라게트 엘엠 에릭슨(피유비엘) 향상된 음성 액티비티 검출기
ATE535906T1 (de) * 2007-07-13 2011-12-15 Dolby Lab Licensing Corp Tonverarbeitung mittels auditorischer szenenanalyse und spektraler asymmetrie
US20090043577A1 (en) * 2007-08-10 2009-02-12 Ditech Networks, Inc. Signal presence detection using bi-directional communication data
US8190440B2 (en) * 2008-02-29 2012-05-29 Broadcom Corporation Sub-band codec with native voice activity detection
EP2107553B1 (de) * 2008-03-31 2011-05-18 Harman Becker Automotive Systems GmbH Verfahren zur Erkennung einer Unterbrechung einer Sprachausgabe
US8244528B2 (en) 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
US8275136B2 (en) * 2008-04-25 2012-09-25 Nokia Corporation Electronic device speech enhancement
WO2009130388A1 (en) * 2008-04-25 2009-10-29 Nokia Corporation Calibrating multiple microphones
CN101572090B (zh) * 2008-04-30 2013-03-20 向为 一种自适应多速率窄带编码方法及编码器
USD605629S1 (en) 2008-09-29 2009-12-08 Vocollect, Inc. Headset
KR101547344B1 (ko) 2008-10-31 2015-08-27 삼성전자 주식회사 음성복원장치 및 그 방법
TWI384423B (zh) * 2008-11-26 2013-02-01 Ind Tech Res Inst 以聲音事件為基礎之緊急通報方法與系統以及行為軌跡建立方法
CN101609678B (zh) 2008-12-30 2011-07-27 华为技术有限公司 信号压缩方法及其压缩装置
US8160287B2 (en) 2009-05-22 2012-04-17 Vocollect, Inc. Headset with adjustable headband
EP2491549A4 (de) 2009-10-19 2013-10-30 Ericsson Telefon Ab L M Detektor und verfahren zur erkennung von sprachaktivitäten
US8438659B2 (en) 2009-11-05 2013-05-07 Vocollect, Inc. Portable computing device and headset interface
FR2956539B1 (fr) * 2010-02-16 2012-03-16 Dominique Retali Procede de detection du fonctionnement d'un dispositif de transmission sans fil de signaux de voix.
US20120143604A1 (en) * 2010-12-07 2012-06-07 Rita Singh Method for Restoring Spectral Components in Denoised Speech Signals
US8954322B2 (en) * 2011-07-25 2015-02-10 Via Telecom Co., Ltd. Acoustic shock protection device and method thereof
US9363603B1 (en) 2013-02-26 2016-06-07 Xfrm Incorporated Surround audio dialog balance assessment
CN111261197B (zh) * 2020-01-13 2022-11-25 中航华东光电(上海)有限公司 一种复杂噪声场景下的实时语音段落追踪方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4358738A (en) * 1976-06-07 1982-11-09 Kahn Leonard R Signal presence determination method for use in a contaminated medium
JPS53105303A (en) * 1977-02-25 1978-09-13 Hitachi Ltd Preprocessing system for audio recognition
JPS5850360B2 (ja) * 1978-05-12 1983-11-10 株式会社日立製作所 音声認識装置における前処理方法
JPS59115625A (ja) * 1982-12-22 1984-07-04 Nec Corp 音声検出器
US4731846A (en) * 1983-04-13 1988-03-15 Texas Instruments Incorporated Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal
EP0127718B1 (de) * 1983-06-07 1987-03-18 International Business Machines Corporation Verfahren zur Aktivitätsdetektion in einem Sprachübertragungssystem
US4700392A (en) * 1983-08-26 1987-10-13 Nec Corporation Speech signal detector having adaptive threshold values
US4696039A (en) * 1983-10-13 1987-09-22 Texas Instruments Incorporated Speech analysis/synthesis system with silence suppression
JPH0748695B2 (ja) * 1986-05-23 1995-05-24 株式会社日立製作所 音声符号化方式
ES2047664T3 (es) * 1988-03-11 1994-03-01 British Telecomm Deteccion de actividad de voz.
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
JP2573352B2 (ja) * 1989-04-10 1997-01-22 富士通株式会社 音声検出装置
US5680508A (en) * 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
IN184794B (de) * 1993-09-14 2000-09-30 British Telecomm
US5659622A (en) * 1995-11-13 1997-08-19 Motorola, Inc. Method and apparatus for suppressing noise in a communication system

Also Published As

Publication number Publication date
CA2169745A1 (en) 1995-03-23
CZ67896A3 (en) 1996-07-17
SG48935A1 (en) 1998-05-18
CN1064772C (zh) 2001-04-18
WO1995008170A1 (en) 1995-03-23
EP0719439A1 (de) 1996-07-03
IN184794B (de) 2000-09-30
SK281796B6 (sk) 2001-08-06
US5749067A (en) 1998-05-05
NO961032D0 (no) 1996-03-13
JPH09502814A (ja) 1997-03-18
FI961158A0 (fi) 1996-03-13
US6061647A (en) 2000-05-09
NO307979B1 (no) 2000-06-26
HUT73986A (en) 1996-10-28
DK0719439T3 (da) 2000-02-07
CN1130952A (zh) 1996-09-11
ATE182420T1 (de) 1999-08-15
HU9600641D0 (en) 1996-05-28
FI118195B (fi) 2007-08-15
GR3031515T3 (en) 2000-01-31
DE69419615D1 (de) 1999-08-26
SK31896A3 (en) 1997-03-05
AU673776B2 (en) 1996-11-21
HK1014392A1 (en) 1999-09-24
MY111134A (en) 1999-08-30
JP3224132B2 (ja) 2001-10-29
ES2136204T3 (es) 1999-11-16
NZ273045A (en) 1996-11-26
NO961032L (no) 1996-03-13
CA2169745C (en) 2000-05-16
BR9407535A (pt) 1997-08-26
EP0719439B1 (de) 1999-07-21
KR100363309B1 (ko) 2003-02-17
CZ286743B6 (en) 2000-06-14
HU219994B (hu) 2001-10-28
FI961158A (fi) 1996-03-13
AU7619894A (en) 1995-04-03
KR960705303A (ko) 1996-10-09

Similar Documents

Publication Publication Date Title
DE69419615T2 (de) Sprachaktivitaetsdetektor
DE69614989T2 (de) Verfahren und Vorrichtung zur Feststellung der Sprachaktivität in einem Sprachsignal und eine Kommunikationsvorrichtung
DE3856280T2 (de) Rauschunterdrückungssystem
DE69535709T2 (de) Verfahren und Vorrichtung zur Auswahl der Kodierrate bei einem Vokoder mit variabler Rate
DE3689035T2 (de) Rauschminderungssystem.
DE69412913T2 (de) Verfahren und Vorrichtung für digitale Sprachkodierung mit Sprachsignalhöhenabschätzung und Klassifikation in digitalen Sprachkodierern
DE19948308C2 (de) Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
DE69730721T2 (de) Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form
DE68929442T2 (de) Vorrichtung zur Erfassung von Sprachlauten
DE69428119T2 (de) Verringerung des hintergrundrauschens zur sprachverbesserung
DE69926851T2 (de) Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE60031354T2 (de) Geräuschunterdrückung vor der Sprachkodierung
EP1386307B1 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
EP0668007B1 (de) Mobilfunkgerät mit freisprecheinrichtung
DE2207141C3 (de) Schaltungsanordnung zur Unterdrückung unerwünschter Sprachsignale mittels eines vorhersagenden Filters
DE69331732T2 (de) Anordnung und Verfahren zur Feststellung der Anwesenheit eines Sprechsignals
DE69123579T2 (de) Verfahren zur adaptiven Echokompensation und Einrichtung zur Durchführung des Verfahrens
DE69512540T2 (de) Verfahren und Einrichtung zur Analyse eines Echosignals und adaptiver Echokompensator welcher diese anwendet
DE19935808A1 (de) Echounterdrückungseinrichtung zum Unterdrücken von Echos in einer Sender/Empfänger-Einheit
DE69634841T2 (de) Verfahren und Vorrichtung zur Echokompensation
DE69616724T2 (de) Verfahren und System für die Spracherkennung
DE69130687T2 (de) Sprachsignalverarbeitungsvorrichtung zum Herausschneiden von einem Sprachsignal aus einem verrauschten Sprachsignal
DE69411817T2 (de) Verfahren und vorrichtung zur kodierung/dekodierung von hintergrundgeräuschen
DE69421498T2 (de) Unterscheidung zwischen stationären und nicht-stationären signalen

Legal Events

Date Code Title Description
8363 Opposition against the patent
8327 Change in the person/name/address of the patent owner

Owner name: LG ELECTRONICS INC., SEOUL, KR

8365 Fully valid after opposition proceedings