DE60200632T2 - Verfahren zur Sprachaktivitätsdetektion in einem Signal, und Sprachkodierer mit Vorrichtung zur Ausführung des Verfahrens - Google Patents

Verfahren zur Sprachaktivitätsdetektion in einem Signal, und Sprachkodierer mit Vorrichtung zur Ausführung des Verfahrens Download PDF

Info

Publication number
DE60200632T2
DE60200632T2 DE60200632T DE60200632T DE60200632T2 DE 60200632 T2 DE60200632 T2 DE 60200632T2 DE 60200632 T DE60200632 T DE 60200632T DE 60200632 T DE60200632 T DE 60200632T DE 60200632 T2 DE60200632 T2 DE 60200632T2
Authority
DE
Germany
Prior art keywords
frame
decision
noise
energy
die
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60200632T
Other languages
English (en)
Other versions
DE60200632D1 (de
Inventor
Raymond Gass
Richard Atzenhoffer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alcatel Lucent SAS
Original Assignee
Alcatel SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alcatel SA filed Critical Alcatel SA
Publication of DE60200632D1 publication Critical patent/DE60200632D1/de
Application granted granted Critical
Publication of DE60200632T2 publication Critical patent/DE60200632T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Communication Control (AREA)
  • Circuits Of Receivers In General (AREA)

Description

  • Die Erfindung betrifft einen Sprachsignalcodierer, der über eine verbesserte Vorrichtung zur Erkennung sprachlicher Aktivität und insbesondere über einen Codierer gemäß der Norm ITU-T G.729A, Anhang B, verfügt.
  • Ein Sprachsignal umfasst bis zu 60% Stille oder Hintergrundgeräusch. Um die Menge der zu übertragenden Informationen zu reduzieren, werden bekanntermaßen die Anteile des Sprachsignals, die tatsächlich Nutzsignale enthalten, und die Anteile, die lediglich Stille oder Rauschen enthalten, voneinander getrennt und jeweils nach zwei verschiedenen Algorithmen codiert, wobei jeder Anteil, der lediglich Stille oder Rauschen enthält, mit sehr wenigen Informationen, die den Merkmalen des Raumgeräuschs entsprechen, codiert wird. Ein derartiger Codierer umfasst eine Vorrichtung zur Spracherkennung, die diese Trennung nach den Spektrallinien und nach der Energie des zu codierenden Sprachsignals (für jeden Signalrahmen berechnet) vornimmt.
  • Das Sprachsignal wird in digitale Rahmen unterteilt, die jeweils einer Dauer von beispielsweise 10 ms entsprechen. Für jeden Rahmen wird aus dem Signal ein Satz von Parametern abgeleitet. Die wichtigsten Parameter sind die Autokorrelationskoeffizienten. Anschließend werden aus diesen Autokorrelationskoeffizienten aufgrund einer linearen Prädiktion eine Gruppe von Codierungskoeffizienten sowie ein Satz frequentieller Parameter abgeleitet. Eine Etappe des Verfahrens zur Trennung der Anteile des Sprachsignals, die tatsächlich Nutzsignale enthalten, und der Anteile, die lediglich Stille oder Rauschen enthalten, besteht darin, die Energie eines Signalrahmens mit einer Schwelle zu vergleichen. Eine Vorrichtung zur Berechnung des Schwellenwertes passt den Schwellenwert in Abhängigkeit von den Veränderungen des Geräuschs an. Das Geräusch, das das Sprachsignal stört, besteht aus einem Rauschen elektrischen Ursprungs und aus Umgebungslärm. Letzterer kann im Laufe einer Nachrichtenübertragung beträchtlich zu- oder abnehmen. Andererseits müssen die Koeffizienten der frequentiellen Filterung des Geräuschs ihrererseits auch an die Veränderungen des Geräuschs angepasst werden.
  • In dem Artikel "ITU-T Recommendation G729 Annex B: A Silence Compression Scheme for Use With G729 Optimized for V.70 Digital Simultaneous Voice and Data Applications" von Adil Benyassine et al, IEEE Communication Magazine, September 1997 ist ein derartiger Codierer beschrieben.
  • Der Decodierer, der das codierte Sprachsignal decodieren soll, muss abwechselnd zwei Decodierungsalgorithmen benutzen, die jeweils den als Sprache codierten Signalanteilen und den als Stille oder Hintergrundgeräusch codierten Signalanteilen entsprechen. Der Übergang von einem Algorithmus zum anderen wird durch die Informationen, mit denen die Stille- oder Geräuschperioden codiert werden, synchronisiert.
  • Die bekannten Codierer, denen die Norm ITU-T G.729A, Anhang B, 11/96 zugrunde liegt, sind nicht mehr in der Lage, die Trennung zwischen dem Nutzsignal und dem Geräusch vorzunehmen, wenn der Geräuschpegel mehr als 8.000 Stufen der durch diese Norm definierten Quantifizierungsskala beträgt. Es ergeben sich daraus zahlreiche unnötige Übergänge des Spracherkennungssignals und demnach auch ein Verlust von Anteilen des Nutzsignals.
  • Es ist eine in dem Beitrag G.723.1 VAD beschriebene Lösung bekannt, die darin besteht, die Spracherkennung in dem Codierer vollständig zu unterbinden, wenn das Signal-Rausch-Verhältnis unterhalb eines vorbestimmten Wertes liegt. Durch diese Lösung wird die Vollständigkeit des Nutzsignals erhalten, aber sie hat den Nachteil, dass der Verkehr erhöht wird.
  • Mit dieser Erfindung wird eine effizientere Lösung vorgeschlagen, bei der die Effektivität der Spracherkennung im Sinne des Verkehrs erhalten bleibt, aber die Qualität des nach der Decodierung wiederhergestellten Signals nicht beeinträchtigt wird.
  • Der Gegenstand der Erfindung ist ein Verfahren zur Spracherkennung in einem Signal, wobei dieses Signal in Rahmen unterteilt wird und dieses Verfahren über eine Glättungsphase einer anfänglichen, für jeden Rahmen getroffenen Entscheidung "Sprache" oder "Geräusch" verfügt, dadurch gekennzeichnet, dass diese Glättungsphase eine Etappe aufweist, die darin besteht, eine endgültige Entscheidung "Sprache" für den Rahmen n zu treffen, wenn:
    • – die anfängliche Entscheidung für den Rahmen n "Sprache" ist;
    • – und die endgültige Entscheidung für den Rahmen n – 2 "Geräusch" war;
    • – und die Energie des Rahmens n – 1 größer als diejenige des Rahmens n – 2 war;
    • – und die Energie des Rahmens n größer als die Energie des Rahmens n – 2 ist.
  • Das somit charakterisierte Verfahren vermeidet einen unerwünschten Übergang von "Geräusch" zu "Sprache" bei einer vorübergehenden Energiezunahme während des Rahmens n, weil die Glättungsfunktion die endgültige Entscheidung, die für den auf den aktuellen Rahmen n vorausgehenden Rahmen n – 1 getroffen worden ist, berücksichtigt, um über einen Übergang von "Geräusch" zu "Sprache" zu entscheiden.
  • Wenn eine endgültige Entscheidung "Sprache" für den Rahmen n getroffen worden ist, besteht das Verfahren gemäß der Erfindung in einer vorzugsweisen Anwendungsart ferner darin, dass jegliche endgültige Entscheidung "Geräusch" für die Rahmen n – 1 bis n + i unterbunden wird, wobei i eine ganze Zahl ist, die eine Trägheitsdauer definiert.
  • Das somit charakterisierte Verfahren vermeidet somit das Phänomen des Verlusts von Sprachsegmenten, da die Glättungsfunktion für die Rückkehr zu einer Entscheidung "Geräusch" eine Trägheit aufweist, die der Dauer von i Rahmen entspricht.
  • Die Erfindung hat ebenfalls einen Sprachsignalcodierer zum Gegenstand, der über Glättungsmittel verfügt, um das Verfahren gemäß der Erfindung anzuwenden.
  • Die Erfindung wird anhand der folgenden Beschreibung und der beigefügten Abbildungen verständlicher, wobei noch weitere Merkmale deutlich werden:
  • 1 zeigt das Funktionsschema eines Ausführungsbeispiels eines Codierers für die Anwendung des Verfahrens gemäß der Erfindung.
  • 2 zeigt das Organigramm der Entscheidungsfindung "Sprache"/"Geräusch" gemäß dem durch die Norm G.729 Anhang B, 11/96 bekannten Codierungsverfahren.
  • In 3 sind die Glättungsvorgänge des Spracherkennungssignals gemäß dem durch die Norm G.729 Anhang B, 11/96 bekannten Codierungsverfahren ausführlicher dargestellt.
  • 4 zeigt das Organigramm eines Beispiels für die Anwendung der Glättung des Spracherkennungssignals in dem Verfahren gemäß der Erfindung.
  • In 5 sind die Prozentanteile von Fehlern mit dem bekannten Verfahren und mit dem Verfahren gemäß der Erfindung für verschiedene Werte des Signal-Rausch-Verhältnisses dargestellt.
  • In 6 sind die Prozentanteile von Sprachverlusten mit dem bekannten Verfahren und mit dem Verfahren gemäß der Erfindung für verschiedene Werte des Signal-Rausch-Verhältnisses dargestellt.
  • Das Ausführungsbeispiel eines Codierers, dessen Funktionsschema in 1 dargestellt ist, umfasst:
    • – eine Eingangsklemme 1, die in analoger Form ein zu codierendes Signal empfängt;
    • – eine Schaltung 2, um das Sprachsignal zu filtern, abzutasten, zu quantifizieren und in Rahmen zu zerlegen;
    • – einen Schalter 3 mit einem mit dem Ausgang der Schaltung 2 verbundenen Eingang und mit zwei Ausgängen;
    • – eine Schaltung 4 zur Codierung der Rahmen, die als tatsächlich ein Nutzsignal darstellender Rahmen angesehen werden, wobei diese Schaltung über einen mit einem ersten Ausgang des Schalters 3 verbundenen Eingang verfügt;
    • – eine Schaltung 5 zur Codierung der Rahmen, die als ein Stille oder Geräusch darstellender Rahmen angesehen werden, wobei diese Schaltung über einen mit einem zweiten Ausgang des Schalters 3 verbundenen Eingang verfügt;
    • – einen zweiten Schalter 6 mit: einem ersten und einem zweiten Eingang, die mit einem Ausgang der Schaltung 4 beziehungsweise mit einem Ausgang der Schaltung 5 verbunden sind, sowie einer Ausgangsklemme 9, die die Ausgangsklemme des Codierers darstellt;
    • – und einen Sprachdetektor 7, der über einen mit dem Ausgang der Schaltung 2 verbundenen Eingang und einen insbesondere mit einem Steuereingang von jedem der Schalter 3 und 6 verbundenen Ausgang verfügt, um die codierten Rahmen mit dem jeweils in dem Sprachsignal erkannten Inhalt auszuwählen: entweder Nutzsignal oder Stille (oder Geräusch).
  • Wenn das Sprachsignal ein Nutzsignal ist, so liefert der Codierer alle 10 ms einen Rahmen. Besteht das Sprachsignal aus Stille (oder Geräusch), so liefert der Codierer zu Beginn der Stille (oder des Geräuschs) einen einzigen Rahmen.
  • In der Praxis kann ein derartiger Codierer mittels eines in geeigneter Weise programmierten Prozessors hergestellt werden. Insbesondere kann das Verfahren gemäß der Erfindung aufgrund einer Software angewendet werden, die von einem Fachmann entwickelt werden kann.
  • 2 zeigt das Organigramm der Entscheidungsfindung "Sprache" oder "Geräusch" gemäß dem durch die Norm G.729 Anhang B, 11/96 bekannten Codierungsverfahren. Das Verfahren wird auf Rahmen eines digitalisierten Signals mit einer festen Dauer von 10 ms angewendet.
  • Eine erste Etappe 11 besteht darin, für den aktuellen Rahmen des zu codierenden Signals vier Parameter abzuleiten: die Energie dieses Rahmens in dem gesamten Frequenzbereich, die Energie dieses Rahmens in den tieferen Frequenzen, eine Gruppe von Spektralkoeffizienten und die Quote der Nulldurchgänge.
  • In der folgenden Etappe 12 wird die Mindestgröße eines Pufferspeichers aktualisiert.
  • Die folgende Etappe 13 besteht darin, die Zahl des aktuellen Rahmens mit einem vorbestimmten Wert Ni zu vergleichen:
    • – Wenn sie niedriger als Ni ist:
    • – Die folgende Etappe 14 besteht darin, die Werte der beweglichen Durchschnitte der Parameter des zu codierenden Signals zu initialisieren: die Spektralkoeffizienten; die durchschnittliche Energie im gesamten Frequenzbereich; die durchschnittliche Energie in den tieferen Frequenzen und die durchschnittliche Quote von Nulldurchgängen.
    • – Anschließend besteht eine Etappe 15 darin, die Energie des Rahmens mit einem vorbestimmten Schwellenwert zu vergleichen, um zu entscheiden, dass es sich bei dem Signal um Sprache handelt, wenn die Energie des Rahmens diesen Wert übersteigt, oder um zu entscheiden, dass es sich bei dem Signal um ein Geräusch handelt, wenn die Energie des Rahmens unter diesem Wert liegt. Die Verarbeitung des aktuellen Rahmens erreicht dann ihr Ende 16.
    • – Wenn die Zahl des Rahmens nicht niedriger als Ni ist, so wird bei einer folgenden Etappe 17 bestimmt, ob sie gleich Ni oder größer als Ni ist:
    • – wenn sie gleich Ni ist, so besteht eine folgende Etappe 18 darin, den Wert der durchschnittlichen Energie des Geräuschs in dem gesamten Frequenzbereich und den Wert der durchschnittlichen Energie des Geräuschs in den tieferen Frequenzen zu initialisieren.
    • – Wenn sie größer als Ni ist:
    • – eine folgende Etappe 19 besteht darin, eine Gruppe von Differenzparametern zu berechnen, indem der aktuelle Wert eines Rahmenparameters von dem beweglichen Durchschnittswert dieses Rahmenparameters, der für das Geräusch repräsentativ ist, abgezogen wird. Diese Differenzparameter sind: die Spektralverzerrung, die Energiedifferenz in dem gesamten Frequenzbereich, die Energiedifferenz in den tieferen Frequenzen und die Differenz der Quoten der Nulldurchgänge.
    • – Bei einer folgenden Etappe 20 wird die Energie des Rahmens mit einem vorbestimmten Schwellenwert verglichen:
    • – Ist sie nicht niedriger als dieser Wert, so besteht eine Etappe 21 darin, eine anfängliche Entscheidung ("Sprache" oder "Geräusch") zu treffen, die auf einer Vielzahl von Kriterien beruht; anschließend besteht eine Etappe 22 darin, diese Entscheidung zu "glätten", um zu häufige Änderungen dieser Entscheidung zu vermeiden.
    • – Ist sie niedriger oder gleich diesem Wert, so besteht eine Etappe 23 in der Entscheidung, dass das Signal ein Geräusch ist; anschließend besteht die Etappe 22 darin, diese Entscheidung zu "glätten".
    • – Nach der Glättungsetappe 22 besteht eine folgende Etappe 24 darin, die Energie des aktuellen Rahmens mit einem adaptiven Schwellenwert zu vergleichen, der dem um eine Konstante erhöhten beweglichen Durchschnitt der Energie in dem gesamten Frequenzbereich entspricht:
    • – Wenn sie höher als der Schwellenwert ist, so besteht eine folgende Etappe 25 darin, die Werte der beweglichen Durchschnitte der das Geräusch repräsentierenden Parameter zu aktualisieren; anschließend erreicht die Verarbeitung des aktuellen Rahmens das Ende 26.
    • – Übersteigt sie nicht den Schwellenwert, so erreicht die Verarbeitung des aktuellen Rahmens das Ende 27.
  • In 3 sind die Glättungsvorgänge des Spracherkennungssignals gemäß dem durch die Norm G.729 Anhang B, 11/96 bekannten Codierungsverfahren ausführlicher dargestellt. Diese Glättung umfasst vier Etappen, die auf die anfängliche Entscheidung 21 ("Sprache" oder "Geräusch") folgen, wobei diese Entscheidung auf einer Vielzahl von Kriterien beruht:
    • – Eine erste Etappe besteht in einem Test 31, um die Entscheidung "Sprache" zu treffen, wenn:
    • – die Entscheidung für den vorhergehenden Rahmen "Sprache" war,
    • – und die durchschnittliche Energie des aktuellen Rahmens höher ist als der um eine Konstante erhöhte bewegliche Durchschnitt der Energie der vorhergehenden Rahmen, d. h. wenn die Energie des aktuellen Rahmens deutlich höher als die durchschnittliche Energie des Geräuschs ist. Im gegenteiligen Fall wird die Entscheidung "Geräusch" 42 endgültig getroffen.
    • – Eine zweite Etappe 32 bis 35 besteht in einem Test 32, um die Entscheidung "Sprache" zu bestätigen, wenn:
    • – die Entscheidung für die beiden vorhergehenden Rahmen "Sprache" war,
    • – und die durchschnittliche Energie des aktuellen Rahmens höher ist als der um eine Konstante erhöhte bewegliche Durchschnitt der Energie des vorhergehenden Rahmens, d. h. wenn die Energie von dem vorhergehenden Rahmen zum aktuellen Rahmen nicht wesentlich abgenommen hat.
  • Diese zweite Etappe besteht ferner darin, einen Zähler um ein Inkrement zu erhöhen (Schritt 33), anschließend dessen Inhalt mit dem Wert 4 zu vergleichen (Schritt 34) und dann diesen Test 32 für den nächsten Rahmen zu deaktivieren (Schritt 35), wenn der aktuelle Rahmen der vierte Rahmen hintereinander ist, für den die Entscheidung "Sprache" ist. Wird die Entscheidung "Sprache" nicht bestätigt, so wird die Entscheidung "Geräusch" 42 endgültig getroffen.
    • – Eine dritte Etappe 36 bis 39 besteht in einem Test 36, um die Entscheidung "Geräusch" 42 endgültig zu treffen, wenn:
    • – eine Entscheidung "Geräusch" für die zehn auf den aktuellen Rahmen vorausgehenden Rahmen getroffen worden ist (nachdem für den aktuellen Rahmen in den Etappen 3135 die Entscheidung "Sprache" getroffen worden war).
    • – die Energie des aktuellen Rahmens niedriger ist als die um eine Konstante erhöhte Energie des vorhergehenden Rahmens, d. h. wenn die Energie vom vorhergehenden Rahmen zum aktuellen Rahmen nicht wesentlich zugenommen hat.
  • Diese dritte Etappe besteht ferner darin, den Test 36 neu zu starten (Schritt 37), indem die Zählung der Rahmen zurückgesetzt wird (Schritt 39), wenn der aktuelle Rahmen der zehnte Rahmen hintereinander ist, für den die Entscheidung "Geräusch" lautet (Test 38).
    • – eine vierte Etappe besteht in einem Test 40, um die Entscheidung "Geräusch" 42 endgültig zu treffen, wenn die Energie des aktuellen Rahmens niedriger ist als die Summe des um eine Konstante von 614 erhöhten beweglichen Durchschnitts der Energie der vorhergehenden Rahmen. Das heißt, die Entscheidung "Sprache" wird nur dann endgültig bestätigt (Schritt 41), wenn die Energie des Rahmens deutlich höher ist als der bewegliche Durchschnitt der Energie der vorhergehenden Rahmen. Im gegenteiligen Falle wird die Entscheidung "Geräusch" 42 endgültig getroffen.
  • Diese vierte Etappe 40 (endgültige Entscheidung) liefert fehlerhafte Entscheidungen "Geräusch", wenn das Signal sehr stark durch Geräusche gestört ist. Tatsächlich wird in dieser Etappe 40 ohne Berücksichtigung der vorausgehenden Entscheidungen entschieden, dass das Signal ein Geräusch ist, wobei jedoch einfach der Energieunterschied zwischen dem aktuellen Rahmen und dem Hintergrundgeräusch zugrunde gelegt wird, das durch den um die Konstante von 614 erhöhten Wert des beweglichen Durchschnitts der Energie der vorhergehenden Rahmen dargestellt wird. Wenn das Hintergrundgeräusch stark ist, so ist die durch diese Konstante von 614 gebildete Schwelle tatsächlich nicht mehr gültig.
  • Das Verfahren gemäß der Erfindung unterscheidet sich von dem durch die Norm G.279.1, Anhang B, 11/96 bekannten Verfahren hinsichtlich der Glättungsetappen.
  • In 4 ist das Organigramm eines Beispiels für die Durchführung der Glättung des Spracherkennungssignals in dem Verfahren gemäß der Erfindung dargestellt. Diese Glättung umfasst vier Etappen, die auf die anfängliche Entscheidung 21 ("Sprache" oder "Geräusch"), die auf einer Vielzahl von Kriterien beruht, folgen. Unter diesen vier Etappen sind drei Etappen (Tests 131, 132, 136) analog zu drei oben beschriebenen Etappen (Tests 31, 32, 36); die oben beschriebene vierte Etappe 40 entfällt; und vor der oben beschriebenen ersten Etappe 31 wird eine so genannte "einleitende" Etappe eingefügt. Es wird eine so genannte "Trägheitszählung" eingefügt, um eine Trägheit mit einer Dauer zu erreichen, die beispielsweise dem Fünffachen der Dauer eines Rahmens entspricht, bevor die Entscheidung "Sprache" in die Entscheidung "Geräusch" geändert wird, wenn die Energie des Rahmens nachgelassen hat. Diese Dauer entspricht folglich in diesem Beispiel 50 ms. Diese Trägheitszählung ist nur dann aktiv, wenn die durchschnittliche Energie des Geräuschs 8.000 Stufen der durch die Norm G.279.1, Anhang B, 11/96 definierten Quantifizierungsskala übersteigt.
    • – Die eingefügte einleitende Etappe 101 bis 104 besteht darin:
    • – den Trägheitszähler auf 0 zu stellen (Schritt 102) und anschließend zum Test 131 überzugehen, wenn die anfängliche Entscheidung der Etappe 21 "Sprache" ist.
    • – zu bestimmen, ob die Energie des aktuellen Rahmens höher als ein festgelegter Schwellenwert ist, und zu bestimmen, ob der Inhalt des Trägheitszählers niedriger als 6 und höher als 1 ist (Schritt 103), wenn die anfängliche Entscheidung der Etappe 21 "Geräusch" ist. Anschließend:
    • – die Entscheidung "Sprache" (im Widerspruch zu der anfänglichen Entscheidung) zu treffen, wenn diese beiden Bedingungen erfüllt sind, und danach den Trägheitszähler um eine Einheit zu erhöhen (Schritt 104) und schließlich zum Test 131 überzugehen.
    • – oder die Entscheidung "Geräusch" 142 endgültig zu treffen, wenn eine dieser Bedingungen nicht erfüllt ist.
    • – Die erste Etappe besteht in einem Test 131 (analog zu dem Test 31), der darin besteht, die Entscheidung "Sprache" aufrechtzuerhalten, wenn die vorhergehende Entscheidung "Sprache" war und die durchschnittliche Energie des aktuellen Rahmens höher ist als der bewegliche und um eine festgelegte Konstante erhöhte Durchschnitt der Energie der vorhergehenden Rahmen.
    • – Die zweite Etappe 132 bis 135 (analog zu den Etappen 32 bis 35) besteht darin, die Entscheidung "Sprache" zu treffen, wenn:
    • – die Entscheidung für die beiden vorhergehenden Rahmen "Sprache" war,
    • – und die durchschnittliche Energie des aktuellen Rahmens höher ist als der bewegliche und um eine Konstante erhöhte Durchschnitt der Energie des vorhergehenden Rahmens, das heißt, wenn die Energie vom vorhergehenden Rahmen zum aktuellen Rahmen nicht wesentlich nachgelassen hat.
  • Diese zweite Etappe 132 bis 135 besteht ferner darin, diesen Test für den nächsten Rahmen zu deaktivieren, wenn der aktuelle Rahmen der vierte Rahmen hintereinander ist, für den die Entscheidung "Sprache" lautet (Erhöhung 133 eines Zählers um ein Inkrement, Vergleich 134 seines Inhalts mit dem Wert 4, und Deaktivierung 135, wenn der Wert 4 erreicht ist).
    • – Die dritte Etappe 136 bis 139 und 143 (etwas verschieden von den Etappen 36 bis 39) besteht darin, die Entscheidung "Geräusch" 142 endgültig zu treffen, wenn:
    • – für die letzten zehn Rahmen eine Entscheidung "Geräusch" getroffen worden ist;
    • – und die Energie des aktuellen Rahmens niedriger ist als die um eine Konstante erhöhte Energie des vorhergehenden Rahmens, das heißt, wenn die Energie vom vorhergehenden Rahmen zum aktuellen Rahmen nicht wesentlich zugenommen hat.
  • Diese dritte Etappe besteht ferner darin, diesen Test 136 neu zu starten, indem die Zählung der Rahmen zurückgesetzt wird, wenn der aktuelle Rahmen der zehnte Rahmen hintereinander ist, für den die Entscheidung "Geräusch" lautet (Erhöhung 137 eines Zählers um ein Inkrement, Vergleich 138 des Inhalts dieses Zählers mit dem Wert 10, Zurücksetzen 139 dieses Zählers auf 0, wenn der Wert 10 erreicht ist). Die dritte Etappe ist gegenüber dem oben beschriebenen bekannten Verfahren geändert, da sie ferner darin besteht, dem Trägheitszähler den Wert 6 aufzuzwingen (Schritt 143), um jegliche Interaktion zwischen diesem Test 136 und dem Trägheitszähler zu vermeiden.
    • – Es gibt keine vierte Etappe, die analog zur Etappe 40 ist.
  • In 5 stellen die Kurven E1 und E2 jeweils die Prozentanteile von Fehlern mit dem bekannten Verfahren und mit dem Verfahren gemäß der Erfindung für verschiedene Werte des Signal-Rausch-Verhältnisses dar.
  • In 6 stellen die Kurven L1 und L2 jeweils die Prozentanteile von Sprachverlusten mit dem bekannten Verfahren und mit dem Verfahren gemäß der Erfindung für verschiedene Werte des Signal-Rausch-Verhältnisses dar.
  • Sie zeigen, dass das Verhalten der Spracherkennung in einer lauten Umgebung wesentlich verbessert wird. Der gesamte Prozentanteil von Fehlern nimmt ab, und vor allem ist der Prozentanteil des Sprachverlusts beträchtlich reduziert. Die Vollständigkeit der Sprache bleibt erhalten, und das Gespräch bleibt verständlich.

Claims (6)

  1. Verfahren zur Spracherkennung in einem Signal, wobei dieses Signal in Rahmen unterteilt wird und dieses Verfahren über eine Glättungsphase einer anfänglichen, für jeden Rahmen getroffenen Entscheidung "Sprache" oder "Geräusch" verfügt, dadurch gekennzeichnet, dass diese Glättungsphase eine Etappe aufweist, die darin besteht, eine endgültige Entscheidung "Sprache" für den n-ten Rahmen zu treffen, wenn: – die anfängliche Entscheidung für den Rahmen n "Sprache" ist; – und die endgültige Entscheidung für den Rahmen n – 2 "Geräusch" war; – und die Energie des Rahmens n – 1 größer als diejenige des Rahmens n – 2 war; – und die Energie des Rahmens n größer als die Energie des Rahmens n – 2 ist.
  2. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass wenn eine endgültige Entscheidung "Sprache" für den Rahmen n getroffen worden ist, dieses Verfahren ferner darin besteht, jegliche endgültige Entscheidung "Geräusch" für die Rahmen n + 1 bis n + i zu unterbinden, wobei i eine ganze Zahl ist, die eine Trägheitsdauer definiert.
  3. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass diese Glättungsphase eine Etappe aufweist, die für einen Rahmen n darin besteht: – einen Trägheitszähler (102) auf 0 zu stellen, wenn die anfängliche Entscheidung "Sprache" ist. – zu bestimmen, ob die Energie des Rahmens n höher als ein Schwellenwert ist, und zu bestimmen, ob der Inhalt des Trägheitszählers niedriger als ein festgelegter Schwellenwert und höher als eins ist (103), wenn die anfängliche Entscheidung "Geräusch" ist. Anschließend: – die Entscheidung "Sprache" zu treffen, wenn diese drei Bedingungen erfüllt sind, und danach den Trägheitszähler um eine Einheit zu erhöhen (104). – oder die Entscheidung "Geräusch" zu treffen, wenn eine dieser Bedingungen nicht erfüllt ist.
  4. Sprachsignalcodierer mit einer Spracherkennungsvorrichtung, wobei dieses Signal in Rahmen unterteilt wird und diese Vorrichtung Mittel zur Glättung einer anfänglichen, für jeden Rahmen getroffenen Entscheidung "Sprache" oder "Geräusch" aufweist, dadurch gekennzeichnet, dass diese Glättungsmittel über Mittel verfügen, um eine endgültige Entscheidung "Sprache" für den n-ten Rahmen zu treffen, wenn: – die anfängliche Entscheidung für den Rahmen n "Sprache" ist; – und die endgültige Entscheidung für den Rahmen n – 2 "Geräusch" war; – und die Energie des Rahmens n – 1 größer als diejenige des Rahmens n – 2 war; – und die Energie des Rahmens n größer als die Energie des Rahmens n – 2 ist.
  5. Codierer gemäß Anspruch 4, dadurch gekennzeichnet, dass die Glättungsmittel über Mittel verfügen, um – wenn eine endgültige Entscheidung "Sprache" für den Rahmen n getroffen worden ist – jegliche endgültige Entscheidung "Geräusch" für die Rahmen n + 1 bis n + i zu unterbinden, wobei i eine ganze Zahl ist, die eine Trägheitsdauer definiert.
  6. Codierer gemäß Anspruch 4, dadurch gekennzeichnet, dass die Glättungsmittel über Mittel verfügen, um: – einen Trägheitszähler (102) auf 0 zu stellen, wenn die anfängliche Entscheidung für den Rahmen n "Sprache" ist. – zu bestimmen, ob die Energie des Rahmens n höher als ein Schwellenwert ist, und zu bestimmen, ob der Inhalt des Trägheitszählers niedriger als ein festgelegter Schwellenwert und höher als eins ist (103), wenn die anfängliche Entscheidung "Geräusch" ist. Anschließend: – die Entscheidung "Sprache" zu treffen, wenn diese drei Bedingungen erfüllt sind, und danach den Trägheitszähler um eine Einheit zu erhöhen (104). – oder die Entscheidung "Geräusch" zu treffen, wenn eine dieser Bedingungen nicht erfüllt ist.
DE60200632T 2001-06-11 2002-04-18 Verfahren zur Sprachaktivitätsdetektion in einem Signal, und Sprachkodierer mit Vorrichtung zur Ausführung des Verfahrens Expired - Lifetime DE60200632T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0107585 2001-06-11
FR0107585A FR2825826B1 (fr) 2001-06-11 2001-06-11 Procede pour detecter l'activite vocale dans un signal, et codeur de signal vocal comportant un dispositif pour la mise en oeuvre de ce procede

Publications (2)

Publication Number Publication Date
DE60200632D1 DE60200632D1 (de) 2004-07-22
DE60200632T2 true DE60200632T2 (de) 2004-12-23

Family

ID=8864153

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60200632T Expired - Lifetime DE60200632T2 (de) 2001-06-11 2002-04-18 Verfahren zur Sprachaktivitätsdetektion in einem Signal, und Sprachkodierer mit Vorrichtung zur Ausführung des Verfahrens

Country Status (8)

Country Link
US (1) US7596487B2 (de)
EP (1) EP1267325B1 (de)
JP (2) JP3992545B2 (de)
CN (1) CN1162835C (de)
AT (1) ATE269573T1 (de)
DE (1) DE60200632T2 (de)
ES (1) ES2219624T3 (de)
FR (1) FR2825826B1 (de)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7756709B2 (en) * 2004-02-02 2010-07-13 Applied Voice & Speech Technologies, Inc. Detection of voice inactivity within a sound stream
GB0408856D0 (en) * 2004-04-21 2004-05-26 Nokia Corp Signal encoding
ATE371926T1 (de) * 2004-05-17 2007-09-15 Nokia Corp Audiocodierung mit verschiedenen codierungsmodellen
DE102004049347A1 (de) * 2004-10-08 2006-04-20 Micronas Gmbh Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale
KR100657912B1 (ko) * 2004-11-18 2006-12-14 삼성전자주식회사 잡음 제거 방법 및 장치
US20060241937A1 (en) * 2005-04-21 2006-10-26 Ma Changxue C Method and apparatus for automatically discriminating information bearing audio segments and background noise audio segments
KR20080059881A (ko) * 2006-12-26 2008-07-01 삼성전자주식회사 음성 신호의 전처리 장치 및 방법
PT2491559E (pt) * 2009-10-19 2015-05-07 Ericsson Telefon Ab L M Método e estimador de fundo para a detecção de actividade de voz
CN102137194B (zh) * 2010-01-21 2014-01-01 华为终端有限公司 一种通话检测方法及装置
EP3493205B1 (de) * 2010-12-24 2020-12-23 Huawei Technologies Co., Ltd. Verfahren und vorrichtung zur adaptiven detektion einer stimmaktivität in einem audioeingangssignal
WO2012152323A1 (en) * 2011-05-11 2012-11-15 Robert Bosch Gmbh System and method for emitting and especially controlling an audio signal in an environment using an objective intelligibility measure
US20130090926A1 (en) * 2011-09-16 2013-04-11 Qualcomm Incorporated Mobile device context information using speech detection
CN103325386B (zh) * 2012-03-23 2016-12-21 杜比实验室特许公司 用于信号传输控制的方法和系统
CN103325385B (zh) * 2012-03-23 2018-01-26 杜比实验室特许公司 语音通信方法和设备、操作抖动缓冲器的方法和设备
CN105681966B (zh) * 2014-11-19 2018-10-19 塞舌尔商元鼎音讯股份有限公司 降低噪音的方法及电子装置
US10928502B2 (en) * 2018-05-30 2021-02-23 Richwave Technology Corp. Methods and apparatus for detecting presence of an object in an environment
CN109360585A (zh) * 2018-12-19 2019-02-19 晶晨半导体(上海)股份有限公司 一种语音激活检测方法
CN113497852A (zh) * 2020-04-07 2021-10-12 北京字节跳动网络技术有限公司 自动音量调整方法、装置、介质和设备
CN113555025B (zh) * 2020-04-26 2024-08-09 华为技术有限公司 一种静音描述帧发送、协商方法及装置
CN115132231B (zh) * 2022-08-31 2022-12-13 安徽讯飞寰语科技有限公司 语音活性检测方法、装置、设备及可读存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0240700A (ja) * 1988-08-01 1990-02-09 Matsushita Electric Ind Co Ltd 音声検出装置
JPH0424692A (ja) * 1990-05-18 1992-01-28 Ricoh Co Ltd 音声区間検出方式
US5410632A (en) * 1991-12-23 1995-04-25 Motorola, Inc. Variable hangover time in a voice activity detector
US5583961A (en) * 1993-03-25 1996-12-10 British Telecommunications Public Limited Company Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
JP2897628B2 (ja) * 1993-12-24 1999-05-31 三菱電機株式会社 音声検出器
US5826230A (en) * 1994-07-18 1998-10-20 Matsushita Electric Industrial Co., Ltd. Speech detection device
JP3109978B2 (ja) * 1995-04-28 2000-11-20 松下電器産業株式会社 音声区間検出装置
US5819217A (en) * 1995-12-21 1998-10-06 Nynex Science & Technology, Inc. Method and system for differentiating between speech and noise
JP3297346B2 (ja) * 1997-04-30 2002-07-02 沖電気工業株式会社 音声検出装置
US6188981B1 (en) * 1998-09-18 2001-02-13 Conexant Systems, Inc. Method and apparatus for detecting voice activity in a speech signal
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
JP3759685B2 (ja) * 1999-05-18 2006-03-29 三菱電機株式会社 雑音区間判定装置,雑音抑圧装置及び推定雑音情報更新方法
FR2797343B1 (fr) * 1999-08-04 2001-10-05 Matra Nortel Communications Procede et dispositif de detection d'activite vocale
US7478042B2 (en) * 2000-11-30 2009-01-13 Panasonic Corporation Speech decoder that detects stationary noise signal regions

Also Published As

Publication number Publication date
ATE269573T1 (de) 2004-07-15
CN1162835C (zh) 2004-08-18
JP2006189907A (ja) 2006-07-20
FR2825826A1 (fr) 2002-12-13
DE60200632D1 (de) 2004-07-22
EP1267325B1 (de) 2004-06-16
CN1391212A (zh) 2003-01-15
ES2219624T3 (es) 2004-12-01
US20020188442A1 (en) 2002-12-12
US7596487B2 (en) 2009-09-29
FR2825826B1 (fr) 2003-09-12
JP2003005772A (ja) 2003-01-08
JP3992545B2 (ja) 2007-10-17
EP1267325A1 (de) 2002-12-18

Similar Documents

Publication Publication Date Title
DE60200632T2 (de) Verfahren zur Sprachaktivitätsdetektion in einem Signal, und Sprachkodierer mit Vorrichtung zur Ausführung des Verfahrens
DE60209861T2 (de) Adaptive Postfilterung zur Sprachdekodierung
DE69720087T2 (de) Verfahren und Vorrichtung zur Unterdrückung von Hintergrundmusik oder -geräuschen im Eingangssignal eines Spracherkenners
DE69831991T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69627580T2 (de) Verfahren zur Rauschverminderung in einem Sprachsignal
DE69534285T2 (de) Verfahren und Vorrichtung zur Auswahl der Kodierrate in einem Vocoder mit variabler Rate
DE69926851T2 (de) Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
DE69619284T2 (de) Vorrichtung zur Erweiterung der Sprachbandbreite
DE69518705T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60108373T2 (de) Verfahren zur Detektion von Emotionen in Sprachsignalen unter Verwendung von Sprecheridentifikation
DE68912397T2 (de) Spracherkennung mit Sprecheranpassung durch Lernprozess.
EP0076234B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69616724T2 (de) Verfahren und System für die Spracherkennung
EP0076233B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE19500494C2 (de) Merkmalsextraktionsverfahren für ein Sprachsignal
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE3878895T2 (de) Verfahren und einrichtung zur spracherkennung.
DE19581667C2 (de) Spracherkennungssystem und Verfahren zur Spracherkennung
DE68907098T2 (de) Differentieller Kodierer mit auto-adaptivem Prädiktorfilter und dazugehörigem Dekodierer.
DE19716862A1 (de) Sprachaktivitätserkennung
WO1993002448A1 (de) Verfahren und anordnung zum erkennen von einzelwörtern gesprochener sprache
WO2001084536A1 (de) Verfahren zur berechnung einer sprachaktivitätsentscheidung (voice activity detector)
DE69129131T2 (de) Einrichtung zur Sprachcodierung und Verwandte Decodierungseinrichtung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: ALCATEL LUCENT, PARIS, FR