DE69831991T2 - Verfahren und Vorrichtung zur Sprachdetektion - Google Patents

Verfahren und Vorrichtung zur Sprachdetektion Download PDF

Info

Publication number
DE69831991T2
DE69831991T2 DE69831991T DE69831991T DE69831991T2 DE 69831991 T2 DE69831991 T2 DE 69831991T2 DE 69831991 T DE69831991 T DE 69831991T DE 69831991 T DE69831991 T DE 69831991T DE 69831991 T2 DE69831991 T2 DE 69831991T2
Authority
DE
Germany
Prior art keywords
noise
energy
speech
signal
zero
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69831991T
Other languages
English (en)
Other versions
DE69831991D1 (de
Inventor
Estelle Sonnic
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of DE69831991D1 publication Critical patent/DE69831991D1/de
Publication of DE69831991T2 publication Critical patent/DE69831991T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/09Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Description

  • Diese Erfindung betrifft ein Verfahren zur Detektion von Sprachaktivität in Eingangssignalen, zusammengesetzt aus aufeinanderfolgenden digitalisierten Frames von vorbestimmter Dauer mit Sprachsignalen, Rauschsignalen und Ruhemomenten, wobei das besagte Verfahren den laufenden Frame einem ersten Schritt zur Berechnung der Energieparameter und der Durchgangszahl durch Null des zentrierten Rauschsignals und einem zweiten Schritt zur Einteilung als Rauschen oder als Sprache und zur Verarbeitung dieser Signale gemäß den berechneten Energiewerten und der Durchgangszahl durch Null unterzieht und die besagte Einteilung als Rauschen oder als Sprache an die Energie der besagten Eingangssignale bezüglich eines Grenzwerts B, anpassbar und mit berechneter Durchgangszahl durch Null, gebunden ist. Die Erfindung betrifft auch eine Vorrichtung zur Detektion von Sprachaktivität für die Umsetzung dieses Verfahrens.
  • Diese Erfindung ist in jeder Anwendung einsetzbar, in der Sprachsignale (und nicht reine Audiosignale) vorkommen und wobei es wünschenswert ist, eine Unterscheidung zwischen Schallbereichen mit Sprache, Hintergrundrauschen und Ruhemomenten und Schallbereichen, die nur Rauschen oder Ruhemomente enthalten, zu machen. Sie kann insbesondere eine vorhergehende Verarbeitungsform bilden, die in Anwendungen zur Erkennung von vereinzelten Sätzen oder Wörtern von Nutzen ist.
  • Die Patentanmeldung EP 0392412 beschreibt einen Apparat zur Detektion von Sprachaktivität, in dem für jeden aufeinander folgenden Frame insbesondere Mittel zur Berechnung der Energie und der Durchgangszahl durch Null und Mittel zum Vergleichen (mit Grenzwerten) des absoluten Werts der Differenz zwischen den an aufeinanderfolgende Frames gebundenen Energien sowie zum Vergleichen der Energie des laufenden Frames mit einem Grenzwert vorgesehen sind. Was die Energie des laufenden Frames betrifft kann der Grenzwert allerdings höchstens zwei verschiedene Werte, gut definiert und folglich nicht anpassbar, annehmen.
  • Das Patent US 5307441 beschreibt danach einen Detektor der Sprachaktivität, in dem die Energie jedes Frames mit einem anpassbaren Grenzwert verglichen wird, wobei die Anpassung aber lediglich in der Verfolgung des Rauschpegels besteht, um die Vergleichsgrenze der Energie über einen beträchtlichen Zeitintervall (einige hunderte Frames) genau über seine durchschnittliche Energie zu bringen.
  • Die Patentanmeldung EP 0451796 beschreibt gewiss Mittel zum Vergleichen der Energie eines Frames mit einem variablen Grenzwert, doch tatsächlich unterscheiden sich die variablen Grenzwerte untereinander nur um eine Konstante mit der Bezeichnung „Gamma" und nicht um einen variablen Wert unter Berücksichtigung des Wertes der Energie bezüglich des Wertes des Grenzwerts selbst, wie die nachfolgende Beschreibung der Erfindung dies aufzeigen wird.
  • Ein erstes Ziel der Erfindung ist die Optimierung der Bandbreite, die in Bezug auf andere Signaltypen den Sprachsignalen vorbehalten ist, im Falle von Übertragungsnetzwerken zur üblichen Weiterleitung anderer Daten als allein nur der Sprache (man muss prüfen, ob die Sprache nicht die gesamte Bandbreite belegt, d. h. dass der gleichzeitige Übergang der Sprache und der anderen Daten gut möglich ist), oder auch beispielsweise die Optimierung des im Speicher pro abgelegter Meldung wie in einen digitalen Anrufbeantworter belegten Platzes.
  • Für diesen Zweck betrifft die Erfindung ein Verfahren wie im Vorwort der Beschreibung definiert, außerdem dadurch gekennzeichnet, dass der Wert des besagten Grenzwerts B unter Berücksichtigung der Energie En des laufenden Frames in Bezug auf den besagten Grenzwert selbst variiert.
  • Ein anderes Ziel der Erfindung ist es, eine Vorrichtung zur Detektion von Sprachaktivität vorzuschlagen, die eine einfache Umsetzung des erläuterten Verfahrens ermöglicht.
  • Für diesen Zweck betrifft die Erfindung eine Verwendung des besagten Verfahrens in einer Vorrichtung zur Detektion von Sprachaktivität in Eingangssignalen, zusammengesetzt aus aufeinanderfolgenden digitalisierten Frames vorbestimmter Dauer einschließlich Sprachsignalen, Rauschsignalen und Ruhemomenten, mit der Anwendung auf das laufende Frame eines ersten Schritts zur Berechnung von Energieparametern und der Durchgangszahl durch Null des zentrierten Rauschsignals und eines zweiten Schritts zur Einteilung als Rauschen oder als Sprache und zur Verarbeitung dieser Signale entsprechend den berechneten Energiewerten und der Durchgangszahl durch Null, wobei die besagte Einteilung als Rauschen oder als Sprache an die Energie der besagten Eingangssignale bezüglich eines anpassbaren Grenzwerts B und die berechnete Durchgangszahl durch Null gebunden und die besagte Vorrichtung dadurch gekennzeichnet ist, dass sie in Serie eine Stufe zur Initialisierung der später verwendeten Variablen, um die initiale Regelung der besagten Variablen im Laufe eines ersten Zustands zur temporären Initialisierung einer Dauer von NINIT Frames zu ermöglichen, wobei das Eingangssignal immer als Sprachsignal betrachtet wird, eine Stufe zur Berechnung der Energie jedes Frames und der Durchgangszahl durch Null des zentrierten Rauschsignals sowie eine Stufe zum Testen und Verarbeiten beinhaltet, verwirklicht in der Form eines so genannten Automatens mit drei Zuständen und dafür vorgesehen, die besagte Vorrichtung nach dem temporären Übergang in den besagten Initialisierungzustand in den einen oder anderen eines zweiten und eines dritten Zustands entsprechend den besagten Berechnungen umzuschalten, und jedes Eingangssignal respektive als Signal „Sprache + Rauschen + Ruhe" oder als Signal „Rauschen + Ruhe" eingeteilt wird.
  • Die Besonderheiten und Vorteile der Erfindung werden in der folgenden Beschreibung und in den beigefügten Figuren, als nicht erschöpfende Beispiele gegeben, mehr im Detail ersichtlich, in denen:
  • 1 das allgemeine Prinzip der Umsetzung des der Erfindung entsprechenden Verfahrens zeigt;
  • 2 diese Umsetzung mehr im Detail zeigt und insbesondere die drei Zustände zur Geltung bringt, welche die Vorrichtung zur Detektion, die diese Umsetzung versichert, annehmen kann;
  • 3 bis 5 die in der besagten Vorrichtung durchgeführten Verarbeitungen verdeutlichen, wenn diese sich in einem dieser drei Zustände befindet.
  • Vor der Beschreibung der Erfindung werden zuerst einige Bedingungen für die Verwendung des vorgeschlagenen Verfahrens präzisiert, d. h. zunächst, dass die Eingangssignale, die aus einer einzigen Eingangsquelle ausgehen, (Wort- oder) Sprachsignalen entsprechen, übertragen von menschlichen Wesen und vermischt mit Hintergrundrauschen, das sehr diverse Ursprünge haben kann (Hintergrundrauschen von Restaurants, von Büros, von vorbeifahrenden Autos etc...). Außerdem müssen diese Eingangssignale digitalisiert werden, bevor man sie entsprechend der Erfindung verarbeitet, und diese Verarbeitung erfordert, dass man ausreichend Abschnitte (oder Frames) dieser digitalisierten Eingangssignale, beispielsweise aufeinanderfolgende Frames von etwa 5 bis 20 Millisekunden, verwenden kann. Schließlich wird präzisiert, dass das vorgeschlagene Verfahren, unabhängig von jeder anderen nachfolgend auf die Sprachsignale angewandten Verarbeitung, hier mit digitalen Signalen getestet wurde, abgetastet mit 8 kHz und gefiltert, um nur im Telefonfrequenzband zu liegen (300–3400 Hz).
  • Das Prinzip der Umsetzung des der Erfindung entsprechenden Verfahrens wird in 1 gezeigt. Nach einem vorhergehenden Schritt in einer Stufe 10 zur Initialisierung der Variablen, die man während dem Ablauf des Prozesses verwendet, wird jeder laufende Frame TRn der am Eingang E erhaltenen Eingangssignale in einer Berechnungsstufe 11 einem ersten Schritt zur Berechnung der Energie En dieses Frames und der Durchgangszahl durch Null des zentrierten Rauschsignals für diesen Frame unterzogen (man präzisiert weiter unten die Bedeutung dieser Variablen, die man in dieser Beschreibung ZCR oder auch ZC benennt, gemäß dem Entsprechenden in Englisch: Zero-Crossing Rate). Ein zweiter Schritt ermöglicht es dann in einer Test- und Verarbeitungstufe 12, die Energie mit einem adaptiven Grenzwert und die ZRC mit einem festen Grenzwert zu vergleichen, um zu entscheiden, ob das Eingangssignal ein Signal „Sprache + Rauschen + Ruhe" oder nur ein Signal „Rauschen + Ruhe" aufweist. Dieser zweite Schritt wird in dem, was man hiernach einen Automaten mit drei Zuständen benennt, dessen Funktionsweise in 2 gezeigt wird, verwirklicht. Diese drei Zustände werden auch in 1 veranschaulicht.
  • Der erste Zustand, START_VAD, ist ein Anfangs- oder Initialisierungszustand, in 1 mit A bezeichnet. Bei jedem Aufruf der Verarbeitung gemäß der Erfindung geht das System in diesen Zustand über, wobei das Eingangssignal immer als Sprachsignal betrachtet wird (selbst wenn man dabei auch Rauschen erkennt). Dieser Initialisierungszustand ermöglicht insbesondere die Regelung der internen Variablen und wird während der notwendigen Zeit beibehalten (während mehreren aufeinanderfolgenden Frames ist diese Anzahl von Frames mit der Bezeichnung NINIT selbstverständlich regelbar).
  • Der zweite Zustand, SPRACHE_VAD, entspricht dem Fall, in dem das Ein gangssignal als Signal „Sprache + Rauschen + Ruhe" betrachtet wird. Der dritte Zustand, RAUSCHEN_VAD, entspricht dem Fall, in dem das Eingangssignal nur als Signal „Rauschen + Ruhe" betrachtet wird (man beachte hier, dass die Ausdrücke „erster" und „zweiter" Zustand nicht eine Bedeutungsfolge definieren, sondern einfach nur für deren Unter scheidung bestimmt sind). Nach den NINIT ersten Frames entsprechend dem Initialisierungszustand für die Regelung der Variablen befindet sich das System weiterhin in diesem zweiten oder in diesem dritten Zustand. Der Übergang von einem Zustand in den anderen wird weiter unten beschrieben.
  • Nach der Initialisierung umfasst der erste Berechnungsschritt in Stufe 11 zwei Unterschritte, in einer Rechenschaltung 111 durchgeführt, erstens zur Berechnung der Energie des laufenden Frames und zweitens zur Berechnung der ZCR für diesen Frame, in einer Rechenschaltung 112 durchgeführt.
  • Im Allgemeinen ist ein Sprachsignal (d. h. ein Signal „Sprache + Rauschen + Ruhe") mehr energiereich als ein Signal „Rauschen + Ruhe" allein. Das Hintergrundrauschen müsste wirklich sehr hoch sein, um nicht als Rauschen (d. h. als ein Signal „Rauschen + Ruhe"), sondern als Sprachsignal erkannt zu werden. Die Schaltung 111 zur Berechnung der Energie sieht folglich die Verbindung eines variablen Grenzwerts gemäß dessen Werts mit dieser Energie hinsichtlich von Tests vor, die folgendermaßen verlaufen:
    • (a) wenn die Energie En des laufenden Frames untere einem bestimmten Grenzwert B (En < Grenzwert B) liegt, wird der laufende Frame als RAUSCHEN eingeteilt;
    • (b) wenn die Energie En dagegen größer oder gleich dem Grenzwert B (En ≥ Grenzwert B) ist, wird der laufende Frame als SPRACHE eingeteilt.
  • Tatsächlich selektiert man einen adaptiven Grenzwert B unter Berücksichtigung des Hintergrundrauschens, d. h. beispielsweise dessen Anpassung unter Berücksichtigung der durchschnittlichen Energie E des Signals „Rauschen + Ruhe", und mit der Autorisation von Niveauschwankungen dieses Signals „Rauschen + Ruhe". Das Anpassungskriterium ist dann folgendes:
    • (i) wenn (En < Grenzwert B), dann wird der Grenzwert B durch den Grenzwert B – α.E ersetzt, wobei α ein empirisch definierter konstanter Koeffizient, hier jedoch zwischen 0 und 1 enthalten ist;
    • (ii) wenn (Grenzwert B < En < Grenzwert B + Δ), dann wird der Grenzwert B durch den Grenzwert B + α.E ersetzt (Δ = Zusatzgrenzwert).
  • In diesen zwei Situationen (i) und (ii) wird das Signal als „Rauschen + Ruhe" betrachtet, und der Durchschnitt E wird aktualisiert. Ansonsten, wenn En ≥ Grenzwert B + Δ, wird das Signal als Sprache betrachtet, und der Durchschnitt E bleibt unverändert. Wenn man vermeiden will, dass der Grenzwert B zu sehr ansteigt oder zu sehr absinkt, gibt man seinem Wert vor, zwischen zwei Grenzwerten (GRENZWERT B_MIN und GRENZ WERT B_MAX), empirisch definiert, enthalten zu bleiben. Außerdem ist der Wert von Δ an sich hier mehr oder weniger groß, je nach dem, ob das Eingangssignal (wie es auch sei: Sprache alleine, Rauschen + Ruhe, oder eine Mischung der beiden) mehr oder weniger groß ist. Wenn man beispielsweise die Energie des vorhergehenden Frames TRn–1 des Eingangssignals mit En–1 bezeichnet (was gespeichert ist), trifft man eine Entscheidung folgenden Typs:
    • (i) wenn |En – En–1| < Grenzwert, Δ = DELTA1;
    • (ii) sonst, Δ = DELTA2;
    wobei man die zwei möglichen Werte von A auch hier wieder auf empirische Art und Weise definiert.
  • Nachdem die Berechnung der Energie in der Schaltung 111 ausgeführt wurde, verbindet man sie für den laufenden Frame mit der Berechnung der ZCR, ausgeführt in Schaltung 112. Diese Berechnungen in Stufe 11 werden von einer Operation zur Entscheidung in Bezug auf den Zustand gefolgt, in dem die Vorrichtung sich nach der Umsetzung der beschriebenen diversen Schritte befindet. Genauer gesagt umfasst dieser Entscheidungsprozess, ausgeführt in einer Stufe 12, zwei grundlegende Tests 121 und 122, die jetzt nacheinander beschrieben werden.
  • Man sah zunächst, dass bei jedem Verarbeitungsaufruf gemäß der Erfindung der Anfangszustand während NINIT aufeinanderfolgenden Frames A = START_VAD war. Der erste Test 121 des Zustands der Vorrichtung betrifft die Anzahl an Frames, die am Eingang der Vorrichtung und Leitung dargeboten werden, solange diese dargebotene Anzahl an Frames kleiner als NINIT bleibt, mit der Folgerung, dass der Zustand START_VAD ist und bleibt (Antwort Y am Ausgang des Tests 121). In diesem Fall wird die daraus resultierende Verarbeitung, bezeichnet START_VAD_P und ausgeführt in Block 141, in 3 gezeigt, was weiter unten kommentiert wird. Man kann allerdings ab jetzt darauf hinweisen, dass im Laufe dieser Verarbeitung START_VAD_P es zwangsläufig dazu kommt, dass der beobachtete Zustand nicht mehr der Anfangszustand START_VAD, sondern einer der anderen Zustände, RAUSCHEN_VAD oder SPRACHE_VAD ist, wobei die Unterscheidung zwischen dem einen oder anderen im Laufe des Tests 122 durchgeführt wird.
  • Denn wenn am Ausgang des ersten Tests 121 die Antwort diesemal N (d. h: „nein, der Zustand ist nicht mehr START_VAD") ist, prüft der zweite Test 122, ob der bebachtete Zustand B = RAUSCHEN_VAD ist, mit der Antwort ja oder nein wie zuvor. Wenn die Antwort ja ist (Antwort Y am Ausgang von 122), wird die daraus resultierende Verarbeitung mit der Bezeichnung RAUSCHEN_VAD_P, in Block 142 ausgeführt, in 4 gezeigt. Wenn die Antwort nein ist (Antwort N am Ausgang von 122), wird die daraus resultierende Verarbeitung mit der Bezeichnung SPRACHE_VAD_P, in Block 143 ausgeführt, in 5 gezeigt (genau wie für START_VAD_P, wobei die 4 und 5 nachstehend kommentiert werden). Welche diejenige der drei Verarbeitungen, die infolge dieser Tests 121 und 122 ausgeführt werden, auch sein mag, sie wird über den Anschluss 15 zur Verbindung des Ausgangs der Blöcke 141 bis 143 mit dem Eingang der Schaltung 11 von einer Rückführung zum Eingang der Vorrichtung gefolgt. So kann der nachfolgende Frame analysiert und verarbeitet werden.
  • Die 3, 4 und 5, deren grundlegenden Aspekte in 2 zusammengefasst werden, beschreiben folglich den Ablauf der Verarbeitungen START_VAD_P, RAUSCHEN_VAD_P und SPRACHE_VAD_P im Detail. Die in diesen Figuren verwendeten Variablen sind, nach ihrer Kategorie veranschaulicht, folgende:
    • (1) Energie: En bezeichnet die Energie des laufenden Frames, En–1 diejenige des (gespeicherten) vorhergehenden Frames, und E die durchschnittliche Energie des Hintergrundrauschens;
    • (2) Zähler: (a) ein Zähler cpt_trm zählt die Anzahl an erworbenen Frames ab dem Anfang der Umsetzung des Verfahrens (dieser Zähler wird nur im Zustand START_VAD verwendet und der Wert, den er erreichen kann, ist höchstens gleich NINIT); (b) ein Zähler cpt_trm_rauschen zählt die als Rauschen erkannte Anzahl an Frames ab dem Anfang der Umsetzung des Verfahrens (um Überschreitungen von Berechnungen zu vermeiden aktualisiert man diesen nur dann, wenn der Wert, den dieser erreicht, untere einem gewissen Wert liegt, worüber man ihn nicht mehr verwendet); (c) ein Zähler cpt_transit, verwendet für die Glättung der Übergänge Sprache/Rauschen, vermeidet mit der bedingten Unterscheidung der Umschaltung vom Zustand SPRACHE_VAD zum Zustand RAUSCHEN_VAD die Zergliederung von Satzenden oder die Detektion als Hintergrundrauschen von Silbenzwischenräumen (was das Sprachsignal vollständig zerhacken würde): – wenn man sich im Zustand Sprache befindet und Rauschen erkannt wird, wird dieser Zähler cpt_transit inkrementiert; – wenn erneut Sprache erfasst wird, stellt man diesen Zähler auf Null zurück, ansonsten inkrementiert man ihn weiter, bis ein Grenzwert, N-TRANSM, erreicht wird: diese Bestätigung, dass das Eingangssignal tatsächlich Hintergrundrauschen ist, führt jetzt zur Umschaltung in den Zustand RAUSCHEN_VAD, und der Zähler cpt_transit wird auf Null zurückgestellt;
    • (3) Grenzwerte: Grenzwert B bezeichnet den verwendeten Grenzwert zum Unterscheiden der Sprache von einem Hintergrundrauschen schwachen Niveaus (GRENZWERT B_MIN und GRENZWERT B_MAX sind seine zulässigen minimalen und maximalen Werte), a der Wert des Koeffizienten zur Aktualisierung von Grenzwert B und Δ den verwendeten Zusatzgrenzwert zum Unterscheiden der Sprache von einem Hintergrundrauschen hohen Niveaus (seine zwei möglichen Werte werden DELTA1 und DELTA2, bestimmt dank DELTAE als Grenzwert, der mit |En – En–1| verwendet wird und der es hinsichtlich der Aktualisierung von Δ ermöglicht, zu wissen, ob das Eingangssignal sehr schwankend oder nicht ist);
    • (4) ZCR-Zahl des laufenden Frames: diese Durchgangszahl durch Null des zentrierten Rauschsignals schwankt beträchtlich: – bestimmte Rauschtypen sind zeitlich sehr unruhig, und das Rauschsignal (zentriert, d. h. man hat ihm seinen Durchschnitt genommen) geht dann oft durch Null, weshalb eine hohe ZRC (dies ist insbesondere der Fall bei Hintergrundrauschen Gaußschen Typs); – wenn das Hintergrundrauschen des Typs Stimmengewirr ist (Restaurants, Büros, Nachbarn, die miteinander reden...), nähern sich die Merkmale des Hintergrundrauschens demjenigen eines Sprachsignals, und die ZCR weist schwächere Werte auf; – bestimmte Typen von Sprachklängen werden stimmhaft (voiced) benannt und verlaufen nach einer gewissen Periodizität: dies ist bei Vokalen der Fall, denen eine starke Energie und eine schwache ZCR entsprechen; – andere Typen von Sprachklängen, stimmlos (unvoiced) benannt, haben dagegen in Bezug auf stimmhafte Klänge eine schwächere Energie und eine höhere ZCR: dies ist insbesondere bei frikativen und plosiven Konsonanten der Fall (derartige Signale würden als Rauschen eingeteilt werden, da ihre ZCR einen bestimmten Grenzwert ZCGAUSS übersteigen würde, wenn man diesem Test nicht den auf Energie bezogenen anschließen würde: diese Signale würden nur dann als Rauschen bestätigt werden, wenn ihre Energie unter (Grenzwert B + DELTA2) bleiben würde, doch sie werden im gegenteiligen Falle als Sprache eingeteilt); – schließlich muss auch der besondere Fall einer ZCR Null (ZC = 0) berücksichtigt werden: dies entspricht einem flachen Eingangssignal (alle Muster haben denselben Wert), das dann systematisch einem „Rauschen + Ruhe" gleichgesetzt wird;
    • (5) Ausgangssignal INFO_VAD: am Ende jeder Verarbeitung (in einem der Blöcke 141 bis 143) wird eine Entscheidung bezüglich des laufenden Frames getroffen, wobei dieser letztere tatsächlich entweder als Sprachsignal (INFO_VAD = SPRACHE) oder als Signal aus Hintergrundrauschen + Ruhe (INFO_VAD = RAUSCHEN) erklärt wird.
  • Diese Verarbeitungen in den Blöcken 141 bis 143 umfassen wie angegeben entweder Energie- und ZCR-Tests, angezeigt bei Umrahmungen in Rautenform (mit Ausnahme des ersten Tests in der ersten Verarbeitung START_VAD_P, was einem Test des Zählerwerts cpt_trm entspricht, um zu prüfen, ob die Anzahl an Frames noch kleiner als der Wert NINIT ist und man sich weiterhin in der Initialisierungsphase der Vorrichtung befindet), oder Operationen, die von den Ergebnissen dieser Tests gesteuert werden (eventuelle Änderung der Grenzwerte, Berechnung der durchschnittlichen Energie, Definition des Zustands der Vorrichtung, Inkrement oder Rückstellung auf Null von Zählern, Übergang zum nachfolgenden Frame etc...) und deren Anzeige dann in den Umrahmungen in rechteckiger Form erfolgt.
  • Das Verfahren und die Vorrichtung, die so vorgeschlagen werden, weisen letztlich eine sehr gemäßigte Komplexität auf, was ihre Implantation in Echtzeit besonders leicht macht. Auch kann man beobachten, dass sie mit einem geringen Speicherbedarf verbunden sind. Selbstverständlich können Varianten dieser Erfindung vorgeschlagen werden, ohne dafür ihren Rahmen zu verlassen. Man kann insbesondere die Art des Tests 122 ändern und nach einem negativen Ergebnis des Tests 121 prüfen, ob der neue beobachtete Zustand SPRACHE_VAD (und nicht mehr RAUSCHEN_VAD) ist, mit als Antwort ja oder nein (Y oder N) wie zuvor. Wenn die Antwort ja ist (Y am Ausgang von 122), entspricht die resultierende Verarbeitung SPRACHE_VAD_P (dann in Block 142 ausgeführt), ansonsten entspricht diese Verarbeitung RAUSCHEN_VAD_P (dann in Block 143 ausgeführt).
  • Initialisation
    = Initialisierung
    Current frame
    = laufender Frame
    calculation
    = Berechnung
    START_VAD
    = START_VAD
    NOISE_VAD
    = RAUSCHEN_VAD
    SPEECH_VAD
    = SPRACHE_VAD
    NEXT FRAME
    = nächster Frame
    during the NINIT
    = während NINIT
    first frames
    = erste Frames
    En
    = En
    threshold
    = Grenzwert
    B
    = B
    ZCR
    = ZCR = Zero-Crossing Rate
    ZC
    = ZC = Zero-Crossing
    Gaussian noise or
    = Gaußsches Rauschen oder
    and not finished transition
    = und nicht beendeter Übergang
    fr_ctr
    = fr_ctr
    E
    = E
    MIN
    = MIN
    MAX
    = MAX
    info
    = Info
    if
    = wenn
    if not
    = wenn nicht
    state
    = Zustand
    output
    = Ausgang
    transit
    = Übergang

Claims (5)

  1. Verfahren zur Detektion von Sprachaktivität in Eingangssignalen, zusammengesetzt aus aufeinanderfolgenden digitalisierten Frames von vorbestimmter Dauer mit Sprachsignalen, Rauschsignalen und Ruhemomenten, wobei das besagte Verfahren den laufenden Frame einem ersten Schritt zur Berechnung der Energieparameter und der Durchgangszahl durch Null des zentrierten Rauschsignals und einem zweiten Schritt zur Einteilung als Rauschen oder als Sprache und zur Verarbeitung dieser Signale gemäß den berechneten Energiewerten und der Durchgangszahl durch Null unterzieht, die besagte Einteilung als Rauschen oder als Sprache an die Energie der besagten Eingangssignale bezüglich eines Grenzwerts B, anpassbar und mit berechneter Durchgangszahl durch Null, gebunden und das besagte Verfahren außerdem dadurch gekennzeichnet ist, dass der besagte Grenzwert B entsprechend der Energie En des laufenden Frames in Bezug auf den besagten Grenzwert selbst variiert.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Variationen des besagten Grenzwerts B unter Berücksichtigung des Werts der Energie En des laufenden Frames in Bezug auf den Grenzwert auf einen maximalen Wert Δ über dem besagten Grenzwert begrenzt werden.
  3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass der besagte maximale Wert Δ einen unterschiedlichen Wert entsprechend dem Wert der Energie En des laufenden Frames bezüglich des Werts entsprechend En–1 für den vorhergehenden Frame annimmt.
  4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die aufgrund einer hohen Durchgangszahl durch Null ursprünglich als Rauschen eingeteilten Frames einem Vergleich ihrer durchschnittlichen Energie En mit dem Grenzwert (B + Δ) unterzogen werden.
  5. Verwendung des Verfahrens nach einem der Ansprüche 1 bis 4 in einer Vorrichtung zur Detektion von Sprachaktivität in Eingangssignalen, zusammengesetzt aus aufeinanderfolgenden digitalisierten Frames vorbestimmter Dauer einschließlich Sprachsignalen, Rauschsignalen und Ruhemomenten, durch Anwendung an den laufenden Frame eines ersten Schritts zur Berechnung der Energieparameter und der Durchgangszahl durch Null des zentrierten Rauschsignals und eines zweiten Schritts zur Einteilung als Rauschen oder als Sprache und zur Verarbeitung dieser Signale entsprechend den berechneten Energiewerten und der Durchgangszahl durch Null, wobei die besagte Einteilung als Rauschen oder als Sprache an die Energie der besagten Eingangssignale bezüglich eines anpassbaren Grenzwerts B und an die berechnete Durchgangszahl durch Null gebunden und die besagte Vorrichtung dadurch gekennzeichnet ist, dass sie in Serie eine Stufe (10) zur Initialisierung der später verwendeten Variablen für die anfängliche Regelung der besagten Variablen im Laufe eines ersten temporären Initialisierungszustands eine Dauer von NINIT Frames, in der das Eingangssignal weiterhin als Sprachsignal betrachtet wird, eine Stufe (11) zur Berechnung der Energie jedes Rasters und der Durchgangszahl durch Null des zentrierten Rauschsignals sowie eine Stufe (12) für den Test und die Verarbeitung umfasst, verwirklicht in der Form eines so genannten Automaten mit drei Zuständen und vorgesehen zum Umschalten der besagten Vorrichtung nach dem temporären Übergang in den besagten Initialisierungszustand in den einen oder anderen eines zweiten und eines dritten Zustands, in denen entsprechend den besagten Berechnungen jedes Eingangssignal respektive als Signal „Sprache + Rauschen + Ruhe" oder als Signal „Rauschen + Ruhe" eingestuft wird.
DE69831991T 1997-03-25 1998-03-13 Verfahren und Vorrichtung zur Sprachdetektion Expired - Lifetime DE69831991T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR9703616 1997-03-25
FR9703616 1997-03-25

Publications (2)

Publication Number Publication Date
DE69831991D1 DE69831991D1 (de) 2005-12-01
DE69831991T2 true DE69831991T2 (de) 2006-07-27

Family

ID=9505152

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69831991T Expired - Lifetime DE69831991T2 (de) 1997-03-25 1998-03-13 Verfahren und Vorrichtung zur Sprachdetektion

Country Status (6)

Country Link
US (1) US6154721A (de)
EP (1) EP0867856B1 (de)
JP (1) JP4236726B2 (de)
KR (1) KR100569612B1 (de)
CN (1) CN1146865C (de)
DE (1) DE69831991T2 (de)

Families Citing this family (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6351731B1 (en) 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
ATE248421T1 (de) * 1998-12-22 2003-09-15 Ericsson Inc Verfahren und vorrichtung zur speicherbedarfsreduzierung für ein sprachaufnahmesystem
US6621834B1 (en) * 1999-11-05 2003-09-16 Raindance Communications, Inc. System and method for voice transmission over network protocols
WO2001039175A1 (fr) * 1999-11-24 2001-05-31 Fujitsu Limited Procede et appareil de detection vocale
US7263074B2 (en) * 1999-12-09 2007-08-28 Broadcom Corporation Voice activity detection based on far-end and near-end statistics
US20020116186A1 (en) * 2000-09-09 2002-08-22 Adam Strauss Voice activity detector for integrated telecommunications processing
US7472059B2 (en) * 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification
WO2002089458A1 (en) * 2001-04-30 2002-11-07 Octave Communications, Inc. Audio conference platform with dynamic speech detection threshold
US7356464B2 (en) * 2001-05-11 2008-04-08 Koninklijke Philips Electronics, N.V. Method and device for estimating signal power in compressed audio using scale factors
US7146314B2 (en) * 2001-12-20 2006-12-05 Renesas Technology Corporation Dynamic adjustment of noise separation in data handling, particularly voice activation
US7187656B2 (en) 2002-05-02 2007-03-06 General Instrument Corporation Method and system for processing tones to reduce false detection of fax and modem communications
US20030214972A1 (en) * 2002-05-15 2003-11-20 Pollak Benny J. Method for detecting frame type in home networking
KR100491753B1 (ko) * 2002-10-10 2005-05-27 서울통신기술 주식회사 음성처리보드의 음성신호 검출 방법
US20050091066A1 (en) * 2003-10-28 2005-04-28 Manoj Singhal Classification of speech and music using zero crossing
US7433475B2 (en) * 2003-11-27 2008-10-07 Canon Kabushiki Kaisha Electronic device, video camera apparatus, and control method therefor
US20050117594A1 (en) * 2003-12-01 2005-06-02 Mindspeed Technologies, Inc. Modem pass-through panacea for voice gateways
JP4601970B2 (ja) * 2004-01-28 2010-12-22 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
JP4490090B2 (ja) * 2003-12-25 2010-06-23 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
KR100636317B1 (ko) * 2004-09-06 2006-10-18 삼성전자주식회사 분산 음성 인식 시스템 및 그 방법
CN100399419C (zh) * 2004-12-07 2008-07-02 腾讯科技(深圳)有限公司 一种检测静音帧的方法
JP4667082B2 (ja) 2005-03-09 2011-04-06 キヤノン株式会社 音声認識方法
WO2006104555A2 (en) * 2005-03-24 2006-10-05 Mindspeed Technologies, Inc. Adaptive noise state update for a voice activity detector
GB2426166B (en) * 2005-05-09 2007-10-17 Toshiba Res Europ Ltd Voice activity detection apparatus and method
JP4557919B2 (ja) * 2006-03-29 2010-10-06 株式会社東芝 音声処理装置、音声処理方法および音声処理プログラム
CN100573663C (zh) * 2006-04-20 2009-12-23 南京大学 基于语音特征判别的静音检测方法
CN101197130B (zh) * 2006-12-07 2011-05-18 华为技术有限公司 声音活动检测方法和声音活动检测器
CN101256772B (zh) * 2007-03-02 2012-02-15 华为技术有限公司 确定非噪声音频信号归属类别的方法和装置
JP4809454B2 (ja) * 2009-05-17 2011-11-09 株式会社半導体理工学研究センター 発話推定による回路起動方法及び回路起動装置
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
CN102044243B (zh) * 2009-10-15 2012-08-29 华为技术有限公司 语音激活检测方法与装置、编码器
CN102044242B (zh) 2009-10-15 2012-01-25 华为技术有限公司 语音激活检测方法、装置和电子设备
CN102314877A (zh) * 2010-07-08 2012-01-11 盛乐信息技术(上海)有限公司 字符内容提示的声纹识别方法
US9047878B2 (en) * 2010-11-24 2015-06-02 JVC Kenwood Corporation Speech determination apparatus and speech determination method
EP2743924B1 (de) 2010-12-24 2019-02-20 Huawei Technologies Co., Ltd. Verfahren und Vorrichtung zur adaptiven Detektion einer Stimmaktivität in einem Audioeingangssignal
US8744068B2 (en) * 2011-01-31 2014-06-03 Empire Technology Development Llc Measuring quality of experience in telecommunication system
US8924206B2 (en) * 2011-11-04 2014-12-30 Htc Corporation Electrical apparatus and voice signals receiving method thereof
CN103137137B (zh) * 2013-02-27 2015-07-01 华南理工大学 一种会议音频中的精彩说话人发现方法
US9467785B2 (en) 2013-03-28 2016-10-11 Knowles Electronics, Llc MEMS apparatus with increased back volume
US9503814B2 (en) 2013-04-10 2016-11-22 Knowles Electronics, Llc Differential outputs in multiple motor MEMS devices
US10020008B2 (en) 2013-05-23 2018-07-10 Knowles Electronics, Llc Microphone and corresponding digital interface
CN110244833B (zh) 2013-05-23 2023-05-12 美商楼氏电子有限公司 麦克风组件
US9633655B1 (en) 2013-05-23 2017-04-25 Knowles Electronics, Llc Voice sensing and keyword analysis
US9711166B2 (en) 2013-05-23 2017-07-18 Knowles Electronics, Llc Decimation synchronization in a microphone
US20180317019A1 (en) 2013-05-23 2018-11-01 Knowles Electronics, Llc Acoustic activity detecting microphone
US10028054B2 (en) 2013-10-21 2018-07-17 Knowles Electronics, Llc Apparatus and method for frequency detection
US9386370B2 (en) 2013-09-04 2016-07-05 Knowles Electronics, Llc Slew rate control apparatus for digital microphones
US9502028B2 (en) 2013-10-18 2016-11-22 Knowles Electronics, Llc Acoustic activity detection apparatus and method
US9147397B2 (en) 2013-10-29 2015-09-29 Knowles Electronics, Llc VAD detection apparatus and method of operating the same
US9831844B2 (en) 2014-09-19 2017-11-28 Knowles Electronics, Llc Digital microphone with adjustable gain control
US9712915B2 (en) 2014-11-25 2017-07-18 Knowles Electronics, Llc Reference microphone for non-linear and time variant echo cancellation
US10045140B2 (en) 2015-01-07 2018-08-07 Knowles Electronics, Llc Utilizing digital microphones for low power keyword detection and noise suppression
WO2016118480A1 (en) 2015-01-21 2016-07-28 Knowles Electronics, Llc Low power voice trigger for acoustic apparatus and method
US10121472B2 (en) 2015-02-13 2018-11-06 Knowles Electronics, Llc Audio buffer catch-up apparatus and method with two microphones
US9866938B2 (en) 2015-02-19 2018-01-09 Knowles Electronics, Llc Interface for microphone-to-microphone communications
US9685156B2 (en) * 2015-03-12 2017-06-20 Sony Mobile Communications Inc. Low-power voice command detector
US10291973B2 (en) 2015-05-14 2019-05-14 Knowles Electronics, Llc Sensor device with ingress protection
DE112016002183T5 (de) 2015-05-14 2018-01-25 Knowles Electronics, Llc Mikrophon mit eingesenktem Bereich
US9478234B1 (en) 2015-07-13 2016-10-25 Knowles Electronics, Llc Microphone apparatus and method with catch-up buffer
US10045104B2 (en) 2015-08-24 2018-08-07 Knowles Electronics, Llc Audio calibration using a microphone
CN105261368B (zh) * 2015-08-31 2019-05-21 华为技术有限公司 一种语音唤醒方法及装置
US9894437B2 (en) 2016-02-09 2018-02-13 Knowles Electronics, Llc Microphone assembly with pulse density modulated signal
US10499150B2 (en) 2016-07-05 2019-12-03 Knowles Electronics, Llc Microphone assembly with digital feedback loop
US10257616B2 (en) 2016-07-22 2019-04-09 Knowles Electronics, Llc Digital microphone assembly with improved frequency response and noise characteristics
CN110024281B (zh) 2016-10-28 2024-05-07 三星电子株式会社 换能器组件和方法
DE112017006684T5 (de) 2016-12-30 2019-10-17 Knowles Electronics, Llc Mikrofonanordnung mit authentifizierung
US10237654B1 (en) 2017-02-09 2019-03-19 Hm Electronics, Inc. Spatial low-crosstalk headset
WO2019051218A1 (en) 2017-09-08 2019-03-14 Knowles Electronics, Llc CLOCK SYNCHRONIZATION IN A MASTER-ASSERTED COMMUNICATION SYSTEM
WO2019067334A1 (en) 2017-09-29 2019-04-04 Knowles Electronics, Llc MULTICORDER AUDIO PROCESSOR WITH FLEXIBLE MEMORY ALLOCATION
JP6560321B2 (ja) * 2017-11-15 2019-08-14 ヤフー株式会社 判定プログラム、判定装置及び判定方法
WO2020055923A1 (en) 2018-09-11 2020-03-19 Knowles Electronics, Llc Digital microphone with reduced processing noise
US10908880B2 (en) 2018-10-19 2021-02-02 Knowles Electronics, Llc Audio signal circuit with in-place bit-reversal
CN111261143B (zh) * 2018-12-03 2024-03-22 嘉楠明芯(北京)科技有限公司 一种语音唤醒方法、装置及计算机可读存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
US4696039A (en) * 1983-10-13 1987-09-22 Texas Instruments Incorporated Speech analysis/synthesis system with silence suppression
JP2539027B2 (ja) * 1989-02-21 1996-10-02 沖電気工業株式会社 音声検出方式
JP2573352B2 (ja) * 1989-04-10 1997-01-22 富士通株式会社 音声検出装置
JPH07113840B2 (ja) * 1989-06-29 1995-12-06 三菱電機株式会社 音声検出器
US5307441A (en) * 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
CA2040025A1 (en) * 1990-04-09 1991-10-10 Hideki Satoh Speech detection apparatus with influence of input level and noise reduced
FR2677828B1 (fr) * 1991-06-14 1993-08-20 Sextant Avionique Procede de detection d'un signal utile bruite.
JPH05165496A (ja) * 1991-12-16 1993-07-02 Nippon Telegr & Teleph Corp <Ntt> 音声検出装置
US5596680A (en) * 1992-12-31 1997-01-21 Apple Computer, Inc. Method and apparatus for detecting speech activity using cepstrum vectors
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
US5533133A (en) * 1993-03-26 1996-07-02 Hughes Aircraft Company Noise suppression in digital voice communications systems
JP2835483B2 (ja) * 1993-06-23 1998-12-14 松下電器産業株式会社 音声判別装置と音響再生装置
TW271524B (de) * 1994-08-05 1996-03-01 Qualcomm Inc
US5675639A (en) * 1994-10-12 1997-10-07 Intervoice Limited Partnership Voice/noise discriminator
KR970067095A (ko) * 1996-03-23 1997-10-13 김광호 음성신호의 무성파열음 구간검출방법 및 장치
US5838269A (en) * 1996-09-12 1998-11-17 Advanced Micro Devices, Inc. System and method for performing automatic gain control with gain scheduling and adjustment at zero crossings for reducing distortion
US5737695A (en) * 1996-12-21 1998-04-07 Telefonaktiebolaget Lm Ericsson Method and apparatus for controlling the use of discontinuous transmission in a cellular telephone

Also Published As

Publication number Publication date
US6154721A (en) 2000-11-28
CN1204766A (zh) 1999-01-13
KR100569612B1 (ko) 2006-10-11
EP0867856B1 (de) 2005-10-26
EP0867856A1 (de) 1998-09-30
DE69831991D1 (de) 2005-12-01
JPH10274991A (ja) 1998-10-13
CN1146865C (zh) 2004-04-21
JP4236726B2 (ja) 2009-03-11
KR19980080615A (ko) 1998-11-25

Similar Documents

Publication Publication Date Title
DE69831991T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE3236832C2 (de) Verfahren und Gerät zur Sprachanalyse
DE2918533C2 (de)
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
EP1927980A2 (de) Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
DE3236885A1 (de) Verfahren und geraet zur sprachanalyse
DE2626793A1 (de) Verfahren zur bewertung stimmhafter und stimmloser zustaende eines sprachsignals
EP1214703B1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
DE2524804A1 (de) Verfahren und vorrichtung zur automatischen spracherkennung
DE102006029755A1 (de) Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung
DE2518320A1 (de) Verfahren und detektorschaltung zum feststellen einer signalaktivitaet im tonfrequenzbereich bei einer fernsprechverbindungsleitung
EP0076233B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE60200632T2 (de) Verfahren zur Sprachaktivitätsdetektion in einem Signal, und Sprachkodierer mit Vorrichtung zur Ausführung des Verfahrens
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE2357067A1 (de) Vorrichtung zur sprachanalyse
EP1264301A1 (de) Verfahren zur erkennung von sprachäusserungen nicht-mutter-sprachlicher sprecher in einem sprachverarbeitungssystem
EP1456837B1 (de) Verfahren und vorrichtung zur spracherkennung
DE3711342A1 (de) Verfahren zum erkennen zusammenhaengend gesprochener woerter
DE60004403T2 (de) Vorrichtung und verfahren zur signalqualitätserfassung
EP1282897A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE4111781A1 (de) Computersystem zur spracherkennung
EP0834859B1 (de) Verfahren zum Bestimmen eines akustischen Modells für ein Wort
DE69814442T2 (de) Strukturerkennung
EP0817167A2 (de) Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens
EP0505709A2 (de) Verfahren zur Erweiterung des Wortschatzes für sprecherunabhängige Spracherkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition