DE69831991T2

DE69831991T2 - Verfahren und Vorrichtung zur Sprachdetektion

Info

Publication number: DE69831991T2
Application number: DE69831991T
Authority: DE
Inventors: Estelle Sonnic
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1997-03-25
Filing date: 1998-03-13
Publication date: 2006-07-27
Anticipated expiration: 2018-03-14
Also published as: US6154721A; CN1204766A; KR100569612B1; EP0867856B1; EP0867856A1; DE69831991D1; JPH10274991A; CN1146865C; JP4236726B2; KR19980080615A

Description

Diese Erfindung betrifft ein Verfahren zur Detektion von Sprachaktivität in Eingangssignalen, zusammengesetzt aus aufeinanderfolgenden digitalisierten Frames von vorbestimmter Dauer mit Sprachsignalen, Rauschsignalen und Ruhemomenten, wobei das besagte Verfahren den laufenden Frame einem ersten Schritt zur Berechnung der Energieparameter und der Durchgangszahl durch Null des zentrierten Rauschsignals und einem zweiten Schritt zur Einteilung als Rauschen oder als Sprache und zur Verarbeitung dieser Signale gemäß den berechneten Energiewerten und der Durchgangszahl durch Null unterzieht und die besagte Einteilung als Rauschen oder als Sprache an die Energie der besagten Eingangssignale bezüglich eines Grenzwerts B, anpassbar und mit berechneter Durchgangszahl durch Null, gebunden ist. Die Erfindung betrifft auch eine Vorrichtung zur Detektion von Sprachaktivität für die Umsetzung dieses Verfahrens.
Diese Erfindung ist in jeder Anwendung einsetzbar, in der Sprachsignale (und nicht reine Audiosignale) vorkommen und wobei es wünschenswert ist, eine Unterscheidung zwischen Schallbereichen mit Sprache, Hintergrundrauschen und Ruhemomenten und Schallbereichen, die nur Rauschen oder Ruhemomente enthalten, zu machen. Sie kann insbesondere eine vorhergehende Verarbeitungsform bilden, die in Anwendungen zur Erkennung von vereinzelten Sätzen oder Wörtern von Nutzen ist.
Die Patentanmeldung EP 0392412 beschreibt einen Apparat zur Detektion von Sprachaktivität, in dem für jeden aufeinander folgenden Frame insbesondere Mittel zur Berechnung der Energie und der Durchgangszahl durch Null und Mittel zum Vergleichen (mit Grenzwerten) des absoluten Werts der Differenz zwischen den an aufeinanderfolgende Frames gebundenen Energien sowie zum Vergleichen der Energie des laufenden Frames mit einem Grenzwert vorgesehen sind. Was die Energie des laufenden Frames betrifft kann der Grenzwert allerdings höchstens zwei verschiedene Werte, gut definiert und folglich nicht anpassbar, annehmen.
Das Patent US 5307441 beschreibt danach einen Detektor der Sprachaktivität, in dem die Energie jedes Frames mit einem anpassbaren Grenzwert verglichen wird, wobei die Anpassung aber lediglich in der Verfolgung des Rauschpegels besteht, um die Vergleichsgrenze der Energie über einen beträchtlichen Zeitintervall (einige hunderte Frames) genau über seine durchschnittliche Energie zu bringen.
Die Patentanmeldung EP 0451796 beschreibt gewiss Mittel zum Vergleichen der Energie eines Frames mit einem variablen Grenzwert, doch tatsächlich unterscheiden sich die variablen Grenzwerte untereinander nur um eine Konstante mit der Bezeichnung „Gamma" und nicht um einen variablen Wert unter Berücksichtigung des Wertes der Energie bezüglich des Wertes des Grenzwerts selbst, wie die nachfolgende Beschreibung der Erfindung dies aufzeigen wird.
Ein erstes Ziel der Erfindung ist die Optimierung der Bandbreite, die in Bezug auf andere Signaltypen den Sprachsignalen vorbehalten ist, im Falle von Übertragungsnetzwerken zur üblichen Weiterleitung anderer Daten als allein nur der Sprache (man muss prüfen, ob die Sprache nicht die gesamte Bandbreite belegt, d. h. dass der gleichzeitige Übergang der Sprache und der anderen Daten gut möglich ist), oder auch beispielsweise die Optimierung des im Speicher pro abgelegter Meldung wie in einen digitalen Anrufbeantworter belegten Platzes.
Für diesen Zweck betrifft die Erfindung ein Verfahren wie im Vorwort der Beschreibung definiert, außerdem dadurch gekennzeichnet, dass der Wert des besagten Grenzwerts B unter Berücksichtigung der Energie E_n des laufenden Frames in Bezug auf den besagten Grenzwert selbst variiert.
Ein anderes Ziel der Erfindung ist es, eine Vorrichtung zur Detektion von Sprachaktivität vorzuschlagen, die eine einfache Umsetzung des erläuterten Verfahrens ermöglicht.
Für diesen Zweck betrifft die Erfindung eine Verwendung des besagten Verfahrens in einer Vorrichtung zur Detektion von Sprachaktivität in Eingangssignalen, zusammengesetzt aus aufeinanderfolgenden digitalisierten Frames vorbestimmter Dauer einschließlich Sprachsignalen, Rauschsignalen und Ruhemomenten, mit der Anwendung auf das laufende Frame eines ersten Schritts zur Berechnung von Energieparametern und der Durchgangszahl durch Null des zentrierten Rauschsignals und eines zweiten Schritts zur Einteilung als Rauschen oder als Sprache und zur Verarbeitung dieser Signale entsprechend den berechneten Energiewerten und der Durchgangszahl durch Null, wobei die besagte Einteilung als Rauschen oder als Sprache an die Energie der besagten Eingangssignale bezüglich eines anpassbaren Grenzwerts B und die berechnete Durchgangszahl durch Null gebunden und die besagte Vorrichtung dadurch gekennzeichnet ist, dass sie in Serie eine Stufe zur Initialisierung der später verwendeten Variablen, um die initiale Regelung der besagten Variablen im Laufe eines ersten Zustands zur temporären Initialisierung einer Dauer von NINIT Frames zu ermöglichen, wobei das Eingangssignal immer als Sprachsignal betrachtet wird, eine Stufe zur Berechnung der Energie jedes Frames und der Durchgangszahl durch Null des zentrierten Rauschsignals sowie eine Stufe zum Testen und Verarbeiten beinhaltet, verwirklicht in der Form eines so genannten Automatens mit drei Zuständen und dafür vorgesehen, die besagte Vorrichtung nach dem temporären Übergang in den besagten Initialisierungzustand in den einen oder anderen eines zweiten und eines dritten Zustands entsprechend den besagten Berechnungen umzuschalten, und jedes Eingangssignal respektive als Signal „Sprache + Rauschen + Ruhe" oder als Signal „Rauschen + Ruhe" eingeteilt wird.
Die Besonderheiten und Vorteile der Erfindung werden in der folgenden Beschreibung und in den beigefügten Figuren, als nicht erschöpfende Beispiele gegeben, mehr im Detail ersichtlich, in denen:
1 das allgemeine Prinzip der Umsetzung des der Erfindung entsprechenden Verfahrens zeigt;
2 diese Umsetzung mehr im Detail zeigt und insbesondere die drei Zustände zur Geltung bringt, welche die Vorrichtung zur Detektion, die diese Umsetzung versichert, annehmen kann;
3 bis 5 die in der besagten Vorrichtung durchgeführten Verarbeitungen verdeutlichen, wenn diese sich in einem dieser drei Zustände befindet.
Vor der Beschreibung der Erfindung werden zuerst einige Bedingungen für die Verwendung des vorgeschlagenen Verfahrens präzisiert, d. h. zunächst, dass die Eingangssignale, die aus einer einzigen Eingangsquelle ausgehen, (Wort- oder) Sprachsignalen entsprechen, übertragen von menschlichen Wesen und vermischt mit Hintergrundrauschen, das sehr diverse Ursprünge haben kann (Hintergrundrauschen von Restaurants, von Büros, von vorbeifahrenden Autos etc...). Außerdem müssen diese Eingangssignale digitalisiert werden, bevor man sie entsprechend der Erfindung verarbeitet, und diese Verarbeitung erfordert, dass man ausreichend Abschnitte (oder Frames) dieser digitalisierten Eingangssignale, beispielsweise aufeinanderfolgende Frames von etwa 5 bis 20 Millisekunden, verwenden kann. Schließlich wird präzisiert, dass das vorgeschlagene Verfahren, unabhängig von jeder anderen nachfolgend auf die Sprachsignale angewandten Verarbeitung, hier mit digitalen Signalen getestet wurde, abgetastet mit 8 kHz und gefiltert, um nur im Telefonfrequenzband zu liegen (300–3400 Hz).
Das Prinzip der Umsetzung des der Erfindung entsprechenden Verfahrens wird in 1 gezeigt. Nach einem vorhergehenden Schritt in einer Stufe 10 zur Initialisierung der Variablen, die man während dem Ablauf des Prozesses verwendet, wird jeder laufende Frame TR_n der am Eingang E erhaltenen Eingangssignale in einer Berechnungsstufe 11 einem ersten Schritt zur Berechnung der Energie E_n dieses Frames und der Durchgangszahl durch Null des zentrierten Rauschsignals für diesen Frame unterzogen (man präzisiert weiter unten die Bedeutung dieser Variablen, die man in dieser Beschreibung ZCR oder auch ZC benennt, gemäß dem Entsprechenden in Englisch: Zero-Crossing Rate). Ein zweiter Schritt ermöglicht es dann in einer Test- und Verarbeitungstufe 12, die Energie mit einem adaptiven Grenzwert und die ZRC mit einem festen Grenzwert zu vergleichen, um zu entscheiden, ob das Eingangssignal ein Signal „Sprache + Rauschen + Ruhe" oder nur ein Signal „Rauschen + Ruhe" aufweist. Dieser zweite Schritt wird in dem, was man hiernach einen Automaten mit drei Zuständen benennt, dessen Funktionsweise in 2 gezeigt wird, verwirklicht. Diese drei Zustände werden auch in 1 veranschaulicht.
Der erste Zustand, START_VAD, ist ein Anfangs- oder Initialisierungszustand, in 1 mit A bezeichnet. Bei jedem Aufruf der Verarbeitung gemäß der Erfindung geht das System in diesen Zustand über, wobei das Eingangssignal immer als Sprachsignal betrachtet wird (selbst wenn man dabei auch Rauschen erkennt). Dieser Initialisierungszustand ermöglicht insbesondere die Regelung der internen Variablen und wird während der notwendigen Zeit beibehalten (während mehreren aufeinanderfolgenden Frames ist diese Anzahl von Frames mit der Bezeichnung NINIT selbstverständlich regelbar).
Der zweite Zustand, SPRACHE_VAD, entspricht dem Fall, in dem das Ein gangssignal als Signal „Sprache + Rauschen + Ruhe" betrachtet wird. Der dritte Zustand, RAUSCHEN_VAD, entspricht dem Fall, in dem das Eingangssignal nur als Signal „Rauschen + Ruhe" betrachtet wird (man beachte hier, dass die Ausdrücke „erster" und „zweiter" Zustand nicht eine Bedeutungsfolge definieren, sondern einfach nur für deren Unter scheidung bestimmt sind). Nach den NINIT ersten Frames entsprechend dem Initialisierungszustand für die Regelung der Variablen befindet sich das System weiterhin in diesem zweiten oder in diesem dritten Zustand. Der Übergang von einem Zustand in den anderen wird weiter unten beschrieben.
Nach der Initialisierung umfasst der erste Berechnungsschritt in Stufe 11 zwei Unterschritte, in einer Rechenschaltung 111 durchgeführt, erstens zur Berechnung der Energie des laufenden Frames und zweitens zur Berechnung der ZCR für diesen Frame, in einer Rechenschaltung 112 durchgeführt.
Im Allgemeinen ist ein Sprachsignal (d. h. ein Signal „Sprache + Rauschen + Ruhe") mehr energiereich als ein Signal „Rauschen + Ruhe" allein. Das Hintergrundrauschen müsste wirklich sehr hoch sein, um nicht als Rauschen (d. h. als ein Signal „Rauschen + Ruhe"), sondern als Sprachsignal erkannt zu werden. Die Schaltung 111 zur Berechnung der Energie sieht folglich die Verbindung eines variablen Grenzwerts gemäß dessen Werts mit dieser Energie hinsichtlich von Tests vor, die folgendermaßen verlaufen:

(a) wenn die Energie E_n des laufenden Frames untere einem bestimmten Grenzwert B (E_n < Grenzwert B) liegt, wird der laufende Frame als RAUSCHEN eingeteilt;
(b) wenn die Energie E_n dagegen größer oder gleich dem Grenzwert B (E_n ≥ Grenzwert B) ist, wird der laufende Frame als SPRACHE eingeteilt.

Tatsächlich selektiert man einen adaptiven Grenzwert B unter Berücksichtigung des Hintergrundrauschens, d. h. beispielsweise dessen Anpassung unter Berücksichtigung der durchschnittlichen Energie E des Signals „Rauschen + Ruhe", und mit der Autorisation von Niveauschwankungen dieses Signals „Rauschen + Ruhe". Das Anpassungskriterium ist dann folgendes:

(i) wenn (E_n < Grenzwert B), dann wird der Grenzwert B durch den Grenzwert B – α.E ersetzt, wobei α ein empirisch definierter konstanter Koeffizient, hier jedoch zwischen 0 und 1 enthalten ist;
(ii) wenn (Grenzwert B < E_n < Grenzwert B + Δ), dann wird der Grenzwert B durch den Grenzwert B + α.E ersetzt (Δ = Zusatzgrenzwert).

In diesen zwei Situationen (i) und (ii) wird das Signal als „Rauschen + Ruhe" betrachtet, und der Durchschnitt E wird aktualisiert. Ansonsten, wenn E_n ≥ Grenzwert B + Δ, wird das Signal als Sprache betrachtet, und der Durchschnitt E bleibt unverändert. Wenn man vermeiden will, dass der Grenzwert B zu sehr ansteigt oder zu sehr absinkt, gibt man seinem Wert vor, zwischen zwei Grenzwerten (GRENZWERT B_MIN und GRENZ WERT B_MAX), empirisch definiert, enthalten zu bleiben. Außerdem ist der Wert von Δ an sich hier mehr oder weniger groß, je nach dem, ob das Eingangssignal (wie es auch sei: Sprache alleine, Rauschen + Ruhe, oder eine Mischung der beiden) mehr oder weniger groß ist. Wenn man beispielsweise die Energie des vorhergehenden Frames TR_n–1 des Eingangssignals mit E_n–1 bezeichnet (was gespeichert ist), trifft man eine Entscheidung folgenden Typs:

(i) wenn |E_n – E_n–1| < Grenzwert, Δ = DELTA1;
(ii) sonst, Δ = DELTA2;

Nachdem die Berechnung der Energie in der Schaltung 111 ausgeführt wurde, verbindet man sie für den laufenden Frame mit der Berechnung der ZCR, ausgeführt in Schaltung 112. Diese Berechnungen in Stufe 11 werden von einer Operation zur Entscheidung in Bezug auf den Zustand gefolgt, in dem die Vorrichtung sich nach der Umsetzung der beschriebenen diversen Schritte befindet. Genauer gesagt umfasst dieser Entscheidungsprozess, ausgeführt in einer Stufe 12, zwei grundlegende Tests 121 und 122, die jetzt nacheinander beschrieben werden.
Man sah zunächst, dass bei jedem Verarbeitungsaufruf gemäß der Erfindung der Anfangszustand während NINIT aufeinanderfolgenden Frames A = START_VAD war. Der erste Test 121 des Zustands der Vorrichtung betrifft die Anzahl an Frames, die am Eingang der Vorrichtung und Leitung dargeboten werden, solange diese dargebotene Anzahl an Frames kleiner als NINIT bleibt, mit der Folgerung, dass der Zustand START_VAD ist und bleibt (Antwort Y am Ausgang des Tests 121). In diesem Fall wird die daraus resultierende Verarbeitung, bezeichnet START_VAD_P und ausgeführt in Block 141, in 3 gezeigt, was weiter unten kommentiert wird. Man kann allerdings ab jetzt darauf hinweisen, dass im Laufe dieser Verarbeitung START_VAD_P es zwangsläufig dazu kommt, dass der beobachtete Zustand nicht mehr der Anfangszustand START_VAD, sondern einer der anderen Zustände, RAUSCHEN_VAD oder SPRACHE_VAD ist, wobei die Unterscheidung zwischen dem einen oder anderen im Laufe des Tests 122 durchgeführt wird.
Denn wenn am Ausgang des ersten Tests 121 die Antwort diesemal N (d. h: „nein, der Zustand ist nicht mehr START_VAD") ist, prüft der zweite Test 122, ob der bebachtete Zustand B = RAUSCHEN_VAD ist, mit der Antwort ja oder nein wie zuvor. Wenn die Antwort ja ist (Antwort Y am Ausgang von 122), wird die daraus resultierende Verarbeitung mit der Bezeichnung RAUSCHEN_VAD_P, in Block 142 ausgeführt, in 4 gezeigt. Wenn die Antwort nein ist (Antwort N am Ausgang von 122), wird die daraus resultierende Verarbeitung mit der Bezeichnung SPRACHE_VAD_P, in Block 143 ausgeführt, in 5 gezeigt (genau wie für START_VAD_P, wobei die 4 und 5 nachstehend kommentiert werden). Welche diejenige der drei Verarbeitungen, die infolge dieser Tests 121 und 122 ausgeführt werden, auch sein mag, sie wird über den Anschluss 15 zur Verbindung des Ausgangs der Blöcke 141 bis 143 mit dem Eingang der Schaltung 11 von einer Rückführung zum Eingang der Vorrichtung gefolgt. So kann der nachfolgende Frame analysiert und verarbeitet werden.
Die 3, 4 und 5, deren grundlegenden Aspekte in 2 zusammengefasst werden, beschreiben folglich den Ablauf der Verarbeitungen START_VAD_P, RAUSCHEN_VAD_P und SPRACHE_VAD_P im Detail. Die in diesen Figuren verwendeten Variablen sind, nach ihrer Kategorie veranschaulicht, folgende:

(1) Energie: E_n bezeichnet die Energie des laufenden Frames, E_n–1 diejenige des (gespeicherten) vorhergehenden Frames, und E die durchschnittliche Energie des Hintergrundrauschens;
(2) Zähler: (a) ein Zähler cpt_trm zählt die Anzahl an erworbenen Frames ab dem Anfang der Umsetzung des Verfahrens (dieser Zähler wird nur im Zustand START_VAD verwendet und der Wert, den er erreichen kann, ist höchstens gleich NINIT); (b) ein Zähler cpt_trm_rauschen zählt die als Rauschen erkannte Anzahl an Frames ab dem Anfang der Umsetzung des Verfahrens (um Überschreitungen von Berechnungen zu vermeiden aktualisiert man diesen nur dann, wenn der Wert, den dieser erreicht, untere einem gewissen Wert liegt, worüber man ihn nicht mehr verwendet); (c) ein Zähler cpt_transit, verwendet für die Glättung der Übergänge Sprache/Rauschen, vermeidet mit der bedingten Unterscheidung der Umschaltung vom Zustand SPRACHE_VAD zum Zustand RAUSCHEN_VAD die Zergliederung von Satzenden oder die Detektion als Hintergrundrauschen von Silbenzwischenräumen (was das Sprachsignal vollständig zerhacken würde): – wenn man sich im Zustand Sprache befindet und Rauschen erkannt wird, wird dieser Zähler cpt_transit inkrementiert; – wenn erneut Sprache erfasst wird, stellt man diesen Zähler auf Null zurück, ansonsten inkrementiert man ihn weiter, bis ein Grenzwert, N-TRANSM, erreicht wird: diese Bestätigung, dass das Eingangssignal tatsächlich Hintergrundrauschen ist, führt jetzt zur Umschaltung in den Zustand RAUSCHEN_VAD, und der Zähler cpt_transit wird auf Null zurückgestellt;
(3) Grenzwerte: Grenzwert B bezeichnet den verwendeten Grenzwert zum Unterscheiden der Sprache von einem Hintergrundrauschen schwachen Niveaus (GRENZWERT B_MIN und GRENZWERT B_MAX sind seine zulässigen minimalen und maximalen Werte), a der Wert des Koeffizienten zur Aktualisierung von Grenzwert B und Δ den verwendeten Zusatzgrenzwert zum Unterscheiden der Sprache von einem Hintergrundrauschen hohen Niveaus (seine zwei möglichen Werte werden DELTA1 und DELTA2, bestimmt dank DELTAE als Grenzwert, der mit |E_n – E_n–1| verwendet wird und der es hinsichtlich der Aktualisierung von Δ ermöglicht, zu wissen, ob das Eingangssignal sehr schwankend oder nicht ist);
(4) ZCR-Zahl des laufenden Frames: diese Durchgangszahl durch Null des zentrierten Rauschsignals schwankt beträchtlich: – bestimmte Rauschtypen sind zeitlich sehr unruhig, und das Rauschsignal (zentriert, d. h. man hat ihm seinen Durchschnitt genommen) geht dann oft durch Null, weshalb eine hohe ZRC (dies ist insbesondere der Fall bei Hintergrundrauschen Gaußschen Typs); – wenn das Hintergrundrauschen des Typs Stimmengewirr ist (Restaurants, Büros, Nachbarn, die miteinander reden...), nähern sich die Merkmale des Hintergrundrauschens demjenigen eines Sprachsignals, und die ZCR weist schwächere Werte auf; – bestimmte Typen von Sprachklängen werden stimmhaft (voiced) benannt und verlaufen nach einer gewissen Periodizität: dies ist bei Vokalen der Fall, denen eine starke Energie und eine schwache ZCR entsprechen; – andere Typen von Sprachklängen, stimmlos (unvoiced) benannt, haben dagegen in Bezug auf stimmhafte Klänge eine schwächere Energie und eine höhere ZCR: dies ist insbesondere bei frikativen und plosiven Konsonanten der Fall (derartige Signale würden als Rauschen eingeteilt werden, da ihre ZCR einen bestimmten Grenzwert ZCGAUSS übersteigen würde, wenn man diesem Test nicht den auf Energie bezogenen anschließen würde: diese Signale würden nur dann als Rauschen bestätigt werden, wenn ihre Energie unter (Grenzwert B + DELTA2) bleiben würde, doch sie werden im gegenteiligen Falle als Sprache eingeteilt); – schließlich muss auch der besondere Fall einer ZCR Null (ZC = 0) berücksichtigt werden: dies entspricht einem flachen Eingangssignal (alle Muster haben denselben Wert), das dann systematisch einem „Rauschen + Ruhe" gleichgesetzt wird;
(5) Ausgangssignal INFO_VAD: am Ende jeder Verarbeitung (in einem der Blöcke 141 bis 143) wird eine Entscheidung bezüglich des laufenden Frames getroffen, wobei dieser letztere tatsächlich entweder als Sprachsignal (INFO_VAD = SPRACHE) oder als Signal aus Hintergrundrauschen + Ruhe (INFO_VAD = RAUSCHEN) erklärt wird.

Diese Verarbeitungen in den Blöcken 141 bis 143 umfassen wie angegeben entweder Energie- und ZCR-Tests, angezeigt bei Umrahmungen in Rautenform (mit Ausnahme des ersten Tests in der ersten Verarbeitung START_VAD_P, was einem Test des Zählerwerts cpt_trm entspricht, um zu prüfen, ob die Anzahl an Frames noch kleiner als der Wert NINIT ist und man sich weiterhin in der Initialisierungsphase der Vorrichtung befindet), oder Operationen, die von den Ergebnissen dieser Tests gesteuert werden (eventuelle Änderung der Grenzwerte, Berechnung der durchschnittlichen Energie, Definition des Zustands der Vorrichtung, Inkrement oder Rückstellung auf Null von Zählern, Übergang zum nachfolgenden Frame etc...) und deren Anzeige dann in den Umrahmungen in rechteckiger Form erfolgt.
Das Verfahren und die Vorrichtung, die so vorgeschlagen werden, weisen letztlich eine sehr gemäßigte Komplexität auf, was ihre Implantation in Echtzeit besonders leicht macht. Auch kann man beobachten, dass sie mit einem geringen Speicherbedarf verbunden sind. Selbstverständlich können Varianten dieser Erfindung vorgeschlagen werden, ohne dafür ihren Rahmen zu verlassen. Man kann insbesondere die Art des Tests 122 ändern und nach einem negativen Ergebnis des Tests 121 prüfen, ob der neue beobachtete Zustand SPRACHE_VAD (und nicht mehr RAUSCHEN_VAD) ist, mit als Antwort ja oder nein (Y oder N) wie zuvor. Wenn die Antwort ja ist (Y am Ausgang von 122), entspricht die resultierende Verarbeitung SPRACHE_VAD_P (dann in Block 142 ausgeführt), ansonsten entspricht diese Verarbeitung RAUSCHEN_VAD_P (dann in Block 143 ausgeführt).

Initialisation: = Initialisierung
Current frame: = laufender Frame
calculation: = Berechnung
START_VAD: = START_VAD
NOISE_VAD: = RAUSCHEN_VAD
SPEECH_VAD: = SPRACHE_VAD
NEXT FRAME: = nächster Frame
during the NINIT: = während NINIT
first frames: = erste Frames
En: = En
threshold: = Grenzwert
B: = B
ZCR: = ZCR = Zero-Crossing Rate
ZC: = ZC = Zero-Crossing
Gaussian noise or: = Gaußsches Rauschen oder
and not finished transition: = und nicht beendeter Übergang
fr_ctr: = fr_ctr
E: = E
MIN: = MIN
MAX: = MAX
info: = Info
if: = wenn
if not: = wenn nicht
state: = Zustand
output: = Ausgang
transit: = Übergang

Claims

Verfahren zur Detektion von Sprachaktivität in Eingangssignalen, zusammengesetzt aus aufeinanderfolgenden digitalisierten Frames von vorbestimmter Dauer mit Sprachsignalen, Rauschsignalen und Ruhemomenten, wobei das besagte Verfahren den laufenden Frame einem ersten Schritt zur Berechnung der Energieparameter und der Durchgangszahl durch Null des zentrierten Rauschsignals und einem zweiten Schritt zur Einteilung als Rauschen oder als Sprache und zur Verarbeitung dieser Signale gemäß den berechneten Energiewerten und der Durchgangszahl durch Null unterzieht, die besagte Einteilung als Rauschen oder als Sprache an die Energie der besagten Eingangssignale bezüglich eines Grenzwerts B, anpassbar und mit berechneter Durchgangszahl durch Null, gebunden und das besagte Verfahren außerdem dadurch gekennzeichnet ist, dass der besagte Grenzwert B entsprechend der Energie E_n des laufenden Frames in Bezug auf den besagten Grenzwert selbst variiert.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Variationen des besagten Grenzwerts B unter Berücksichtigung des Werts der Energie E_n des laufenden Frames in Bezug auf den Grenzwert auf einen maximalen Wert Δ über dem besagten Grenzwert begrenzt werden.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass der besagte maximale Wert Δ einen unterschiedlichen Wert entsprechend dem Wert der Energie E_n des laufenden Frames bezüglich des Werts entsprechend E_n–1 für den vorhergehenden Frame annimmt.
Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die aufgrund einer hohen Durchgangszahl durch Null ursprünglich als Rauschen eingeteilten Frames einem Vergleich ihrer durchschnittlichen Energie E_n mit dem Grenzwert (B + Δ) unterzogen werden.
Verwendung des Verfahrens nach einem der Ansprüche 1 bis 4 in einer Vorrichtung zur Detektion von Sprachaktivität in Eingangssignalen, zusammengesetzt aus aufeinanderfolgenden digitalisierten Frames vorbestimmter Dauer einschließlich Sprachsignalen, Rauschsignalen und Ruhemomenten, durch Anwendung an den laufenden Frame eines ersten Schritts zur Berechnung der Energieparameter und der Durchgangszahl durch Null des zentrierten Rauschsignals und eines zweiten Schritts zur Einteilung als Rauschen oder als Sprache und zur Verarbeitung dieser Signale entsprechend den berechneten Energiewerten und der Durchgangszahl durch Null, wobei die besagte Einteilung als Rauschen oder als Sprache an die Energie der besagten Eingangssignale bezüglich eines anpassbaren Grenzwerts B und an die berechnete Durchgangszahl durch Null gebunden und die besagte Vorrichtung dadurch gekennzeichnet ist, dass sie in Serie eine Stufe (10) zur Initialisierung der später verwendeten Variablen für die anfängliche Regelung der besagten Variablen im Laufe eines ersten temporären Initialisierungszustands eine Dauer von NINIT Frames, in der das Eingangssignal weiterhin als Sprachsignal betrachtet wird, eine Stufe (11) zur Berechnung der Energie jedes Rasters und der Durchgangszahl durch Null des zentrierten Rauschsignals sowie eine Stufe (12) für den Test und die Verarbeitung umfasst, verwirklicht in der Form eines so genannten Automaten mit drei Zuständen und vorgesehen zum Umschalten der besagten Vorrichtung nach dem temporären Übergang in den besagten Initialisierungszustand in den einen oder anderen eines zweiten und eines dritten Zustands, in denen entsprechend den besagten Berechnungen jedes Eingangssignal respektive als Signal „Sprache + Rauschen + Ruhe" oder als Signal „Rauschen + Ruhe" eingestuft wird.