-
Diese
Erfindung betrifft ein Verfahren zur Detektion von Sprachaktivität in Eingangssignalen,
zusammengesetzt aus aufeinanderfolgenden digitalisierten Frames
von vorbestimmter Dauer mit Sprachsignalen, Rauschsignalen und Ruhemomenten,
wobei das besagte Verfahren den laufenden Frame einem ersten Schritt
zur Berechnung der Energieparameter und der Durchgangszahl durch
Null des zentrierten Rauschsignals und einem zweiten Schritt zur Einteilung
als Rauschen oder als Sprache und zur Verarbeitung dieser Signale
gemäß den berechneten Energiewerten
und der Durchgangszahl durch Null unterzieht und die besagte Einteilung
als Rauschen oder als Sprache an die Energie der besagten Eingangssignale
bezüglich
eines Grenzwerts B, anpassbar und mit berechneter Durchgangszahl
durch Null, gebunden ist. Die Erfindung betrifft auch eine Vorrichtung
zur Detektion von Sprachaktivität
für die
Umsetzung dieses Verfahrens.
-
Diese
Erfindung ist in jeder Anwendung einsetzbar, in der Sprachsignale
(und nicht reine Audiosignale) vorkommen und wobei es wünschenswert ist,
eine Unterscheidung zwischen Schallbereichen mit Sprache, Hintergrundrauschen
und Ruhemomenten und Schallbereichen, die nur Rauschen oder Ruhemomente
enthalten, zu machen. Sie kann insbesondere eine vorhergehende Verarbeitungsform
bilden, die in Anwendungen zur Erkennung von vereinzelten Sätzen oder
Wörtern
von Nutzen ist.
-
Die
Patentanmeldung
EP 0392412 beschreibt
einen Apparat zur Detektion von Sprachaktivität, in dem für jeden aufeinander folgenden
Frame insbesondere Mittel zur Berechnung der Energie und der Durchgangszahl
durch Null und Mittel zum Vergleichen (mit Grenzwerten) des absoluten
Werts der Differenz zwischen den an aufeinanderfolgende Frames gebundenen
Energien sowie zum Vergleichen der Energie des laufenden Frames
mit einem Grenzwert vorgesehen sind. Was die Energie des laufenden
Frames betrifft kann der Grenzwert allerdings höchstens zwei verschiedene Werte,
gut definiert und folglich nicht anpassbar, annehmen.
-
Das
Patent
US 5307441 beschreibt
danach einen Detektor der Sprachaktivität, in dem die Energie jedes
Frames mit einem anpassbaren Grenzwert verglichen wird, wobei die
Anpassung aber lediglich in der Verfolgung des Rauschpegels besteht,
um die Vergleichsgrenze der Energie über einen beträchtlichen
Zeitintervall (einige hunderte Frames) genau über seine durchschnittliche
Energie zu bringen.
-
Die
Patentanmeldung
EP 0451796 beschreibt
gewiss Mittel zum Vergleichen der Energie eines Frames mit einem
variablen Grenzwert, doch tatsächlich
unterscheiden sich die variablen Grenzwerte untereinander nur um
eine Konstante mit der Bezeichnung „Gamma" und nicht um einen variablen Wert unter
Berücksichtigung
des Wertes der Energie bezüglich
des Wertes des Grenzwerts selbst, wie die nachfolgende Beschreibung
der Erfindung dies aufzeigen wird.
-
Ein
erstes Ziel der Erfindung ist die Optimierung der Bandbreite, die
in Bezug auf andere Signaltypen den Sprachsignalen vorbehalten ist,
im Falle von Übertragungsnetzwerken
zur üblichen
Weiterleitung anderer Daten als allein nur der Sprache (man muss
prüfen,
ob die Sprache nicht die gesamte Bandbreite belegt, d. h. dass der
gleichzeitige Übergang
der Sprache und der anderen Daten gut möglich ist), oder auch beispielsweise
die Optimierung des im Speicher pro abgelegter Meldung wie in einen digitalen
Anrufbeantworter belegten Platzes.
-
Für diesen
Zweck betrifft die Erfindung ein Verfahren wie im Vorwort der Beschreibung
definiert, außerdem
dadurch gekennzeichnet, dass der Wert des besagten Grenzwerts B
unter Berücksichtigung der
Energie En des laufenden Frames in Bezug
auf den besagten Grenzwert selbst variiert.
-
Ein
anderes Ziel der Erfindung ist es, eine Vorrichtung zur Detektion
von Sprachaktivität
vorzuschlagen, die eine einfache Umsetzung des erläuterten
Verfahrens ermöglicht.
-
Für diesen
Zweck betrifft die Erfindung eine Verwendung des besagten Verfahrens
in einer Vorrichtung zur Detektion von Sprachaktivität in Eingangssignalen,
zusammengesetzt aus aufeinanderfolgenden digitalisierten Frames
vorbestimmter Dauer einschließlich
Sprachsignalen, Rauschsignalen und Ruhemomenten, mit der Anwendung
auf das laufende Frame eines ersten Schritts zur Berechnung von
Energieparametern und der Durchgangszahl durch Null des zentrierten
Rauschsignals und eines zweiten Schritts zur Einteilung als Rauschen
oder als Sprache und zur Verarbeitung dieser Signale entsprechend den
berechneten Energiewerten und der Durchgangszahl durch Null, wobei
die besagte Einteilung als Rauschen oder als Sprache an die Energie
der besagten Eingangssignale bezüglich
eines anpassbaren Grenzwerts B und die berechnete Durchgangszahl
durch Null gebunden und die besagte Vorrichtung dadurch gekennzeichnet
ist, dass sie in Serie eine Stufe zur Initialisierung der später verwendeten
Variablen, um die initiale Regelung der besagten Variablen im Laufe
eines ersten Zustands zur temporären
Initialisierung einer Dauer von NINIT Frames zu ermöglichen,
wobei das Eingangssignal immer als Sprachsignal betrachtet wird,
eine Stufe zur Berechnung der Energie jedes Frames und der Durchgangszahl
durch Null des zentrierten Rauschsignals sowie eine Stufe zum Testen
und Verarbeiten beinhaltet, verwirklicht in der Form eines so genannten
Automatens mit drei Zuständen
und dafür
vorgesehen, die besagte Vorrichtung nach dem temporären Übergang
in den besagten Initialisierungzustand in den einen oder anderen
eines zweiten und eines dritten Zustands entsprechend den besagten
Berechnungen umzuschalten, und jedes Eingangssignal respektive als
Signal „Sprache
+ Rauschen + Ruhe" oder
als Signal „Rauschen
+ Ruhe" eingeteilt wird.
-
Die
Besonderheiten und Vorteile der Erfindung werden in der folgenden
Beschreibung und in den beigefügten
Figuren, als nicht erschöpfende
Beispiele gegeben, mehr im Detail ersichtlich, in denen:
-
1 das
allgemeine Prinzip der Umsetzung des der Erfindung entsprechenden
Verfahrens zeigt;
-
2 diese
Umsetzung mehr im Detail zeigt und insbesondere die drei Zustände zur
Geltung bringt, welche die Vorrichtung zur Detektion, die diese
Umsetzung versichert, annehmen kann;
-
3 bis 5 die
in der besagten Vorrichtung durchgeführten Verarbeitungen verdeutlichen, wenn
diese sich in einem dieser drei Zustände befindet.
-
Vor
der Beschreibung der Erfindung werden zuerst einige Bedingungen
für die
Verwendung des vorgeschlagenen Verfahrens präzisiert, d. h. zunächst, dass
die Eingangssignale, die aus einer einzigen Eingangsquelle ausgehen,
(Wort- oder) Sprachsignalen entsprechen, übertragen von menschlichen
Wesen und vermischt mit Hintergrundrauschen, das sehr diverse Ursprünge haben kann
(Hintergrundrauschen von Restaurants, von Büros, von vorbeifahrenden Autos
etc...). Außerdem müssen diese
Eingangssignale digitalisiert werden, bevor man sie entsprechend
der Erfindung verarbeitet, und diese Verarbeitung erfordert, dass
man ausreichend Abschnitte (oder Frames) dieser digitalisierten
Eingangssignale, beispielsweise aufeinanderfolgende Frames von etwa
5 bis 20 Millisekunden, verwenden kann. Schließlich wird präzisiert,
dass das vorgeschlagene Verfahren, unabhängig von jeder anderen nachfolgend
auf die Sprachsignale angewandten Verarbeitung, hier mit digitalen
Signalen getestet wurde, abgetastet mit 8 kHz und gefiltert, um
nur im Telefonfrequenzband zu liegen (300–3400 Hz).
-
Das
Prinzip der Umsetzung des der Erfindung entsprechenden Verfahrens
wird in 1 gezeigt. Nach einem vorhergehenden
Schritt in einer Stufe 10 zur Initialisierung der Variablen,
die man während
dem Ablauf des Prozesses verwendet, wird jeder laufende Frame TRn der am Eingang E erhaltenen Eingangssignale
in einer Berechnungsstufe 11 einem ersten Schritt zur Berechnung
der Energie En dieses Frames und der Durchgangszahl
durch Null des zentrierten Rauschsignals für diesen Frame unterzogen (man
präzisiert
weiter unten die Bedeutung dieser Variablen, die man in dieser Beschreibung ZCR
oder auch ZC benennt, gemäß dem Entsprechenden
in Englisch: Zero-Crossing Rate).
Ein zweiter Schritt ermöglicht
es dann in einer Test- und Verarbeitungstufe 12, die Energie
mit einem adaptiven Grenzwert und die ZRC mit einem festen Grenzwert zu
vergleichen, um zu entscheiden, ob das Eingangssignal ein Signal „Sprache
+ Rauschen + Ruhe" oder nur
ein Signal „Rauschen
+ Ruhe" aufweist.
Dieser zweite Schritt wird in dem, was man hiernach einen Automaten
mit drei Zuständen
benennt, dessen Funktionsweise in 2 gezeigt
wird, verwirklicht. Diese drei Zustände werden auch in 1 veranschaulicht.
-
Der
erste Zustand, START_VAD, ist ein Anfangs- oder Initialisierungszustand,
in 1 mit A bezeichnet. Bei jedem Aufruf der Verarbeitung
gemäß der Erfindung
geht das System in diesen Zustand über, wobei das Eingangssignal
immer als Sprachsignal betrachtet wird (selbst wenn man dabei auch Rauschen
erkennt). Dieser Initialisierungszustand ermöglicht insbesondere die Regelung
der internen Variablen und wird während der notwendigen Zeit
beibehalten (während
mehreren aufeinanderfolgenden Frames ist diese Anzahl von Frames
mit der Bezeichnung NINIT selbstverständlich regelbar).
-
Der
zweite Zustand, SPRACHE_VAD, entspricht dem Fall, in dem das Ein
gangssignal als Signal „Sprache
+ Rauschen + Ruhe" betrachtet
wird. Der dritte Zustand, RAUSCHEN_VAD, entspricht dem Fall, in
dem das Eingangssignal nur als Signal „Rauschen + Ruhe" betrachtet wird
(man beachte hier, dass die Ausdrücke „erster" und „zweiter" Zustand nicht eine Bedeutungsfolge
definieren, sondern einfach nur für deren Unter scheidung bestimmt sind).
Nach den NINIT ersten Frames entsprechend dem Initialisierungszustand
für die
Regelung der Variablen befindet sich das System weiterhin in diesem zweiten
oder in diesem dritten Zustand. Der Übergang von einem Zustand in
den anderen wird weiter unten beschrieben.
-
Nach
der Initialisierung umfasst der erste Berechnungsschritt in Stufe 11 zwei
Unterschritte, in einer Rechenschaltung 111 durchgeführt, erstens
zur Berechnung der Energie des laufenden Frames und zweitens zur
Berechnung der ZCR für
diesen Frame, in einer Rechenschaltung 112 durchgeführt.
-
Im
Allgemeinen ist ein Sprachsignal (d. h. ein Signal „Sprache
+ Rauschen + Ruhe")
mehr energiereich als ein Signal „Rauschen + Ruhe" allein. Das Hintergrundrauschen
müsste
wirklich sehr hoch sein, um nicht als Rauschen (d. h. als ein Signal „Rauschen
+ Ruhe"), sondern
als Sprachsignal erkannt zu werden. Die Schaltung 111 zur
Berechnung der Energie sieht folglich die Verbindung eines variablen Grenzwerts
gemäß dessen
Werts mit dieser Energie hinsichtlich von Tests vor, die folgendermaßen verlaufen:
- (a) wenn die Energie En des
laufenden Frames untere einem bestimmten Grenzwert B (En < Grenzwert B) liegt,
wird der laufende Frame als RAUSCHEN eingeteilt;
- (b) wenn die Energie En dagegen größer oder gleich
dem Grenzwert B (En ≥ Grenzwert B) ist, wird der laufende
Frame als SPRACHE eingeteilt.
-
Tatsächlich selektiert
man einen adaptiven Grenzwert B unter Berücksichtigung des Hintergrundrauschens,
d. h. beispielsweise dessen Anpassung unter Berücksichtigung der durchschnittlichen Energie E des Signals „Rauschen
+ Ruhe", und mit der
Autorisation von Niveauschwankungen dieses Signals „Rauschen
+ Ruhe". Das Anpassungskriterium
ist dann folgendes:
- (i) wenn (En < Grenzwert B), dann
wird der Grenzwert B durch den Grenzwert B – α.E ersetzt,
wobei α ein
empirisch definierter konstanter Koeffizient, hier jedoch zwischen
0 und 1 enthalten ist;
- (ii) wenn (Grenzwert B < En < Grenzwert
B + Δ), dann
wird der Grenzwert B durch den Grenzwert B + α.E ersetzt
(Δ = Zusatzgrenzwert).
-
In
diesen zwei Situationen (i) und (ii) wird das Signal als „Rauschen
+ Ruhe" betrachtet,
und der Durchschnitt E wird
aktualisiert. Ansonsten, wenn En ≥ Grenzwert
B + Δ, wird
das Signal als Sprache betrachtet, und der Durchschnitt E bleibt unverändert. Wenn man vermeiden will,
dass der Grenzwert B zu sehr ansteigt oder zu sehr absinkt, gibt
man seinem Wert vor, zwischen zwei Grenzwerten (GRENZWERT B_MIN
und GRENZ WERT B_MAX), empirisch definiert, enthalten zu bleiben.
Außerdem
ist der Wert von Δ an
sich hier mehr oder weniger groß,
je nach dem, ob das Eingangssignal (wie es auch sei: Sprache alleine,
Rauschen + Ruhe, oder eine Mischung der beiden) mehr oder weniger
groß ist. Wenn
man beispielsweise die Energie des vorhergehenden Frames TRn–1 des
Eingangssignals mit En–1 bezeichnet (was gespeichert
ist), trifft man eine Entscheidung folgenden Typs:
- (i) wenn |En – En–1| < Grenzwert, Δ = DELTA1;
- (ii) sonst, Δ =
DELTA2;
wobei man die zwei möglichen Werte von A auch hier
wieder auf empirische Art und Weise definiert.
-
Nachdem
die Berechnung der Energie in der Schaltung 111 ausgeführt wurde,
verbindet man sie für
den laufenden Frame mit der Berechnung der ZCR, ausgeführt in Schaltung 112.
Diese Berechnungen in Stufe 11 werden von einer Operation
zur Entscheidung in Bezug auf den Zustand gefolgt, in dem die Vorrichtung
sich nach der Umsetzung der beschriebenen diversen Schritte befindet.
Genauer gesagt umfasst dieser Entscheidungsprozess, ausgeführt in einer
Stufe 12, zwei grundlegende Tests 121 und 122,
die jetzt nacheinander beschrieben werden.
-
Man
sah zunächst,
dass bei jedem Verarbeitungsaufruf gemäß der Erfindung der Anfangszustand
während
NINIT aufeinanderfolgenden Frames A = START_VAD war. Der erste Test 121 des
Zustands der Vorrichtung betrifft die Anzahl an Frames, die am Eingang
der Vorrichtung und Leitung dargeboten werden, solange diese dargebotene
Anzahl an Frames kleiner als NINIT bleibt, mit der Folgerung, dass
der Zustand START_VAD ist und bleibt (Antwort Y am Ausgang des Tests 121).
In diesem Fall wird die daraus resultierende Verarbeitung, bezeichnet START_VAD_P
und ausgeführt
in Block 141, in 3 gezeigt,
was weiter unten kommentiert wird. Man kann allerdings ab jetzt
darauf hinweisen, dass im Laufe dieser Verarbeitung START_VAD_P
es zwangsläufig
dazu kommt, dass der beobachtete Zustand nicht mehr der Anfangszustand
START_VAD, sondern einer der anderen Zustände, RAUSCHEN_VAD oder SPRACHE_VAD
ist, wobei die Unterscheidung zwischen dem einen oder anderen im
Laufe des Tests 122 durchgeführt wird.
-
Denn
wenn am Ausgang des ersten Tests 121 die Antwort diesemal
N (d. h: „nein,
der Zustand ist nicht mehr START_VAD") ist, prüft der zweite Test 122,
ob der bebachtete Zustand B = RAUSCHEN_VAD ist, mit der Antwort
ja oder nein wie zuvor. Wenn die Antwort ja ist (Antwort Y am Ausgang
von 122), wird die daraus resultierende Verarbeitung mit
der Bezeichnung RAUSCHEN_VAD_P, in Block 142 ausgeführt, in 4 gezeigt.
Wenn die Antwort nein ist (Antwort N am Ausgang von 122), wird
die daraus resultierende Verarbeitung mit der Bezeichnung SPRACHE_VAD_P,
in Block 143 ausgeführt,
in 5 gezeigt (genau wie für START_VAD_P, wobei die 4 und 5 nachstehend
kommentiert werden). Welche diejenige der drei Verarbeitungen, die
infolge dieser Tests 121 und 122 ausgeführt werden,
auch sein mag, sie wird über den
Anschluss 15 zur Verbindung des Ausgangs der Blöcke 141 bis 143 mit
dem Eingang der Schaltung 11 von einer Rückführung zum
Eingang der Vorrichtung gefolgt. So kann der nachfolgende Frame
analysiert und verarbeitet werden.
-
Die 3, 4 und 5,
deren grundlegenden Aspekte in 2 zusammengefasst
werden, beschreiben folglich den Ablauf der Verarbeitungen START_VAD_P,
RAUSCHEN_VAD_P und SPRACHE_VAD_P im Detail. Die in diesen Figuren verwendeten
Variablen sind, nach ihrer Kategorie veranschaulicht, folgende:
- (1) Energie: En bezeichnet
die Energie des laufenden Frames, En–1 diejenige
des (gespeicherten) vorhergehenden Frames, und E die durchschnittliche
Energie des Hintergrundrauschens;
- (2) Zähler:
(a)
ein Zähler
cpt_trm zählt
die Anzahl an erworbenen Frames ab dem Anfang der Umsetzung des
Verfahrens (dieser Zähler
wird nur im Zustand START_VAD verwendet und der Wert, den er erreichen
kann, ist höchstens
gleich NINIT);
(b) ein Zähler
cpt_trm_rauschen zählt
die als Rauschen erkannte Anzahl an Frames ab dem Anfang der Umsetzung
des Verfahrens (um Überschreitungen
von Berechnungen zu vermeiden aktualisiert man diesen nur dann,
wenn der Wert, den dieser erreicht, untere einem gewissen Wert liegt, worüber man
ihn nicht mehr verwendet);
(c) ein Zähler cpt_transit, verwendet
für die
Glättung
der Übergänge Sprache/Rauschen,
vermeidet mit der bedingten Unterscheidung der Umschaltung vom Zustand
SPRACHE_VAD zum Zustand RAUSCHEN_VAD die Zergliederung von Satzenden
oder die Detektion als Hintergrundrauschen von Silbenzwischenräumen (was
das Sprachsignal vollständig
zerhacken würde):
– wenn man
sich im Zustand Sprache befindet und Rauschen erkannt wird, wird
dieser Zähler cpt_transit
inkrementiert;
– wenn
erneut Sprache erfasst wird, stellt man diesen Zähler auf Null zurück, ansonsten
inkrementiert man ihn weiter, bis ein Grenzwert, N-TRANSM, erreicht wird:
diese Bestätigung, dass
das Eingangssignal tatsächlich
Hintergrundrauschen ist, führt
jetzt zur Umschaltung in den Zustand RAUSCHEN_VAD, und der Zähler cpt_transit
wird auf Null zurückgestellt;
- (3) Grenzwerte: Grenzwert B bezeichnet den verwendeten Grenzwert
zum Unterscheiden der Sprache von einem Hintergrundrauschen schwachen
Niveaus (GRENZWERT B_MIN und GRENZWERT B_MAX sind seine zulässigen minimalen
und maximalen Werte), a der Wert des Koeffizienten zur Aktualisierung
von Grenzwert B und Δ den
verwendeten Zusatzgrenzwert zum Unterscheiden der Sprache von einem
Hintergrundrauschen hohen Niveaus (seine zwei möglichen Werte werden DELTA1
und DELTA2, bestimmt dank DELTAE als Grenzwert, der mit |En – En–1|
verwendet wird und der es hinsichtlich der Aktualisierung von Δ ermöglicht,
zu wissen, ob das Eingangssignal sehr schwankend oder nicht ist);
- (4) ZCR-Zahl des laufenden Frames: diese Durchgangszahl durch
Null des zentrierten Rauschsignals schwankt beträchtlich:
– bestimmte
Rauschtypen sind zeitlich sehr unruhig, und das Rauschsignal (zentriert,
d. h. man hat ihm seinen Durchschnitt genommen) geht dann oft durch
Null, weshalb eine hohe ZRC (dies ist insbesondere der Fall bei
Hintergrundrauschen Gaußschen
Typs);
– wenn
das Hintergrundrauschen des Typs Stimmengewirr ist (Restaurants,
Büros,
Nachbarn, die miteinander reden...), nähern sich die Merkmale des
Hintergrundrauschens demjenigen eines Sprachsignals, und die ZCR
weist schwächere Werte
auf;
– bestimmte
Typen von Sprachklängen
werden stimmhaft (voiced) benannt und verlaufen nach einer gewissen
Periodizität:
dies ist bei Vokalen der Fall, denen eine starke Energie und eine
schwache ZCR entsprechen;
– andere
Typen von Sprachklängen,
stimmlos (unvoiced) benannt, haben dagegen in Bezug auf stimmhafte
Klänge
eine schwächere
Energie und eine höhere
ZCR: dies ist insbesondere bei frikativen und plosiven Konsonanten
der Fall (derartige Signale würden
als Rauschen eingeteilt werden, da ihre ZCR einen bestimmten Grenzwert ZCGAUSS übersteigen
würde,
wenn man diesem Test nicht den auf Energie bezogenen anschließen würde: diese
Signale würden
nur dann als Rauschen bestätigt
werden, wenn ihre Energie unter (Grenzwert B + DELTA2) bleiben würde, doch
sie werden im gegenteiligen Falle als Sprache eingeteilt);
– schließlich muss
auch der besondere Fall einer ZCR Null (ZC = 0) berücksichtigt
werden: dies entspricht einem flachen Eingangssignal (alle Muster haben
denselben Wert), das dann systematisch einem „Rauschen + Ruhe" gleichgesetzt wird;
- (5) Ausgangssignal INFO_VAD: am Ende jeder Verarbeitung (in
einem der Blöcke 141 bis 143) wird
eine Entscheidung bezüglich
des laufenden Frames getroffen, wobei dieser letztere tatsächlich entweder
als Sprachsignal (INFO_VAD = SPRACHE) oder als Signal aus Hintergrundrauschen
+ Ruhe (INFO_VAD = RAUSCHEN) erklärt wird.
-
Diese
Verarbeitungen in den Blöcken 141 bis 143 umfassen
wie angegeben entweder Energie- und ZCR-Tests, angezeigt bei Umrahmungen
in Rautenform (mit Ausnahme des ersten Tests in der ersten Verarbeitung
START_VAD_P, was einem Test des Zählerwerts cpt_trm entspricht,
um zu prüfen,
ob die Anzahl an Frames noch kleiner als der Wert NINIT ist und
man sich weiterhin in der Initialisierungsphase der Vorrichtung
befindet), oder Operationen, die von den Ergebnissen dieser Tests
gesteuert werden (eventuelle Änderung
der Grenzwerte, Berechnung der durchschnittlichen Energie, Definition
des Zustands der Vorrichtung, Inkrement oder Rückstellung auf Null von Zählern, Übergang
zum nachfolgenden Frame etc...) und deren Anzeige dann in den Umrahmungen
in rechteckiger Form erfolgt.
-
Das
Verfahren und die Vorrichtung, die so vorgeschlagen werden, weisen
letztlich eine sehr gemäßigte Komplexität auf, was
ihre Implantation in Echtzeit besonders leicht macht. Auch kann
man beobachten, dass sie mit einem geringen Speicherbedarf verbunden
sind. Selbstverständlich
können
Varianten dieser Erfindung vorgeschlagen werden, ohne dafür ihren
Rahmen zu verlassen. Man kann insbesondere die Art des Tests 122 ändern und
nach einem negativen Ergebnis des Tests 121 prüfen, ob
der neue beobachtete Zustand SPRACHE_VAD (und nicht mehr RAUSCHEN_VAD)
ist, mit als Antwort ja oder nein (Y oder N) wie zuvor. Wenn die
Antwort ja ist (Y am Ausgang von 122), entspricht die resultierende
Verarbeitung SPRACHE_VAD_P (dann in Block 142 ausgeführt), ansonsten
entspricht diese Verarbeitung RAUSCHEN_VAD_P (dann in Block 143 ausgeführt).
- Initialisation
- = Initialisierung
- Current frame
- = laufender Frame
- calculation
- = Berechnung
- START_VAD
- = START_VAD
- NOISE_VAD
- = RAUSCHEN_VAD
- SPEECH_VAD
- = SPRACHE_VAD
- NEXT FRAME
- = nächster Frame
- during the NINIT
- = während NINIT
- first frames
- = erste Frames
- En
- = En
- threshold
- = Grenzwert
- B
- = B
- ZCR
- = ZCR = Zero-Crossing Rate
- ZC
- = ZC = Zero-Crossing
- Gaussian noise or
- = Gaußsches Rauschen oder
- and not finished transition
- = und nicht beendeter Übergang
- fr_ctr
- = fr_ctr
- E
- = E
- MIN
- = MIN
- MAX
- = MAX
- info
- = Info
- if
- = wenn
- if not
- = wenn nicht
- state
- = Zustand
- output
- = Ausgang
- transit
- = Übergang