DE19716862A1 - Sprachaktivitätserkennung - Google Patents
SprachaktivitätserkennungInfo
- Publication number
- DE19716862A1 DE19716862A1 DE19716862A DE19716862A DE19716862A1 DE 19716862 A1 DE19716862 A1 DE 19716862A1 DE 19716862 A DE19716862 A DE 19716862A DE 19716862 A DE19716862 A DE 19716862A DE 19716862 A1 DE19716862 A1 DE 19716862A1
- Authority
- DE
- Germany
- Prior art keywords
- speech
- circuit
- output
- background noise
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Description
Die Erfindung betrifft ein Verfahren und eine
Schaltungsanordnung zur automatischen
Sprachaktivitätserkennung nach dem Oberbegriff des
Patentanspruchs 1 bzw. 5.
Für den digitalen Mobilfunk oder Sprachspeichersysteme und
eine große Anzahl anderer Anwendungen ist es vorteilhaft,
eine diskontinuierliche Übertragung der
Sprachcodierungsparameter vorzunehmen. Dadurch kann während
der Sprachpausen oder Zeitintervallen, die im wesentlichen
durch Hintergrundgeräusche dominiert werden, die Bitrate
deutlich gesenkt werden. Vorteile ergeben sich daraus unter
anderem durch einen niedrigen Energieverbrauch in mobilen
Endgeräten, durch eine höhere mittlere Bitrate für
simultane Dienste, wie Datenübertragung oder durch eine
höhere Speicherkapazität auf Speicherchips. Das Ausmaß der
Vorteile hängt vom Anteil der Pausen im Sprachsignal sowie
von der Güte des automatischen Sprachaktivitätserkenners
ab, der zur Detektion solcher Intervalle nötig ist. Zum
einen ist eine niedrige Sprachaktivitätsrate vorteilhaft,
zum anderen sollte aktive Sprache nicht abgeschnitten
werden, um die Sprachqualität nicht zu beeinträchtigen.
Dieses Problem ist das grundsätzliche Problem von
automatischen Sprachaktivitätserkennern, besonders bei der
Präsenz von Hintergrundgeräuschen hohen Pegels.
Bekannte Verfahren zur automatischen
Sprachaktivitätserkennung benutzen in der Regel
Entscheidungsparameter, die auf Zeitmittelwerten über
Fenster konstanter Länge basieren. Als Beispiel hierfür
werden die Autokorrelationskoeffizienten,
Nulldurchgangsrate oder Sprachgrundperiode genannt, wobei
diese Parameter nur eine beschränkte Flexibilität in der
Auswahl der Zeit-/Frequenzbereichsauflösung besitzen,
welche normalerweise durch die Rahmenlänge des zugehörigen
Sprachcodierers/-decodierers fest vorgegeben ist. Im
Gegensatz dazu berechnet die bekannte Wavelet-Trans
formation eine Zerlegung in den Zeit-/Frequenzbereich
der zu niedriger Frequenz- aber hoher Zeitbereichsauflösung
bei hohen Frequenzen und zu niedriger Zeit- aber hoher
Frequenzbereichsauflösung bei niedrigen Frequenzen führt.
Für die Analyse von Sprachsignalen sind diese Eigenschaften
gut geeignet und deshalb zur Klassifizierung von aktiver
Sprache in die Klassen stimmhaft, stimmlos und Übergänge
bereits genutzt worden, wie in der Offenlegungsschrift
DE 195 38 852 A1 "Verfahren und Anordnung zur
Klassifizierung von Sprachsignalen", 1997, ausgeführt wird.
Der Erfindung liegt deshalb die Aufgabe zugrunde, ein
Verfahren und eine Schaltungsanordnung zur
Sprachaktivitätserkennung auf Basis der Wavelet-Trans
formation zu schaffen, wobei entschieden werden soll,
ob für das zu betrachtende Zeitsegment überhaupt Sprache
oder Sprachlaute vorliegen.
Die erfindungsgemäße Lösung des Verfahrens ist im
Kennzeichen des Patentanspruchs 1 charakterisiert.
Weitere Ausgestaltungen des erfindungsgemäßen Verfahrens
ergeben sich aus den Patentansprüchen 2 bis 4.
Die Lösung für die erfindungsgemäße Schaltungsanordnung ist
in den Kennzeichen des Patentanspruchs 5 charakterisiert.
Weitere Merkmale bzw. Ausgestaltungen der
Schaltungsanordnungen sind im Patentanspruch 6
charakterisiert.
Das vorliegende Verfahren zur automatischen
Sprachaktivitätserkennung für Sprachcodierer/-decodierer
zur quellengesteuerten Reduktion der mittleren
Übertragungsrate zeichnet sich dadurch aus, daß nach der
Segmentierung des Sprachsignals für jeden Rahmen eine
Wavelet-Transformation berechnet wird, aus der ein Satz
Parameter ermittelt wird, aus denen mit Hilfe fester
Schwellen ein Satz binärer Entscheidungsvariablen berechnet
wird, die eine Entscheidungslogik steuern, deren Resultat
nach zeitlicher Glättung für jeden Rahmen eine Aussage
"Sprache vorhanden/keine Sprache vorhanden" liefert.
Dadurch, daß hiermit festgestellt wird, ob für das zu
betrachtende Zeitsegment überhaupt Sprache vorliegt, wird
eine quellengesteuerte Reduktion der mittleren
Übertragungsrate erreicht.
Weitere Vorteile des Verfahrens zur Sprachaktivitäts
erkennung sowie der entsprechenden Schaltungsanordnung
werden anhand von Ausführungsbeispielen, die im folgenden
näher beschrieben werden, aufgezeigt.
In der Beschreibung, in den Patentansprüchen, in der
Zusammenfassung und in der Zeichnung werden die in der
hinten angeführten Liste der Bezugszeichen verwendeten
Begriffe und Bezugszeichen verwendet.
Die Erfindung wird nun anhand von Ausführungsbeispielen,
die in den Zeichnungen dargestellt sind, beschrieben.
In der Zeichnung bedeuten:
Fig. 1 ein Blockschaltbild für die
Sprachaktivitätserkennung als Vorstufe für einen
variabelratigen Sprachcodierer-/decodierer und
Fig. 2 ein Blockschaltbild eines automatischen
Sprachaktivitätserkenners.
Durch das Verfahren wird entschieden, ob für das zu
betrachtende Zeitsegment überhaupt Sprache vorliegt.
Dadurch kann es zur Funktionssteuerung oder allgemein als
Vorstufe für einen Sprachcodierer-/decodierer mit variabler
Bitrate verwendet werden. In Fig. 1 ist ein Blockschaltbild
für die Sprachaktivitätserkennung als Vorstufe für einen
variabelratigen Sprachcodierer-/decodierer gezeigt, der auf
seinem Eingang 1 die jeweilige Eingangssprache empfängt.
Über Leitungen 2 und 3 wird die Eingangssprache sowohl auf
einen Umschalter 4 als auch auf den Eingang einer
Sprachaktivitätserkennungsschaltung bzw. ein -modul 5
gegeben. Der Umschalter 4 leitet die Eingangssprache
abhängig vom Ausgangssignal der Sprachaktivitäts
erkennungsschaltung 5, die zur Steuerung des Umschalters 4
über eine Rückmeldeleitung 6 mit ihm verbunden ist,
entweder auf die Leitung 7 oder auf die Leitung 8. Die
Leitung 7 führt auf einen Sprachcodierer 9 und die Leitung
8 auf einen Hintergrundgeräuschcodierer 10. Der Bitstrom
des Sprachcodierers 9 wird über eine Leitung 11 auf den
einen Eingang eines Umschalters 13 gegeben und der Bitstrom
des Hintergrundgeräuschcodierers 10 über eine Leitung 12
auf den anderen Eingang des Umschalters 13. Der Umschalter
13 empfängt über eine Leitung 14 auch die Ausgangssignale
der Sprachaktivitätserkennungsschaltung 5, wodurch der
Umschalter 13 gesteuert wird. Der Ausgang des Umschalters
13 ist über eine Leitung 15 mit einem Übertragungskanal 16
verbunden, der eingangsseitig auch noch mit der Leitung 14
für die Ausgangssignale des Sprachaktivitätserkennungs
moduls 5 verbunden ist. Der Ausgang des Übertragungskanals
16 gelangt einmal über eine Leitung 17 auf den Eingang
eines weiteren Umschalters 19 und über eine Leitung 18 auf
den Steuereingang des Umschalters 19 und den Steuereingang
eines Umschalters 26. Der Umschalter 19 ist über
Ausgangsleitungen 20 und 21 mit einem Sprachdekodierer 22
und mit einem Dekodierer für Hintergrundgeräusche 23
verbunden, deren Ausgänge über Leitungen 24 bzw. 25 auf den
Eingang des bereits genannten Umschalters 26 gelangen, der
in Abhängigkeit der Steuersignale auf Leitung 18 am Ausgang
27 entweder Signale für die decodierte Sprache oder die
decodierten Hintergrundgeräusche bereitstellt.
In Fig. 2 ist ein Blockschaltbild eines automatischen
Sprachaktivitätserkenners dargestellt, der wiederum auf
seinem Eingang 1 die Eingangssprache empfängt und an eine
Segmentierungsschaltung 28 weiterleitet. Der Ausgang dieser
Segmentierungsschaltung 28 wird über eine Leitung 29 an
eine Wavelet-Transformationsschaltung 30 übertragen, die
wiederum über eine Leitung 31 mit dem Eingang eines
Prozessors 32 zur Berechnung der Energiegrößen verbunden
ist. Der Ausgang des Prozessors 32 bzw. einer
Rechenschaltung ist über eine Leitung 33 parallel mit einem
Pausendetektor 34, mit einer Schaltung zur Berechnung eines
Stationaritätsmaßes 35, mit einem ersten
Hintergrunddetektor 36 und mit einem zweiten
Hintergrunddetektor 37 verbunden. Die Ausgänge der
genannten Schaltungen 34 bis 37 sind über entsprechende
Leitungen 38 bis 41 mit einer Entscheidungslogik 42
verbunden, deren Ausgang über eine Leitung 43 mit einer
Glättungsschaltung 44 zur zeitlichen Glättung verbunden
ist, deren Ausgang 45 auch Ausgang des Sprachaktivitäts
erkenners ist.
Anhand des Blockschaltbildes des automatischen
Sprachaktivitätserkenners nach Fig. 2 wird nun das
Verfahren zur automatischen Sprachaktivitätserkennung näher
beschrieben. Nach der Segmentierung des Eingangssignals in
der Segmentierungsschaltung 28 wird für jedes Segment die
Wavelet-Transformation in der Wavelet-Transformations
schaltung 30 berechnet. Im Anschluß daran wird ein Satz von
Energieparametern im Prozessor 32 aus den Transformations
koeffizienten ermittelt und mit festen Schwellwerten
verglichen. Dadurch entstehen binäre Entscheidungs
variablen, mit denen die Entscheidungslogik 42 gesteuert
wird, die ein vorläufiges Resultat für jeden Rahmen
ausgibt. Diese vorläufige Entscheidung wird zum Abschluß
noch mittels zeitlicher Glättung in der Schaltung 44
nachverarbeitet, wodurch das endgültige Resultat "Sprache
oder keine Sprache" am Ausgang 45 für den aktuellen Rahmen
zur Verfügung steht. Im nachfolgenden werden nun die
einzelnen Verarbeitungsschaltungen bzw. -blöcke des
Blockdiagramms nach Fig. 2 näher beschrieben. Die Wavelet-Trans
formationsschaltung 30 führt folgende Operationen aus:
Die Eingangssprache wird in Rahmen der Länge N Abtastwerte
eingeteilt, wobei N an ein bestimmtes Sprachcodierverfahren
angepaßt werden kann. Für jeden Rahmen wird die diskrete
Wavelet-Transformation berechnet. Für viele Basisfunktionen
der Wavelet-Transformation kann eine Filterbank mit jeweils
einem Hochpaßfilter oder einem Tiefpaßfilter abgeleitet
werden, mit denen die Transformation rekursiv durchgeführt
werden kann. Auf die Klassen der Daubechies Wavelets und
der Spline Wavelets wird hingewiesen, die zu einer
besonders effizienten Implementierung der Transformation
mittels Filter kurzer Länge führen. Im nachfolgenden werden
zwei Verfahren beschrieben, die sich zur Berechnung der
Transformation eignen.
- 1. Im ersten Verfahren wird die Filterbank direkt auf den Eingangs-Sprachrahmen s = (s(O), . . ., s(N-1))T angewandt und die beiden Filterausgänge um den Faktor zwei unterabgetastet. Dadurch entsteht am Tiefpaßfilterausgang ein Satz von Approximationskoeffizienten A 1 = (A1(O), . . . A1(N/2-1))T sowie am Hochpaßfilterausgang ein Satz von Detailkoeffizienten D 1 = (D1(O), . . . D1(N/2-1))T. Dieses Verfahren wird nun rekursiv immer auf die Approximationskoeffizienten der vorherigen Stufe angewandt, wodurch sich in der letzten Stufe L als Ergebnis der Transformation der Vektor DWT(s) = (D 1 T, D2 T . . ., D L T, A L T)T mit insgesamt N Koeffizienten ergibt.
- 2. Die zweite Variante zur Berechnung der Transformation
beruht wie die erste auf einer Filterbankzerlegung.
Der Unterschied besteht aber darin, daß die Filterausgänge nicht mehr unterabgetastet werden.
Dadurch entstehen nach jeder Stufe Vektoren der Länge N und nach der letzten Stufe ein Ausgangsvektor mit insgesamt (L+1)N Koeffizienten. Um die Auflösungseigenschaften der Wavelet-Transformation zu erhalten, müssen die Filterimpulsantworten für jede Stufe durch Überabtastung um den Faktor zwei aus der vorherigen Stufe gewonnen werden. In der ersten Stufe werden die gleichen Filter benutzt wie für Variante 1. Durch den insgesamt höheren Aufwand - höhere Redundanz in der Darstellung im Bildbereich - gegenüber Variante 1 kann eine Verbesserung der Leistungsfähigkeit des Verfahrens erreicht werden.
Um Randeffekte aufgrund der Filterlänge M zu vermeiden,
werden die M 2L-2 vergangenen sowie die M 2L-2 zukünftigen
Abtastwerte des Sprachrahmens ebenfalls berücksichtigt und
die Filter-Impulsantworten - soweit wie möglich - um den
zeitlichen Ursprung zentriert. Dadurch erhöht sich die
algorithmische Verzögerung des Verfahrens prinzipiell um
M 2L-2 Abtastwerte. Soll dies vermieden werden, so kann der
Eingangsrahmen alternativ auch periodisch oder symmetrisch
fortgesetzt werden.
Zunächst werden die Rahmenenergien E1, . . ., EL der
Detailkoeffizienten D 1, . . ., D L und die Rahmenenergie EL+1 der
Approximationskoeffizienten A L vom Prozessor 32 berechnet.
Die Gesamtenergie des Rahmens Etot kann man nun effizient
durch Summation aller partieller Energien ermitteln, wenn
die zugrundeliegende Wavelet-Basis orthogonal ist. Alle
Energiewerte werden im logarithmischen Bereich
repräsentiert.
Für die Pausendetektion in der Schaltung 34 wird die
Rahmenenergie Etot mit einer festen Schwelle T1 verglichen,
um Rahmen mit sehr niedriger Energie zu erkennen. Dazu wird
eine binäre Entscheidungsvariable fsil gemäß der folgenden
Formel gesetzt:
Um bei der Detektion von stationären Rahmen ein Maß für
stationäre oder instationäre Rahmen zu erhalten, wird für
jeden Rahmen k das Differenzmaß
berechnet, in das die Rahmenenergien der
Detailkoeffizienten aller Stufen einfließen. Die binäre
Entscheidungsvariable fstat wird nun unter Verwendung der
Schwelle T2 unter Berücksichtigung der letzten K Rahmen
gesetzt:
Bei der Detektion von Hintergrundrauschen in den
Schaltungen 36 und 37 ist das Ziel, ein
Entscheidungskriterium zu erhalten, daß unempfindlich
gegenüber dem momentanen Pegel des Hintergrundgeräusches
ist. Die Eigenschaften der DWT oder Wavelet-Trans
formationsschaltung 30 werden hierzu effizient
ausgenutzt, indem die Detailkoeffizienten D Q1 im groben
Zeitintervall N und die Detailkoeffizienten D Q2 im feineren
Zeitintervall N/P betrachtet werden. Dabei bezeichnen P die
Anzahl der Subrahmen, Q1 eine Stufe für grobe und Q2 eine
Stufe für feine Zeitauflösung, wobei die Beziehungen
Q1, Q2∈{1,L} sowie Q1<Q2 gelten müssen. Vorab wird für beide
Stufen ein Schätzwert B1, i∈{Q1,Q2}, für den momentanen
Pegel des Hintergrundgeräusches durch
berechnet, wobei die Zeitkonstante α durch 0<α<1 begrenzt
ist. Danach werden die P Subrahmenenergien
aus den Detailkoeffizienten D 2 bestimmt und mit Hilfe der
festen Schwellen T3 und T4 jeweils eine binäre
Entscheidungsvariable fQ1 für die Stufe Q1 sowie fQ2 für die
Stufe Q2 gemäß den folgenden beiden Formeln bestimmt:
In der Entscheidungslogik 42 wird unter Verwendung der
Gleichungen (1), (3), (5) und (6) das vorläufige Resultat
vad(pre) des automatischen Sprachaktivitätserkenners durch
die logische Verknüpfung
vad(pre) = ! (fsil| fQ1 & fQ2 & fstat)), (7)
gewonnen, wobei "!,|,&" die logischen Operatoren "nicht,
oder, und" bezeichnen.
Es können auch weitere Stufen Q3, Q4, . . . , etc. definiert
werden, für die eine Detektion des Hintergrundrauschens in
gleicher Weise vorgenommen werden kann. Es sind dann
weitere binäre Entscheidungsparameter fQ3, fQ4, . . . zu
definieren, die ebenso in Gleichung (7) zu berücksichtigen
sind.
Die zeitliche Glättung erfolgt in der Schaltung 44. Um die
Langzeit-Stationarität von Sprache in Betracht zu ziehen,
wird die vorläufige Entscheidung der VAD in einer
nachverarbeitenden Stufe noch zeitlich geglättet.
Übersteigt die Anzahl der letzten zusammenhängend als aktiv
gekennzeichneten Rahmen den Wert CB, so werden, solange
vad(pre)=0, noch maximal CH aktive Rahmen angehängt. Damit
liegt die endgültige Entscheidung vad∈{0,1} des
Sprachaktivitätserkenners fest.
1
Eingang
2
,
3
Leitungen
4
Umschalter
5
Sprachaktivitätserkennungsmodul oder -schaltung
6
Rückmeldeleitung
7
,
8
Leitungen bzw. Ausgänge des Umschalters
4
9
Sprachcodierer
10
Hintergrundgeräuschcodierer
11
,
12
Leitungen
13
Umschalter
14
,
15
Leitungen
16
Übertragungskanal
17
,
18
Leitungen
19
Umschalter
20
,
21
Leitungen
22
Sprachdecodierer
23
Hintergrundgeräuschdecodierer
24
,
25
Leitungen
26
Umschalter
27
Ausgang
28
Segmentierer
29
,
31
,
33
Leitungen
30
Wavelet-Transformationsschaltung
32
Prozessor
34
Phasendetektor
35
Schaltung zur Ermittlung für das
Stationaritätsmaß
36
,
37
Hintergrunddetektor
38-41
Leitungen
42
Entscheidungslogik
43
Leitung
44
Glättungsschaltung
45
Ausgang.
Claims (6)
1. Verfahren zur automatischen Sprachaktivitätserkennung
auf Basis der Wavelet-Transformation, dadurch
gekennzeichnet,
daß zur quellengesteuerten Reduktion der mittleren
Übertragungsrate eine Sprachaktivitätserkennungs
schaltung bzw. ein -modul (5) zur Steuerung eines
Sprachcodierers (7) und eines Sprachdecodierers (22)
sowie zur Steuerung eines Hintergrundgeräuschcodierers
(10) und eines Hintergrundgeräuschdecodierers (23)
dient, wobei nach der Segmentierung eines
Sprachsignals für jeden Rahmen eine Wavelet-Trans
formation berechnet wird, aus der ein Satz
Parameter ermittelt wird, aus denen mit Hilfe fester
Schwellen ein Satz binärer Entscheidungsvariablen in
einer Rechenschaltung oder einem Prozessor (32)
berechnet wird, die eine Entscheidungslogik (42)
steuern, deren Resultat nach zeitlicher Glättung für
jeden Rahmen eine Aussage "Sprache vorhanden/keine
Sprache" liefert.
2. Verfahren zur Sprachaktivitätserkennung nach
Patentanspruch 1, dadurch gekennzeichnet,
daß nach der Wavelet-Transformation für jedes Segment
ein Satz von Energieparametern aus den
Transformationskoeffizienten ermittelt und mit festen
Schwellwerten verglichen wird, wodurch binäre
Entscheidungsvariablen entstehen, mit denen die
Entscheidungslogik (42) gesteuert wird, die ein
vorläufiges Resultat für jeden Rahmen am Ausgang
abgibt.
3. Verfahren zur Sprachaktivitätserkennung nach einem der
Patentansprüche 1 oder 2, dadurch gekennzeichnet,
daß das vorläufige Resultat für jeden Rahmen, das von
der Entscheidungslogik ermittelt wird, mittels
zeitlicher Glättung nachverarbeitet wird, wodurch das
endgültige Resultat "Sprache vorhanden oder keine
Sprache" für den jeweils aktuellen Rahmen gebildet
wird.
4. Verfahren zur Sprachaktivitätserkennung nach einem der
Patentansprüche 1 bis 3, dadurch gekennzeichnet,
daß zur Detektion von Hintergrundrauschen
Hintergrundgeräuschdetektoren (36 und 37) mit Signalen
gesteuert werden und die Detailkoeffizienten (D) im
groben Zeitintervall (N) und Detailkoeffizienten (D2)
im feineren Zeitintervall (N/P) analysiert werden,
wobei P die Anzahl der Subrahmen darstellt und die
Beziehungen Q1, Q2∈{1,L} sowie Q1<Q2 gelten.
5. Schaltungsanordnung zur Durchführung des Verfahrens
zur Sprachaktivitätserkennung nach einem der
Patentansprüche 1 bis 4, dadurch gekennzeichnet,
daß auf den Eingang (1) eines Umschalters (4) die Signale der Eingangssprache gelangen,
daß mit dem Eingang (1) eine Sprachaktivitäts erkennungsschaltung bzw. ein -modul (5) verbunden ist, deren Ausgang den genannten Umschalter (4), einen weiteren Umschalter (13) steuert und außerdem mit einem Übertragungskanal (16) verbunden ist,
daß der Ausgang des Umschalters (4) über Leitungen (7 bzw. 8) mit einem Sprachcodierer (9) bzw. mit einem Hintergrundgeräuschcodierer (10) verbunden ist, deren Ausgänge über Leitungen (11 bzw. 12) mit den Eingängen des Umschalters (13) verbunden sind, dessen Ausgang über eine Leitung (15) mit dem Eingang des Übertragungskanals (16) verbunden ist, der einerseits mit einem weiteren Umschalter (19) und andererseits über eine Leitung (18) zur Steuerung des Umschalters (19) und zur Steuerung eines am Ausgang (27) angeordneten Umschalters (26) verbunden ist, und
daß zwischen den beiden Umschaltern (19 bzw. 26) ein Sprachdecodierer (22) und ein Decodierer (23) für Hintergrundgeräusche angeordnet ist.
daß auf den Eingang (1) eines Umschalters (4) die Signale der Eingangssprache gelangen,
daß mit dem Eingang (1) eine Sprachaktivitäts erkennungsschaltung bzw. ein -modul (5) verbunden ist, deren Ausgang den genannten Umschalter (4), einen weiteren Umschalter (13) steuert und außerdem mit einem Übertragungskanal (16) verbunden ist,
daß der Ausgang des Umschalters (4) über Leitungen (7 bzw. 8) mit einem Sprachcodierer (9) bzw. mit einem Hintergrundgeräuschcodierer (10) verbunden ist, deren Ausgänge über Leitungen (11 bzw. 12) mit den Eingängen des Umschalters (13) verbunden sind, dessen Ausgang über eine Leitung (15) mit dem Eingang des Übertragungskanals (16) verbunden ist, der einerseits mit einem weiteren Umschalter (19) und andererseits über eine Leitung (18) zur Steuerung des Umschalters (19) und zur Steuerung eines am Ausgang (27) angeordneten Umschalters (26) verbunden ist, und
daß zwischen den beiden Umschaltern (19 bzw. 26) ein Sprachdecodierer (22) und ein Decodierer (23) für Hintergrundgeräusche angeordnet ist.
6. Schaltungsanordnung zur Durchführung des Verfahrens
nach einem der Patentansprüche 1 bis 4, dadurch
gekennzeichnet,
daß der Eingang (1) mit einer Segmentierungsschaltung (28) verbunden ist, deren Ausgang über eine Leitung (29) mit einer Wavelet-Transformationsschaltung (30) verbunden ist, die mit dem Eingang einer Rechenschaltung bzw. eines Prozessors (32) zur Berechnung der Energiegrößen verbunden ist,
daß der Ausgang des Prozessors (32) über eine Leitung (33) parallel mit einem Pausendetektor (34), mit einer Schaltung zur Berechnung eines Stationaritätsmaßes (35), mit einem ersten Hintergrunddetektor (36) und mit einem zweiten Hintergrunddetektor (37) verbunden ist,
daß die Ausgänge der genannten Schaltungen (34 bis 37) mit einer Entscheidungslogik (42) verbunden sind, deren Ausgang mit einer Glättungsschaltung (44) zur zeitlichen Glättung verbunden ist, und
daß der Ausgang der Glättungsschaltung (44) auch der Ausgang (45) des Sprachaktivitätserkenners ist.
daß der Eingang (1) mit einer Segmentierungsschaltung (28) verbunden ist, deren Ausgang über eine Leitung (29) mit einer Wavelet-Transformationsschaltung (30) verbunden ist, die mit dem Eingang einer Rechenschaltung bzw. eines Prozessors (32) zur Berechnung der Energiegrößen verbunden ist,
daß der Ausgang des Prozessors (32) über eine Leitung (33) parallel mit einem Pausendetektor (34), mit einer Schaltung zur Berechnung eines Stationaritätsmaßes (35), mit einem ersten Hintergrunddetektor (36) und mit einem zweiten Hintergrunddetektor (37) verbunden ist,
daß die Ausgänge der genannten Schaltungen (34 bis 37) mit einer Entscheidungslogik (42) verbunden sind, deren Ausgang mit einer Glättungsschaltung (44) zur zeitlichen Glättung verbunden ist, und
daß der Ausgang der Glättungsschaltung (44) auch der Ausgang (45) des Sprachaktivitätserkenners ist.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19716862A DE19716862A1 (de) | 1997-04-22 | 1997-04-22 | Sprachaktivitätserkennung |
DE59809897T DE59809897D1 (de) | 1997-04-22 | 1998-02-19 | Sprachaktivitätserkennung |
EP98102842A EP0874352B1 (de) | 1997-04-22 | 1998-02-19 | Sprachaktivitätserkennung |
AT98102842T ATE252265T1 (de) | 1997-04-22 | 1998-02-19 | Sprachaktivitätserkennung |
US09/064,248 US6374211B2 (en) | 1997-04-22 | 1998-04-22 | Voice activity detection method and device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19716862A DE19716862A1 (de) | 1997-04-22 | 1997-04-22 | Sprachaktivitätserkennung |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19716862A1 true DE19716862A1 (de) | 1998-10-29 |
Family
ID=7827317
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19716862A Ceased DE19716862A1 (de) | 1997-04-22 | 1997-04-22 | Sprachaktivitätserkennung |
DE59809897T Expired - Lifetime DE59809897D1 (de) | 1997-04-22 | 1998-02-19 | Sprachaktivitätserkennung |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE59809897T Expired - Lifetime DE59809897D1 (de) | 1997-04-22 | 1998-02-19 | Sprachaktivitätserkennung |
Country Status (4)
Country | Link |
---|---|
US (1) | US6374211B2 (de) |
EP (1) | EP0874352B1 (de) |
AT (1) | ATE252265T1 (de) |
DE (2) | DE19716862A1 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10026872A1 (de) * | 2000-04-28 | 2001-10-31 | Deutsche Telekom Ag | Verfahren zur Berechnung einer Sprachaktivitätsentscheidung (Voice Activity Detector) |
US7254532B2 (en) | 2000-04-28 | 2007-08-07 | Deutsche Telekom Ag | Method for making a voice activity decision |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7505594B2 (en) * | 2000-12-19 | 2009-03-17 | Qualcomm Incorporated | Discontinuous transmission (DTX) controller system and method |
US6725191B2 (en) * | 2001-07-19 | 2004-04-20 | Vocaltec Communications Limited | Method and apparatus for transmitting voice over internet |
US8315865B2 (en) * | 2004-05-04 | 2012-11-20 | Hewlett-Packard Development Company, L.P. | Method and apparatus for adaptive conversation detection employing minimal computation |
US7574353B2 (en) * | 2004-11-18 | 2009-08-11 | Lsi Logic Corporation | Transmit/receive data paths for voice-over-internet (VoIP) communication systems |
US7983922B2 (en) * | 2005-04-15 | 2011-07-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing |
KR100655953B1 (ko) * | 2006-02-06 | 2006-12-11 | 한양대학교 산학협력단 | 웨이블릿 패킷 변환을 이용한 음성 처리 시스템 및 그 방법 |
US7680657B2 (en) * | 2006-08-15 | 2010-03-16 | Microsoft Corporation | Auto segmentation based partitioning and clustering approach to robust endpointing |
KR100789084B1 (ko) | 2006-11-21 | 2007-12-26 | 한양대학교 산학협력단 | 웨이블릿 패킷 영역에서 비선형 구조의 과중 이득에 의한음질 개선 방법 |
US9361883B2 (en) * | 2012-05-01 | 2016-06-07 | Microsoft Technology Licensing, Llc | Dictation with incremental recognition of speech |
CN104019885A (zh) | 2013-02-28 | 2014-09-03 | 杜比实验室特许公司 | 声场分析系统 |
WO2014151813A1 (en) | 2013-03-15 | 2014-09-25 | Dolby Laboratories Licensing Corporation | Normalization of soundfield orientations based on auditory scene analysis |
US10917611B2 (en) | 2015-06-09 | 2021-02-09 | Avaya Inc. | Video adaptation in conferencing using power or view indications |
CN110431625B (zh) * | 2019-06-21 | 2023-06-23 | 深圳市汇顶科技股份有限公司 | 语音检测方法、语音检测装置、语音处理芯片以及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5388182A (en) * | 1993-02-16 | 1995-02-07 | Prometheus, Inc. | Nonlinear method and apparatus for coding and decoding acoustic signals with data compression and noise suppression using cochlear filters, wavelet analysis, and irregular sampling reconstruction |
EP0680034A1 (de) * | 1994-04-28 | 1995-11-02 | Oki Electric Industry Co., Ltd. | Mobilfunkübertragungssystem mit einem Ton- oder Sprachaktivitätsdetektor und Faltungskodierung |
EP0714088A1 (de) * | 1994-11-22 | 1996-05-29 | Alcatel Mobile Phones | Sprachaktivitätsdetektion |
DE19600404A1 (de) * | 1995-01-31 | 1996-08-01 | Motorola Inc | Detektor und Verfahren zur Feststellung des Vorhandenseins von Sprache |
DE19538852A1 (de) * | 1995-06-30 | 1997-01-02 | Deutsche Telekom Ag | Verfahren und Anordnung zur Klassifizierung von Sprachsignalen |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5152007A (en) * | 1991-04-23 | 1992-09-29 | Motorola, Inc. | Method and apparatus for detecting speech |
GB2272554A (en) * | 1992-11-13 | 1994-05-18 | Creative Tech Ltd | Recognizing speech by using wavelet transform and transient response therefrom |
US5459814A (en) * | 1993-03-26 | 1995-10-17 | Hughes Aircraft Company | Voice activity detector for speech signals in variable background noise |
EP0751495B1 (de) * | 1995-06-30 | 2001-10-10 | Deutsche Telekom AG | Verfahren und Anordnung zur Klassifizierung von Sprachsignalen |
CA2188369C (en) * | 1995-10-19 | 2005-01-11 | Joachim Stegmann | Method and an arrangement for classifying speech signals |
-
1997
- 1997-04-22 DE DE19716862A patent/DE19716862A1/de not_active Ceased
-
1998
- 1998-02-19 EP EP98102842A patent/EP0874352B1/de not_active Expired - Lifetime
- 1998-02-19 AT AT98102842T patent/ATE252265T1/de active
- 1998-02-19 DE DE59809897T patent/DE59809897D1/de not_active Expired - Lifetime
- 1998-04-22 US US09/064,248 patent/US6374211B2/en not_active Expired - Lifetime
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5388182A (en) * | 1993-02-16 | 1995-02-07 | Prometheus, Inc. | Nonlinear method and apparatus for coding and decoding acoustic signals with data compression and noise suppression using cochlear filters, wavelet analysis, and irregular sampling reconstruction |
EP0680034A1 (de) * | 1994-04-28 | 1995-11-02 | Oki Electric Industry Co., Ltd. | Mobilfunkübertragungssystem mit einem Ton- oder Sprachaktivitätsdetektor und Faltungskodierung |
EP0714088A1 (de) * | 1994-11-22 | 1996-05-29 | Alcatel Mobile Phones | Sprachaktivitätsdetektion |
DE19600404A1 (de) * | 1995-01-31 | 1996-08-01 | Motorola Inc | Detektor und Verfahren zur Feststellung des Vorhandenseins von Sprache |
DE19538852A1 (de) * | 1995-06-30 | 1997-01-02 | Deutsche Telekom Ag | Verfahren und Anordnung zur Klassifizierung von Sprachsignalen |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10026872A1 (de) * | 2000-04-28 | 2001-10-31 | Deutsche Telekom Ag | Verfahren zur Berechnung einer Sprachaktivitätsentscheidung (Voice Activity Detector) |
US7254532B2 (en) | 2000-04-28 | 2007-08-07 | Deutsche Telekom Ag | Method for making a voice activity decision |
US7318025B2 (en) | 2000-04-28 | 2008-01-08 | Deutsche Telekom Ag | Method for improving speech quality in speech transmission tasks |
Also Published As
Publication number | Publication date |
---|---|
ATE252265T1 (de) | 2003-11-15 |
US6374211B2 (en) | 2002-04-16 |
EP0874352A3 (de) | 1999-06-02 |
EP0874352A2 (de) | 1998-10-28 |
EP0874352B1 (de) | 2003-10-15 |
US20010014854A1 (en) | 2001-08-16 |
DE59809897D1 (de) | 2003-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0874352B1 (de) | Sprachaktivitätserkennung | |
EP0690436B1 (de) | Start-/Endpunkt-Detektion zur Worterkennung | |
DE69720087T2 (de) | Verfahren und Vorrichtung zur Unterdrückung von Hintergrundmusik oder -geräuschen im Eingangssignal eines Spracherkenners | |
EP0076234B1 (de) | Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung | |
DE60308567T2 (de) | Dekodierungsgerät, Kodierungsgerät, Dekodierungsverfahren und Kodierungsverfahren | |
DE3101851C2 (de) | Vorrichtung zum Erkennen von Sprache | |
EP1386307B1 (de) | Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals | |
DE4320990A1 (de) | Verfahren zur Redundanzreduktion | |
DE69918635T2 (de) | Vorrichtung und Verfahren zur Sprachverarbeitung | |
EP0076233B1 (de) | Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung | |
DE60200632T2 (de) | Verfahren zur Sprachaktivitätsdetektion in einem Signal, und Sprachkodierer mit Vorrichtung zur Ausführung des Verfahrens | |
EP0815553B1 (de) | Verfahren zur erkennung einer signalpause zwischen zwei mustern, welche in einem zeitvarianten mess-signal vorhanden sind | |
DE10234130B3 (de) | Vorrichtung und Verfahren zum Erzeugen einer komplexen Spektraldarstellung eines zeitdiskreten Signals | |
EP0319078A2 (de) | Verfahren zum Bestimmen von Anfangs- und Endpunkt isoliert gesprochener Wörter in einem Sprachsignal und Anordnung zur Durchführung des Verfahrens | |
EP1023777B1 (de) | Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms | |
DE602004004572T2 (de) | Verfolgen von Vokaltraktresonanzen unter Verwendung einer zielgeführten Einschränkung | |
EP0508547A2 (de) | Schaltungsanordnung zur Spracherkennung | |
DE69922769T2 (de) | Vorrichtung und Verfahren zur Sprachverarbeitung | |
DE60018690T2 (de) | Verfahren und Vorrichtung zur Stimmhaft-/Stimmlos-Entscheidung | |
EP1755110A2 (de) | Verfahren und Vorrichtung zur adaptiven Reduktion von Rausch- und Hintergrundsignalen in einem sprachverarbeitenden System | |
EP0658878B1 (de) | System zum Übertragen eines Sprachsignals | |
EP1279164A1 (de) | Verfahren zur berechnung einer sprachaktivitätsentscheidung (voice activity detector) | |
DE60110541T2 (de) | Verfahren zur Spracherkennung mit geräuschabhängiger Normalisierung der Varianz | |
WO2019007820A1 (de) | Vorrichtung und verfahren zur bestimmung des zustands einer spindel einer werkzeugmaschine | |
EP1279168B1 (de) | Verfahren zur verbesserung der sprachqualität bei sprachübertragungsaufgaben |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OM8 | Search report available as to paragraph 43 lit. 1 sentence 1 patent law | ||
8110 | Request for examination paragraph 44 | ||
8131 | Rejection |