DE19716862A1 - Sprachaktivitätserkennung - Google Patents

Sprachaktivitätserkennung

Info

Publication number
DE19716862A1
DE19716862A1 DE19716862A DE19716862A DE19716862A1 DE 19716862 A1 DE19716862 A1 DE 19716862A1 DE 19716862 A DE19716862 A DE 19716862A DE 19716862 A DE19716862 A DE 19716862A DE 19716862 A1 DE19716862 A1 DE 19716862A1
Authority
DE
Germany
Prior art keywords
speech
circuit
output
background noise
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE19716862A
Other languages
English (en)
Inventor
Joachim Dipl Ing Stegmann
Gerhard Dipl Ing Schroeder
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deutsche Telekom AG
Original Assignee
Deutsche Telekom AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Telekom AG filed Critical Deutsche Telekom AG
Priority to DE19716862A priority Critical patent/DE19716862A1/de
Priority to DE59809897T priority patent/DE59809897D1/de
Priority to EP98102842A priority patent/EP0874352B1/de
Priority to AT98102842T priority patent/ATE252265T1/de
Priority to US09/064,248 priority patent/US6374211B2/en
Publication of DE19716862A1 publication Critical patent/DE19716862A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Description

Die Erfindung betrifft ein Verfahren und eine Schaltungsanordnung zur automatischen Sprachaktivitätserkennung nach dem Oberbegriff des Patentanspruchs 1 bzw. 5.
Für den digitalen Mobilfunk oder Sprachspeichersysteme und eine große Anzahl anderer Anwendungen ist es vorteilhaft, eine diskontinuierliche Übertragung der Sprachcodierungsparameter vorzunehmen. Dadurch kann während der Sprachpausen oder Zeitintervallen, die im wesentlichen durch Hintergrundgeräusche dominiert werden, die Bitrate deutlich gesenkt werden. Vorteile ergeben sich daraus unter anderem durch einen niedrigen Energieverbrauch in mobilen Endgeräten, durch eine höhere mittlere Bitrate für simultane Dienste, wie Datenübertragung oder durch eine höhere Speicherkapazität auf Speicherchips. Das Ausmaß der Vorteile hängt vom Anteil der Pausen im Sprachsignal sowie von der Güte des automatischen Sprachaktivitätserkenners ab, der zur Detektion solcher Intervalle nötig ist. Zum einen ist eine niedrige Sprachaktivitätsrate vorteilhaft, zum anderen sollte aktive Sprache nicht abgeschnitten werden, um die Sprachqualität nicht zu beeinträchtigen. Dieses Problem ist das grundsätzliche Problem von automatischen Sprachaktivitätserkennern, besonders bei der Präsenz von Hintergrundgeräuschen hohen Pegels.
Bekannte Verfahren zur automatischen Sprachaktivitätserkennung benutzen in der Regel Entscheidungsparameter, die auf Zeitmittelwerten über Fenster konstanter Länge basieren. Als Beispiel hierfür werden die Autokorrelationskoeffizienten, Nulldurchgangsrate oder Sprachgrundperiode genannt, wobei diese Parameter nur eine beschränkte Flexibilität in der Auswahl der Zeit-/Frequenzbereichsauflösung besitzen, welche normalerweise durch die Rahmenlänge des zugehörigen Sprachcodierers/-decodierers fest vorgegeben ist. Im Gegensatz dazu berechnet die bekannte Wavelet-Trans­ formation eine Zerlegung in den Zeit-/Frequenzbereich der zu niedriger Frequenz- aber hoher Zeitbereichsauflösung bei hohen Frequenzen und zu niedriger Zeit- aber hoher Frequenzbereichsauflösung bei niedrigen Frequenzen führt. Für die Analyse von Sprachsignalen sind diese Eigenschaften gut geeignet und deshalb zur Klassifizierung von aktiver Sprache in die Klassen stimmhaft, stimmlos und Übergänge bereits genutzt worden, wie in der Offenlegungsschrift DE 195 38 852 A1 "Verfahren und Anordnung zur Klassifizierung von Sprachsignalen", 1997, ausgeführt wird.
Der Erfindung liegt deshalb die Aufgabe zugrunde, ein Verfahren und eine Schaltungsanordnung zur Sprachaktivitätserkennung auf Basis der Wavelet-Trans­ formation zu schaffen, wobei entschieden werden soll, ob für das zu betrachtende Zeitsegment überhaupt Sprache oder Sprachlaute vorliegen.
Die erfindungsgemäße Lösung des Verfahrens ist im Kennzeichen des Patentanspruchs 1 charakterisiert.
Weitere Ausgestaltungen des erfindungsgemäßen Verfahrens ergeben sich aus den Patentansprüchen 2 bis 4.
Die Lösung für die erfindungsgemäße Schaltungsanordnung ist in den Kennzeichen des Patentanspruchs 5 charakterisiert.
Weitere Merkmale bzw. Ausgestaltungen der Schaltungsanordnungen sind im Patentanspruch 6 charakterisiert.
Das vorliegende Verfahren zur automatischen Sprachaktivitätserkennung für Sprachcodierer/-decodierer zur quellengesteuerten Reduktion der mittleren Übertragungsrate zeichnet sich dadurch aus, daß nach der Segmentierung des Sprachsignals für jeden Rahmen eine Wavelet-Transformation berechnet wird, aus der ein Satz Parameter ermittelt wird, aus denen mit Hilfe fester Schwellen ein Satz binärer Entscheidungsvariablen berechnet wird, die eine Entscheidungslogik steuern, deren Resultat nach zeitlicher Glättung für jeden Rahmen eine Aussage "Sprache vorhanden/keine Sprache vorhanden" liefert. Dadurch, daß hiermit festgestellt wird, ob für das zu betrachtende Zeitsegment überhaupt Sprache vorliegt, wird eine quellengesteuerte Reduktion der mittleren Übertragungsrate erreicht.
Weitere Vorteile des Verfahrens zur Sprachaktivitäts­ erkennung sowie der entsprechenden Schaltungsanordnung werden anhand von Ausführungsbeispielen, die im folgenden näher beschrieben werden, aufgezeigt.
In der Beschreibung, in den Patentansprüchen, in der Zusammenfassung und in der Zeichnung werden die in der hinten angeführten Liste der Bezugszeichen verwendeten Begriffe und Bezugszeichen verwendet.
Die Erfindung wird nun anhand von Ausführungsbeispielen, die in den Zeichnungen dargestellt sind, beschrieben.
In der Zeichnung bedeuten:
Fig. 1 ein Blockschaltbild für die Sprachaktivitätserkennung als Vorstufe für einen variabelratigen Sprachcodierer-/decodierer und
Fig. 2 ein Blockschaltbild eines automatischen Sprachaktivitätserkenners.
Durch das Verfahren wird entschieden, ob für das zu betrachtende Zeitsegment überhaupt Sprache vorliegt. Dadurch kann es zur Funktionssteuerung oder allgemein als Vorstufe für einen Sprachcodierer-/decodierer mit variabler Bitrate verwendet werden. In Fig. 1 ist ein Blockschaltbild für die Sprachaktivitätserkennung als Vorstufe für einen variabelratigen Sprachcodierer-/decodierer gezeigt, der auf seinem Eingang 1 die jeweilige Eingangssprache empfängt. Über Leitungen 2 und 3 wird die Eingangssprache sowohl auf einen Umschalter 4 als auch auf den Eingang einer Sprachaktivitätserkennungsschaltung bzw. ein -modul 5 gegeben. Der Umschalter 4 leitet die Eingangssprache abhängig vom Ausgangssignal der Sprachaktivitäts­ erkennungsschaltung 5, die zur Steuerung des Umschalters 4 über eine Rückmeldeleitung 6 mit ihm verbunden ist, entweder auf die Leitung 7 oder auf die Leitung 8. Die Leitung 7 führt auf einen Sprachcodierer 9 und die Leitung 8 auf einen Hintergrundgeräuschcodierer 10. Der Bitstrom des Sprachcodierers 9 wird über eine Leitung 11 auf den einen Eingang eines Umschalters 13 gegeben und der Bitstrom des Hintergrundgeräuschcodierers 10 über eine Leitung 12 auf den anderen Eingang des Umschalters 13. Der Umschalter 13 empfängt über eine Leitung 14 auch die Ausgangssignale der Sprachaktivitätserkennungsschaltung 5, wodurch der Umschalter 13 gesteuert wird. Der Ausgang des Umschalters 13 ist über eine Leitung 15 mit einem Übertragungskanal 16 verbunden, der eingangsseitig auch noch mit der Leitung 14 für die Ausgangssignale des Sprachaktivitätserkennungs­ moduls 5 verbunden ist. Der Ausgang des Übertragungskanals 16 gelangt einmal über eine Leitung 17 auf den Eingang eines weiteren Umschalters 19 und über eine Leitung 18 auf den Steuereingang des Umschalters 19 und den Steuereingang eines Umschalters 26. Der Umschalter 19 ist über Ausgangsleitungen 20 und 21 mit einem Sprachdekodierer 22 und mit einem Dekodierer für Hintergrundgeräusche 23 verbunden, deren Ausgänge über Leitungen 24 bzw. 25 auf den Eingang des bereits genannten Umschalters 26 gelangen, der in Abhängigkeit der Steuersignale auf Leitung 18 am Ausgang 27 entweder Signale für die decodierte Sprache oder die decodierten Hintergrundgeräusche bereitstellt.
In Fig. 2 ist ein Blockschaltbild eines automatischen Sprachaktivitätserkenners dargestellt, der wiederum auf seinem Eingang 1 die Eingangssprache empfängt und an eine Segmentierungsschaltung 28 weiterleitet. Der Ausgang dieser Segmentierungsschaltung 28 wird über eine Leitung 29 an eine Wavelet-Transformationsschaltung 30 übertragen, die wiederum über eine Leitung 31 mit dem Eingang eines Prozessors 32 zur Berechnung der Energiegrößen verbunden ist. Der Ausgang des Prozessors 32 bzw. einer Rechenschaltung ist über eine Leitung 33 parallel mit einem Pausendetektor 34, mit einer Schaltung zur Berechnung eines Stationaritätsmaßes 35, mit einem ersten Hintergrunddetektor 36 und mit einem zweiten Hintergrunddetektor 37 verbunden. Die Ausgänge der genannten Schaltungen 34 bis 37 sind über entsprechende Leitungen 38 bis 41 mit einer Entscheidungslogik 42 verbunden, deren Ausgang über eine Leitung 43 mit einer Glättungsschaltung 44 zur zeitlichen Glättung verbunden ist, deren Ausgang 45 auch Ausgang des Sprachaktivitäts­ erkenners ist.
Anhand des Blockschaltbildes des automatischen Sprachaktivitätserkenners nach Fig. 2 wird nun das Verfahren zur automatischen Sprachaktivitätserkennung näher beschrieben. Nach der Segmentierung des Eingangssignals in der Segmentierungsschaltung 28 wird für jedes Segment die Wavelet-Transformation in der Wavelet-Transformations­ schaltung 30 berechnet. Im Anschluß daran wird ein Satz von Energieparametern im Prozessor 32 aus den Transformations­ koeffizienten ermittelt und mit festen Schwellwerten verglichen. Dadurch entstehen binäre Entscheidungs­ variablen, mit denen die Entscheidungslogik 42 gesteuert wird, die ein vorläufiges Resultat für jeden Rahmen ausgibt. Diese vorläufige Entscheidung wird zum Abschluß noch mittels zeitlicher Glättung in der Schaltung 44 nachverarbeitet, wodurch das endgültige Resultat "Sprache oder keine Sprache" am Ausgang 45 für den aktuellen Rahmen zur Verfügung steht. Im nachfolgenden werden nun die einzelnen Verarbeitungsschaltungen bzw. -blöcke des Blockdiagramms nach Fig. 2 näher beschrieben. Die Wavelet-Trans­ formationsschaltung 30 führt folgende Operationen aus: Die Eingangssprache wird in Rahmen der Länge N Abtastwerte eingeteilt, wobei N an ein bestimmtes Sprachcodierverfahren angepaßt werden kann. Für jeden Rahmen wird die diskrete Wavelet-Transformation berechnet. Für viele Basisfunktionen der Wavelet-Transformation kann eine Filterbank mit jeweils einem Hochpaßfilter oder einem Tiefpaßfilter abgeleitet werden, mit denen die Transformation rekursiv durchgeführt werden kann. Auf die Klassen der Daubechies Wavelets und der Spline Wavelets wird hingewiesen, die zu einer besonders effizienten Implementierung der Transformation mittels Filter kurzer Länge führen. Im nachfolgenden werden zwei Verfahren beschrieben, die sich zur Berechnung der Transformation eignen.
  • 1. Im ersten Verfahren wird die Filterbank direkt auf den Eingangs-Sprachrahmen s = (s(O), . . ., s(N-1))T angewandt und die beiden Filterausgänge um den Faktor zwei unterabgetastet. Dadurch entsteht am Tiefpaßfilterausgang ein Satz von Approximationskoeffizienten A 1 = (A1(O), . . . A1(N/2-1))T sowie am Hochpaßfilterausgang ein Satz von Detailkoeffizienten D 1 = (D1(O), . . . D1(N/2-1))T. Dieses Verfahren wird nun rekursiv immer auf die Approximationskoeffizienten der vorherigen Stufe angewandt, wodurch sich in der letzten Stufe L als Ergebnis der Transformation der Vektor DWT(s) = (D 1 T, D2 T . . ., D L T, A L T)T mit insgesamt N Koeffizienten ergibt.
  • 2. Die zweite Variante zur Berechnung der Transformation beruht wie die erste auf einer Filterbankzerlegung.
    Der Unterschied besteht aber darin, daß die Filterausgänge nicht mehr unterabgetastet werden.
    Dadurch entstehen nach jeder Stufe Vektoren der Länge N und nach der letzten Stufe ein Ausgangsvektor mit insgesamt (L+1)N Koeffizienten. Um die Auflösungseigenschaften der Wavelet-Transformation zu erhalten, müssen die Filterimpulsantworten für jede Stufe durch Überabtastung um den Faktor zwei aus der vorherigen Stufe gewonnen werden. In der ersten Stufe werden die gleichen Filter benutzt wie für Variante 1. Durch den insgesamt höheren Aufwand - höhere Redundanz in der Darstellung im Bildbereich - gegenüber Variante 1 kann eine Verbesserung der Leistungsfähigkeit des Verfahrens erreicht werden.
Um Randeffekte aufgrund der Filterlänge M zu vermeiden, werden die M 2L-2 vergangenen sowie die M 2L-2 zukünftigen Abtastwerte des Sprachrahmens ebenfalls berücksichtigt und die Filter-Impulsantworten - soweit wie möglich - um den zeitlichen Ursprung zentriert. Dadurch erhöht sich die algorithmische Verzögerung des Verfahrens prinzipiell um M 2L-2 Abtastwerte. Soll dies vermieden werden, so kann der Eingangsrahmen alternativ auch periodisch oder symmetrisch fortgesetzt werden.
Zunächst werden die Rahmenenergien E1, . . ., EL der Detailkoeffizienten D 1, . . ., D L und die Rahmenenergie EL+1 der Approximationskoeffizienten A L vom Prozessor 32 berechnet.
Die Gesamtenergie des Rahmens Etot kann man nun effizient durch Summation aller partieller Energien ermitteln, wenn die zugrundeliegende Wavelet-Basis orthogonal ist. Alle Energiewerte werden im logarithmischen Bereich repräsentiert.
Für die Pausendetektion in der Schaltung 34 wird die Rahmenenergie Etot mit einer festen Schwelle T1 verglichen, um Rahmen mit sehr niedriger Energie zu erkennen. Dazu wird eine binäre Entscheidungsvariable fsil gemäß der folgenden Formel gesetzt:
Um bei der Detektion von stationären Rahmen ein Maß für stationäre oder instationäre Rahmen zu erhalten, wird für jeden Rahmen k das Differenzmaß
berechnet, in das die Rahmenenergien der Detailkoeffizienten aller Stufen einfließen. Die binäre Entscheidungsvariable fstat wird nun unter Verwendung der Schwelle T2 unter Berücksichtigung der letzten K Rahmen gesetzt:
Bei der Detektion von Hintergrundrauschen in den Schaltungen 36 und 37 ist das Ziel, ein Entscheidungskriterium zu erhalten, daß unempfindlich gegenüber dem momentanen Pegel des Hintergrundgeräusches ist. Die Eigenschaften der DWT oder Wavelet-Trans­ formationsschaltung 30 werden hierzu effizient ausgenutzt, indem die Detailkoeffizienten D Q1 im groben Zeitintervall N und die Detailkoeffizienten D Q2 im feineren Zeitintervall N/P betrachtet werden. Dabei bezeichnen P die Anzahl der Subrahmen, Q1 eine Stufe für grobe und Q2 eine Stufe für feine Zeitauflösung, wobei die Beziehungen Q1, Q2∈{1,L} sowie Q1<Q2 gelten müssen. Vorab wird für beide Stufen ein Schätzwert B1, i∈{Q1,Q2}, für den momentanen Pegel des Hintergrundgeräusches durch
berechnet, wobei die Zeitkonstante α durch 0<α<1 begrenzt ist. Danach werden die P Subrahmenenergien
aus den Detailkoeffizienten D 2 bestimmt und mit Hilfe der festen Schwellen T3 und T4 jeweils eine binäre Entscheidungsvariable fQ1 für die Stufe Q1 sowie fQ2 für die Stufe Q2 gemäß den folgenden beiden Formeln bestimmt:
In der Entscheidungslogik 42 wird unter Verwendung der Gleichungen (1), (3), (5) und (6) das vorläufige Resultat vad(pre) des automatischen Sprachaktivitätserkenners durch die logische Verknüpfung
vad(pre) = ! (fsil| fQ1 & fQ2 & fstat)), (7)
gewonnen, wobei "!,|,&" die logischen Operatoren "nicht, oder, und" bezeichnen.
Es können auch weitere Stufen Q3, Q4, . . . , etc. definiert werden, für die eine Detektion des Hintergrundrauschens in gleicher Weise vorgenommen werden kann. Es sind dann weitere binäre Entscheidungsparameter fQ3, fQ4, . . . zu definieren, die ebenso in Gleichung (7) zu berücksichtigen sind.
Die zeitliche Glättung erfolgt in der Schaltung 44. Um die Langzeit-Stationarität von Sprache in Betracht zu ziehen, wird die vorläufige Entscheidung der VAD in einer nachverarbeitenden Stufe noch zeitlich geglättet. Übersteigt die Anzahl der letzten zusammenhängend als aktiv gekennzeichneten Rahmen den Wert CB, so werden, solange vad(pre)=0, noch maximal CH aktive Rahmen angehängt. Damit liegt die endgültige Entscheidung vad∈{0,1} des Sprachaktivitätserkenners fest.
Bezugszeichenliste
1
Eingang
2
,
3
Leitungen
4
Umschalter
5
Sprachaktivitätserkennungsmodul oder -schaltung
6
Rückmeldeleitung
7
,
8
Leitungen bzw. Ausgänge des Umschalters
4
9
Sprachcodierer
10
Hintergrundgeräuschcodierer
11
,
12
Leitungen
13
Umschalter
14
,
15
Leitungen
16
Übertragungskanal
17
,
18
Leitungen
19
Umschalter
20
,
21
Leitungen
22
Sprachdecodierer
23
Hintergrundgeräuschdecodierer
24
,
25
Leitungen
26
Umschalter
27
Ausgang
28
Segmentierer
29
,
31
,
33
Leitungen
30
Wavelet-Transformationsschaltung
32
Prozessor
34
Phasendetektor
35
Schaltung zur Ermittlung für das Stationaritätsmaß
36
,
37
Hintergrunddetektor
38-41
Leitungen
42
Entscheidungslogik
43
Leitung
44
Glättungsschaltung
45
Ausgang.

Claims (6)

1. Verfahren zur automatischen Sprachaktivitätserkennung auf Basis der Wavelet-Transformation, dadurch gekennzeichnet, daß zur quellengesteuerten Reduktion der mittleren Übertragungsrate eine Sprachaktivitätserkennungs­ schaltung bzw. ein -modul (5) zur Steuerung eines Sprachcodierers (7) und eines Sprachdecodierers (22) sowie zur Steuerung eines Hintergrundgeräuschcodierers (10) und eines Hintergrundgeräuschdecodierers (23) dient, wobei nach der Segmentierung eines Sprachsignals für jeden Rahmen eine Wavelet-Trans­ formation berechnet wird, aus der ein Satz Parameter ermittelt wird, aus denen mit Hilfe fester Schwellen ein Satz binärer Entscheidungsvariablen in einer Rechenschaltung oder einem Prozessor (32) berechnet wird, die eine Entscheidungslogik (42) steuern, deren Resultat nach zeitlicher Glättung für jeden Rahmen eine Aussage "Sprache vorhanden/keine Sprache" liefert.
2. Verfahren zur Sprachaktivitätserkennung nach Patentanspruch 1, dadurch gekennzeichnet, daß nach der Wavelet-Transformation für jedes Segment ein Satz von Energieparametern aus den Transformationskoeffizienten ermittelt und mit festen Schwellwerten verglichen wird, wodurch binäre Entscheidungsvariablen entstehen, mit denen die Entscheidungslogik (42) gesteuert wird, die ein vorläufiges Resultat für jeden Rahmen am Ausgang abgibt.
3. Verfahren zur Sprachaktivitätserkennung nach einem der Patentansprüche 1 oder 2, dadurch gekennzeichnet, daß das vorläufige Resultat für jeden Rahmen, das von der Entscheidungslogik ermittelt wird, mittels zeitlicher Glättung nachverarbeitet wird, wodurch das endgültige Resultat "Sprache vorhanden oder keine Sprache" für den jeweils aktuellen Rahmen gebildet wird.
4. Verfahren zur Sprachaktivitätserkennung nach einem der Patentansprüche 1 bis 3, dadurch gekennzeichnet, daß zur Detektion von Hintergrundrauschen Hintergrundgeräuschdetektoren (36 und 37) mit Signalen gesteuert werden und die Detailkoeffizienten (D) im groben Zeitintervall (N) und Detailkoeffizienten (D2) im feineren Zeitintervall (N/P) analysiert werden, wobei P die Anzahl der Subrahmen darstellt und die Beziehungen Q1, Q2∈{1,L} sowie Q1<Q2 gelten.
5. Schaltungsanordnung zur Durchführung des Verfahrens zur Sprachaktivitätserkennung nach einem der Patentansprüche 1 bis 4, dadurch gekennzeichnet,
daß auf den Eingang (1) eines Umschalters (4) die Signale der Eingangssprache gelangen,
daß mit dem Eingang (1) eine Sprachaktivitäts­ erkennungsschaltung bzw. ein -modul (5) verbunden ist, deren Ausgang den genannten Umschalter (4), einen weiteren Umschalter (13) steuert und außerdem mit einem Übertragungskanal (16) verbunden ist,
daß der Ausgang des Umschalters (4) über Leitungen (7 bzw. 8) mit einem Sprachcodierer (9) bzw. mit einem Hintergrundgeräuschcodierer (10) verbunden ist, deren Ausgänge über Leitungen (11 bzw. 12) mit den Eingängen des Umschalters (13) verbunden sind, dessen Ausgang über eine Leitung (15) mit dem Eingang des Übertragungskanals (16) verbunden ist, der einerseits mit einem weiteren Umschalter (19) und andererseits über eine Leitung (18) zur Steuerung des Umschalters (19) und zur Steuerung eines am Ausgang (27) angeordneten Umschalters (26) verbunden ist, und
daß zwischen den beiden Umschaltern (19 bzw. 26) ein Sprachdecodierer (22) und ein Decodierer (23) für Hintergrundgeräusche angeordnet ist.
6. Schaltungsanordnung zur Durchführung des Verfahrens nach einem der Patentansprüche 1 bis 4, dadurch gekennzeichnet,
daß der Eingang (1) mit einer Segmentierungsschaltung (28) verbunden ist, deren Ausgang über eine Leitung (29) mit einer Wavelet-Transformationsschaltung (30) verbunden ist, die mit dem Eingang einer Rechenschaltung bzw. eines Prozessors (32) zur Berechnung der Energiegrößen verbunden ist,
daß der Ausgang des Prozessors (32) über eine Leitung (33) parallel mit einem Pausendetektor (34), mit einer Schaltung zur Berechnung eines Stationaritätsmaßes (35), mit einem ersten Hintergrunddetektor (36) und mit einem zweiten Hintergrunddetektor (37) verbunden ist,
daß die Ausgänge der genannten Schaltungen (34 bis 37) mit einer Entscheidungslogik (42) verbunden sind, deren Ausgang mit einer Glättungsschaltung (44) zur zeitlichen Glättung verbunden ist, und
daß der Ausgang der Glättungsschaltung (44) auch der Ausgang (45) des Sprachaktivitätserkenners ist.
DE19716862A 1997-04-22 1997-04-22 Sprachaktivitätserkennung Ceased DE19716862A1 (de)

Priority Applications (5)

Application Number Priority Date Filing Date Title
DE19716862A DE19716862A1 (de) 1997-04-22 1997-04-22 Sprachaktivitätserkennung
DE59809897T DE59809897D1 (de) 1997-04-22 1998-02-19 Sprachaktivitätserkennung
EP98102842A EP0874352B1 (de) 1997-04-22 1998-02-19 Sprachaktivitätserkennung
AT98102842T ATE252265T1 (de) 1997-04-22 1998-02-19 Sprachaktivitätserkennung
US09/064,248 US6374211B2 (en) 1997-04-22 1998-04-22 Voice activity detection method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19716862A DE19716862A1 (de) 1997-04-22 1997-04-22 Sprachaktivitätserkennung

Publications (1)

Publication Number Publication Date
DE19716862A1 true DE19716862A1 (de) 1998-10-29

Family

ID=7827317

Family Applications (2)

Application Number Title Priority Date Filing Date
DE19716862A Ceased DE19716862A1 (de) 1997-04-22 1997-04-22 Sprachaktivitätserkennung
DE59809897T Expired - Lifetime DE59809897D1 (de) 1997-04-22 1998-02-19 Sprachaktivitätserkennung

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE59809897T Expired - Lifetime DE59809897D1 (de) 1997-04-22 1998-02-19 Sprachaktivitätserkennung

Country Status (4)

Country Link
US (1) US6374211B2 (de)
EP (1) EP0874352B1 (de)
AT (1) ATE252265T1 (de)
DE (2) DE19716862A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10026872A1 (de) * 2000-04-28 2001-10-31 Deutsche Telekom Ag Verfahren zur Berechnung einer Sprachaktivitätsentscheidung (Voice Activity Detector)
US7254532B2 (en) 2000-04-28 2007-08-07 Deutsche Telekom Ag Method for making a voice activity decision

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7505594B2 (en) * 2000-12-19 2009-03-17 Qualcomm Incorporated Discontinuous transmission (DTX) controller system and method
US6725191B2 (en) * 2001-07-19 2004-04-20 Vocaltec Communications Limited Method and apparatus for transmitting voice over internet
US8315865B2 (en) * 2004-05-04 2012-11-20 Hewlett-Packard Development Company, L.P. Method and apparatus for adaptive conversation detection employing minimal computation
US7574353B2 (en) * 2004-11-18 2009-08-11 Lsi Logic Corporation Transmit/receive data paths for voice-over-internet (VoIP) communication systems
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
KR100655953B1 (ko) * 2006-02-06 2006-12-11 한양대학교 산학협력단 웨이블릿 패킷 변환을 이용한 음성 처리 시스템 및 그 방법
US7680657B2 (en) * 2006-08-15 2010-03-16 Microsoft Corporation Auto segmentation based partitioning and clustering approach to robust endpointing
KR100789084B1 (ko) 2006-11-21 2007-12-26 한양대학교 산학협력단 웨이블릿 패킷 영역에서 비선형 구조의 과중 이득에 의한음질 개선 방법
US9361883B2 (en) * 2012-05-01 2016-06-07 Microsoft Technology Licensing, Llc Dictation with incremental recognition of speech
CN104019885A (zh) 2013-02-28 2014-09-03 杜比实验室特许公司 声场分析系统
WO2014151813A1 (en) 2013-03-15 2014-09-25 Dolby Laboratories Licensing Corporation Normalization of soundfield orientations based on auditory scene analysis
US10917611B2 (en) 2015-06-09 2021-02-09 Avaya Inc. Video adaptation in conferencing using power or view indications
CN110431625B (zh) * 2019-06-21 2023-06-23 深圳市汇顶科技股份有限公司 语音检测方法、语音检测装置、语音处理芯片以及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5388182A (en) * 1993-02-16 1995-02-07 Prometheus, Inc. Nonlinear method and apparatus for coding and decoding acoustic signals with data compression and noise suppression using cochlear filters, wavelet analysis, and irregular sampling reconstruction
EP0680034A1 (de) * 1994-04-28 1995-11-02 Oki Electric Industry Co., Ltd. Mobilfunkübertragungssystem mit einem Ton- oder Sprachaktivitätsdetektor und Faltungskodierung
EP0714088A1 (de) * 1994-11-22 1996-05-29 Alcatel Mobile Phones Sprachaktivitätsdetektion
DE19600404A1 (de) * 1995-01-31 1996-08-01 Motorola Inc Detektor und Verfahren zur Feststellung des Vorhandenseins von Sprache
DE19538852A1 (de) * 1995-06-30 1997-01-02 Deutsche Telekom Ag Verfahren und Anordnung zur Klassifizierung von Sprachsignalen

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5152007A (en) * 1991-04-23 1992-09-29 Motorola, Inc. Method and apparatus for detecting speech
GB2272554A (en) * 1992-11-13 1994-05-18 Creative Tech Ltd Recognizing speech by using wavelet transform and transient response therefrom
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
EP0751495B1 (de) * 1995-06-30 2001-10-10 Deutsche Telekom AG Verfahren und Anordnung zur Klassifizierung von Sprachsignalen
CA2188369C (en) * 1995-10-19 2005-01-11 Joachim Stegmann Method and an arrangement for classifying speech signals

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5388182A (en) * 1993-02-16 1995-02-07 Prometheus, Inc. Nonlinear method and apparatus for coding and decoding acoustic signals with data compression and noise suppression using cochlear filters, wavelet analysis, and irregular sampling reconstruction
EP0680034A1 (de) * 1994-04-28 1995-11-02 Oki Electric Industry Co., Ltd. Mobilfunkübertragungssystem mit einem Ton- oder Sprachaktivitätsdetektor und Faltungskodierung
EP0714088A1 (de) * 1994-11-22 1996-05-29 Alcatel Mobile Phones Sprachaktivitätsdetektion
DE19600404A1 (de) * 1995-01-31 1996-08-01 Motorola Inc Detektor und Verfahren zur Feststellung des Vorhandenseins von Sprache
DE19538852A1 (de) * 1995-06-30 1997-01-02 Deutsche Telekom Ag Verfahren und Anordnung zur Klassifizierung von Sprachsignalen

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10026872A1 (de) * 2000-04-28 2001-10-31 Deutsche Telekom Ag Verfahren zur Berechnung einer Sprachaktivitätsentscheidung (Voice Activity Detector)
US7254532B2 (en) 2000-04-28 2007-08-07 Deutsche Telekom Ag Method for making a voice activity decision
US7318025B2 (en) 2000-04-28 2008-01-08 Deutsche Telekom Ag Method for improving speech quality in speech transmission tasks

Also Published As

Publication number Publication date
ATE252265T1 (de) 2003-11-15
US6374211B2 (en) 2002-04-16
EP0874352A3 (de) 1999-06-02
EP0874352A2 (de) 1998-10-28
EP0874352B1 (de) 2003-10-15
US20010014854A1 (en) 2001-08-16
DE59809897D1 (de) 2003-11-20

Similar Documents

Publication Publication Date Title
EP0874352B1 (de) Sprachaktivitätserkennung
EP0690436B1 (de) Start-/Endpunkt-Detektion zur Worterkennung
DE69720087T2 (de) Verfahren und Vorrichtung zur Unterdrückung von Hintergrundmusik oder -geräuschen im Eingangssignal eines Spracherkenners
EP0076234B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE60308567T2 (de) Dekodierungsgerät, Kodierungsgerät, Dekodierungsverfahren und Kodierungsverfahren
DE3101851C2 (de) Vorrichtung zum Erkennen von Sprache
EP1386307B1 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
DE4320990A1 (de) Verfahren zur Redundanzreduktion
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
EP0076233B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE60200632T2 (de) Verfahren zur Sprachaktivitätsdetektion in einem Signal, und Sprachkodierer mit Vorrichtung zur Ausführung des Verfahrens
EP0815553B1 (de) Verfahren zur erkennung einer signalpause zwischen zwei mustern, welche in einem zeitvarianten mess-signal vorhanden sind
DE10234130B3 (de) Vorrichtung und Verfahren zum Erzeugen einer komplexen Spektraldarstellung eines zeitdiskreten Signals
EP0319078A2 (de) Verfahren zum Bestimmen von Anfangs- und Endpunkt isoliert gesprochener Wörter in einem Sprachsignal und Anordnung zur Durchführung des Verfahrens
EP1023777B1 (de) Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms
DE602004004572T2 (de) Verfolgen von Vokaltraktresonanzen unter Verwendung einer zielgeführten Einschränkung
EP0508547A2 (de) Schaltungsanordnung zur Spracherkennung
DE69922769T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE60018690T2 (de) Verfahren und Vorrichtung zur Stimmhaft-/Stimmlos-Entscheidung
EP1755110A2 (de) Verfahren und Vorrichtung zur adaptiven Reduktion von Rausch- und Hintergrundsignalen in einem sprachverarbeitenden System
EP0658878B1 (de) System zum Übertragen eines Sprachsignals
EP1279164A1 (de) Verfahren zur berechnung einer sprachaktivitätsentscheidung (voice activity detector)
DE60110541T2 (de) Verfahren zur Spracherkennung mit geräuschabhängiger Normalisierung der Varianz
WO2019007820A1 (de) Vorrichtung und verfahren zur bestimmung des zustands einer spindel einer werkzeugmaschine
EP1279168B1 (de) Verfahren zur verbesserung der sprachqualität bei sprachübertragungsaufgaben

Legal Events

Date Code Title Description
OM8 Search report available as to paragraph 43 lit. 1 sentence 1 patent law
8110 Request for examination paragraph 44
8131 Rejection