EP0874352A2 - Voice activity detection - Google Patents
Voice activity detection Download PDFInfo
- Publication number
- EP0874352A2 EP0874352A2 EP98102842A EP98102842A EP0874352A2 EP 0874352 A2 EP0874352 A2 EP 0874352A2 EP 98102842 A EP98102842 A EP 98102842A EP 98102842 A EP98102842 A EP 98102842A EP 0874352 A2 EP0874352 A2 EP 0874352A2
- Authority
- EP
- European Patent Office
- Prior art keywords
- speech
- output
- circuit
- switch
- background noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000694 effects Effects 0.000 title claims abstract description 35
- 238000001514 detection method Methods 0.000 title claims description 19
- 238000000034 method Methods 0.000 claims abstract description 24
- 230000009466 transformation Effects 0.000 claims abstract description 22
- 230000011218 segmentation Effects 0.000 claims abstract description 7
- 238000009499 grossing Methods 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Definitions
- the invention relates to a method and Circuit arrangement for automatic Voice activity recognition according to the generic term of Claims 1 and 5 respectively.
- Known methods for automatic Speech activity detection usually use Decision parameters based on time averages Based windows of constant length.
- the autocorrelation coefficients Called zero crossing rate or basic speech period, where these parameters have limited flexibility in the Have selection of time / frequency domain resolution, which is usually determined by the frame length of the associated Speech encoder / decoder is fixed.
- the well-known wavelet transformation calculates a breakdown into the time / frequency domain too low frequency but high time domain resolution at high frequencies and too low time - but high Frequency domain resolution at low frequencies leads.
- the invention is therefore based on the object Method and a circuit arrangement for Voice activity detection based on the wavelet transformation to create, it should be decided whether language for the time segment to be considered at all or speech sounds.
- the present procedure for automatic Speech activity detection for speech encoders / decoders for source-controlled reduction of the middle one Transmission rate is characterized in that after the Segmentation of the speech signal for each frame one Wavelet transformation is calculated from the one sentence Parameters are determined from which using fixed Thresholds are calculated using a set of binary decision variables that control a decision logic, the result After smoothing the time, a statement for each frame "Language available / no language available" returns. In that it is determined whether for the contemplating time segment there is language at all a source-controlled reduction of the middle one Transfer rate reached.
- the procedure decides whether to do so contemplating time segment there is language at all. This allows it to function control or in general as Preliminary stage for a variable-rate speech coder / decoder Bit rate can be used.
- 1 is a block diagram for voice activity recognition as a preliminary stage for one variable rate speech encoder / decoder shown on its input 1 receives the respective input language.
- the input language is both on lines 2 and 3 a switch 4 as well as the input of a Voice activity detection circuit or module 5 given.
- the switch 4 directs the input language depending on the output signal of the voice activity detection circuit 5, which is used to control the switch 4 is connected to it via a feedback line 6, either on line 7 or on line 8. Die Line 7 leads to a speech encoder 9 and the line 8 to a background noise encoder 10.
- the bit stream of the speech encoder 9 is connected via a line 11 to the given an input of a switch 13 and the bit stream the background noise encoder 10 via a line 12 to the other input of the switch 13.
- the switch 13 also receives the output signals via a line 14 the voice activity detection circuit 5, whereby the Switch 13 is controlled.
- the output of the switch 13 is connected to a transmission channel 16 via a line 15 connected, also on the input side to line 14 for the output signals of the voice activity detection module 5 is connected.
- the output of the transmission channel 16 reaches the entrance once via a line 17 a further switch 19 and via a line 18 the control input of the switch 19 and the control input a switch 26.
- the switch 19 is over Output lines 20 and 21 with a speech decoder 22 and with a background noise decoder 23 connected, the outputs on lines 24 and 25 on the Get input of the switch 26 already mentioned, the depending on the control signals on line 18 at the output 27 either signals for the decoded speech or the provides decoded background noise.
- FIG. 2 is a block diagram of an automatic Voice activity recognizer represented, which in turn on its input 1 receives the input language and to one Segmentation circuit 28 passes on.
- the exit of this Segmentation circuit 28 is connected via a line 29 transmit a wavelet transform circuit 30 which again via a line 31 with the input of a Processor 32 connected to calculate the energy quantities is.
- the output of processor 32 or one Computing circuit is connected in parallel with a via a line 33 Pause detector 34, with a circuit for calculating a Stationarity measure 35, with a first Background detector 36 and with a second Background detector 37 connected.
- the outputs of the mentioned circuits 34 to 37 are about corresponding Lines 38 to 41 with decision logic 42 connected, the output via a line 43 with a Smoothing circuit 44 connected for temporal smoothing whose output 45 is also the output of the speech activity recognizer is.
- the M 2 L-2 past and the M 2 L-2 future samples of the speech frame are also taken into account and the filter impulse responses - as far as possible - centered around the temporal origin. This increases the algorithmic delay of the method in principle by M 2 L-2 samples. If this is to be avoided, the input frame can alternatively be continued periodically or symmetrically.
- the frame energies E 1 ..., E L of the detail coefficients D 1 , ..., D L and the frame energy E L + 1 of the approximation coefficients A L are calculated by the processor 32.
- the total energy of the frame E tot can now be determined efficiently by summing all partial energies if the underlying wavelet basis is orthogonal. All energy values are represented in the logarithmic range.
- a binary decision variable f sil is set according to the following formula:
- the binary decision variable f stat is now set using the threshold T 2 taking into account the last K frames:
- the goal is to obtain a decision criterion that is insensitive to the current level of background noise.
- the properties of the DWT or wavelet transformation circuit 30 are used efficiently for this by considering the detail coefficients D Q1 in the coarse time interval N and the detail coefficients D Q2 in the finer time interval N / P.
- P denotes the number of subframes, Q1 a level for coarse and Q2 a level for fine time resolution, whereby the relationships Q1, Q2 ⁇ ⁇ 1, L ⁇ and Q1> Q2 must apply.
- an estimate B i , i ⁇ ⁇ Q1, Q2 ⁇ for the current level of the background noise is carried out for both stages calculated, the time constant ⁇ being limited by 0 ⁇ ⁇ 1.
- the P subframe energies ⁇ ( k ,1) Q2 , ..., ⁇ ( k , P ) Q2 determined from the detailed coefficients D 2 and, using the fixed thresholds T 3 and T 4, each determine a binary decision variable f Q1 for stage Q1 and f Q2 for stage Q2 according to the following two formulas:
- the temporal smoothing takes place in the circuit 44.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Time-Division Multiplex Systems (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Geophysics And Detection Of Objects (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
Description
Die Erfindung betrifft ein Verfahren und eine
Schaltungsanordnung zur automatischen
Sprachaktivitätserkennung nach dem Oberbegriff des
Patentanspruchs 1 bzw. 5.The invention relates to a method and
Circuit arrangement for automatic
Voice activity recognition according to the generic term of
Für den digitalen Mobilfunk oder Sprachspeichersysteme und eine große Anzahl anderer Anwendungen ist es vorteilhaft, eine diskontinuierliche Übertragung der Sprachcodierungsparameter vorzunehmen. Dadurch kann während der Sprachpausen oder Zeitintervallen, die im wesentlichen durch Hintergrundgeräusche dominiert werden, die Bitrate deutlich gesenkt werden. Vorteile ergeben sich daraus unter anderem durch einen niedrigen Energieverbrauch in mobilen Endgeräten, durch eine höhere mittlere Bitrate für simultane Dienste, wie Datenübertragung oder durch eine höhere Speicherkapazität auf Speicherchips. Das Ausmaß der Vorteile hängt vom Anteil der Pausen im Sprachsignal sowie von der Güte des automatischen Sprachaktivitätserkenners ab, der zur Detektion solcher Intervalle nötig ist. Zum einen ist eine niedrige Sprachaktivitätsrate vorteilhaft, zum anderen sollte aktive Sprache nicht abgeschnitten werden, um die Sprachqualität nicht zu beeinträchtigen. Dieses Problem ist das grundsätzliche Problem von automatischen Sprachaktivitätserkennern, besonders bei der Präsenz von Hintergrundgeräuschen hohen Pegels.For digital mobile radio or voice storage systems and a large number of other applications it is beneficial a discontinuous transfer of the Make speech coding parameters. This allows during of speech pauses or time intervals that are essentially be dominated by background noise, the bit rate be significantly reduced. Advantages arise from this among other things through low energy consumption in mobile End devices, due to a higher average bit rate for simultaneous services, such as data transmission or through a higher memory capacity on memory chips. The extent of Benefits depends on the percentage of breaks in the speech signal as well on the quality of the automatic voice activity recognizer that is necessary for the detection of such intervals. To the a low voice activity rate is beneficial, on the other hand, active language should not be cut off in order not to impair the speech quality. This problem is the fundamental problem of automatic voice activity detectors, especially at the Presence of high level background noise.
Bekannte Verfahren zur automatischen Sprachaktivitätserkennung benutzen in der Regel Entscheidungsparameter, die auf Zeitmittelwerten über Fenster konstanter Länge basieren. Als Beispiel hierfür werden die Autokorrelationskoeffizienten, Nulldurchgangsrate oder Sprachgrundperiode genannt, wobei diese Parameter nur eine beschränkte Flexibilität in der Auswahl der Zeit-/Frequenzbereichsauflösung besitzen, welche normalerweise durch die Rahmenlänge des zugehörigen Sprachcodierers/-decodierers fest vorgegeben ist. Im Gegensatz dazu berechnet die bekannte Wavelet-Transformation eine Zerlegung in den Zeit-/Frequenzbereich der zu niedriger Frequenz- aber hoher Zeitbereichsauflösung bei hohen Frequenzen und zu niedriger Zeit- aber hoher Frequenzbereichsauflösung bei niedrigen Frequenzen führt. Für die Analyse von Sprachsignalen sind diese Eigenschaften gut geeignet und deshalb zur Klassifizierung von aktiver Sprache in die Klassen stimmhaft, stimmlos und Übergänge bereits genutzt worden, wie in der Offenlegungsschrift DE 195 38 852 A1 "Verfahren und Anordnung zur Klassifizierung von Sprachsignalen", 1997, ausgeführt wird.Known methods for automatic Speech activity detection usually use Decision parameters based on time averages Based windows of constant length. As an example of this the autocorrelation coefficients, Called zero crossing rate or basic speech period, where these parameters have limited flexibility in the Have selection of time / frequency domain resolution, which is usually determined by the frame length of the associated Speech encoder / decoder is fixed. in the In contrast, the well-known wavelet transformation calculates a breakdown into the time / frequency domain too low frequency but high time domain resolution at high frequencies and too low time - but high Frequency domain resolution at low frequencies leads. These are properties for the analysis of speech signals well suited and therefore for the classification of active Speech in the classes voiced, unvoiced and transitions have already been used, as in the published patent application DE 195 38 852 A1 "Method and arrangement for Classification of Speech Signals ", 1997.
Der Erfindung liegt deshalb die Aufgabe zugrunde, ein Verfahren und eine Schaltungsanordnung zur Sprachaktivitätserkennung auf Basis der Wavelet-Transformation zu schaffen, wobei entschieden werden soll, ob für das zu betrachtende Zeitsegment überhaupt Sprache oder Sprachlaute vorliegen.The invention is therefore based on the object Method and a circuit arrangement for Voice activity detection based on the wavelet transformation to create, it should be decided whether language for the time segment to be considered at all or speech sounds.
Die erfindungsgemäße Lösung des Verfahrens ist im
Kennzeichen des Patentanspruchs 1 charakterisiert.The solution of the method according to the invention is in
Characteristic of
Weitere Ausgestaltungen des erfindungsgemäßen Verfahrens
ergeben sich aus den Patentansprüchen 2 bis 4.Further refinements of the method according to the invention
result from the
Die Lösung für die erfindungsgemäße Schaltungsanordnung ist
in den Kennzeichen des Patentanspruchs 5 charakterisiert.The solution for the circuit arrangement according to the invention is
characterized in the characterizing part of
Weitere Merkmale bzw. Ausgestaltungen der
Schaltungsanordnungen sind im Patentanspruch 6
charakterisiert. Further features or configurations of the
Circuit arrangements are in
Das vorliegende Verfahren zur automatischen Sprachaktivitätserkennung für Sprachcodierer/-decodierer zur quellengesteuerten Reduktion der mittleren Übertragungsrate zeichnet sich dadurch aus, daß nach der Segmentierung des Sprachsignals für jeden Rahmen eine Wavelet-Transformation berechnet wird, aus der ein Satz Parameter ermittelt wird, aus denen mit Hilfe fester Schwellen ein Satz binärer Entscheidungsvariablen berechnet wird, die eine Entscheidungslogik steuern, deren Resultat nach zeitlicher Glättung für jeden Rahmen eine Aussage "Sprache vorhanden / keine Sprache vorhanden" liefert. Dadurch, daß hiermit festgestellt wird, ob für das zu betrachtende Zeitsegment überhaupt Sprache vorliegt, wird eine quellengesteuerte Reduktion der mittleren Übertragungsrate erreicht.The present procedure for automatic Speech activity detection for speech encoders / decoders for source-controlled reduction of the middle one Transmission rate is characterized in that after the Segmentation of the speech signal for each frame one Wavelet transformation is calculated from the one sentence Parameters are determined from which using fixed Thresholds are calculated using a set of binary decision variables that control a decision logic, the result After smoothing the time, a statement for each frame "Language available / no language available" returns. In that it is determined whether for the contemplating time segment there is language at all a source-controlled reduction of the middle one Transfer rate reached.
Weitere Vorteile des Verfahrens zur Sprachaktivitätserkennung sowie der entsprechenden Schaltungsanordnung werden anhand von Ausführungsbeispielen, die im folgenden näher beschrieben werden, aufgezeigt.Further advantages of the method for voice activity detection and the corresponding circuit arrangement are based on exemplary embodiments, the following are described in more detail.
In der Beschreibung, in den Patentansprüchen, in der Zusammenfassung und in der Zeichnung werden die in der hinten angeführten Liste der Bezugszeichen verwendeten Begriffe und Bezugszeichen verwendet.In the description, in the claims, in the Summary and in the drawing are those in the list of reference numerals given below Terms and reference symbols used.
Die Erfindung wird nun anhand von Ausführungsbeispielen, die in den Zeichnungen dargestellt sind, beschrieben.The invention will now be described on the basis of exemplary embodiments, shown in the drawings.
In der Zeichnung bedeuten:
- Fig. 1
- ein Blockschaltbild für die Sprachaktivitätserkennung als Vorstufe für einen variabelratigen Sprachcodierer-/decodierer und
- Fig. 2
- ein Blockschaltbild eines automatischen Sprachaktivitätserkenners.
- Fig. 1
- a block diagram for voice activity detection as a preliminary stage for a variable-rate speech encoder / decoder and
- Fig. 2
- a block diagram of an automatic voice activity recognizer.
Durch das Verfahren wird entschieden, ob für das zu
betrachtende Zeitsegment überhaupt Sprache vorliegt.
Dadurch kann es zur Funktionssteuerung oder allgemein als
Vorstufe für einen Sprachcodierer-/decodierer mit variabler
Bitrate verwendet werden. In Fig. 1 ist ein Blockschaltbild
für die Sprachaktivitätserkennung als Vorstufe für einen
variabelratigen Sprachcodierer-/decodierer gezeigt, der auf
seinem Eingang 1 die jeweilige Eingangssprache empfängt.
Über Leitungen 2 und 3 wird die Eingangssprache sowohl auf
einen Umschalter 4 als auch auf den Eingang einer
Sprachaktivitätserkennungsschaltung bzw. ein -modul 5
gegeben. Der Umschalter 4 leitet die Eingangssprache
abhängig vom Ausgangssignal der Sprachaktivitätserkennungsschaltung
5, die zur Steuerung des Umschalters 4
über eine Rückmeldeleitung 6 mit ihm verbunden ist,
entweder auf die Leitung 7 oder auf die Leitung 8. Die
Leitung 7 führt auf einen Sprachcodierer 9 und die Leitung
8 auf einen Hintergrundgeräuschcodierer 10. Der Bitstrom
des Sprachcodierers 9 wird über eine Leitung 11 auf den
einen Eingang eines Umschalters 13 gegeben und der Bitstrom
des Hintergrundgeräuschcodierers 10 über eine Leitung 12
auf den anderen Eingang des Umschalters 13. Der Umschalter
13 empfängt über eine Leitung 14 auch die Ausgangssignale
der Sprachaktivitätserkennungsschaltung 5, wodurch der
Umschalter 13 gesteuert wird. Der Ausgang des Umschalters
13 ist über eine Leitung 15 mit einem Übertragungskanal 16
verbunden, der eingangsseitig auch noch mit der Leitung 14
für die Ausgangssignale des Sprachaktivitätserkennungsmoduls
5 verbunden ist. Der Ausgang des Übertragungskanals
16 gelangt einmal über eine Leitung 17 auf den Eingang
eines weiteren Umschalters 19 und über eine Leitung 18 auf
den Steuereingang des Umschalters 19 und den Steuereingang
eines Umschalters 26. Der Umschalter 19 ist über
Ausgangsleitungen 20 und 21 mit einem Sprachdekodierer 22
und mit einem Dekodierer für Hintergrundgeräusche 23
verbunden, deren Ausgänge über Leitungen 24 bzw. 25 auf den
Eingang des bereits genannten Umschalters 26 gelangen, der
in Abhängigkeit der Steuersignale auf Leitung 18 am Ausgang
27 entweder Signale für die decodierte Sprache oder die
decodierten Hintergrundgeräusche bereitstellt.The procedure decides whether to do so
contemplating time segment there is language at all.
This allows it to function control or in general as
Preliminary stage for a variable-rate speech coder / decoder
Bit rate can be used. 1 is a block diagram
for voice activity recognition as a preliminary stage for one
variable rate speech encoder / decoder shown on
its
In Fig. 2 ist ein Blockschaltbild eines automatischen
Sprachaktivitätserkenners dargestellt, der wiederum auf
seinem Eingang 1 die Eingangssprache empfängt und an eine
Segmentierungsschaltung 28 weiterleitet. Der Ausgang dieser
Segmentierungsschaltung 28 wird über eine Leitung 29 an
eine Wavelet-Transformationsschaltung 30 übertragen, die
wiederum über eine Leitung 31 mit dem Eingang eines
Prozessors 32 zur Berechnung der Energiegrößen verbunden
ist. Der Ausgang des Prozessors 32 bzw. einer
Rechenschaltung ist über eine Leitung 33 parallel mit einem
Pausendetektor 34, mit einer Schaltung zur Berechnung eines
Stationaritätsmaßes 35, mit einem ersten
Hintergrunddetektor 36 und mit einem zweiten
Hintergrunddetektor 37 verbunden. Die Ausgänge der
genannten Schaltungen 34 bis 37 sind über entsprechende
Leitungen 38 bis 41 mit einer Entscheidungslogik 42
verbunden, deren Ausgang über eine Leitung 43 mit einer
Glättungsschaltung 44 zur zeitlichen Glättung verbunden
ist, deren Ausgang 45 auch Ausgang des Sprachaktivitätserkenners
ist.2 is a block diagram of an automatic
Voice activity recognizer represented, which in turn on
its
Anhand des Blockschaltbildes des automatischen
Sprachaktivitätserkenners nach Fig. 2 wird nun das
Verfahren zur automatischen Sprachaktivitätserkennung näher
beschrieben. Nach der Segmentierung des Eingangssignals in
der Segmentierungsschaltung 28 wird für jedes Segment die
Wavelet-Transformation in der Wavelet-Transformationsschaltung
30 berechnet. Im Anschluß daran wird ein Satz von
Energieparametern im Prozessor 32 aus den Transformationskoeffizienten
ermittelt und mit festen Schwellwerten
verglichen. Dadurch entstehen binäre Entscheidungsvariablen,
mit denen die Entscheidungslogik 42 gesteuert
wird, die ein vorläufiges Resultat für jeden Rahmen
ausgibt. Diese vorläufige Entscheidung wird zum Abschluß
noch mittels zeitlicher Glättung in der Schaltung 44
nachverarbeitet, wodurch das endgültige Resultat "Sprache
oder keine Sprache" am Ausgang 45 für den aktuellen Rahmen
zur Verfügung steht. Im nachfolgenden werden nun die
einzelnen Verarbeitungsschaltungen bzw. -blöcke des
Blockdiagramms nach Fig. 2 näher beschrieben. Die Wavelet-Transformationsschaltung
30 führt folgende Operationen aus:
Die Eingangssprache wird in Rahmen der Länge N Abtastwerte
eingeteilt, wobei N an ein bestimmtes Sprachcodierverfahren
angepaßt werden kann. Für jeden Rahmen wird die diskrete
Wavelet-Transformation berechnet. Für viele Basisfunktionen
der Wavelet-Transformation kann eine Filterbank mit jeweils
einem Hochpaßfilter oder einem Tiefpaßfilter abgeleitet
werden, mit denen die Transformation rekursiv durchgeführt
werden kann. Auf die Klassen der Daubechies Wavelets und
der Spline Wavelets wird hingewiesen, die zu einer
besonders effizienten Implementierung der Transformation
mittels Filter kurzer Länge führen. Im nachfolgenden werden
zwei Verfahren beschrieben, die sich zur Berechnung der
Transformation eignen.
Um Randeffekte aufgrund der Filterlänge M zu vermeiden,
werden die M 2L-2 vergangenen sowie die M 2L-2 zukünftigen
Abtastwerte des Sprachrahmens ebenfalls berücksichtigt und
die Filter-Impulsantworten - soweit wie möglich - um den
zeitlichen Ursprung zentriert. Dadurch erhöht sich die
algorithmische Verzögerung des Verfahrens prinzipiell um
M 2L-2 Abtastwerte. Soll dies vermieden werden, so kann der
Eingangsrahmen alternativ auch periodisch oder symmetrisch
fortgesetzt werden.In order to avoid edge effects due to the filter length M, the
Zunächst werden die Rahmenenergien E1...,EL der
Detailkoeffizienten D 1,...,D L und die Rahmenenergie EL+1 der
Approximationskoeffizienten A L vom Prozessor 32 berechnet. First, the frame energies E 1 ..., E L of the detail coefficients D 1 , ..., D L and the frame energy E L + 1 of the approximation coefficients A L are calculated by the
Die Gesamtenergie des Rahmens Etot kann man nun effizient durch Summation aller partieller Energien ermitteln, wenn die zugrundeliegende Wavelet-Basis orthogonal ist. Alle Energiewerte werden im logarithmischen Bereich repräsentiert.The total energy of the frame E tot can now be determined efficiently by summing all partial energies if the underlying wavelet basis is orthogonal. All energy values are represented in the logarithmic range.
Für die Pausendetektion in der Schaltung 34 wird die
Rahmenenergie Etot mit einer festen Schwelle T1 verglichen,
um Rahmen mit sehr niedriger Energie zu erkennen. Dazu wird
eine binäre Entscheidungsvariable fsil gemäß der folgenden
Formel gesetzt:
For the pause detection in the
Um bei der Detektion von stationären Rahmen ein Maß für
stationäre oder instationäre Rahmen zu erhalten, wird für
jeden Rahmen k das Differenzmaß
Bei der Detektion von Hintergrundrauschen in den
Schaltungen 36 und 37 ist das Ziel, ein
Entscheidungskriterium zu erhalten, daS unempfindlich
gegenüber dem momentanen Pegel des Hintergrundgeräusches
ist. Die Eigenschaften der DWT oder Wavelet-Transformationsschaltung
30 werden hierzu effizient
ausgenutzt, indem die Detailkoeffizienten D Q1 im groben
Zeitintervall N und die Detailkoeffizienten D Q2 im feineren
Zeitintervall N/P betrachtet werden. Dabei bezeichnen P die
Anzahl der Subrahmen, Q1 eine Stufe für grobe und Q2 eine
Stufe für feine Zeitauflösung, wobei die Beziehungen
Q1,Q2∈{1,L} sowie Q1>Q2 gelten müssen. Vorab wird für beide
Stufen ein Schätzwert Bi, i∈{Q1,Q2}, für den momentanen
Pegel des Hintergrundgeräusches durch
berechnet, wobei die Zeitkonstante α durch 0<α<1 begrenzt
ist. Danach werden die P Subrahmenenergien
In der Entscheidungslogik 42 wird unter Verwendung der
Gleichungen (1), (3), (5) und (6) das vorläufige Resultat
vad(pre) des automatischen Sprachaktivitätserkenners durch
die logische Verknüpfung
Es können auch weitere Stufen Q3, Q4,..., etc. definiert werden, für die eine Detektion des Hintergrundrauschens in gleicher Weise vorgenommen werden kann. Es sind dann weitere binäre Entscheidungsparamter fQ3, fQ4,... zu definieren, die ebenso in Gleichung (7) zu berücksichtigen sind.Further stages Q3, Q4, ..., etc. can also be defined, for which background noise detection can be carried out in the same way. Further binary decision parameters f Q3 , f Q4 , ... are then to be defined, which are also to be taken into account in equation (7).
Die zeitliche Glättung erfolgt in der Schaltung 44. Um die
Langzeit-Stationarität von Sprache in Betracht zu ziehen,
wird die vorläufige Entscheidung der VAD in einer
nachverarbeitenden Stufe noch zeitlich geglättet.
Übersteigt die Anzahl der letzten zusammenhängend als aktiv
gekennzeichneten Rahmen den Wert CB, so werden, solange
vad(pre)=0, noch maximal CH aktive Rahmen angehängt. Damit
liegt die endgültige Entscheidung vad∈{0,1} des
Sprachaktivitätserkenners fest. The temporal smoothing takes place in the
- 11
- Eingangentrance
- 2,32.3
- Leitungencables
- 44th
- Umschalterswitch
- 55
- Sprachaktivitätserkennungsmodul oder -schaltungVoice activity detection module or circuit
- 66
- RückmeldeleitungFeedback line
- 7,87.8
- Leitungen bzw. Ausgänge des Umschalters 4Lines or outputs of the switch 4
- 99
- SprachcodiererSpeech coder
- 1010th
- HintergrundgeräuschcodiererBackground noise encoder
- 11,1211.12
- Leitungencables
- 1313
- Umschalterswitch
- 14,1514.15
- Leitungencables
- 1616
- ÜbertragungskanalTransmission channel
- 17,1817.18
- Leitungencables
- 1919th
- Umschalterswitch
- 20,2120.21
- Leitungencables
- 2222
- SprachdecodiererSpeech decoder
- 2323
- HintergrundgeräuschdecodiererBackground noise decoder
- 24,2524.25
- Leitungencables
- 2626
- Umschalterswitch
- 2727
- Ausgangexit
- 2828
- SegmentiererSegmenter
- 29,31,3329,31,33
- Leitungencables
- 3030th
-
Wavelet-Transformationsschaltung
32 Prozessor
Wavelet transform circuit 32 processor - 3434
- PhasendetektorPhase detector
- 3535
- Schaltung zur Ermittlung für das StationaritätsmaßCircuit for determination for the Stationarity measure
- 36,3736.37
- HintergrunddetektorBackground detector
- 38 - 4138-41
- Leitungencables
- 4242
- EntscheidungslogikDecision logic
- 4343
- Leitungmanagement
- 4444
- GlättungsschaltungSmoothing circuit
- 4545
- Ausgangexit
Claims (6)
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19716862 | 1997-04-22 | ||
DE19716862A DE19716862A1 (en) | 1997-04-22 | 1997-04-22 | Voice activity detection |
Publications (3)
Publication Number | Publication Date |
---|---|
EP0874352A2 true EP0874352A2 (en) | 1998-10-28 |
EP0874352A3 EP0874352A3 (en) | 1999-06-02 |
EP0874352B1 EP0874352B1 (en) | 2003-10-15 |
Family
ID=7827317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP98102842A Expired - Lifetime EP0874352B1 (en) | 1997-04-22 | 1998-02-19 | Voice activity detection |
Country Status (4)
Country | Link |
---|---|
US (1) | US6374211B2 (en) |
EP (1) | EP0874352B1 (en) |
AT (1) | ATE252265T1 (en) |
DE (2) | DE19716862A1 (en) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10026872A1 (en) * | 2000-04-28 | 2001-10-31 | Deutsche Telekom Ag | Procedure for calculating a voice activity decision (Voice Activity Detector) |
WO2001084536A1 (en) | 2000-04-28 | 2001-11-08 | Deutsche Telekom Ag | Method for detecting a voice activity decision (voice activity detector) |
US7505594B2 (en) * | 2000-12-19 | 2009-03-17 | Qualcomm Incorporated | Discontinuous transmission (DTX) controller system and method |
US6725191B2 (en) * | 2001-07-19 | 2004-04-20 | Vocaltec Communications Limited | Method and apparatus for transmitting voice over internet |
US8315865B2 (en) * | 2004-05-04 | 2012-11-20 | Hewlett-Packard Development Company, L.P. | Method and apparatus for adaptive conversation detection employing minimal computation |
US7574353B2 (en) * | 2004-11-18 | 2009-08-11 | Lsi Logic Corporation | Transmit/receive data paths for voice-over-internet (VoIP) communication systems |
US7983922B2 (en) * | 2005-04-15 | 2011-07-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing |
KR100655953B1 (en) * | 2006-02-06 | 2006-12-11 | 한양대학교 산학협력단 | Speech processing system and method using wavelet packet transform |
US7680657B2 (en) * | 2006-08-15 | 2010-03-16 | Microsoft Corporation | Auto segmentation based partitioning and clustering approach to robust endpointing |
KR100789084B1 (en) | 2006-11-21 | 2007-12-26 | 한양대학교 산학협력단 | Speech enhancement method by overweighting gain with nonlinear structure in wavelet packet transform |
US9361883B2 (en) * | 2012-05-01 | 2016-06-07 | Microsoft Technology Licensing, Llc | Dictation with incremental recognition of speech |
CN104019885A (en) | 2013-02-28 | 2014-09-03 | 杜比实验室特许公司 | Sound field analysis system |
EP3515055A1 (en) | 2013-03-15 | 2019-07-24 | Dolby Laboratories Licensing Corp. | Normalization of soundfield orientations based on auditory scene analysis |
US10917611B2 (en) | 2015-06-09 | 2021-02-09 | Avaya Inc. | Video adaptation in conferencing using power or view indications |
EP3800640A4 (en) * | 2019-06-21 | 2021-09-29 | Shenzhen Goodix Technology Co., Ltd. | Voice detection method, voice detection device, voice processing chip and electronic apparatus |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5459814A (en) * | 1993-03-26 | 1995-10-17 | Hughes Aircraft Company | Voice activity detector for speech signals in variable background noise |
EP0751495A2 (en) * | 1995-06-30 | 1997-01-02 | Deutsche Telekom AG | Method and device for coding speech |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5152007A (en) * | 1991-04-23 | 1992-09-29 | Motorola, Inc. | Method and apparatus for detecting speech |
GB2272554A (en) * | 1992-11-13 | 1994-05-18 | Creative Tech Ltd | Recognizing speech by using wavelet transform and transient response therefrom |
US5388182A (en) * | 1993-02-16 | 1995-02-07 | Prometheus, Inc. | Nonlinear method and apparatus for coding and decoding acoustic signals with data compression and noise suppression using cochlear filters, wavelet analysis, and irregular sampling reconstruction |
JP3090842B2 (en) * | 1994-04-28 | 2000-09-25 | 沖電気工業株式会社 | Transmitter adapted to Viterbi decoding method |
FR2727236B1 (en) * | 1994-11-22 | 1996-12-27 | Alcatel Mobile Comm France | DETECTION OF VOICE ACTIVITY |
US5822726A (en) * | 1995-01-31 | 1998-10-13 | Motorola, Inc. | Speech presence detector based on sparse time-random signal samples |
DE19538852A1 (en) * | 1995-06-30 | 1997-01-02 | Deutsche Telekom Ag | Method and arrangement for classifying speech signals |
CA2188369C (en) * | 1995-10-19 | 2005-01-11 | Joachim Stegmann | Method and an arrangement for classifying speech signals |
-
1997
- 1997-04-22 DE DE19716862A patent/DE19716862A1/en not_active Ceased
-
1998
- 1998-02-19 DE DE59809897T patent/DE59809897D1/en not_active Expired - Lifetime
- 1998-02-19 EP EP98102842A patent/EP0874352B1/en not_active Expired - Lifetime
- 1998-02-19 AT AT98102842T patent/ATE252265T1/en active
- 1998-04-22 US US09/064,248 patent/US6374211B2/en not_active Expired - Lifetime
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5459814A (en) * | 1993-03-26 | 1995-10-17 | Hughes Aircraft Company | Voice activity detector for speech signals in variable background noise |
EP0751495A2 (en) * | 1995-06-30 | 1997-01-02 | Deutsche Telekom AG | Method and device for coding speech |
Non-Patent Citations (3)
Title |
---|
"Digital cellular telecommunications system; Discontinuous Transmission (DTX) for Enhanced Full Rate (EFR) speech traffic channels (GSM 06.81)" EUROPEAN TELECOMMUNICATION STANDARD, FINAL DRAFT PRETS 300 729,November 1996, XP002098616 European Telecommunications Standards Institute (ETSI) * |
BENYASSINE A ET AL: "ITU-T RECOMMENDATION G.729 ANNEX B: A SILENCE COMPRESSION SCHEME FOR USE WITH G.729 OPTIMIZED FOR V.70 DIGITAL SIMULTANEOUS VOICE AND DATA APPLICATIONS" IEEE COMMUNICATIONS MAGAZINE, Bd. 35, Nr. 9, September 1997, Seiten 64-73, XP000704425 * |
STEGMANN J ET AL: "ROBUST VOICE-ACTIVITY DETECTION BASED ON THE WAVELET TRANSFORM" PROCEEDINGS OF THE IEEE WORKSHOP ON SPEECH CODING FOR TELECOMMUNICATIONS, 7. September 1997, Seiten 99-100, XP002073237 * |
Also Published As
Publication number | Publication date |
---|---|
ATE252265T1 (en) | 2003-11-15 |
US6374211B2 (en) | 2002-04-16 |
EP0874352B1 (en) | 2003-10-15 |
DE19716862A1 (en) | 1998-10-29 |
DE59809897D1 (en) | 2003-11-20 |
US20010014854A1 (en) | 2001-08-16 |
EP0874352A3 (en) | 1999-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0874352B1 (en) | Voice activity detection | |
DE69412913T2 (en) | Method and device for digital speech coding with speech signal height estimation and classification in digital speech coders | |
DE69127961T2 (en) | Speech recognition method | |
DE69926851T2 (en) | Method and apparatus for voice activity detection | |
EP0690436B1 (en) | Detection of the start/end of words for word recognition | |
DE69326044T2 (en) | Method of recognizing speech signals | |
DE69329511T2 (en) | Method and device for distinguishing between voiced and unvoiced sounds | |
EP1386307B2 (en) | Method and device for determining a quality measure for an audio signal | |
DE3101851C2 (en) | Device for recognizing speech | |
DE69918635T2 (en) | Apparatus and method for speech processing | |
DE102004023824B4 (en) | Apparatus and method for evaluating a quality class of an object to be tested | |
DE10234130B3 (en) | Device and method for generating a complex spectral representation of a discrete-time signal | |
DE69105154T2 (en) | Speech signal processing device. | |
DE69127134T2 (en) | Speech encoder | |
DE69618408T2 (en) | Method and device for speech coding | |
DE68907098T2 (en) | Differential encoder with auto-adaptive predictor filter and associated decoder. | |
DE69922769T2 (en) | Apparatus and method for speech processing | |
DE19581667C2 (en) | Speech recognition system and method for speech recognition | |
DE19500494A1 (en) | Speech signal symbol extraction method | |
DE60018690T2 (en) | Method and device for voiced / unvoiced decision | |
EP1755110A2 (en) | Method and device for adaptive reduction of noise signals and background signals in a speech processing system | |
DE69128990T2 (en) | Speech recognition device | |
DE60025333T2 (en) | LANGUAGE DETECTION WITH STOCHASTIC CONFIDENTIAL ASSESSMENT OF THE FREQUENCY SPECTRUM | |
EP0658878B1 (en) | System for transmitting a speech signal | |
DE60110541T2 (en) | Method for speech recognition with noise-dependent normalization of the variance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
AK | Designated contracting states |
Kind code of ref document: A2 Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE |
|
AX | Request for extension of the european patent |
Free format text: AL;LT;LV;MK;RO;SI |
|
PUAL | Search report despatched |
Free format text: ORIGINAL CODE: 0009013 |
|
AK | Designated contracting states |
Kind code of ref document: A3 Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE |
|
AX | Request for extension of the european patent |
Free format text: AL;LT;LV;MK;RO;SI |
|
17P | Request for examination filed |
Effective date: 19991202 |
|
AKX | Designation fees paid |
Free format text: AT BE CH DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE |
|
GRAH | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOS IGRA |
|
RIC1 | Information provided on ipc code assigned before grant |
Ipc: 7G 10L 11/02 A |
|
RIC1 | Information provided on ipc code assigned before grant |
Ipc: 7G 10L 11/02 A |
|
GRAS | Grant fee paid |
Free format text: ORIGINAL CODE: EPIDOSNIGR3 |
|
GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: IT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT;WARNING: LAPSES OF ITALIAN PATENTS WITH EFFECTIVE DATE BEFORE 2007 MAY HAVE OCCURRED AT ANY TIME BEFORE 2007. THE CORRECT EFFECTIVE DATE MAY BE DIFFERENT FROM THE ONE RECORDED. Effective date: 20031015 Ref country code: IE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20031015 Ref country code: FI Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20031015 Ref country code: ES Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20031015 |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: FG4D Free format text: NOT ENGLISH Ref country code: CH Ref legal event code: EP |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: FG4D Free format text: GERMAN |
|
REF | Corresponds to: |
Ref document number: 59809897 Country of ref document: DE Date of ref document: 20031120 Kind code of ref document: P |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: SE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20040115 Ref country code: GR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20040115 Ref country code: DK Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20040115 |
|
GBT | Gb: translation of ep patent filed (gb section 77(6)(a)/1977) |
Effective date: 20040123 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: LU Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20040219 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: MC Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20040228 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: LI Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20040229 Ref country code: CH Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20040229 |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: FD4D |
|
ET | Fr: translation filed | ||
PLBE | No opposition filed within time limit |
Free format text: ORIGINAL CODE: 0009261 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT |
|
26N | No opposition filed |
Effective date: 20040716 |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: PL |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: PT Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20040315 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 19 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: DE Payment date: 20160218 Year of fee payment: 19 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: GB Payment date: 20160222 Year of fee payment: 19 Ref country code: NL Payment date: 20160222 Year of fee payment: 19 Ref country code: BE Payment date: 20160222 Year of fee payment: 19 Ref country code: AT Payment date: 20160218 Year of fee payment: 19 Ref country code: FR Payment date: 20160222 Year of fee payment: 19 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: BE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20170228 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R119 Ref document number: 59809897 Country of ref document: DE |
|
REG | Reference to a national code |
Ref country code: NL Ref legal event code: MM Effective date: 20170301 |
|
REG | Reference to a national code |
Ref country code: AT Ref legal event code: MM01 Ref document number: 252265 Country of ref document: AT Kind code of ref document: T Effective date: 20170219 |
|
GBPC | Gb: european patent ceased through non-payment of renewal fee |
Effective date: 20170219 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: AT Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20170219 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: NL Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20170301 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: ST Effective date: 20171031 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: DE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20170901 Ref country code: FR Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20170228 |
|
REG | Reference to a national code |
Ref country code: BE Ref legal event code: MM Effective date: 20170228 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: GB Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20170219 |