DE602004002553T2 - Apparatus and method for voice activity detection - Google Patents

Apparatus and method for voice activity detection Download PDF

Info

Publication number
DE602004002553T2
DE602004002553T2 DE200460002553 DE602004002553T DE602004002553T2 DE 602004002553 T2 DE602004002553 T2 DE 602004002553T2 DE 200460002553 DE200460002553 DE 200460002553 DE 602004002553 T DE602004002553 T DE 602004002553T DE 602004002553 T2 DE602004002553 T2 DE 602004002553T2
Authority
DE
Germany
Prior art keywords
noise
input signal
decision
activity
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE200460002553
Other languages
German (de)
Other versions
DE602004002553D1 (en
Inventor
Inc. Nobuhiko NTT DoCoMo Naka
Inc. Tomoyuki NTT DoCoMo Ohya
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2003430973A external-priority patent/JP4490090B2/en
Priority claimed from JP2004020351A external-priority patent/JP4601970B2/en
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of DE602004002553D1 publication Critical patent/DE602004002553D1/en
Application granted granted Critical
Publication of DE602004002553T2 publication Critical patent/DE602004002553T2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Description

HINTERGRUND DER ERFINDUNGBACKGROUND THE INVENTION

Gebiet der ErfindungTerritory of invention

Die vorliegende Erfindung betrifft eine Stimmaktivität-Detektionsvorrichtung und ein Verfahren zum Erkennen von Stimmaktivität.The The present invention relates to a voice activity detection apparatus and a method for detecting voice activity.

Stand der TechnikState of technology

Diskontinuierliche Übertragung (Discontinuous Transmission – DTX) ist eine Technologie, die normalerweise für mobile Telefonie-Dienstleistungen und Telefonie-Dienstleistungen über das Internet genutzt wird, um die Übertragungsleistung zu verringern oder Übertragungsbandbreite einzusparen. Beim DTX-Betrieb kann eine inaktive Periode in einem Eingangssignal, wie Stille oder Hintergrundrauschen, im Vergleich zu einer aktiven Periode, die Sprache, Musik oder spezielle Töne enthält, bei einer niedrigeren Bitrate übertragen werden, oder die Übertragung kann während einer solchen inaktiven Periode gestoppt werden. Die Erkennung von Stimm- oder Sprachaktivität (Voice Activity Detection – VAD), bei der es sich um eine Schlüsselkomponente des DTX-Betriebes handelt, entscheidet, ob die gegenwärtige Periode des zu codierenden Eingangssignals ausschließlich inaktive Informationen enthält oder nicht. Discontinuous transmission (Discontinuous Transmission - DTX) is a technology normally used for mobile telephony services and telephony services over the internet is used to reduce the transmission power or transmission bandwidth save. In DTX mode, an inactive period can be in one Input signal, such as silence or background noise, in comparison to an active period containing speech, music or special sounds transmit a lower bit rate be, or the transfer can while be stopped in such an inactive period. The recognition of voice or voice activity (Voice Activity Detection - VAD), which is a key component of DTX operation decides whether the current period of the input signal to be encoded only inactive information contains or not.

Die US 6,453,285 B1 offenbart einen Übergang in einen inaktiven VAD-Reset-Zustand nach einer vorbestimmten Zeit in einem aktiven Zustand.The US 6,453,285 B1 discloses a transition to an inactive VAD reset state after a predetermined time in an active state.

Beispielsweise schätzt die in dem unten aufgeführten Nichtpatent-Dokument 1 beschriebene Stimmaktivität-Detektionsvorrichtung ein Hintergrundrauschen aus dem Eingangssignal mittels des vorbestimmten Rauschabschätzungsverfahrens und verwendet das Verhältnis der Eingangssignale zu dem geschätzten Hintergrundrauschen (Signal-Geräuschverhältnis oder Signal-Rauschverhältnis) für die Aktivitätserkennung.

  • [Nichtpatent-Dokument 1] 3GPP TS 26.094 V3.0.0 (http://www.3gpp.org/ftp/Specs/html-info/26094.htm)
For example, the voice activity detection apparatus described in the non-patent document 1 listed below estimates background noise from the input signal by the predetermined noise estimation method, and uses the ratio of the input signals to the estimated background noise (signal-to-noise ratio or signal-to-noise ratio) for the activity detection.
  • [Non-Patent Document 1] 3GPP TS 26.094 V3.0.0 (http://www.3gpp.org/ftp/Specs/html-info/26094.htm)

ZUSAMMENFASSUNG DER ERFINDUNGSUMMARY OF THE INVENTION

Jedoch ergibt sich bei der oben beschriebenen herkömmlichen Stimmaktivität-Detektionsvorrichtung das folgende Problem. Im Allgemeinen kann die Leistungsfähigkeit der Rauschabschätzung mit zunehmender Zeit abnehmen, wenn die Eigenschaften des Rauschsignals nicht stationär sind. Dabei tritt eine derartige Verschlechterung der Leistungsfähigkeit der Rauschabschätzung wahrscheinlich insbesondere dann auf, wenn die aktive Periode während einer längeren Zeit andauert, da das Eingangssignal nicht allein das Hintergrundrauschen enthält und es daher schwierig ist, die Eigenschaften des Rauschsignals während einer solchen Zeitperiode korrekt abzuschätzen. Bei der oben beschriebenen herkömmlichen Stimmaktivität-Detektionsvorrichtung führt die Aktivitätserkennung mit dem nicht angepassten geschätzten Hintergrundrauschen dazu, dass die Genauigkeit der Aktivitätserkennung mit fortschreitender Zeit abnimmt (insbesondere, wenn die aktive Periode für eine lange Zeit andauert). Im Ergebnis kann die oben beschriebene herkömmliche Stimmaktivität-Detektionsvorrichtung die aktive Periode mit zunehmender Zeit als inaktiv bewerten (insbesondere, wenn das Geräuschintervall über eine lange Zeit angedauert hat).however In the conventional voice activity detecting apparatus described above, the following problem. In general, the performance can the noise estimate decrease with increasing time, if the characteristics of the noise signal not stationary are. There occurs such a deterioration of performance the noise estimate probably especially if the active period during a longer Time lasts because the input signal is not just the background noise contains and therefore it is difficult to understand the characteristics of the noise signal while correctly estimate such a period of time. In the above described usual Voice activity detection device leads the activity detection with the unmatched estimated Background noise causes the accuracy of activity detection decreases as time progresses (especially if the active Period for a long time lasts). As a result, the above-described conventional Voice activity detection device evaluate the active period as inactive with increasing time (especially if the noise interval over one has lasted for a long time).

Ziel der vorliegenden Erfindung ist es daher, eine Stimmaktivität-Detektionsvorrichtung und ein Erkennungsverfahren für Stimmaktivität anzugeben, die in der Lage sind, eine Aktivitätsbewertung des Eingangssignals unabhängig von der vergangenen Zeit korrekt vorzunehmen.aim Therefore, it is the object of the present invention to provide a voice activity detecting device and a recognition method for vocal activity be able to provide an activity assessment of the input signal independently correct from the past time.

Erfindungsgemäß wird eine Stimmaktivität-Detektionsvorrichtung mit den Merkmalen des Patentanspruchs 1 und ein Verfahren zum Erkennen von Stimmaktivität mit den Merkmalen des Patentanspruchs 3 geschaffen. Eine bevorzugte Ausgestaltung ist in Patentanspruch 2 angegeben.According to the invention is a Voice activity detection device with the features of claim 1 and a method of recognition of voice activity created with the features of claim 3. A preferred Embodiment is specified in claim 2.

KURZE BESCHREIBUNG DER ZEICHNUNGENSHORT DESCRIPTION THE DRAWINGS

1 zeigt ein Konfigurationsdiagramm der Stimmaktivität-Detektionsvorrichtung gemäß der Ausgestaltung. 1 FIG. 12 is a configuration diagram of the voice activity detection apparatus according to the embodiment. FIG.

2 zeigt ein Ablaufdiagramm zur Darstellung des Betriebs der Stimmaktivität-Detektionsvorrichtung gemäß der Ausgestaltung. 2 FIG. 12 is a flowchart showing the operation of the voice activity detection apparatus according to the embodiment. FIG.

BESCHREIBUNG DER BEVORZUGTEN AUSGESTALTUNGENDESCRIPTION THE PREFERRED DESIGNS

Eine Stimmaktivität-Detektionsvorrichtung gemäß einer Ausgestaltung der vorliegenden Erfindung wird unter Bezugnahme auf die Zeichnungen erläutert.A Voice activity detection device according to a Embodiment of the present invention will be described with reference to the drawings explained.

Zunächst wird die Konfiguration der Stimmaktivität-Detektionsvorrichtung gemäß dieser Ausgestaltung erläutert. 1 ist ein Blockdiagramm der Stimmaktivität-Detektionsvorrichtung gemäß dieser Ausgestaltung.First, the configuration of the voice activity detecting apparatus according to this embodiment will be explained. 1 Fig. 10 is a block diagram of the voice activity detection apparatus according to this embodiment.

Eine Stimmaktivität-Detektionsvorrichtung 10 gemäß dieser Ausgestaltung ist physikalisch als ein Computersystem ausgebildet, das eine CPU (Zentrale Prozessoreinheit – Central Processing Unit), einen Speicher, Eingabeeinrichtungen, wie eine Maus und eine Tastatur, eine Anzeigeeinrichtung, wie einen Bildschirm, eine Speichereinrichtung, wie eine Festplatte, eine funkgestützte Kommunikationseinheit, die eine Datenkommunikation mit einer externen Einrichtung über Funk durchführt, und dergleichen aufweist. Wie in 1 gezeigt, ist die Stimmaktivität-Detektionsvorrichtung 10 funktional gesehen mit einer Autokorrelation-Berechnungseinheit 11, einer Verzögerung-Berechnungseinheit 12, einer Rausch-Entscheidungseinheit 13, einer Rausch-Abschätzungseinheit 14, einer Aktivität-Entscheidungseinheit 15 und einer Geräuschintervall-Entscheidungseinheit 16 (Zeitmessmittel) ausgestattet. Ein Stimmaktivität-Erkennungsmittel 17 ist aus der Autokorrelation-Berechnungseinheit 11, der Verzögerung-Berechnungseinheit 12, der Rausch-Entscheidungseinheit 13, der Rausch-Abschätzungseinheit 14 und der Aktivität-Entscheidungseinheit 15 gebildet. Nachfolgend wird jeder Bestandteil der Stimmaktivität-Detektionsvorrichtung 10 im Detail erläutert.A voice activity detection device 10 According to this embodiment, it is physically constituted as a computer system including a CPU (Central Processing Unit), a memory, input devices such as a mouse and a keyboard, a display device such as a screen, a storage device such as a hard disk, a radio A communication unit that performs data communication with an external device via radio, and the like. As in 1 shown is the voice activity detection device 10 functionally with an autocorrelation calculation unit 11 , a delay calculation unit 12 , a noise decision-making unit 13 , a noise estimation unit 14 , an activity decision-making unit 15 and a noise interval decision unit 16 (Time measuring means) equipped. A voice activity recognizer 17 is from the autocorrelation calculation unit 11 , the delay calculation unit 12 , the noise decision-making unit 13 , the noise estimation unit 14 and the activity decision unit 15 educated. Hereinafter, each component of the voice activity detection device will become 10 explained in detail.

Die Autokorrelation-Berechnungseinheit 11 berechnet Autokorrelationswerte des Eingangssignals. Speziell berechnet die Autokorrelation-Berechnungseinheit 11 einen Autokorrelationswert c(t) für die Verzögerung t eines Eingangssignals x(n) gemäß der folgenden Gleichung (1).The autocorrelation calculation unit 11 calculates autocorrelation values of the input signal. Specifically, the autocorrelation calculation unit calculates 11 an autocorrelation value c (t) for the delay t of an input signal x (n) according to the following equation (1).

Figure 00040001
Figure 00040001

Hierbei ist x(n) (n = 0, 1, ..., N) der n-te Wert, der durch Abtasten eines Eingangssignals nach jedem festgelegten Zeitintervall (zum Beispiel 1/8000 s) über eine festgelegte Zeit (zum Beispiel 20 ms) erhalten wird. Des Weiteren wird der Autokorrelationswert c(t) in Form von diskreten Werten bei jedem festgelegten Zeitintervall (zum Beispiel 1/8000 s) über eine festgelegte Zeit erhalten (zum Beispiel 18 ms).in this connection x (n) (n = 0, 1, ..., N) is the nth value obtained by sampling a Input signal after each specified time interval (for example 1/8000 s) a fixed time (for example 20 ms) is obtained. Furthermore the autocorrelation value c (t) will be in the form of discrete values at each specified time interval (for example 1/8000 s) over one fixed time (for example 18 ms).

Dabei ist es nicht immer notwendig, dass die Autokorrelation-Berechnungseinheit 11 den Autokorrelationswert in strikter Übereinstimmung mit der oben angegebenen Gleichung (1) berechnet. Beispielsweise kann die Autokorrelation- Berechnungseinheit 11 dazu ausgebildet sein, den Autokorrelationswert auf der Grundlage des wahrnehmungsmäßig gewichteten Eingangssignals zu berechnen, was in Sprachcodierern weitläufig eingesetzt wird.It is not always necessary that the autocorrelation calculation unit 11 calculated the autocorrelation value in strict accordance with equation (1) given above. For example, the autocorrelation calculation unit 11 be configured to calculate the autocorrelation value based on the perceptually weighted input signal, which is widely used in speech coders.

Die Verzögerung-Berechnungseinheit 12 berechnet eine Verzögerung, die dem maximalen Autokorrelationswert unter den Autokorrelationswerten entspricht, welche durch die Autokorrelation-Berechnungseinheit 11 berechnet wurden. Speziell sucht die Verzögerung-Berechnungseinheit 12 Autokorrelationswerte in einem vorbestimmten Intervall (beispielsweise im Falle von AMR für t = 18 bis 143) und berechnet eine Verzögerung, bei welcher der Autokorrelationswert einen Maximalwert annimmt.The delay calculation unit 12 calculates a delay corresponding to the maximum autocorrelation value among the autocorrelation values given by the autocorrelation calculation unit 11 were calculated. Specifically, the delay calculation unit searches 12 Autocorrelation values at a predetermined interval (for example, in the case of AMR for t = 18 to 143) and calculates a delay at which the autocorrelation value takes a maximum value.

Die Rausch-Entscheidungseinheit 13 entscheidet auf der Grundlage der durch die Verzögerung-Berechnungseinheit 12 berechneten Verzögerung, ob das Eingangssignal Rauschen ist oder nicht. Die Rausch-Entscheidungseinheit 13 entscheidet beispielsweise, ob das Eingangssignal Rauschen ist oder nicht, indem sie zeitliche Variationen t_max (t)(1 ≤ t ≤ T) der durch die Verzögerung-Berechnungseinheit 12 berechneten Verzögerung t_max verwendet, wobei t eine abhängige Variable ist, welche eine Zeit angibt. Insbesondere entscheidet die Rausch-Entscheidungseinheit 12, dass das Eingangssignal kein Rauschen ist, wenn die in Gleichung (2) angegebene Bedingung für eine vorbestimmte Zeitperiode erfüllt ist (qualitativ ausgedrückt, wenn die Veränderung der Verzögerung für die vorbestimmte Zeitperiode klein ist). Im Gegensatz dazu entscheidet die Rausch-Entscheidungseinheit 13, dass es sich bei dem Eingangssignal um Rauschen handelt, wenn die in Gleichung (2) angegebene Bedingung während der vorbestimmten Zeitperiode nicht erfüllt ist. |t_max(t) – t_max(t – 1)| ≤ d. (2) The noise decision unit 13 decides on the basis of the delay calculation unit 12 calculated delay, whether the input signal is noise or not. The noise decision unit 13 For example, it determines whether the input signal is noise or not by taking temporal variations t_max (t) (1≤t≤T) of the delay computation unit 12 calculated delay t_max, where t is a dependent variable indicating a time. In particular, the noise decision unit decides 12 in that the input signal is no noise when the condition given in equation (2) is satisfied for a predetermined period of time (in qualitative terms, when the variation of the delay for the predetermined period of time is small). In contrast, ent leaves the noise decision unit 13 in that the input signal is noise when the condition indicated in equation (2) is not satisfied during the predetermined time period. | t_max (t) - t_max (t - 1) | ≤ d. (2)

In Gleichung (2) bezeichnet d eine vorbestimmte Schwelle der Verzögerungsdifferenz. Die Rausch-Entscheidungseinheit 13 kann entscheiden, ob das Eingangssignal Rauschen ist oder nicht, indem sie ein von dem vorstehend beschriebenen Verfahren abweichendes Verfahren verwendet.In Equation (2), d denotes a predetermined threshold of the delay difference. The noise decision unit 13 can decide whether the input signal is noise or not by using a method different from the method described above.

Die Rausch-Abschätzungseinheit 14 schätzt ein Rauschen aus dem Eingangssignal ab. Speziell schätzt die Rausch-Abschätzungseinheit 14 beispielsweise ein Rauschen gemäß Gleichung (3) ab. noisem+1(n) = (1 – α)·noisem(n) + α·inputm–1(n) (3),wobei noisem(n) das geschätzte Rauschen, inputm(n) ein Eingangssignal, n das Frequenzband, m die Zeit (Rahmen) und α einen Koeffizienten bezeichnet. Der Ausdruck noisem(n) stellt das geschätzte Rauschen des n-ten Frequenzbandes zur Zeit (Rahmen) m dar. Die Rausch-Abschätzungseinheit 14 ändert den Koeffizienten α in Gleichung (3) in Übereinstimmung mit dem Ergebnis der Entscheidung der Rausch-Entscheidungseinheit 13. Wenn durch die Rausch-Entscheidungseinheit 13 entschieden wird, dass es sich bei dem Eingangssignal nicht um Rauschen handelt, setzt die Rausch-Abschätzungseinheit 21 den Koeffizienten α in Gleichung (3) auf Null (0) oder einen Wert α1 nahe Null, sodass keine Zunahme in der Leistung des geschätzten Rauschens bewirkt ist. Wenn andererseits durch die Rausch-Entscheidungseinheit 13 entschieden wird, dass es sich bei dem Eingangssignal um Rauschen handelt, setzt die Rausch-Abschätzungseinheit 21 den Koeffizienten α in der oben angegebenen Gleichung (3) auf Eins (1) oder einen Wert α2 (α2 > α1) nahe 1, um zu bewirken, dass das geschätzte Rauschen nahe dem Eingangssignal ist. Die Rausch-Abschätzungseinheit 21 kann dazu ausgebildet sein, ein Rauschen unter Verwendung eines anderen Verfahrens aus dem Eingangssignal abzuschätzen, indem ein anderes als das vorstehend genannte Verfahren verwendet wird.The noise estimation unit 14 estimates noise from the input signal. Specifically, the noise estimation unit estimates 14 For example, a noise according to equation (3) from. noise m + 1 (n) = (1 - α) · noise m (n) + α · input m-1 (n) (3), where noise m (n) denotes the estimated noise, input m (n) an input signal, n the frequency band, m the time (frame) and α a coefficient. The term noise m (n) represents the estimated noise of the n-th frequency band at the time (frame) m. The noise estimation unit 14 changes the coefficient α in equation (3) in accordance with the result of decision of the noise decision unit 13 , If through the noise decision unit 13 it is decided that the input signal is not noise, the noise estimation unit sets 21 the coefficient α in equation (3) to zero (0) or a value α1 near zero, so that no increase in the power of the estimated noise is effected. On the other hand, if through the noise decision unit 13 it is decided that the input signal is noise, the noise estimation unit sets 21 the coefficient α in the above equation (3) to one ( 1 ) or a value α2 (α2> α1) near 1 to make the estimated noise near the input signal. The noise estimation unit 21 may be configured to estimate noise from the input signal using another method using a method other than the above method.

Die Aktivität-Entscheidungseinheit 15 führt eine Aktivitätsentscheidung auf der Grundlage des Entscheidungsergebnisses durch die Rausch-Entscheidungseinheit 13, des Eingangssignals und des durch die Rausch-Abschätzungseinheit 14 geschätzten Rauschens durch. Speziell berechnet die Aktivität-Entscheidungseinheit 15 beispielsweise ein Signal-Rauschverhältnis aus dem durch die Rausch-Abschätzungseinheit 14 geschätzten Rauschen und dem Eingangssignal (genauer gesagt, berechnet einen integrierten Wert oder einen Durchschnittswert des Signal- Rauschverhältnisses in jedem Frequenzband). Die Aktivität-Entscheidungseinheit 15 vergleicht das berechnete Signal-Rauschverhältnis mit einem Schwellwert und entscheidet, dass das Eingangssignal aktiv ist, wenn das Signal-Rauschverhältnis größer als der Schwellwert ist, und entscheidet, dass das Eingangssignal inaktiv ist, wenn das Signal-Rauschverhältnis kleiner oder gleich dem Schwellwert ist. Der Schwellwert kann durch das Ergebnis der Entscheidung in der Rausch-Entscheidungseinheit 13 angepasst werden. Für den Fall, dass die Rausch-Entscheidungseinheit 13 entscheidet, dass es sich bei dem Eingangssignal nicht um Rauschen handelt, kann der Schwellwert auf einen kleineren Wert gesetzt werden als in dem Fall, dass die Rausch-Entscheidungseinheit 13 entscheidet, dass es sich bei dem Eingangssignal um Rauschen handelt. In dem Fall, dass die Rausch-Entscheidungseinheit 13 entscheidet, dass es sich bei dem Eingangssignal nicht um Rauschen handelt, nimmt die Möglichkeit zu, Signale mit kleinen Signal-Rauschverhältnissen (d.h. in dem Rauschen versteckte Signale), als aktive Signale zu erkennen. Die Aktivität-Entscheidungseinheit 13 kann über die Aktivität des Eingangssignals entscheiden, indem sie ein anderes als das vorstehend beschriebene Verfahren verwendet. Beispielsweise kann der oben genannte Schwellwert unabhängig von dem Ergebnis der Entscheidung durch die Rausch-Entscheidungseinheit 13 festgelegt sein, und die Aktivität-Entscheidungseinheit 15 kann über die Aktivität des Eingangssignals auf der Grundlage des Eingangssignals und des durch die Rausch-Abschätzungseinheit 14 geschätzten Rauschens entscheiden. Es ist auch möglich, dass die Aktivität-Entscheidungseinheit 15 entscheidet, ob das Eingangssignal aktiv ist oder nicht, indem sie zusätzliche Informationen des Eingangssignals verwendet (Leistung, Spektrum-Einhüllende, Anzahl von Nulldurchgängen oder dergleichen). Vorliegend bezeichnet der Ausdruck „inaktiv" das bedeutungslose Geräusch, wie Stille und Hintergrundrauschen, während „aktiv" ein Geräusch bezeichnet, welches menschliche Stimme, Musik oder Töne enthält.The activity decision unit 15 performs an activity decision based on the decision result by the noise decision unit 13 , the input signal and the noise estimation unit 14 estimated noise through. Specifically calculates the activity decision unit 15 For example, a signal-to-noise ratio from that provided by the noise estimation unit 14 estimated noise and the input signal (more precisely, calculates an integrated value or an average value of the signal-to-noise ratio in each frequency band). The activity decision unit 15 compares the calculated signal to noise ratio with a threshold and decides that the input signal is active when the signal to noise ratio is greater than the threshold and decides that the input signal is inactive when the signal to noise ratio is less than or equal to the threshold. The threshold can be determined by the result of the decision in the noise decision unit 13 be adjusted. In the event that the noise decision-making unit 13 If it is determined that the input signal is not noise, the threshold may be set to a smaller value than in the case where the noise decision unit 13 decides that the input signal is noise. In the case that the noise decision unit 13 decides that the input signal is not noise, it becomes possible to recognize signals with small signal-to-noise ratios (ie, signals hidden in the noise) as active signals. The activity decision unit 13 can decide on the activity of the input signal using a method other than that described above. For example, the above threshold may be independent of the result of the decision by the noise decision unit 13 be set, and the activity-decision unit 15 may be about the activity of the input signal based on the input signal and that provided by the noise estimation unit 14 estimated noise. It is also possible that the activity-decision unit 15 decides whether the input signal is active or not by using additional information of the input signal (power, spectrum envelope, number of zero crossings, or the like). As used herein, the term "inactive" refers to meaningless noise, such as silence and background noise, while "active" refers to a sound containing human voice, music or sounds.

Die Geräuschintervall-Erkennungseinheit 16 misst die zeitliche Dauer des aktiven Intervalls auf der Grundlage des Entscheidungsergebnisses der Aktivität-Entscheidungseinheit 15. Speziell misst die Geräuschintervall-Erkennungseinheit 16 die zeitliche Dauer des aktiven Intervalls, indem sie das Ergebnis der Aktivität- Entscheidungseinheit 15 direkt verwendet. Alternativ kann die Geräuschintervall-Erkennungseinheit 16 die zeitliche Dauer des aktiven Intervalls messen, indem sie eine Zeit misst, während der die Sprachcodierungseinheit (nicht gezeigt) ihre Sprachcodierung mit einer Codierrate durchführt, die gleich einem festen Schwellwert oder höher ist (im Falle von AMR beträgt eine Codierrate 4,75 kbps oder mehr). Wenn das Eingangssignal durch die Aktivität-Entscheidungseinheit 15 als aktiv bestimmt wurde, wird das Eingangssignal unter Verwendung der höheren Bitrate in der Sprachcodierungseinheit codiert.The noise interval detection unit 16 measures the time duration of the active interval based on the decision result of the activity decision unit 15 , Specifically, the noise interval detection unit measures 16 the temporal duration of the active interval, giving the result of the activity-decision unit 15 used directly. Alternatively, the noise interval detection unit 16 measure the time duration of the active interval by measuring a time during which the speech codec its uniting (not shown) performs its speech coding at a coding rate equal to a fixed threshold or higher (in the case of AMR, a coding rate is 4.75 kbps or more). When the input signal through the activity-decision unit 15 has been determined to be active, the input signal is encoded using the higher bit rate in the speech coding unit.

Die Rausch-Abschätzungseinheit 14 wechselt ein Rausch-Abschätzungsverfahren, sodass das Eingangssignal wahrscheinlich als aktiv bestimmt wird, wenn die zeitliche Dauer des aktiven Intervalls, welche durch die Geräuschintervall-Erkennungseinheit 16 gemessen wird, einer vorbestimmten Zeitperiode entspricht oder diese übersteigt. Speziell setzt die Geräusch-Abschätzungseinheit 14 das geschätzte Rauschen noisem(n) für die vorangehende Zeiteinheit (einen Rahmen zuvor) in Gleichung (3) auf den Anfangswert noise0(n), wenn die zeitliche Dauer des durch die Geräuschintervall-Erkennungseinheit 16 gemessenen aktiven Intervalls der vorbestimmten Zeitperiode entspricht oder diese übersteigt. Da der Anfangswert noise0(n) verglichen mit dem Eingangssignal des aktiven Intervalls auf einen hinreichend kleinen Wert gesetzt wurde, wird das geschätzte Rauschen klein, indem das geschätzte Rauschen noisem(n) bei der vorangehenden Zeiteinheit (einen Rahmen zuvor) in Gleichung (3) auf den Anfangswert noise0(n) gesetzt wird. Auf diese Weise wird das Eingangssignal durch die Aktivitäts-Entscheidungseinheit 15 wahrscheinlich als aktiv bewertet.The noise estimation unit 14 A noise estimation method changes so that the input signal is likely to be determined as active when the time duration of the active interval provided by the noise interval detection unit 16 is measured, equal to or exceeds a predetermined period of time. Specifically sets the noise-estimating unit 14 the estimated noise noise m (n) for the previous unit time (one frame before) in equation (3) to the initial value noise 0 (n) when the time duration of the noise interval detection unit 16 measured active interval of the predetermined period of time or exceeds. Since the initial value noise 0 (n) has been set to a sufficiently small value as compared with the input signal of the active interval, the estimated noise becomes small by dividing the estimated noise noise m (n) at the preceding unit time (one frame before) into equation (e). 3) is set to the initial value noise 0 (n). In this way, the input signal is given by the activity decision unit 15 probably rated as active.

Nachfolgend wird der Betrieb der Stimmaktivität-Detektionsvorrichtung gemäß dieser Ausgestaltung erläutert, und das Verfahren zum Erkennen oder Detektieren von Stimmaktivität gemäß dieser Ausgestaltung wird ebenfalls erläutert. 2 ist ein Ablaufdiagramm zur Darstellung des Betriebs der Stimmaktivität-Detektionsvorrichtung gemäß dieser Ausgestaltung.Hereinafter, the operation of the voice activity detection apparatus according to this embodiment will be explained, and the method for detecting or detecting voice activity according to this embodiment will also be explained. 2 Fig. 10 is a flowchart for illustrating the operation of the voice activity detection apparatus according to this embodiment.

Bei Eingabe des Eingangssignals in die Stimmaktivität-Detektionsvorrichtung 10 werden zunächst die Autokorrelationswerte des Eingangssignals durch die Autokorrelation-Berechnungseinheit 11 berechnet (Schritt S11). Speziell wird jeder Autokorrelationswert c(t) für die Verzögerung t des Eingangssignals x(n) mittels Gleichung (1) berechnet.Upon input of the input signal to the voice activity detection device 10 First, the autocorrelation values of the input signal are determined by the autocorrelation calculation unit 11 calculated (step S11). Specifically, each autocorrelation value c (t) for the delay t of the input signal x (n) is calculated by Equation (1).

Nachdem die Autokorrelationswerte des Eingangssignals durch die Autokorrelation-Berechnungseinheit 11 berechnet wurden, wird durch die Verzögerungs-Berechnungseinheit 12 eine Verzögerung berechnet, die dem maximalen Autokorrelationswert unter den Autokorrelationswerten entspricht, die über dem vorbestimmten Verzögerungsintervall durch die Autokorrelation-Berechnungseinheit 11 berechnet wurden (Schritt S12).After the autocorrelation values of the input signal by the autocorrelation calculation unit 11 calculated by the delay calculation unit 12 calculates a delay corresponding to the maximum autocorrelation value among the autocorrelation values that exceeds the predetermined delay interval by the autocorrelation calculation unit 11 were calculated (step S12).

Sobald die Verzögerung durch die Verzögerung-Berechnungseinheit 12 erhalten wurde, wird durch die Rausch-Entscheidungseinheit 13 basierend auf der durch die Verzögerung-Berechnungseinheit 12 berechneten Verzögerung bestimmt, ob es sich bei einem Eingangssignal um Rauschen handelt oder nicht (Schritt S13). Speziell entscheidet die Rausch-Entscheidungseinheit 13, dass es sich bei dem Eingangssignal nicht um Rauschen handelt, wenn die in Gleichung (2) angegebene Bedingung für eine vorbestimmte Zeitperiode erfüllt ist. Im Gegensatz dazu entscheidet die Rausch-Entscheidungseinheit 13, dass es sich bei dem Eingangssignal um ein Rauschen handelt, wenn die durch die in Gleichung (2) angegebene Bedingung nicht während der vorbestimmten Zeitperiode erfüllt ist.Once the delay through the delay calculation unit 12 is received by the noise decision-making unit 13 based on the delay calculation unit 12 calculated delay determines whether or not an input signal is noise (step S13). Specifically, the noise decision unit decides 13 in that the input signal is not noise when the condition given in equation (2) is satisfied for a predetermined period of time. In contrast, the noise decision unit decides 13 in that the input signal is noise when the condition indicated by equation (2) is not satisfied during the predetermined time period.

Anschließend wird das Rauschen aus dem Eingangssignal durch die Rausch-Abschätzungseinheit 14 abgeschätzt (Schritt S14). Speziell wird das Rauschen mittels Gleichung (3) abgeschätzt, wobei der Koeffizient α gemäß dem Ergebnis der Entscheidung durch die Rausch-Entscheidungseinheit 13 angepasst wird. Wenn durch die Rausch-Entscheidungseinheit 13 entschieden wird, dass es sich bei dem Eingangssignal nicht um Rauschen handelt, wird der Koeffizient α auf Null (0) oder einen Koeffizientenwert α1 nahe Null gesetzt, um den Pegel des abgeschätzten Rauschens nicht zu erhöhen. Wenn andererseits durch die Rausch- Entscheidungseinheit 13 entschieden wird, dass es sich bei dem Eingangssignal um Rauschen handelt, wird der Koeffizient auf Eins (1) oder einen Koeffizientenwert α2 nahe Eins (α2 > α1) gesetzt, um den Pegel des abgeschätzten Rauschens in die Nähe des Eingangssignals zu bringen.Subsequently, the noise from the input signal by the noise estimation unit 14 estimated (step S14). Specifically, the noise is estimated by Equation (3), where the coefficient α is determined according to the result of the decision by the noise decision unit 13 is adjusted. If through the noise decision unit 13 is decided that the input signal is not noise, the coefficient α is set to zero (0) or a coefficient value α1 close to zero so as not to increase the level of the estimated noise. If on the other hand by the noise decision unit 13 is decided that the input signal is noise, the coefficient is set to one (1) or a coefficient value α2 close to one (α2> α1) to bring the level of the estimated noise in the vicinity of the input signal.

Nachdem das Rauschen durch die Rausch-Abschätzungseinheit 14 abgeschätzt wurde, entscheidet die Aktivität-Entscheidungseinheit 15 über die Aktivität des Eingangssignals auf der Grundlage des Ergebnisses der Entscheidung durch die Rausch-Entscheidungseinheit 13, des Eingangssignals und des durch die Rausch-Abschätzungseinheit 14 abgeschätzten Rauschens (Schritt S15). Speziell wird beispielsweise ein Signal-Rauschverhältnis aus dem durch die Rausch-Abschätzungseinheit 14 abgeschätzten Rauschen und dem Eingangssignal berechnet, und das berechnete Signal-Rauschverhältnis wird mit einem vorbestimmten Schwellwert verglichen. Dann wird entschieden, dass das Eingangssignal aktiv ist, wenn das Signal-Rauschverhältnis größer ist als der Schwellwert, oder dass das Eingangssignal inaktiv ist, wenn das Signal-Rauschverhältnis kleiner oder gleich dem Schwellwert ist.After the noise through the noise estimation unit 14 the activity decision unit decides 15 on the activity of the input signal based on the result of the decision by the noise decision unit 13 , the input signal and the noise estimation unit 14 estimated noise (step S15). Specifically, for example, a signal-to-noise ratio becomes that from the noise estimation unit 14 estimated noise and the input signal, and the calculated signal-to-noise ratio is compared with a predetermined threshold. It is then decided that the input signal is active when the signal to noise ratio is greater than the threshold, or that the input signal is inactive when the signal noise ratio is less than or equal to the threshold.

Die zeitliche Dauer des aktiven Intervalls wird durch die Geräuschintervall-Erkennungseinheit 16 gemessen. Speziell wird die zeitliche Dauer des aktiven Intervalls gemessen, indem das Entscheidungsergebnis der Aktivität-Entscheidungseinheit 15 direkt verwendet wird. Alternativ kann die zeitliche Dauer des aktiven Intervalls gemessen werden, indem die Zeit verwendet wird, während der die Bitrate, die in dem Sprachcodierteil (in der Figur nicht gezeigt) verwendet wird, größer ist als die gewisse Schwelle.The duration of the active interval is determined by the noise interval detection unit 16 measured. Specifically, the time duration of the active interval is measured by the decision result of the activity decision unit 15 is used directly. Alternatively, the time duration of the active interval may be measured by using the time during which the bit rate used in the speech coding part (not shown in the figure) is greater than the certain threshold.

Wenn die zeitliche Dauer des aktiven Intervalls, die durch die Geräuschintervall-Erkennungseinheit 16 gemessen wird, der vorbestimmten Zeit entspricht oder sie übersteigt („ja" in Schritt S16), wird das Rausch-Abschätzungsverfahren geändert, sodass das Eingangssignal wahrscheinlich als aktiv bestimmt wird (Schritt S17). Das bedeutet speziell, dass dann, wenn die durch die Geräuschintervall-Bestimmungseinheit 16 gemessene zeitliche Dauer des Geräuschintervalls der vor bestimmten Zeitperiode entspricht oder diese übersteigt, das abgeschätzte Rauschen noisem(n) bei der vorangehenden Zeiteinheit (einen Rahmen vorher) in Gleichung (3) in der Rausch-Abschätzungseinheit 14 auf den Anfangswert noise0(n) gesetzt wird. Da der Anfangswert noise0(n) verglichen mit dem Eingangssignal in dem aktiven Intervall auf einen hinreichend kleinen Wert gesetzt ist, wird das geschätzte Rauschen klein, indem das geschätzte Rauschen noisem(n) bei der vorangehenden Zeiteinheit (einen Rahmen vorher) in Gleichung (3) auf den Anfangswert noise0(n) gesetzt wird, wodurch das Eingangssignal in der Aktivität-Entscheidungseinheit 15 wahrscheinlich als aktiv bewertet wird.When the time duration of the active interval by the noise interval detection unit 16 is measured equal to or exceeds the predetermined time ("Yes" in step S16), the noise estimation method is changed so that the input signal is likely to be determined as active (step S17) sound interval determination unit 16 measured time duration of the noise interval equal to or exceeding the predetermined time period, the estimated noise noise m (n) at the preceding unit time (a frame before) in equation (3) in the noise estimation unit 14 is set to the initial value noise 0 (n). Since the initial value noise 0 (n) is set to a sufficiently small value as compared with the input signal in the active interval, the estimated noise becomes small by dividing the estimated noise noise m (n) at the preceding unit time (one frame before) into Equation (3) is set to the initial value noise 0 (n), reducing the input signal in the activity decision unit 15 likely to be considered active.

Nachfolgend werden die Auswirkungen der Stimmaktivität-Detektionsvorrichtung gemäß dieser Ausgestaltung erläutert. Die Stimmaktivität-Detektionsvorrichtung 10 gemäß dieser Ausgestaltung misst die zeitliche Dauer des aktiven Intervalls mittels der Geräuschintervall-Erkennungseinheit 16, und wenn die zeitliche Dauer des aktiven Intervalls eine vorbestimmte Zeitperiode erreicht oder übersteigt, ändert die Rausch-Abschätzungseinheit 14 das Rausch-Abschätzungsverfahren, sodass das Eingangssignal wahrscheinlich als aktiv bestimmt wird. Speziell wird das geschätzte Rauschen noisem(n) bei der vorangehenden Zeiteinheit (einen Rahmen zuvor) in Gleichung (3) auf den Anfangswert noise0(n) gesetzt. Daher lässt sich die Anzahl fehlerhafter Entscheidungen, das heißt ein Bewerten einer aktiven Periode des Eingangssignals als inaktiv verringern, selbst wenn die Genauigkeit der Rauschabschätzung mit zunehmender Zeit abnimmt. Im Ergebnis kann die Aktivität des Eingangssignals unabhängig von der vergangenen Zeit richtig bestimmt werden.The effects of the voice activity detection apparatus according to this embodiment will be explained below. The voice activity detection device 10 According to this embodiment, measures the time duration of the active interval by means of the noise interval detection unit 16 and when the time duration of the active interval reaches or exceeds a predetermined time period, the noise estimation unit changes 14 the noise estimation method so that the input signal is likely to be determined as active. Specifically, the estimated noise noise m (n) at the preceding unit time (one frame before) in equation (3) is set to the initial value noise 0 (n). Therefore, even if the accuracy of the noise estimation decreases with increasing time, the number of erroneous decisions, that is, an evaluation of an active period of the input signal, can be reduced to inactive. As a result, the activity of the input signal can be properly determined regardless of the elapsed time.

In der Stimmaktivität-Detektionsvorrichtung 10 gemäß dieser Ausgestaltung wird das Rausch-Abschätzungsverfahren in der Rausch-Abschätzungseinheit 14 so verändert, dass das Eingangssignal wahrscheinlich als aktiv bestimmt wird, wenn die zeitliche Dauer des aktiven Intervalls, die durch die Geräuschintervall-Erkennungseinheit 16 gemessen wird, eine vorbestimmte Zeitperiode erreicht oder übersteigt. Wenn jedoch die zeitliche Dauer des aktiven Intervalls eine vorbestimmte Zeitperiode erreicht oder übersteigt, können mehrere veränderte Ausgestaltungen geschaffen werden, welche innerhalb der technischen Lehre der vorliegenden Er findung liegen, indem die Entscheidungsbedingung zur Bewertung, ob das Eingangssignal aktiv ist oder nicht, derart gelockert wird, dass das Eingangssignal wahrscheinlich als aktiv bestimmt wird. Wenn beispielsweise die zeitliche Dauer des aktiven Intervalls, die durch die Geräuschintervall-Erkennungseinheit 16 gemessen wird, eine vorbestimmte Zeitperiode erreicht oder übersteigt, kann das Verfahren zum Berechnen der Autokorrelation in der Autokorrelation-Berechnungseinheit 11, das Verfahren zum Berechnen der Verzögerung in der Verzögerung-Berechnungseinheit 12, das Verfahren zur Rauschbestimmung in der Rausch-Entscheidungseinheit 13 und das Verfahren zur Aktivitätsentscheidung in der Aktivität-Entscheidungseinheit 15 verändert werden. Insbesondere kann dann, wenn die zeitliche Dauer des aktiven Intervalls, die durch die Geräuschintervall-Erkennungseinheit 16 gemessen wird, eine vorbestimmte Zeitperiode erreicht oder übersteigt, die Verwendung der Parameter für die Aktivitätserkennung, wie die Autokorrelationswerte, die spektrale Einhüllende, die Verzögerung, die geschätzte Rauschleistung oder das Signal-Rauschverhältnis verändert werden, oder diese Parameter können auf die jeweiligen Anfangswerte zurückgesetzt werden.In the voice activity detection device 10 According to this embodiment, the noise estimation method becomes the noise estimation unit 14 changed so that the input signal is likely to be determined as active when the time duration of the active interval by the noise interval detection unit 16 is measured, reaches or exceeds a predetermined period of time. However, when the time duration of the active interval reaches or exceeds a predetermined period of time, a plurality of modified embodiments can be provided, which are within the technical teaching of the present invention, by relaxing the decision condition for evaluating whether the input signal is active or not in that the input signal is probably determined to be active. For example, if the duration of the active interval by the noise interval detection unit 16 is measured, reaches or exceeds a predetermined period of time, the method for calculating the autocorrelation in the autocorrelation calculation unit 11 , the method for calculating the delay in the delay calculation unit 12 , the method for noise determination in the noise decision unit 13 and the method of activity decision in the activity decision unit 15 to be changed. In particular, if the time duration of the active interval determined by the noise interval detection unit 16 is measured, reaches or exceeds a predetermined period of time, the use of the parameters for the activity detection, such as the autocorrelation values, the spectral envelope, the delay, the estimated noise power or the signal-to-noise ratio are changed or these parameters can be reset to the respective initial values ,

Die vorliegende Erfindung ist in einer Stimmaktivität-Detektionsvorrichtung einsetzbar, um zu bestimmen, ob ein Eingangssignal aktiv ist und menschliche Sprache enthält oder ob ein Eingangssignal inaktiv ist und Informationen enthält, die nicht übertragen werden müssen, wobei die Vorrichtung typischerweise in mobilen Telefonie-Dienstleistungen oder Internet-Telefoniedienstleistungen verwendet wird.The The present invention is useful in a voice activity detection device. to determine if an input signal is active and human Contains language or whether an input signal is inactive and contains information that not transferred Need to become, the device typically being used in mobile telephony services or internet telephony services.

Es ist offensichtlich, dass die Ausgestaltungen der Erfindung in vielfältiger Weise abgeändert werden können. Derartige Abänderungen werden nicht als Verlassen des Bereiches der Erfindung betrachtet, und alle derartigen Abänderungen fallen in den Schutzbereich der nachfolgenden Patentansprüche.It is obvious that the embodiments of the invention in many ways amended can be. Such modifications are not considered as leaving the scope of the invention, and all such modifications fall within the scope of the following claims.

Claims (3)

Stimmaktivität-Detektionsvorrichtung (10) mit einem Aktivität-Entscheidungsmittel (15) zum Entscheiden, ob ein Eingangssignal aktiv ist oder nicht, gemäß einer vorbestimmten Entscheidungsbedingung und mit einem Zeitmessmittel (16), das zum Messen einer Zeitdauer des aktiven Intervalls auf der Grundlage des Entscheidungsergebnisses des Aktivität-Entscheidungsmittels (15) ausgebildet ist, dadurch gekennzeichnet, dass das Aktivität-Entscheidungsmittel (15) dazu ausgebildet ist, die Entscheidungsbedingung zu verändern, sodass das Eingangssignal wahrscheinlich als aktiv bewertet wird, wenn die durch das Zeitmessmittel (16) gemessene Zeitdauer des Geräuschintervalls gleich oder länger als eine vorbestimmte Zeitperiode wird.Voice activity detection device ( 10 ) with an activity decision-making means ( 15 ) for deciding whether an input signal is active or not, according to a predetermined decision condition and with a timing means ( 16 ) for measuring a time duration of the active interval based on the decision result of the activity deciding means (FIG. 15 ), characterized in that the activity-decision-making means ( 15 ) is adapted to change the decision condition such that the input signal is likely to be considered active when the signal from the timing means ( 16 ) measured duration of the noise interval becomes equal to or longer than a predetermined period of time. Stimmaktivität-Detektionsvorrichtung (10) gemäß Anspruch 1, dadurch gekennzeichnet, dass das Aktivität-Entscheidungsmittel (15) dazu ausgebildet ist, die Aktivität des Eingangssignals auf der Grundlage eines Rauschens zu bewerten, das durch ein vorbestimmtes Rauschbestimmungsverfahren bestimmt wurde, wobei die Aktivität-Entscheidungsmittel (15) dazu ausgebildet sind, das Rauschbestimmungsverfahren zu verändern, sodass das Eingangssignal wahrscheinlich als aktiv bewertet wird, wenn die durch das Zeitmessmittel (16) gemessene Zeitdauer des Geräuschintervalls gleich oder länger als eine vorbestimmte Zeitperiode wird.Voice activity detection device ( 10 ) according to claim 1, characterized in that the activity-decision-making means ( 15 ) is adapted to evaluate the activity of the input signal on the basis of a noise determined by a predetermined noise determination method, wherein the activity decision means ( 15 ) are adapted to modify the noise determination method so that the input signal is likely to be considered active when 16 ) measured duration of the noise interval becomes equal to or longer than a predetermined period of time. Stimmaktivität-Detektionsverfahren zum Bewerten der Aktivität eines Eingangssignals gemäß einer vorbestimmten Entscheidungsbedingung, dadurch gekennzeichnet, dass: innerhalb des Verfahrens ein Vorgang zum Verändern der Entscheidungsbedingung ausgeführt wird (S17), sodass das Eingangssignal wahrscheinlich als aktiv bewertet wird, wenn die Zeitdauer des aktiven Intervalls gleich oder länger als eine vorbestimmte Zeitperiode wird (S16).Voice activity detection method to rate the activity an input signal according to a predetermined decision condition, characterized in that: within of the method is a process for changing the decision condition accomplished becomes (S17), so the input signal is likely to be considered active when the duration of the active interval is equal to or longer than a predetermined period of time becomes (S16).
DE200460002553 2003-12-25 2004-12-23 Apparatus and method for voice activity detection Active DE602004002553T2 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2003430973 2003-12-25
JP2003430973A JP4490090B2 (en) 2003-12-25 2003-12-25 Sound / silence determination device and sound / silence determination method
JP2004020351A JP4601970B2 (en) 2004-01-28 2004-01-28 Sound / silence determination device and sound / silence determination method
JP2004020351 2004-01-28

Publications (2)

Publication Number Publication Date
DE602004002553D1 DE602004002553D1 (en) 2006-11-09
DE602004002553T2 true DE602004002553T2 (en) 2007-08-23

Family

ID=34576005

Family Applications (1)

Application Number Title Priority Date Filing Date
DE200460002553 Active DE602004002553T2 (en) 2003-12-25 2004-12-23 Apparatus and method for voice activity detection

Country Status (2)

Country Link
EP (1) EP1551006B1 (en)
DE (1) DE602004002553T2 (en)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor

Also Published As

Publication number Publication date
DE602004002553D1 (en) 2006-11-09
EP1551006A1 (en) 2005-07-06
EP1551006B1 (en) 2006-09-27

Similar Documents

Publication Publication Date Title
DE69535723T2 (en) METHOD AND DEVICE FOR LANGUAGE CODING WITH REDUCED, VARIABLE BITRATE
DE69913262T2 (en) DEVICE AND METHOD FOR ADJUSTING THE NOISE THRESHOLD FOR DETECTING VOICE ACTIVITY IN A NON-STATIONARY NOISE ENVIRONMENT
DE60125219T2 (en) SPECIAL FEATURES REPLACEMENT OF FRAME ERRORS IN A LANGUAGE DECODER
DE69534285T3 (en) Method and apparatus for selecting the coding rate in a variable rate vocoder
DE69433254T2 (en) Method and device for speech detection
DE60122203T2 (en) METHOD AND SYSTEM FOR GENERATING CONFIDENTIALITY IN LANGUAGE COMMUNICATION
DE60123651T2 (en) METHOD AND DEVICE FOR ROBUST LANGUAGE CLASSIFICATION
DE60122751T2 (en) METHOD AND DEVICE FOR OBJECTIVE EVALUATION OF LANGUAGE QUALITY WITHOUT REFERENCE SIGNAL
DE10017646A1 (en) Noise suppression in the time domain
US8655656B2 (en) Method and system for assessing intelligibility of speech represented by a speech signal
DE60117558T2 (en) METHOD FOR NOISE REDUCTION CLASSIFICATION IN LANGUAGE CODING
KR101895391B1 (en) Estimation of background noise in audio signals
DE60212617T2 (en) DEVICE FOR LANGUAGE IMPROVEMENT
DE60311754T2 (en) Method and device for estimating the overall quality of a speech signal
DE10006930A1 (en) System and method for speech recognition
DE602004003209T2 (en) Apparatus and method for voice activity detection
EP1634277B1 (en) Extraction of test signal sections for measuring the quality of an audio signal
EP1382034B1 (en) Method for determining intensity parameters of background noise in speech pauses of voice signals
DE602004002553T2 (en) Apparatus and method for voice activity detection
DE60025333T2 (en) LANGUAGE DETECTION WITH STOCHASTIC CONFIDENTIAL ASSESSMENT OF THE FREQUENCY SPECTRUM
DE102004001863A1 (en) Method and device for processing a speech signal
EP1997104B1 (en) Open-loop pitch track smoothing
EP1005016A2 (en) Method and circuit arrangement for measuring speech level in a speech processing system
Müller et al. Age-dependent differences in the neutralization of the intervocalic voicing contrast: Evidence from an apparent-time study on East Franconian
EP2543035A1 (en) Method for determining fundamental-frequency courses of a plurality of signal sources

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Representative=s name: BOCKHORNI & KOLLEGEN, 80687 MUENCHEN