HINTERGRUND
DER ERFINDUNGBACKGROUND
THE INVENTION
Gebiet der
ErfindungTerritory of
invention
Die
vorliegende Erfindung betrifft eine Stimmaktivität-Detektionsvorrichtung und
ein Verfahren zum Erkennen von Stimmaktivität.The
The present invention relates to a voice activity detection apparatus and
a method for detecting voice activity.
Stand der
TechnikState of
technology
Diskontinuierliche Übertragung
(Discontinuous Transmission – DTX)
ist eine Technologie, die normalerweise für mobile Telefonie-Dienstleistungen
und Telefonie-Dienstleistungen über
das Internet genutzt wird, um die Übertragungsleistung zu verringern
oder Übertragungsbandbreite
einzusparen. Beim DTX-Betrieb kann eine inaktive Periode in einem
Eingangssignal, wie Stille oder Hintergrundrauschen, im Vergleich
zu einer aktiven Periode, die Sprache, Musik oder spezielle Töne enthält, bei
einer niedrigeren Bitrate übertragen
werden, oder die Übertragung
kann während
einer solchen inaktiven Periode gestoppt werden. Die Erkennung von Stimm-
oder Sprachaktivität
(Voice Activity Detection – VAD),
bei der es sich um eine Schlüsselkomponente des
DTX-Betriebes handelt, entscheidet, ob die gegenwärtige Periode
des zu codierenden Eingangssignals ausschließlich inaktive Informationen
enthält
oder nicht. Discontinuous transmission
(Discontinuous Transmission - DTX)
is a technology normally used for mobile telephony services
and telephony services over
the internet is used to reduce the transmission power
or transmission bandwidth
save. In DTX mode, an inactive period can be in one
Input signal, such as silence or background noise, in comparison
to an active period containing speech, music or special sounds
transmit a lower bit rate
be, or the transfer
can while
be stopped in such an inactive period. The recognition of voice
or voice activity
(Voice Activity Detection - VAD),
which is a key component of
DTX operation decides whether the current period
of the input signal to be encoded only inactive information
contains
or not.
Die US 6,453,285 B1 offenbart
einen Übergang
in einen inaktiven VAD-Reset-Zustand
nach einer vorbestimmten Zeit in einem aktiven Zustand.The US 6,453,285 B1 discloses a transition to an inactive VAD reset state after a predetermined time in an active state.
Beispielsweise
schätzt
die in dem unten aufgeführten
Nichtpatent-Dokument 1 beschriebene Stimmaktivität-Detektionsvorrichtung ein
Hintergrundrauschen aus dem Eingangssignal mittels des vorbestimmten Rauschabschätzungsverfahrens
und verwendet das Verhältnis
der Eingangssignale zu dem geschätzten
Hintergrundrauschen (Signal-Geräuschverhältnis oder
Signal-Rauschverhältnis)
für die
Aktivitätserkennung.
- [Nichtpatent-Dokument 1] 3GPP TS 26.094 V3.0.0
(http://www.3gpp.org/ftp/Specs/html-info/26094.htm)
For example, the voice activity detection apparatus described in the non-patent document 1 listed below estimates background noise from the input signal by the predetermined noise estimation method, and uses the ratio of the input signals to the estimated background noise (signal-to-noise ratio or signal-to-noise ratio) for the activity detection. - [Non-Patent Document 1] 3GPP TS 26.094 V3.0.0 (http://www.3gpp.org/ftp/Specs/html-info/26094.htm)
ZUSAMMENFASSUNG DER ERFINDUNGSUMMARY OF THE INVENTION
Jedoch
ergibt sich bei der oben beschriebenen herkömmlichen Stimmaktivität-Detektionsvorrichtung das
folgende Problem. Im Allgemeinen kann die Leistungsfähigkeit
der Rauschabschätzung
mit zunehmender Zeit abnehmen, wenn die Eigenschaften des Rauschsignals
nicht stationär
sind. Dabei tritt eine derartige Verschlechterung der Leistungsfähigkeit
der Rauschabschätzung
wahrscheinlich insbesondere dann auf, wenn die aktive Periode während einer
längeren
Zeit andauert, da das Eingangssignal nicht allein das Hintergrundrauschen
enthält
und es daher schwierig ist, die Eigenschaften des Rauschsignals
während
einer solchen Zeitperiode korrekt abzuschätzen. Bei der oben beschriebenen
herkömmlichen
Stimmaktivität-Detektionsvorrichtung
führt die
Aktivitätserkennung
mit dem nicht angepassten geschätzten
Hintergrundrauschen dazu, dass die Genauigkeit der Aktivitätserkennung
mit fortschreitender Zeit abnimmt (insbesondere, wenn die aktive
Periode für
eine lange Zeit andauert). Im Ergebnis kann die oben beschriebene
herkömmliche
Stimmaktivität-Detektionsvorrichtung
die aktive Periode mit zunehmender Zeit als inaktiv bewerten (insbesondere, wenn
das Geräuschintervall über eine
lange Zeit angedauert hat).however
In the conventional voice activity detecting apparatus described above, the
following problem. In general, the performance can
the noise estimate
decrease with increasing time, if the characteristics of the noise signal
not stationary
are. There occurs such a deterioration of performance
the noise estimate
probably especially if the active period during a
longer
Time lasts because the input signal is not just the background noise
contains
and therefore it is difficult to understand the characteristics of the noise signal
while
correctly estimate such a period of time. In the above described
usual
Voice activity detection device
leads the
activity detection
with the unmatched estimated
Background noise causes the accuracy of activity detection
decreases as time progresses (especially if the active
Period for
a long time lasts). As a result, the above-described
conventional
Voice activity detection device
evaluate the active period as inactive with increasing time (especially if
the noise interval over one
has lasted for a long time).
Ziel
der vorliegenden Erfindung ist es daher, eine Stimmaktivität-Detektionsvorrichtung
und ein Erkennungsverfahren für
Stimmaktivität
anzugeben, die in der Lage sind, eine Aktivitätsbewertung des Eingangssignals
unabhängig
von der vergangenen Zeit korrekt vorzunehmen.aim
Therefore, it is the object of the present invention to provide a voice activity detecting device
and a recognition method for
vocal activity
be able to provide an activity assessment of the input signal
independently
correct from the past time.
Erfindungsgemäß wird eine
Stimmaktivität-Detektionsvorrichtung
mit den Merkmalen des Patentanspruchs 1 und ein Verfahren zum Erkennen
von Stimmaktivität
mit den Merkmalen des Patentanspruchs 3 geschaffen. Eine bevorzugte
Ausgestaltung ist in Patentanspruch 2 angegeben.According to the invention is a
Voice activity detection device
with the features of claim 1 and a method of recognition
of voice activity
created with the features of claim 3. A preferred
Embodiment is specified in claim 2.
KURZE BESCHREIBUNG
DER ZEICHNUNGENSHORT DESCRIPTION
THE DRAWINGS
1 zeigt
ein Konfigurationsdiagramm der Stimmaktivität-Detektionsvorrichtung gemäß der Ausgestaltung. 1 FIG. 12 is a configuration diagram of the voice activity detection apparatus according to the embodiment. FIG.
2 zeigt
ein Ablaufdiagramm zur Darstellung des Betriebs der Stimmaktivität-Detektionsvorrichtung gemäß der Ausgestaltung. 2 FIG. 12 is a flowchart showing the operation of the voice activity detection apparatus according to the embodiment. FIG.
BESCHREIBUNG
DER BEVORZUGTEN AUSGESTALTUNGENDESCRIPTION
THE PREFERRED DESIGNS
Eine
Stimmaktivität-Detektionsvorrichtung
gemäß einer
Ausgestaltung der vorliegenden Erfindung wird unter Bezugnahme auf
die Zeichnungen erläutert.A
Voice activity detection device
according to a
Embodiment of the present invention will be described with reference to
the drawings explained.
Zunächst wird
die Konfiguration der Stimmaktivität-Detektionsvorrichtung gemäß dieser
Ausgestaltung erläutert. 1 ist
ein Blockdiagramm der Stimmaktivität-Detektionsvorrichtung gemäß dieser
Ausgestaltung.First, the configuration of the voice activity detecting apparatus according to this embodiment will be explained. 1 Fig. 10 is a block diagram of the voice activity detection apparatus according to this embodiment.
Eine
Stimmaktivität-Detektionsvorrichtung 10 gemäß dieser
Ausgestaltung ist physikalisch als ein Computersystem ausgebildet,
das eine CPU (Zentrale Prozessoreinheit – Central Processing Unit),
einen Speicher, Eingabeeinrichtungen, wie eine Maus und eine Tastatur,
eine Anzeigeeinrichtung, wie einen Bildschirm, eine Speichereinrichtung,
wie eine Festplatte, eine funkgestützte Kommunikationseinheit, die
eine Datenkommunikation mit einer externen Einrichtung über Funk
durchführt,
und dergleichen aufweist. Wie in 1 gezeigt,
ist die Stimmaktivität-Detektionsvorrichtung 10 funktional
gesehen mit einer Autokorrelation-Berechnungseinheit 11, einer
Verzögerung-Berechnungseinheit 12,
einer Rausch-Entscheidungseinheit 13,
einer Rausch-Abschätzungseinheit 14,
einer Aktivität-Entscheidungseinheit 15 und
einer Geräuschintervall-Entscheidungseinheit 16 (Zeitmessmittel)
ausgestattet. Ein Stimmaktivität-Erkennungsmittel 17 ist
aus der Autokorrelation-Berechnungseinheit 11, der Verzögerung-Berechnungseinheit 12,
der Rausch-Entscheidungseinheit 13, der Rausch-Abschätzungseinheit 14 und
der Aktivität-Entscheidungseinheit 15 gebildet.
Nachfolgend wird jeder Bestandteil der Stimmaktivität-Detektionsvorrichtung 10 im
Detail erläutert.A voice activity detection device 10 According to this embodiment, it is physically constituted as a computer system including a CPU (Central Processing Unit), a memory, input devices such as a mouse and a keyboard, a display device such as a screen, a storage device such as a hard disk, a radio A communication unit that performs data communication with an external device via radio, and the like. As in 1 shown is the voice activity detection device 10 functionally with an autocorrelation calculation unit 11 , a delay calculation unit 12 , a noise decision-making unit 13 , a noise estimation unit 14 , an activity decision-making unit 15 and a noise interval decision unit 16 (Time measuring means) equipped. A voice activity recognizer 17 is from the autocorrelation calculation unit 11 , the delay calculation unit 12 , the noise decision-making unit 13 , the noise estimation unit 14 and the activity decision unit 15 educated. Hereinafter, each component of the voice activity detection device will become 10 explained in detail.
Die
Autokorrelation-Berechnungseinheit 11 berechnet Autokorrelationswerte
des Eingangssignals. Speziell berechnet die Autokorrelation-Berechnungseinheit 11 einen
Autokorrelationswert c(t) für
die Verzögerung
t eines Eingangssignals x(n) gemäß der folgenden
Gleichung (1).The autocorrelation calculation unit 11 calculates autocorrelation values of the input signal. Specifically, the autocorrelation calculation unit calculates 11 an autocorrelation value c (t) for the delay t of an input signal x (n) according to the following equation (1).
Hierbei
ist x(n) (n = 0, 1, ..., N) der n-te Wert, der durch Abtasten eines
Eingangssignals nach jedem festgelegten Zeitintervall (zum Beispiel
1/8000 s) über
eine festgelegte Zeit (zum Beispiel 20 ms) erhalten wird. Des Weiteren
wird der Autokorrelationswert c(t) in Form von diskreten Werten
bei jedem festgelegten Zeitintervall (zum Beispiel 1/8000 s) über eine
festgelegte Zeit erhalten (zum Beispiel 18 ms).in this connection
x (n) (n = 0, 1, ..., N) is the nth value obtained by sampling a
Input signal after each specified time interval (for example
1/8000 s)
a fixed time (for example 20 ms) is obtained. Furthermore
the autocorrelation value c (t) will be in the form of discrete values
at each specified time interval (for example 1/8000 s) over one
fixed time (for example 18 ms).
Dabei
ist es nicht immer notwendig, dass die Autokorrelation-Berechnungseinheit 11 den
Autokorrelationswert in strikter Übereinstimmung mit der oben
angegebenen Gleichung (1) berechnet. Beispielsweise kann die Autokorrelation- Berechnungseinheit 11 dazu
ausgebildet sein, den Autokorrelationswert auf der Grundlage des
wahrnehmungsmäßig gewichteten
Eingangssignals zu berechnen, was in Sprachcodierern weitläufig eingesetzt
wird.It is not always necessary that the autocorrelation calculation unit 11 calculated the autocorrelation value in strict accordance with equation (1) given above. For example, the autocorrelation calculation unit 11 be configured to calculate the autocorrelation value based on the perceptually weighted input signal, which is widely used in speech coders.
Die
Verzögerung-Berechnungseinheit 12 berechnet
eine Verzögerung,
die dem maximalen Autokorrelationswert unter den Autokorrelationswerten
entspricht, welche durch die Autokorrelation-Berechnungseinheit 11 berechnet
wurden. Speziell sucht die Verzögerung-Berechnungseinheit 12 Autokorrelationswerte
in einem vorbestimmten Intervall (beispielsweise im Falle von AMR
für t =
18 bis 143) und berechnet eine Verzögerung, bei welcher der Autokorrelationswert
einen Maximalwert annimmt.The delay calculation unit 12 calculates a delay corresponding to the maximum autocorrelation value among the autocorrelation values given by the autocorrelation calculation unit 11 were calculated. Specifically, the delay calculation unit searches 12 Autocorrelation values at a predetermined interval (for example, in the case of AMR for t = 18 to 143) and calculates a delay at which the autocorrelation value takes a maximum value.
Die
Rausch-Entscheidungseinheit 13 entscheidet auf der Grundlage
der durch die Verzögerung-Berechnungseinheit 12 berechneten
Verzögerung,
ob das Eingangssignal Rauschen ist oder nicht. Die Rausch-Entscheidungseinheit 13 entscheidet
beispielsweise, ob das Eingangssignal Rauschen ist oder nicht, indem
sie zeitliche Variationen t_max (t)(1 ≤ t ≤ T) der durch die Verzögerung-Berechnungseinheit 12 berechneten
Verzögerung
t_max verwendet, wobei t eine abhängige Variable ist, welche
eine Zeit angibt. Insbesondere entscheidet die Rausch-Entscheidungseinheit 12,
dass das Eingangssignal kein Rauschen ist, wenn die in Gleichung
(2) angegebene Bedingung für
eine vorbestimmte Zeitperiode erfüllt ist (qualitativ ausgedrückt, wenn
die Veränderung
der Verzögerung
für die
vorbestimmte Zeitperiode klein ist). Im Gegensatz dazu entscheidet
die Rausch-Entscheidungseinheit 13, dass es sich bei dem
Eingangssignal um Rauschen handelt, wenn die in Gleichung (2) angegebene
Bedingung während
der vorbestimmten Zeitperiode nicht erfüllt ist. |t_max(t) – t_max(t – 1)| ≤ d. (2) The noise decision unit 13 decides on the basis of the delay calculation unit 12 calculated delay, whether the input signal is noise or not. The noise decision unit 13 For example, it determines whether the input signal is noise or not by taking temporal variations t_max (t) (1≤t≤T) of the delay computation unit 12 calculated delay t_max, where t is a dependent variable indicating a time. In particular, the noise decision unit decides 12 in that the input signal is no noise when the condition given in equation (2) is satisfied for a predetermined period of time (in qualitative terms, when the variation of the delay for the predetermined period of time is small). In contrast, ent leaves the noise decision unit 13 in that the input signal is noise when the condition indicated in equation (2) is not satisfied during the predetermined time period. | t_max (t) - t_max (t - 1) | ≤ d. (2)
In
Gleichung (2) bezeichnet d eine vorbestimmte Schwelle der Verzögerungsdifferenz.
Die Rausch-Entscheidungseinheit 13 kann entscheiden, ob
das Eingangssignal Rauschen ist oder nicht, indem sie ein von dem
vorstehend beschriebenen Verfahren abweichendes Verfahren verwendet.In Equation (2), d denotes a predetermined threshold of the delay difference. The noise decision unit 13 can decide whether the input signal is noise or not by using a method different from the method described above.
Die
Rausch-Abschätzungseinheit 14 schätzt ein
Rauschen aus dem Eingangssignal ab. Speziell schätzt die Rausch-Abschätzungseinheit 14 beispielsweise
ein Rauschen gemäß Gleichung
(3) ab. noisem+1(n) = (1 – α)·noisem(n)
+ α·inputm–1(n) (3),wobei noisem(n) das geschätzte Rauschen, inputm(n) ein Eingangssignal, n das Frequenzband,
m die Zeit (Rahmen) und α einen
Koeffizienten bezeichnet. Der Ausdruck noisem(n)
stellt das geschätzte
Rauschen des n-ten Frequenzbandes zur Zeit (Rahmen) m dar. Die Rausch-Abschätzungseinheit 14 ändert den
Koeffizienten α in
Gleichung (3) in Übereinstimmung
mit dem Ergebnis der Entscheidung der Rausch-Entscheidungseinheit 13. Wenn
durch die Rausch-Entscheidungseinheit 13 entschieden wird,
dass es sich bei dem Eingangssignal nicht um Rauschen handelt, setzt
die Rausch-Abschätzungseinheit 21 den
Koeffizienten α in
Gleichung (3) auf Null (0) oder einen Wert α1 nahe Null, sodass keine Zunahme
in der Leistung des geschätzten
Rauschens bewirkt ist. Wenn andererseits durch die Rausch-Entscheidungseinheit 13 entschieden
wird, dass es sich bei dem Eingangssignal um Rauschen handelt, setzt
die Rausch-Abschätzungseinheit 21 den
Koeffizienten α in der
oben angegebenen Gleichung (3) auf Eins (1) oder einen
Wert α2
(α2 > α1) nahe 1, um zu bewirken, dass das
geschätzte
Rauschen nahe dem Eingangssignal ist. Die Rausch-Abschätzungseinheit 21 kann
dazu ausgebildet sein, ein Rauschen unter Verwendung eines anderen
Verfahrens aus dem Eingangssignal abzuschätzen, indem ein anderes als
das vorstehend genannte Verfahren verwendet wird.The noise estimation unit 14 estimates noise from the input signal. Specifically, the noise estimation unit estimates 14 For example, a noise according to equation (3) from. noise m + 1 (n) = (1 - α) · noise m (n) + α · input m-1 (n) (3), where noise m (n) denotes the estimated noise, input m (n) an input signal, n the frequency band, m the time (frame) and α a coefficient. The term noise m (n) represents the estimated noise of the n-th frequency band at the time (frame) m. The noise estimation unit 14 changes the coefficient α in equation (3) in accordance with the result of decision of the noise decision unit 13 , If through the noise decision unit 13 it is decided that the input signal is not noise, the noise estimation unit sets 21 the coefficient α in equation (3) to zero (0) or a value α1 near zero, so that no increase in the power of the estimated noise is effected. On the other hand, if through the noise decision unit 13 it is decided that the input signal is noise, the noise estimation unit sets 21 the coefficient α in the above equation (3) to one ( 1 ) or a value α2 (α2> α1) near 1 to make the estimated noise near the input signal. The noise estimation unit 21 may be configured to estimate noise from the input signal using another method using a method other than the above method.
Die
Aktivität-Entscheidungseinheit 15 führt eine
Aktivitätsentscheidung
auf der Grundlage des Entscheidungsergebnisses durch die Rausch-Entscheidungseinheit 13,
des Eingangssignals und des durch die Rausch-Abschätzungseinheit 14 geschätzten Rauschens
durch. Speziell berechnet die Aktivität-Entscheidungseinheit 15 beispielsweise
ein Signal-Rauschverhältnis
aus dem durch die Rausch-Abschätzungseinheit 14 geschätzten Rauschen
und dem Eingangssignal (genauer gesagt, berechnet einen integrierten
Wert oder einen Durchschnittswert des Signal- Rauschverhältnisses in jedem Frequenzband).
Die Aktivität-Entscheidungseinheit 15 vergleicht
das berechnete Signal-Rauschverhältnis
mit einem Schwellwert und entscheidet, dass das Eingangssignal aktiv
ist, wenn das Signal-Rauschverhältnis
größer als
der Schwellwert ist, und entscheidet, dass das Eingangssignal inaktiv
ist, wenn das Signal-Rauschverhältnis
kleiner oder gleich dem Schwellwert ist. Der Schwellwert kann durch
das Ergebnis der Entscheidung in der Rausch-Entscheidungseinheit 13 angepasst
werden. Für
den Fall, dass die Rausch-Entscheidungseinheit 13 entscheidet,
dass es sich bei dem Eingangssignal nicht um Rauschen handelt, kann
der Schwellwert auf einen kleineren Wert gesetzt werden als in dem
Fall, dass die Rausch-Entscheidungseinheit 13 entscheidet,
dass es sich bei dem Eingangssignal um Rauschen handelt. In dem
Fall, dass die Rausch-Entscheidungseinheit 13 entscheidet,
dass es sich bei dem Eingangssignal nicht um Rauschen handelt, nimmt
die Möglichkeit
zu, Signale mit kleinen Signal-Rauschverhältnissen
(d.h. in dem Rauschen versteckte Signale), als aktive Signale zu
erkennen. Die Aktivität-Entscheidungseinheit 13 kann über die
Aktivität
des Eingangssignals entscheiden, indem sie ein anderes als das vorstehend
beschriebene Verfahren verwendet. Beispielsweise kann der oben genannte
Schwellwert unabhängig
von dem Ergebnis der Entscheidung durch die Rausch-Entscheidungseinheit 13 festgelegt sein,
und die Aktivität-Entscheidungseinheit 15 kann über die
Aktivität
des Eingangssignals auf der Grundlage des Eingangssignals und des
durch die Rausch-Abschätzungseinheit 14 geschätzten Rauschens
entscheiden. Es ist auch möglich,
dass die Aktivität-Entscheidungseinheit 15 entscheidet,
ob das Eingangssignal aktiv ist oder nicht, indem sie zusätzliche
Informationen des Eingangssignals verwendet (Leistung, Spektrum-Einhüllende,
Anzahl von Nulldurchgängen
oder dergleichen). Vorliegend bezeichnet der Ausdruck „inaktiv" das bedeutungslose
Geräusch,
wie Stille und Hintergrundrauschen, während „aktiv" ein Geräusch bezeichnet, welches menschliche
Stimme, Musik oder Töne
enthält.The activity decision unit 15 performs an activity decision based on the decision result by the noise decision unit 13 , the input signal and the noise estimation unit 14 estimated noise through. Specifically calculates the activity decision unit 15 For example, a signal-to-noise ratio from that provided by the noise estimation unit 14 estimated noise and the input signal (more precisely, calculates an integrated value or an average value of the signal-to-noise ratio in each frequency band). The activity decision unit 15 compares the calculated signal to noise ratio with a threshold and decides that the input signal is active when the signal to noise ratio is greater than the threshold and decides that the input signal is inactive when the signal to noise ratio is less than or equal to the threshold. The threshold can be determined by the result of the decision in the noise decision unit 13 be adjusted. In the event that the noise decision-making unit 13 If it is determined that the input signal is not noise, the threshold may be set to a smaller value than in the case where the noise decision unit 13 decides that the input signal is noise. In the case that the noise decision unit 13 decides that the input signal is not noise, it becomes possible to recognize signals with small signal-to-noise ratios (ie, signals hidden in the noise) as active signals. The activity decision unit 13 can decide on the activity of the input signal using a method other than that described above. For example, the above threshold may be independent of the result of the decision by the noise decision unit 13 be set, and the activity-decision unit 15 may be about the activity of the input signal based on the input signal and that provided by the noise estimation unit 14 estimated noise. It is also possible that the activity-decision unit 15 decides whether the input signal is active or not by using additional information of the input signal (power, spectrum envelope, number of zero crossings, or the like). As used herein, the term "inactive" refers to meaningless noise, such as silence and background noise, while "active" refers to a sound containing human voice, music or sounds.
Die
Geräuschintervall-Erkennungseinheit 16 misst
die zeitliche Dauer des aktiven Intervalls auf der Grundlage des
Entscheidungsergebnisses der Aktivität-Entscheidungseinheit 15. Speziell
misst die Geräuschintervall-Erkennungseinheit 16 die
zeitliche Dauer des aktiven Intervalls, indem sie das Ergebnis der
Aktivität- Entscheidungseinheit 15 direkt
verwendet. Alternativ kann die Geräuschintervall-Erkennungseinheit 16 die
zeitliche Dauer des aktiven Intervalls messen, indem sie eine Zeit
misst, während
der die Sprachcodierungseinheit (nicht gezeigt) ihre Sprachcodierung
mit einer Codierrate durchführt,
die gleich einem festen Schwellwert oder höher ist (im Falle von AMR beträgt eine
Codierrate 4,75 kbps oder mehr). Wenn das Eingangssignal durch die
Aktivität-Entscheidungseinheit 15 als
aktiv bestimmt wurde, wird das Eingangssignal unter Verwendung der
höheren
Bitrate in der Sprachcodierungseinheit codiert.The noise interval detection unit 16 measures the time duration of the active interval based on the decision result of the activity decision unit 15 , Specifically, the noise interval detection unit measures 16 the temporal duration of the active interval, giving the result of the activity-decision unit 15 used directly. Alternatively, the noise interval detection unit 16 measure the time duration of the active interval by measuring a time during which the speech codec its uniting (not shown) performs its speech coding at a coding rate equal to a fixed threshold or higher (in the case of AMR, a coding rate is 4.75 kbps or more). When the input signal through the activity-decision unit 15 has been determined to be active, the input signal is encoded using the higher bit rate in the speech coding unit.
Die
Rausch-Abschätzungseinheit 14 wechselt
ein Rausch-Abschätzungsverfahren,
sodass das Eingangssignal wahrscheinlich als aktiv bestimmt wird,
wenn die zeitliche Dauer des aktiven Intervalls, welche durch die
Geräuschintervall-Erkennungseinheit 16 gemessen
wird, einer vorbestimmten Zeitperiode entspricht oder diese übersteigt.
Speziell setzt die Geräusch-Abschätzungseinheit 14 das
geschätzte
Rauschen noisem(n) für die vorangehende Zeiteinheit
(einen Rahmen zuvor) in Gleichung (3) auf den Anfangswert noise0(n), wenn die zeitliche Dauer des durch
die Geräuschintervall-Erkennungseinheit 16 gemessenen
aktiven Intervalls der vorbestimmten Zeitperiode entspricht oder
diese übersteigt.
Da der Anfangswert noise0(n) verglichen
mit dem Eingangssignal des aktiven Intervalls auf einen hinreichend
kleinen Wert gesetzt wurde, wird das geschätzte Rauschen klein, indem
das geschätzte
Rauschen noisem(n) bei der vorangehenden
Zeiteinheit (einen Rahmen zuvor) in Gleichung (3) auf den Anfangswert
noise0(n) gesetzt wird. Auf diese Weise
wird das Eingangssignal durch die Aktivitäts-Entscheidungseinheit 15 wahrscheinlich
als aktiv bewertet.The noise estimation unit 14 A noise estimation method changes so that the input signal is likely to be determined as active when the time duration of the active interval provided by the noise interval detection unit 16 is measured, equal to or exceeds a predetermined period of time. Specifically sets the noise-estimating unit 14 the estimated noise noise m (n) for the previous unit time (one frame before) in equation (3) to the initial value noise 0 (n) when the time duration of the noise interval detection unit 16 measured active interval of the predetermined period of time or exceeds. Since the initial value noise 0 (n) has been set to a sufficiently small value as compared with the input signal of the active interval, the estimated noise becomes small by dividing the estimated noise noise m (n) at the preceding unit time (one frame before) into equation (e). 3) is set to the initial value noise 0 (n). In this way, the input signal is given by the activity decision unit 15 probably rated as active.
Nachfolgend
wird der Betrieb der Stimmaktivität-Detektionsvorrichtung gemäß dieser
Ausgestaltung erläutert,
und das Verfahren zum Erkennen oder Detektieren von Stimmaktivität gemäß dieser
Ausgestaltung wird ebenfalls erläutert. 2 ist
ein Ablaufdiagramm zur Darstellung des Betriebs der Stimmaktivität-Detektionsvorrichtung
gemäß dieser
Ausgestaltung.Hereinafter, the operation of the voice activity detection apparatus according to this embodiment will be explained, and the method for detecting or detecting voice activity according to this embodiment will also be explained. 2 Fig. 10 is a flowchart for illustrating the operation of the voice activity detection apparatus according to this embodiment.
Bei
Eingabe des Eingangssignals in die Stimmaktivität-Detektionsvorrichtung 10 werden
zunächst
die Autokorrelationswerte des Eingangssignals durch die Autokorrelation-Berechnungseinheit 11 berechnet (Schritt
S11). Speziell wird jeder Autokorrelationswert c(t) für die Verzögerung t
des Eingangssignals x(n) mittels Gleichung (1) berechnet.Upon input of the input signal to the voice activity detection device 10 First, the autocorrelation values of the input signal are determined by the autocorrelation calculation unit 11 calculated (step S11). Specifically, each autocorrelation value c (t) for the delay t of the input signal x (n) is calculated by Equation (1).
Nachdem
die Autokorrelationswerte des Eingangssignals durch die Autokorrelation-Berechnungseinheit 11 berechnet
wurden, wird durch die Verzögerungs-Berechnungseinheit 12 eine
Verzögerung
berechnet, die dem maximalen Autokorrelationswert unter den Autokorrelationswerten
entspricht, die über
dem vorbestimmten Verzögerungsintervall
durch die Autokorrelation-Berechnungseinheit 11 berechnet
wurden (Schritt S12).After the autocorrelation values of the input signal by the autocorrelation calculation unit 11 calculated by the delay calculation unit 12 calculates a delay corresponding to the maximum autocorrelation value among the autocorrelation values that exceeds the predetermined delay interval by the autocorrelation calculation unit 11 were calculated (step S12).
Sobald
die Verzögerung
durch die Verzögerung-Berechnungseinheit 12 erhalten
wurde, wird durch die Rausch-Entscheidungseinheit 13 basierend
auf der durch die Verzögerung-Berechnungseinheit 12 berechneten
Verzögerung
bestimmt, ob es sich bei einem Eingangssignal um Rauschen handelt
oder nicht (Schritt S13). Speziell entscheidet die Rausch-Entscheidungseinheit 13,
dass es sich bei dem Eingangssignal nicht um Rauschen handelt, wenn
die in Gleichung (2) angegebene Bedingung für eine vorbestimmte Zeitperiode
erfüllt
ist. Im Gegensatz dazu entscheidet die Rausch-Entscheidungseinheit 13,
dass es sich bei dem Eingangssignal um ein Rauschen handelt, wenn
die durch die in Gleichung (2) angegebene Bedingung nicht während der
vorbestimmten Zeitperiode erfüllt
ist.Once the delay through the delay calculation unit 12 is received by the noise decision-making unit 13 based on the delay calculation unit 12 calculated delay determines whether or not an input signal is noise (step S13). Specifically, the noise decision unit decides 13 in that the input signal is not noise when the condition given in equation (2) is satisfied for a predetermined period of time. In contrast, the noise decision unit decides 13 in that the input signal is noise when the condition indicated by equation (2) is not satisfied during the predetermined time period.
Anschließend wird
das Rauschen aus dem Eingangssignal durch die Rausch-Abschätzungseinheit 14 abgeschätzt (Schritt
S14). Speziell wird das Rauschen mittels Gleichung (3) abgeschätzt, wobei
der Koeffizient α gemäß dem Ergebnis
der Entscheidung durch die Rausch-Entscheidungseinheit 13 angepasst
wird. Wenn durch die Rausch-Entscheidungseinheit 13 entschieden
wird, dass es sich bei dem Eingangssignal nicht um Rauschen handelt,
wird der Koeffizient α auf
Null (0) oder einen Koeffizientenwert α1 nahe Null gesetzt, um den
Pegel des abgeschätzten
Rauschens nicht zu erhöhen.
Wenn andererseits durch die Rausch- Entscheidungseinheit 13 entschieden
wird, dass es sich bei dem Eingangssignal um Rauschen handelt, wird
der Koeffizient auf Eins (1) oder einen Koeffizientenwert α2 nahe Eins
(α2 > α1) gesetzt, um den Pegel des
abgeschätzten
Rauschens in die Nähe
des Eingangssignals zu bringen.Subsequently, the noise from the input signal by the noise estimation unit 14 estimated (step S14). Specifically, the noise is estimated by Equation (3), where the coefficient α is determined according to the result of the decision by the noise decision unit 13 is adjusted. If through the noise decision unit 13 is decided that the input signal is not noise, the coefficient α is set to zero (0) or a coefficient value α1 close to zero so as not to increase the level of the estimated noise. If on the other hand by the noise decision unit 13 is decided that the input signal is noise, the coefficient is set to one (1) or a coefficient value α2 close to one (α2> α1) to bring the level of the estimated noise in the vicinity of the input signal.
Nachdem
das Rauschen durch die Rausch-Abschätzungseinheit 14 abgeschätzt wurde,
entscheidet die Aktivität-Entscheidungseinheit 15 über die
Aktivität
des Eingangssignals auf der Grundlage des Ergebnisses der Entscheidung
durch die Rausch-Entscheidungseinheit 13, des Eingangssignals
und des durch die Rausch-Abschätzungseinheit 14 abgeschätzten Rauschens
(Schritt S15). Speziell wird beispielsweise ein Signal-Rauschverhältnis aus
dem durch die Rausch-Abschätzungseinheit 14 abgeschätzten Rauschen
und dem Eingangssignal berechnet, und das berechnete Signal-Rauschverhältnis wird
mit einem vorbestimmten Schwellwert verglichen. Dann wird entschieden,
dass das Eingangssignal aktiv ist, wenn das Signal-Rauschverhältnis größer ist
als der Schwellwert, oder dass das Eingangssignal inaktiv ist, wenn
das Signal-Rauschverhältnis
kleiner oder gleich dem Schwellwert ist.After the noise through the noise estimation unit 14 the activity decision unit decides 15 on the activity of the input signal based on the result of the decision by the noise decision unit 13 , the input signal and the noise estimation unit 14 estimated noise (step S15). Specifically, for example, a signal-to-noise ratio becomes that from the noise estimation unit 14 estimated noise and the input signal, and the calculated signal-to-noise ratio is compared with a predetermined threshold. It is then decided that the input signal is active when the signal to noise ratio is greater than the threshold, or that the input signal is inactive when the signal noise ratio is less than or equal to the threshold.
Die
zeitliche Dauer des aktiven Intervalls wird durch die Geräuschintervall-Erkennungseinheit 16 gemessen.
Speziell wird die zeitliche Dauer des aktiven Intervalls gemessen,
indem das Entscheidungsergebnis der Aktivität-Entscheidungseinheit 15 direkt
verwendet wird. Alternativ kann die zeitliche Dauer des aktiven
Intervalls gemessen werden, indem die Zeit verwendet wird, während der
die Bitrate, die in dem Sprachcodierteil (in der Figur nicht gezeigt)
verwendet wird, größer ist
als die gewisse Schwelle.The duration of the active interval is determined by the noise interval detection unit 16 measured. Specifically, the time duration of the active interval is measured by the decision result of the activity decision unit 15 is used directly. Alternatively, the time duration of the active interval may be measured by using the time during which the bit rate used in the speech coding part (not shown in the figure) is greater than the certain threshold.
Wenn
die zeitliche Dauer des aktiven Intervalls, die durch die Geräuschintervall-Erkennungseinheit 16 gemessen
wird, der vorbestimmten Zeit entspricht oder sie übersteigt
(„ja" in Schritt S16),
wird das Rausch-Abschätzungsverfahren
geändert,
sodass das Eingangssignal wahrscheinlich als aktiv bestimmt wird
(Schritt S17). Das bedeutet speziell, dass dann, wenn die durch
die Geräuschintervall-Bestimmungseinheit 16 gemessene
zeitliche Dauer des Geräuschintervalls
der vor bestimmten Zeitperiode entspricht oder diese übersteigt, das
abgeschätzte
Rauschen noisem(n) bei der vorangehenden
Zeiteinheit (einen Rahmen vorher) in Gleichung (3) in der Rausch-Abschätzungseinheit 14 auf
den Anfangswert noise0(n) gesetzt wird.
Da der Anfangswert noise0(n) verglichen
mit dem Eingangssignal in dem aktiven Intervall auf einen hinreichend
kleinen Wert gesetzt ist, wird das geschätzte Rauschen klein, indem
das geschätzte
Rauschen noisem(n) bei der vorangehenden
Zeiteinheit (einen Rahmen vorher) in Gleichung (3) auf den Anfangswert
noise0(n) gesetzt wird, wodurch das Eingangssignal
in der Aktivität-Entscheidungseinheit 15 wahrscheinlich
als aktiv bewertet wird.When the time duration of the active interval by the noise interval detection unit 16 is measured equal to or exceeds the predetermined time ("Yes" in step S16), the noise estimation method is changed so that the input signal is likely to be determined as active (step S17) sound interval determination unit 16 measured time duration of the noise interval equal to or exceeding the predetermined time period, the estimated noise noise m (n) at the preceding unit time (a frame before) in equation (3) in the noise estimation unit 14 is set to the initial value noise 0 (n). Since the initial value noise 0 (n) is set to a sufficiently small value as compared with the input signal in the active interval, the estimated noise becomes small by dividing the estimated noise noise m (n) at the preceding unit time (one frame before) into Equation (3) is set to the initial value noise 0 (n), reducing the input signal in the activity decision unit 15 likely to be considered active.
Nachfolgend
werden die Auswirkungen der Stimmaktivität-Detektionsvorrichtung gemäß dieser
Ausgestaltung erläutert.
Die Stimmaktivität-Detektionsvorrichtung 10 gemäß dieser
Ausgestaltung misst die zeitliche Dauer des aktiven Intervalls mittels
der Geräuschintervall-Erkennungseinheit 16,
und wenn die zeitliche Dauer des aktiven Intervalls eine vorbestimmte
Zeitperiode erreicht oder übersteigt, ändert die
Rausch-Abschätzungseinheit 14 das
Rausch-Abschätzungsverfahren,
sodass das Eingangssignal wahrscheinlich als aktiv bestimmt wird.
Speziell wird das geschätzte
Rauschen noisem(n) bei der vorangehenden
Zeiteinheit (einen Rahmen zuvor) in Gleichung (3) auf den Anfangswert
noise0(n) gesetzt. Daher lässt sich
die Anzahl fehlerhafter Entscheidungen, das heißt ein Bewerten einer aktiven
Periode des Eingangssignals als inaktiv verringern, selbst wenn
die Genauigkeit der Rauschabschätzung
mit zunehmender Zeit abnimmt. Im Ergebnis kann die Aktivität des Eingangssignals
unabhängig
von der vergangenen Zeit richtig bestimmt werden.The effects of the voice activity detection apparatus according to this embodiment will be explained below. The voice activity detection device 10 According to this embodiment, measures the time duration of the active interval by means of the noise interval detection unit 16 and when the time duration of the active interval reaches or exceeds a predetermined time period, the noise estimation unit changes 14 the noise estimation method so that the input signal is likely to be determined as active. Specifically, the estimated noise noise m (n) at the preceding unit time (one frame before) in equation (3) is set to the initial value noise 0 (n). Therefore, even if the accuracy of the noise estimation decreases with increasing time, the number of erroneous decisions, that is, an evaluation of an active period of the input signal, can be reduced to inactive. As a result, the activity of the input signal can be properly determined regardless of the elapsed time.
In
der Stimmaktivität-Detektionsvorrichtung 10 gemäß dieser
Ausgestaltung wird das Rausch-Abschätzungsverfahren in der Rausch-Abschätzungseinheit 14 so
verändert,
dass das Eingangssignal wahrscheinlich als aktiv bestimmt wird,
wenn die zeitliche Dauer des aktiven Intervalls, die durch die Geräuschintervall-Erkennungseinheit 16 gemessen
wird, eine vorbestimmte Zeitperiode erreicht oder übersteigt.
Wenn jedoch die zeitliche Dauer des aktiven Intervalls eine vorbestimmte
Zeitperiode erreicht oder übersteigt,
können mehrere
veränderte
Ausgestaltungen geschaffen werden, welche innerhalb der technischen
Lehre der vorliegenden Er findung liegen, indem die Entscheidungsbedingung
zur Bewertung, ob das Eingangssignal aktiv ist oder nicht, derart
gelockert wird, dass das Eingangssignal wahrscheinlich als aktiv
bestimmt wird. Wenn beispielsweise die zeitliche Dauer des aktiven
Intervalls, die durch die Geräuschintervall-Erkennungseinheit 16 gemessen
wird, eine vorbestimmte Zeitperiode erreicht oder übersteigt,
kann das Verfahren zum Berechnen der Autokorrelation in der Autokorrelation-Berechnungseinheit 11,
das Verfahren zum Berechnen der Verzögerung in der Verzögerung-Berechnungseinheit 12,
das Verfahren zur Rauschbestimmung in der Rausch-Entscheidungseinheit 13 und
das Verfahren zur Aktivitätsentscheidung
in der Aktivität-Entscheidungseinheit 15 verändert werden.
Insbesondere kann dann, wenn die zeitliche Dauer des aktiven Intervalls,
die durch die Geräuschintervall-Erkennungseinheit 16 gemessen
wird, eine vorbestimmte Zeitperiode erreicht oder übersteigt, die
Verwendung der Parameter für
die Aktivitätserkennung,
wie die Autokorrelationswerte, die spektrale Einhüllende,
die Verzögerung,
die geschätzte
Rauschleistung oder das Signal-Rauschverhältnis verändert werden, oder diese Parameter
können
auf die jeweiligen Anfangswerte zurückgesetzt werden.In the voice activity detection device 10 According to this embodiment, the noise estimation method becomes the noise estimation unit 14 changed so that the input signal is likely to be determined as active when the time duration of the active interval by the noise interval detection unit 16 is measured, reaches or exceeds a predetermined period of time. However, when the time duration of the active interval reaches or exceeds a predetermined period of time, a plurality of modified embodiments can be provided, which are within the technical teaching of the present invention, by relaxing the decision condition for evaluating whether the input signal is active or not in that the input signal is probably determined to be active. For example, if the duration of the active interval by the noise interval detection unit 16 is measured, reaches or exceeds a predetermined period of time, the method for calculating the autocorrelation in the autocorrelation calculation unit 11 , the method for calculating the delay in the delay calculation unit 12 , the method for noise determination in the noise decision unit 13 and the method of activity decision in the activity decision unit 15 to be changed. In particular, if the time duration of the active interval determined by the noise interval detection unit 16 is measured, reaches or exceeds a predetermined period of time, the use of the parameters for the activity detection, such as the autocorrelation values, the spectral envelope, the delay, the estimated noise power or the signal-to-noise ratio are changed or these parameters can be reset to the respective initial values ,
Die
vorliegende Erfindung ist in einer Stimmaktivität-Detektionsvorrichtung einsetzbar,
um zu bestimmen, ob ein Eingangssignal aktiv ist und menschliche
Sprache enthält
oder ob ein Eingangssignal inaktiv ist und Informationen enthält, die
nicht übertragen
werden müssen,
wobei die Vorrichtung typischerweise in mobilen Telefonie-Dienstleistungen
oder Internet-Telefoniedienstleistungen verwendet wird.The
The present invention is useful in a voice activity detection device.
to determine if an input signal is active and human
Contains language
or whether an input signal is inactive and contains information that
not transferred
Need to become,
the device typically being used in mobile telephony services
or internet telephony services.
Es
ist offensichtlich, dass die Ausgestaltungen der Erfindung in vielfältiger Weise
abgeändert
werden können.
Derartige Abänderungen
werden nicht als Verlassen des Bereiches der Erfindung betrachtet,
und alle derartigen Abänderungen
fallen in den Schutzbereich der nachfolgenden Patentansprüche.It
is obvious that the embodiments of the invention in many ways
amended
can be.
Such modifications
are not considered as leaving the scope of the invention,
and all such modifications
fall within the scope of the following claims.