DE602004003209T2

DE602004003209T2 - Vorrichtung und Verfahren zur Sprachaktivitätsdetektion

Info

Publication number: DE602004003209T2
Application number: DE602004003209T
Authority: DE
Inventors: Inc. Nobuhiko NTT DoCoMo Naka; Inc. Tomoyuki NTT DoCoMo Ohya
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2003-12-25
Filing date: 2004-12-20
Publication date: 2007-09-06
Anticipated expiration: 2024-12-21
Also published as: CN1637856A; JP4490090B2; EP1548703B1; EP1548703A1; US20050154583A1; DE602004003209D1; US8442817B2; CN1311421C; JP2005189518A

Description

HINTERGRUND DER ERFINDUNG
Gebiet der Erfindung
Die Erfindung betrifft eine Sprachaktivitäts-Erfassungsvorrichtung und ein Sprachaktivitäts-Erfassungsverfahren.
Verwandter technischer Hintergrund
Diskontinuierliche Übertragung (DTX = Discontinuous Transmission) ist eine Technik, die üblicherweise bei Telefondiensten über ein Mobilgerät sowie bei Telefondiensten über das Internet zum Zweck einer Reduzierung der Sendeleistung oder einer Einsparung von Übertragungsbandbreite verwendet wird. Beim DTX-Betrieb kann ein inaktiver Zeitraum eines Eingangssignals, wie z. B. Stille und ein Hintergrundgeräusch oder -rauschen, im Vergleich zu einer Bitrate für einen Sprache, Musik oder spezielle Töne enthaltenden aktiven Zeitraum, mit geringerer Bitrate übertragen werden, oder die Übertragung kann während eines derartigen inaktiven Zeitraums gestoppt werden. Eine Sprachaktivitätserfassung (VAD), die eines der Schlüsselkomponenten des DTX-Betriebes ist, bestimmt, ob der aktuelle Zeitraum des zu codierenden Eingangssignals lediglich inaktive Information enthält, oder nicht.
Beispielsweise nutzt die VAD-Vorrichtung, die im nachfolgend aufgeführten Patentdokument 1 beschrieben ist, eine Autokorrelation eines Eingangssignals unter Ausnutzung der Periodizität der menschlichen Stimme. Insbesondere berechnet diese VAD-Vorrichtung eine Verzögerung, bei der der maximale Autokorrelationswert eines Eingangssignals innerhalb eines (vorbestimmten) Intervalls erhalten wird, und klassifiziert das Eingangssignal als aktiv, wenn die erhaltene Verzögerung in den Bereich des Teilungszeitraums der menschliche Stimme fällt, und klassifiziert das Eingangssignal als inaktiv, wenn die erhaltene Verzögerung außerhalb dieses Bereiches liegt.
Außerdem führt die im nachstehend aufgeführten Nicht-Patent-Dokument 1 beschriebene VAD-Vorrichtung eine Schätzung eines Hintergrundrauschens aus einem Eingangssignal durch und bestimmt, ob das Eingangssignal aktiv oder inaktiv ist, und zwar basierend auf dem Verhältnis des Eingangssignals zum geschätzten Rauschen (Rauschabstand oder SNR). Insbesondere berechnet diese VAD-Vorrichtung eine Verzögerung, bei der der maximale Autokorrelationswert eines Eingangssignals innerhalb eines (vorbestimmten) Intervalls erhalten wird, und eine Verzögerung, bei der der maximale gewichtete Autokorrelationswert des Eingangssignals erhalten wird, schätzt einen Hintergrundrauschpegel unter Anpassung des Schätzverfahrens auf Basis der Kontinuität dieser Verzögerungen (d. h. geringe Schwankung der aufeinanderfolgenden Verzögerungen für eine vorbestimmte Zeitdauer), und bestimmt daraufhm, dass das Eingangssignal aktiv ist, wenn der Rauschabstand gleich oder größer als ein Schwellenwert ist, der basierend auf dem geschätzten Hintergrundrauschpegel adaptiv berechnet wurde, oder bestimmt, dass das Eingangssignal inaktiv ist, wenn der Rauschabstand kleiner als der Schwellenwert ist.

[Patentdokument 1] Ungeprüfte japanische Patentpublikation Nr. 2002-162982
[Nicht-Patent-Dokument 1] 3GPP TS 26.094 V3.0.0
(http://www.3gpp.org/ftp/Specs/html-info/2694.htm)

Das Dokument von Lee I.D. et al.: "A voice activity detection algorithm for communication systems with varying dynamically background noise", published at Vehicular Technology Conference, 1998, VTC 98, 48^th IEEE, Ont., Canada 18-21 May 1998, New York, NY, USA, IEEE, US, Vol. 2, 18 May 1998, Seiten 1214-1218, erläutert einen Sprachaktivitäts-Erfassungsalgorithmus. Bei diesem wird eine Bestimmungsmatrix aus vier Parametern bestimmt, um einen Frame als Sprache oder Stille zu klassifizieren.
INHALT DER ERFINDUNG
Jedoch hat das zuvor beschriebene herkömmliche VAD die nachfolgend beschriebenen Probleme aufgeworfen. Das heißt, die VAD-Vorrichtungen, welche die zuvor beschriebenen Technologien verwenden, können nicht in genauer Weise eine Inaktivität eines Eingangssignals bestimmen, das viele nicht-periodische Komponenten und/oder eine Mehrzahl von unterschiedlichen periodischen Komponenten enthält.
Das Ziel der Erfindung besteht darin, eine VAD-Vorrichtung und ein VAD-Verfahren bereitzustellen, welche das zuvor beschriebene Problem lösen und befähigt sind, die Bestimmung einer Inaktivität für ein Eingangssignal durchzuführen, das viele nicht-periodische Komponenten und/oder eine Mehrzahl von gemischten unterschiedlichen periodischen Komponenten aufweist.
Gemäß der Erfindung werden eine Vorrichtung wie dargelegt in Anspruch 1 sowie ein Verfahren wie dargelegt in Anspruch 8 bereitgestellt. Bevorzugte Ausführungsformen sind in den unabhängigen Ansprüchen dargelegt.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 zeigt ein Konfigurationsdiagramm der Ton/Stille-Bestimmungsvorrichtung der ersten Ausführungsform;
2 zeigt ein spezielles Beispiel einer Verzögerungsberechnung;
3 zeigt ein Ablaufdiagramm, das die Funktionsweise der Ton/Stille-Bestimmungsvorrichtung der ersten Ausführungsform darstellt;
4 zeigt ein Konfigurationsdiagramm der Ton/Stille-Bestimmungsvorrichtung der zweiten Ausführungsform;
S zeigt ein Ablaufdiagramm, das die Funktionsweise der Ton/Stille-Bestimmungsvorrichtung der zweiten Ausführungsform darstellt;
6 zeigt ein Konfigurationsdiagramm der Ton/Stille-Bestimmungsvorrichtung der dritten Ausführungsform;
7 zeigt ein spezielles Beispiel einer Verzögerungsberechnung;
BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
Erste Ausführungsform
Eine Aktivitätsbestimmungsvorrichtung der ersten Ausführungsform der Erfindung wird mit Bezug auf die Zeichnungen beschrieben. Als Erstes wird die Konfiguration der Aktivitätsbestimmungsvorrichtung gemäß dieser Ausführungsform erläutert. 1 ist ein Diagramm der Aktivitätsbestimmungsvorrichtung gemäß dieser Ausführungsform.
Die Aktivitätsbestimmungsvorrichtung 1 ist physisch als Computersystem konfiguriert, das aus einer Zentralrecheneinheit (CPU), einem Speicher, Eingabevorrichtungen wie beispielsweise einer Maus und einer Tastatur, einer Anzeigeeinrichtung, einer Speichervorrichtung wie beispielsweise einer Festplatte, und einer Funkkommunikationseinheit zur Durchführen einer drahtlosen Datenkommunikation mit externen Geräten, etc. aufweist. Außerdem ist die Aktivitätsbestimmungsvorrichtung 1 funktional versehen mit, wie in 1 dargestellt, einer Autokorrelations-Berechnungseinheit 11 (Autokorrelations-Berechnungseinrichtung), emer Verzögerungsberechnungseinheit 12 (Verzögerungsberechnungseinrichtung), einer Rauschbestimmungseinheit 13 (Kennzeichenbestimmungseinrichtung), und einer Aktivitätsbestimmungseinheit 14 (Aktivitätsbestimmungseinrichtung). Jedes Bauelement der Aktivitätsbestimmungsvorrichtung 1 wird nachfolgend detailliert beschrieben.
Die Autokorrelations-Berechnungseinheit 11 berechnet Autokorrelationswerte eines Eingangssignals. Insbesondere berechnet die Autokorrelationsberechnungseinheit 11 Autokorrelationswerte c(t) eines Eingangssignals x(n) gemäß der folgenden Gleichung (1).
wobei x(n) (n = 0, 1, ..., N) der n-te Wert ist, der durch Abtasten eines mgangssignals bei jedem festen Zeitintervall (z. B. 1/8000 sec) über einen festen Zeitraum (z. B. 20 msec) erhalten wird, und t bezeichnet die Verzögerung. Außerdem wird die Autokorrelationswert c(t) bei jedem festen Zeitintervall (z. B. 1/8000 sec) über einen festen Zeitraum (z. B. 18 msec) als diskrete Werte erhalten.
Es ist nicht notwendigerweise erforderlich, dass die Autokorrelations-Berechnungseinheit 11 streng genommen Autokorrelationswerte gemäß der zuvor angegebenen Gleichung (1) berechnet. Beispielsweise kann die Autokorrelations-Berechnungseinheit 11 ausgelegt sein, um Autokorrelationswerte auf Basis eines wahrnehmungsmäßig gewichteten Eingangssignals, wie es verbreitet bei Sprachcodierern verwendet wird, zu berechnen. Weiterhin kann die Autokorrelations-Berechnungseinheit 11 ausgelegt sein, um Autokorrelationswerte zu gewichten, die auf Basis eines Eingangssignals berechnet werden, und gewichtete Autokorrelationswerte ausgeben.
Die Verzögerungsberechnungseinheit 12 berechnet eine Mehrzahl von Verzögerungen, bei denen durch die Autokorrelations-Berechnungseinheit 11 berechnete Autokorrelationswerte Maxima werden. Insbesondere sucht die Verzögerungsberechnungseinheit 12 Autokorrelationswerte innerhalb eines vorbestimmten Intervalls und berechnet M Verzögerungen, bei denen die Autokorrelationswerte Maxima werden, und zwar in der Reihenfolge ihrer Größe. Das heißt, wie in 2 dargestellt, die Verzögerungsberechnungseinheit 12 berechnet aufeinanderfolgend, in einem Verzögerungsbeobachtungsintervall zwischen min_t und max_t (z. B. zwischen 18 und 143 im Fall von AMR), eine Verzögerung t_max1, bei welcher der Autokorrelationswert am größten wird, und zwar aus den Verzögerungen, bei denen die Autokorrelationswerte Maxima werden, eine Verzögerung t_max2, bei welcher der Autokorrelationswert am zweitgrößten wird, und zwar aus den Verzögerungen, bei denen die Autokorrelationswerte Maxima werden, eine Verzögerung t_max3, bei welcher der Autokorrelationswert am drittgrößten wird, und zwar aus den Verzögerungen, bei denen die Autokorrelationswerte Maxima werden (hier wird der Fall von M = 3 beschrieben).
Erneut Bezug nehmend auf 1 bestimmt die Rauschbestimmungseinheit 13, ob das Eingangssignal ein Rauschen ist, oder nicht (ein Kennzeichen des Eingangssignals) und zwar auf Basis der Mehrzahl von Verzögerungen, die durch die Verzögerungsberechnungseinheit 12 berechnet werden. Die Rauschbestimmungseinheit 13 bestimmt, ob das Eingangssignal ein Rauschen ist, oder nicht, und zwar unter Verwendung zeitlicher Schwankungen t_maxi(k) (1 ≤ i ≤ M, 1 ≤ k ≤ K) der Mehrzahl von Verzögerungen t_maxi (1 ≤ i ≤ M), die von der Verzögerungsberechnungseinheit 12 berechnet werden, wobei k eine abhängige Variable ist, welche die Zeit repräsentiert. Insbesondere bestimmt die Rauschbestimmungseinheit 13, dass das Eingangssignal kein Rauschen ist, wenn ein Zustand, der die durch Gleichung (2) ausgedrückte Bedingung erfüllt, für eine vorbestimmte Zeit andauert (qualitativ ausgedrückt, wenn ein Zustand einer geringen Schwankung von Verzögerungen für eine vorbestimmte Zeit andauert). Umgekehrt bestimmt die Rauschbestimmungseinheit 13, dass das Eingangssignal ein Rauschen ist, wenn ein Zustand, der die durch Gleichung (2) ausgedrückte Bedingung erfüllt, nicht für einen festen Zeitraum andauert
In Gleichung (2) ist d ein vorbestimmter Schwellenwert der Verzögerungsdifferenz. Die Rauschbestimmungseinheit 13 kann bestimmen, ob das Eingangssignal ein Rauschen ist, oder nicht, und zwar unter Verwendung einer Prozedur außer der zuvor beschriebenen Prozedur, vorausgesetzt, dass sie auf Basis zeitlicher Schwankungen der Mehrzahl von Verzögerungen bestimmt, ob das Eingangssignal ein Rauschen ist, oder nicht.
Die Aktivitätsbestimmungseinheit 14 führt ein Bestimmen der Aktivität in Bezug auf das Eingangssignal auf Basis des Ergebnisses der durch die Rauschbestim mungseinheit 13 erfolgten Bestimmung sowie des Eingangssignals durch. Die Aktivitätsbestimmungseinheit 14 führt die Bestimmung für die Aktivität des Eingangssignals beispielsweise unter Verwendung des Ergebnisses der durch die Rauschbestimmungseinheit 13 erfolgten Bestimmung und des Ergebnisses der Analyse des Eingangssignals (Leistung, Spektrumshüllkurve (Spectrum Evelope), Anzahl der Nulldurchgänge, etc.) durch. Verschiedene verbreitet bekannte Verfahren können angewandt werden, um die Entscheidung über die Aktivität in Bezug auf das Eingangssignal unter Verwendung des Ergebnisses der durch die Rauschbestimmungseinheit 13 erfolgten Bestimmung des Ergebnisses der Analyse des Eingangssignals durchzuführen. Bei dieser Darstellung bezieht sich "inaktiv" auf einen als Information bedeutungslosen Ton, wie beispielsweise Stille und Hintergrundrauschen. Andererseits bezieht sich "aktiv" auf einen Ton, der als Information von Bedeutung ist, wie beispielsweise Sprache, Musik oder Töne.
Als Nächstes wird die Funktionsweise der Aktivitätsbestimmungsvorrichtung gemäß dieser Ausführungsformn beschrieben, und gleichzeitig wird das Aktivitätsbestimmungsverfahren der Ausführungsform der Erfindung ebenfalls beschrieben. 3 ist ein Ablaufdiagramm, das die Funktionsweise der Aktivitätsbestimmungsvorrichtung gemäß dieser Ausführungsform darstellt.
Nachdem ein Eingangssignal der Aktivitätsbestimmungsvorrichtung 1 zugeführt wird, werden als Erstes Autokorrelationswerte des Eingangssignals durch die Autokorrelationsberechnungseinheit 11 berechnet (S11). Insbesondere werden Autokorrelationswerte c(t) des Eingangssignals x(n) gemäß der zuvor beschriebenen Gleichung (1) berechnet.
Nachdem die Autokorrelationswerte des Eingangssignals durch die Autokorrelations-Berechnungseinheit 11 berechnet wurden, werden eine Mehrzahl von Verzögerungen, bei denen die von der Autokorrelations-Berechnungseinheit 11 berechneten Autokorrelationswerte Maxima werden, von der Verzögerungsberechnungseinheit 12 berechnet (S12). Insbesondere werden Autokorrelationswerte in einem vorbestimmten Verzögerungs-Beobachtungsintervall gesucht und M Verzögerungen (Ver zögerungen von t_max1 bis t_maxM), bei denen Autokorrelationswerte Maxima werden, in der Reihenfolge ihrer Größe berechnet.
Nachdem die Mehrzahl von Verzögerungen von der Verzögerungsberechnungseinheit 12 berechnet wurden, wird durch die Rauschbestimmungseinheit 13 bestimmt, ob das Eingangssignal ein Rauschen ist, oder nicht (ein Kennzeichen des Eingangssignals), und zwar auf Basis der Mehrzahl von durch die Verzögerungsberechnungseinheit 12 berechneten Verzögerungen (S13). Insbesondere wird, wenn ein Zustand, der die in der oben stehenden Gleichung (2) dargestellte Bedingung erfüllt, für eine vorbestimmte Zeit andauert, bestimmt, dass das Eingangssignal kein Rauschen ist. Umgekehrt wird, wenn ein Zustand, der die in Gleichung (2) dargestellte Bedingung erfüllt, nicht für einen festen Zeitraum fortdauert, bestimmt, dass das Eingangssignal ein Rauschen ist.
Nachdem durch die Rauschbestimmungseinheit 13 bestimmt wurde, ob das Eingangssignal ein Rauschen ist, oder nicht, wird die Entscheidung für die Aktivität in Bezug auf das Eingangssignal durch die Ton/Stille-Bestimmungseinheit 14 durchgeführt, und zwar auf Basis des durch die Rauschbestimmungseinheit 13 erhaltenen Bestimmungsergebnisses und des Eingangssignals (S14). Insbesondere wird bei der Entscheidung über die Aktivität in Bezug auf das Eingangssignal das durch die Rauschbestimmungseinheit 13 erhaltene Bestimmungsergebnis und das Ergebnis der Analyse des Eingangssignals (Leistung, Spektrumshüllkurve (Spectrum Evelope), Anzahl von Nulldurchgängen, etc.) verwendet.
Als Nächstes wird die Funktion und die Wirkung der Aktivitätsbestimmungseinrichtung gemäß dieser Ausführungsformn beschrieben. Bei der Aktivitätsbestimmungseinrichtung 1 gemäß dieser Ausführungsform berechnet die Verzögerungsberechnungseinheit 12 eine Mehrzahl von Verzögerungen t_max1 bis t_maxM, bei denen die Autokorrelationswerte Maxima werden, und die Rauschbestimmungseinheit 12 bestimmt, ob das Eingangssignal ein Rauschen ist, oder nicht, und zwar auf Basis der Mehrzahl von Verzögerungen t_max1 bis t_maxM, und die Aktivitätsbestimmungseinheit 14 führt die Bestimmung der Aktivität auf Basis des von der Rausch bestimmungseinheit 13 erhaltenen Bestimmungsergebnisses durch. Somit wird ermöglicht, die Entscheidung über die Aktivität in Bezug auf das Eingangssignal unter Berücksichtigung einer Mehrzahl von im Eingangssignal enthaltenen periodischen Komponenten durchzuführen. Als Ergebnis wird eine Aktivitätsbestimmung eines Eingangssignals ermöglicht, das Signale enthält, die viele aperiodische Komponenten und/oder eine Mehrzahl von unterschiedlichen periodischen Komponenten enthalten.
Außerdem führt bei der Aktivitätsbestimmungsvorrichtung 1 gemäß dieser Ausführungsform die Aktivitätsbestimmungseinheit 14 die Bestimmung der Aktivität in Bezug auf das betreffende Eingangssignal unter Verwendung nicht nur des durch die Rauschbestimmungseinheit 13 erhaltenen Bestimmungsergebnisses, sondern auch des Eingangssignals durch. Somit lässt sich eine feinere Bestimmungsprozedur als im Vergleich zu dem Fall bewerkstelligen, bei dem die Bestimmung der Aktivität in Bezug auf das Eingangssignal unter Verwendung lediglich des durch die Rauschbestimmungseinheit 13 erhaltenen Bestimmungsergebnisses erfolgt. Das heißt, es wird beispielsweise möglich, eine derartige Bestimmungsprozedur einzubeziehen, dass, auch wenn von der Rauschbestimmungseinheit 13 entschieden wird, dass das Eingangssignal ein Rauschen ist, entschieden wird, dass das Eingangssignal aktiv ist, wenn die Historie des Eingangssignals eine feste Bedingung erfüllt. In diesem Zusammenhang kann die Aktivitätsbestimmungseinheit 14 derart konfiguriert sein, dass die Bestimmung der Aktivität in Bezug auf das Eingangssignal ohne Verwendung des Analyseergebnisses des Eingangssignals erfolgt, sondern lediglich unter Verwendung des durch die Rauschbestimmungseinheit 13 erhaltenen Bestimmungsergebnisses. In diesem Fall kann die zuvor beschriebene feinere Bestimmungsprozedur nicht einbezogen werden, und die Bestimmungsprozedur wird einfach.
Außerdem berechnet bei der Aktivitätsbestimmungsvorrichtung 1 gemäß dieser Ausführungsform die Verzögerungsberechnungseinheit 12 eine Mehrzahl von Verzögerungen in der Reihenfolge der Größe in Bezug auf den Autokorrelationswert, wenn die Mehrzahl von Verzögerungen berechnet werden. Somit können, im Ver gleich zum Fall der Verwendung eines anderen Berechnungsverfahrens, eine Mehrzahl von Verzögerungen problemlos berechnet werden.
Zweite Ausführungsformn
Als Nächstes wird eine Aktivitätsbestimmungsvorrichtung der zweiten Ausführungsform der Erfindung mit Bezug auf die Zeichnungen beschrieben. Als Erstes wird die Konfiguration der Aktivitätsbestimmungsvorrichtung gemäß dieser Ausführungsform erläutert. 4 ist ein Konfigurationsdiagramm der Aktivitätsbestimmungsvorrichtung gemäß dieser Ausführungsform. Die Aktivitätsbestimmungsvorrichtung 2 gemäß dieser Ausführungsform unterscheidet sich von der Aktivitätsbestimmungsvorrichtung 1 der zuvor beschriebenen ersten Ausführungsform darin, dass die Aktivitätsbestimmungsvorrichtung 2 weiter eine Rauschschätzeinheit 21 (Rauschschätzeinrichtung) aufweist, welche ein Rauschen aus einem Eingangssignal schätzt, und die Aktivitätsbestimmungseinheit 22 die Bestimmung der Aktivität unter Verwendung eines Rauschens durchführt, das durch die Rauschschätzeinheit 21 geschätzt wird.
Die Aktivitätsbestimmungsvorrichtung 2 ist funktionell so konfiguriert, dass sie, wie in 4 dargestellt, mit einer Autokorrelations-Berechnungseinheit 11, einer Verzögerungsberechnungseinheit 12, einer Rauschbestimmungseinheit 13, einer Rauschschätzeinheit 21 und einer Aktivitätsbestimmungseinheit 22 versehen ist. Die Autokorrelations-Berechnungseinheit 11, die Verzögerungsberechnungseinheit 12 und die Rauschbestimmungseinheit 13 weisen Funktionen ähnlich denen der Autokorrelations-Berechnungseinheit 1, der Verzögerungsberechnungseinheit 12 bzw. der Rauschbestimmungseinheit 13 der Aktivitätsbestimmungsvorrichtung 1 der ersten Ausführungsform auf.
Die Rauschschätzeinheit 21 schätzt ein Rauschen aus einem Eingangssignal. Insbesondere schätzt die Rauschschätzeinheit 21 ein Rauschen beispielsweise gemäß der folgenden Gleichung (3).
wobei "noise" ein geschätztes Rauschen, "Input" ein Eingangssignal, "n" ein Index ist, der ein Frequenzband repräsentiert, "m" ein Index ist, der eine Zeit (frame) repräsentiert und "α" ein Koeffizient ist. Das heißt, noise_m(n) repräsentiert ein geschätztes Rauschen zu einer Zeit (frame) m im n-ten Frequenzband. Die Rauschschätzeinheit 21 ändert den Koeffizienten α in der oben angegebenen Gleichung (3) in Übereinstimmung mit dem durch die Rauschbestimmungseinheit 13 erhaltenen Bestimmungsergebnis. Das heißt, wenn von der Rauschbestimmungseinheit 13 bestimmt wird, dass das Eingangssignal kein Rauschen ist, setzt die Rauschschätzeinheit 21 den Koeffizienten α in der oben angegebenen Gleichung (3) auf 0 oder einen Wert α1 nahe 0, derart, dass keine Vergrößerung der Leistung des geschätzten Rauschens verursacht wird. Wenn andererseits von der Rauschbestimmungseinheit 13 bestimmt wird, dass das Eingangssignal ein Rauschen ist, setzt die Rauschschätzeinheit 21 den Koeffizienten α in der oben angegebenen Gleichung (3) auf 1 oder einen Wert α2 (α2 > α1) nahe 1, so dass verursacht wird, dass das geschätzte Rauschen nahe dem Eingangssignal ist. Die Rauschschätzeinheit 21 kann so ausgelegt sein, dass sie das Schätzen eines Rauschens aus dem Eingangssignal unter Verwendung einer Prozedur außer der zuvor beschriebenen Prozedur durchführt.
Die Aktivitätsbestimmungseinheit 22 führt die Bestimmung der Aktivität auf Basis des durch die Rauschbestimmungseinheit 13 erhaltenen Bestimmungsergebnisses, des Eingangssignals und des durch die Rauschschätzeinheit 21 geschätzten Rauschens durch. Insbesondere berechnet die Aktivitätsbestimmungseinheit 22 beispielsweise einen Rauschabstand (genauer gesagt den integrierten Wert oder einen Mittelwert von Rauschabständen in Frequenzbändern) aus dem durch die Rauschschätzeinheit 21 geschätzten Rauschen und dem Eingangssignal. Außerdem vergleicht die Aktivitätsbestimmungseinheit 22 den berechneten Rauschabstand und einen vorbestimmten Schwellenwert, und entscheidet, dass das Eingangssignal in einem Zustand mit vorhandenem Ton ist, wenn der Rauschabstand größer als der Schwellenwert ist, oder dass das Eingangssignal in einem stillen Zustand (in einem Zustand ohne vorhandenen Ton) ist, wenn der Rauschabstand gleich groß oder kleiner als der Schwellenwert ist. Der Schwellenwert wurde derart festgelegt, dass er mit dem durch die Rauschbestimmungseinheit 13 erhaltenen Bestimmungsergebnis variiert. Das heißt, der Schwellenwert wurde, in dem Fall, bei dem die Rauschbestimmungseinheit 13 entscheidet, dass ein Eingangssignal "kein Rauschen" ist, so festgelegt, dass es kleiner ist als in dem Fall, bei dem die Rauschbestimmungseinheit 13 bestimmt, dass das Eingangssignal ein Rauschen ist. Aus diesem Grund nimmt in dem Fall, bei dem die Rauschbestimmungseinheit 13 bestimmt, dass das Eingangssignal kein Rauschen ist, nimmt die Wahrscheinlichkeit zu, dass geringe Rauschabstände aufweisende Signale (d. h. Signale, die im Rauschen "vergraben" sind, als Sprachtonsignale extrahiert werden. Die Ton/Stille-Bestimmungseinheit 22 kann so ausgelegt sein, dass die Bestimmung, ob sich das Eingangssignal in einem Zustand mit vorhandenem Ton oder einem stillen Zustand befindet, unter Verwendung einer Prozedur außer der zuvor beschriebenen Prozedur erfolgt. Das heißt, die Auslegung kann derart sein, dass die zuvor erwähnten Schwellenwerte ungeachtet des durch die Rauschbestimmungseinheit 13 erhaltenen Bestimmungsergebnisses auf den gleichen Wert gesetzt werden, und die Aktivitätsbestimmungseinheit 21 kann die Bestimmung für die Aktivität in Bezug auf das Eingangssignal auf Basis des Eingangssignals und des durch die Rauschschätzeinheit 21 geschätzten Rauschens durchführen.
Als Nächstes wird die Funktionsweise der Aktivitätsbestimmungsvorrichtung gemäß dieser Ausführungsform beschrieben. 5 ist ein Ablaufdiagramm, das die Funktionsweise der Aktivitätsbestimmungsvorrichtung dieser Ausführungsform zeigt. Die Schritte, bei denen Autokorrelationswerte berechnet (S11), Verzögerungen t_max1 bis t_maxM berechnet werden (S12), und eine Entscheidung erfolgt, ob ein Signalzustand ein Rauschen ist oder nicht (S13), sind ähnlich denen der Ton/Stille-Bestimmungsvorrichtung 1 der ersten Ausführungsformn.
Nach den Schritten S11 bis S13 wird ein Rauschen aus dem Eingangssignal durch die Rauschbestimmungseinheit 21 geschätzt (S21). Insbesondere wird ein Rauschen gemäß der oben angegebenen Gleichung (3) geschätzt. Der Koeffizient α in der oben angegebenen Gleichung (3) variiert mit dem durch die Rauschbestimmungseinheit 13 erhaltenen Bestimmungsergebnis. Das heißt, wenn von der Rauschbe stimmungseinheit 13 bestimmt wird, dass das Eingangssignal kein Rauschen ist, wird der Koeffizienten α in der oben angegebenen Gleichung (3) auf 0 oder einen Wert α1 nahe 0 gesetzt, derart, dass die Leistung des geschätzten Rauschens nicht vergrößert wird. Wenn andererseits von der Rauschbestimmungseinheit 13 bestimmt wird, dass das Eingangssignal ein Rauschen ist, wird der Koeffizienten α in der oben angegebenen Gleichung (3) auf 1 oder einen Wert α2 (α2 > α1) nahe 1 gesetzt, so dass verursacht wird, dass das geschätzte Rauschen nahe dem Eingangssignal ist. Der Schritt, bei dem Rauschen geschätzt wird (S21), ist nicht darauf eingeschränkt, dass er nach den Schritten S11 bis S13 durchgeführt wird, sondern kann parallel zu den Schritten S11 bis S13 durchgeführt werden.
Nachdem ein Rauschen durch die Rauschschätzeinheit 21 geschätzt wurde, erfolgt die Entscheidung über die Aktivität in Bezug auf das Eingangssignal durch die Aktivitätsbestimmungseinheit 22 auf Basis des durch die Rauschbestimmungseinheit 13 erhaltenen Bestimmungsergebnisses, des Eingangssignals, und des durch die Rauschschätzeinheit 21 geschätzten Rauschens (S22). Insbesondere wird beispielsweise ein Rauschabstand aus dem durch die Rauschschätzeinheit 21 geschätzten Rauschen und dem Eingangssignal berechnet, und der berechnete Rauschabstand wird mit einem vorbestimmten Schwellenwert verglichen. Dann wird bestimmt, dass das Eingangssignal aktiv ist, wenn der Rauschabstand größer als der Schwellenwert ist, oder dass das Eingangssignal inaktiv ist, wenn der Rauschabstand gleich groß oder kleiner ist als der Schwellenwert.
Als Nächstes wird der Effekt der Aktivitätsbestimmungsvorrichtung gemäß dieser Ausführungsform beschrieben. Die Aktivitätsbestimmungsvorrichtung 2 gemäß dieser Ausführungsform hat, zusätzlich zum Effekt der Aktivitätsbestimmungsvorrichtung 1 der zuvor beschriebenen Ausführungsform, einen Vorteil wie nachfolgend beschrieben. Das heißt, bei der Aktivitätsbestimmungsvorrichtung 2 führt die Rauschschätzeinheit 21 ein Schätzen eines Rauschens aus einem Eingangssignal durch, und die Aktivitätsbestimmungseinheit 22 bestimmt, ob das Eingangssignal aktiv oder inaktiv ist, und zwar auf Basis des durch die Rauschbestimmungseinheit 13 erhaltenen Bestimmungsergebnisses, des Eingangssignals und des durch die Rauschschätzeinheit 21 geschätzten Rauschens. Somit wird ermöglicht, in genauer Weise zu bestimmen, ob ein Eingangssignal in einem Zustand mit vorhandenem Ton oder in einem Stimmenzustand ist, und zwar auf Basis des Rauschabstandes. Außerdem ändert die Rauschschätzeinheit 21 den Koeffizienten α der Rauschschätzgleichung (oben beschriebene Gleichung (3)) gemäß dem durch die Rauschbestimmungseinheit 13 erhaltenen Bestimmungsergebnis, und dadurch wird es möglich, genauer zu bestimmen, ob sich ein Eingangssignal in einem Zustand mit vorhandenem Ton oder in einem stillen Zustand befindet.
Dritte Ausführungsform
Als Nächstes wird eine Aktivitätsbestimmungsvorrichtung der dritten Ausführungsform der Erfindung mit Bezug auf die Zeichnungen beschrieben. 6 ist ein Konfigurationsdiagramm der Aktivitätsbestimmungsvorrichtung gemäß dieser Ausführungsform. Die Aktivitätsbestimmungsvorrichtung 3 gemäß dieser Ausführungsform unterscheidet sich von der Aktivitätsbestimmungsvorrichtung 2 der zuvor beschriebenen zweiten Ausführungsform darin, dass die Rauschschätzeinheit 31 das Verfahren des Schätzens eines Rauschens auf Basis des durch die Aktivitätsbestimmungseinheit 22 erhaltenen Bestimmungsergebnisses ändert.
Die Aktivitätsbestimmungsvorrichtung 3 ist funktionell so konfiguriert, dass sie, wie in 6 dargestellt, eine Autokorrelations-Berechnungseinheit 11, eine Verzögerungsberechnungseinheit 12, eine Rauschbestimmungseinheit 13, eine Rauschschätzeinheit 31 und eine Ton/Stille-Bestimmungseinheit 22 aufweist. Die Autokorrelations-Berechnungseinheit 11, die Verzögerungsberechnungseinheit 12, die Rauschbestimmungseinheit 13 und die Ton/Stille-Bestimmungseinheit 22 weisen Funktionen ähnlich denen der Autokorrelations-Berechnungseinheit 1, der Verzögerungsberechnungseinheit 12, der Rauschbestimmungseinheit 13 bzw. der Ton/Stille-Bestimmungseinheit 22 der Aktivitätsbestimmungsvorrichtung 2 der zweiten Ausführungsform auf.
Die Rauschschätzeinheit 31 schätzt ein Rauschen aus einem Eingangssignal, ähnlich wie die Rauschschätzeinheit 21 der Aktivitätsbestimmungsvorrichtung 2. Jedoch ändert die Rauschschätzeinheit 31 das Verfahren des Schätzens eines Rauschens insbesondere auf Basis des durch die Aktivitätsbestimmungseinheit 22 erhaltenen Bestimmungsergebnisses. Insbesondere führt die Rauschschätzeinheit 31 als Erstes ein Schätzen eines Rauschens gemäß der oben angegebenen Gleichung (3) durch. Danach gibt die Rauschschätzeinheit 31 einen Wert, der durch Multiplizieren des gemäß Gleichung (3) berechneten Rauschens mit einem Koeffizienten β erhalten wird, der gemäß der Historie des durch die Aktivitätsbestimmungseinheit 22 erhaltenen Bestimmungsergebnisses bestimmt wird, als ein endgültiges Rauschen aus. Beispielsweise macht die Rauschschätzeinheit 21 das Signal dadurch markant, dass sie den Koeffizienten β auf einen Wert kleiner als 1 festlegt, wenn die Aktivitätsbestimmungseinheit 22 für länger als ein fester Zeitraum kontinuierlich das Bestimmungsergebnis, dass das Signal ein Sprachtonsignal ist, ausgibt, und setzt in anderen Fällen den Koeffizienten β auf 1 fest. Es ist möglich, dass die Rauschschätzeinheit 31 das Verfahren zum Schätzen eines Rauschens unter Verwendung einer Prozedur außer der zuvor beschriebenen Prozedur ändert.
Die Aktivitätsbestimmungsvorrichtung 3 gemäß dieser Ausführungsform weist den nachfolgend beschriebenen Vorteil auf, und zwar zusätzlich zum Vorteil der Aktivitätsbestimmungsvorrichtung 2 der zuvor beschriebenen Ausführungsform. Das heißt, in der Aktivitätsbestimmungsvorrichtung 3 ändert die Rauschschätzeinheit 31 das Verfahren zum Schätzen eines Rauschens auf Basis des durch die Aktivitätsbestimmungseinheit 22 erhaltenen Bestimmungsergebnisses. Somit kann eine detailliertere Bestimmungsprozedur einbezogen werden. Das heißt, beispielsweise versucht die Aktivitätsbestimmungseinheit 22, den Pegel eines Rauschens, das durch die Rauschschätzeinheit 31 geschätzt wurde, aktiv zu vermindern, wenn fortgesetzt entschieden wird, dass ein Eingangssignal ein Sprachtonsignal ist, und dadurch werden die Signalkomponenten gegenüber dem Rauschen hervorgehoben.
Die Verzögerungsberechnungseinheit 12 der Aktivitätsbestimmungsvorrichtung 1, 2 oder 3 kann ausgelegt sein, um eine Mehrzahl von Verzögerungen unter Verwen dung einer nachfolgend dargestellten Prozedur zu berechnen. Das heißt, die Verzögerungsberechnungseinheit teilt ein Verzögerungsbeobachtungsintervall in eine Mehrzahl von Intervallen und berechnet eine Verzögerung, bei welcher der Autokorrelationswert, in jedem der Mehrzahl von Intervallen, am größten wird. In diesem Fall wird bestimmt, dass die Mehrzahl von Intervallen 2^i-1·min_t bis 2ⁱ·min_t ist (i: natürliche Zahl), wobei min_t die kürzeste Verzögerung im Intervall ist.
Insbesondere teilt, wie in 7 dargestellt, die Verzögerungsberechnungseinheit 12 ein Verzögerungsbeobachtungsintervall zwischen min_t und max_t, unter Verdoppeln der Zugriffswerte, in eine Mehrzahl von Intervallen auf, beispielsweise min_t bis 2·min_t, 2·min_t bis 4·min_t, und 4·min_t bis 8·min_t. Danach wird eine Verzögerung t_max1, bei welcher der Autokorrelationswert im Intervall zwischen min_t und 2·min_t am größten wird, eine Verzögerung t_max2, bei welcher der Autokorrelationswert im Intervall zwischen 2·min_t und 4·min_t am größten wird, eine Verzögerung t_max3, bei welcher der Autokorrelationswert im Intervall zwischen 4·min_t und 8·min_t am größten wird, nacheinander berechnet (hier ist der Fall von M = 3 beschrieben). Beispielsweise wird im Fall von AMR, da min_t den Wert 18 hat, eine Verzögerung, bei welcher der Autokorrelationswert am größten wird, in jedem der Intervalle [18, 35], [36, 71] und [72, 143] erhalten.
Eine derartige Intervallunterteilung für ein periodisches Signal erlaubt, dass Verzögerungen, die dem Doppelten der Periode des periodischen Signals entsprechen, in effizienter Weise erfasst werden, und dadurch ist es möglich, genauer zu entscheiden, ob das Signal ein Sprachtonsignal oder ein stummes Signal ist.
Die Erfindung ist, beispielsweise bei Mobiltelefonkommunikation oder Internet-Telefonie, auf eine Aktivitätsbestimmungsvorrichtung anwendbar, die bestimmt, ob ein Intervall ein Tonintervall, bei dem ein Eingangssignal einen Ton enthält, oder ein stilles Intervall ist, bei dem es nicht erforderlich ist, irgendwelche Informationen zu übertragen.
Aus der somit beschriebenen Erfindung geht klar hervor, dass die Ausführungsformen der Erfindung auf viele Arten variiert werden können. Derartige Variationen sind nicht als eine Abweichung vom Schutzumfang der Erfindung zu betrachten, und bei allen derartigen Modifikationen versteht es sich, wie für einen Fachmann offensichtlich ist, dass sie im Schutzumfang der folgenden Ansprüche enthalten sind.

Claims

Sprachaktivitätsbestimmungsvorrichtung (1) aufweisend: eine Autokorrelations-Berechnungseinrichtung (11) zum Berechnen von Autokorrelationswerten eines Eingangssignals; eine Verzögerungsberechnungseinrichtung (12) zur Berechnung einer Mehrzahl von Verzögerungen, bei denen Autokorrelationswerte, die von der Autokorrelations-Berechnungseinrichtung berechnet werden, Maxima werden; eine Kennzeichenbestimmungseinrichtung (13) zum Bestimmen eines Kennzeichens des Eingangssignals auf Basis der Mehrzahl von Verzögerungen, die von der Verzögerungsberechnungseinrichtung berechnet werden; und eine Aktivitätsbestimmungseinrichtung (14), welche die Bestimmung für die Aktivität hinsichtlich des Eingangssignals basierend auf dem Ergebnis der Bestimmung durchführt, die durch die Kennzeichenbestimmungseinrichtung erfolgt, dadurch gekennzeichnet, dass die Kennzeichenbestimmungseinrichtung (13) ausgebildet ist, eine Bestimmung auf Basis von zeitlichen Schwankungen der Mehrzahl von Verzögerungen vorzunehmen.
Sprachaktivitätsbestimmungsvorrichtung (1) nach Anspruch 1, bei der die Aktivitätsbestimmungseinrichtung (14) ausgebildet ist, um die Bestimmung der Aktivität hinsichtlich des Eingangssignals auf Basis des Ergebnisses der durch die Kennzeichenbestimmungseinrichtung (13) erfolgenden Bestimmung sowie auch des Eingangssignals vorzunehmen.
Sprachaktivitätsbestimmungsvorrichtung (1) nach Anspruch 1, welche weiter eine Rauschschätzeinrichtung (21) zum Schätzen eines Rauschens des Eingangssignals aufweist, wobei die durch die Aktivitätsbestimmungseinrichtung (14) erfolgende Bestimmung angepasst wird, und zwar auf Basis des Ergebnisses der durch die Kennzeichenbestimmungseinrichtung (13) erfolgenden Bestimmung, des Eingangssignals, und eines durch die Rauschschätzeinrichtung (21) geschätzten Rauschens.
Aktivitätsbestimmungsvorrichtung (1) nach Anspruch 3, bei der die Rauschschätzeinrichtung (21) ausgebildet ist, das Verfahren zum Schätzen eines Rauschens basierend auf dem Ergebnis der durch die Aktivitätsbestimmungseinrichtung (14) erfolgenden Bestimmung zu ändern.
Aktivitätsbestimmungsvorrichtung (1) nach Anspruch 1, bei der die Verzögerungsberechnungseinrichtung (12) ausgebildet ist, um die Mehrzahl von Verzögerungen in der Reihenfolge der Größe hinsichtlich des Autokorrelationswertes zu berechnen.
Aktivitätsbestimmungsvorrichtung (1) nach Anspruch 1, bei der die Verzögerungsberechnungseinrichtung (12) ausgebildet ist, um ein Verzögerungs-Beobachtungsintervall in eine Mehrzahl von Intervallen zu unterteilen und eine Verzögerung für jedes von der Mehrzahl von Intervallen, bei dem der Autokorrelationswert am größten wird, zu berechnen.
Aktivitätsbestimmungsvorrichtung (1) nach Anspruch 6, bei der die Mehrzahl von Intervallen repräsentiert ist durch 2^i-1·min_t bis 2ⁱ·min_t, i: natürliche Zahl, wobei min_t die kürzeste Verzögerung des Verzögerungs-Beobachtungsintervalls ist.
Sprachaktivitätsbestimmungsverfahren aufweisend: einen Autokorrelations-Berechnungsschritt (S11) zum Berechnen von Autokorrelationswerten eines Eingangssignals; einen Verzögerungsberechnungsschritt (S12) zur Berechnung einer Mehrzahl von Verzögerungen, bei denen Autokorrelationswerte, die beim Autokorrelations-Berechnungsschritt berechnet werden, Maxima werden; einen Kennzeichenbestimmungsschritt (S13) zum Bestimmen eines Kennzeichens des Eingangssignals auf Basis der Mehrzahl von Verzögerungen, die beim Verzögerungsberechnungsschritt berechnet werden; und einen Aktivitätsbestimmungsschritt (S14) zum Bestimmen der Aktivität des Eingangssignals basierend auf dem Ergebnis der Bestimmung beim Kennzeichenbestimmungsschritt, dadurch gekennzeichnet, dass beim Kennzeichenbestimmungsschritt (S13) das Bestimmen auf Basis von zeitlichen Schwankungen der Mehrzahl von Verzögerungen erfolgt.