DE602004003209T2 - Vorrichtung und Verfahren zur Sprachaktivitätsdetektion - Google Patents

Vorrichtung und Verfahren zur Sprachaktivitätsdetektion Download PDF

Info

Publication number
DE602004003209T2
DE602004003209T2 DE602004003209T DE602004003209T DE602004003209T2 DE 602004003209 T2 DE602004003209 T2 DE 602004003209T2 DE 602004003209 T DE602004003209 T DE 602004003209T DE 602004003209 T DE602004003209 T DE 602004003209T DE 602004003209 T2 DE602004003209 T2 DE 602004003209T2
Authority
DE
Germany
Prior art keywords
noise
input signal
determination
activity
autocorrelation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE602004003209T
Other languages
English (en)
Other versions
DE602004003209D1 (de
Inventor
Inc. Nobuhiko NTT DoCoMo Naka
Inc. Tomoyuki NTT DoCoMo Ohya
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of DE602004003209D1 publication Critical patent/DE602004003209D1/de
Application granted granted Critical
Publication of DE602004003209T2 publication Critical patent/DE602004003209T2/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephone Function (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • Gebiet der Erfindung
  • Die Erfindung betrifft eine Sprachaktivitäts-Erfassungsvorrichtung und ein Sprachaktivitäts-Erfassungsverfahren.
  • Verwandter technischer Hintergrund
  • Diskontinuierliche Übertragung (DTX = Discontinuous Transmission) ist eine Technik, die üblicherweise bei Telefondiensten über ein Mobilgerät sowie bei Telefondiensten über das Internet zum Zweck einer Reduzierung der Sendeleistung oder einer Einsparung von Übertragungsbandbreite verwendet wird. Beim DTX-Betrieb kann ein inaktiver Zeitraum eines Eingangssignals, wie z. B. Stille und ein Hintergrundgeräusch oder -rauschen, im Vergleich zu einer Bitrate für einen Sprache, Musik oder spezielle Töne enthaltenden aktiven Zeitraum, mit geringerer Bitrate übertragen werden, oder die Übertragung kann während eines derartigen inaktiven Zeitraums gestoppt werden. Eine Sprachaktivitätserfassung (VAD), die eines der Schlüsselkomponenten des DTX-Betriebes ist, bestimmt, ob der aktuelle Zeitraum des zu codierenden Eingangssignals lediglich inaktive Information enthält, oder nicht.
  • Beispielsweise nutzt die VAD-Vorrichtung, die im nachfolgend aufgeführten Patentdokument 1 beschrieben ist, eine Autokorrelation eines Eingangssignals unter Ausnutzung der Periodizität der menschlichen Stimme. Insbesondere berechnet diese VAD-Vorrichtung eine Verzögerung, bei der der maximale Autokorrelationswert eines Eingangssignals innerhalb eines (vorbestimmten) Intervalls erhalten wird, und klassifiziert das Eingangssignal als aktiv, wenn die erhaltene Verzögerung in den Bereich des Teilungszeitraums der menschliche Stimme fällt, und klassifiziert das Eingangssignal als inaktiv, wenn die erhaltene Verzögerung außerhalb dieses Bereiches liegt.
  • Außerdem führt die im nachstehend aufgeführten Nicht-Patent-Dokument 1 beschriebene VAD-Vorrichtung eine Schätzung eines Hintergrundrauschens aus einem Eingangssignal durch und bestimmt, ob das Eingangssignal aktiv oder inaktiv ist, und zwar basierend auf dem Verhältnis des Eingangssignals zum geschätzten Rauschen (Rauschabstand oder SNR). Insbesondere berechnet diese VAD-Vorrichtung eine Verzögerung, bei der der maximale Autokorrelationswert eines Eingangssignals innerhalb eines (vorbestimmten) Intervalls erhalten wird, und eine Verzögerung, bei der der maximale gewichtete Autokorrelationswert des Eingangssignals erhalten wird, schätzt einen Hintergrundrauschpegel unter Anpassung des Schätzverfahrens auf Basis der Kontinuität dieser Verzögerungen (d. h. geringe Schwankung der aufeinanderfolgenden Verzögerungen für eine vorbestimmte Zeitdauer), und bestimmt daraufhm, dass das Eingangssignal aktiv ist, wenn der Rauschabstand gleich oder größer als ein Schwellenwert ist, der basierend auf dem geschätzten Hintergrundrauschpegel adaptiv berechnet wurde, oder bestimmt, dass das Eingangssignal inaktiv ist, wenn der Rauschabstand kleiner als der Schwellenwert ist.
    • [Patentdokument 1] Ungeprüfte japanische Patentpublikation Nr. 2002-162982
    • [Nicht-Patent-Dokument 1] 3GPP TS 26.094 V3.0.0
    • (http://www.3gpp.org/ftp/Specs/html-info/2694.htm)
  • Das Dokument von Lee I.D. et al.: "A voice activity detection algorithm for communication systems with varying dynamically background noise", published at Vehicular Technology Conference, 1998, VTC 98, 48th IEEE, Ont., Canada 18-21 May 1998, New York, NY, USA, IEEE, US, Vol. 2, 18 May 1998, Seiten 1214-1218, erläutert einen Sprachaktivitäts-Erfassungsalgorithmus. Bei diesem wird eine Bestimmungsmatrix aus vier Parametern bestimmt, um einen Frame als Sprache oder Stille zu klassifizieren.
  • INHALT DER ERFINDUNG
  • Jedoch hat das zuvor beschriebene herkömmliche VAD die nachfolgend beschriebenen Probleme aufgeworfen. Das heißt, die VAD-Vorrichtungen, welche die zuvor beschriebenen Technologien verwenden, können nicht in genauer Weise eine Inaktivität eines Eingangssignals bestimmen, das viele nicht-periodische Komponenten und/oder eine Mehrzahl von unterschiedlichen periodischen Komponenten enthält.
  • Das Ziel der Erfindung besteht darin, eine VAD-Vorrichtung und ein VAD-Verfahren bereitzustellen, welche das zuvor beschriebene Problem lösen und befähigt sind, die Bestimmung einer Inaktivität für ein Eingangssignal durchzuführen, das viele nicht-periodische Komponenten und/oder eine Mehrzahl von gemischten unterschiedlichen periodischen Komponenten aufweist.
  • Gemäß der Erfindung werden eine Vorrichtung wie dargelegt in Anspruch 1 sowie ein Verfahren wie dargelegt in Anspruch 8 bereitgestellt. Bevorzugte Ausführungsformen sind in den unabhängigen Ansprüchen dargelegt.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 zeigt ein Konfigurationsdiagramm der Ton/Stille-Bestimmungsvorrichtung der ersten Ausführungsform;
  • 2 zeigt ein spezielles Beispiel einer Verzögerungsberechnung;
  • 3 zeigt ein Ablaufdiagramm, das die Funktionsweise der Ton/Stille-Bestimmungsvorrichtung der ersten Ausführungsform darstellt;
  • 4 zeigt ein Konfigurationsdiagramm der Ton/Stille-Bestimmungsvorrichtung der zweiten Ausführungsform;
  • S zeigt ein Ablaufdiagramm, das die Funktionsweise der Ton/Stille-Bestimmungsvorrichtung der zweiten Ausführungsform darstellt;
  • 6 zeigt ein Konfigurationsdiagramm der Ton/Stille-Bestimmungsvorrichtung der dritten Ausführungsform;
  • 7 zeigt ein spezielles Beispiel einer Verzögerungsberechnung;
  • BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Erste Ausführungsform
  • Eine Aktivitätsbestimmungsvorrichtung der ersten Ausführungsform der Erfindung wird mit Bezug auf die Zeichnungen beschrieben. Als Erstes wird die Konfiguration der Aktivitätsbestimmungsvorrichtung gemäß dieser Ausführungsform erläutert. 1 ist ein Diagramm der Aktivitätsbestimmungsvorrichtung gemäß dieser Ausführungsform.
  • Die Aktivitätsbestimmungsvorrichtung 1 ist physisch als Computersystem konfiguriert, das aus einer Zentralrecheneinheit (CPU), einem Speicher, Eingabevorrichtungen wie beispielsweise einer Maus und einer Tastatur, einer Anzeigeeinrichtung, einer Speichervorrichtung wie beispielsweise einer Festplatte, und einer Funkkommunikationseinheit zur Durchführen einer drahtlosen Datenkommunikation mit externen Geräten, etc. aufweist. Außerdem ist die Aktivitätsbestimmungsvorrichtung 1 funktional versehen mit, wie in 1 dargestellt, einer Autokorrelations-Berechnungseinheit 11 (Autokorrelations-Berechnungseinrichtung), emer Verzögerungsberechnungseinheit 12 (Verzögerungsberechnungseinrichtung), einer Rauschbestimmungseinheit 13 (Kennzeichenbestimmungseinrichtung), und einer Aktivitätsbestimmungseinheit 14 (Aktivitätsbestimmungseinrichtung). Jedes Bauelement der Aktivitätsbestimmungsvorrichtung 1 wird nachfolgend detailliert beschrieben.
  • Die Autokorrelations-Berechnungseinheit 11 berechnet Autokorrelationswerte eines Eingangssignals. Insbesondere berechnet die Autokorrelationsberechnungseinheit 11 Autokorrelationswerte c(t) eines Eingangssignals x(n) gemäß der folgenden Gleichung (1).
    Figure 00050001
    wobei x(n) (n = 0, 1, ..., N) der n-te Wert ist, der durch Abtasten eines mgangssignals bei jedem festen Zeitintervall (z. B. 1/8000 sec) über einen festen Zeitraum (z. B. 20 msec) erhalten wird, und t bezeichnet die Verzögerung. Außerdem wird die Autokorrelationswert c(t) bei jedem festen Zeitintervall (z. B. 1/8000 sec) über einen festen Zeitraum (z. B. 18 msec) als diskrete Werte erhalten.
  • Es ist nicht notwendigerweise erforderlich, dass die Autokorrelations-Berechnungseinheit 11 streng genommen Autokorrelationswerte gemäß der zuvor angegebenen Gleichung (1) berechnet. Beispielsweise kann die Autokorrelations-Berechnungseinheit 11 ausgelegt sein, um Autokorrelationswerte auf Basis eines wahrnehmungsmäßig gewichteten Eingangssignals, wie es verbreitet bei Sprachcodierern verwendet wird, zu berechnen. Weiterhin kann die Autokorrelations-Berechnungseinheit 11 ausgelegt sein, um Autokorrelationswerte zu gewichten, die auf Basis eines Eingangssignals berechnet werden, und gewichtete Autokorrelationswerte ausgeben.
  • Die Verzögerungsberechnungseinheit 12 berechnet eine Mehrzahl von Verzögerungen, bei denen durch die Autokorrelations-Berechnungseinheit 11 berechnete Autokorrelationswerte Maxima werden. Insbesondere sucht die Verzögerungsberechnungseinheit 12 Autokorrelationswerte innerhalb eines vorbestimmten Intervalls und berechnet M Verzögerungen, bei denen die Autokorrelationswerte Maxima werden, und zwar in der Reihenfolge ihrer Größe. Das heißt, wie in 2 dargestellt, die Verzögerungsberechnungseinheit 12 berechnet aufeinanderfolgend, in einem Verzögerungsbeobachtungsintervall zwischen min_t und max_t (z. B. zwischen 18 und 143 im Fall von AMR), eine Verzögerung t_max1, bei welcher der Autokorrelationswert am größten wird, und zwar aus den Verzögerungen, bei denen die Autokorrelationswerte Maxima werden, eine Verzögerung t_max2, bei welcher der Autokorrelationswert am zweitgrößten wird, und zwar aus den Verzögerungen, bei denen die Autokorrelationswerte Maxima werden, eine Verzögerung t_max3, bei welcher der Autokorrelationswert am drittgrößten wird, und zwar aus den Verzögerungen, bei denen die Autokorrelationswerte Maxima werden (hier wird der Fall von M = 3 beschrieben).
  • Erneut Bezug nehmend auf 1 bestimmt die Rauschbestimmungseinheit 13, ob das Eingangssignal ein Rauschen ist, oder nicht (ein Kennzeichen des Eingangssignals) und zwar auf Basis der Mehrzahl von Verzögerungen, die durch die Verzögerungsberechnungseinheit 12 berechnet werden. Die Rauschbestimmungseinheit 13 bestimmt, ob das Eingangssignal ein Rauschen ist, oder nicht, und zwar unter Verwendung zeitlicher Schwankungen t_maxi(k) (1 ≤ i ≤ M, 1 ≤ k ≤ K) der Mehrzahl von Verzögerungen t_maxi (1 ≤ i ≤ M), die von der Verzögerungsberechnungseinheit 12 berechnet werden, wobei k eine abhängige Variable ist, welche die Zeit repräsentiert. Insbesondere bestimmt die Rauschbestimmungseinheit 13, dass das Eingangssignal kein Rauschen ist, wenn ein Zustand, der die durch Gleichung (2) ausgedrückte Bedingung erfüllt, für eine vorbestimmte Zeit andauert (qualitativ ausgedrückt, wenn ein Zustand einer geringen Schwankung von Verzögerungen für eine vorbestimmte Zeit andauert). Umgekehrt bestimmt die Rauschbestimmungseinheit 13, dass das Eingangssignal ein Rauschen ist, wenn ein Zustand, der die durch Gleichung (2) ausgedrückte Bedingung erfüllt, nicht für einen festen Zeitraum andauert
    Figure 00060001
  • In Gleichung (2) ist d ein vorbestimmter Schwellenwert der Verzögerungsdifferenz. Die Rauschbestimmungseinheit 13 kann bestimmen, ob das Eingangssignal ein Rauschen ist, oder nicht, und zwar unter Verwendung einer Prozedur außer der zuvor beschriebenen Prozedur, vorausgesetzt, dass sie auf Basis zeitlicher Schwankungen der Mehrzahl von Verzögerungen bestimmt, ob das Eingangssignal ein Rauschen ist, oder nicht.
  • Die Aktivitätsbestimmungseinheit 14 führt ein Bestimmen der Aktivität in Bezug auf das Eingangssignal auf Basis des Ergebnisses der durch die Rauschbestim mungseinheit 13 erfolgten Bestimmung sowie des Eingangssignals durch. Die Aktivitätsbestimmungseinheit 14 führt die Bestimmung für die Aktivität des Eingangssignals beispielsweise unter Verwendung des Ergebnisses der durch die Rauschbestimmungseinheit 13 erfolgten Bestimmung und des Ergebnisses der Analyse des Eingangssignals (Leistung, Spektrumshüllkurve (Spectrum Evelope), Anzahl der Nulldurchgänge, etc.) durch. Verschiedene verbreitet bekannte Verfahren können angewandt werden, um die Entscheidung über die Aktivität in Bezug auf das Eingangssignal unter Verwendung des Ergebnisses der durch die Rauschbestimmungseinheit 13 erfolgten Bestimmung des Ergebnisses der Analyse des Eingangssignals durchzuführen. Bei dieser Darstellung bezieht sich "inaktiv" auf einen als Information bedeutungslosen Ton, wie beispielsweise Stille und Hintergrundrauschen. Andererseits bezieht sich "aktiv" auf einen Ton, der als Information von Bedeutung ist, wie beispielsweise Sprache, Musik oder Töne.
  • Als Nächstes wird die Funktionsweise der Aktivitätsbestimmungsvorrichtung gemäß dieser Ausführungsformn beschrieben, und gleichzeitig wird das Aktivitätsbestimmungsverfahren der Ausführungsform der Erfindung ebenfalls beschrieben. 3 ist ein Ablaufdiagramm, das die Funktionsweise der Aktivitätsbestimmungsvorrichtung gemäß dieser Ausführungsform darstellt.
  • Nachdem ein Eingangssignal der Aktivitätsbestimmungsvorrichtung 1 zugeführt wird, werden als Erstes Autokorrelationswerte des Eingangssignals durch die Autokorrelationsberechnungseinheit 11 berechnet (S11). Insbesondere werden Autokorrelationswerte c(t) des Eingangssignals x(n) gemäß der zuvor beschriebenen Gleichung (1) berechnet.
  • Nachdem die Autokorrelationswerte des Eingangssignals durch die Autokorrelations-Berechnungseinheit 11 berechnet wurden, werden eine Mehrzahl von Verzögerungen, bei denen die von der Autokorrelations-Berechnungseinheit 11 berechneten Autokorrelationswerte Maxima werden, von der Verzögerungsberechnungseinheit 12 berechnet (S12). Insbesondere werden Autokorrelationswerte in einem vorbestimmten Verzögerungs-Beobachtungsintervall gesucht und M Verzögerungen (Ver zögerungen von t_max1 bis t_maxM), bei denen Autokorrelationswerte Maxima werden, in der Reihenfolge ihrer Größe berechnet.
  • Nachdem die Mehrzahl von Verzögerungen von der Verzögerungsberechnungseinheit 12 berechnet wurden, wird durch die Rauschbestimmungseinheit 13 bestimmt, ob das Eingangssignal ein Rauschen ist, oder nicht (ein Kennzeichen des Eingangssignals), und zwar auf Basis der Mehrzahl von durch die Verzögerungsberechnungseinheit 12 berechneten Verzögerungen (S13). Insbesondere wird, wenn ein Zustand, der die in der oben stehenden Gleichung (2) dargestellte Bedingung erfüllt, für eine vorbestimmte Zeit andauert, bestimmt, dass das Eingangssignal kein Rauschen ist. Umgekehrt wird, wenn ein Zustand, der die in Gleichung (2) dargestellte Bedingung erfüllt, nicht für einen festen Zeitraum fortdauert, bestimmt, dass das Eingangssignal ein Rauschen ist.
  • Nachdem durch die Rauschbestimmungseinheit 13 bestimmt wurde, ob das Eingangssignal ein Rauschen ist, oder nicht, wird die Entscheidung für die Aktivität in Bezug auf das Eingangssignal durch die Ton/Stille-Bestimmungseinheit 14 durchgeführt, und zwar auf Basis des durch die Rauschbestimmungseinheit 13 erhaltenen Bestimmungsergebnisses und des Eingangssignals (S14). Insbesondere wird bei der Entscheidung über die Aktivität in Bezug auf das Eingangssignal das durch die Rauschbestimmungseinheit 13 erhaltene Bestimmungsergebnis und das Ergebnis der Analyse des Eingangssignals (Leistung, Spektrumshüllkurve (Spectrum Evelope), Anzahl von Nulldurchgängen, etc.) verwendet.
  • Als Nächstes wird die Funktion und die Wirkung der Aktivitätsbestimmungseinrichtung gemäß dieser Ausführungsformn beschrieben. Bei der Aktivitätsbestimmungseinrichtung 1 gemäß dieser Ausführungsform berechnet die Verzögerungsberechnungseinheit 12 eine Mehrzahl von Verzögerungen t_max1 bis t_maxM, bei denen die Autokorrelationswerte Maxima werden, und die Rauschbestimmungseinheit 12 bestimmt, ob das Eingangssignal ein Rauschen ist, oder nicht, und zwar auf Basis der Mehrzahl von Verzögerungen t_max1 bis t_maxM, und die Aktivitätsbestimmungseinheit 14 führt die Bestimmung der Aktivität auf Basis des von der Rausch bestimmungseinheit 13 erhaltenen Bestimmungsergebnisses durch. Somit wird ermöglicht, die Entscheidung über die Aktivität in Bezug auf das Eingangssignal unter Berücksichtigung einer Mehrzahl von im Eingangssignal enthaltenen periodischen Komponenten durchzuführen. Als Ergebnis wird eine Aktivitätsbestimmung eines Eingangssignals ermöglicht, das Signale enthält, die viele aperiodische Komponenten und/oder eine Mehrzahl von unterschiedlichen periodischen Komponenten enthalten.
  • Außerdem führt bei der Aktivitätsbestimmungsvorrichtung 1 gemäß dieser Ausführungsform die Aktivitätsbestimmungseinheit 14 die Bestimmung der Aktivität in Bezug auf das betreffende Eingangssignal unter Verwendung nicht nur des durch die Rauschbestimmungseinheit 13 erhaltenen Bestimmungsergebnisses, sondern auch des Eingangssignals durch. Somit lässt sich eine feinere Bestimmungsprozedur als im Vergleich zu dem Fall bewerkstelligen, bei dem die Bestimmung der Aktivität in Bezug auf das Eingangssignal unter Verwendung lediglich des durch die Rauschbestimmungseinheit 13 erhaltenen Bestimmungsergebnisses erfolgt. Das heißt, es wird beispielsweise möglich, eine derartige Bestimmungsprozedur einzubeziehen, dass, auch wenn von der Rauschbestimmungseinheit 13 entschieden wird, dass das Eingangssignal ein Rauschen ist, entschieden wird, dass das Eingangssignal aktiv ist, wenn die Historie des Eingangssignals eine feste Bedingung erfüllt. In diesem Zusammenhang kann die Aktivitätsbestimmungseinheit 14 derart konfiguriert sein, dass die Bestimmung der Aktivität in Bezug auf das Eingangssignal ohne Verwendung des Analyseergebnisses des Eingangssignals erfolgt, sondern lediglich unter Verwendung des durch die Rauschbestimmungseinheit 13 erhaltenen Bestimmungsergebnisses. In diesem Fall kann die zuvor beschriebene feinere Bestimmungsprozedur nicht einbezogen werden, und die Bestimmungsprozedur wird einfach.
  • Außerdem berechnet bei der Aktivitätsbestimmungsvorrichtung 1 gemäß dieser Ausführungsform die Verzögerungsberechnungseinheit 12 eine Mehrzahl von Verzögerungen in der Reihenfolge der Größe in Bezug auf den Autokorrelationswert, wenn die Mehrzahl von Verzögerungen berechnet werden. Somit können, im Ver gleich zum Fall der Verwendung eines anderen Berechnungsverfahrens, eine Mehrzahl von Verzögerungen problemlos berechnet werden.
  • Zweite Ausführungsformn
  • Als Nächstes wird eine Aktivitätsbestimmungsvorrichtung der zweiten Ausführungsform der Erfindung mit Bezug auf die Zeichnungen beschrieben. Als Erstes wird die Konfiguration der Aktivitätsbestimmungsvorrichtung gemäß dieser Ausführungsform erläutert. 4 ist ein Konfigurationsdiagramm der Aktivitätsbestimmungsvorrichtung gemäß dieser Ausführungsform. Die Aktivitätsbestimmungsvorrichtung 2 gemäß dieser Ausführungsform unterscheidet sich von der Aktivitätsbestimmungsvorrichtung 1 der zuvor beschriebenen ersten Ausführungsform darin, dass die Aktivitätsbestimmungsvorrichtung 2 weiter eine Rauschschätzeinheit 21 (Rauschschätzeinrichtung) aufweist, welche ein Rauschen aus einem Eingangssignal schätzt, und die Aktivitätsbestimmungseinheit 22 die Bestimmung der Aktivität unter Verwendung eines Rauschens durchführt, das durch die Rauschschätzeinheit 21 geschätzt wird.
  • Die Aktivitätsbestimmungsvorrichtung 2 ist funktionell so konfiguriert, dass sie, wie in 4 dargestellt, mit einer Autokorrelations-Berechnungseinheit 11, einer Verzögerungsberechnungseinheit 12, einer Rauschbestimmungseinheit 13, einer Rauschschätzeinheit 21 und einer Aktivitätsbestimmungseinheit 22 versehen ist. Die Autokorrelations-Berechnungseinheit 11, die Verzögerungsberechnungseinheit 12 und die Rauschbestimmungseinheit 13 weisen Funktionen ähnlich denen der Autokorrelations-Berechnungseinheit 1, der Verzögerungsberechnungseinheit 12 bzw. der Rauschbestimmungseinheit 13 der Aktivitätsbestimmungsvorrichtung 1 der ersten Ausführungsform auf.
  • Die Rauschschätzeinheit 21 schätzt ein Rauschen aus einem Eingangssignal. Insbesondere schätzt die Rauschschätzeinheit 21 ein Rauschen beispielsweise gemäß der folgenden Gleichung (3).
    Figure 00110001
    wobei "noise" ein geschätztes Rauschen, "Input" ein Eingangssignal, "n" ein Index ist, der ein Frequenzband repräsentiert, "m" ein Index ist, der eine Zeit (frame) repräsentiert und "α" ein Koeffizient ist. Das heißt, noisem(n) repräsentiert ein geschätztes Rauschen zu einer Zeit (frame) m im n-ten Frequenzband. Die Rauschschätzeinheit 21 ändert den Koeffizienten α in der oben angegebenen Gleichung (3) in Übereinstimmung mit dem durch die Rauschbestimmungseinheit 13 erhaltenen Bestimmungsergebnis. Das heißt, wenn von der Rauschbestimmungseinheit 13 bestimmt wird, dass das Eingangssignal kein Rauschen ist, setzt die Rauschschätzeinheit 21 den Koeffizienten α in der oben angegebenen Gleichung (3) auf 0 oder einen Wert α1 nahe 0, derart, dass keine Vergrößerung der Leistung des geschätzten Rauschens verursacht wird. Wenn andererseits von der Rauschbestimmungseinheit 13 bestimmt wird, dass das Eingangssignal ein Rauschen ist, setzt die Rauschschätzeinheit 21 den Koeffizienten α in der oben angegebenen Gleichung (3) auf 1 oder einen Wert α2 (α2 > α1) nahe 1, so dass verursacht wird, dass das geschätzte Rauschen nahe dem Eingangssignal ist. Die Rauschschätzeinheit 21 kann so ausgelegt sein, dass sie das Schätzen eines Rauschens aus dem Eingangssignal unter Verwendung einer Prozedur außer der zuvor beschriebenen Prozedur durchführt.
  • Die Aktivitätsbestimmungseinheit 22 führt die Bestimmung der Aktivität auf Basis des durch die Rauschbestimmungseinheit 13 erhaltenen Bestimmungsergebnisses, des Eingangssignals und des durch die Rauschschätzeinheit 21 geschätzten Rauschens durch. Insbesondere berechnet die Aktivitätsbestimmungseinheit 22 beispielsweise einen Rauschabstand (genauer gesagt den integrierten Wert oder einen Mittelwert von Rauschabständen in Frequenzbändern) aus dem durch die Rauschschätzeinheit 21 geschätzten Rauschen und dem Eingangssignal. Außerdem vergleicht die Aktivitätsbestimmungseinheit 22 den berechneten Rauschabstand und einen vorbestimmten Schwellenwert, und entscheidet, dass das Eingangssignal in einem Zustand mit vorhandenem Ton ist, wenn der Rauschabstand größer als der Schwellenwert ist, oder dass das Eingangssignal in einem stillen Zustand (in einem Zustand ohne vorhandenen Ton) ist, wenn der Rauschabstand gleich groß oder kleiner als der Schwellenwert ist. Der Schwellenwert wurde derart festgelegt, dass er mit dem durch die Rauschbestimmungseinheit 13 erhaltenen Bestimmungsergebnis variiert. Das heißt, der Schwellenwert wurde, in dem Fall, bei dem die Rauschbestimmungseinheit 13 entscheidet, dass ein Eingangssignal "kein Rauschen" ist, so festgelegt, dass es kleiner ist als in dem Fall, bei dem die Rauschbestimmungseinheit 13 bestimmt, dass das Eingangssignal ein Rauschen ist. Aus diesem Grund nimmt in dem Fall, bei dem die Rauschbestimmungseinheit 13 bestimmt, dass das Eingangssignal kein Rauschen ist, nimmt die Wahrscheinlichkeit zu, dass geringe Rauschabstände aufweisende Signale (d. h. Signale, die im Rauschen "vergraben" sind, als Sprachtonsignale extrahiert werden. Die Ton/Stille-Bestimmungseinheit 22 kann so ausgelegt sein, dass die Bestimmung, ob sich das Eingangssignal in einem Zustand mit vorhandenem Ton oder einem stillen Zustand befindet, unter Verwendung einer Prozedur außer der zuvor beschriebenen Prozedur erfolgt. Das heißt, die Auslegung kann derart sein, dass die zuvor erwähnten Schwellenwerte ungeachtet des durch die Rauschbestimmungseinheit 13 erhaltenen Bestimmungsergebnisses auf den gleichen Wert gesetzt werden, und die Aktivitätsbestimmungseinheit 21 kann die Bestimmung für die Aktivität in Bezug auf das Eingangssignal auf Basis des Eingangssignals und des durch die Rauschschätzeinheit 21 geschätzten Rauschens durchführen.
  • Als Nächstes wird die Funktionsweise der Aktivitätsbestimmungsvorrichtung gemäß dieser Ausführungsform beschrieben. 5 ist ein Ablaufdiagramm, das die Funktionsweise der Aktivitätsbestimmungsvorrichtung dieser Ausführungsform zeigt. Die Schritte, bei denen Autokorrelationswerte berechnet (S11), Verzögerungen t_max1 bis t_maxM berechnet werden (S12), und eine Entscheidung erfolgt, ob ein Signalzustand ein Rauschen ist oder nicht (S13), sind ähnlich denen der Ton/Stille-Bestimmungsvorrichtung 1 der ersten Ausführungsformn.
  • Nach den Schritten S11 bis S13 wird ein Rauschen aus dem Eingangssignal durch die Rauschbestimmungseinheit 21 geschätzt (S21). Insbesondere wird ein Rauschen gemäß der oben angegebenen Gleichung (3) geschätzt. Der Koeffizient α in der oben angegebenen Gleichung (3) variiert mit dem durch die Rauschbestimmungseinheit 13 erhaltenen Bestimmungsergebnis. Das heißt, wenn von der Rauschbe stimmungseinheit 13 bestimmt wird, dass das Eingangssignal kein Rauschen ist, wird der Koeffizienten α in der oben angegebenen Gleichung (3) auf 0 oder einen Wert α1 nahe 0 gesetzt, derart, dass die Leistung des geschätzten Rauschens nicht vergrößert wird. Wenn andererseits von der Rauschbestimmungseinheit 13 bestimmt wird, dass das Eingangssignal ein Rauschen ist, wird der Koeffizienten α in der oben angegebenen Gleichung (3) auf 1 oder einen Wert α2 (α2 > α1) nahe 1 gesetzt, so dass verursacht wird, dass das geschätzte Rauschen nahe dem Eingangssignal ist. Der Schritt, bei dem Rauschen geschätzt wird (S21), ist nicht darauf eingeschränkt, dass er nach den Schritten S11 bis S13 durchgeführt wird, sondern kann parallel zu den Schritten S11 bis S13 durchgeführt werden.
  • Nachdem ein Rauschen durch die Rauschschätzeinheit 21 geschätzt wurde, erfolgt die Entscheidung über die Aktivität in Bezug auf das Eingangssignal durch die Aktivitätsbestimmungseinheit 22 auf Basis des durch die Rauschbestimmungseinheit 13 erhaltenen Bestimmungsergebnisses, des Eingangssignals, und des durch die Rauschschätzeinheit 21 geschätzten Rauschens (S22). Insbesondere wird beispielsweise ein Rauschabstand aus dem durch die Rauschschätzeinheit 21 geschätzten Rauschen und dem Eingangssignal berechnet, und der berechnete Rauschabstand wird mit einem vorbestimmten Schwellenwert verglichen. Dann wird bestimmt, dass das Eingangssignal aktiv ist, wenn der Rauschabstand größer als der Schwellenwert ist, oder dass das Eingangssignal inaktiv ist, wenn der Rauschabstand gleich groß oder kleiner ist als der Schwellenwert.
  • Als Nächstes wird der Effekt der Aktivitätsbestimmungsvorrichtung gemäß dieser Ausführungsform beschrieben. Die Aktivitätsbestimmungsvorrichtung 2 gemäß dieser Ausführungsform hat, zusätzlich zum Effekt der Aktivitätsbestimmungsvorrichtung 1 der zuvor beschriebenen Ausführungsform, einen Vorteil wie nachfolgend beschrieben. Das heißt, bei der Aktivitätsbestimmungsvorrichtung 2 führt die Rauschschätzeinheit 21 ein Schätzen eines Rauschens aus einem Eingangssignal durch, und die Aktivitätsbestimmungseinheit 22 bestimmt, ob das Eingangssignal aktiv oder inaktiv ist, und zwar auf Basis des durch die Rauschbestimmungseinheit 13 erhaltenen Bestimmungsergebnisses, des Eingangssignals und des durch die Rauschschätzeinheit 21 geschätzten Rauschens. Somit wird ermöglicht, in genauer Weise zu bestimmen, ob ein Eingangssignal in einem Zustand mit vorhandenem Ton oder in einem Stimmenzustand ist, und zwar auf Basis des Rauschabstandes. Außerdem ändert die Rauschschätzeinheit 21 den Koeffizienten α der Rauschschätzgleichung (oben beschriebene Gleichung (3)) gemäß dem durch die Rauschbestimmungseinheit 13 erhaltenen Bestimmungsergebnis, und dadurch wird es möglich, genauer zu bestimmen, ob sich ein Eingangssignal in einem Zustand mit vorhandenem Ton oder in einem stillen Zustand befindet.
  • Dritte Ausführungsform
  • Als Nächstes wird eine Aktivitätsbestimmungsvorrichtung der dritten Ausführungsform der Erfindung mit Bezug auf die Zeichnungen beschrieben. 6 ist ein Konfigurationsdiagramm der Aktivitätsbestimmungsvorrichtung gemäß dieser Ausführungsform. Die Aktivitätsbestimmungsvorrichtung 3 gemäß dieser Ausführungsform unterscheidet sich von der Aktivitätsbestimmungsvorrichtung 2 der zuvor beschriebenen zweiten Ausführungsform darin, dass die Rauschschätzeinheit 31 das Verfahren des Schätzens eines Rauschens auf Basis des durch die Aktivitätsbestimmungseinheit 22 erhaltenen Bestimmungsergebnisses ändert.
  • Die Aktivitätsbestimmungsvorrichtung 3 ist funktionell so konfiguriert, dass sie, wie in 6 dargestellt, eine Autokorrelations-Berechnungseinheit 11, eine Verzögerungsberechnungseinheit 12, eine Rauschbestimmungseinheit 13, eine Rauschschätzeinheit 31 und eine Ton/Stille-Bestimmungseinheit 22 aufweist. Die Autokorrelations-Berechnungseinheit 11, die Verzögerungsberechnungseinheit 12, die Rauschbestimmungseinheit 13 und die Ton/Stille-Bestimmungseinheit 22 weisen Funktionen ähnlich denen der Autokorrelations-Berechnungseinheit 1, der Verzögerungsberechnungseinheit 12, der Rauschbestimmungseinheit 13 bzw. der Ton/Stille-Bestimmungseinheit 22 der Aktivitätsbestimmungsvorrichtung 2 der zweiten Ausführungsform auf.
  • Die Rauschschätzeinheit 31 schätzt ein Rauschen aus einem Eingangssignal, ähnlich wie die Rauschschätzeinheit 21 der Aktivitätsbestimmungsvorrichtung 2. Jedoch ändert die Rauschschätzeinheit 31 das Verfahren des Schätzens eines Rauschens insbesondere auf Basis des durch die Aktivitätsbestimmungseinheit 22 erhaltenen Bestimmungsergebnisses. Insbesondere führt die Rauschschätzeinheit 31 als Erstes ein Schätzen eines Rauschens gemäß der oben angegebenen Gleichung (3) durch. Danach gibt die Rauschschätzeinheit 31 einen Wert, der durch Multiplizieren des gemäß Gleichung (3) berechneten Rauschens mit einem Koeffizienten β erhalten wird, der gemäß der Historie des durch die Aktivitätsbestimmungseinheit 22 erhaltenen Bestimmungsergebnisses bestimmt wird, als ein endgültiges Rauschen aus. Beispielsweise macht die Rauschschätzeinheit 21 das Signal dadurch markant, dass sie den Koeffizienten β auf einen Wert kleiner als 1 festlegt, wenn die Aktivitätsbestimmungseinheit 22 für länger als ein fester Zeitraum kontinuierlich das Bestimmungsergebnis, dass das Signal ein Sprachtonsignal ist, ausgibt, und setzt in anderen Fällen den Koeffizienten β auf 1 fest. Es ist möglich, dass die Rauschschätzeinheit 31 das Verfahren zum Schätzen eines Rauschens unter Verwendung einer Prozedur außer der zuvor beschriebenen Prozedur ändert.
  • Die Aktivitätsbestimmungsvorrichtung 3 gemäß dieser Ausführungsform weist den nachfolgend beschriebenen Vorteil auf, und zwar zusätzlich zum Vorteil der Aktivitätsbestimmungsvorrichtung 2 der zuvor beschriebenen Ausführungsform. Das heißt, in der Aktivitätsbestimmungsvorrichtung 3 ändert die Rauschschätzeinheit 31 das Verfahren zum Schätzen eines Rauschens auf Basis des durch die Aktivitätsbestimmungseinheit 22 erhaltenen Bestimmungsergebnisses. Somit kann eine detailliertere Bestimmungsprozedur einbezogen werden. Das heißt, beispielsweise versucht die Aktivitätsbestimmungseinheit 22, den Pegel eines Rauschens, das durch die Rauschschätzeinheit 31 geschätzt wurde, aktiv zu vermindern, wenn fortgesetzt entschieden wird, dass ein Eingangssignal ein Sprachtonsignal ist, und dadurch werden die Signalkomponenten gegenüber dem Rauschen hervorgehoben.
  • Die Verzögerungsberechnungseinheit 12 der Aktivitätsbestimmungsvorrichtung 1, 2 oder 3 kann ausgelegt sein, um eine Mehrzahl von Verzögerungen unter Verwen dung einer nachfolgend dargestellten Prozedur zu berechnen. Das heißt, die Verzögerungsberechnungseinheit teilt ein Verzögerungsbeobachtungsintervall in eine Mehrzahl von Intervallen und berechnet eine Verzögerung, bei welcher der Autokorrelationswert, in jedem der Mehrzahl von Intervallen, am größten wird. In diesem Fall wird bestimmt, dass die Mehrzahl von Intervallen 2i-1·min_t bis 2i·min_t ist (i: natürliche Zahl), wobei min_t die kürzeste Verzögerung im Intervall ist.
  • Insbesondere teilt, wie in 7 dargestellt, die Verzögerungsberechnungseinheit 12 ein Verzögerungsbeobachtungsintervall zwischen min_t und max_t, unter Verdoppeln der Zugriffswerte, in eine Mehrzahl von Intervallen auf, beispielsweise min_t bis 2·min_t, 2·min_t bis 4·min_t, und 4·min_t bis 8·min_t. Danach wird eine Verzögerung t_max1, bei welcher der Autokorrelationswert im Intervall zwischen min_t und 2·min_t am größten wird, eine Verzögerung t_max2, bei welcher der Autokorrelationswert im Intervall zwischen 2·min_t und 4·min_t am größten wird, eine Verzögerung t_max3, bei welcher der Autokorrelationswert im Intervall zwischen 4·min_t und 8·min_t am größten wird, nacheinander berechnet (hier ist der Fall von M = 3 beschrieben). Beispielsweise wird im Fall von AMR, da min_t den Wert 18 hat, eine Verzögerung, bei welcher der Autokorrelationswert am größten wird, in jedem der Intervalle [18, 35], [36, 71] und [72, 143] erhalten.
  • Eine derartige Intervallunterteilung für ein periodisches Signal erlaubt, dass Verzögerungen, die dem Doppelten der Periode des periodischen Signals entsprechen, in effizienter Weise erfasst werden, und dadurch ist es möglich, genauer zu entscheiden, ob das Signal ein Sprachtonsignal oder ein stummes Signal ist.
  • Die Erfindung ist, beispielsweise bei Mobiltelefonkommunikation oder Internet-Telefonie, auf eine Aktivitätsbestimmungsvorrichtung anwendbar, die bestimmt, ob ein Intervall ein Tonintervall, bei dem ein Eingangssignal einen Ton enthält, oder ein stilles Intervall ist, bei dem es nicht erforderlich ist, irgendwelche Informationen zu übertragen.
  • Aus der somit beschriebenen Erfindung geht klar hervor, dass die Ausführungsformen der Erfindung auf viele Arten variiert werden können. Derartige Variationen sind nicht als eine Abweichung vom Schutzumfang der Erfindung zu betrachten, und bei allen derartigen Modifikationen versteht es sich, wie für einen Fachmann offensichtlich ist, dass sie im Schutzumfang der folgenden Ansprüche enthalten sind.

Claims (8)

  1. Sprachaktivitätsbestimmungsvorrichtung (1) aufweisend: eine Autokorrelations-Berechnungseinrichtung (11) zum Berechnen von Autokorrelationswerten eines Eingangssignals; eine Verzögerungsberechnungseinrichtung (12) zur Berechnung einer Mehrzahl von Verzögerungen, bei denen Autokorrelationswerte, die von der Autokorrelations-Berechnungseinrichtung berechnet werden, Maxima werden; eine Kennzeichenbestimmungseinrichtung (13) zum Bestimmen eines Kennzeichens des Eingangssignals auf Basis der Mehrzahl von Verzögerungen, die von der Verzögerungsberechnungseinrichtung berechnet werden; und eine Aktivitätsbestimmungseinrichtung (14), welche die Bestimmung für die Aktivität hinsichtlich des Eingangssignals basierend auf dem Ergebnis der Bestimmung durchführt, die durch die Kennzeichenbestimmungseinrichtung erfolgt, dadurch gekennzeichnet, dass die Kennzeichenbestimmungseinrichtung (13) ausgebildet ist, eine Bestimmung auf Basis von zeitlichen Schwankungen der Mehrzahl von Verzögerungen vorzunehmen.
  2. Sprachaktivitätsbestimmungsvorrichtung (1) nach Anspruch 1, bei der die Aktivitätsbestimmungseinrichtung (14) ausgebildet ist, um die Bestimmung der Aktivität hinsichtlich des Eingangssignals auf Basis des Ergebnisses der durch die Kennzeichenbestimmungseinrichtung (13) erfolgenden Bestimmung sowie auch des Eingangssignals vorzunehmen.
  3. Sprachaktivitätsbestimmungsvorrichtung (1) nach Anspruch 1, welche weiter eine Rauschschätzeinrichtung (21) zum Schätzen eines Rauschens des Eingangssignals aufweist, wobei die durch die Aktivitätsbestimmungseinrichtung (14) erfolgende Bestimmung angepasst wird, und zwar auf Basis des Ergebnisses der durch die Kennzeichenbestimmungseinrichtung (13) erfolgenden Bestimmung, des Eingangssignals, und eines durch die Rauschschätzeinrichtung (21) geschätzten Rauschens.
  4. Aktivitätsbestimmungsvorrichtung (1) nach Anspruch 3, bei der die Rauschschätzeinrichtung (21) ausgebildet ist, das Verfahren zum Schätzen eines Rauschens basierend auf dem Ergebnis der durch die Aktivitätsbestimmungseinrichtung (14) erfolgenden Bestimmung zu ändern.
  5. Aktivitätsbestimmungsvorrichtung (1) nach Anspruch 1, bei der die Verzögerungsberechnungseinrichtung (12) ausgebildet ist, um die Mehrzahl von Verzögerungen in der Reihenfolge der Größe hinsichtlich des Autokorrelationswertes zu berechnen.
  6. Aktivitätsbestimmungsvorrichtung (1) nach Anspruch 1, bei der die Verzögerungsberechnungseinrichtung (12) ausgebildet ist, um ein Verzögerungs-Beobachtungsintervall in eine Mehrzahl von Intervallen zu unterteilen und eine Verzögerung für jedes von der Mehrzahl von Intervallen, bei dem der Autokorrelationswert am größten wird, zu berechnen.
  7. Aktivitätsbestimmungsvorrichtung (1) nach Anspruch 6, bei der die Mehrzahl von Intervallen repräsentiert ist durch 2i-1·min_t bis 2i·min_t, i: natürliche Zahl, wobei min_t die kürzeste Verzögerung des Verzögerungs-Beobachtungsintervalls ist.
  8. Sprachaktivitätsbestimmungsverfahren aufweisend: einen Autokorrelations-Berechnungsschritt (S11) zum Berechnen von Autokorrelationswerten eines Eingangssignals; einen Verzögerungsberechnungsschritt (S12) zur Berechnung einer Mehrzahl von Verzögerungen, bei denen Autokorrelationswerte, die beim Autokorrelations-Berechnungsschritt berechnet werden, Maxima werden; einen Kennzeichenbestimmungsschritt (S13) zum Bestimmen eines Kennzeichens des Eingangssignals auf Basis der Mehrzahl von Verzögerungen, die beim Verzögerungsberechnungsschritt berechnet werden; und einen Aktivitätsbestimmungsschritt (S14) zum Bestimmen der Aktivität des Eingangssignals basierend auf dem Ergebnis der Bestimmung beim Kennzeichenbestimmungsschritt, dadurch gekennzeichnet, dass beim Kennzeichenbestimmungsschritt (S13) das Bestimmen auf Basis von zeitlichen Schwankungen der Mehrzahl von Verzögerungen erfolgt.
DE602004003209T 2003-12-25 2004-12-20 Vorrichtung und Verfahren zur Sprachaktivitätsdetektion Active DE602004003209T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003430973A JP4490090B2 (ja) 2003-12-25 2003-12-25 有音無音判定装置および有音無音判定方法
JP2003430973 2003-12-25

Publications (2)

Publication Number Publication Date
DE602004003209D1 DE602004003209D1 (de) 2006-12-28
DE602004003209T2 true DE602004003209T2 (de) 2007-09-06

Family

ID=34545038

Family Applications (1)

Application Number Title Priority Date Filing Date
DE602004003209T Active DE602004003209T2 (de) 2003-12-25 2004-12-20 Vorrichtung und Verfahren zur Sprachaktivitätsdetektion

Country Status (5)

Country Link
US (1) US8442817B2 (de)
EP (1) EP1548703B1 (de)
JP (1) JP4490090B2 (de)
CN (1) CN1311421C (de)
DE (1) DE602004003209T2 (de)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4380669B2 (ja) * 2006-08-07 2009-12-09 カシオ計算機株式会社 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム
CN101507349B (zh) * 2006-08-22 2012-08-22 株式会社Ntt都科摩 无线资源释放控制方法、无线基站以及移动台
US8588054B2 (en) * 2006-10-26 2013-11-19 Qualcomm Incorporated Silence intervals in wireless communications
KR101009854B1 (ko) * 2007-03-22 2011-01-19 고려대학교 산학협력단 음성 신호의 하모닉스를 이용한 잡음 추정 방법 및 장치
TWI378692B (en) * 2007-07-06 2012-12-01 Princeton Technology Corp Device for determining pn code automatically and related method
JP4516157B2 (ja) * 2008-09-16 2010-08-04 パナソニック株式会社 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
US20120265526A1 (en) * 2011-04-13 2012-10-18 Continental Automotive Systems, Inc. Apparatus and method for voice activity detection
RU2576339C2 (ru) * 2011-11-24 2016-02-27 Тойота Дзидося Кабусики Кайся Устройство обнаружения источника звука
CN110265059B (zh) * 2013-12-19 2023-03-31 瑞典爱立信有限公司 估计音频信号中的背景噪声
CN104916292B (zh) * 2014-03-12 2017-05-24 华为技术有限公司 检测音频信号的方法和装置
US10229686B2 (en) * 2014-08-18 2019-03-12 Nuance Communications, Inc. Methods and apparatus for speech segmentation using multiple metadata
CN115116441A (zh) * 2022-06-27 2022-09-27 南京大鱼半导体有限公司 一种语音识别功能的唤醒方法、装置及设备

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5912185B2 (ja) * 1978-01-09 1984-03-21 日本電気株式会社 有声無声判定装置
JPS56135898A (en) 1980-03-26 1981-10-23 Sanyo Electric Co Voice recognition device
GB2139052A (en) * 1983-04-20 1984-10-31 Philips Electronic Associated Apparatus for distinguishing between speech and certain other signals
JPH0824324B2 (ja) 1987-04-17 1996-03-06 沖電気工業株式会社 音声パケツト送信装置
JPS63281200A (ja) 1987-05-14 1988-11-17 沖電気工業株式会社 音声区間検出方式
US4811404A (en) * 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
IL84902A (en) * 1987-12-21 1991-12-15 D S P Group Israel Ltd Digital autocorrelation system for detecting speech in noisy audio signal
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
JPH0490599A (ja) * 1990-08-06 1992-03-24 Dsp Group Inc 音声操作式スイッチ
CA2110090C (en) * 1992-11-27 1998-09-15 Toshihiro Hayata Voice encoder
US5485522A (en) * 1993-09-29 1996-01-16 Ericsson Ge Mobile Communications, Inc. System for adaptively reducing noise in speech signals
US5657422A (en) * 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
JPH1091184A (ja) 1996-09-12 1998-04-10 Oki Electric Ind Co Ltd 音声検出装置
EP0867856B1 (de) * 1997-03-25 2005-10-26 Koninklijke Philips Electronics N.V. Verfahren und Vorrichtung zur Sprachdetektion
FI113903B (fi) 1997-05-07 2004-06-30 Nokia Corp Puheen koodaus
US5970441A (en) * 1997-08-25 1999-10-19 Telefonaktiebolaget Lm Ericsson Detection of periodicity information from an audio signal
FR2768544B1 (fr) * 1997-09-18 1999-11-19 Matra Communication Procede de detection d'activite vocale
US5991718A (en) * 1998-02-27 1999-11-23 At&T Corp. System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments
US6055499A (en) * 1998-05-01 2000-04-25 Lucent Technologies Inc. Use of periodicity and jitter for automatic speech recognition
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6493665B1 (en) * 1998-08-24 2002-12-10 Conexant Systems, Inc. Speech classification and parameter weighting used in codebook search
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
US6108610A (en) * 1998-10-13 2000-08-22 Noise Cancellation Technologies, Inc. Method and system for updating noise estimates during pauses in an information signal
JP2000250568A (ja) 1999-02-26 2000-09-14 Kobe Steel Ltd 音声区間検出装置
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
JP3983421B2 (ja) 1999-06-11 2007-09-26 三菱電機株式会社 音声認識装置
US6671667B1 (en) * 2000-03-28 2003-12-30 Tellabs Operations, Inc. Speech presence measurement detection techniques
WO2001078062A1 (en) * 2000-04-06 2001-10-18 Telefonaktiebolaget Lm Ericsson (Publ) Pitch estimation in speech signal
JP2001306086A (ja) 2000-04-21 2001-11-02 Mitsubishi Electric Corp 音声区間判定装置および音声区間判定方法
JP3840876B2 (ja) * 2000-05-16 2006-11-01 岩崎通信機株式会社 周期的信号検出装置
US7487083B1 (en) * 2000-07-13 2009-02-03 Alcatel-Lucent Usa Inc. Method and apparatus for discriminating speech from voice-band data in a communication network
US20020039425A1 (en) * 2000-07-19 2002-04-04 Burnett Gregory C. Method and apparatus for removing noise from electronic signals
WO2004084176A1 (ja) * 2000-08-15 2004-09-30 Yoichi Ando 音響評価方法およびそのシステム
US20020116186A1 (en) * 2000-09-09 2002-08-22 Adam Strauss Voice activity detector for integrated telecommunications processing
DE10052626A1 (de) * 2000-10-24 2002-05-02 Alcatel Sa Adaptiver Geräuschpegelschätzer
JP2002162982A (ja) * 2000-11-24 2002-06-07 Matsushita Electric Ind Co Ltd 有音無音判定装置及び有音無音判定方法
US7013269B1 (en) * 2001-02-13 2006-03-14 Hughes Electronics Corporation Voicing measure for a speech CODEC system
US7146314B2 (en) * 2001-12-20 2006-12-05 Renesas Technology Corporation Dynamic adjustment of noise separation in data handling, particularly voice activation
US6999087B2 (en) * 2002-03-12 2006-02-14 Sun Microsystems, Inc. Dynamically adjusting sample density in a graphics system
US20040064314A1 (en) * 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
KR100463417B1 (ko) * 2002-10-10 2004-12-23 한국전자통신연구원 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치
US20050015244A1 (en) * 2003-07-14 2005-01-20 Hideki Kitao Speech section detection apparatus
SG119199A1 (en) * 2003-09-30 2006-02-28 Stmicroelectronics Asia Pacfic Voice activity detector
JP4601970B2 (ja) * 2004-01-28 2010-12-22 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
US7529670B1 (en) * 2005-05-16 2009-05-05 Avaya Inc. Automatic speech recognition system for people with speech-affecting disabilities

Also Published As

Publication number Publication date
CN1637856A (zh) 2005-07-13
JP4490090B2 (ja) 2010-06-23
EP1548703B1 (de) 2006-11-15
EP1548703A1 (de) 2005-06-29
US20050154583A1 (en) 2005-07-14
DE602004003209D1 (de) 2006-12-28
US8442817B2 (en) 2013-05-14
CN1311421C (zh) 2007-04-18
JP2005189518A (ja) 2005-07-14

Similar Documents

Publication Publication Date Title
DE69534285T3 (de) Verfahren und Vorrichtung zur Auswahl der Kodierrate in einem Vocoder mit variabler Rate
DE602005000539T2 (de) Verstärkungsgesteuerte Geräuschunterdrückung
DE69913262T2 (de) Vorrichtung und verfahren zur anpassung der rauschschwelle zur sprachaktivitätsdetektion in einer nichtstationären geräuschumgebung
DE60125219T2 (de) Spektralmerkmal ersatz für die verschleierung von rahmenfehlern in einem sprachdekoder
DE60316704T2 (de) Mehrkanalige spracherkennung in ungünstigen umgebungen
DE60023517T2 (de) Klassifizierung von schallquellen
DE60131639T2 (de) Vorrichtungen und Verfahren zur Bestimmung von Leistungswerten für die Geräuschunterdrückung für ein Sprachkommunikationssystem
DE69535723T2 (de) Verfahren und vorrichtung zur sprachkodierung mit reduzierter, variabler bitrate
DE60122203T2 (de) Verfahren und system zur erzeugung von behaglichkeitsrauschen bei der sprachkommunikation
DE69925168T2 (de) Erkennung der aktivität komplexer signale für verbesserte sprach-/rauschklassifizierung von einem audiosignal
DE60034026T2 (de) Sprachverbesserung mit durch sprachaktivität gesteuerte begrenzungen des gewinnfaktors
DE60212617T2 (de) Vorrichtung zur sprachverbesserung
DE602004003209T2 (de) Vorrichtung und Verfahren zur Sprachaktivitätsdetektion
DE68910859T2 (de) Detektion für die Anwesenheit eines Sprachsignals.
DE69920461T2 (de) Verfahren und Vorrichtung zur robusten Merkmalsextraktion für die Spracherkennung
DE60118631T2 (de) Verfahren zum ersetzen verfälschter audiodaten
DE10017646A1 (de) Geräuschunterdrückung im Zeitbereich
DE60017763T2 (de) Verfahren und vorrichtung zur erhaltung einer ziel-bitrate in einem sprachkodierer
DE10041512A1 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE60117558T2 (de) Verfahren zur rauschrobusten klassifikation in der sprachkodierung
DE60122751T2 (de) Verfahren und vorrichtung für die objektive bewertung der sprachqualität ohne referenzsignal
EP1091349A2 (de) Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
DE112009005215T5 (de) Verfahren und Vorrichtung zur Audiosignalklassifizierung
DE60023851T2 (de) Verfahren und vorrichtung zur erzeugung von zufallszahlen für mit 1/8 bitrate arbeitenden sprachkodierer
DE602004004572T2 (de) Verfolgen von Vokaltraktresonanzen unter Verwendung einer zielgeführten Einschränkung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Representative=s name: GROSSE, SCHUMACHER, KNAUER, VON HIRSCHHAUSEN, 8033