DE69433254T2 - Verfahren und Vorrichtung zur Sprachdetektion - Google Patents

Verfahren und Vorrichtung zur Sprachdetektion Download PDF

Info

Publication number
DE69433254T2
DE69433254T2 DE69433254T DE69433254T DE69433254T2 DE 69433254 T2 DE69433254 T2 DE 69433254T2 DE 69433254 T DE69433254 T DE 69433254T DE 69433254 T DE69433254 T DE 69433254T DE 69433254 T2 DE69433254 T2 DE 69433254T2
Authority
DE
Germany
Prior art keywords
phoneme
likelihood
speech
frames
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69433254T
Other languages
English (en)
Other versions
DE69433254D1 (de
Inventor
Yoshihisa Neyagawa-shi Nakatoh
Takeshi Kadoma-shi Norimatsu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Application granted granted Critical
Publication of DE69433254D1 publication Critical patent/DE69433254D1/de
Publication of DE69433254T2 publication Critical patent/DE69433254T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

  • 1. Gebiet der Erfindung:
  • Die vorliegende Erfindung bezieht sich auf eine Vorrichtung zur Sprachdetektion, um unter Geräuschbedingungen in einer realistischen Umgebung, welche Sprache mit verschiedenen stationären und/oder nicht-stationären Geräuschen enthält, zu entscheiden, ob ein Eingangsignal Sprache oder Nichtsprache ist. Insbesondere bezieht sich die vorliegende Erfindung auf ein Verfahren zur Sprachdetektion und eine Vorrichtung zur Sprachdetektion einer Sprachperiode in einem Videokonferenzsystem, einem Audio-Wiedergabesystem eines Fernsehers oder einer Audio-Ausrüstung, einer Vorrichtung zur Spracherkennung oder dergleichen.
  • 2. Beschreibung des Standes der Technik
  • In letzter Zeit wurden digitale Signalprozesstechniken in großen Umfang in verschiedenen Gebieten elektrischer Ausrüstung benutzt. Z. B. sind auf dem Gebiet der Datenübertragungsausrüstung eine Technik und eine Vorrichtung zur Bilddaten-Übertragung wie auch Sprachdatenübertragung in Entwicklung, wodurch eine Kommunikation mit einem Gefühl der Präsenz ausgeführt wird. Video-Telefone und Video-Konferenzsysteme sind typische Beispiele von Anwendungen solcher Techniken, wobei ein TV-Bildschirm eine wichtige Rolle spielt. Insbesondere erfordert ein Video-Konferenzsystem, bei dem viele Leute Konversation haben können, eine Technik zur korrekten Antwort auf die Stimme eines Sprechers und zur geeigneten Änderung des TV-Bildschirms, um den momentanen Sprecher anzuzeigen.
  • Weiterhin sind in dem Audio-Wiedergabesystem eines Fernsehers oder einer Audio-Ausrüstung Techniken zum Hinzufügen eines Halls und/oder einer Reflektion zu einem wiedergegebenen Klang in Entwicklung, so dass ein Zuhörer ein Gefühl des Dabeiseins genießen kann. Wenn ein Breitbandsignal oder ein Stereosignal eines musikalischen Klangs oder dergleichen widergegeben wird, können künstliche Klänge, wie z. B. ein Hallklang oder ein Reflektionsklang zu dem Signal hinzugefügt werden, um so einen wünschenswerten Effekt zu erhalten. Wenn ein Sprachsignal oder ein Mono-Signal wiedergegeben wird, bekommen diese künstlichen Klänge nicht notwendigerweise einen beabsichtigten Effekt. In einigen Fällen kann der Verständlichkeitswert des Signals vermindert werden. Dementsprechend ist es notwendig zu entscheiden, ob das Eingangs-Audiosignal ein Sprachsignal oder ein Nichtsprachsignal ist, um so eine effektive Audio-Wiedergabe durch Hinzufügen der künstlichen Klänge nur zu Nichtsprach-Signalen, wie einem Musiksignal, auszuführen.
  • Darüber hinaus kann in dem System zur Ausführung einer Spracherkennung oder dergleichen in einem Fall, bei dem ein Geräusch, welches Nichtsprache ist, eingegeben und irrtümlicher Weise für Sprache gehalten wird, eine irrtümliche Wahrnehmung verursachen. Dementsprechend benötigt ein solches System eine Vorrichtung zur Sprachdetektion, welche in der Lage ist, richtig zu entscheiden, ob ein Eingangssignal ein Sprachsignal ist oder nicht.
  • Die Sprachdetektion wird hauptsächlich basierend auf der Mächtigkeit des Eingangssignals durchgeführt. Ein Bereich mit einem Mächtigkeitswert größer als ein vorbestimmter Grenzwert wird als Sprachsignal bewertet. Dieses Verfahren ist wegen der Einfachheit des Abarbeitens ziemlich weit verbreitet in Verwendung. In einem realistischen Umfeld mit verschiedenen Geräuschen kann jedoch ein Nichtsprach-Signal mit einer Mächtigkeit größer als der Grenzwert mit einer hohen Wahrscheinlichkeit eingegeben werden. Dementsprechend kann eine Sprachdetektion, welche auf einem einzelnen Merkmal der Mächtigkeit beruht, oftmals zu einer irrigen Entscheidung führen.
  • Mehrere Methoden zum Treffen einer Entscheidung, ob ein Eingangssignal Sprache oder Nichtsprache ist, wurden unter Verwendung einer Vielzahl von Parametern (charakteristische Quantitäten), die auf Spracheigenschaften außer der Mächtigkeit hinweisen, vorgeschlagen. Solch ein Verfahren ist beispielsweise beschrieben in N. Kobatake, K. Tawa, A. Ishisda, "Speech/Nonspeech Discrimination for Speech Recognition System Under Real Life Noise Environments" Proc. ICASSP, 89, 365–368 (1998). Dieses Verfahren verwendet zur Unterscheidung von Sprache/Nichtsprache in einem realistischen Umfeld akustisch wirksame Parameter zur Unterscheidung zwischen Sprachklängen und verschiedenen, nicht-stationären Geräuschen, welche in einem Labor oder einem Büro im täglichen Leben auftreten. Im einzelnen wird diese Sprache-/Nichtsprache-Unterscheidung durch die Verwendung eines Bereichs, der für einen Vokal gehalten wird, in einem Teil eines Sprach-Signals von großer Mächtigkeit, basierend auf dem Auftretensverhältnis der Vokalbereiche im Verhältnis zum Teil des Sprachsignals hoher Mächtigkeit, ausgeführt. Bei der Sprache/Nichtsprache-Unterscheidung werden fünf Audio-Parameter verwendet, d. h. die Periodizität, die Tonhöhenfrequenz, die optimale Aufeinanderfolge der linearen Prediktion, der Abstand zwischen fünf Vokalen und die Schärfe von Formanten. Ein oberer oder unterer Grenzwert wird für jeden der Parameter gesetzt. Anschließend werden fünf Parameter von einem Eingangssignal abgeleitet und die Sprache/Nichtsprache-Unterscheidung wird, basierend auf den Beziehungen zwischen den abgeleiteten Parametern und dem gesetzten oberen oder unteren Grenzwert, ausgeführt. Diese Methode ist jedoch wegen eines sehr komplizierten Berechnungsprozesses zur Ableitung von Parametern und zum Vergleichen eines jeden dieser mit dem oberen und dem unteren Grenzwert, sehr zeitaufwändig und hat somit Nachteile als praktikables Verfahren. Weiterhin ist dieses Verfahren stark durch die Varianz der Parameter, die durch die Hinzufügung eines feststehenden Geräuschs oder dergleichen verursacht wird, beeinflusst. Ein anderes Beispiel einer bekannten Vorrichtung zur Sprachdetektion ist in US-A-4920568 offenbart.
  • Weiterhin wurde ein Verfahren zur Entscheidung stimmhafter/nichtstimmhafter Sprache vorgeschlagen, obwohl dies kein Verfahren zur Sprache/Nichtsprache (Geräusch)-Unterscheidung ist. Beispielsweise ist solch ein Verfahren in B. S. Atal, L. R. Rabiner "A Pattern Recognition Approach to Voicedunvoiced-silence classification with application to- speech regognition", IEEE Trans. Acoust., Speech, Signal Processing, ASSP-24-3 (1976) beschrieben. In diesem Verfahren werden fünf Parameter verwendet, nämlich der Log Energie des Signals, Nulldurchgangsrate des Signales, Auto-Korrelations-Koeffizienten bei einheitlicher Abtastverzögerung, der erste Prediktions- bzw. Vorhersage-Koeffizient und der Log Energie des Vorhersagefehlers. Es wird eine Normalverteilung für jeden der Parameter angenommen, und die stimmhaft/nicht-stimmhaft Ruhe-Unterscheidung wird unter Verwendung von ähnlichen Wahrscheinlichkeiten durchgeführt. Die Unterscheidung wird jedoch für stationäre Geräusche oder Geräusche, deren Energie im Niederfrequenzbereich überwiegt, nicht korrekt durchgeführt, obwohl sie für Geräusche, deren Energie im Hochfrequenzbereich überwiegt, effektiv ist.
  • Zusammenfassung der Erfindung
  • Die vorliegende Erfindung, wie sie in den Ansprüchen 1 bis 20 beansprucht ist, stellt eine Vorrichtung zur Sprachdetektion und ein Verfahren zur Sprachdetektion zur Verfügung.
  • Somit ermöglicht die hierin beschriebene Erfindung die Vorteile des (1) Zurvertügungstellens eines Verfahren und einer Vorrichtung zur korrekten Durchführung einer Sprachdetektion mit einer einfachen Konstruktion, unter Verwendung eines statistischen Verfahrens, basierend auf den Parametern, die geeignet sind zur Detektion von Phonemen, wie z. B. einem Vokal und einem Reibelaut, die in der Sprache enthalten sind, und (2) des Zurverfügungstellens eines Verfahrens und einer Vorrichtung zur korrekten Durchführung von Sprachdetektion und zur Verhinderung einer irrigen Entscheidung, sogar wenn stationäre Geräusche oder Geräusche, deren Energie im Niederfrequenzbereich überwiegt, zur Sprache hinzugefügt werden.
  • Diese und andere Vorteile der vorliegenden Erfindung werden dem Fachmann durch Lesen und Verstehen der folgenden detaillierten Beschreibung unter Bezugnahme auf die anliegenden Zeichnungen klar.
  • Kurze Beschreibung der Zeichnungen
  • 1 ist ein Blockdiagramm, welches den Aufbau einer Vorrichtung zur Sprachdetektion nach einem ersten Beispiel der Erfindung zeigt.
  • 2 ist ein Blockdiagramm, welches schematisch den Ablauf in einem Parameter-Extraktor der Vorrichtung zur Sprachdetektion des ersten Beispiels der Erfindung zeigt.
  • Die 3A und 3B sind Ablaufdiagramme, welche jeweils schematisch den Ablauf in einer phonemischen Entscheidungseinheit der Vorrichtung zur Sprachdetektion des ersten Beispiels der Erfindung zeigen.
  • 4 ist ein Ablaufdiagramm, welches schematisch das Verfahren zur Entscheidung zeigt, welches in einer abschließenden Entscheidungseinheit des ersten Beispiels der Erfindung verwendet wird.
  • 5 ist ein Graph, der die Beziehung zwischen einer Sprachdetektions-Rate und einer Geräuschdetektions-Fehlerrate zeigt, wenn eine Vokalabschnittslänge geändert wird.
  • 6 ist ein Graph, der die Beziehung zwischen einer Sprachdetektionsrate und einer Geräuschdetektions-Fehlerrate zeigt, wenn das S/N-Verhältnis geändert wird.
  • 7 ist ein Blockdiagramm, welches den gesamten Aufbau einer Vorrichtung zur Sprachdetektion nach einem zweiten Beispiels der Erfindung zeigt.
  • Die 8A und 8B sind Ablaufdiagramme, welche jeweils den Ablauf in einer Fuzzy-Entscheidungseinheit zeigen.
  • 9 ist ein Diagramm, welches Mitgliedsfunktionen A11 bis A41 für eine Vokalgruppe zeigt.
  • 10 ist ein Diagramm, welches Mitgliedsfunktionen A12 bis A42 für eine Reibelaut-Gruppe zeigt.
  • 11 ist ein Blockdiagramm, welches den gesamten Aufbau einer Vorrichtung zur Sprachdetektion eines dritten Beispiels der Erfindung zeigt.
  • 12 ist eine Ansicht, welche schematisch den Betriebsablauf in einem Dauerverteilungs-Erzeuger zeigt.
  • 13 ist eine Ansicht, welche schematisch den Betriebsablauf in einem Dauer-Likelihood-Berechner zeigt.
  • 14 ist ein Blockdiagramm, welches den gesamten Aufbau einer Vorrichtung zur Sprachdetektion nach einem vierten Beispiel der Erfindung zeigt.
  • 15 ist ein Diagramm, welches die Auftretenfrequenz-Verteilung des Wertes des ersten Auto-Korrelations-Koeffizienten für 16 Phoneme zeigt, die von Trainingsdaten erhalten wurden.
  • 16 ist ein Diagramm, welches die Auftretenfrequenz-Verteilung des Wertes des ersten Auto-Korrelations-Koeffizienten für 22 Geräusche, die von Trainingsdaten erhalten wurden, zeigt.
  • 17 ist ein Diagramm, welches die Auftretenfrequenz-Verteilung des Wertes des siebten Auto-Korrelations-Koeffizienten für 16 Phoneme, die aus Trainingsdaten erhalten wurden, zeigt.
  • 18 ist ein Diagramm, welches die Auftretenfrequenz-Verteilung des Wertes des siebten Auto-Korrelations-Koeffizienten für 22 Geräusche, welche aus Trainingsdaten erhalten wurden, zeigt.
  • 19 ist ein Diagramm, welches die Auftretenfrequenz-Verteilung des Wertes des ersten Cepstrum-Koeffizienten für 16 Phoneme, welche aus Trainingsdaten erhalten wurden, zeigt.
  • 20 ist ein Diagramm, welches die Auftretenfrequenz-Verteilung des Wertes des ersten Cepstrum-Koeffizienten für 22 Geräusche, die aus Trainingsdaten erhalten wurden, zeigt.
  • 21 ist ein Diagramm, welches die Auftretenfrequenz-Verteilung des Wertes des dritten Cepstrum-Koeffizienten für 16 Phoneme, welche aus den Trainingsdaten erhalten wurden, zeigt.
  • 22 ist ein Diagramm, welches die Auftretenfrequenz-Verteilung für den Wert des dritten Cepstrum-Koeffizienten für 22 Geräusche, die aus den Trainingsdaten erhalten wurden, zeigt.
  • 23 ist ein Ablaufdiagramm, welches schematisch den Entscheidungsprozess in einer allgemeinen Entscheidungseinheit zeigt.
  • 24 ist ein Ablaufdiagramm, welches schematisch den Entscheidungsprozess in einer detaillierten Entscheidungseinheit zeigt.
  • Beschreibung der bevorzugten Ausführungsformen
  • Beispiel 1
  • Nun wird das Beispiel 1 der vorliegenden Erfindung beschrieben werden.
  • Zuerst wird im Folgenden die Gliederung eines Verfahrens zur Sprachdetektion gemäß Beispiel 1 beschrieben werden.
  • In Beispiel 1 wird eingangs ein Bezugsmodell eines jeden Vokals, basierend auf Trainingsdaten, erstellt. Bei der Erstellung des Vokal-Bezugsmodelles werden mehrere Parameter aus jedem Rahmen bzw. Frame der Trainingsdaten extrahiert, um einen Hauptwert und eine Kovarianzmatrix eines jeden der Parameter zu berechnen. Als nächstes werden solche Parameter aus jedem Rahmen bzw. Frame aus einem Eingangssignal, welches Gegenstand der Sprache-Nichtsprache-Entscheidung sein wird, aus jedem Rahmen bzw. Frame extrahiert. Die extrahierten Parameter werden mit dem Vokal-Bezugsmodell verglichen, um eine Ähnlichkeit (statistische Abstandsmessung) zu berechnen. Anschließend wird für jeden Vokal eine über die Frames gemittelte Ähnlichkeit basierend auf den Ähnlichkeiten für einen Frame, der Gegenstand der Sprache-/Nichtsprache-Entscheidung sein wird (z. B. ein Ziel-Frame) und mehrere seiner vorhergehenden und nachfolgenden Frames berechnet, und somit wird entscheiden, ob die Frames des Eingangssignals irgendwelche Vokale sind oder nicht. Weiterhin wird, weil für einen spezifischen Block im Eingangssignal (eine mögliche Sprachperiode) die Anzahl der Frames, welche derart bewertet wurden, dass sie irgendeiner der Vokale sind, mit einem vorbestimmten Grenzwert verglichen werden, um zu entscheiden, ob die mögliche Sprachperiode ein Sprachsignal ist oder nicht.
  • Hier können die oben erwähnten Parameter aus Auto-Korrelations-Koeffizient, Cepstrum-Koeffizienten, LPC- (lineare Prediktions- bzw. Vorhersagekodierungs-) Koeffizienten, PARCOR- (partielle Auto-Korrelations-) Koeffizienten, Melcepstrum-Koeffizienten, LSP- (lineare Spektrumpaar-) Koeffizienten und Parameter, welche durch FFT- (schnelle (Fast) Fourier-Transformation) und andere Sprachanalysen etc. erhalten wurden, ausgewählt werden.
  • Beispiel 1 wendet die Auto-Korrelations-Koeffizienten und die Cepstrum-Koeffizienten an. Ein Verfahren zum Erhalten dieser Parameter wird hier nicht im Detail beschrieben, da es bekannt ist und beispielsweise in der folgenden Literatur beschrieben ist: für die LSP-Koeffizienten, F. K. Soong, B. H. Juang, "Line Spectrum Pair (LSP) and Speech Data Compression", Proc. ICASSP, 84, pp. 1.10.1–1.10.4; wie für die anderen Parameter, L. R. Rabiner, R. W. Schafer, "Digital Processing of Speech Signals", Published by Prentice-Hall, Inc:; (1978).
  • Der oben erwähnte eine Rahmen bzw. Frame ist eine Periode des Sprachsignales, welcher mit einer Einheitszeit Ns × T korrespondiert, im Fall der Abtastung von Ns-Abtastungen, zur Analyse bei einer Abtastungsperiode T (Abtastfrequenz f). Insbesondere bedeutet der Frame eine Sprachperiode, welche durch Vervielfachen des Sprach-Signals durch eine Fensterfunktion aufgenommen wurde (z. B. eine Hamming-Funktion oder eine Hanning-Funktion). In diesem Beispiel 1 ist die Abtastfrequenz 10 KHZ, die Anzahl der Abtastungen ist 200 und ein Rahmen bzw. Frame dauert 20 msec.
  • Nun werden das Verfahren der Sprachdetektion und die Vorrichtung zur Sprachdetektion gemäß Beispiel 1 unter Bezugnahme auf die 1 bis 6 beschrieben.
  • 1 ist ein Blockdiagramm, welches den gesamten Aufbau einer Vorrichtung 10 zur Sprachdetektion gemäß Beispiel 1 zeigt. Die Vorrichtung 10 zur Sprachdetektion umfasst einen Parameter-Extraktor 11, einen Bezugsmodell-Ersteller 12, einen Ähnlichkeitsberechner 13, eine phonemische Entscheidungseinheit 14 und eine Abschlussentscheidungseinheit 15. Der Parameter-Extraktor 11 extrahiert eine Vielzahl von Parametern aus einem Eingangs-Audiosignal, die für die Sprachdetektion verwendet werden sollen. Basierend auf vorgegebenen ausführlichen Trainingsdaten für Vokale erzeugt der Bezugsmodell-Ersteller ein Bezugsmodell für jeden der Vokale, unter Verwendung der Parameter, die durch den Parameter-Extraktor 11 extrahiert wurden. Der Ähnlichkeitsberechner 13 berechnet eine Log Likelihood eines jeden Parameters für jeden Rahmen durch Vergleichen der Parameter, welche aus jedem Rahmen durch den Parameter-Extraktor 11 abgeleitet wurden, mit dem Bezugsmodell eines jeden Vokals. Die phonemische Entscheidungseinheit 14 berechnet eine über die Frames gemittelte Log Likelihood für jeden Vokal durch Bildung eines Durchschnitts der Log Likelihoods eines Ziel-Frames und mehrerer seiner vorhergehenden/nachfolgenden Frames, und entscheidet auf Basis der frame-gemittelten Log Likelihood, ob das Segment, welches den Ziel-Frame enthält, ein Vokal ist oder nicht. Die Abschlussentscheidungseinheit 15 entscheidet durch Vergleich der Anzahl der Rahmen, welche für einen Vokal gehalten werden, mit einem vorbestimmten Grenzwert, ob die mögliche Sprachperiode des Eingangs-Audiosignals ein Sprach-Signal ist oder nicht.
  • Wie in 1 gezeigt, umfasst der Parameter-Extraktor 11 einen Mächtigkeitsberechner 11a zur Berechnung der Mächtigkeit eines jeden Frames; einen Auto-Korrelations-Koeffizienten-Berechner 11b zur Berechnung der Auto-Korrelations-Koeffizienten für jeden Frame und einen Cepstrum-Koeffizienten-Berechner 11c zur Berechnung der Cepstrum-Koeffizienten für jeden Frame. Wie später im Detail beschreiben, werden der erste und der siebte Auto-Korrelations-Koeffizient und der erste und der dritte Cepstrum-Koeffizient berechnet. Diese Parameter werden zur Detektion der Vokalwahrscheinlichkeit des Eingangs-Audiosignals verwendet.
  • Das Verfahren zum Ausführen einer Sprachdetektion durch die Vorrichtung 10 zur Sprachdetektion wird detaillierter beschrieben.
  • Ein Audiosignal S0, welches von einem Mikrofon (nicht gezeigt) eingegeben wurde, wird an den Parameter-Extraktor 11 angelegt. Der Parameter-Extraktor 11 extrahiert eine Vielzahl von Parametern, die für die Sprachdetektion notwendig sind, in der folgenden Art und Weise.
  • Der Mächtigkeitsberechner 11a berechnet einen Mächtigkeitswert Pi eines jeden Rahmens des Audiosignals S0, beispielsweise gemäß der folgenden Gleichung (1).
  • Figure 00100001
  • Hier bezeichnet Pi den Mächtigkeitswert eines Frame bzw. Rahmens i und Sj bezeichnet eine j-ten Abtastwert im Rahmen i des Eingangssignals. Der Mächtigkeitswert Pi wird mit der Differenz zwischen dem Maximalwert und dem Minimalwert eines Bereichs großer Mächtigkeit normalisiert (z. B. auf einen Wert zwischen 0 und 1), so dass der Mächtigkeitswert Pi allgemein behandelt werden kann, sogar wenn die Mächtigkeit des Audiosignals SO wegen einer Änderung der Aussprachebedingungen variiert. Der berechnete Mächtigkeitswert Pi wird an die Abschlussentscheidungseinheit 15 als ein Signal S1 angelegt.
  • Im Auto-Korrelations-Koeffizienten-Berechner 11b, werden die Auto-Korrelations-Koeffizienten Ai(m) aus dem Eingangssignal SO gemäß der Gleichung (2) für jeden Frame bzw. Rahmen berechnet. Ai(m) bezeichnet einen normalisierten m-ten Auto-Korrelations-Koeffizienten des Rahmens i (Ai(m) ist normalisiert durch einen 0-ten Auto-Korrelations-Koeffizient Ai(0)).
  • Figure 00110001
  • Dieses Beispiel 1 verwendet den ersten Auto-Korrelations-Koeffizienten Ai(1) als einen Auto-Korrelations-Koeffizienten niedriger Ordnung und den siebten Auto-Korrelations-Koeffizienten Ai(7) als einen Auto-Korrelations-Koeffizienten von höherer Ordnung. Es sind jedoch ebenso andere Auto-Korrelations-Koeffizienten als der der ersten und siebten Ordnung verwendbar, und es ist möglich, drei oder mehrere Ordnungen von Auto-Korrelations-Koeffizienten zu verwenden.
  • Im Cepstrum-Koeffizienten-Berechner 11c wird der Cepstrum-Koeffizient Ci(m) der m-ten Ordnung des Rahmens i durch eine lineare Prediktions- bzw. Vorhersageanalyse erhalten. Beispiel 1 verwendet den ersten Cepstrum-Koeffizienten Ci(1) und den dritten Cepstrum-Koeffizienten Ci(3).
  • Die Abarbeitung im Parameter-Extraktor 11, welche schematisch durch 2 gezeigt ist, wird im Folgenden beschrieben werden.
  • Zuerst wird das Eingangssignal mit der Abtastfrequenz von 10 KHz abgetastet (Schritt 101), und 20 Abtastwerte Sj (J = 1 bis 200) pro Rahmen (20 ms) werden aufgenommen (Schritt 102) durch Vervielfältigen desselben durch eine Fensterfunktion (Hammming-Funktion). Nach dem Durchführen einer Vorgewichtung (Schritt 103) wird Sj × Sj' (j' = j, j + 1, j + 7) entsprechend der oben erwähnten Gleichung 2 erhalten. Durch aufaddieren eines jeden der Sj × Sj's eines jeden Rahmens, werden die Auto-Korrelations-Koeffizienten Ai(m), die nicht normalisiert sind, berechnet (Schritt 104). Der Auto-Korrelations-Koeffizient Ai(0), bei dem j = j' ist (d. h. die 0-te Ordnung) ist der Mächtigkeitswert Pi. Die Auto-Korrelations-Koeffizienten Ai(m) werden mit diesem Wert normalisiert (Schritt 105). Danach werden die LPC-Koeffizienten durch Verwendung einer üblichen Technik erhalten und die Cepstrum-Koeffizienten Ci(m) (m = 1, 3) werden berechnet (Schritte 106 und 107). Die Parameter, die in Beispiel 1 verwendet werden, werden durch den Ablauf wie oben beschrieben, erhalten.
  • Im Bezugsmodell-Ersteller 12 werden die Parameter, welche in dem Parameter-Extraktor 11 verwendet werden sollen, aus Vokalbereichen von verschiedenen Trainings-Audiodaten extrahiert. Anschließend werden ein Hauptwert und eine Kovarianz-Matrix für jeden Vokal berechnet, basierend auf dem Parameter, welcher aus den Trainingsdaten extrahiert wurde, um das Bezugsmodell für jeden Vokal zur Verfügung zu stellen.
  • Die Parameter für jeden Vokal k werden wie folgt extrahiert. Zuerst wird ein Satz von Q-Trainingsdaten {yk,q}(q = 1, ..., Q) (im Folgenden als {yk} bezeichnet, mit q der Einfachheit halber weggelassen, während{ } stellvertretend für einen Satz zusammengestellt aus Q-Daten steht) für jeden Vokal k erstellt. In dem Fall, wo r Parameter für den Vokal k extrahiert werden, können alle Daten yk als ein r-dimensionaler Vektor, bestimmt durch r Komponenten (d. h. ein Vektor in einem r-dimensionalen Parameterraum) repräsentiert werden. Dieser r-dimensionale Vektor yk im Parameterraum wird ein Parametervektor genannt.
  • In diesem Beispiel 1 ist die Modellform des Bezugsmodells eines jeden Phonemes durch einen Hauptwert μk und eine Kovarianz-Matrix Σk des Parametervektors {yk} repräsentiert. Der Hauptwert μk ist ein r-dimensionaler Vektor und die Kovarianz-Matrix Σk ist eine r × r-dimensionelle Matrix. Unter der Annahme, dass yk eine multidimensionale normale Verteilung r-ter Dimension ist, kann dessen Hauptwert μk und Kovarianz-Matrix Σk wie in den Gleichungen (3) und (4) gezeigt, berechnet werden, wobei t eine Transponierte bezeichnet.
  • Figure 00120001
  • Die Trainingsdaten für jeden Vokal k können wie folgt vorbereitet werden: ein Signalbereich, welcher mit jedem Vokal k korrespondiert, wird von einen Sprach-Signal eines Referenzsprechers aufgenommen und die Daten des Zentral-Rahmens bzw. -Frames des Vokalbereichs des Signals und der vorhergehenden und nachfolgenden zwei Rahmen bzw. Frames werden als Trainings-Vokaldaten benutzt. Zusätzlich ist es möglich, das Bezugsmodell durch die Verwendung einer Vielzahl von Referenz-Sprechern weniger anfällig gegenüber Aussprachevarianten, verursacht durch unterschiedliche Sprecher, zu machen.
  • Der Ähnlichkeitsberechner 13 berechnet die Ähnlichkeit eines Eingangsvektors xi unter Einbeziehung eines jeden Bezugsmodelles vk basierend auf dem Satz von r Parametern, die durch den Parameter-Extraktor 11 für jeden Rahmen bzw. Frame vorgegeben wurden (d. h. ein Eingangsvektor xi in dem r-dimensionalen Raum, welcher für jeden Rahmen i gegeben ist) und das Bezugsmodell vk eines jeden Vokals k, das durch den Vokal-Bezugsmodell-Ersteller 12 hergestellt wurde. Für die Berechnung der Ähnlichkeit wird die statistische Abstandsmessung (Aufzeichnungswahrscheinlichkeit bzw. Log Likelihood) verwendet, unter der Annahme, dass der Eingangsvektor xi die multidimensionale Normalverteilung im r-dimensionalen Raum ist.
  • Eine Log Likelihood Lik des Eingangsvektors xi in dem i-ten Rahmen zum Bezugsmodell vk für jeden Vokal k wird entsprechend der Gleichung (5) berechnet:
    Figure 00130001
    wobei t eine Transponierte ist, –1 eine inverse Matrix von Σk bezeichnet und C eine Konstante bezeichnet.
  • Die phonemische Entscheidungseinheit 14 führt basierend auf dem Ziel-Frame den vorangehenden N-Frames und den nachfolgenden N-Frames eine Vokalentscheidung für den Ziel-Frame durch. Diese 2 N + 1 Frames werden ein Segment genannt. Durch die Verwendung eines Segments und nicht eines einzelnen Frames wird unter Berücksichtigung der Zeitdauereigenschaften von Vokalen eine genauere Entscheidung möglich.
  • Die phonemische Entscheidungseinheit 14 berechnet über die framegemittelte eine Likelihood bzw. Wahrscheinlichkeit Lik ave im Segment, unter der Verwendung der Log Likelihood Lik, welche durch den Ähnlichkeitsberechner 13 berechnet wurde. Sofern die durchschnittliche Log Likelihood Lik ave die Ungleichung, welche im Ausdruck (6) gezeigt ist, erfüllt, wird der Ziel-Frame für den Vokal k gehalten:
    Figure 00140001
    wobei LkTH ein Entscheidungsgrenzwert (der Grenzwert der über die framegemittelte Log Likelihood), unter Berücksichtigung des Vokal-Bezugsmodelles vk ist.
  • Jede der 3A und 3B zeigt schematisch eine beispielhafte Abarbeitung in der phonemischen Entscheidungseinheit 14. Ein Block 210 zeigt die Prozedur zum Erhalt einer über die frame-gemittelten Log Likelihood Lik ave betreffend den i-ten Rahmen. 2 N + 1-Wahrscheinlichkeitswerte von Lik, berechnet durch den Ähnlichkeitsberechner 13 (von j = i – N bis j = i + N) werden in einem Schaltregister 213 gespeichert (der Fall von N = 2 ist in den Figuren gezeigt). Durch einen Addierer 214 und eine Dividierer 215 wird die frame-gemittelte Log Likelihood Lik ave des Vokals k aus diesen 2 N + 1 Werten der Log Likelihood Lik erhalten. Beim nächsten (i + 1)-ten Rahmen wird Li–N, k aus dem Schaltregister 213 verworfen und anstelle der Verworfenen wird Li+N+1,k in der gleichen Art und Weise gespeichert. Die Blocks 210, 220, ... etc. sind jeweils übereinstimmend mit Vokalen angelegt.
  • Wie durch 3B gezeigt, wird der maximale Ausgang (Lik,max ave) aus den Ausgängen der Blocks 210, 220 ... etc. (Schritt 332) detektiert. Dieser Maximalausgang wird mit dem vorbestimmten Grenzwert LikTH für eine Entscheidung, ob es ein Vokal ist oder nicht (Schritt 333), verglichen. Die Abarbeitung kann durch die Verwendung eines gewöhnlichen Micro-Computers ausgeführt werden.
  • Die Aufzeichnungswahrscheinlichkeit bzw. Log Likelihood ist ein statistischer Schätz- bzw. Erfahrungswert, der eine effektive und umfassende Entscheidung des Einflusses eines jeden Parameters sicherstellt. Dementsprechend kann durch Verwendung der Log Likelihood ein Verfahren zur phonemischen Entscheidung realisiert werden. Das Verfahren zur phonemischen Entscheidung wird durch die Varianzen der Parameter weniger beeinflusst als das Verfahren des Verwendens von Grenzwerten für jeweilige Parameter, wobei die Varianzen durch Hinzufügen von feststehenden Geräuschen oder dergleichen verursacht werden. Zudem besteht ein Vorteil darin, dass der Grenzwert eines jeden Parameters nicht unter Verwendung einer heuristischen Methode bestimmt werden muss. Darüber hinaus wird eine effektivere phonemische Entscheidung für lokale feststehende Sprachklänge (d. h. andauernd über mehrere Rahmen) wie z. B. Vokale möglich, weil ein Segment zusammengesetzt aus mehreren Frames bevorzugt gegenüber einem Einzel-Frame als eine Einheit in der phonemischen Entscheidung des Eingangssignals verwendet wird.
  • Die abschließende Entscheidungseinheit 15 trifft, basierend auf den Entscheidungsergebnissen, die durch die phonemische Entscheidungseinheit 14 bereitgestellt wurden, und dem Mächtigkeitswert, der durch den Parameter-Extraktor 11 zur Verfügung gestellt wurde, eine abschließende Entscheidung, ob eine spezifische Periode des Eingangsignals ein Sprach-Signal ist oder nicht.
  • Das Entscheidungsverfahren der abschließenden Entscheidungseinheit 15 wird unter Bezugnahme auf 4 beschrieben. Die abschließende Entscheidungseinheit 15 vergleicht einen Mächtigkeitswert Pi, der durch den Mächtigkeitsberechner 11a erhalten wurde, mit einem vorbestimmten Mächtigkeitsgrenzwert PTH, und detektiert eine mögliche Sprachperiode, welche aus aufeinanderfolgenden Frames, die jeweils eine Mächtigkeit über dem Grenzwert PTH haben, zusammengesetzt ist, wobei die Anzahl der aufeinanderfolgenden Frames größer ist als eine vorbestimmte Anzahl (Schritte 320 und 350). Insbesondere wird die phonemische Entscheidung für den Frame, dessen Mächtigkeitswert Pi gleich oder größer ist als der Grenzwert PTH, ausgeführt, wobei die Anzahl solcher Frames gezählt wird (Schritt 330). Danach wird die Anzahl Ck der Segmente, die jeweils als ein Vokal bewertet wurden, gezählt (Schritt 340). Die Schritte 330 bis 340 werden so lange wiederholt, bis der Mächtigkeitswert Pi gleich oder größer als der Grenzwert PTH ist; und wenn der Mächtigkeitswert Pi kleiner wird als der Mächtigkeitswert PTH, wird die Anzahl der Wiederholungen (d. h. die Anzahl der aufeinanderfolgenden Rahmen) detektiert (Schritt 350). Sofern die Wiederholungsanzahl gleich oder größer als der vorbestimmte Grenzwert ist, wird ein Block der aufeinanderfolgenden Rahmen als mögliche Sprachperiode bewertet.
  • Die Anzahl Ck der Segmente, die jeweils als Vokal k während der möglichen Sprachperiode durch die phonemische Entscheidungseinheit 14 bewertet wurden, wird verglichen (Schritt 360) mit einer vorbestimmten Grenzwertanzahl Mk von Vokalsegmenten. Sofern Ck die Bedingung, welche durch die Ungleichung (7) ausgedrückt ist, erfüllt, wird die mögliche Sprachperiode als Sprach-Signal bewertet (Schritt 370). Ck ≥ Mk (7)
  • Die Abarbeitung, wie oben beschrieben, wird für alle Vokale k durchgeführt, und wenn die Ungleichung 7 für wenigstens einen Vokal k erfüllt wird, wird die mögliche Sprachperiode als Sprach-Signal bewertet. Der Grenzwert Mk kann aus den Trainingsdaten vorbestimmt werden.
  • Zusätzlich kann, wie durch die Ungleichung (8) ausgedrückt, ein vorbestimmter oberer Grenzwert Mmax gesetzt werden, um zu verhindern, dass ein Geräusch, welches für eine lange Zeit mit einer hohen Mächtigkeit fortdauert, irrtümlicherweise für Sprache gehalten wird. Mmax > Ck ≥ Mk (8)
  • Die Ergebnisse eines Computersimulationsexperimentes, welches unter Verwendung der Vorrichtung zur Sprachdetektion gemäß Beispiel 1 durchgeführt wurde, wird im Folgenden beschrieben.
  • Die Parameter, die im Beispiel 1, neben der Mächtigkeit verwendet wurden, sind: ein normalisierter erster Auto-Korrelations-Koeffizient, ein normalisierter siebter Auto-Korrelations-Koeffizient, der erste Cepstrum-Koeffizient und der dritte Cepstrum-Koeffizient. Die Umkehrung des ersten Cepstrum-Koeffizienten ist gleich dem ersten LPC-Koeffizienten. Diese Parameter sind relativ gut zwischen Sprache und nicht gleichbleibenden Geräuschen separierbar (basierend auf den Ergebnissen eines vorangegangenen Experiments). Zusätzlich werden diese Parameter in einfacher Art und Weise im Berechnungsprozess des Cepstrum-Koeffizienten durch die LPC-Analyse erhalten.
  • Der normalisierte erste Auto-Korrelations-Koeffizient und der erste LPC-Koeffizient sind Parameter, die für eine stimmhaft/nicht stimmhaft-Unterscheidung geeignet sind. Der normalisierte siebte Auto-Korrelations-Koeffizient ist ein Parameter, der zur Unterscheidung von Niederfrequenzgeräuschen geeignet ist. Der dritte LPC-Cepstrum-Koeffizient ist ein Parameter, welcher die Eigenschaften von /i/ unter fünf Vokalen genau anzeigt.
  • Zwei Arten von Audiodaten, Sprachdaten und Geräuschdaten werden im Simulationsexperiment verwendet. Als Sprachdaten wurden 16 Phoneme, welche detektiert werden sollen, verwendet: (/a/, /i/, /u/, /e/, /o/, /b/, /d/, /g/, /m/, /n/, /N/, /s/, /h/, /r/, /w/, /y/). Diese Phoneme wurden aus 12 Worten erhalten, die durch 10 männliche Sprecher ausgesprochen wurden und in einem echofreien Raum aufgenommen wurden. Die Grenzen aller dieser Phoneme wurden durch manuelle Beobachtung bestimmt. Auf der anderen Seite wurden 22 Geräusche wie in Tabelle 1 gezeigt, als Geräuschdaten verwendet. Diese Geräusche wurden unter Beachtung einer Situation, wie z. B. einem Besprechungsraum, in dem die Vorrichtung zur Sprache-/Nichtsprache-Erkennung des Beispiels 1 verwendet wird, gesammelt.
  • Tabelle 1
    Figure 00180001
  • Figure 00190001
  • Die Bedingungen der Analyse der Sprach- und Geräuschdaten werden in Tabelle 2 gezeigt. [Tabelle 2]
    Abtastfrequenz: 10 kHz
    Analysefenster: 20 ms Hamming-Fenster
    Frame bzw. Rahmenzeitdauer: 10 ms
    Vorgewichtung: 1 bis 0,9 z-1
    LPC-Analysegrad: 12-ter
  • Die Trainingsdaten des Vokals, der von 5 männlichen Sprechern ausgesprochen wurde, werden zur Erstellung des Bezugsmodells verwendet. Die Parameter wurden unter Verwendung des Rahmens in der phonetischen Mitte und dessen vorangehenden und nachfolgenden zwei Rahmen bzw. Frames für jeden Vokal im Sprach-Signal extrahiert. Für die Berechnungseffizienz wurde die Berechnung nur unter Verwendung der Diagonalenelemente der Kovarianz-Matrix durchgeführt, unter der Annahme, dass zwischen den einzelnen Parametern keine Korrelation existiert.
  • Unter Verwendung des oben erwähnten Bezugsmodells wurden die Sprachdetektion und die Geräuschabgrenzung (irrtümliche Detektion) getestet. Das Sprachdetektionsexperiment wurde für 10 Sprecher inklusive den fünf Referenzsprechern, deren Vokaldaten für die Erstellung des Bezugsmodells verwendet wurden, durchgeführt. Das Geräuschabgrenzungsexperiment wurde unter Verwendung der nichtgleichbleibenden Geräusche, die in Tabelle 1 gezeigt sind, durchgeführt.
  • Die 5 zeigt die Beziehung zwischen der Sprachdetektierungsrate und der Geräuschdetektierungsfehlerrate, wenn eine Vokalsegmentlänge variiert wird. Die Spracherkennungsrate ist eine Rate, bei der ein Eingangs-Sprach-Signal richtigerweise als Sprache bewertet wird. Die Geräuschdetektionsfehlerrate ist eine Rate, bei der ein Eingangsgeräuschsignal irrtümlicher Weise als Sprache bewertet wird. Um eine Vorrichtung zur Sprachdetektion mit einer guten Leistung zu realisieren, ist es wichtig, ein Eingangs-Sprach-Signal richtig als Sprache zu detektieren und nicht ein Eingangs-Geräusch-Signal irrtümlicher Weise als Sprache zu bewerten. Wie aus 5 ersichtlich bewirkt das Setzen eines solchen Entscheidungsgrenzwertes, der die Sprachdetektionsrate zu fast 100% macht, auch ein Ansteigen der Geräuschdetektionsfehlerrate. Dementsprechend kann die Unterscheidungsleistung für Sprache und Geräuschs durch Setzen des Entscheidungsgrenzwertes auf eine geeigneten Wert optimiert werden.
  • 5 zeigt die experimentellen Ergebnisse, wo die Segmentlänge (d. h. 2 N + 1 Frames: im Folgenden als Vokalsegmentlänge bezeichnet), die zur Herleitung des Frame-Durchschnitts der Log Likelihood bzw. Aufzeichnungswahrscheinlichkeit in dem Ähnlichkeitsberechner 13 verwendet wurde, von eins bis elf Rahmen bzw. Frames geändert wurde. In dem Fall, bei dem die Vokalsegmentlänge größer als fünf Rahmen ist, existiert ein nur geringer Unterschied in der Detektionsleistung. Als Ergebnis wurde eine Sprachdetektionsrate von 99,3% (mit einer Geräuschdetektionsfehlerrate von 9,0%) erreicht, wenn die Vokalsegmentlänge sieben Rahmen ist und der Entscheidungsgrenzwert –1,2 ist. Dieser Wert ist experimentell erhalten worden und ist der Entscheidungsgrenzwert, der in der Gleichung (6) gezeigt ist.
  • Anschließend wurde, um die Detektionsleistung der Vorrichtung 10 zu Sprachdetektion in einer Umgebung mit gleichbleibendem Geräusch zu ermitteln, die Sprachdetektionsrate und die Geräuschdetektionsfehlerrate für das Eingangs-Sprach-Signal mit einem zusätzlichen Weißrauschen-Signal gemessen.
  • Die 6 zeigt eine Beziehung zwischen der Sprachdetektionsrate und der Geräuschdetektionsfehlerrate, wenn ein Signal-Rauschen-Verhältnis (S/N-Verhältnis) variiert wird. In diesem Experiment ist die Vokalsegmentlänge auf sieben Rahmen bzw. Frames festgelegt. Wie aus 6 erkenntlich wird die Detektionsleistung bis zu dem S/N-Verhältnis von 12 dB nur gering beeinflusst.
  • Wie oben beschrieben leistet die Vorrichtung 10 zur Sprachdetektion gemäß Beispiel 1 folgendes: eine sehr genaue Entscheidung, basierend auf den Eigenschaften der Phoneme; und eine Vielzahl von Rahmen wird als eine Einheit zur Erstellung der Entscheidung angesehen. Dies ermöglicht es, eine Vorrichtung zur Sprachdetektion anzubieten, welche eine korrekte Entscheidung der Sprache durch Abscheidung eines Sprach-Signals aus verschiedenen Audiosignalen, umfassend Geräusche, sicherstellt.
  • Dieses Beispiel 1 verwendet Auto-Korrelations-Koeffizienten und Cepstrum-Koeffizienten als Parameter zur Detektion der Vokaleigenschaft. Es sei angemerkt, dass die Parameter nicht hierauf begrenzt sind und PARCOR-Koeffizienten, Melcepstrum-Koeffizienten und dergleichen ebenso verwendbar sind.
  • Beispiel 2
  • Als nächstes wird ein zweites Beispiel der vorliegenden Erfindung beschrieben.
  • Die Gliederung des Verfahrens zur Sprachdetektion des zweiten Beispiels wird im Folgenden beschrieben.
  • Auch im zweiten Beispiel wird ein Bezugsmodell für jedes Phonem basierend auf Trainingsdaten erstellt. Im ersten Beispiel werden die Bezugsmodelle nur für Vokale erstellt. Im zweiten Beispiel werden die Bezugsmodelle für Phoneme, welche zusätzlich zu Vokalen Konsonanten enthalten, erstellt. Weiterhin wird die Detektionsgenauigkeit, unter Berücksichtigung der phonemischen Charakteristiken der zu detektierenden Sprache (in diesem Beispiel Japanisch), verbessert. Die Abschluss-Entscheidungseinheit entscheidet auf der Basis des Fuzzy-ansatzes, ob das Eingangssignal Sprache ist oder nicht. Die anderen Komponenten und Aufbauten sind die gleichen wie die im ersten Beispiel. Auch ist in diesem Beispiel die Abtastfrequenz auf 10 KHz gesetzt, die Anzahl der Rahmen ist 200 und ein Rahmen ist auf 20 msec gesetzt.
  • Als nächstes wird das Verfahren zur Sprachdetektion und die Vorrichtung des zweiten Beispiels unter Bezugnahme auf die Figuren beschrieben.
  • 7 ist ein Blockdiagramm, welches den gesamten Aufbau einer Vorrichtung 20 zur Sprachdetektion des zweiten Beispiels zeigt. Die Vorrichtung 20 zur Sprachdetektion umfasst eine Parameter-Extraktor 21, einen Bezugsmodell-Ersteller 22, einen Ähnlichkeitsberechner 23, eine phonemische Entscheidungseinheit 24 und eine Fuzzy-Entscheidungseinheit 25. Der Parameter-Extraktor 21 extrahiert eine Vielzahl von Parametern aus den Eingangs-Audiosignalen, welche zur Sprachdetektion verwendet werden. Der Bezugsmodell-Ersteller 22 erstellt ein Bezugsmodell für jedes Phonem unter Verwendung der Parameter, die im Parameter-Extraktor extrahiert wurden, basierend auf vorgegebenen ausführlichen phonemischen Trainingsdaten. Der Ähnlichkeitsberechner 23 vergleicht die Parameter, die aus jedem Rahmen durch den Parameter-Extraktor 21 abgeleitet wurden, mit dem Bezugsmodell eines jeden Phonems, um so eine Aufzeichnungswahrscheinlichkeit eines jeden Parameters für jeden Frame bzw. Rahmen zu berechnen. Die phonemische Entscheidungseinheit 24 berechnet eine frame-gemittelte Log Likelihood bzw. Aufzeichnungswahrscheinlichkeit für jedes Phonem basierend auf der Log Likelihood eines Ziel-Frame für die phonemische Entscheidung und dessen vorhergehende und nachfolgende N-Frames (diese 2 N + 1 Frames werden als Segment bezeichnet), und entscheidet basierend auf der frame-gemittelten Log Likelihood, ob das Segment irgendeines der Phoneme ist.
  • Die Fuzzy-Entscheidungseinheit 25 entscheidet durch Vergleich der Anzahl der Frames, welche als Phoneme bewertet wurden, mit einem vorbestimmten Grenzwert, ob eine mögliche Sprachperiode des Eingangs-Audiosignals ein Sprach-Signal ist oder nicht.
  • Wie in 7 gezeigt, umfasst der Parameter-Extraktor 21 einen Mächtigkeitsberechner 21a zur Berechnung einer Mächtigkeit eines jeden Frame bzw. Rahmens, einen Auto-Korrelations-Koeffizienten-Berechner 21b zur Berechnung von Auto-Korrelations-Koeffizienten für jeden Rahmen und einen Cepstrum-Koeffizienten-Berechner 21c zur Berechnung von Cepstrum-Koeffizienten für jeden Frame. Wie es unten beschrieben werden wird, werden sowohl für die Auto-Korrelations-Koeffizienten der erste und siebte Koeffizient als auch für die Cepstrum-Koeffizienten der erste und dritte Koeffizient berechnet. Diese Parameter werden zum Detektieren, ob das Eingangs-Audiosignal ein Phonem ist oder nicht, verwendet.
  • Im Folgenden wird ein Verfahren zur Detektion von Sprache unter Verwendung der Vorrichtung 20 zur Sprachdetektion detaillierter beschrieben werden.
  • Das Audiosignal, welches durch ein Mikrofon (nicht gezeigt) eingegeben wird, wird an den Parameter-Extraktor 21 angelegt. Der Parameter-Extraktor 21 extrahiert eine Vielzahl von Parametern, die für die Sprachdetektion benötigt werden, in Übereinstimmung mit der gleichen Prozedur, wie in dem Parameter-Extraktor 11, welche im ersten Beispiel beschrieben wird.
  • Der Bezugsmodellersteller 22 extrahiert zuerst Parameter, aus ausführlichen Trainingssprachdaten, welche im Parameter-Extraktor verwendet werden sollen. Dann werden, unter Verwendung der Parameter, welche aus den Trainingsdaten extrahiert wurden, ein Hauptwert und eine Kovarianz-Matrix für jedes Phonem berechnet, um ein Bezugsmodell für jedes Phonem zu erstellen.
  • In diesem Beispiel werden die Bezugsmodelle für sieben Arten von Phonemen in zwei Kategorien, d. h. fünf Vokale /a/, /i/, /u/, /e/, und /o/, und zwei nicht stimmhafte Reibelaute /h/ und /s/ erstellt. Der Grund warum diese sieben Arten von Phonemen verwendet werden ist, dass die Spektren dieser Phoneme relativ stabil sind und somit für die Detektion geeignet sind, bei der die lokale Kontinuität des Sprach-Signales verwendet wird. Andere Phoneme, wie z. B. nasale, stimmhafte Explosivlaute, Affrikate, Fließlaute und Halbvokale können ebenso verwendet werden, weil jedes Phonem das Merkmal der Sprache anzeigt.
  • Der Bezugsmodellersteller 22 erstellt ein Bezugsmodell durch Berechnung des Hauptwertes μk und der Kovarianz-Matrix Σk für jedes Phonem auf der Basis der Gleichungen (3) und (4), in Übereinstimmung mit der gleichen Prozedur wie der Bezugsmodellersteller 12. In dem zweiten Beispiel zeigt k jedes Phonem an.
  • Der Ähnlichkeitsberechner 23 berechnet eine Ähnlichkeit eines Eingangsvektors xi, unter Berücksichtigung eines Bezugsmodells Vk' basierend auf einem Satz von r Parametern für einen Frame bzw. Rahmen (d. h. ein Eingangsvektor xi in einem r-dimensionalen Raum ist für jeden Rahmen i vorgegeben) und ein Bezugsmodell vk für ein Phonem k, welches durch den Bezugsmodellersteller 22 erstellt wurde. Der Ähnlichkeitscomputer 23 berechnet eine statistische Abstandsmessung (eine Aufzeichnungswahrscheinlichkeit Lik) auf der Basis der Gleichung (5) in Übereinstimmung mit der gleichen Prozedur wie der Ähnlichkeitsberechner 13.
  • Die phonemische Entscheidungseinheit 24 entscheidet basierend auf dem Ziel-Frame für die phonemische Detektion und die vorangehenden und nachfolgenden N-Frames (diese (2 N + 1)-Frames werden als Segment bezeichnet), ob ein Ziel-Frame ein Phonem ist oder nicht. Die phonemische Entscheidungseinheit 24 berechnet den Rahmendurchschitts Lik ave der Log Likelihood Lik auf der Basis der linken Seite der Gleichung (6) in Übereinstimmung mit der gleichen Prozedur wie in der phonemischen Entscheidungseinheit 14. Sofern die durchschnittliche Log Likelihood Lik ave die Bedingung der linken Seite der Gleichung (6) erfüllt, wird das Segment als ein Phonem k angesehen.
  • Die Fuzzy-Entscheidungseinheit 25 entscheidet schlussendlich unter Verwendung des Fuzzy-Ansatzes, basierend auf dem bewerteten Ergebnis, welches von der phonemischen Entscheidungseinheit 24 erhalten wurde, und dem Mächtigkeitswert, welcher vom Parameter-Extraktor 21 erhalten wurde, ob eine spezifizierte Periode des Eingangssignals ein Sprachsignal ist oder nicht. Hierin bedeutet die spezifizierte Periode eine "mögliche Sprachperiode" mit einer Mächtigkeit, die gleich ist oder größer als ein bestimmter Grenzwert im Eingangs-Signal, gleich wie im ersten Beispiel.
  • In diesem Beispiel wird der Fuzzy-Ansatz zur Sprachdetektion aus folgenden Gründen verwendet.
  • Verschiedene Phoneme erscheinen in der Sprache, insbesondere in der Sprache während einer Konversation. Die Erscheinungsfrequenzen und die Muster dieser Phoneme sind bis zu einem gewissen Ausmaß durch die ausgesprochene Sprache und die Grammatik der Sprache spezifisch vorgegeben. Z. B. sind die Aussprachen der Phoneme im Fall der japanischen Sprache durch Wiederholungen von Vokal-Konsonant und Ruhe, wie z. B. C, C + V, V + C + V (V bezeichnet ein Vokal und C bezeichnet einen Konsonanten) festgelegt. Dementsprechend werden die Phoneme, wie z. B. Vokale und Konsonanten, als bei bestimmten Frequenzen, welche bis zu einem bestimmten Grade vorbestimmt sind, ausgesprochen angenommen, wenn die Erscheinungsfrequenzen der jeweiligen Phoneme in einem relativ langen Zeitintervall erhalten wurden. Dementsprechend wird die Sprachdetektion in diesem Beispiel basierend auf der Erscheinungsfrequenz von verschiedenen Phonemen im Sprach-Signal ausgeführt, das bedeutet das Existenzverhältnis der jeweiligen Phoneme in einer bestimmten Periode des Sprach-Signals. Zusätzlich kann durch die Verwendung des Fuzzy-Ansatzes eine genaue Sprachdetektion mit einem geringeren Arbeitsaufwand ausgeführt werden. Dies ist ein weiterer Grund für die Verwendung des Fuzzy-Ansatzes.
  • Ein Verfahren zur spezifischeren Entscheidung, welches in der Fuzzy-Entscheidungseinheit 25 verwendet wird, wird unter Bezugnahme auf die 8A und 8B beschrieben werden. Die Fuzzy-Entscheidungseinheit 25 vergleicht den Mächtigkeitswert Pi, der durch den Mächtigkeitsberechner 21a erhalten wurde, mit einem vorbestimmten Mächtigkeitsgrenzwert PTH, und detektiert eine mögliche Sprachperiode in dem Rahmen bzw. Frame mit einer Mächtigkeit gleich oder größer als der Grenzwert PTH, wobei die Anzahl der darauffolgenden Rahmen gleich oder größer als ein vorbestimmter Wert ist (Schritte 420 und 480). Im Einzelnen wird entsprechend den Rahmen mit einer Mächtigkeit gleich oder größer als der Grenzwert PTH, die phonemische Detektion ausgeführt (Schritte 440 bis 460 und 470), während die Anzahl der Rahmen bzw. Frames gezählt wird (Schritt 430). Der Schritt 440 wird im Ähnlichkeitsberechner 23 ausgeführt, und der Schritt 450 wird in der phonemischen Entscheidungseinheit 24 ausgeführt. Sofern der Mächtigkeitswert Pi gleich oder größer als der Grenzwert PTH ist, wird der Schritt zur phonemischen Entscheidung wiederholt durchgeführt. Wenn der Mächtigkeitswert Pi kleiner wird als der Grenzwert PTH wird die Anzahl der Wiederholungen (d. h. die Anzahl der kontinuierlichen Frames) detektiert (Schritt 480). Sofern die Wiederholungsanzahl gleich oder größer ist als ein vorbestimmter Grenzwert, wird die kontinuierliche Rahmen-Periode als eine mögliche Sprachperiode bewertet.
  • In der so entschiedenen möglichen Sprachperiode wird die Spracherkennung in der folgenden Art und Weise durchgeführt.
  • Zuerst wird das phonemische Segment in eine Vokalgruppe kategorisiert, sofern das phonemische Segment als /a/, /i/, /u/, /e/, oder /o/ bewertet wurde (Schritt 460). Sofern das phonemische Segment als /h/ oder /s/ bewertet wurde (Schritt 470), wird das phonemische Segment in eine Reibelaut-Gruppe kategorisiert. Das bedeutet, dass die phonemischen Segmente in zwei Kategorien klassifiziert werden. Sofern das phonemische Segment derart bewertet wurde, dass es zur Vokalgruppe gehört, wird die Anzahl der phonemischen Segmente in der ersten Kategorie erhöht (die Anzahl der Segmente C1: Schritt 461). Sofern das phonemische Segment derart bewertet wurde, dass es zu der Reibelaut-Gruppe gehört, wird die Anzahl der phonemischen Segmente in der zweiten Kategorie erhöht (die Anzahl der Segmente C2: Schritt 471). Aus den jeweiligen Anzahlen der Segmente Cm (m = 1,2) wird auf der Basis der Gleichung (9) (Schritt 481) die Erscheinungsrate Rm in jeder Kategorie erhalten.
  • Figure 00270001
  • Hierin bezeichnet m die Anzahl der Kategorien und Np bezeichnet die Anzahl der Frames bzw. Rahmen, weiche in der möglichen Sprachperiode enthalten sind. Im obigen Beispiel wird die Erscheinungsrate durch Klassifizieren der phonemischen Segmente in zwei Vokal- und Reibelautkategorien erhalten. Alternativ kann die Erscheinungsrate unter Verwendung von drei oder mehreren Kategorien erhalten werden. Z. B. kann die Erscheinungsrate für jedes Phonem erhalten werden.
  • Sofern die Erscheinungsrate Rm als eine Eingangsvariable für den Fuzzy-Ansatz verwendet wird und die Spracheigenschaft S als Ausgangsvariable verwendet wird, ist die Denkregel des Fuzzy-Ansatzes im Allgemeinen in Gleichung (10) ausgedrückt. Regel j: wenn R1 gleich Aj1 und .... und Rm ist gleich Am' dann ist Sjfj (10)wobei j eine Regelnummer bezeichnet, Ajm bezeichnet eine Mitgliedsfunktion und fj bezeichnet eine reelle Zahl. In diesem Beispiel wird ein vereinfachter Fuzzy-Ansatz, bei dem der "konsequente Teil" der Denkregel als eine Realzahl ausgedrückt als der Fuzzy-Ansatz verwendet. Ein anderer Fuzzy-Ansatz kann verwendet werden (weil in jedem Fuzzy-Ansatz das Merkmal der Sprache basierend auf der phonemischen Eigenschaft der Sprache ausgedrückt ist).
  • Wenn die Eingangsdaten (R1, ..., Rm) eingegeben werden, kann die folgende Schlussfolgerung, ausgedrückt in der Gleichung (11) aus der Gleichung (10) erhalten werden (Schritt 482). uj = Aj1(R1)Λ ... ΛAjm(Rm)Λ1 (11)wobei Λ eine Minimaloperation zum Erhalten eines Minimalwerts in jedem Term bezeichnet, und uj einen Übereinstimmungsgrad jeder Denkregel bezeichnet. Es gibt eine Vielzahl von Denkregeln, welche durch den Ausdruck (10) ausgedrückt werden, so dass das abschließende Ansatzergebnis durch vollständiges Berücksichtigen des Ergebnisses der Gleichung (11) in der Gleichung 12 ausgedrückt wird (Schritt 483).
  • Figure 00280001
  • Der abschließende Ausgang S zeigt an, in welchem Maß die mögliche Sprachperiode die Spracheigenschaft hat. Die Spracheigenschaft S wird mit einem vorbestimmten Grenzwert STH verglichen (Schritt 484). Sofern der Wert der Spracheigenschaft S gleich oder größer als der Grenzwert STH ist, wird die mögliche Sprachperiode als Sprache bewertet (Schritt 485).
  • Als nächstes wird die Denkregel in dem Ausdruck (10) spezifisch beschrieben, für den Fall, bei dem die Anzahl der Kategorien (phonemische Gruppen) zwei ist. Die Vokalgruppe entspricht m = 1 und die Reibelautgruppe entspricht m = 2. 9 repräsentiert die Mitgliedfunktionen A11 bis A41 der Vokalgruppe und 10 repräsentiert die Mitgliedsfunktionen A12 bis A42 der Reibelautgruppe.
  • In diesem Fall umfasst Aj1 im Ausdruck (10) vier Typen, d. h. A11 bis A41 und Aj2 umfasst ebenfalls vier Typen, d. h. A21 bis A42. Dementsprechend gibt es 16 mögliche Kombinationen, so dass die Anzahl der Regeln 16 ist. Tabelle 3 zeigt die Regeln in dem Fall, in dem die Mitgliedsfunktionen, die in 9 und 10 gezeigt sind, verwendet werden. Die Werte in der Regeltabelle zeigen die Realzahlen Fj des Konsequent-Teils der Regeln korrespondierend zu den entsprechenden Kombinationen an. Diese Werte werden durch ein Vorabexperiment erhalten. Andere Werte können in einem praktischen Gebrauch der Vorrichtung zur Sprachdetektion verwendet werden, weil durch ein geeignetes Auswählen dieser Werte derart, dass sie für das aktuelle Umfeld geeignet sind, eine genauere Detektion möglich wird.
  • Tabelle 3
    Figure 00290001
  • Aus der Regeltabelle wird jedes Sj erhalten und ein Wert Anm(Rm) der Mitgliedsfunktion wird für dem gegebenen Eingangswert Rm auf der Basis von den 9 und 10 (m = 1,2, und n = 1 bis 4) erhalten. Durch die Verwendung dieser Werte werden der Ausdruck (10) die Gleichungen (10) und (11) berechnet, um die Spracheigenschaft S zu erhalten.
  • In dieser Art und Weise ist es möglich, basierend auf der Fuzzy-Denkregel (Fuzzy-Logik) auszudrücken, in welchem Maße die mögliche Sprachperiode die Spracheigenschaft hat. Durch Ausführen solcher Operationen für alle möglichen Sprachperioden wird die abschließende Sprachdetektion ausgeführt. Das bedeutet, dass dies für Sprache gehalten wird, wenn der Schlussausgang S gleich oder größer als der vorbestimmte Grenzwert STH ist. Sofern der Schlussausgang S kleiner als der vorbestimmte Grenzwert STH ist, wird dies als Nichtsprache bewertet.
  • Wie oben beschrieben, führt die Vorrichtung 20 zur Sprachdetektion dieses Beispieles die Bewertung mit einer hohen Genauigkeit basierend auf dem Merkmal der Phoneme aus und die Bewertung wird durch die Annahme einer Vielzahl von Frames als eine Gruppe durchgeführt. In dieser Art und Weise ist es möglich, eine Vorrichtung zur Sprachdetektion zur Verfügung zu stellen, welche Sprache genau aus verschiednen Audiosignalen mit Geräuschen mit einer relativ einfachen Konstruktion detektiert.
  • Beispiel 3
  • Nun wird Beispiel 3 der vorliegenden Erfindung beschrieben.
  • Die Gliederung des Verfahrens zur Sprachdetektion gemäß Beispiel 3 wird im Folgenden beschrieben.
  • Im Beispiel 3 wird basierend auf den Trainingsdaten anfangs eine Parameterverteilung eines jeden Phonems, welche mit dem Bezugsmodell in Beispiel 1 korrespondiert, erstellt. Im Beispiel 3 werden nicht nur Parameter sondern auch die Dauer eines jeden Phonemes von den Trainingsdaten extrahiert, um eine Dauerverteilung eines jeden Phonems zu erstellen. Die Sprachdetektion wird mit einer umfassenden Entscheidung basierend auf der Dauerverteilung wie auch der Parameterverteilung ausgeführt. Somit werden zeitliche Charakteristiken der Phoneme der Sprache (in diesem Fall die japanische Sprache) auch in Betracht gezogen, so dass die Detektionsgenauigkeit weiter verbessert werden kann. Ähnlich zum Beispiel 1 und 2 ist die Abtastfrequenz auf 10 KHz gesetzt, die Anzahl der Rahmen bzw. Frames ist 200 und ein Rahmen bzw. Frame ist auf 20 msec gesetzt.
  • Im Folgenden wird ein Verfahren zur Sprachdetektion und eine Vorrichtung zur Sprachdetektion gemäß Beispiel 3 unter Bezugnahme auf die 11 bis 13 beschrieben werden.
  • Die 11 ist ein Blockdiagramm, welches die gesamte Konstruktion einer Vorrichtung 30 zur Sprachdetektion zeigt.
  • Die Vorrichtung 30 zur Sprachdetektion umfasst eine Parameter-Extraktor 31, einen Parameterverteilungsersteller 32, einen Parameter-Likelihood bzw. Wahrscheinlichkeitsberechner 33, einen Dauerverteilungsersteller 34, einen Dauer-Likelihood bzw. Wahrscheinlichkeitsberechner 35 und eine umfassende Entscheidungseinheit 36. Der Parameter-Extraktor 31 extrahiert eine Vielzahl von Parametern aus dem Eingangs-Audiosignal, welche zur Sprachdetektion benützt werden. Der Parameterverteilungsersteller 32 erstellt die Parameterverteilung für jedes Phonem, unter Verwendung der Parameter, die durch den Parameter-Extraktor 31 extrahiert wurden. Der Parameter-Wahrscheinlichkeitsberechner 33 berechnet eine Log Likelihood eines jeden Parameters für jeden Rahmen durch Vergleichen der Parameter, die vom Parameter-Extraktor 31 geliefert wurden, mit der Parameterverteilung. Der Dauerverteilungsersteller 34 erstellt die Dauerverteilung für jedes Phonem, basierend auf den Trainingsdaten. Der Dauer-Likelihood-Berechner 35 berechnet eine frame-gemittelte Log Likelihood basierend auf der Log Likelihood eines jeden Rahmens, um die Dauer eines jeden Phonems zu erhalten. Er berechnet eine Dauer-Likelihood eines jeden Phonems durch Vergleichen der erhaltenen Dauer mit der Dauerverteilung. Die umfassende Entscheidungseinheit 36 entscheidet unter Verwendung einer umfassenden Likelihood basierend auf der Dauerverteilung als auch der Parameterverteilung, ob die mögliche Sprachperiode des Eingangs-Audiosignals ein Sprach-Signal ist oder nicht.
  • Wie in 11 gezeigt, umfasst der Parameter-Extraktor 31 einen Mächtigkeitsberechner 31A zur Berechnung einer Mächtigkeit eines jeden Rahmens; einen Auto-Korrelations-Koeffizienten-Berechner 31B zur Berechnung von Auto-Korrelations-Koeffizienten für jeden Rahmen; und einen Cepstrum-Koeffizienten-Berechner 31C zur Berechnung der Cepstrum-Koeffizienten für jeden Rahmen.
  • Im Folgenden wird das Verfahren der Sprachdetektion durch die Vorrichtung 30 zur Sprachdetektion detaillierter beschrieben werden.
  • Das Audiosignal, welches von einem Mikrofon (nicht gezeigt) eingegeben wird, wird an den Parameter-Extraktor 31 angelegt. Der Parameter-Extraktor 31 extrahiert eine Vielzahl von Parametern durch die gleiche Prozedur, wie die der jeweiligen Parameter-Extraktoren 10 und 21 der Beispiele 1 und 2, die für die Sprachdetektion benötigt werden. Auch werden im Beispiel 3 der erste und siebte Auto-Korrelations-Koeffizient und der erste und dritte Cepstrum-Koeffizient berechnet. Diese Parameter werden zur Detektion der phonemischen Eigenschaft des Audio-Eingangs-Signales verwendet.
  • Im Parameterverteilungsersteller 32 werden die Parameter, die im Parameter-Extraktor 31 verwendet werden, aus umfangreichen Trainings-Sprachedaten extrahiert. Dann wird die Parameterverteilung für jedes Phonem, unter Verwendung der Parameter, die von den Trainingsdaten extrahiert wurden, erstellt. Im Beispiel 3 werden ein Hauptwert und eine Kovarianzmatrix auf Basis der Annahme, dass die Parameterverteilung eine Normalverteilung ist, berechnet. Eine Gammaverteilung, eine Poisson-Verteilung oder dergleichen ist ebenfalls als eine Funktion verwendbar, die für die Parameterverteilung repräsentativ ist, genau so wie die Normalverteilung.
  • Der Parameterverteilungsersteller 32 berechnet ein Hauptwert μ(c)k und eine Kovarianzmatrix Σ(c)k für jedes Phonem durch die gleiche Prozedur, wie die des Bezugsmodellerstellers 12 oder des Bezugsmodellerstellers 22 gemäß der folgenden Gleichungen (12) und (14) und erstellt somit die Parameterverteilung. In der Gleichung (13) steht k für jedes Phonem (Phonem-Nummer) und (c) steht für einen Wert, der durch den Parameterverteilungsersteller 32 erhalten wurde.
  • Figure 00330001
  • Der Parameter-Likelihood-Berechner 33 berechnet eine statistische Abstandsmessung (Aufzeichnungswahrscheinlichkeit) eines Eingangsvektors xi' unter Berücksichtigung der Parameterverteilung eines jeden Phonemes k, das durch den Parameterverteilungsersteller 32 basierend auf einen Satz von r Parametern für jeden Rahmen erstellt wurde, die vom Parameter-Extraktor 31 geliefert wurden (d. h. ein Eingangsvektor in einem r-dimensionalen Raum in jedem Rahmen i) und berechnet die Parameterverteilung eines jeden Phonems k, das durch den Parameterverteilungsersteller 32 erstellt wurde. Das bedeutet, dass der Parameter-Likelihood-Berechner 33 mit der gleichen Prozedur wie die des Ähnlichkeitsberechners 13 und 23 eine Aufzeichnungswahrscheinlichkeit L(c)ik
    Figure 00330002
    gemäß Gleichung (15) berechnet.
  • Der Dauerverteilungsersteller 34 erstellt die Dauerverteilung eines jeden Phonems durch Berechnung eines Hauptwerts und einer Kovarianz der Dauer für jedes Phonem unter Verwendung von ausführlichen Trainings-Sprachdaten. 12 zeigt schematisch die Prozedur der Abarbeitung in dem Dauerverteilungsersteller 34. Zuerst werden zur Vorbereitung von ausführlichen phonemischen Daten der Phoneme k zum Training Bereiche, die jeweils mit den Phonemen k korrespondieren von den ausführlichen Sprachdaten durch Beobachtung aufgenommen (Schritt 520).
  • Üblicherweise korrespondiert der Phonembereich mit einer Aussprache, die über mehrere aufeinanderfolgende Rahmen anhält.
  • Darauf hin wird aus den ausführlichen phonemischen Daten der Hauptwert μ(d)k und die Kovarianz Σ(d)k für ein Phonem durch Berechnung abgeleitet (Schritte 530 und 540). Hierbei steht (d) für einen Wert, der durch den Dauer-Likelihood-Ersteller 34 erstellt wurde. Ähnlich dem Fall des Parameterverteilungserstellers 32 wird der Hauptwert und die Kovarianz auf der Annahme, dass die Dauerverteilung eine Normalverteilung ist, berechnet. Als eine für die Dauerverteilung repräsentative Funktion ist eine Gamma-Verteilung, eine Poisson-Verteilung oder dergleichen ebenso verwendbar, wie auch die Normalverteilung.
  • Die oben erwähnte Operation wird für alle Phoneme k durchgeführt, wobei die Dauerverteilung erhalten wird.
  • 13 zeigt schematisch die Prozedur der Abarbeitung in den Dauer-Likelihood-Berechner 35. Im Dauer-Likelihood-Berechner 35 wird zuerst eine framegemittelte Likelihood L(c)ik ave aus der Log Likelihood L(c)ik eines jeden Rahmens für jedes Phonem, berechnet durch den Parameter-Likelihood-Berechner 33, abgeleitet (Schritt 610). Dann wird durch Vergleich der durchschnittlichen Log Likelihood L(c)ik ave mit einem vorbestimmten Grenzwert L(c)kTH eine phonemische Detektion ausgeführt (Schritt 620). Solche Abarbeitungen im Dauer-Likelihood-Berechner 35 sind im wesentlichen ähnlich zu denen der Phonementscheidungseinheiten 14 und 24, die jeweils in den Beispielen 1 und 2 beschrieben wurden. Der Dauer-Likelihood-Berechner 35 berechnet die frame-gemittelte Log Likelihood L(c)ik ave der Log Likelihood L(c)ik in Entsprechung mit der Gleichung (16) unter der Verwendung des Ziel-Frame i zur Phonemdetektion und dessen vorhergehende und nachfolgende N-Frames (diese 2 N + 1 Frames werden ein Segment genannt). Sofern die framegemittelte Log Likelihood L(c)ik ave gleich oder größer ist als der vorbestimmte Grenzwert L(c)kTH, d. h. in dem Fall, dass die Ungleichung (17) erfüllt ist, wird der Ziel-Frame als Phonem k bewertet. Hier ist L(c)kTH ein Unterscheidungsgrenzwert für jedes Phonem k.
  • Figure 00350001
  • Die Dauer Dk (die Anzahl der aufeinanderfolgenden Rahmen) wird durch Zählen, wie viele Rahmen der Phoneme k, die die Ungleichung (17) erfüllen, aufeinanderfolgen, erhalten.
  • Beim Schritt 620, in dem Fall, wo L(c)ik ave gleich oder größer als der Unterscheidungsgrenzwert ist, wird die Dauer Dk des Phonemes k Gegenstand eines Inkrementals von eins (Schritt 630). Unter Berücksichtigung dieser Dauer Dk wird eine Dauer-Likelihood L(d)k entsprechend der Gleichung (18) berechnet (Schritt 640).
  • Figure 00350002
  • Die umfassende Entscheidungseinheit 36 berechnet eine synthetische Likelihood bzw. Wahrscheinlichkeit Lk in Übereinstimmung mit der folgenden Gleichung (19) basierend auf der frame-gemittelten Likelihood L(c)ik ave und der Dauer-Likelihood L(d)k.
  • Figure 00350003
  • In dem Fall, in dem L(c)ik ave kleiner ist als der Unterscheidungsgrenzwert, wird die Dauer Dk des Phonems k auf 0 gesetzt. (Schritt 670). Das bedeutet, dass, wenn einmal bewertet wurde, dass ein Phonem k beim Schritt 620 kein Phonem ist, die Dauer des Phonems k zurückgesetzt wird und die Dauer erneut gezählt wird. In diesem Fall wird die Dauer-Likelihood L(d)k auf –∞ gesetzt (Schritt 680). Da die synthetische Likelihood Lk als ein positiver Wert in der Gleichung (19) geliefert wird, kann durch das Setzen der Dauer-Likelihood L(d)k = –∞ die synthetische Likelihood Lk eine nichtphonemische Eigenschaft repräsentieren (es sei denn der Koeffizient(1 – w) des zweiten Terms der Gleichung (19) ist 0, dann ist der Einfluss von –∞ bedeutend).
  • Nachdem diese Operation für alle Phoneme k durchgeführt wurde, schreitet die Prozedur zur Analyse des nächsten Rahmens weiter. Wenn beim Schritt 670 nicht zurückgesetzt wird, wird der obenerwähnte Wert der Dauer Dk gehalten und wächst über die Rahmen. Dementsprechend wird die Dauer-Likelihood L(d)k beim Schritt 640 in jedem Frame basierend auf der Dauer Dk mit einem Wert, der die Anzahl der Frames, die aufeinander folgen, repräsentiert berechnet.
  • Wie aus der Gleichung (19) oben sichtbar ist, wird die synthetische Likelihood Lk durch Addition des Durchschnittswerts von L(c)ik ave unter Berücksichtigung der Dauer Dk und der Dauer-Likelihood L(d)k' zusammen mit einer spezifischen Gewichtung w erhalten. Schlussendlich wird das Phonem mit der größten synthetischen Likelihood Lk detektiert.
  • Weiterhin wird die schlussendliche Entscheidung, ob die Periode Sprache oder Geräusch ist, durch Bestimmung, wie oft das detektierte Phonem k innerhalb einer spezifischen Periode erscheint (Erscheinungsfrequenz eines jeden Phonems innerhalb einer spezifischen Periode), getroffen.
  • Ähnlich zu den Beispielen 1 und 2 wird eine mögliche Sprachperiode mit einer Mächtigkeit, die größer ist als der vorbestimmte Grenzwert, als die Periode des Eingangssignals für die abschließende Entscheidung verwendet. Eine Auftretensrate Rk eines jeden Phonems k ist durch die Gleichung (20) erhältlich, wo die mögliche Sprachperiode J Rahmen umfasst und Ck die Anzahl der Phoneme k, die in den J Rahmen detektiert wurden, ist. Wenn einer der Phoneme k gleich oder größer als der vorbestimmte Grenzwert RkTH ist, wird dieser als Sprache detektiert (siehe Ungleichung (21)).
  • Figure 00370001
  • Hier ist RkTH ein Sprachdetektionsgrenzwert für jedes Phonem k. Die umfassende Entscheidungseinheit 36 kann die Sprache-/Nichtsprache-Entscheidung basierend auf dem Fuzzy-Ansatz, beschrieben im Beispiel 2, zur Verfügung stellen.
  • Wie oben beschrieben, verwendet die Vorrichtung 30 zur Sprachdetektion gemäß Beispiel 3 zwei statistische Abstände in Kombination. Ein statistischer Abstand wird durch Vergleich der Parameter eines jeden Phonems, die aus dem Eingangssignal extrahiert wurden, mit der Parameterverteilung erhalten, die aus Trainingsdaten erstellt wurden; und ein statistischer Abstand wird durch den Vergleich der Dauer eines jeden detektierten Phonems mit der Dauerverteilung eines jeden Phonems, erstellt aus den Trainingsdaten, erhalten. In dieser Art und Weise ist es möglich, eine Vorrichtung zur Sprachdetektion und ein Verfahren zur Verfügung zu stellen, welches eine Sprache aus verschiedenen Audiosignalen umfassend Geräusche mit einer relativ einfachen Konstruktion genau detektieren kann.
  • Beispiel 4
  • Als nächstes wird ein viertes Beispiel der Erfindung beschrieben.
  • Die Gliederung des Verfahrens zur Sprachdetektion in dem vierten Beispiel ist im Folgenden beschrieben.
  • Im vierten Beispiel wird ein Parametergrenzwert eines jeden Phonems, welches für die Sprachdetektion verwendet wird, basierend auf ausführlichen Trainingsdaten zuerst bestimmt. Durch Vergleichen einiger Parameter, die aus dem Eingangssignal extrahiert wurden, mit dem Grenzwert, der aus den Trainingsdaten erhalten wurde, wird eine allgemeine (erste Stufe) Bewertung ausgeführt. Als nächstes wird durch Vergleichen einiger anderer Parameter mit dem Grenzwert eine genauere Bewertung ausgeführt (zweite Stufe). In dieser Art und Weise wird die Bewertung durch Ausführen der Bewertung in zwei Stufen basierend auf den Merkmalen der entsprechenden Phoneme effizient ausgeführt und die Detektionsgenauigkeit ist verbessert. Auch in diesem Beispiel wird die Abtastfrequenz auf 10 KHz gesetzt, die Anzahl der Abtastungen ist 200 und ein Rahmen bzw. Frame wird auf 20 msec gesetzt.
  • 14 ist ein Blockdiagramm, welches die gesamte Konstruktion einer Vorrichtung 40 zur Sprachdetektion im vierten Beispiel zeigt. Die Vorrichtung 40 zur Sprachdetektion umfasst einen Parameter-Extraktor 41, eine Grenzwertentscheidungseinheit 42, eine allgemeine Entscheidungseinheit 43, eine detaillierte Entscheidungseinheit 44 und eine Abschlussentscheidungseinheit 45. Der Parameter-Extraktor 41 extrahiert aus dem Eingangs-Audiosignal eine Vielzahl von Parametern zur Sprachdetektion. Die Grenzwertentscheidungseinheit 42 entscheidet basierend auf vorgegebenen ausführlichen Trainingsdaten für Vokale die jeweiligen Grenzwerte für die Parameter, welche durch den Parameter-Extraktor 41 extrahiert wurden. Die allgemeine Entscheidungseinheit 43 entscheidet allgemein durch Vergleich der Parameter, die für jeden Rahmen erhalten wurden und welche vom Parameter-Extraktor 41 geliefert wurden, mit den jeweiligen Grenzwerten, ob das Eingangssignal Sprache ist oder nicht. Die detaillierte Entscheidungseinheit 44 stellt basierend auf dem durch die allgemeine Entscheidungseinheit 43 bewerteten Ergebnis und anderen Parametern eine genauere Entscheidung zur Verfügung. Die Abschluss-Entscheidungseinheit 45 entscheidet durch Vergleich der Anzahl der Frames bzw. Rahmen, die als Sprache bewertet wurden, mit einem vorbestimmten Grenzwert, ob eine mögliche Sprachperiode des Eingangs-Audiosignals ein Sprach-Signal ist oder nicht.
  • Wie in der 14 gezeigt, umfasst der Parameter-Extraktor 41 einen Mächtigkeitsberechner 41a zur Berechnung einer Mächtigkeit für jeden Rahmen, einen Auto-Korrelations-Koeffizienten-Berechner 41b zur Berechnung eines ersten Auto-Korrelations-Koeffizienten, einen Auto-Korrelations-Koeffizienten-Berechner 41c zur Berechnung eines siebten Auto-Korrelations-Koeffizienten, einen Cepstrum-Koeffizienten-Berechner 41d zur Berechnung eines ersten Cepstrum-Koeffizienten und einen Cepstrum-Koeffizienten-Berechner 41e zur Berechnung eines dritten Cepstrum-Koeffizienten. Diese Parameter werden zur Detektion der stimmhaften Klangeigenschaft (Vokaleigenschaft} des Eingangs-Audiosignals verwendet.
  • Als Nächstes werden die oben erwähnten Parameter, die in diesem Beispiel verwendet werden, beschrieben. Das Folgende sind Ergebnisse, die durch das Extrahieren dieser Parameter aus ausführlichen Audiodaten und durch Prüfen der Auftretensfrequenzverteilung erhalten wurden.
  • Wie im Simulationsexperiment des ersten Beispiels sind die untersuchten Audiodatensätze zwei Arten von Audiodaten, d. h. Sprachdaten und Geräuschdaten. Als die Sprachdaten wurden sechszehn Phoneme (/a/, /i/, /u/,/e/, /o/, /b/, /d/, /g/, /m/, /n/, /N/, /s/, /h/, /r/, /w/, /y/) in 212 Worten, die durch 10 Männer ausgesprochen wurden, in einem echofreien Raum aufgenommen. Für alle Phoneme wurde die Phonemgrenze durch Beobachtung erhalten. Als die Geräuschdaten wurden die 22 Arten von Geräuschen, die in Tabelle 1 des ersten Beispiels gezeigt sind, verwendet. Die Analysebedingungen für die Sprach- und Geräuschdaten sind auch in der Tabelle 2 des ersten Beispiels gezeigt.
  • Die geprüften Ergebnisse sind in den 15 bis 22 gezeigt. Die Figuren bis 15 und 16 zeigen die Auftretensfrequenzverteilung für einen Wert des ersten Auto-Korrelations-Koeffizienten für 16 Phoneme und 22 Geräusche. Die 17 und 18 zeigen die Auftretensfrequenzverteilung eines Wertes des siebten Auto-Korrelations-Koeffizienten für 16 Phoneme und 22 Geräusche. Die 19 und 20 zeigen die Auftretensfrequenzverteilung eines Wertes des ersten Cepstrum-Koeffizienten für 16 Phoneme und 22 Geräusche. Die 21 und 22 zeigen die Auftretensfrequenzverteifung für einen Wert des dritten Cepstrum-Koeffizienten für 16 Phoneme und 22 Geräusche.
  • In diesen Figuren zeigt der geschlossene Kreis einen Hauptwert an, und eine Linie, die sich in einer vertikalen Richtung erstreckt, zeigt die Standardabweichung an. Aus diesen Ergebnissen ist geschlossen worden, dass die jeweiligen Parameter die folgende Tendenz aufweisen.
  • Die Auto-Korrelations-Koeffizienten sind Parameter, die den Unterschied der Frequenzbänder, auf denen die Energie konzentriert ist, widerspiegelt. Der erste Auto-Korrelations-Koeffizient zeigt einen Wert näher bei 0 an für ein Signal, bei dem die Energie im wesentlichen in einem Hochfrequenzband existiert (z. B. ein nichtstimmhafter Klang und Geräusche mit hoher Zufälligkeit)und zeigt einen Wert näher bei 1 für ein Signal, bei dem die Energie im wesentlichen in einem bestimmten Frequenzband existiert (z. B. ein stimmhafter Klang)(siehe 15 und 16). Der siebte Auto-Korrelations-Koeffizient zeigt einen Wert näher bei 1 für ein Signal, bei dem die Energie im wesentlichen in einem relativ niedrigen Frequenzband existiert (z. B. ein gleichbleibendes Geräusch) und zeigt einen Wert näher bei 0 für ein Signal, bei dem die Energie im wesentlichen in einem bestimmten Frequenzband existiert (z. B. ein stimmhafter Klang) (siehe 17 und 18).
  • Die Cepstrum-Koeffizienten sind Parameter, die die Form des Spektrums eines Sprach-Signals anzeigen. Für den gleichen stimmhaften Klang sind die Werte der Cepstrum-Koeffizienten abhängig von den Phonemen stark voneinander unterschiedlich. Der erste Cepstrum-Koeffizient ist ein Parameter, der einen allgemeinen Unterschied des Spektrums anzeigt, so wie z. B., ob das Phonem ein stimmhafter Klang oder ein nicht stimmhafter Klang ist. Der erste Cepstrum-Koeffizient hat einen Wert von 1,0 oder mehr für den stimmhaften Klang, mit Ausnahme des Phonems /i/, und hat einen Wert von 1,0 oder weniger für andere Phoneme (siehe 19 und 20). Der dritte Cepstrum-Koeffizient repräsentiert insbesondere das Merkmal des Phonems /i/. Der dritte Cepstrum-Koeffizient hat einen Wert von 0,5 oder mehr für das Phonem /i/, und hat einen Wert von 0,5 oder weniger für die anderen Phoneme (siehe 21 und 22).
  • Aus Obigem wurde erkannt, dass das Phonem /i/ eine Tendenz besitzt, welche unterschiedlich zu den anderen vier von fünf Vokalen ist, so dass das Phonem /i/ irrtümlicher Weise durch die Kriterien der Parameter die für die Detektion von Vokalen verwendet werden, oft falsch bewertet wird. Um eine solche irrtümliche Bewertung zu verhindern und die Sprachdetektion genauer durchzuführen, ist es notwendig, ein Bewertungskriterium, welches auf der inherenten Tendenz der Phoneme beruht (ein Parameterbewertungsgrenzwert), vorzusehen.
  • Im Folgenden wird das Verfahren zur Sprachdetektion durch die Vorrichtung 40 zur Sprachdetektion detaillierter beschrieben werden.
  • Das Audio-Signal, welches durch ein Mikrofon (nicht gezeigt) eingegeben wurde, wird an dem Parameter-Extraktor 41 angelegt. Der Parameter-Extraktor 41 extrahiert eine Vielzahl von Parametern, die für die Sprachdetektion benötigt werden, wie in den oben beschriebenen Beispielen. In diesem Beispiel werden die folgenden fünf Parameter durch den Parameter-Extraktor 41 extrahiert: ein Mächtigkeitswert Pi für jeden Rahmen, ein normalisierter erster Auto-Korrelations-Koeffizient Ai(1); ein normalisierter siebter Auto-Korrelations-Koeffizient Ai(7); ein erster Cepstrum-Koeffizient Ci(1) und ein dritter Cepstrum-Koeffizient Ci(3).
  • Anstelle des ersten Auto-Korrelations-Koeffizienten kann ein anderer (fünfter oder niedrigerer Ordnung) Auto-Korrelations-Koeffizient von niedriger Ordnung verwendet werden. Diese Auto-Korrelations-Koeffizienten niedriger Ordnung zeigen die gleiche Tendenz, die für die Unterscheidung eines Nichtsprachklanges benötigt wird, bei dem die Energie im wesentlichen in einem niedrigen Frequenzband existiert.
  • Alternativ kann ein erster PARCOR-Koeffizient anstelle des ersten Auto-Korrelations-Koeffizienten verwendet werden und ein erster LPC-Koeffizient kann anstelle des ersten Cepstrum-Koeffizienten verwendet werden (weil die absoluten Werte dieser zueinander gleich sind).
  • In diesem Beispiel wird zusammen mit dem ersten Cepstrum-Koeffizienten ein dritter Cepstrum-Koeffizient, welcher ein Parameter ist, der insbesondere das Merkmal des Phonems /i/ anzeigt, verwendet. Um die Sprache-/Nichtsprache-Bewertung mit hoher Leistung zu realisieren, können zusätzlich Cepstrum-Koeffizienten erster oder höherer Ordnung, welche insbesondere andere Phoneme, wie z. B. /a/, /u/, /e/, und /o/ repräsentieren, verwendet werden. Sofern LPC-Cepstrum-Koeffizienten, FFT-Cepstrum-Koeffizienten und Melcepstrum-Koeffizienten als die Cepstrum-Koeffizienten verwendet werden, existiert kein Problem im Hinblick auf die Tatsache, dass die Phonemeigenschaft auf der Basis der Merkmale der jeweiligen Phoneme in der Sprache detaillierter bewertet werden kann.
  • Die Grenzwertentscheidungseinheit 42 extrahiert aus den ausführlichen Trainingsdaten (für einen Vokalteil) und aus den Nichtsprachdaten (Geräuschdaten)Parameter, die in dem Parameter-Extraktor 41 verwendet werden sollen. Dann werden, basierend auf der Verteilung dieser Parameter Grenzwerte, die für die Sprach-/Nichtsprach-Bewertung benötigt werden, für jeden Parameter bestimmt. Weiterhin wird ein anderer Grenzwert für jeden Parameter zur Bestimmung, wie viele Rahmen, die eine Grenzwertbedingung erfüllen (die als Sprache detektiert werden sollen) innerhalb einer spezifischen Periode erscheinen sollten (Anzahl der Rahmen) bestimmt. Es wird nämlich das Existenzverhältnis der Frames bzw. Rahmen, die als Sprache innerhalb einer bestimmten Periode (mögliche Sprachperiode) detektiert wurden, aus den Trainingsdaten für jeden Parameter extrahiert. Ein Grenzwert des Existenzverhältnisses wird für die Sprache-/Nichtsprache-Bewertung bestimmt.
  • Die Nichtsprachdaten zur Bestimmung des Sprache-/ Nichtsprachegrenzwertes können in Übereinstimmung mit der Situation, in welcher die Vorrichtung zur Sprachdetektion verwendet wird, ausgewählt werden. Z. B. reicht es aus, in dem Fall der Verwendung der Vorrichtung zur Sprachdetektion in einem Besprechungsraum, Daten von Geräuschen, welche erwartet werden, zu verwenden, wie z. B. Klopfen auf einen Tisch, Rascheln von Papierseiten, Klirren von Glas, etc.
  • Die Parameter, die aus dem Eingangs-Audiosignal durch den Parameter-Extraktor 41 extrahiert wurden, werden sowohl in die allgemeine Entscheidungseinheit 43 und die detaillierte Entscheidungseinheit 44 eingegeben. Der vierte und siebte Auto-Korrelations-Koeffizient und der erste Cepstrum-Koeffizient werden in die allgemeine Entscheidungseinheit 43 eingegeben und der dritte Cepstrum-Koeffizient wird in die detaillierte Entscheidungseinheit 44 eingegeben.
  • 23 zeigt schematisch eine Entscheidungsprozedur in der allgemeinen Entscheidungseinheit 43.
  • Zuerst werden Zufallsgeräusche, wie z. B. nicht stimmhafte Klänge mit einer Energie, die in einem Hochfrequenzband dominiert von dem Kandidaten der Sprachdetektion unter Verwendung des Wertes des ersten Auto-Korrelations-Koeffizienten ausgeschlossen. Der erste Auto-Korrelations-Koeffizient Ai(1) des Rahmens i des Eingangs-Audiosignals wird extrahiert und mit dem Grenzwert A1 des ersten Auto-Korrelations-Koeffizienten, der vorbestimmt in der Grenzwertentscheidungseinheit 42 ist, verglichen. Sofern Ai(1) ≥ A1 wird das Eingangssignal als Sprache bewertet, sonst wird es als Nichtsprache bewertet (Schritt 710).
  • Anschließend werden die Geräusche mit einer Energie, die in einem Niederfrequenzband dominant ist, von dem Kandidaten der Sprachdetektion unter Verwendung des Wertes des siebten Auto-Korrelations-Koeffizienten ausgeschlossen. Der siebte Auto-Korrelations-Koeffizient Ai(7) des Rahmens i des Eingangs-Audiosignals wird extrahiert und mit dem Grenzwert A7 des siebten Auto-Korrelations-Koeffizienten, der vorbestimmt in der Grenzwertentscheidungseinheit 42 ist, verglichen. Sofern Ai(7) ≤ A7 wird das Eingangssignal als Sprache bewertet, sonst wird es als Nichtsprache bewertet (Schritt 720).
  • Anschließend werden stimmhafte Klänge, nicht enthaltend das Phonem /i/, unter Verwendung des Wertes des ersten Cepstrum-Koeffizienten detektiert. Der erste Cepstrum-Koeffizient Ci(1) des Rahmens i des Eingangs-Audiosignals wird extrahiert und verglichen mit dem Grenzwert C1 des ersten Cepstrum-Koeffizienten, der vorbestimmt in der Grenzwertentscheidungseinheit 42 ist. Sofern C1(1) ≥ C1 wird das Eingangssignal als Sprache bewertet, sonst wird es als Nichtsprache bewertet (Schritt 730). Sofern das bewertete Ergebnis beim Schritt 730 "Sprache" ist, wird Vi = 1 in einem Schritt 740 ausgegeben. Wenn es "Nichtsprache" ist wird Vi = 0 am Schritt 750 ausgegeben. Der Ausgabewert Vi ist ein Wert, welcher die bewerteten Ergebnisse anzeigt (Sprache: 1, Nichtsprache: 0). Diese Ausgabewerte werden der detaillierten Entscheidungseinheit 44 aufgegeben.
  • 24 zeigt schematisch eine Entscheidungsprozedur in der detaillierten Entscheidungseinheit 44.
  • Die detaillierte Entscheidungseinheit 44 legt den Ausgabewert Vi direkt an die Abschluss-Entscheidungseinheit 45 an (Schritt 810 → 850) in dem Fall, in dem ein Signal als Sprache in der allgemeinen Entscheidungseinheit 43 bewertet wurde (d. h. Vi = 1). Wenn ein Signal in der allgemeinen Entscheidungseinheit 43 als Nichtsprache bewertet wurde (d. h. Vi = 0), wird die Entscheidung ob es ein Phonem /i/ ist oder nicht, ausgeführt. Der Wert des dritten Cepstrum-Koeffizienten Ci(3), der aus dem Eingang-Audiosignal extrahiert wurde, wird mit dem Grenzwert C3 des dritten Cepstrum-Koeffizienten, der in der Grenzwertentscheidungseinheit 42 vorbestimmt ist, verglichen. Wenn Ci(3) ≥ C3 wird das Signal als Phonem /i/ bewertet (d. h. Sprache), sonst wird es als Nichtsprache bewertet (Schritt 820).
  • Sofern das bewertete Ergebnis beim Schritt 820 "Sprache" ist, wird Vi = 1 beim Schritt 830 ausgegeben. In dem Fall von "Nichtsprache" wird beim Schritt 840 Vi = 0 ausgegeben. Dieser Ausgabewert wird der Abschluss-Entscheidungseinheit 45 aufgegeben.
  • Die Abschluss-Entscheidungseinheit 45 führt basierend auf dem bewerteten Ergebnis, welches von der detaillierten Entscheidungseinheit 44 angelegt wird, und dem Mächtigkeitswert, der vom Parameter-Extraktor 41 angelegt wird, eine abschließende Entscheidung durch, ob die spezifische Periode des Eingangssignals ein Sprach-Signal ist oder nicht. Die abschließende Entscheidungseinheit 45 vergleicht dem Mächtigkeitswert Pi, der im Mächtigkeitsberechner 41a erhalten wurde, mit dem Mächtigkeitsgrenzwert PTH, der in der Grenzwertentscheidungseinheit 42 vorbestimmt ist. Die abschließende Entscheidungseinheit 45 entscheidet eine mögliche Sprachperiode durch Detektion der Anzahl der aufeinanderfolgenden Frames bzw. Rahmen, mit einer Mächtigkeit gleich größer als der Grenzwert PTH und durch Vergleich der detektierten Nummer der aufeinanderfolgenden Frames mit einem vorbestimmten Wert. Wenn die detektierte Anzahl gleich oder größer ist als der vorbestimmte Wert, wird die spezifische Periode als eine mögliche Sprachperiode bewertet.
  • Sofern das Verhältnis der Anzahl Cv der Frames bzw. Rahmen, die als Sprache durch die allgemeine Entscheidungseinheit 43 und die detaillierte Entscheidungseinheit 44 bewertet wurden, zu der Anzahl J der Rahmen, die als mögliche Sprachperiode detektiert wurden, gleich ist oder größer als der Grenzwert M, welcher vorbestimmt in der Grenzwertentscheidungseinheit 42 ist, d. h. wenn die unten erwähnte Ungleichung (22) erfüllt ist, wird die mögliche Sprachperiode als Sprache bewertet.
  • Figure 00450001
  • In praktischerer Art und Weise wird für die Rahmen, die eine Rahmenmächtigkeit Pi gleich oder größer als der Grenzwert PTH haben, die phonemische Detektion ausgeführt, während die Anzahl Cv der Rahmen, die als Sprache bewertet werden, gezählt wird. Sofern der Mächtigkeit Pi gleich oder größer ist als der Grenzwert PTH werden diese Schritte wiederholt. Wenn der Mächtigkeitswert Pi kleiner wird als der Grenzwert PTH, wird die Anzahl der Wiederholungen (d. h. die Anzahl der aufeinanderfolgenden Rahmen) vorbestimmt. Die wiederholte Anzahl Cv wird mit dem Grenzwert M, welcher in der Grenzwertentscheidungseinheit 42 vorbestimmt ist, verglichen. Sofern Cv die obenerwähnte Ungleichung (22) erfüllt, wird die mögliche Sprachperiode als Sprache bewertet. Darüber hinaus kann in der oben erwähnten Entscheidungsprozedur ein vorbestimmter oberer Grenzwert Mmax, wie durch die Ungleichung (23) ausgedrückt, vorgesehen werden, um zu verhindern, dass ein Geräusch, welches für eine lange Zeit mit einer großen Mächtigkeit fortdauert, irrtümlicherweise als Sprache bewertet wird.
  • Figure 00450002
  • Wie oben beschrieben führt die Vorrichtung zur Sprachdetektion in diesem Beispiel die Bewertung, basierend auf den Phonem-Eigenschaften der Sprache aus. In dieser Art und Weise ist es möglich,
    eine Vorrichtung zur Sprachdetektion zur Verfügung zu stellen, welche ein Sprach-Signal von verschiedenen Audiosignalen, mit einer relativ einfachen Konstruktion genau detektieren kann.

Claims (20)

  1. Vorrichtung zur Sprachdetektion mit: einer Einrichtung zur Bildung eines Bezugsmodells, um mehrere Parameter für eine Sprachdetektion aus Übungs-Daten zu extrahieren und basierend auf diesen Parametern das Bezugsmodell zu bilden; einer Anordnung (31) zum Extrahieren der Parameter, um die Parameter aus jedem Rahmen bzw. Einzelbild bzw. Frame eines eingegebenen Audio-Signals zu extrahieren; und einer Entscheidungsanordnung, um zu entscheiden, ob es sich bei dem angegebenen Audio-Signal um Sprache handelt oder nicht, durch Vergleich der Parameter, die aus dem eingegebenen Audio-Signal extrahiert werden, mit dem Bezugsmodell, wobei die Anordnung zur Bildung des Bezugsmodells aufweist: eine Anordnung (32) zur Bildung einer Parameter-Verteilung, um eine statistische Verteilung der Parameter für jedes Phonem bzw. jeden Laut zu bilden; und eine Anordnung (34) zur Bildung einer Dauer-Verteilung, um eine statistische Verteilung der Dauer für jedes Phonem bzw. für jeden Laut zu machen, und wobei die Entscheidungsanordnung aufweist: eine erste Mutmaßlichkeit- bzw. Likelihood-Berechnungsanordnung (33) für die Berechnung der Parameter-Mutmaßlichkeit für jeden Frame durch Vergleich der Parameter, die aus dem Frame des eingegebenen Audio-Signals extrahiert werden, mit der Parameter-Verteilung; einer zweiten Berechnungsanordnung (35) für die Mutmaßlichkeit bzw. Likelihood, um einen Phonem-Kandidat für jeden Frame des eingegebenen Audiosignals, basierend auf der Paramter-Likelihood jedes Frames, Vergleichen der Dauer des Phonem-Kandidaten mit der Dauer-Verteilung und Berechnung der Dauer-Likelihood für jeden Frame zu entscheiden; und eine umfassende Entscheidungsanordnung (36) zur Identifizierung eines Phonems aus den Phonem-Kandidaten, basierend auf der Parameter-Likelihood und der Dauer-Likelihood, und zum Entscheiden, ob eine spezifische Periode, die mehrere Frames des eingegebenen Audio-Signals enthält, Sprache ist oder nicht.
  2. Vorrichtung nach Anspruch 1, wobei die Anordnung zur Bildung der Parameter-Verteilung ein Bezugs-Muster durch Berechnung eines mittleren Wertes und einer Kovarianz-Matrix der Parameter für jedes Phonem bildet, und die Anordnung zur Bildung der Dauer-Verteilung ein Bezugs-Muster durch Berechnung eines mittleren Wertes und einer Kovarianz der Dauer für jedes Phonem bildet.
  3. Vorrichtung nach Anspruch 1 oder Anspruch 2, wobei die Parameter aus der Gruppe ausgewählt werden, die aus den Auto-Korrelations-Koeffizienten erster und höherer Ordnung, den LPC Koeffizienten erster und höherer Ordnung, den PARCOR Koeffizienten erster und höherer Ordnung, den Cepstrum-Koeffizienten erster und höherer Ordnung, den Melcepstrum-Koeffizienten erster und höherer Ordnung und den LSP Koeffizienten erster und höherer Ordnung besteht.
  4. Vorrichtung zur Sprachdetektion nach einem der vorhergehenden Ansprüche, wobei die Anordnung zur Extraktion der Parameter eine Berechnungsanordnung für die Auto-Korrelations-Koeffizienten hat, um Auto-Korrelations-Koeffizienten in einer Vielzahl von Ordnungen zu extrahieren, sowie eine Berechnungsanordnung für Cepstrum-Koeffizienten hat, um Cepstrum-Koeffizienten einer Vielzahl von Ordnungen zu extrahieren.
  5. Vorrichtung nach Anspruch 4, wobei die Berechnungsanordnung für Auto-Korrelations-Koeffizienten den ersten und siebten Auto-Korrelations-Koeffizienten berechnet, während die Berechnungsanordnung für die Cepstrum-Koeffizienten den ersten und dritten Cepstrum-Koeffizienten berechnen.
  6. Vorrichtung nach einem der vorhergehenden Ansprüche, wobei jeder von Parameter-Likelihood und Dauer-Likelihood log likelihood ist.
  7. Vorrichtung nach einem der vorhergehenden Ansprüche, wobei die zweite Berechnungsanordnung für die Likelihood die gemittelte Likelihood durch Mittelwertbildung der Parameter-Likelihood für jeden Frame in Bezug auf mehrere, aufeinanderfolgende Frame einschließlich eines Ziel-Frames für die Phonem-Detektion berechnet und einen Phonem-Kandidaten, basierend auf der gemittelten Likelihood, feststellt.
  8. Vorrichtung nach einem der vorhergehenden Ansprüche, wobei die Anordnung zur Extraktion von Parametern weiterhin eine Macht- bzw. Potenz- bzw. Power-Berechnungsanordnung zur Berechnung der Macht bzw. der Power bzw. der Potenz für die Berechnung der Macht bzw. Power für jeden Frame aufweist, und wobei die spezifische Periode des Audio-Signals eine Periode mit einer Power bzw. Macht ist, die größer als ein vorherbestimmter Wert ist.
  9. Vorrichtung nach einem der vorhergehenden Ansprüche, wobei die umfassende Entscheidungsanordnung aufweist: eine Berechnungsanordnung zur Berechnung der synthetischen Likelihood, basierend auf der Parameter-Likelihood und der Dauer-Likelihood; eine Identifikationsanordnung zur Identifizierung eines Phonems aus den Phonem-Kandidaten, basierend auf der synthetischen Likelihood; eine Zählanordnung zur Zählung der Zahl der Frames, die als ein Phonem in der spezifischen Periode des eingegebenen Audio-Signals identifiziert werden; eine Berechnungsanordnung zur Berechnung des Verhältnisses der gezählten Zahl der Frames in Bezug auf die Zahl der Gesamtframes, die in der spezifischen Periode des eingegebenen Audio-Signals enthalten sind; und eine Beurteilungsanordnung zur Entscheidung, ob es sich bei der spezifischen Periode des eingegebenen Audio-Signals, basierend auf dem berechneten Verhältnis, um Sprache handelt oder nicht.
  10. Vorrichtung nach einem der vorhergehenden Ansprüche, wobei die umfassende Entscheidungsanordnung weiterhin aufweist: eine Spezifikationsanordnung zur Klassifizierung der identifizierten Phonem-Frames in erste und zweite Phonem-Gruppen; eine Zählanordnung zur Zählung einer ersten Zahl von Frames, die in die erste Phonem-Gruppe klassifiziert sind, und einer zweiten Zahl von Frames, die in die zweite Phonem-Gruppe klassifiziert sind, in der spezifischen Periode des eingegebenen Audio-Signals; eine Berechnungsanordnung zur Berechnung eines ersten Verhältnisses der ersten Zahl in Bezug auf die Zahl der Frames, die in der spezifischen Periode enthalten sind, und eines zweiten Verhältnisses der zweiten Zahl in Bezug auf die Zahl der Frames, die in der spezifischen Periode enthalten sind; und eine Beurteilungsanordnung zur Beurteilung unter Verwendung von Fuzzy-(Logik) bzw. Qualitativaussagen-Überlegungen, basierend auf dem ersten Verhältnis und dem zweiten Verhältnis, ob es sich bei der spezifischen Periode um Sprache handelt oder nicht.
  11. Verfahren zur Sprachdetektion für die Beurteilung Sprache/Nicht-Sprache für ein angegebenes Audio-Signal unter Verwendung mehrerer Parameter, die aus dem eingegebenen Audio-Signal extrahiert werden, und eines Bezugsmodells, basierend auf Übungsdaten, mit den Schritten: (a) Extrahieren der Parameter aus den Übungs-Daten und Bilden einer statistischen Verteilung der Parameter für jedes Phonem bzw. jeden Laut, (b) Messen der Dauer für jedes Phonem der Übungs-Daten und Bilden einer statistischen Verteilung der Dauer jedes Phonems, (c) Extrahieren der Parameter aus jedem Frame eines eingegebenen Audio-Signals, (d) Berechnung der Parameter-Likelihood für jeden Frame durch Vergleich der Parameter, die im Schritt (c), extrahiert werden, mit der Parameter-Verteilung, (e) Entscheiden eines Phonem-Kandidaten für jeden Frame des eingegebenen Audio-Signals, basierend auf der Parameter-Likelihood jedes Frames, (f) Vergleich der Dauer des Phonem-Kandidaten mit der Dauer-Verteilung und Berechnen der Dauer-Mutmaßlichkeit bzw. Likelihood für jeden Frame, (g) Identifizieren eines Phonems aus den Phonem-Kandidaten, basierend auf der Parameter-Likelihood und der Dauer-Likelihood, und (h) Beurteilen, ob es sich bei einer spezifischen Periode, die mehrere Frames des eingegebenen Audiosignals enthält, um Sprache handelt oder nicht, und zwar basierend auf dem identifizierten Phonem.
  12. Verfahren nach Anspruch 11, wobei der Schritt (a) den Schritt der Bildung eines Parameter-Bezugsmusters durch Berechnen eines mittleren Wertes und einer Kovarianz-Matrix der Parameter für jedes Phonem aufweist, und der Schritt (b) den Schritt der Bildung eines Dauer-Bezugsmusters durch Berechnung des mittleren Wertes und der Kovarianz der Dauer jedes Phomens aufweist.
  13. Verfahren nach Anspruch 11 oder 12, wobei die Parameter in den Schritten aus der Gruppe ausgewählt werden, die aus den Auto-Korrelations-Koeffizienten erster und höherer Ordnung, den LPC Koeffizienten erster und höherer Ordnung, den PARCOR Koeffizienten erster und höherer Ordnung, den Cepstrum-Koeffizienten erster und höherer Ordnung, den Melcepstrum-Koeffizienten erster und höherer Ordnung und den LSP Koeffizienten erster und höherer Ordnung besteht.
  14. Verfahren nach einem der Ansprüche 11 bis 13, wobei der Schritt (c) die Schritte der Extraktion von Auto-Korrelations-Koeffizienten in mehreren Ordnungen und die Extraktion von Cepstrum-Koeffizienten mehreren Ordnungen aufweist.
  15. Verfahren nach Anspruch 14, wobei im Schritt (c) der erste und siebte Auto-Korrelations-Koeffizient und der erste und dritte Cepstrum-Koeffizient abgeleitet werden.
  16. Verfahren nach einem der Ansprüche 11 bis 15, wobei die Parameter-Likelihood im Schritt (d) und die Dauer-Likelihood im Schritt (f) log likelihood sind.
  17. Verfahren nach einem der Ansprüche 11 bis 16, wobei der Schritt (e) aufweist: die Schritte der Berechnung einer gemittelten Likelihood durch Mittelwertbildung der Parameter-Likelihood jedes Frames in Bezug auf mehrere aufeinanderfolgende Frames einschließlich eines Ziel-Frames für die Phonem-Detektion, und die Ermittlung des Phonem-Kandidaten, basierend auf der gemittelten Likelihood.
  18. Verfahren nach einem der Ansprüche 11 bis 17, wobei der Schritt (c) weiterhin den Schritt der Berechnung einer Power bzw. einer Macht für jeden Frame aufweist, und wobei der Schritt (h) die Schritte aufweist: Vergleich der Power bzw. der Macht jedes Frame mit einem vorherbestimmten Wert, Zählen der Zahl der Frames, die eine Power bzw. Macht haben, die gleich oder höher als ein vorherbestimmter Wert ist, und Identifizieren der Periode des eingegebenen Audio-Signals, basierend auf der Zahl der Frames mit der Power bzw. Macht, die gleich oder größer als der vorherbestimmte Wert ist, als die spezifische Periode des eingegebenen Audio-Signals.
  19. Verfahren nach einem der Ansprüche 11 bis 18, wobei der Schritt (g) die Schritte aufweist: Berechnen der synthetischen Likelihood, basierend auf der Parameter-Likelihood und der Dauer-Likelihood, und Identifizieren eines Phonems aus den Phonem-Kandidaten, basierend auf der synthetischen Likelihood, und der Schritt (h) die Schritte aufweist: Zählen der Zahl der Frames, die als Phonem in dem Schritt (g) in der spezifischen Periode des eingegebenen Audio-Signals identifiziert werden, Berechnen des Verhältnisses der gezählten Zahl der Frames in Bezug auf die Zahl der Gesamtframes, die in der spezifischen Periode enthalten sind, und Entscheiden, ob es sich bei der spezifischen Periode des eingegebenen Audio-Signals um Sprache handelt oder nicht, basierend auf dem berechneten Verhältnis.
  20. Verfahren nach einem der Ansprüche 11 bis 19, wobei der Schritt (h) die Schritte aufweist: (i) Klassifizieren der identifizierten Phonem-Frames in erste und zweite Phonem-Gruppen, (j1) Zählen einer ersten Zahl von Frames, die in die erste Phonem-Gruppe klassifiziert werden, in der spezifischen Periode des eingegebenen Audio-Signals, (j2) Zählen der zweiten Zahl von Frames, die in die zweite Phonem-Gruppe klassifiziert werden, in der spezifischen Periode des eingegebenen Audio-Signals, (k1) Berechnen des ersten Verhältnisses der ersten Zahl in Bezug auf die Zahl der Frames, die in der spezifischen Periode enthalten sind, (k2) Berechnen des zweiten Verhältnisses der zweiten Zahl in Bezug auf die Zahl der Frames, die in der spezifischen Periode enthalten sind, und (l) Beurteilen unter Verwendung von Fuzzy-(Logik) bzw. Qualitativaussagen-Überlegungen, basierend auf dem ersten Verhältnis und dem zweiten Verhältnis, ob es sich bei der spezifischen Periode um Sprache handelt oder nicht.
DE69433254T 1993-05-19 1994-05-19 Verfahren und Vorrichtung zur Sprachdetektion Expired - Fee Related DE69433254T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP11698093 1993-05-19
JP5116980A JPH06332492A (ja) 1993-05-19 1993-05-19 音声検出方法および検出装置

Publications (2)

Publication Number Publication Date
DE69433254D1 DE69433254D1 (de) 2003-11-20
DE69433254T2 true DE69433254T2 (de) 2004-08-12

Family

ID=14700517

Family Applications (3)

Application Number Title Priority Date Filing Date
DE69432943T Expired - Fee Related DE69432943T2 (de) 1993-05-19 1994-05-19 Verfahren und Vorrichtung zur Sprachdetektion
DE69430082T Expired - Fee Related DE69430082T2 (de) 1993-05-19 1994-05-19 Verfahren und Vorrichtung zur Sprachdetektion
DE69433254T Expired - Fee Related DE69433254T2 (de) 1993-05-19 1994-05-19 Verfahren und Vorrichtung zur Sprachdetektion

Family Applications Before (2)

Application Number Title Priority Date Filing Date
DE69432943T Expired - Fee Related DE69432943T2 (de) 1993-05-19 1994-05-19 Verfahren und Vorrichtung zur Sprachdetektion
DE69430082T Expired - Fee Related DE69430082T2 (de) 1993-05-19 1994-05-19 Verfahren und Vorrichtung zur Sprachdetektion

Country Status (4)

Country Link
US (1) US5611019A (de)
EP (3) EP1083541B1 (de)
JP (1) JPH06332492A (de)
DE (3) DE69432943T2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112017004548B4 (de) 2016-09-09 2022-05-05 Continental Automotive Systems, Inc. Verfahren und Vorrichtung zur robusten Geräuschschätzung für eine Sprachverbesserung in variablen Geräuschbedingungen

Families Citing this family (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU707896B2 (en) * 1995-02-15 1999-07-22 British Telecommunications Public Limited Company Voice activity detection
DE19508711A1 (de) * 1995-03-10 1996-09-12 Siemens Ag Verfahren zur Erkennung einer Signalpause zwischen zwei Mustern, welche in einem zeitvarianten Meßsignal vorhanden sind
AU720511B2 (en) * 1995-08-24 2000-06-01 British Telecommunications Public Limited Company Pattern recognition
JP3536471B2 (ja) * 1995-09-26 2004-06-07 ソニー株式会社 識別装置および識別方法、並びに音声認識装置および音声認識方法
US5768263A (en) * 1995-10-20 1998-06-16 Vtel Corporation Method for talk/listen determination and multipoint conferencing system using such method
US5774849A (en) * 1996-01-22 1998-06-30 Rockwell International Corporation Method and apparatus for generating frame voicing decisions of an incoming speech signal
US5778082A (en) * 1996-06-14 1998-07-07 Picturetel Corporation Method and apparatus for localization of an acoustic source
US6708146B1 (en) 1997-01-03 2004-03-16 Telecommunications Research Laboratories Voiceband signal classifier
JP3255584B2 (ja) * 1997-01-20 2002-02-12 ロジック株式会社 有音検知装置および方法
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
DE59812167D1 (de) * 1997-09-12 2004-12-02 Siemens Ag Verfahren zur Zurückweisung unbekannter Wörter bei der Spracherkennung von Einzelworten
US6055499A (en) * 1998-05-01 2000-04-25 Lucent Technologies Inc. Use of periodicity and jitter for automatic speech recognition
US6226606B1 (en) * 1998-11-24 2001-05-01 Microsoft Corporation Method and apparatus for pitch tracking
US6556967B1 (en) * 1999-03-12 2003-04-29 The United States Of America As Represented By The National Security Agency Voice activity detector
JP4438127B2 (ja) * 1999-06-18 2010-03-24 ソニー株式会社 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体
FI116992B (fi) * 1999-07-05 2006-04-28 Nokia Corp Menetelmät, järjestelmä ja laitteet audiosignaalin koodauksen ja siirron tehostamiseksi
US7072833B2 (en) * 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system
US6954745B2 (en) * 2000-06-02 2005-10-11 Canon Kabushiki Kaisha Signal processing system
US7035790B2 (en) * 2000-06-02 2006-04-25 Canon Kabushiki Kaisha Speech processing system
US20020026253A1 (en) * 2000-06-02 2002-02-28 Rajan Jebu Jacob Speech processing apparatus
US7010483B2 (en) * 2000-06-02 2006-03-07 Canon Kabushiki Kaisha Speech processing system
JP4201471B2 (ja) * 2000-09-12 2008-12-24 パイオニア株式会社 音声認識システム
JP4201470B2 (ja) * 2000-09-12 2008-12-24 パイオニア株式会社 音声認識システム
US20020147585A1 (en) * 2001-04-06 2002-10-10 Poulsen Steven P. Voice activity detection
JP3812887B2 (ja) * 2001-12-21 2006-08-23 富士通株式会社 信号処理システムおよび方法
US20030216909A1 (en) * 2002-05-14 2003-11-20 Davis Wallace K. Voice activity detection
KR100440973B1 (ko) * 2002-08-01 2004-07-21 삼성전자주식회사 신호간 상관계수 결정 장치 및 방법과 이를 이용한 신호피치 결정 장치 및 방법
US8793127B2 (en) * 2002-10-31 2014-07-29 Promptu Systems Corporation Method and apparatus for automatically determining speaker characteristics for speech-directed advertising or other enhancement of speech-controlled devices or services
JP4348970B2 (ja) 2003-03-06 2009-10-21 ソニー株式会社 情報検出装置及び方法、並びにプログラム
US20050015244A1 (en) * 2003-07-14 2005-01-20 Hideki Kitao Speech section detection apparatus
EP1661124A4 (de) * 2003-09-05 2008-08-13 Stephen D Grody Verfahren und vorrichtungen zur bereitstellung von diensten durch verwendung von spracherkennung
WO2005034395A2 (en) * 2003-09-17 2005-04-14 Nielsen Media Research, Inc. Methods and apparatus to operate an audience metering device with voice commands
KR100571831B1 (ko) * 2004-02-10 2006-04-17 삼성전자주식회사 음성 식별 장치 및 방법
CN100592386C (zh) * 2004-07-01 2010-02-24 日本电信电话株式会社 特定音响信号含有区间检测系统及其方法
DE102004049347A1 (de) * 2004-10-08 2006-04-20 Micronas Gmbh Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale
CN100399419C (zh) * 2004-12-07 2008-07-02 腾讯科技(深圳)有限公司 一种检测静音帧的方法
KR100682909B1 (ko) * 2004-12-23 2007-02-15 삼성전자주식회사 음성 인식 방법 및 장치
FR2864319A1 (fr) * 2005-01-19 2005-06-24 France Telecom Procede et dispositif de detection de parole dans un signal audio
US8175877B2 (en) * 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
KR100714721B1 (ko) * 2005-02-04 2007-05-04 삼성전자주식회사 음성 구간 검출 방법 및 장치
US20060241937A1 (en) * 2005-04-21 2006-10-26 Ma Changxue C Method and apparatus for automatically discriminating information bearing audio segments and background noise audio segments
US20070033042A1 (en) * 2005-08-03 2007-02-08 International Business Machines Corporation Speech detection fusing multi-class acoustic-phonetic, and energy features
US7962340B2 (en) * 2005-08-22 2011-06-14 Nuance Communications, Inc. Methods and apparatus for buffering data for use in accordance with a speech recognition system
JP2007114413A (ja) * 2005-10-19 2007-05-10 Toshiba Corp 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム
US8175868B2 (en) * 2005-10-20 2012-05-08 Nec Corporation Voice judging system, voice judging method and program for voice judgment
US9015740B2 (en) 2005-12-12 2015-04-21 The Nielsen Company (Us), Llc Systems and methods to wirelessly meter audio/visual devices
CA2633577C (en) * 2005-12-12 2016-04-05 Nielsen Media Research, Inc. Systems and methods to wirelessly meter audio/visual devices
US8521537B2 (en) * 2006-04-03 2013-08-27 Promptu Systems Corporation Detection and use of acoustic signal quality indicators
US8364492B2 (en) * 2006-07-13 2013-01-29 Nec Corporation Apparatus, method and program for giving warning in connection with inputting of unvoiced speech
US20080033583A1 (en) * 2006-08-03 2008-02-07 Broadcom Corporation Robust Speech/Music Classification for Audio Signals
US8015000B2 (en) * 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals
KR100774800B1 (ko) * 2006-09-06 2007-11-07 한국정보통신대학교 산학협력단 포아송 폴링 기법을 이용한 세그먼트 단위의 음성/비음성분류 방법 및 장치
JP4282704B2 (ja) * 2006-09-27 2009-06-24 株式会社東芝 音声区間検出装置およびプログラム
CN101165779B (zh) * 2006-10-20 2010-06-02 索尼株式会社 信息处理装置和方法、程序及记录介质
JP4239109B2 (ja) 2006-10-20 2009-03-18 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
KR20100006492A (ko) 2008-07-09 2010-01-19 삼성전자주식회사 부호화 방식 결정 방법 및 장치
US9124769B2 (en) 2008-10-31 2015-09-01 The Nielsen Company (Us), Llc Methods and apparatus to verify presentation of media content
CN102667927B (zh) 2009-10-19 2013-05-08 瑞典爱立信有限公司 语音活动检测的方法和背景估计器
US20140207456A1 (en) * 2010-09-23 2014-07-24 Waveform Communications, Llc Waveform analysis of speech
CN102629470B (zh) * 2011-02-02 2015-05-20 Jvc建伍株式会社 辅音区间检测装置及辅音区间检测方法
JP6047922B2 (ja) * 2011-06-01 2016-12-21 ヤマハ株式会社 音声合成装置および音声合成方法
US20140329511A1 (en) * 2011-12-20 2014-11-06 Nokia Corporation Audio conferencing
US8892046B2 (en) * 2012-03-29 2014-11-18 Bose Corporation Automobile communication system
CN104409080B (zh) * 2014-12-15 2018-09-18 北京国双科技有限公司 语音端点检测方法和装置
CN105118520B (zh) * 2015-07-13 2017-11-10 腾讯科技(深圳)有限公司 一种音频开头爆音的消除方法及装置
EP3301950B1 (de) * 2016-04-29 2020-11-04 Huawei Technologies Co., Ltd. Verfahren und vorrichtung zur bestimmung von spracheingabeanomalien, endgerät und speichermedium
US10235993B1 (en) * 2016-06-14 2019-03-19 Friday Harbor Llc Classifying signals using correlations of segments
US9978392B2 (en) * 2016-09-09 2018-05-22 Tata Consultancy Services Limited Noisy signal identification from non-stationary audio signals
CN112397093B (zh) * 2020-12-04 2024-02-27 中国联合网络通信集团有限公司 一种语音检测方法与装置
US20220180206A1 (en) * 2020-12-09 2022-06-09 International Business Machines Corporation Knowledge distillation using deep clustering
CN113345472B (zh) * 2021-05-08 2022-03-25 北京百度网讯科技有限公司 语音端点检测方法、装置、电子设备及存储介质
CN114743541B (zh) * 2022-04-24 2023-03-17 广东海洋大学 一种英语听说学习用互动系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4284846A (en) * 1978-05-08 1981-08-18 John Marley System and method for sound recognition
JPS59226400A (ja) * 1983-06-07 1984-12-19 松下電器産業株式会社 音声認識装置
US5131043A (en) * 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
US4991216A (en) * 1983-09-22 1991-02-05 Matsushita Electric Industrial Co., Ltd. Method for speech recognition
US4920568A (en) * 1985-07-16 1990-04-24 Sharp Kabushiki Kaisha Method of distinguishing voice from noise
US5027408A (en) * 1987-04-09 1991-06-25 Kroeker John P Speech-recognition circuitry employing phoneme estimation
US4910784A (en) * 1987-07-30 1990-03-20 Texas Instruments Incorporated Low cost speech recognition system and method
DE68910859T2 (de) * 1988-03-11 1994-12-08 British Telecommunications P.L.C., London Detektion für die Anwesenheit eines Sprachsignals.
JPH01277899A (ja) * 1988-04-30 1989-11-08 Oki Electric Ind Co Ltd 音声帯域内信号検出方式
KR950013553B1 (ko) * 1990-05-28 1995-11-08 마쯔시다덴기산교 가부시기가이샤 음성신호처리장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112017004548B4 (de) 2016-09-09 2022-05-05 Continental Automotive Systems, Inc. Verfahren und Vorrichtung zur robusten Geräuschschätzung für eine Sprachverbesserung in variablen Geräuschbedingungen

Also Published As

Publication number Publication date
EP1083541A2 (de) 2001-03-14
DE69430082T2 (de) 2002-10-31
EP0625774B1 (de) 2002-03-13
EP1083541A3 (de) 2002-02-20
EP0625774A2 (de) 1994-11-23
DE69430082D1 (de) 2002-04-18
DE69432943T2 (de) 2003-12-24
EP1083542A3 (de) 2002-01-23
DE69433254D1 (de) 2003-11-20
DE69432943D1 (de) 2003-08-14
US5611019A (en) 1997-03-11
EP0625774A3 (de) 1996-10-30
JPH06332492A (ja) 1994-12-02
EP1083541B1 (de) 2003-07-09
EP1083542B1 (de) 2003-10-15
EP1083542A2 (de) 2001-03-14

Similar Documents

Publication Publication Date Title
DE69433254T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69029001T2 (de) Verfahren und Einrichtung zur Erkennung von Signalzeitfolgen mit von Signalvariationen unabhängigem Lernen
DE69722980T2 (de) Aufzeichnung von Sprachdaten mit Segmenten von akustisch verschiedenen Umgebungen
DE3236832C2 (de) Verfahren und Gerät zur Sprachanalyse
EP0604476B1 (de) Verfahren zur erkennung von mustern in zeitvarianten messsignalen
DE69831114T2 (de) Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen
DE19636739C1 (de) Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem
DE69030561T2 (de) Spracherkennungseinrichtung
DE69127818T2 (de) System zur verarbeitung kontinuierlicher sprache
DE3236834C2 (de) Verfahren und Gerät zur Sprachanalyse
DE60023517T2 (de) Klassifizierung von schallquellen
DE10111056B4 (de) Verfahren und Vorrichtungen zur Identifikation einer Nicht-Zielsprache in einem Spracherkennungssystem
DE68924134T2 (de) Spracherkennungssystem.
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE2918533A1 (de) Spracherkennungssystem
EP0797185A2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP0925579A1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
DE60108104T2 (de) Verfahren zur Sprecheridentifikation
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69813597T2 (de) Mustererkennung, die mehrere referenzmodelle verwendet
DE60107072T2 (de) Robuste merkmale für die erkennung von verrauschten sprachsignalen
DE69026474T2 (de) System zur Spracherkennung
DE102010040553A1 (de) Spracherkennungsverfahren
DE60318450T2 (de) Vorrichtung und Verfahren zur Segmentation von Audiodaten in Metamustern
DE3875894T2 (de) Adaptive multivariable analyseeinrichtung.

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee