DE69432943T2

DE69432943T2 - Verfahren und Vorrichtung zur Sprachdetektion

Info

Publication number: DE69432943T2
Application number: DE69432943T
Authority: DE
Inventors: Yoshihisa Nakatoh; Takeshi Norimatsu
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1993-05-19
Filing date: 1994-05-19
Publication date: 2003-12-24
Anticipated expiration: 2014-05-20
Also published as: EP1083541A3; EP0625774B1; EP1083542A3; DE69432943D1; EP0625774A3; EP1083541A2; EP0625774A2; US5611019A; JPH06332492A; DE69430082D1; EP1083542A2; DE69430082T2; DE69433254D1; EP1083542B1; DE69433254T2; EP1083541B1

Description

HINTERGRUND DER ERFINDUNG

1. Gebiet der Erfindung:

Die vorliegende Erfindung bezieht sich auf eine Vorrichtung zur Sprach-Detektion zur Entscheidung, ob es sich bei einem eingegebenen Signal um Sprache oder Nicht-Sprache handelt, und zwar unter geräuschvollen Bedingungen in einer Umgebung des realen Lebens, die Sprache mit verschiedenen stationären und/oder nicht-stationären Geräuschen enthält. Insbesondere bezieht die vorliegende Erfindung sich auf ein Verfahren zur Sprach-Detektion und eine Vorrichtung zur Sprach-Detektion, die zur Feststellung einer Zeitspanne, in der gesprochen wird, in einem Videokonferenzsystem, einem Audiowiedergabesystem für Fernseh- oder Audiogeräte, einem Spracherkennungssystem oder ähnlichen Systemen eingesetzt wird.

2. Beschreibung des zugehörigen Standes der Technik

In letzter Zeit wurden digitale Signalverarbeitungstechniken in weitem Umfang auf verschiedenen Gebieten von elektrischen Geräten eingesetzt. Auf dem Gebiet der Datenübertragungsgeräte sind beispielsweise nun eine Technik und eine Vorrichtung zur Übertragung von Bilddaten sowie Sprachdaten in Entwicklung, wodurch eine Kommunikation mit einem Präsenzgefühl durchgeführt wird. Videophone und Videokonferenzsysteme sind typische Beispiele der Anwendungen solcher Techniken, wobei ein Fernsehschirm eine bedeutende Rolle spielt. Insbesondere ein Videokonferenzsystem, bei dem viele Leute Unterhaltungen haben können, erfordert eine Technik zum korrekten Beantworten der Stimme eines Sprechers und zur geeigneten Änderung des Fernsehschirms, um auf diese Weise den momentanen Sprecher klarzustellen.
Weiterhin sind bei dem Audiowiedergabesystem eines Fernseh- oder Audiogerätes Techniken in der Entwicklung, um einen Nachhall und/oder eine Reflexion zu einem wiedergegebenen Schall hinzuzufügen, so dass ein Zuhörer ein Präsenzgefühl genießen kann. Wenn ein Breitbandsignal oder ein Stereosignal mit Musik-Schall oder ähnlichen Effekten wiedergegeben wird, können künstliche Klänge, wie beispielsweise ein Nachhallklang oder ein Reflexionsklang zu dem Signal hinzugefügt werden, um so einen erwünschten Effekt zu ergeben. Wenn jedoch ein Sprachsignal oder monoaurales Signal wiedergegeben wird, ergeben diese künstlichen Klänge nicht notwendiger Weise den gewünschten Effekt. In einigen Fällen kann das Artikulationsergebnis des Signals verschlechtert werden. Um eine effektive Audiowiedergabe durchzuführen, indem die künstlichen Töne nur zu Nicht-Sprachsignalen, wie beispielweise einem Musiksignal hinzugefügt werden, ist es dementsprechend notwendig festzustellen, ob es sich bei dem eingegebenen Audiosignal um ein Sprachsignal oder um ein Nicht-Sprachsignal handelt.
Darüber hinaus kann in dem System zur Durchführung einer Spracherkennung oder eines ähnlichen Vorgangs in dem Fall, dass Geräusche, bei denen es sich nicht um Sprache handelt, eingegeben und fehlerhafter Weise als Sprache bewertet werden, eine fehlerhafte Erkennung verursacht werden. Dementsprechend erfordert ein solches System eine Spracherkennungsvorrichtung, die korrekt entscheiden kann, ob es sich bei einem eingegebenen Signal um ein Sprachsignal handelt oder nicht.
Die Spracherkennung wird in der Hauptsache basierend auf der Stärke des eingegebenen Signals durchgeführt; ein Bereich, der einen Stärkewert hat, der größer als ein vorher bestimmter Schwellenwert ist, wird als Sprachsignal beurteilt. Aufgrund der sehr einfachen Verarbeitung wird dieses Verfahren sehr häufig eingesetzt. In einer lebensechten Umgebung mit verschiedenen Geräuschen kann jedoch ein Nicht-Sprache-Ton mit einer Stärke, die größer als der Schwellenwert ist, mit hoher Wahrscheinlichkeit eingegeben werden. Dementsprechend kann die Spracherkennung, die auf dem einzigen Merkmal der Stärke basiert, oft zu einer irrtümlichen Entscheidung führen.
Es sind verschiedene Verfahren vorgeschlagen worden, um eine Entscheidung darüber zu fällen, ob es sich bei dem eingegebenen Signal um Sprache oder Nicht-Sprache handelt, indem eine Vielzahl von Parametern (charakteristische Größen) verwendet werden, die - neben der Stärke - Spracheigenschaften angeben. Ein solches Verfahren wird beispielsweise in dem Artikel von H. Kobatake, K. Tawa, A. Ishisda mit dem Titel "Sprachen/Nicht- Sprachen-Diskriminierung für ein Spracherkennungssystem unter den Geräuschbedingungen des realen Lebens" (Speech/Nonspeech Discrimination for Speech Recognition System Under Real Life Noise Environments), veröffentlicht in Proc. ICASSP, 89, 365-356 (1989) beschrieben. Für Sprachen/Nichtsprachen-Diskriminierung in einer Umgebung des realen Lebens verwendet dieses Verfahren akustische Parameter, die effektiv für die Unterscheidung zwischen Sprachtönen und verschiedenen, nicht-stationären Geräuschen sind, die in einem Labor oder einem Büro im täglichen Leben auftreten. Speziell wird diese Sprachen/Nichtsprachen-Diskriminierung unter Verwendung eines Bereiches durchgeführt, der in einem Teil eines Sprachsignals mit hoher Stärke als ein Vokal angesehen wird, und zwar basierend auf dem Besetzungsverhältnis der Vokalbereiche zu dem Teil mit hoher Stärke des Sprachsignals. Bei der Unterscheidung zwischen Sprache/Nichtsprache werden fünf Audioparameter eingesetzt, d. h. Periodizität, Tonhöhenfrequenz (pitch freequency), optimale Ordnung der linearen Voraussage, Abstand zwischen Vokalen und Schärfe der Formanten. Ein oberer oder unterer Schwellenwert wird für jeden der Parameter eingestellt. Dann werden die fünf Parameter aus einem eingegebenen Signal abgeleitet, und die Unterscheidung Sprache/Nichtsprache wird, basierend auf der Beziehung zwischen den abgeleiteten Parametern und dem eingestellten oberen oder unteren Schwellenwert, durchgeführt. Wegen des sehr komplizierten Berechnungsprozesses für die Ableitung der Parameter und für den Vergleich jeder von ihnen mit dem oberen oder unteren Schwellenwert ist jedoch dieses Verfahren sehr zeitaufwendig und hat Nachteile als ein in der Praxis einzusetzendes Verfahren. Außerdem wird dieses Verfahren stark durch Änderungen bzw. Schwankungen der Parameter beeinflusst, die durch die Hinzufügung von stationären Geräuschen oder ähnlichen Einflüssen verursacht werden.
Obwohl es sich nicht um ein Verfahren für die Unterscheidung Sprache/Nichtsprache (Geräusche) handelt, ist weiterhin ein Verfahren für die Entscheidung Sprache mit Stimmen/Sprache ohne Stimmen (voiced/unvoiced speech) vorgeschlagen worden. Beispielsweise wird ein solches Verfahren in dem Artikel von B. S. Atal und L. R. Rabiner mit dem Titel "Ein Mustererkennungsansatz für eine Klassifikation Stimmen/keine Stimmen/Stille mit Anwendung auf Spracherkennung" (A Pattern Recognition Approach to Voiced-Unvoiced- Silence Classification with Appliation to Speech Recognition") veröffentlicht in IEEE Trans. Acoust., Speech, Signal Processing, ASSP-24-3 (1976) beschrieben worden. Bei diesem Verfahren werden fünf Parameter eingesetzt, und zwar der Logarithmus der Energie des Signals, die Nulldurchgangsrate des Signals, die Auto-Korrelations-Koeffizienten bei Abtasteinheitverzögerung, der erste Prädiktor-Koeffizient und der Logarithmus der Energie des Prädiktionsfehlers. Eine normale Verteilung wird für jeden der Parameter angenommen, und die Unterscheidung Stimmen/keine Stimmen/Stille wird unter Verwendung von gleichzeitigen bzw. simultanen Wahrscheinlichkeiten durchgeführt. Die Unterscheidung ist jedoch nicht korrekt für stationäre Geräusche oder Geräusche, deren Energie im niederfrequenten Bereich dominiert, obwohl sie effektiv ist für Geräusche, deren Energie im hochfrequenten Bereich dominiert.

ZUSAMMENFASSUNG DER ERFINDUNG

Gemäß der vorliegenden Erfindung, wie in den Ansprüchen 1 bis 12 beansprucht, weist eine. Vorrichtung zur Spracherkennung auf: Eine Vorrichtung zum Erzeugen eines Referenzmodells zum Extrahieren bzw. Gewinnen einer Mehrzahl von Parametern für eine Spracherkennung aus Trainings-Daten, und zum Erzeugen bzw. Machen eines Referenz-Modells basierend auf den Parametern; eine Vorrichtung zum Gewinnen bzw. Extrahieren von Parametern zum Extrahieren bzw. Gewinnen der Mehrzahl der Parameter aus jedem Datenblock eines eingegebenen Audio-Signals; und eine Entscheidungsvorrichtung zum Entscheiden, ob das eingegebene Audio-Signal Sprache ist oder nicht, durch das Vergleichen der Parameter, welche aus dem eingegebenen Audio-Signal extrahiert bzw. gewonnen wurden, mit dem Referenz-Modell. Das Referenz-Modell hat einen vorgegebenen Grenzwert von jedem Parameter für jedes Phonem, und die Entscheidungsvorrichtung umfasst: Eine erste Entscheidungseinheit zum Entscheiden, ob ein Datenblock des eingegebenen Audiosignals Sprache ist oder nicht, durch das Vergleichen der Parameter, welche aus dem Datenblock extrahiert bzw. gewonnen wurden, mit den jeweiligen Grenzwerten des Referenzmodells; eine zweite Entscheidungseinheit zum Entscheiden, ob der Datenblock, von welchem entschieden wurde, dass er nicht Sprache ist, durch die erste Entscheidungseinheit, Sprache ist oder nicht, durch Vergleichen mindestens eines Parameters des Datenblockes mit dem jeweiligen Grenzwert des Referenzmodells; und eine abschließende bzw. End- Entscheidungseinheit zum entscheiden, ob die spezifische bzw. bestimmte Periode des eingegebenen Audiosignals Sprache ist oder nicht, basierend auf dem Verhältnis der Anzahl der Datenblöcke, von welchen entschieden wurde, dass sie Sprache sind, durch die erste oder zweite Entscheidungseinheit in der bestimmten Periode in Bezug auf die gesamte Anzahl der Datenblöcke in der bestimmten Periode.
Damit macht die hier beschriebene Erfindung die Vorteile des Schaffens eines Verfahrens und einer Vorrichtung zur genauen Durchführung von Sprach-Detektion und Verhindern einer irrtümlichen Entscheidung möglich, und zwar sogar dann, wenn der Sprache stationäre Geräusche oder Geräusche hinzugefügt werden, deren Energie im niederfrequenten Bereich dominiert.
Diese und andere Vorteile der vorliegenden Erfindung werden dem Fachmann auf diesem Gebiet beim Lesen und Verstehen der folgenden detaillierten Beschreibung unter Bezugnahme auf die beiliegenden Figuren verständlich.

KURZE BESCHREIBUNG DER ZEICHNUNGEN

Fig. 1 ist ein Blockdiagramm, das den Aufbau einer Vorrichtung zur Sprach- Detektion nach einem ersten Beispiel zeigt.
Fig. 2 ist ein Blockdiagramm, das schematisch die Verarbeitung in einer Anordnung zum Extrahieren von Parametern der Vorrichtung zur Sprach-Detektion des ersten Beispiels der Erfindung darstellt.
Fig. 3A und 3B sind Flussdiagramme, die jeweils schematisch die Verarbeitung in einer Phonem-Entscheidungseinheit der Vorrichtung zur Sprach-Detektion nach dem ersten Beispiel der Erfindung zeigt.
Fig. 4 ist ein Flussdiagramm, das schematisch das Entscheidungsverfahren darstellt, das in einer Endentscheidungseinheit des ersten Beispiels der Erfindung verwendet wird.
Fig. 5 ist eine graphische Darstellung, die die Beziehung zwischen einer Sprach- Detektions-Rate und einer Geräuschdetektions-Fehlerrate zeigt, wenn die Länge eines Vokal-Segmentes variiert wird.
Fig. 6 ist eine graphische Darstellung, die die Beziehung zwischen einer Sprach- Detektions-Rate und einem Geräusch-Detektions-Fehlerrate zeigt, wenn das Verhältnis Signal/Rauschen variiert wird.
Fig. 7 ist ein Blockdiagramm, das den gesamten Aufbau einer Vorrichtung zur Sprach-Detektion nach einem zweiten Beispiel der Erfindung zeigt.
Fig. 8A und 8B sind Kurvendarstellungen, die jeweils die Verarbeitung in einer Fuzzy- Entscheidungseinheit zeigen.
Fig. 9 ist ein Diagramm, das die Mitgliedschafts-Funktionen A11 bis A41 für eine Vokalgruppe darstellt.
Fig. 10 ist ein Diagramm, das die Mitgliedschafts-Funktionen A12 bis A42 für eine Reibelautgruppe zeigt.
Fig. 11 ist ein Blockdiagramm und zeigt die gesamte Konstruktion einer Spracherkennungsvorrichtung eines dritten Beispiels der Erfindung.
Fig. 12 ist eine Ansicht und zeigt schematisch das Verfahren der Arbeitsweise in einer Vorrichtung zum Erzeugen einer Dauer-Verteilung.
Fig. 13 ist eine schematische Ansicht und zeigt das Verfahren der Arbeitsweise in einer Berechnungsvorrichtung für die Dauer-Wahrscheinlichkeit.
Fig. 14 ist ein Blockdiagramm und zeigt die gesamte Konstruktion einer Spracherkennungsvorrichtung eines vierten Beispiels der Erfindung.
Fig. 15 ist ein Diagramm und zeigt die Auftritts-Frequenz-Verteilung des Werts des ersten Autokorrelations-Koeffizienten für 16 Phoneme, welche aus Trainings- Daten erhalten wurden.
Fig. 16 ist ein Diagramm und zeigt die Auftritts-Frequenz-Verteilung des Werts des ersten Autokorrelations-Koeffizienten für 22 Geräusche, welche aus Trainingsdaten erhalten wurden.
Fig. 17 ist ein Diagramm und zeigt die Auftritts-Frequenz-Verteilung des Wertes des siebten Auto-Korrelations-Koeffizienten für 16 Phoneme, welche aus Trainingsdaten erhalten wurden.
Fig. 18 ist ein Diagramm und zeigt die Auftritts-Frequenz-Verteilung des Werts des siebten Auto-Korrelations-Koeffizienten für 22 Geräusche, welche aus Trainingsdaten erhalten wurden.
Fig. 19 ist ein Diagramm und zeigt die Auftritts-Frequenz-Verteilung des Wertes des ersten Cepstrum-Koeffizienten für 16 Phoneme, welche erhalten wurden aus Trainingsdaten.
Fig. 20 ist ein Diagramm und zeigt die Auftritts-Frequenz-Verteilung des Werts des ersten Cepstrum-Koeffizienten für 22 Geräusche, welche aus Trainingsdaten erhalten wurden.
Fig. 21 ist ein Diagramm und zeigt die Auftritts-Frequenz-Verteilung des Werts des dritten Cepstrum-Koeffizienten für 16 Phoneme, welche aus Trainingsdaten erhalten wurden.
Fig. 22 ist ein Diagramm und zeigt die Auftritts-Frequenz-Verteilung des Werts des dritten Cepstrum-Koeffizienten für 22 Geräusche, welche aus den Trainingsdaten erhalten wurden.
Fig. 23 ist ein Ablaufdiagramm und zeigt schematisch das Entscheidungsverfahren in einer allgemeinen bzw. Gesamt-Entscheidungseinheit.
Fig. 24 ist ein Ablaufdiagramm und zeigt schematisch das Entscheidungsverfahren in einer detaillierten Entscheidungseinheit.

BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN

Beispiel 1

Nun wird Beispiel 1 der vorliegenden Erfindung beschrieben werden.
Zunächst wird im Folgenden der Umriss bzw. der grobe Aufbau eines Sprach- Detektionsverfahren nach dem Beispiel 1 beschrieben werden.
Gemäß Beispiel 1 wird zu Beginn ein Bezugsmodell jedes Vokals, basierend auf Trainingsdaten gemacht. Bei der Bildung des Vokalbezugsmodells werden verschiedene Parameter aus jedem Rahmen bzw. Frame der Trainingsdaten extrahiert, um einen mittleren Wert und eine Kovarianz-Matrix jedes der Parameter zu berechnen. Als nächstes werden diese Parameter aus jedem Frame eines eingegebenen Signals extrahiert, das der Entscheidung Sprache/Nichtsprache unterworfen werden soll. Die extrahierten Parameter werden mit dem Vokalbezugsmodell verglichen, um eine Ähnlichkeit (ein Maß für den statistischen Abstand) zu berechnen. Dann wird eine über die Frames gemittele Ähnlichkeit für jeden Vokal berechnet, basierend auf den Ähnlichkeiten für ein Frame, der der Entscheidung Sprache/Nichtsprache unterworfen werden soll (d. h., ein Ziel-Frame) sowie mehreren vorhergehenden und nachfolgenden Frames, wodurch entschieden wird, ob die Frames des eingegebenen Signals irgendwelche Vokale sind oder nicht. Für einen spezifischen Block in dem eingegebenen Signal (eine Periode für einen Sprach-Kandidaten) wird weiterhin die Zahl der Frames, die dahingehend bewertet wurden, dass sie einer der Vokale sind, mit einem vorherbestimmten Schwellenwert verglichen, um so zu entscheiden, ob es sich bei der Periode für den Sprach-Kandidaten um ein Sprachsignal handelt oder nicht.
Hierbei können die oben erwähnten Parameter aus den Auto-Korrelationskoeffizienten, den Cepstrum-Koeffizienten, den PARCOR (für partial auto-correlation, also teilweise Autokorrelation) Koeffizienten, die Melcepstrum-Koeffizienten, LSP (für line spectrum pair, also Zeilenspektrum-Paar) Koeffizienten und Parametern, die durch FFT (für fast Fourier transform, also schnelle Fourier Transformation) und andere Sprachanalysen etc. ausgewählt werden. Beispiel 1 verwendet die Auto-Korrelationskoeffizienten und die Cepstrum- Koeffizienten. Das Verfahren zum Erhalt dieser Parameter wird hier nicht im Detail beschrieben, da dieses Verfahren wohl bekannt und beispielsweise in der folgenden Literatur erläutert wird: Für die LSP Koeffizienten, siehe den Artikel von F. K. Soong, B. H. Juang "Zeilenspektrumpaar (LSP für line spectrum pair) und Sprachdaten-Kompression "(Light Spectrum Pair LSP and Speech Data Compression"), veröffentlicht in Proc. ICASSP, 84, pp.1.10.1-1.10.4; in Bezug auf die anderen Parameter, siehe den Artikel von L. R. Rabiner, R. W. Schafer, "Digitale Verarbeitung von Sprachsignalen" (Digital Processing of Speech Signals"), veröffentlicht von Prentice-Hall, Inc. (1978).
Das oben erwähnte eine Frame ist eine Periode des Sprachsignals, die einer Zeiteinheit Ns · T für den Fall der Abtastung von Ns Abtastungen für eine Analyse mit einer Abtastperiode T (Abtastfrequenz f) entspricht. Im Einzelnen bedeutet ein Frame eine Sprachperiode, die durch Multiplikation des Sprachsignals mit einer Fenster-Funktion aufgenommen wird (z. B. eine Hamming-Funktion oder eine Hanning-Funktion). Bei diesem Beispiel 1 ist die Abtastfrequenz 10 kHz, die Zahl der Abtastungen ist 200, und ein Frame ist 20 msec.
Nun werden das Sprach-Detektionsverfahren und die Sprach-Detektionsvorrichtung nach Beispiel 1 unter Bezugnahme auf die Fig. 1 bis 6 beschrieben werden.
Fig. 1 ist ein Blockdiagramm, das den gesamten Aufbau einer Vorrichtung 10 zur Sprach- Detektion nach Beispiel 1 zeigt. Die Vorrichtung 10 zur Sprach-Detektion enthält eine Anordnung 11 zum Extrahieren von Parametern, eine Anordnung 12 zur Bildung eines Bezugsmodells, einen Ähnlichkeitsrechner 13, eine Phonem-Entscheidungseinheit 14 und eine Endentscheidungseinheit 15. Die Anordnung 11 zum Extrahieren von Parametern extrahiert mehrere Parameter aus einem eingegebenen Audiosignal, so dass sie für die Sprach- Detektion verwendet werden können. Basierend auf gegebenen, extensiven Trainingsdaten für Vokale bildet die Anordnung 12 zur Erzeugung des Bezugsmodells ein Bezugsmodell für jeden der Vokale durch Verwendung der Parameter, die von dem Parameter-Extraktor 11 extrahiert werden. Der Ähnlichkeits-Computer 13 berechnet den Log Likelihood jedes Parameters für jeden Frame durch Vergleich der für jeden Frame durch den Parameter- Extraktor 11 abgeleiteten Parameter mit dem Bezugsmodell jedes Vokals. Die Phonem- Entscheidungseinheit 14 berechnet einen über die Frames gemittelten Log Likelihood für jeden Vokal, indem die Mittelwerte der Log Likelihoods eines Ziel-Frames und seiner vorhergehendenlnachfolgenden Frames (mehrere Frames) gebildet werden, und entscheidet, ob das den Zielframe enthaltende Segment ein Vokal ist oder nicht, basierend auf dem über die Frames gemittelten Log Likelihood. Die Endentscheidungseinheit 15 entscheidet, ob es sich bei der Sprachkandidat-Periode des angegebenen Audiosignals um ein Sprachsignal handelt oder nicht, und zwar durch Vergleich der Zahl der Frames, die als Vokal beurteilt werden, mit einem vorher bestimmten Schwellenwert.
Wie in Fig. 1 dargestellt ist, enthält der Parameter-Extraktor 11 einen Stärke-Rechner 11a für die Berechnung der Potenz bzw. Stärke jedes Frames; einen Auto- Korrelationskoeffizient-Kalkulator 11b für die Berechnung der Auto- Korrelationskoeffizienten für jeden Frame, und einen Cepstrum-Koeffizient-Kalkulator 11c für die Berechnung der Cepstrum-Koeffizienten für jeden Frame. Wie im Detail später beschrieben wird, werden der erste und siebte Auto-Korrelationskoeffizient und der erste und dritte Cepstrum-Koeffizient berechnet. Diese Parameter werden verwendet, um die Vokal- Eigenschaft des angegebenen Audiosignals festzustellen.
Das Verfahren zur Durchführung einer Sprach-Detektion durch die Vorrichtung 10 zur Sprach-Detektion wird nun im Detail beschrieben werden.
Ein Audiosignal S0, das von einem Mikrophon (nicht dargestellt) eingegeben wird, wird an den Parameter-Extraktor 11 angelegt. Der Parameter-Extraktor 11 extrahiert mehrere Parameter, die für die Sprach-Detektion erforderlich sind, auf die folgende Weise.
Der Leistungs- bzw. Stärke-Kalkulator 11a berechnet einen Potenz- bzw. Stärkewert Pi jedes Frames des Audiosignals S0, beispielsweise gemäß der folgenden Gleichung (1).
pi = Sj · Sj .. (1)
Hierbei bezeichnet Pt den Leistungs- bzw. Stärke-Wert eines Frames i und Sj bezeichnet einen j-ten Abtastwert in dem Frame i des eingegebenen Signals. Der Stärke-Wert Pi ist normalisiert (z. B. so, dass er einen Wert von 0 bis 1 hat), mit der Differenz zwischen dem maximalen Wert und dem minimalen Wert eines Bereiches mit großer Stärke, so dass der Stärke-Wert Pi sogar dann allgemein behandelt werden kann, wenn sich die Stärke des Audiosignals S0 aufgrund einer Änderung der Aussprech- bzw. Artikulations-Bedingung ändert. Der berechnete Stärke-Wert Pi wird an die Endentscheidungseinheit 15 als Signal S1 angelegt.
In dem Auto-Korrelationskoeffizient-Kalkulator 11b werden für jeden Frame entsprechend Gleichung (2) Auto-Korrelationskoeffizienten Ai(m) aus dem eingegebenen Signal S0 berechnet. Dabei bezeichnet Ai(m) einen normalisierten m-ten Auto-Korrelationskoeffizienten des Frames i (Ai(m) wird durch den 0-ten Auto-Korrelationskoeffizienten Ai(0) normalisiert.)
Ai(m) = Sj · Sj+m ... (2)
Dieses Beispiel 1 verwendet den ersten Auto-Korrelationskoeffizienten Ai(1) als einen Auto- Korrelationskoeffizient niedriger Ordnung und den siebten Auto-Korrelationskoeffizienten Ai(7) als einen Auto-Korrelationskoeffizient hoher Ordnung. Es können jedoch auch andere Auto-Korrelationskoeffizienten als die der ersten und siebten Ordnung eingesetzt werden, und es ist möglich, drei oder mehr Ordnungen der Auto-Korrelationskoeffizienten einzusetzen.
In dem Cepstrum-Koeffizient-Kalkulator 11c wird der Cepstrum-Koeffizient C1(m) m-ter Ordnung des Frames 1 durch eine lineare Prädiktions-Analyse erhalten. Beispiel 1 verwendet den ersten Cepstrum-Koeffizienten Ci(1) und den dritten Cepstrum-Koeffizienten C1(3).
Die Verarbeitung in dem Parameter-Extraktor 11, der schematisch durch Fig. 2 gezeigt ist, wird im folgenden beschrieben werden.
Zunächst wird das eingegebene Signal mit der Abtastfrequenz 10 kHz (Schritt 101) abgetastet, und 20 Abtastwerte Sj (j = 1 bis 200) pro Frame (20 ms) werden aufgenommen (Schritt 102), indem sie mit einer Fenster- bzw. Window-Funktion (Hamming-Funktion) multipliziert werden. Nach Durchführung einer Vorverzerrung (Schritt 103) wird entsprechend der oben erwähnten Gleichung (2) Sj · Sj' (j' = j, j + 1, j + 7) erhalten. Durch Aufsummieren jedes der Sj · Sj' jedes Frames werden Auto-Korrelationskoeffizienten Ai(m), die nicht normalisiert sind, berechnet (Schritt 104). Der Auto-Korrelationskoeffizient Ai(0) mit j' = j (d. h. 0-ter Ordnung) ist der Potenz- bzw. Stärke-Wert Pi. Die Auto Korrelationskoeffizienten Ai(m) werden mit diesem Wert normalisiert (Schritt 105). Anschließend werden LPC Koeffizienten durch Verwendung einer üblichen Technik erhalten, und die Cepstrum-Koeffizienten Ci(m) (m = 1, 3) werden berechnet (Schritte 106 und 107). Die im Beispiel 1 verwendeten Parameter werden durch das oben beschriebene Verfahren erhalten.
In der Anordnung zur Bildung des Bezugsmodells 12 werden Parameter, die in dem Parameter-Extraktor 11 benutzt werden sollen, aus den Vokal-Bereichen der verschiedenen Audiodaten für das Training extrahiert. Dann werden ein mittlerer Wert und eine Kovarianz- Matrix für jeden Vokal, basierend auf den auf den Trainingsdaten extrahierten Parametern berechnet, um so das Bezugsmodell für jeden Vokal zu bilden.
Die Parameter für jeden Vokal k werden wie folgt extrahiert. Zunächst wird für jeden Vokal k ein Satz von Q Trainingsdaten {yk,q} (q = 1, Q) (im folgenden als {yk} mit unterdrücktem q aus Gründen der Vereinfachung, während { } einen Satz angibt, der aus Q Daten zusammengesetzt ist) für jeden Vokal k vorbereitet wird. In dem Fall, dass r Parameter für den Vokal k extrahiert werden, können alle Daten yk als ein r-dimensionaler Vektor dargestellt werden, der durch r Komponenten festgelegt wird (d. h. einen Vektor in einem r-dimensionalen Parameter-Raum). Dieser r-dimensionale Vektor yq in dem Parameter-Raum wird als "Parameter-Vektor" bezeichnet werden.
Bei diesem Beispiel 1 wird die Modellform des Bezugsmodells jedes Phonems durch einen mittleren Wert uk und eine Kovarianz-Matrix Σk des Parameter-Vektors {yk} dargestellt. Der mittlere Wert uk ist ein r-dimensionaler Vektor, und die Kovarianz-Matrix Σk ist eine r · r dimensionale Matrix. Nimmt man an, dass yk eine multidimensionale Normalverteilung der r-Dimension ist, können ihr mittlerer Wert uk und die Kovarianz-Matrix Σc berechnet werden, wie durch die Gleichungen (3) und (4) gezeigt ist, wobei t eine Transponierte bezeichnet.
Die Trainingsdaten für jeden Vokal k können wie folgt präpariert werden: Ein Signalbereich, der jedem Vokal k entspricht, wird aus dem Sprachsignal eines Bezugssprechers aufgenommen, und die Daten des zentralen Frames des Vokalbereiches des Signals sowie der beiden vorhergehenden und nachfolgenden Frames werden als Vokaldaten für Trainingszwecke verwendet. Durch Benutzung der Daten von mehreren Bezugssprechern ist es zusätzlich möglich, dass das Bezugsmodell weniger durch die Änderungen der Aussprache bzw. Artikulation beeinflusst wird, die durch verschiedene Sprecher verursacht werden.
Der Ähnlichkeitscomputer 13 berechnet die Ähnlichkeit eines eingegebenen Vektors xi in Bezug auf jedes Bezugsmodell vk, basierend auf dem Satz von r Parametern, die durch den Parameter-Extraktor 11 für jeden Frame gegeben werden (d. h., einen Eingabe-Vektor xi in dem r-dimensionalen Raum, der für jeden Frame i gegeben wird) sowie das Bezugsmodell vk jedes Vokals k, der durch die Anordnung 12 zur Bildung des Vokalbezugsmodells erzeugt wird. Zur Berechnung der Ähnlichkeit wird das Maß für den statistischen Abstand (Log Likelihood) verwendet, wobei angegenommen wird, dass der eingegebene Vektor xi die mehrdimensionale Normalverteilung in dem r-dimensionalen Raum ist.
Ein Log Likelihood Lik des eingebenen Vektors xi in dem i-ten Frame zu dem Bezugsmodell vk für jeden Vokal k wird entsprechend Gleichung (5) berechnet.
wobei t eine Transponierte, -1 eine umgekehrte Matrix von Σk und C eine Konstante bezeichnen.
Die Phonem-Entscheidungseinheit 14 führt eine Vokalentscheidung des Ziel-Frames, basierend auf dem Ziel-Frame sowie der vorhergehenden N Frames und der folgenden N Frames. Diese 2N+1 Frames werden als "ein Segment" bezeichnet. Durch Verwendung eines Segmentes und nicht eines einzigen Frames wird unter Berücksichtigung der Dauerkennlinien von Vokalen eine genauere Entscheidung möglich.
Die Phonem-Entscheidungseinheit 14 berechnet eine über mehrere Frames gemittelte Likelihood Likave in dem Segment unter Verwendung des Log Likelihood Lik, der von dem Ähnlichkeits-Computer 13 berechnet wurde. Wenn der gemittelte Log Likelihood Likave die im Ausdruck (6) gezeigte Ungleichung erfüllt, wird der Ziel-Frame als der Vokal k angesehen:
wobei LkTH ein Entscheidungs-Schwellenwert (der Schwellenwert des über die Frames gemittelten Log Likelihood) in Bezug auf das Vokal-Bezugsmodell vk ist.
die Fig. 3A und 3B zeigen jeweils schematisch eine beispielhafte Verarbeitung in der Phonem-Entscheidungseinheit 14. Ein Block 210 stellt das Prozedere für die Gewinnung eines über die Frames gemittelten Log Likelihood Likave in Bezug auf den i-ten Frame dar. 2 N + 1 Likelihood Werte von Lik, die durch den Ähnlichkeits-Computer 13 (von j = 1 - N bis j = i + N) berechnet werden, werden in einem Schieberegister 213 gespeichert (der Fall für N = 2 ist in den Figuren dargestellt). Durch ein Addierglied 214 und ein Dividierglied 215 wird der über die Frames gemittelte Log Likelihood Likave des Vokals k aus diesen 2N+1 Werten für den Likelihood Lik erhalten. Bei dem nächsten (i+1)-ten Frame, L1-N, k wird aus dem Schieberegister 213 verschoben, und statt des verschobenen Wertes wird LI+N+I, k gespeichert, um auf die gleiche Weise verarbeitet zu werden. Blöcke 210, 220... etc. sind für die entsprechenden Vokale jeweils vorgesehen.
Wie durch Fig. 3B dargestellt wird, wird das maximale Ausgangssignal (Lik, maxave) aus den Ausgangssignalen von den Blöcken 210, 220... etc. (Schritt 332) festgestellt. Dieses maximale Ausgangssignal wird mit dem vorher bestimmten Schwellenwert LkTH für die Entscheidung verglichen, ob es sich um einen Vokal handelt oder nicht (Schritt 333). Diese Verarbeitung kann unter Verwendung eines üblichen Microcomputers durchgeführt werden.
Der Log Likelihood ist ein statistischer Schätzwert, der eine effektive und umfassend Entscheidung über den Einfluss jedes Parameters gewährleistet. Durch Verwendung des Log Likelihoods kann deshalb ein Phonem-Entscheidungsverfahren realisiert werden. Das Phonem-Entscheidungsverfahren wird durch die Schwankungen bzw. Änderungen der Parameter weniger beeinflusst als das Verfahren mit der Benutzung von Schwellenwerten für die jeweiligen Parameter, wobei die Änderungen durch Addition eines stationären Rauschens oder ähnlicher Einflüsse verursacht werden. Zusätzlich hat es insoweit einen Vorteil, dass nicht der Bedarf besteht, den Schwellenwert jedes Parameters unter Verwendung eines heuristischen Verfahrens zu bestimmen. Da statt eines einzigen Frames ein Segment, dass aus mehreren Frames zusammengesetzt wird, als eine Einheit bei der Phonem-Entscheidung des eingegebenen Signals verwendet wird, wird darüberhinaus eine effektivere Phonem- Entscheidung für lokal stationäre Sprachklänge (d. h., einer Fortsetzung über mehrere Frames) wie Vokalen möglich.
Die Endentscheidungseinheit 15 fällt eine endgültige Entscheidung darüber, ob es sich bei einer spezifischen Periode des angegebenen Signals um ein Sprachsignal handelt oder nicht, und zwar basierend auf den Entscheidungsergebnissen, die durch die Phonem- Entscheidungseinheit 14 gegeben werden, und dem Stärkewert, der durch den Parameter- Extraktor 11 gegeben wird.
Das Entscheidungsverfahren der Endentscheidungseinheit 15 wird unter Bezugnahme auf Fig. 4 beschrieben werden. Die Endentscheidungseinheit 15 vergleicht einen Stärke-Wert Pi, der durch den Stärke-Kalkulator 11a erhalten wird, mit einem vorher bestimmten Stärke- Schwellenwert PTH und stellt eine Sprachkandidaten-Periode fest, die aus aufeinanderfolgenden Frames zusammengesetzt ist, die jeweils eine Stärke haben, die größer als der Schwellenwert PTH ist, wobei die Zahl der aufeinanderfolgenden Frames größer als eine vorher bestimmte Zahl ist (Schritte 320 und 350). Im Einzelnen wird die Phonem-Entscheidung für den Frame durchgeführt, dessen Stärke-Wert Pi gleich dem oder größer als der Schwellenwert PTH ist, während die Zahl dieser Frames (Schritt 330) gezählt wird. Dann wird die Zahl Ck der Segmente gezählt, die jeweils als ein Vokal bewertet werden (Schritt 340). Die Schritte 330 bis 340 werden solange wiederholt, wie der Stärkewert Pi gleich dem oder größer als der Schwellenwert PTH ist; wenn der Stärke-Wert Pi kleiner als der Schwellenwert PTH wird, wird die Zahl der Wiederholungen (d. h., die Zahl der aufeinanderfolgenden Frames) festgestellt (Schritt 350). Wenn die Zahl der Wiederholungen gleich dem oder größer als der vorher bestimmte Schwellenwert ist, wird ein Block aus den aufeinanderfolgenden Frames als Periode für einen Sprachkandiaten gewertet.
Die Zahl Ck der Segmente, die jeweils als ein Vokal k in der Periode für den Sprachkandidaten durch die Phonem-Entscheidungseinheit 14 bewertet wird, wird mit einer vorherbestimmten Schwellennummer Mk von Vokalsegmenten verglichen (Schritt 360). Wenn Ck die Bedingung erfüllt, die durch die Ungleichung (7) ausgedrückt wird, wird eine Periode für einen Sprachkandidaten so bewertet, dass es sich um ein Sprachsignal handelt (Schritt 370).
Ck ≥ Mk ... (7)
Die Verarbeitung, wie sie oben beschrieben wurde, wird für alle Vokale k durchgeführt, und wenn die Ungleichung (7) für wenigstens einen Vokal k erfüllt wird, wird die Periode für den Sprachkandidaten so bewertet, dass es sich um ein Sprachsignal handelt. Der Schwellenwert Mk kann aus den Traininingsdaten vorbestimmt werden.
Darüber hinaus kann eine vorher bestimmte, obere Schwelle Mmax so eingesetzt werden, um zu verhindern, dass Rauschen, das sich für lange Zeit mit großer Stärke fortsetzt, irrtümlich als Sprache bewertet wird, wie durch die Ungleichung (8) ausgedrückt wird.
Mmax > Ck ≥ Mk ... (8)
Die Ergebnisse eines Computer-Simulationsexperimentes, das unter Verwendung der Vorrichtung zur Sprach-Detektion nach Beispiel 1 durchgeführt wurde, wird im folgenden beschrieben werden.
Die Parameter, die im Beispiel 1 neben der Stärke bzw. Power verwendet werden, sind: Der normalisierte erste Auto-Korrelationskoeffizient, der normalisierte siebte Auto- Korrelationskoeffizient, der erste Cepstrum-Koeffizient und der dritte Cepstrum- Koeffizient. Das Inverse des ersten Cepstrum-Koeffizienten ist gleich dem ersten LPC Koeffizienten. Diese Parameter sind zwischen Sprache und anderen, nicht-stationären Geräuschen (basierend auf den Ergebnissen eines vorherigen Experimentes) relativ gut getrennt. Zusätzlich werden diese Parameter leicht bei dem Verrechnungsverfahren für den Cepstrum-Koeffizienten durch die LPC Analyse erhalten.
Der normalisierte erste Auto-Korrelationskoeffizient und der erste LPC Koeffizient sind Parameter, die für eine Unterscheidung Sprache/Nicht-Sprache geeignet sind. Der normalisierte siebte Auto-Korrelationskoeffizient ist ein Parameter, der für die Unterscheidung bzw. Erkennung von niederfrequenten Geräuschen geeignet ist. Der dritte LPC Cepstrum- Koeffizient ist ein Parameter, der insbesondere Charakteristiken von /i/ unter den fünf Vokalen angibt.
Bei dem Simulationsexperiment werden zwei Arten von Audiodaten verwendet, nämlich Sprachdaten und Geräusch- bzw. Rauschen-Daten. Als Sprachdaten werden 16 Phoneme bzw. Konsonanten bzw. Laute eingesetzt, um festgestellt zu werden: (/a/,/i/,/u/,/e/,/o/,/b/,/d/,/g/,/m/,/n/,/N/,/s/,/h/,/r/,/w/, /y/). Diese Phoneme wurden aus 12 Wörtern erhalten, die von zehn männlichen Sprechern ausgesprochen und in einem Raum ohne Echo aufgezeichnet wurden. Die Grenzen aller Phoneme wurden durch manuelle bzw. visuelle Beobachtung festgelegt. Andererseits wurden 22 Geräusche, wie sie in Tabelle 1 dargestellt sind, als Geräusch-Daten verwendet. Diese Geräusche wurden unter Berücksichtigung einer Situation zusammengestellt, wie beispielsweise einem Besprechungszimmer, in dem die Vorrichtung zur Erkennung von Sprache/Nicht-Sprache nach Beispiel 1 eingesetzt wird. Tabelle 1
Die Bedingungen für die Analyse der Sprach- und Geräusch-Daten sind in Tabelle 2 dargestellt.

[Tabelle 2]

Abtastfrequenz: 10 kHz
Analysefenster: 20 ms Hamming-Fenster
Frame-Periode: 10 ms
Vorverzerrung: 1 bis 0,9z-1
LPC-Analysegrad: 124er
Die Trainingsdaten von Vokalen, die durch fünf männliche Sprecher gesprochen wurden, wurden verwendet, um das Bezugsmodell zu machen. Die Parameter wurden unter Verwendung des Frames in einem phonetischen Mittelpunkt und seine beiden vorhergehenden/nachfolgenden Frames für jeden Vokal in dem Sprachsignal extrahiert. Aus Gründen des Berechnungswirkungsgrades wurde die Berechnung durch Verwendung nur von diagonalen Elementen der Kovarianz-Matrix durchgeführt, und zwar unter der Annahme, dass es keine Korrelation zwischen individuellen Parametern gibt.
Unter Benutzung des oben erwähnten Bezugsmodells wurden die Sprach-Detektion und die Geräusch-Diskriminierung (irrtümliche Detektion) getestet.
Das Sprach-Detektions-Experiment wurde für zehn Sprecher einschließlich fünf Bezugssprechern durchgeführt, deren Vokal-Daten für die Bildung des Bezugsmodells benutzt wurden. Das Geräusch-Diskriminierungsexperiment wurden unter Verwendung der nichtstationären Geräusche durchgeführt, die in Tabelle 1 gezeigt sind.
Fig. 5 zeigt die Beziehung zwischen der Sprach-Detektions-Rate und der Geräusch- Detektions-Fehlerrate, wenn die Segmentlänge eines Vokals variiert wurde. Die Sprach- Detektions-Rate ist eine Rate, bei der ein eingegebenes Sprachsignal korrekt als Sprache bewertet wird. Die Geräusch-Detektions-Fehler-Rate ist eine Rate, bei der ein eingegebenes Geräuschsignal irrtümlich als Sprache eingeschätzt wird. Um eine Vorrichtung zur Sprach- Detektion mit guter Leistung zu realisieren, ist es wichtig, ein eingegebennes Sprachsignal korrekt als Sprache festzustellen, und ein eingegebenes Geräuschsignal nicht irrtümlich als Sprache zu bewerten. Wie aus Fig. 5 zu erkennen ist, nimmt die Geräusch-Detektions-Fehlerrate ebenfalls zu, wenn ein solcher Entscheidungs-Schwellenwert eingestellt wird, der die Sprach-Detektions-Rate zu näherungsweise 100% macht. Dementsprechend kann die Diskriminierungsleistung für Sprache und Geräusche optimiert werden, indem der Entscheidungs-Schwellenwert auf einen geeigneten Wert eingestellt wird.
Fig. 5 zeigt die experimentellen Ergebnisse, wenn die Segment-Länge (d. h., 2N+1 Frames, die im folgenden als eine Vokal-Segmentlänge bezeichnet werden), wie sie für die Ableitung eines Frame-Mittelwertes des Log Likelihood in dem Ähnlichkeits-Computer 13 verwendet wird, von einem Frame auf elf Frames geändert wird. In dem Fall, dass die Vokal-Segmentlänge mehr als fünf Frames beträgt, gibt es nur geringe Unterschiede in der Detektionsleistung. Als Ergebnis hiervon wurde eine Sprach-Detektions-Rate von 99,3% (mit einer Geräusch-Detektions-Fehlerrate von 9,0%) erhalten, wenn die Vokal-Segment- Länge sieben Frames und der Entscheidungs-Schwellenwert = -1,2 ist. Dieser Wert wird experimentell erhalten und ist der in Gleichung (6) gezeigte Entscheidungs-Schwellenwert.
Um die Detektions-Leistung der Vorrichtung 10 zur Sprach-Detektion in einer Umgebung mit stationärem Rauschen bzw. stationären Geräuschen auszuwerten, wurden dann die Sprach-Detektions-Rate und die Geräusch-Detektions-Fehlerrate für das Eingangssignal mit einem zusätzlichen, aus weißem Rauschen bestehenden Signal gemessen.
Fig. 6 zeigt die Beziehung zwischen der Sprach-Detektions-Rate und der Geräusch- Detektions-Fehlerrate, wenn das Verhältnis Signal/Rauschen (SIN für signal/noise) variiert wird. Bei diesem Experiment wird die Vokal-Segment-Länge auf sieben Frames festgelegt. Wie man aus Fig. 6 erkennen kann, wird die Detektions-Leistung bis zu einem SIN Verhältnis von 12dB nur wenig beeinflusst.
Wie oben beschrieben wurde, ermöglicht die Vorrichtung 10 zur Sprach-Detektion nach Beispiel 1: Eine hochgenaue Entscheidung, basierend auf den Kennlinien bzw. Characteristiken der Phoneme bzw. Laute; und eine Vielzahl von Frames werden als eine Einheit für die Durchführung der Entscheidung angesehen. Dies macht es möglich, eine Vorrichtung zur Sprach-Detektion anzubieten, die eine korrekte Entscheidung in Bezug auf die Sprache durch Unterscheiden eines Sprachsignals aus verschiedenen Audiosignalen einschließlich Rauschen gewährleistet.
Dieses Beispiel 1 verwendet als Parameter für die Feststellung der Vokaleigenschaften Auto-Korrelationskoeffizienten und Cepstrum-Koeffizienten. Es wird darauf hingewiesen, dass die Parameter nicht hierauf beschränkt sind, und dass PARCOR Koeffizienten, Melcepstrum-Koeffizieten und ähnliche Parameter ebenfalls eingesetzt werden können.

Beispiel 2

Als Nächstes wird ein zweites Beispiel der vorliegenden Erfindung beschrieben.
Der Umriss des Verfahrens zur Sprach-Detektion nach dem zweiten Beispiel wird im Folgenden erläutert.
Auch bei dem zweiten Beispiel wird ein Bezugsmodell für jedes Phonem, basierend auf den Trainings-Daten, gebildet. Bei dem ersten Beispiel wurden die Bezugsmodelle nur für Vokale erzeugt. Bei dem zweiten Beispiel werden die Bezugsmodelle für Phoneme einschließlich Konsonanten zusätzlich zu den Vokalen gebildet. Durch zusätzliche Berücksichtigung der Phonem-Characteristiken der zu erfassenden Sprache (in diesem Fall japanisch) wird die Detektions-Genauigkeit verbessert. Die Endentscheidungseinheit entscheidet, ob es sich bei dem eingegebenen Signal um Sprache handelt oder nicht, und zwar auf der Basis einer Fuzzy-Überlegung. Die anderen Komponenten und Konstruktionen sind die gleichen wie bei dem ersten Beispiel. Auch bei diesem Beispiel wird die Abtastfrequenz auf 10 kHz eingesetzt, die Zahl der Abtastungen ist 200, und ein Frame wird auf 20 msec eingestellt.
Als Nächstes werden das Sprach-Detektions-Verfahren und die Vorrichtung zur Sprach- Detektion nach dem zweiten Beispiel unter Bezugnahme auf die Figuren beschrieben werden.
Fig. 7 ist ein Blockdiagramm, das den Gesamtaufbau einer Vorrichtung 20 zur Sprach- Erkennung nach dem zweiten Beispiel zeigt. Die Sprach-Detektions-Vorrichtung 20 enthält einen Parameter-Extraktor 21, einen Bezugsmodell-Erzeuger 22, einen Ähnlichkeits- Computer 23, eine Phonem-Entscheidungseinheit 24 und eine Fuzzy-Entscheidungseinheit 25. Der Parameter-Extraktor 21 extrahiert eine Vielzahl von Parametern, die für die Sprach-Detektion festgestellt werden, aus den eingegebenen Audiosignalen. Die Vorrichtung 22 zur Bildung des Bezugsmodells erzeugt ein Bezugsmodell für jedes Phonem unter Verwendung der Parameter, die in dem Parameter-Extraktor 21 extrahiert werden, und zwar basierend auf gegebenen umfangreichen Phonem-Daten für das Training. Der Ähnlichkeits-Computer 23 vergleich die Parameter, die für jeden Frame durch den Parameter- Extraktor 21 abgeleitet werden, mit dem Bezugsmodell jedes Phonems, um so den Log Likelihood jedes Parameters für jeden Frame zu berechnen. Die Phonem-Entscheidungseinheit 24 berechnet einen über die Frames gemittelten Log Likelihood für jedes Phonem, basierend auf dem Log Likelihood eines Ziel-Frames für die Phonem-Entscheidung und seinen vorhergehenden und folgenden N-Frames (diese 2N+1 Frames werden als Segment bezeichnet), und entscheidet, ob das Segment irgend einer der Phoneme bzw. Laute ist, basierend auf dem über die Frames gemittelten Log Likelihood.
Die Fuzzy-Entscheidungseinheit 25 entscheidet, ob eine Sprachkandidat-Periode des eingegebenen Audiosignals ein Sprachsignal ist oder nicht, indem die Zahl der Frames, die als Phoneme beurteilt werden sollen, mit einem vorher bestimmten Schwellenwert verglichen wird.
Wie in Fig. 7 gezeigt ist, enthält der Parameter-Extraktor 21 einen Power- bzw. Stärke- Kalkulator 21a für die Berechnung der Stärke jedes Frames, einen Auto- Korrelationskoeffizient-Kalkulator 21b für die Berechnung der Auto- Korrelationskoeffizienten für jedes Frame und einen Cepstrum-Koeffizient-Kalkulator 21c für die Berechnung der Cepstrum-Koeffizienten für jedes Frame. Wie im Folgenden beschrieben werden soll, werden der fünfte und siebte Auto-Korrelationskoeffizient berechnet, während der erste und dritte Cepstrum-Koeffizient berechnet werden. Diese Parameter werden eingesetzt, um festzustellen, ob es sich bei dem eingegebenen Audiosignal um ein Phonem handelt oder nicht.
Im Folgenden wird ein Verfahren zur Feststellung von Sprache durch Verwendung der Vorrichtung 20 zur Sprach-Detektion im größeren Detail beschrieben werden.
Das Audiosignal, das durch ein Mikrophon (nicht dargestellt) eingegeben wird, wird an den Parameter-Extraktor 21 angelegt. Der Parameter-Extraktor 21 extrahiert eine Vielzahl von Parametern, die für die Sprach-Detektion entsprechend dem gleichen Verfahren wie bei dem Parameter-Extraktor 11 benötigt werden, der bei dem ersten Beispiel beschrieben wurde.
Die Vorrichtung 22 zur Bildung des Bezugsmodells erzeugt Extrakt-Parameter, die in dem Parameter-Extraktor 21 benutzt werden sollen, aus umfangreichen Sprachdaten für das Training. Durch Verwenden der Parameter, die aus den Trainingsdaten extrahiert werden, werden dann für jedes Phonem ein mittlerer Wert und eine Kovarianz-Matrix berechnet, um für jedes Phonem ein Bezugsmodell zu bilden.
Bei diesem Beispiel werden die Bezugsmodelle für sieben Arten von Phonemen bzw. Lauten in zwei Kategorien hergestellt, d. h., fünf Vokale /a/, /i/, /u/, /e/ und /o/ und zwei Frikativen bzw. Reiblauten /h/ und /s/ ohne Stimme. Der Grund dafür, warum diese sieben Arten von Phonemen verwendet werden, liegt darin, dass die Spektren dieser Phoneme relativ stabil und damit geeignet für die Feststellung sind, bei der die lokale Kontinuität des Sprach-Signals ausgenutzt wird. Andere Phoneme wie Nasale, stimmliche Verschluss- bzw. Explosivlaute, Affrikate, flüssige und Halbvokale können ebenfalls eingesetzt werden, weil jeder Laut ein Merkmal der Sprache angibt.
Die Vorrichtung 22 zur Bildung des Bezugsmodells erzeugt ein Bezugsmodell durch Berechnen des mittleren Wertes uk und der Kovarianz-Matrix Σk für jedes Phonem auf der Basis der Gleichungen (3) und (4) entsprechend dem gleichen Prozedere wie bei der Vorrichtung 12 zur Bildung des Bezugsmodells. In dem zweiten Beispiel bezeichnet das Bezugszeichen k jeden Laut.
Der Ähnlichkeits-Computer 23 berechnet die Ähnlichkeit eines eingegebenen Vektors x, in Bezug auf ein Bezugsmodell vk, basierend auf einem Satz von r Parametern für ein Frame (d. h., einen eingebenen Vektor xi in einem r-dimensionalen Raum, gegeben für jedes Frame i) und ein Bezugsmodell vk für jedes Phonem bzw. jeden Laut k, das bzw. der durch die Vorrichtung 22 für die Bildung des Bezugsmodells erzeugt wird. Der Ähnlichkeits- Computer 23 berechnet ein Maß für den statistischen Abstand (den Log Likelihood Lik) auf der Basis von Gleichung (5) entsprechend dem gleichen Prozedere wie in dem Ähnlichkeits- Computer 13.
Die Laut- bzw. Phonem-Entscheidungseinheit 24 entscheidet, ob es sich bei einem Ziel- Frame um ein Phonem handelt oder nicht, und zwar basierend auf dem Ziel-Frame für die Phonem-Detektion und die vorhergehenden und folgenden N Frames (diese (2N+ 1) Frames werden als ein Segment bezeichnet). Die Phonem-Entscheidungseinheit 24 berechnet einen Frame-Mittelwert Likave der Log Likelihoods Lik an der Basis der linken Seite von Gleichung (6) entsprechend dem gleichen Prozedere wie in Phonem-Entscheidungseinheit 14. Wenn die gemittelten Log Likelihood Likave die Bedingung auf der linken Seite von Gleichung (6) erfüllen, wird das Segment als ein Phonem k betrachtet.
Die Fuzzy-Entscheidungseinheit 25 entscheidet schließlich, ob es sich bei der spezifizierten Periode des Eingangssignals um ein Sprachsignal oder nicht handelt, und zwar basierend auf dem beurteilten Ergebnis, das von der Phonem-Entscheidungseinheit 24 zugeführt wird, und dem Stärke-Wert, der von dem Parameter-Extraktor 21 geliefert wird. Im Folgenden bezeichnet die spezifische Periode eine "Sprachkandidat-Periode" mit einer Power bzw. Stärke in dem Eingangssignal, die gleich der oder höher als ein bestimmter Schwellenwert ist, also das gleiche Vorgehen wie im ersten Beispiel.
Bei diesem Beispiel wird die Fuzzy-Überlegung für die Sprach-Detektion aus den folgenden Gründen verwendet.
In der Sprache, insbesondere in der Sprache während einer Unterhaltung, treten verschiedene Phoneme bzw. Laute auf. Die Auftritts-Frequenzen und die Muster dieser Phoneme werden spezifisch durch geäußerte Sprache und die Grammatik der Sprache im gewissen Maße festgelegt. Im Falle von japanischer Sprache werden beispielsweise die Aussprachen von Phonemen durch Wiederholungen von Vokal, Konsonant und Stille gebildet, wie beispielsweise V, C+V, V+C+V (V bezeichnet einen Vokal, und C bezeichnet einen Konsonanten). Wenn die Auftritts-Frequenzen bzw. -Häufigkeiten der jeweiligen Phoneme in einem relativ langen Zeitintervall erhalten werden, nimmt man für die Phoneme, wie beispielsweise Vokale und Konsonanten an, dass sie bei spezifischen Frequenzen gesprochen werden, die im gewissen Umfang festgelegt sind. Bei diesem Beispiel wird deshalb die Sprach- Detektion, basierend auf den Auftritts-Häufigkeiten der jeweiligen Phoneme in dem Sprachsignal durchgeführt, d. h., dem Existenzverhältnis der jeweilige Phoneme in einer bestimmten Periode des Sprachsignals. Durch Verwendung der Fuzzy-Logik kann zusätzlich eine exakte Sprach-Detektion mit einem geringeren operativen Aufwand durchgeführt werden. Dies ist ein weiterer Grund für den Einsatz der Fuzzy-Logik.
Ein spezifischeres Entscheidungsverfahren, das in der Fuzzy-Entscheidungseinheit 25 eingesetzt wird, wird nun unter Bezugnahme auf die Fig. 8A und 8B beschrieben. Die Fuzzy- Entscheidungseinheit 25 vergleicht den Power- bzw. Stärke-Wert Pi, der durch den Power- Kalkulator 21a erhalten wird, mit einem vorher bestimmten Power- bzw. Stärke- Schwellenwert PTH und stellt eine Sprachkandidat- Periode fest, in der Frames Stärken haben, die gleich dem oder größer als der Schwellenwert PTH sind, wobei die Zahl der aufeinanderfolgenden Frames gleich dem oder größer als vorher bestimmter Wert ist (Schritte 420 und 480). Im Detail wird in Bezug auf die Frames mit Stärken, die gleich dem oder größer als der Schwellenwert PTH sind, die Phonem-Detektion durchgeführt (Schritte 440-460 und 470), während die Zahl der Frames (Schritt 430) gezählt wird. Der Schritt 440 wird in dem Ähnlichkeits-Computer 23 durchgeführt, und der Schritt 450 wird in der Phonem- Entscheidungseinheit 24 durchgeführt. Wenn der Stärke-Wert Pi gleich dem oder größer als der Schwellenwert PTH ist, wird der Schritt für die Phonem-Entscheidung wiederholt durchgeführt. Wenn der Stärke-Wert Pi kleiner als der Schwellenwert PTH wird, wird die Zahl der Wiederholungen (d. h., die Zahl der kontinuierlichen Frames) festgestellt (Schritt 480). Wenn die wiederholte Zahl gleich dem oder größer als ein vorher bestimmter Schwellenwert ist, wird die kontinuierliche Frame-Periode als eine Sprachkandidat-Periode bewertet.
In der so erkannten Sprachkandidat-Periode wird die Sprach-Detektion auf die folgende Weise festgestellt.
Wenn das Phonem-Segment so beurteilt wird, dass es /a/, /i/, /u/l, /e/ oder /0/ ist (Schritt 460), wird das Phonem-Segment zunächst in eine Vokalgruppe kategorisiert. Wenn das Phonem-Segment als /h/ oder /s/ bewertet wird (Schritt 470), wird das Phonem-Segment in eine Frikativ- bzw. Reiblaut-Gruppe kategorisiert. Damit werden also die Phonem- Segmente in zwei Kategorien klassifiziert. Wenn das Phonem-Segment so beurteilt wird, dass es zu der Vokalgruppe gehört, wird die Zahl der Phonem-Segmente in der ersten Kategorie erhöht (die Zahl der Segmente Ci : Schritt 461). Wenn das Phonem-Segment so bewertet wird, dass es zu der Reiblaut-Gruppe gehört, wird die Zahl der Phonem-Segmente in der zweiten Kategorie erhöht (die Zahl der Segmente C2 Schritt 471). Aus den jeweiligen Zahlen der Segmente Cm (m = 1, 2) wird die Besetzungs-Rate Rm in jeder Kategorie auf der Basis von Gleichung (9) erhalten (Schritt 481).
Rm = Cm/Np · 100 ... (9)
Hierbei bezeichnet m die Zahl der Kategorien und Np bezeichnet die Zahl der Frames, die in der Sprachkandidat-Periode enthalten sind. Bei dem obigen Beispiel kann die Besetzungs- Rate durch Klassifizieren der Phonern-Segmente in zwei Vokal- und Reiblaut-Kategorien erhalten werden. Als Alternative kann die Besetzungs-Rate durch Verwendung von drei oder mehr Kategorien erhalten werden. Beispielsweise kann die Besetzungsrate für jedes Phonem erhalten werden.
Wenn die Besetzungsrate Rm als eine Eingabe-Variable für die Fuzzy-Logik verwendet wird, und wenn die Spracheigenschaft S als Ausgangsvariable eingesetzt wird, wird die Schlussfolgerungs-Regel der Fuzzy-Logik allgemein durch den Ausdruck (10) ausgedrückt.
Regel j:
wenn R&sub1; Aj1 ist und ... und Rm ist Ajm,
dann: Sj ist fj ... (10)
wobei j eine Regel-Nummer bezeichnet, Ajm eine Mitgliedschaftsfunktion und f, eine reelle Zahl sind. Bei diesem Beispiel wird als Fuzzy-Logik eine vereinfachte Fuzzy-Logik eingesetzt, bei der konsequente Teil der Schlussfolgerungsregel als eine reelle Zahl ausgedrückt wird. Es kann jedoch auch eine andere Fuzzy-Logik eingesetzt werden (weil bei jeder Fuzzy-Überlegung das Sprach-Merkmal, basierend auf der Phonem-Eigenschaft in der Sprache, ausgedrückt wird).
Wenn Eingabedaten (Ri, ..., Rm) eingegeben werden, wird aus der Gleichung (10) die folgende Schlussfolgerung erhalten, die in Gleichung (11) ausgedrückt wird (Schritt 482).
uj = Aj1(R&sub1;)Λ ... Λ Ajm(Rm) Λ 1 ... (11)
wobei Λ eine Min-Operation zur Erhaltung eines minimalen Wertes in jedem Term bezeichnet, und Uj den Anpassungsgrad jeder Argumentations- bzw. Schlussfolgerungs-Regel bezeichnet. Es gibt eine Vielzahl von Schlussfolgerungs-Regeln, die durch Gleichung (10) ausgedrückt werden, so dass das endgültige Schlussfolgerungsergebnis in Gleichung (12) ausgedrückt wird, indem insgesamt das Ergebnis von Gleichung (11) berücksichtigt wird (Schritt 483).
Das finale Ausgangssignal S gibt an, in welchem Umfang bzw. "wieviel" die Sprachkandidat-Periode die Spracheigenschaft hat. Die Spracheigenschaft S wird mit einem vorher bestimmten Schwellenwert STH (Schritt 484) verglichen Wenn der Wert der Spracheigenschaft S gleich dem oder größer als der Schwellenwert STH ist, wird die Sprachkandidat-Periode als Sprache beurteilt (Schritt 485).
Als Nächstes wird die Schlussfolgerungs-Regel in Ausdruck (10) speziell für den Fall beschrieben, dass die Zahl der Kategorien (Laut- bzw. PhonemGruppen) zwei ist. Die Vokal- Gruppe entspricht m = 1, während die Reiblautgruppe m = 2 entspricht. Fig. 9 stellt die Membership- bzw. Mitgliedschaft-Funktion A11 bis A41 der Vokalgruppe und Fig. 10 die Membership- bzw. Mitgliedschaft-Funktion A12 bis A42 der Reiblaut-Gruppe dar.
In diesem Fall enthält Ag in Ausdruck (10) vier Typen, d. h., A11 bis A41, und Aj2 enthält ebenfalls vier Typen, d. h. A21 bis A42. Dementsprechend gibt es 16 mögliche Kombinationen, so dass die Zahl der Regeln 16 ist. Tabelle 3 zeigt die Regeln für den Fall, dass die in den Fig. 9 und 10 gezeigten Membership-Funktionen verwendet werden. Die Werte in der Regel-Tabelle geben die reellen Zahlen fj der konsequenten Teile der Regeln an, die den jeweiligen Kombinationen entsprechen. Diese Werte werden durch ein vorläufiges Experiment erhalten. Andere Werte können im praktischen Einsatz der Vorrichtung zur Sprach- Detektion verwendet werden, da eine genauere Detektion durch geeignete Auswahl dieser Werte möglich ist, um für die aktuelle Umgebung geeignet zu sein. Tabelle 3
Aus der Regel-Tabelle wird jeder Wert S. erhalten, und ein Wert Anm(Rm) der Membership- Funktion wird für den gegebenen, eingegebenen Wert Rm auf der Basis von Fig. 9 und 10 erhalten (m = 1, 2 und n = 1 bis 4). Durch Verwendung dieser Werte werden der Ausdruck (10) und die Gleichungen (11) und (12) ausgewertet, um so die Spracheigenschaft S zu erhalten.
Auf diese Weise wird es, basierend auf der Fuzzy-Logik möglich, auszudrücken, ein wie großer Teil bzw. wieviel der Sprachkandidaten-Periode die Spracheigenschaft hat. Durch Durchführung dieser Operationen für alle Sprachkandidat-Perioden, wird die finale Sprach- Detektion durchgeführt. Das heißt als: Wenn das finale gleich dem oder größer als der vorherbestimmte Schwellenwert STH ist, so wird dieser Teil als Sprache bewertet. Wenn das Ausgangssignal S kleiner als vorherbestimmte Schwellenwert STH ist, wird dieser Bereich als Nicht-Sprache bewertet.
Wie oben beschrieben wurde, führt die Vorrichtung 20 zur Sprach-Detektion nach diesem Beispiel die Beurteilung mit hoher Genauigkeit, basierend auf dem Merkmal der Phoneme durch, und die Beurteilung wird unter Berücksichtigung einer Vielzahl von Frames als eine Gruppe vorgenommen. Auf diese Weise ist es möglich, eine Vorrichtung zur Sprach- Detektion zu schaffen, die exakt Sprache aus verschiedenen Audiosignalen einschließlich Geräuschen mit einem relativ einfachen Aufbau feststellen kann.

Beispiel 3

Jetzt wird Beispiel 3 der vorliegenden Erfindung beschrieben.
Die Kurzfassung des Sprach-Detektions-Verfahrens von Beispiel 3 wird hiernach beschrieben werden.
In Beispiel 3 wird anfangs eine Parameter-Verteilung (welche dem Referenz-Modell in Beispiel 1 entspricht) von jedem Phonem erzeugt, basierend auf den Trainings-Daten. In Beispiel 3 werden nicht nur Parameter, sondern auch die Dauer eines jeden Phonems aus den Trainings-Daten gewonnen bzw. extrahiert, um so die (Zeit)-Dauer-Verteilung von jedem Phonem zu erzeugen. Die Sprach-Detektion wird durchgeführt mit einer umfassenden Entscheidung, basierend auf der Zeitdauer-Verteilung, sowie der Parameter-Verteilung. Demzufolge werden die zeitlichen Kennlinien der Phoneme der Sprache (in diesem Fall der japanischen Sprache) auch berücksichtigt, so dass die Detektions-Genauigkeit weiter verbessert werden kann. Ähnlich wie bei den Beispielen 1 und 2 wird die Abtast-Frequenz so festgelegt, dass sie 10 KHz ist, die Anzahl der Abtastwerte ist 200 und ein Datenblock (frame) wird so festgelegt, dass er 20 ms ist.
Dann wird ein Sprach-Detektions-Verfahren und eine Sprach-Detektions-Vorrichtung von Beispiel 3 unter Bezugnahme auf die Fig. 11 bis 13 beschrieben werden.
Fig. 11 ist ein Blockdiagramm und zeigt die gesamte Konstruktion einer Sprach- Detektions-Vorrichtung 30. Die Sprach-Detektions-Vorrichtung 30 enthält eine Parameter- Gewinnungsvorrichtung bzw. -extraktor 31, einen Parameter-Verteilungs-Macher 32, einen Parameter-Wahrscheinlichkeits-Rechner 33, einen Zeitdauer-Verteilungs-Macher 34, einen Zeitdauer-Wahrscheinlichkeits-Rechner 35, und eine umfassende bzw. übergreifende bzw. Gesamt-Entscheidungs-Einheit 36. Der Parameter-Extraktor 31 extrahiert bzw. gewinnt eine Mehrzahl von Parametern, welche für die Sprach-Detektion verwendet werden, aus dem eingegebenen Audio-Signal. Der Parameter-Verteilungs-Macher 32 macht die Parameter- Verteilung für jedes Phonem unter Verwendung der Parameter, welche von dem Parameter- Extraktor 31 extrahiert bzw. gewonnen wurden. Der Parameter-Wahrscheinlichkeits- Rechner 33 berechnet eine logarithmische Wahrscheinlichkeit (log likelihood) von jedem Parameter für jeden Datenblock (frame) durch das Vergleichen der Parameter, welche von dem Parameter-Extraktor 31 zur Verfügung gestellt wurden, mit der Parameter-Verteilung. Der Zeitdauer-Verteilungs-Macher 34 macht die Zeitdauer-Verteilung für jedes Phonem basierend auf den Trainings-Daten. Der Zeitdauer-Wahrscheinlichkeits-Rechner 35 wertet eine über den Datenblock gemittelte (frame-averaged) logarithmische Wahrscheinlichkeit aus bzw. berechnet diese, basierend auf der logarithmischen Wahrscheinlichkeit für jeden Datenblock, um so die Zeitdauer eines jeden Phonems zu erhalten. Dieser berechnet eine Zeitdauer-Wahrscheinlichkeit von jedem Phonem durch das Vergleichen der erhaltenen Zeitdauer mit der Zeitdauer-Verteilung. Die umfassende bzw. Gesamt-Entscheidungs- Einheit 36 entscheidet, ob die Sprach-Kandidaten-Periode des eingegebenen Audio-Signals ein Sprachsignal ist oder nicht, unter Verwendung einer Gesamtwahrscheinlichkeit basierend auf der Wahrscheinlichkeitsverteilung sowie auf der Parameter-Verteilung.
Wie in Fig. 11 gezeigt, enthält der Parameter-Extraktor 31 einen Leistungs-Rechner 31a zum Berechnen einer Leistung eines jeden Datenblocks; einen Auto-Korrelations- Koeffizienten Rechner 31b zum Berechnen von Auto-Korrelations-Koeffizienten für jeden Datenblock; und einen Cepstrum-Koeffizienten-Rechner 31c zur Berechnung von Cepstrum- Koeffizienten für jeden Datenblock.
Hiernach wird das Verfahren der Sprach-Detektion durch die Sprachdetektions-Vorrichtung 30 weiter im Detail beschrieben werden.
Das Audio-Signal, welches von einem Mikrofon (nicht gezeigt) eingegeben wird, wird an den Parameter-Extraktor 31 angelegt. Der Parameter-Extraktor 31 extrahiert bzw. gewinnt eine Mehrzahl von Parametern, welche benötigt werden für die Sprach-Detektion, durch das gleiche Verfahren wie diejenigen der Parameter-Extraktoren 11 und 21 der Beispiele 1 bzw. 2. Ebenso werden in Beispiel 3 die ersten und siebten Auto-Korrelations-Koeffizienten und die ersten und dritten Cepstrum-Koeffizienten berechnet. Diese Parameter werden verwendet zum Detektieren von phonemischen Eigenschaften des eingegebenen Audio-Signals.
In dem Parameter-Verteilungs-Macher 32 werden die Parameter, welche in dem Parameter- Extraktor 31 verwendet werden, aus umfangreichen Sprachdaten zum Training extrahiert. Dann wird die Parameter-Verteilung durchgeführt für jedes Phonem unter Verwendung der Parameter, welche aus den Trainingsdaten gewonnen wurden. In Beispiel 3 werden ein Mittelwert und eine Kovarianz-Matrix berechnet, basierend auf der Annahme, dass die Parameterverteilung eine Normalverteilung ist. Eine Gamma-Verteilung, Poisson-Verteilung oder dergleichen ist auch als eine Funktion verwendbar, welche für die Parameter- Verteilung repräsentativ ist, wie die Normalverteilung.
Der Parameter-Verteilungs-Macher 32 berechnet einen Mittelwert u(c)k und eine Kovarianz- Matrix Σ(c)k für jedes Phonem durch das gleiche Verfahren wie dasjenige des Referenz- Modell-Machers 12 oder des Referenz-Modell-Machers 22, in Abhängigkeit von den folgenden Gleichungen (13) und (14), und macht dadurch die Parameter-Verteilung. In Gleichung (13) steht k für jedes Phonem (Phonem-Nummer), und (c) steht für einen Wert, welcher erhalten wurde durch den Parameter-Verteilungs-Macher 32.
Der Parameter-Wahrscheinlichkeits-Rechner 33 berechnet ein statistisches Abstandsmaß (logarithmische Wahrscheinlichkeit bzw. log likelihood) eines Eingabevektors xi in Bezug auf die Parameterverteilung eines jeden Phonems k, gemacht von dem Parameter- Verteilungs-Macher 32, basierend auf einem Satz von r Parametern für jeden Datenblock (d. h. einen Eingabevektor im r-dimensionalen Raum in jedem Datenblock 1) zur Verfügung gestellt von dem Parameter-Extraktor 31 und die Parameterverteilung von jedem Phonem k, gemacht von dem Parameter-Verteilungs-Macher 32. Das heißt der Parameter- Wahrscheinlichkeits-Rechner 33 berechnet eine logarithmische Wahrscheinlichkeit L(c)ik gemäß Gleichung (15) durch das gleiche Verfahren wie diejenigen der Ähnlichkeitscomputer 13 und 23.
Der Zeitdauer-Verteilungs-Macher 34 macht die Zeitdauer-Verteilung von jedem Phonem, indem ein Mittelwert und eine Kovarianz der Zeitdauer für jedes Phonem berechnet wird, unter Verwendung von umfassenden Sprach-Daten zum Training. Fig. 12 zeigt schematisch das Verfahren zur Verarbeitung in dem Zeitdauer-Verteilungs-Macher 34. Zuerst werden Teile, welche jeweils dem Phonem k entsprechen, aufgegriffen bzw. aufgenommen aus den umfassenden Sprach-Signal-Daten durch Beobachtung, zur Bereitstellung von umfassenden phonemischen bzw. Phonem-Daten des Phonems k zum Training (Schritt 520). Gewöhnlich entspricht der Phonem-Teil einer Äußerung, welche sich über mehrere aufeinanderfolgende Datenblöcke bzw. Frames fortsetzt.
Dann werden aus den umfassenden Phonem-Daten der Mittelwert u(d)k und die Kovarianz a(d)k für ein Phonem k erhalten durch Berechnung (Schritte 530 und 540). Hier steht (d) für einen Wert, welcher erhalten wurde durch den Zeitdauer-Verteilungs-Macher 34. Ähnlich wie bei dem Fall des Parameter-Verteilungs-Machers 32 werden der Mittelwert und die Kovarianz berechnet, basierend auf der Annahme, dass die Zeitdauer-Verteilung eine Normalverteilung ist. Als Funktion, welche repräsentativ für die Zeitdauer-Verteilung ist, ist auch eine Gamma-Verteilung, eine Poisson-Verteilung oder dergleichen verwendbar, ebenso wie die Normalverteilung.
Die oben erwähnte Arbeitsweise wird durchgeführt für alle Phoneme k, wodurch die Zeitdauer-Verteilung erhalten wird.
Fig. 13 zeigt schematisch das Verfahren der Verarbeitung in dem Zeitdauer- Wahrscheinlichkeits-Rechner 35. In dem Zeitdauer-Wahrscheinlichkeits-Rechner 35 wird zuerst eine bezüglich eines Datenblocks gemittelte (frame-averaged) logarithmische Wahrscheinlichkeit L(c)ikave erhalten aus der logarithmischen Wahrscheinlichkeit L(c)ik von jedem Datenblock für jedes Phonem, berechnet durch den Parameter-Wahrscheinlichkeits-Rechner 33 (Schritt 610). Dann wird eine Phonem-Detektion durchgeführt (Schritt 620) durch das Vergleichen der mittleren logarithmischen Wahrscheinlichkeit L(c)ikave mit einem vorgegebenen Grenzwert L(C)kTH. Solche Verarbeitungen bei dem Zeitdauer-Wahrscheinlichkeits- Rechner 35 sind im Wesentlichen ähnlich zu denjenigen der Phonem-Entscheidungs- Einheiten 14 und 24, wie in den Beispielen 1 bis 2 beschrieben. Der Zeitdauer- Wahrscheinlichkeits-Rechner 35 berechnet die bezüglich des Datenblocks gemittelte logarithmische Wahrscheinlichkeit L(c)ikave der logarithmischen Wahrscheinlichkeit L(c)ik in Übereinstimmung mit Gleichung (16) durch die Verwendung des Ziel-Datenblockes i für die Phonem-Detektion und dessen vorausgehende und nachfolgende N Datenblöcke (diese 2N+1 Datenblöcke werden ein Segment genannt). Wenn die bezüglich eines Datenblocks gemittelte logarithmische Wahrscheinlichkeit L(c)ikave gleich oder größer ist als der vorgegebene Grenzwert L(C)kTH, das heißt, in dem Fall, wenn die Ungleichung (17) erfüllt ist, wird beurteilt, dass der Ziel-Datenblock ein Phonem k ist. Hier ist L(C)kTH ein Unterscheidungs- Grenzwert für jedes Phonem k.
Die Zeitdauer Dk (die Anzahl der aufeinanderfolgenden Datenblöcke) wird erhalten durch das Zählen wie viele Datenblöcke des Phonems k, welche die Ungleichung (17) erfüllen, aufeinanderfolgen.
Bei Schritt 620, in dem Fall wenn L(c)ikave gleich oder größer ist als der Unterscheidungs- Grenzwert, wird die Zeitdauer Dk des Phonems k einer Erhöhung um eins unterzogen (Schritt 630). Im Bezug auf diese Zeitdauer Dk wird eine Zeitdauer-Wahrscheinlichkeit L(d)k berechnet in Übereinstimmung mit Gleichung (18) (Schritt 640).
Die Gesamt-Entscheidungs-Einheit 36 berechnet eine künstliche Wahrscheinlichkeit Lk gemäß der folgenden Gleichung (19), basierend auf der bezüglich eines Datenblocks gemittelten Wahrscheinlichkeit L(c)ikave und der Zeitdauer-Wahrscheinlichkeit L(d)k.
In dem Fall, wenn L(c)ikave kleiner ist als der Unterscheidungs-Grenzwert, wird die Zeitdauer Dk des Phonems k zu 0 gemacht (Schritt 670). Das heißt wenn einmal beurteilt wird, dass es kein Phonem k ist bei Schritt 620, wird die Zeitdauer Dk des Phonems k zurückgesetzt, und die Zeitdauer wird wieder gezählt. In diesem Fall wird die Zeitdauer- Wahrscheinlichkeit L(d)k gleich -∞ gemacht (Schritt 680). Weil die künstliche Wahrscheinlichkeit Lk zugeführt wird als ein positiver Wert in Gleichung (19), indem die Zeitdauer- Wahrscheinlichkeit L(d)k = -∞ gemacht wird, kann die künstliche Wahrscheinlich Lk die Nicht-Phonem Eigenschaft darstellen (wenn nicht der Koeffizient (1 - w) des zweiten Ausdrucks von Gleichung (19) 0 ist, ist der Einfluss von -∞ herausragend).
Nachdem diese Arbeitsweise durchgeführt wurde für alle Phoneme k, schreitet das Verfahren fort zu der Analyse des nächsten Datenblocks. Der oben erwähnte Wert der Zeitdauer Dk wird gehalten bzw. gespeichert und erhöht durch die Datenblöcke, wenn er nicht bei Schritt 670 zurückgesetzt wird. Entsprechend wird die Zeitdauer-Wahrscheinlichkeit L(d)k berechnet bei dem Schritt 640 in jedem Datenblock, basierend auf der Zeitdauer Dk, mit dem Wert, welcher die Anzahl der Datenblöcke darstellt, welche aufeinander gefolgt bzw. nachgefolgt sind.
Wie aus obiger Gleichung (19) gesehen wird, wird die künstliche Wahrscheinlichkeit Lk erhalten durch das Addieren des gemittelten Werts von L(c)ikave in Bezug auf die Zeitdauer Dk und die Zeitdauer-Wahrscheinlichkeit L(d)k, zusammen mit einem spezifischen Gewicht w. Schließlich wird das Phonem k mit der größten künstlichen Wahrscheinlich Lk detektiert.
Des Weiteren wird die abschließende Entscheidung durchgeführt bezüglich der Frage, ob die Periode Sprache oder ein Geräusch ist, indem bestimmt wird, wie oft das detektierte Phonem k innerhalb einer spezifischen Periode erscheint (Auftritts-Frequenz eines jeden Phonems innerhalb einer spezifischen Periode).
Ähnlich wie bei den Beispielen 1 und 2 wird eine Sprach-Kandidaten-Periode mit einer Leistung, welche größer ist als der vorgegebene Grenzwert, verwendet als die Periode des Eingangssignals für die abschließende Entscheidung. Eine Belegungs(occupation)-Rate Rk eines jeden Phonems k ist erhältlich durch Gleichung (20), wobei die Sprach-Kandidaten- Periode J Datenblöcke enthält, und Ck ist die Anzahl der Phoneme k, welche in den J Datenblöcken detektiert wird. Wenn irgendeines der Phoneme k gleich oder größer ist als der vorgegebene Grenzwert RkTH (siehe Ungleichung (21)), wird beurteilt, dass Sprache detektiert wurde.
Rk = Ck/J · 100 ... (20)
Rk ≥ RkTH (21)
Hier ist RkTH ein Sprachdetektions-Grenzwert für jedes Phonem k. Die Gesamt- Entscheidungs-Einheit 36 kann die Sprach/Nicht-Sprach Entscheidung liefern, basierend auf der in Beispiel 2 beschriebenen Fuzzy-Schlussfolgerung.
Wie oben beschrieben, verwendet die Sprach-Detektions-Vorrichtung 30 von Beispiel 3 zwei statistische Abstände in Kombination: Ein statistischer Abstand, welcher erhalten wurde durch das Vergleichen von Parametern eines jeden Phonems, extrahiert bzw. gewonnen aus dem Eingangssignal, mit der Parameter-Verteilung, welche aus Trainings-Daten gemacht wurde; und ein statistischer Abstand, welcher erhalten wurde durch das Vergleichen der Zeitdauer eines jeden detektierten Phonems mit der Zeitdauer-Verteilung eines jeden Phonems, gemacht aus bzw. durchgeführt bei Trainings-Daten. Auf diese Art ist es möglich, eine Sprach-Detektions-Vorrichtung und ein Verfahren zu schaffen, welche genau eine Sprache aus verschiedenen Audio-Signalen einschließlich Geräuschen erkennen können, mit einer relativ einfachen Konstruktion.

Beispiel 4

Als Nächstes wird ein viertes Beispiel der Erfindung beschrieben.
Der Grundzug des Sprach-Detektions-Verfahrens in dem vierten Beispiel ist nachfolgend beschrieben.
In dem vierten Beispiel wird ein Parameter-Grenzwert eines jeden Phonems, welches verwendet wird für die Sprach-Detektion, zuerst bestimmt, basierend auf umfassenden Trainings-Daten. Durch das Vergleichen von einigen Parametern, welche aus dem Eingabesignal gewonnen wurden, mit den Grenzwerten, welche aus den Trainingsdaten erhalten wurden, wird eine allgemeine (erststufige) Beurteilung durchgeführt. Als Nächstes wird durch das Vergleichen von einigen anderen Parametern mit den Grenzwerten eine genauere (zweitstufige) Beurteilung durchgeführt. Auf diese Art wird die Beurteilung effizient durchgeführt und die Detektions-Genauigkeit wird verbessert, indem die Beurteilung in zwei Stufen durchgeführt wird, basierend auf den Merkmalen der jeweiligen Phoneme. Ebenso wird in diesem Beispiel die Abtastfrequenz so festgelegt, dass sie 10 KHz ist, die Anzahl der Abtastwerte ist 200, und ein Datenblock wird so festgelegt, dass er 20 ms ist.
Fig. 14 ist ein Blockdiagramm und zeigt die Gesamtkonstruktion einer Sprach-Detektions- Vorrichtung 40 in dem vierten Beispiel. Die Sprach-Detektions-Vorrichtung 40 umfasst einen Parameter-Extraktor 41, eine Grenzwert-Entscheidungs-Einheit 42, eine allgemeine bzw. Gesamt-Entscheidungs-Einheit 43, eine detaillierte Entscheidungseinheit 44, und eine abschließende Entscheidungseinheit 45. Der Parameter-Extraktor 41 extrahiert bzw. gewinnt eine Mehrzahl von Parametern für die Sprachdetektion aus dem eingegebenen Audio- Signal. Die Grenzwert-Entscheidungseinheit 42 entscheidet bzw. legt jeweilige Grenzwerte für die Parameter fest, welche extrahiert wurden bzw. werden durch den Parameter- Extraktor 41, basierend auf gegebenen umfassenden Trainings-Daten für Vokale. Die Gesamt-Entscheidungseinheit 43 entscheidet im Allgemeinen bzw. insgesamt, ob das eingegebene Signal Sprache ist oder nicht, durch das Vergleichen der Parameter, welche erhalten wurden für jeden Datenblock, welche angelegt werden von dem Parameter-Extraktor 41, mit den jeweiligen Grenzwerten. Die detaillierte Entscheidungseinheit 44 liefert eine genauere Entscheidung, basierend auf dem Beurteilungsergebnis durch die Gesamt- Entscheidungseinheit 43 und anderen Parametern. Die abschließende Entscheidungseinheit 45 entscheidet, ob eine Sprach-Kandidaten-Periode des eingegebenen Audio-Signals ein Sprach-Signal ist oder nicht, durch das Vergleichen der Anzahl der Datenblöcke, welche als Sprache beurteilt wurden, mit einem vorgegebenen Grenzwert.
Wie in Fig. 14 gezeigt, umfasst der Parameter-Extraktor 41 einen Leistungs-Rechner 41a zum Berechnen einer Leistung für jeden Datenblock, einen Auto-Korrelations- Koeffizienten-Rechner 41d zum Berechnen eines ersten Auto-Korrelations-Koeffizienten, einen Auto-Korrelations-Koeffizienten-Rechner 41c zum Berechnen eines siebten Auto- Korrelations-Koeffizienten, einen Cepstrum-Koeffizienten-Rechner 41d zum Berechnen eines ersten Cepstrum-Koeffizienten, und einen Cepstrum-Koeffizienten-Rechner 41e zum Berechnen eines dritten Cepstrum-Koeffizienten. Diese Parameter werden verwendet zum Detektieren der geäußerten Klang-Eigenschaft (Vokal-Eigenschaft) des eingegebenen Audio- Signals.
Als Nächstes werden die oben erwähnten Parameter, welche in diesem Beispiel verwendet werden, beschrieben. Das Folgende sind Ergebnisse, welche erhalten wurden durch das Gewinnen bzw. Extrahieren dieser Parameter aus umfassenden Audio-Daten und durch das Untersuchen der Auftritts-Frequenz-Verteilung.
Wie bei dem Simulations-Experiment bzw. der Simulations-Untersuchung in dem ersten Beispiel, sind die untersuchten Audio-Daten-Sätze zwei Arten von Audio-Daten, d. h. Sprach-Daten und Geräusch-Daten. Als Sprachdaten wurden 16 Phoneme (/a/, /i/, /u/, /e/, /o/, /b/, /d/, /g/, /m/, /n/, /N/, /s/, /h/l, /r/, /w/, /y/) in 212 Worten, welche von 10 Männern geäußert wurden, aufgezeichnet in einem echofreien bzw. schalltoten Raum. Für alle Phoneme wird die Phonem-Grenze durch Beobachtung erhalten. Als die Geräusch-Daten wurden die 22 Arten der Geräusche, welche in Tabelle 1 in dem ersten Beispiel gezeigt sind, verwendet. Die Analyse-Bedingungen für die Sprach- und Geräusch-Daten sind auch in Tabelle 2 in dem ersten Beispiel gezeigt.
Die untersuchten Ergebnisse sind in den Fig. 15 bis 22 gezeigt. Die Fig. 15 und 16 zeigen die Auftritts-Frequenz-Verteilung eines Wertes eines ersten Auto-Korrelations- Koeffizienten für 16 Phoneme und 22 Geräusche. Die Fig. 17 und 18 zeigen die Auftritts-Frequenz-Verteilung eines Wertes des siebten Auto-Korrelations-Koeffizienten für 16 Phoneme und 22 Geräusche. Die Fig. 19 und 20 zeigen die Auftritts-Frequenz- Verteilung eines Wertes eines ersten Cepstrum-Koeffizienten für 16 Phoneme und 22 Geräusche. Die Fig. 21 und 22 zeigen die Auftritts-Frequenz-Verteilung eines Wertes eines dritten Cepstrum-Koeffizienten für 16 Phoneme und 22 Geräusche.
In diesen Figuren bezeichnen die durchgezogenen bzw. ausgefüllten Kreise einen Mittelwert, und eine Linie, welche sich in einer vertikalen Richtung erstreckt, bezeichnet die Standardabweichung. Aus diesen Ergebnissen wird gefunden, dass die jeweiligen Parameter die folgende Tendenz haben.
Die Auto-Korrelations-Koeffizienten sind Parameter, welche die Differenz bzw. den Unterschied der Frequenz-Bänder widerspiegeln, auf welchen die Energie konzentriert ist. Der erste Auto-Korrelations-Koeffizient bezeichnet einen Wert, welcher näher bei 0 liegt, für ein Signal, in welchem die Energie vorwiegend in einem Hochfrequenz-Band vorliegt (zum Beispiel ein stimmloser Klang und ein Geräusch mit einer hohen Zufälligkeit), und gibt einen Wert näher an 1 an für ein Signal, in welchem die Energie überwiegend in einem bestimmten Frequenzband vorliegt (zum Beispiel ein stimmhafter Klang) (siehe Fig. 15 und 16). Der siebte Auto-Korrelations-Koeffizient gibt einen Wert näher an 1 an für ein Signal, in welchem die Energie vorwiegend in einem relativ niedrigen Frequenzband vorliegt (zum Beispiel ein stationäres Geräusch) und gibt einen Wert näher bei 0 an für ein Signal, in welchem die Energie überwiegend in einem bestimmten Frequenzband vorliegt (zum Beispiel ein stimmhafter Klang) (siehe Fig. 17 und 18).
Die Cepstrum-Koeffizienten sind Parameter, welche die Form des Spektrums eines Sprachsignals angeben. Für den gleichen stimmhaften Klang sind die Werte der Cepstrum- Koeffizienten erheblich voneinander verschieden, in Abhängigkeit von den Phonemen. Der erste Cepstrum-Koeffizient ist ein Parameter, welcher einen allgemeinen Unterschied bzw. Differenz des Spektrums angibt, wie zum Beispiel ob das Phonem ein stimmhafter Klang oder ein stimmloser Klang ist. Der erste Cepstrum-Koeffizient hat einen Wert von 1,0 oder mehr für einen stimmhaften Klang außer dem Phonem/i/, und hat einen Wert von 1,0 oder weniger für die anderen Phoneme (siehe Fig. 19 und 20). Der dritte Cepstrum- Koeffizient stellt insbesondere das Merkmal des Phonems/i/ dar. Der dritte Cepstrum- Koeffizient hat einen Wert von 0,5 oder mehr für das Phonem/i/, und hat einen Wert von 0,5 oder weniger für die anderen Phoneme (siehe Fig. 21 und 22).
Aus dem obigen wird gesehen, dass das Phonem/i/ eine Tendenz hat, welche von den anderen vier oder fünf Vokalen verschieden ist, so dass das Phonem/i/ fehlerhaft beurteilt werden kann durch die Kriterien der Parameter, welche zum Erkennen von Vokalen in vielen Fällen verwendet werden. Um eine solche fehlerhafte Beurteilung zu vermeiden, und um die Sprach-Detektion bzw. Sprach-Erkennung genauer durchzuführen, ist es erforderlich, ein Beurteilungs-Kriterium vorzusehen (Parameter-Beurteilungs-Grenzwert), in Abhängigkeit von der inhärenten Tendenz des Phonems.
Hiernach wird das Sprach-Detektions-Verfahren durch die Sprach-Detektions-Vorrichtung 40 im größeren Detail beschrieben werden.
Das eingegebene Audio-Signal über ein Mikrofon (nicht gezeigt) wird angelegt an den Parameter-Extraktor 41. Der Parameter-Extraktor 41 extrahiert bzw. gewinnt eine Mehrzahl von Parametern, welche benötigt werden für die Sprach-Detektion, wie in den oben beschriebenen Beispielen. In diesem Beispiel werden die folgenden fünf Parameter gewonnen durch den Parameter-Extraktor 41: Ein Leistungs-Wert pi für jeden Datenblock (frame); ein normierter erster Auto-Korrelations-Koeffizient Ai(1); ein normierter siebter Auto- Korrelations-Koeffizient Ai(7); ein erster Cepstrum-Koeffizient Ci(1); und ein dritter Cepstrum-Koeffizient Ci(3).
Anstelle des ersten Auto-Korrelations-Koeffizienten kann ein anderer Auto-Korrelations- Koeffizient niedriger Ordnung (fünfter oder niedrigerer Ordnungen) verwendet werden. Diese Auto-Korrelations-Koeffizienten niedriger Ordnung bezeichnen die gleiche Tendenz, welche benötigt wird zum Unterscheiden eines Nicht-Sprach-Klanges, in welchem die Energie vorwiegend in einem niederfrequenten Band vorliegt.
Alternativ kann ein erster PARCOR Koeffizient verwendet werden anstelle des ersten Auto- Korrelations-Koeffizienten, und ein erster LPC Koeffizient kann verwendet werden anstelle des ersten Cepstrum-Koeffizienten (weil die absoluten Werte davon zueinander gleich sind).
In diesem Beispiel wird ein dritter Cepstrum-Koeffizient, welcher ein Parameter ist, welcher insbesondere das Merkmal des Phonems/i/ bezeichnet, verwendet, zusammen mit dem ersten Cepstrum-Koeffizienten. Um die Beurteilung Sprache/Nicht-Sprache mit einer hohen Leistungsfähigkeit zu realisieren, können Cepstrum-Koeffizienten erster oder höherer Ordnung zusätzlich verwendet werden, welche insbesondere andere Phoneme darstellen, wie zum Beispiel /a/, /u/, /e/ und 101. Wenn die LPC Cepstrum-Koeffizienten, die FFT Cepstrum-Koeffizienten und die Melcepstrum-Koeffizienten verwendet werden als die Cepstrum-Koeffizienten, gibt es kein Problem im Hinblick auf die Tatsache, dass die Phonem-Eigenschaft im größeren Detail beurteilt werden kann, basierend auf den Merkmalen der jeweiligen Phoneme in der Sprache.
Die Grenzwert-Entscheidungseinheit 42 gewinnt Parameter, welche verwendet werden sollen in dem Parameter-Extraktor 41, aus den umfassenden Trainings-Daten (für einen Vokal- Teil) und Nicht-Sprach-Daten (Geräusch-Daten). Dann werden basierend auf der Verteilung dieser Parameter Grenzwerte bestimmt, welche benötigt werden für die Beurteilung Sprache/Nicht-Sprache, für jeden Parameter. Des Weiteren wird ein anderer Grenzwert für jeden Parameter bestimmt zur Beurteilung wie viele Datenblöcke, welche eine Grenzwert- Bedingung erfüllen (um als Sprache erkannt zu werden) innerhalb einer bestimmten Periode (der Anzahl der Datenblöcke) erscheinen sollten. Es wird nämlich das Existenz-Verhältnis der als Sprache detektierten bzw. erkannten Datenblöcke innerhalb einer bestimmten Periode (Sprach-Kandidaten-Periode) aus den Trainings-Daten für jeden Parameter gewonnen. Ein Grenzwert für das Existenz-Verhältnis wird bestimmt für die Beurteilung Sprache/Nicht-Sprache.
Die Nicht-Sprache-Daten zum Bestimmen des Sprach/Nicht-Sprach Grenzwertes können ausgewählt werden in Abhängigkeit von der Situation, in welcher die Sprach-Detektions- Vorrichtung verwendet wird. Zum Beispiel in dem Fall der Verwendung der Sprach- Detektions-Vorrichtung in einem Konferenzraum reicht es auch, Daten von Geräuschen zu verwenden, von welchen erwartet wird, dass sie tatsächlich auftreten, wie zum Beispiel leichte Schläge auf einen Tisch, das Rascheln von Papierblättern, das Klingen von Glas, etc.
Die Parameter, welche aus dem eingegebenen Audio-Signal durch den Parameter-Extraktor 41 extrahiert bzw. gewonnen werden, werden jeder, der Gesamt-Entscheidungs-Einheit 43 und der detaillierten Entscheidungseinheit 44 eingegeben. Die ersten und siebten Auto- Korrelations-Koeffizienten und der erste Cepstrum-Koeffizient werden der Gesamt- Entscheidungs-Einheit 43 eingegeben, und der dritte Cepstrum-Koeffizient wird der detaillierten Entscheidungs-Einheit 44 eingegeben.
Fig. 23 zeigt schematisch ein Entscheidungsverfahren in der Gesamt-Entscheidungs- Einheit 43.
Zuerst werden zufällige Geräusche, wie zum Beispiel stimmlose Klänge, welche eine Energie haben, welche überwiegend in einem hochfrequenten Band ist, von den Kandidaten der Sprach-Detektion ausgeschlossen durch die Verwendung des Wertes des ersten Auto- Korrelations-Koeffizienten. Der erste Auto-Korrelations-Koeffizient Ai(1) des Datenblocks i des eingegebenen Audio-Signals wird extrahiert bzw. gewonnen, und verglichen mit dem Grenzwert A1 des ersten Auto-Korrelations-Koeffizienten, welcher bestimmt wird in der Grenzwert-Entscheidungseinheit 42. Wenn Ai(1) ≥ A1, wird beurteilt, dass das eingegebene Signal Sprache ist, und sonst wird beurteilt, dass es keine Sprache ist (Schritt 710).
Dann werden Geräusche, welche eine Energie haben, welche überwiegend in einem niederfrequenten Band ist, ausgeschlossen von den Kandidaten der Sprach-Erkennung, durch die Verwendung des Werts des siebten Auto-Korrelations-Koeffizienten. Der siebte Auto- Korrelations-Koeffizient Ai(7) des Datenblockes i des eingegebenen Audio-Signals wird extrahiert, und verglichen mit dem Grenzwert A7 des siebten Auto-Korrelations- Koeffizienten, welcher in der Grenzwert-Entscheidungseinheit 42 bestimmt wird. Wenn Ai(7) ≤ A7, wird beurteilt, dass das eingegebene Signal Sprache ist, und sonst wird beurteilt, dass es keine Sprache ist (Schritt 720).
Und dann werden stimmhafte Klänge, außer des Phonems /i/, detektiert durch die Verwendung des Wertes des ersten Cepstrum-Koeffizienten. Der erste Cepstrum-Koeffizient C1(1) des Datenblockes i des eingegebenen Audio-Signals wird extrahiert und verglichen mit dem Grenzwert C1 des ersten Cepstrum-Koeffizienten, welcher in der Grenzwert- Entscheidungseinheit 42 bestimmt wird. Wenn C1(1) ≥ C1, wird beurteilt, dass das eingegebene Signal Sprache ist, und sonst wird beurteilt, dass es keine Sprache ist (Schritt 730). Wenn das Beurteilungsergebnis bei dem Schritt 730 "Sprache" ist, wird Vi = 1 ausgegeben bei einem Schritt 740. Wenn "Nicht-Sprache" vorliegt, wird Vi = 0 ausgegeben bei einem Schritt 750. Der Ausgabewert Vi ist ein Wert, welcher die Beurteilungsergebnisse angibt (Sprache: 1, keine Sprache: 0). Diese Ausgabewerte werden an die detaillierte Entscheidungseinheit 44 angelegt.
Fig. 24 zeigt schematisch ein Entscheidungsverfahren in der detaillierten Entscheidungseinheit 44.
Die detaillierte Entscheidungseinheit 44 legt den Ausgabewert Vi direkt an die abschließende Entscheidungseinheit 45 an (Schritt 810 → 850), in dem Fall, wenn ein Signal so beurteilt wird, dass es Sprache ist, in der Gesamt-Entscheidungseinheit 43 (d. h. Vi = 1). Wenn ein Signal so beurteilt wird, dass es keine Sprache ist, in der Gesamt-Entscheidungseinheit 43 (d. h. Vi = 0), wird die Entscheidung, ob dieses das Phonem /i/ ist oder nicht, durchgeführt. Der Wert des dritten Cepstrum-Koeffizienten Ci(3), extrahiert aus dem eingegebenen Audio-Signal, wird verglichen mit dem Grenzwert C3 des dritten Cepstrum-Koeffizienten, welcher bestimmt wird in der Grenzwert-Entscheidungseinheit 42. Wenn Ci(3) ≥ C3, wird das Signal so beurteilt, dass es das Phonem /i/ ist (d. h. Sprache) und sonst wird es beurteilt, dass es keine Sprache ist (Schritt 820).
Wenn das Beurteilungsergebnis bei Schritt 820 "Sprache" ist, wird bei Schritt 830 Vi = 1 ausgegeben. In dem Fall von "Nicht-Sprache" wird Vi = 0 bei Schritt 840 ausgegeben. Dieser Ausgabewert Vi wird angelegt an die abschließende Entscheidungseinheit 45.
Die abschließende Entscheidungseinheit 45 macht die abschließende Entscheidung bezüglich der Sprache ob die spezifische Periode des eingegebenen Signals ein Sprach-Signal ist oder nicht, basierend auf dem Beurteilungsergebnis, angelegt von der detaillierten Entscheidungseinheit 44 und dem Leistungs-Wert, angelegt von dem Parameter-Extraktor 41. Die abschließende Entscheidungseinheit 45 vergleicht den Leistungs-Wert Pi, erhalten in dem Leistungs-Rechner 41a, mit dem Leistungs-Grenzwert PTH, bestimmt in der Grenzwert- Entscheidungseinheit 42. Die abschließende Entscheidungseinheit 45 entscheidet über eine Sprach-Kandidaten-Periode durch das Detektieren der Anzahl der aufeinanderfolgenden Datenblöcke, welche eine Leistung haben, welche gleich oder größer ist als der Grenzwert PTH und durch das Vergleichen der detektierten bzw. erkannten Anzahl der aufeinanderfolgenden Datenblöcke mit einem vorgegebenen Wert. Wenn die detektierte Anzahl gleich oder größer ist als ein vorgegebener Wert, wird beurteilt, dass die spezifische Periode die Sprach-Kandidaten-Periode ist.
Wenn das Verhältnis der Anzahl Cv der Datenblöcke, welche als Sprache durch die Gesamt-Entscheidungseinheit 43 und die detaillierte Entscheidungseinheit 44 beurteilt werden, zu der Anzahl J der Datenblöcke, welche detektiert werden als die Sprach-Kandidaten- Periode, gleich ist oder größer als der Grenzwert M, welcher vorgegeben ist in der Grenzwert-Entscheidungseinheit 42, das heißt, wenn die nachfolgend erwähnte Ungleichung (22) erfüllt ist, wird beurteilt, dass die Sprach-Kandidaten-Periode Sprache ist.
Cv/J · 100 ≥ M ... (22)
Praktischer wird bezüglich der Datenblöcke, welche Leistungen Pi haben, welche gleich oder größer sind als der Grenzwert PTH, die Phonem-Detektion durchgeführt, wobei die Anzahl Cv der Datenblöcke gezählt wird, welche so beurteilt werden, dass sie Sprache sind. Wenn der Leistungs-Wert Pi gleich oder größer ist als der Grenzwert PTH, werden diese Schritte wiederholt. Wenn der Leistungs-Wert P1 kleiner wird als der Grenzwert PTH, wird die Anzahl der Wiederholungen (d. h. die Anzahl der aufeinanderfolgenden Datenblöcke) bestimmt. Die Wiederholungsanzahl Cv wird verglichen mit dem Grenzwert M, welcher vorgegeben ist in der Grenzwert-Entscheidungseinheit 42. Wenn Cv die oben erwähnte Ungleichung (22) erfüllt, wird die Sprach-Kandidaten-Periode so beurteilt, dass sie Sprache ist. Des Weiteren kann in dem oben erwähnten Entscheidungsverfahren ein vorgegebener oberer Grenzwert Mmax vorgesehen werden, wie ausgedrückt durch die Ungleichung (23), um so zu verhindern, dass ein Geräusch, welches sich für eine lange Zeit mit einer großen Leistung fortsetzt, fehlerhaft als Sprache beurteilt wird.
Mmax > Cv/J · 100 ≥ M ... (23)
Wie oben beschrieben, führt die Sprach-Detektions-Vorrichtung in diesem Beispiel die Beurteilung durch, basierend auf der Phonem-Eigenschaft der Sprache. Auf diese Art ist es möglich, eine Sprach-Erkennungs-Vorrichtung zur Verfügung zu stellen, welche genau ein Sprach-Signal von verschiedenen Audio-Signalen mit einer relativ einfachen Konstruktion erkennen kann.
Verschiedene andere Abwandlungen werden den Fachleuten offensichtlich sein und können von diesen ausgeführt werden, ohne von dem Schutzbereich dieser Erfindung abzuweichen. Entsprechend ist es nicht beabsichtigt, dass der Schutzbereich der beiliegenden Ansprüche auf die Beschreibung, wie hierin ausgeführt, begrenzt wird, sondern dass die Ansprüche breit ausgelegt werden.

Claims

1. Vorrichtung zur Spracherkennung mit:

einer Referenzmodell-Erzeugungsvorrichtung (42) zum Extrahieren einer Mehrzahl von Parametern für eine Spracherkennung aus Trainingsdaten, und zum Erzeugen eines Referenzmodells basierend auf den Parametern;

einer Parameter-Extrahier-Vorrichtung (41) zum Extrahieren der Mehrzahl der Parameter aus jedem Datenblock eines eingegebenen Audio-Signals; und

einer Entscheidungsvorrichtung zum Entscheiden ob das eingegebene Audiosignal Sprache ist oder nicht, durch das Vergleichen der Parameter, welche aus dem eingegebenen Audiosignal extrahiert wurden, mit dem Referenzmodell, wobei

das Referenzmodell einen vorgegebenen Grenzwert von jedem Parameter für jedes Phonem hat, und

die Entscheidungsvorrichtung weist auf:

eine erste Entscheidungsvorrichtung (43), zum Entscheiden ob ein Datenblock des eingegebenen Audiosignals Sprache ist oder nicht, durch Vergleichen eines vorgegebenen Satzes der Parameter, gewonnen aus dem Datenblock, mit den jeweiligen Grenzwerten des Referenzmodells;

eine zweite Entscheidungsvorrichtung (44) zum Entscheiden ob der Datenblock, bei welchem entschieden wurde, dass er nicht Sprache ist, durch die erste Entscheidungsvorrichtung, Sprache ist oder nicht, durch Vergleichen mindestens eines weiteren Parameters des Datenblocks mit dem jeweiligen Grenzwertes des Referenzmodells; und

eine abschließende Entscheidungsvorrichtung (45) zum Entscheiden ob eine spezifische Periode des eingegebenen Audiosignals Sprache ist oder nicht, basierend auf dem Verhältnis der Anzahl der Datenblöcke (Cv), von welchen entschieden wurde, dass sie Sprache sind, durch die erste oder die zweite Entscheidungsvorrichtung, in der spezifischen Periode, mit der gesamten Anzahl der Datenblöcke (J) in der spezifischen Periode.

2. Vorrichtung nach Anspruch 1, wobei die Mehrzahl der Parameter ausgewählt werden aus einer Gruppe bestehend aus den Auto-Korrelations-Koeffizienten erster und höherer Ordnung, den LPC-Koeffizienten erster und höherer Ordnung, den PARCOR-Koeffizienten erster und höherer Ordnung, den cepstrum- Koeffizienten erster und höherer Ordnung, den MELCEPSTRUM-Koeffizienten erster und höherer Ordnung und den LSP-Koeffizienten erster und höherer Ordnung.

3. Vorrichtung nach Anspruch 1 oder 2, wobei die Parameter-Gewinnungs- Vorrichtung eine Berechnungsvorrichtung für einen Auto-Korrelations- Koeffizienten aufweist zum Gewinnen bzw. Extrahieren von Auto-Korrelations- Koeffizienten einer Mehrzahl von Ordnungen, und eine cepstrum-Koeffizienten- Berechnungsvorrichtung zum Extrahieren von cepstrum-Koeffizienten einer Mehrzahl von Ordnungen.

4. Vorrichtung nach Anspruch 3, wobei die Auto-Korrelations-Koeffizienten- Berechnungsvorrichtung die ersten und siebten Auto-Korrelations-Koeffizienten berechnet und die cepstrum-Koeffizienten-Berechnungsvorrichtung berechnet die ersten und dritten cepstrum-Koeffizienten.

5. Vorrichtung nach Anspruch 4, wobei die erste Entscheidungsvorrichtung die ersten und siebten Auto-Korrelations-Koeffizienten und den ersten cepstrum- Koeffizienten verwendet zum Vergleichen und die zweite Entscheidungsvorrichtung verwendet den dritten cepstrum-Koeffizienten zum vergleichen.

6. Vorrichtung nach einem der vorhergehenden Ansprüche, wobei die Parameter- Gewinnungs-Vorrichtung weiter eine Leistungs-Berechnungsvorrichtung aufweist zum Berechnen einer Leistung für jeden Datenblock und die spezifische Periode des Audiosignals ist eine Periode, welche eine Leistung hat, welche größer ist als ein vorgegebener Wert.

7. Spracherkennungsverfahren zur Beurteilung Sprache/Nicht-Sprache für ein eingegebenes Audiosignal unter Verwendung einer Mehrzahl von extrahierten Parametern aus dem eingegebenen Audiosignal und eines Referenzmodells, basierend auf Trainingsdaten, mit den Schritten:

a) Extrahieren bzw. Gewinnen der Mehrzahl der Parameter für eine Spracherkennung aus den Trainingsdaten und bestimmen eines Grenzwertes von jedem Parameter für jedes Phonem,

b) Extrahieren bzw. Gewinnen der Mehrzahl der Parameter von jedem Datenblock des eingegebenen Audiosignals,

c) Entscheiden ob ein Datenblock des eingegebenen Audiosignals Sprache oder Nicht-Sprache ist durch das Vergleichen eines vorgegebenen Satzes der Parameter, extrahiert aus dem Datenblock, mit den jeweiligen Grenzwerten,

d) Entscheiden ob der Datenblock, von welchem entschieden wurde, dass er Nicht-Sprache ist durch Schritt c), Sprache ist oder nicht, durch Vergleichen von mindestens einem weiteren Parameter des Datenblocks mit dem jeweiligen Grenzwert des Referenzmodells,

e) Zählen der Anzahl der Datenblöcke, bei welchen entschieden wurde, dass sie Sprache sind in Schritt c) oder d) in einer spezifischen Periode des eingegebenen Audiosignals,

f) Berechnen eines Verhältnisses der gezählten Anzahl in Schritt e) zu der gesamten Anzahl der Datenblöcke, welche in einer spezifischen Periode enthalten sind, und

g) Beurteilen ob die spezifische Periode des eingegebenen Audiosignals Sprache ist oder nicht, basierend auf dem in Schritt f) berechneten Verhältnis.

8. Verfahren nach Anspruch 7, wobei die Mehrzahl der Parameter, welche verwendet werden in den Schritten, ausgewählt werden aus einer Gruppe bestehend aus den Auto-Korrelations-Koeffizienten erster und höherer Ordnung, den LPC-Koeffizienten erster und höherer Ordnung, den PARCOR-Koeffizienten erster und höherer Ordnung, den cepstrum-Koeffizienten erster und höherer Ordnung, den MELCEPSTRUM-Koeffizienten erster und höherer Ordnung und den LSP-Koeffizienten erster und höherer Ordnung.

9. Verfahren nach Anspruch 7 oder 8, wobei Schritt b) die Schritte des Gewinnens von Auto-Korrelations-Koeffizienten einer Mehrzahl von Ordnungen und das Gewinnen von cepstrum-Koeffizienten einer Mehrzahl von Ordnungen umfasst.

10. Verfahren nach Anspruch 9, wobei in Schritt b) die ersten und siebten Auto- Korrelations-Koeffizienten und die ersten und dritten cepstrum-Koeffizienten erhalten werden.

11. Verfahren nach Anspruch 10, wobei die ersten und siebten Auto-Korrelations- Koeffizienten und der erste cepstrum-Koeffizient verwendet werden zum Vergleichen in Schritt c) und der dritte cepstrum-Koeffizient wird verwendet zum Vergleichen in Schritt d).

12. Verfahren nach einem der Ansprüche 7 bis 11, wobei Schritt b) weiter den Schritt der Berechnung einer Leistung für jeden Datenblock aufweist, und wobei Schritt g) die Schritte aufweist: Vergleichen der Leistung eines jeden Datenblockes mit einem vorgegebenen Wert, Zählen der Anzahl der Datenblöcke, welche eine Leistung haben, welche gleich oder größer ist als ein vorgegebener Wert, und Bestimmen einer Periode des eingegebenen Audiosignals basierend auf der Anzahl der Datenblöcke, welche die Leistung haben, welche gleich oder größer ist als ein vorgegebener Wert, als die spezifische Periode des eingegebenen Audiosignals.