DE3733659A1 - Verfahren zum vergleichen von mustern - Google Patents

Verfahren zum vergleichen von mustern

Info

Publication number
DE3733659A1
DE3733659A1 DE19873733659 DE3733659A DE3733659A1 DE 3733659 A1 DE3733659 A1 DE 3733659A1 DE 19873733659 DE19873733659 DE 19873733659 DE 3733659 A DE3733659 A DE 3733659A DE 3733659 A1 DE3733659 A1 DE 3733659A1
Authority
DE
Germany
Prior art keywords
pattern
patterns
minimum
speech
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19873733659
Other languages
English (en)
Other versions
DE3733659C2 (de
Inventor
Seigou Yasuda
Junichiroh Fujimoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP61275656A external-priority patent/JP2534241B2/ja
Priority claimed from JP61275655A external-priority patent/JP2534240B2/ja
Priority claimed from JP61278053A external-priority patent/JP2768938B2/ja
Priority claimed from JP61278054A external-priority patent/JP2534242B2/ja
Priority claimed from JP61290067A external-priority patent/JP2534243B2/ja
Priority claimed from JP61290068A external-priority patent/JP2534244B2/ja
Priority claimed from JP62238337A external-priority patent/JP2901976B2/ja
Priority claimed from JP62238336A external-priority patent/JP2882791B2/ja
Priority claimed from JP62238510A external-priority patent/JP2882792B2/ja
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of DE3733659A1 publication Critical patent/DE3733659A1/de
Publication of DE3733659C2 publication Critical patent/DE3733659C2/de
Application granted granted Critical
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Toys (AREA)
  • Telephone Function (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Image Analysis (AREA)

Description

Die Erfindung betrifft ein Verfahren zum Vergleichen von Mu­ stern und betrifft insbesondere ein Verfahren und ein System zum Vergleichen eines unbekannten Musters mit einer Anzahl bekannter Muster, um die Identität des unbekannten Musters festzustellen und betrifft darüber hinaus ein Muster-Erken­ nungsverfahren und -system. Darüber hinaus betrifft die Er­ findung ein Verfahren und ein System zum Erkennen eines Mu­ sters, wie eines Sprachmusters, welches insbesondere für eine Anwendung bei Sprachen/Stimmen- und Zeichen-Erkennung verwendbar ist.
Bei einem der am meisten üblichen Muster-Vergleichsverfahren wird eine Musteranpassung benutzt. Bei diesem Musteranpas­ sungsverfahren wird der Ähnlichkeitsgrad zwischen einem ein­ gegebenen unbekannten Muster und jedem einer Anzahl von re­ gistrierten, bekannten Bezugsmustern festgestellt; dann wird das eingegebene Muster durch eines der Bezugsmuster identi­ fiziert, das den höchsten Ähnlichkeitsgrad hat. Wenn dieses Verfahren in der Praxis angewendet wird, ergibt sich eine Schwierigkeit aufgrund des Umgebungsrauschens, das sich mit einem eingegebenen Muster vermischt. Wenn beispielsweise im Fall von Anwendungen zur Spracherkennung ein sporadisch auf­ tretendes Rauschen im Hintergrund während des Erkennungspro­ zesses erzeugt wird, oder wenn das Geräusch beim Öffnen und Schließen in eine Sprache während des Aussprechens einge­ bracht worden ist, wird eine eingegebene Sprache mit Bezugs­ mustern verglichen, bei welchen Rauschen vorhanden ist, so daß eine richtige Ähnlichkeit nicht festgestellt werden kann. Wenn, wie oben beschrieben, die Sprache sehr empfind­ lich bezüglich Rauschen ist, ergibt sich durch das Rauschen ein zusätzliches Problem in einer eingegebenen Sprache; wenn andererseits die Empfindlichkeit bezüglich Rauschen zu ge­ ring ist, ist es richtig, daß die Chance, Rauschen aufzuneh­ men, geringer wird; es ergibt sich jedoch eine weitere Schwierigkeit beim Abtasten eines Teils einer Sprache/Stim­ me beispielsweise im Falle eines Wortes "Stopp", bei welchem das Wortende ein Konsonant ist, welcher für sich ausgespro­ chen wird, es oft der Fall ist, daß der letzte Laut /p/ nicht festzustellen ist.
In Fig. 7a und 7b ist der Fall dargestellt, daß der Wortklang für "Stopp" durch Musteranpassung zu erkennen ist. In Fig. 7a ist ein Bezugsmuster und in Fig. 7b ist ein zu identifizie­ rendes eingegebenes Muster dargestellt. Das Bezugsmuster der Fig. 7a hat ein genaues Muster, welches das Wort "Stopp" in seiner Gänze darstellt; jedoch fehlt bei dem eingegebenen Muster der Fig. 7a der letzte Laut /p/. Im Ergebnis wird, wenn diese beiden Muster durch Musteranpassung verglichen werden, das Musterende /p/ des Bezugsmusters von Fig. 7a entsprechend ausgebildet, um dem Musterende /o/ des eingegebenen Musters der Fig. 7b zu entsprechen. Aus diesem Grund wird der Ähn­ lichkeitsgrad zwischen diesen beiden Mustern geringer, was zu einem fehlerhaften Erkennungsergebnis führt. Eine solche fehlerhafte Übereinstimmung kann durch Verwenden des dynami­ schen Anpassungsschemas mit einem freien Endpunkt verhindert werden; jedoch gibt es auch Fälle, in welchen ein Teil eines Musters an seinem vorderen oder hinteren Ende verlorengeht oder ein Geräusch hinzugefügt wird, was notwendigerweise die Anzahl Berechnungen erhöhen würde, wobei dieses Verfahren an sich schon eine große Anzahl von Berechnungen erfordert.
Wie oben beschrieben, wird bei dem Musteranpassungsverfahren der Ähnlichkeitsgrad festgestellt, indem ein eingegebenes, unbekanntes Muster mit jeweils einer Anzahl Bezugsmuster verglichen wird, welche in irgendeiner Weise vorher ausge­ bildet worden sind; dann wird die Identität des eingegebenen Musters mit einem Bezugsmuster festgestellt, welches den höchsten Ähnlichkeitsgrad hat. Folglich ist es äußerst wich­ tig bei dem Musteranpassungsverfahren, wie genau ein Muster extrahiert werden kann, und diese Wichtigkeit ist nicht nur auf die Anwendung bei Spracherkennung beschränkt. Um zu ver­ hindern, daß Umgebungsrauschen eingebracht wird, wenn eine Sprache/Stimme extrahiert wird oder wenn ein Sprachintervall festzulegen ist, muß daher insbesondere ein Schwellenwertpe­ gel richtig festgelegt werden, um so ein geringes Geräusch nicht aufzunehmen.
Ein übliches Verfahren, um ein Sprachintervall festzustellen ist in Fig. 8 dargestellt, in welcher der Energiepegel einer Sprache verwendet wird, um die Sprache von dem Hintergrund­ rauschen zu trennen. Bei diesem Verfahren ist ein Sprachener­ gie-Schwellenwertpegel A zum Beschneiden von Geräuschen vor dem Eingeben einer Sprache festgelegt worden, und ein Sprech­ intervall L ist als ein Zeitabschnitt von einem Zeitpunkt t 1 an, wenn der Sprachenergiepegel den Schwellenwertpegel A überschritten hat, bis zu einem Zeitpunkt t 2 festgelegt, wenn der Sprachenergiepegel unter den Schwellenwertpegel A abgenommen hat. Dies ist der Grundgedanke beim Ermitteln eines Sprachintervalls; jedoch sind schon verschiedene Ver­ besserungen gemacht worden, um eine Sprache/Stimme, die von Interesse ist, von Geräuschen zu trennen. Außerdem ist es als eine Merkmalsquantität nicht notwendig, irgendein ganz bestimmtes zu verwenden; vielmehr kann irgendein gewünschtes Merkmal verwendet werden, das besonders typisch ist, wie beispielsweise ein Energiespektrum, ein LPC oder ähnliches Spektrum. Wenn beispielsweise der Fall eines Energiespek­ trums genommen wird, kann dies durchgeführt werden, indem eine eingegebene Sprache/Stimme an eine Bandpaß-Filterbank angelegt wird, und das Analyseverfahren frei geändert wird, um das charakteristische Merkmal der Bandpaß-Filterbank zu selektieren. Eine Sprechintervall feststellende Einheit und eine die Merkmalsquantität umsetzende Einheit können in ir­ gendeiner Reihenfolge bezüglich des Flusses eines Sprachsig­ nals angeordnet sein, das von einer Spracheingabeeinheit geliefert worden ist. Wenn in einem solchen Fall ein ge­ räuschvoller Konsonant mit geringer Energie, wie beispiels­ weise der Laut /f/ am Anfang oder Ende eines Ausdruckes vor­ handen ist, ist dies sehr schwierig aufzunehmen. In Fig. 9a ist ein Bezugsmuster für die /Familie/ und in Fig. 9b ist ein Eingabemuster für denselben Wortklang (word voice) darge­ stellt. Wie dargestellt, ist es oft der Fall, daß der Laut /f/ am Anfang eines Wortes wegen der geringen Energie leicht verlorengeht. Aus diesem Grund kann keine richtige Anpassung durchgeführt werden, aus welcher sich ein niedrigerer Ähn­ lichkeitsgrad ergeben würde, der somit zu einer fehlerhaften Erkennung führen würde
Hauptziel der Erfindung ist es daher, die vorstehend be­ schriebenen Nachteile der herkömmlichen Verfahren zu vermei­ den und ein Mustervergleichsverfahren zu schaffen, bei wel­ chem ein Muster genau mit einem anderen Muster verglichen werden kann. Ein weiteres Ziel der Erfindung ist es, ein Mu­ stervergleichsverfahren zu schaffen, bei welchem ein richti­ ger Mustervergleich mit Hilfe eines Musters durchgeführt werden kann, bei welchem ein Teil verlorengegangen ist oder bei welchem ein Geräusch eingebracht worden ist. Ein weite­ res Ziel der Erfindung ist es, ein Mustervergleichsverfahren zu schaffen, das sich insbesondere für eine Verwendung bei einer Mustererkennung eignet. Noch ein weiteres Ziel der Er­ findung ist es, ein Mustervergleichsverfahren zu schaffen, was insbesondere bei einer Sprachen/Stimmen- oder Zeichener­ kennung verwendbar ist. Noch ein weiteres Ziel der Erfindung soll es sein, ein Verfahren zu schaffen, durch welches ver­ hindert wird, daß ein Bezugsmuster, das bei einer Musterer­ kennung verwendet worden ist, verschlechtert wird. Schließ­ lich ist es noch ein weiteres Ziel der Erfindung, ein Ver­ fahren zum Ausbilden eines Bezugsmusters hoher Qualität zu schaffen, welches insbesondere bei der Mustererkennung ver­ wendet werden kann.
Gemäß der Erfindung sind diese Ziele durch ein Vergleichs­ verfahren nach Anspruch 1, 6, 11, 17, 18, 20, 24, 28, 33, 38, 43, 46, 49, 55 und 58 erreicht. Vorteilhafte Weiterbil­ dungen dieser Verfahren sind Gegenstand der Unteransprüche.
Nachfolgend wird die Erfindung anhand von bevorzugten Aus­ führungsformen unter Bezugnahme auf die Zeich­ nungen im einzelnen erläutert. Es zeigt
Fig. 1 eine schematische, meistens in Blockform wie­ dergegebene Darstellung eines Spracherken­ nungssystems gemäß einer Ausführungsform der Erfindung;
Fig. 2a bis 2c Darstellungen, welche zur Erläuterung der Ar­ beitsweise des in Fig. 1 dargestellten Systems dienen;
Fig. 3 eine schematische Darstellung eines Spracher­ kennungssystems, das bezüglich des Systems in Fig. 1 modifiziert ist;
Fig. 4a bis 4c Darstellungen zur Erläuterung der Arbeitswei­ se des in Fig. 3 wiedergegebenen Systems;
Fig. 5 und 6 in Blockform alternative Spracherkennungssy­ steme gemäß weiterer Ausführungsformen der Erfindung;
Fig. 7a, 7b, 8, 9a und 9b Darstellungen zum Erläutern der Schwierigkeiten, die durch die Erfindung zu lösen sind, wenn sie zur Spracherkennung ver­ wendet wird;
Fig. 10 eine schematische, meist in Blockform wieder­ gegebene Darstellung eines Spracherkennungs­ systems gemäß noch einer weiteren Ausführungs­ form der Erfindung;
Fig. 11a bis 11c Darstellungen zur Erläuterung der Arbeits­ weise des in Fig. 10 dargestellten Systems;
Fig. 12a und 12b Darstellungen zur Erläuterung der Vorteile einer weiteren Ausführungsform der Erfindung;
Fig. 13 eine schematische, meist in Blockform wieder­ gegebene Darstellung eines Spracherkenungs­ systems gemäß einer Ausführungsform, mit wel­ cher das in Fig. 12a und 12b dargestellte Sche­ ma durchgeführt wird;
Fig. 14 eine schematische, meist in Blockform wieder­ gegebene Darstellung eines Spracherkennungs­ systems gemäß noch einer weiteren Ausführungs­ form der Erfindung;
Fig. 15a, 15b und 16 Darstellungen zur Erläuterung der Ar­ beitsweise des in Fig. 14 wiedergegebenen Sy­ stems;
Fig. 17 ein Flußdiagramm eines Bezugsmuster-Bildungs­ verfahrens gemäß noch einer weiteren Ausfüh­ rungsform der Erfindung;
Fig. 18 eine schematische, meist in Blockform wieder­ gegebene Darstellung eines Bezugsmuster-Bil­ dungssystems zur Durchführung des in Fig. 17 dargestellten Verfahrens;
Fig. 19 eine schematische, meist in Blockform wieder­ gegebene Darstellung eines alternativen Be­ zugsmuster-Bildungssystems gemäß der Erfin­ dung;
Fig. 20a, 20b, 21 und 22 Darstellungen zur Erläuterung der Probleme, welche hinsichtlich eines anderen Aspektes der Erfindung zu lösen sind;
Fig. 23 ein Flußdiagramm einer Folge von Schritten eines Mustervergleichsverfahrens gemäß noch einer weiteren Ausführungsform der Erfindung;
Fig. 24 eine Darstellung, wie Fig. 24a und 24b zu­ sammenzusetzen sind;
Fig. 24a und 24b, wenn sie so wie in 24 dargestellt, zu­ sammengesetzt sind, eine schematische, meist in Blockform wiedergegebene Darstellung eines Spracherkennungssystems zur Durchführung des in Fig. 23 wiedergegebenen Verfahrens;
Fig. 25 ein Flußdiagramm einer Folge von Schritten eines Mustervergleichsverfahrens, welches eine Abwandlung des Verfahrens in Fig. 23 ist;
Fig. 26 eine Darstellung, wie Fig. 26a und 26b zusam­ menzusetzen sind;
Fig. 26a und 26b, wenn sie so wie in Fig. 26 dargestellt, zu­ sammengsetzt sind, eine schematische, meist in Blockform wiedergegebene Darstellung ein Spracherkennungssystems zum Durchführen des Verfahrens in Fig. 25;
Fig. 27a und 27b Darstellungen von Sprachmustern zum Erläu­ tern der Vorteile eines Gesichtspunkts der Erfindung;
Fig. 28a und 28b Darstellungen zum Erläutern der Schwierig­ keiten, welche gemäß einem Aspekt der Erfin­ dung zu lösen sind;
Fig. 29 eine schematische, meist in Blockform wieder­ gegebene Darstellung eines Sprachmuster-Ver­ arbeitungssystems;
Fig. 30a bis 30c Darstellungen zum Erläutern der Arbeitsweise des Systems in Fig. 29;
Fig. 31 eine schematische, meist in Blockform wieder­ gegebene Darstellung eines weiteren Sprachmu­ sterverarbeitungssystems;
Fig. 32a bis 32c Darstellungen zum Erläutern der Arbeitsweise des Systems in Fig. 31;
Fig. 33 eine Darstellung, wie Fig. 33a und 33b zusam­ menzusetzen sind;
Fig. 33a und 33b, wenn sie so wie in Fig. 33 dargestellt, zu­ sammengesetzt sind, eine schematische, meist in Blockform wiedergegebene Darstellung eines Spracherkennungssystems gemäß noch einer wei­ teren Ausführung der Erfindung;
Fig. 34 eine Darstellung, wie Fig. 34a und 34b zusam­ menzusetzen sind;
Fig. 34a und 34b, wenn sie so wie in Fig. 34 dargestellt, zu­ sammengesetzt sind, ein Flußdiagramm zu Er­ läutern der Arbeitsweise des Systems in Fig. 33;
Fig. 35 ein Flußdiagramm einer Folge von Schritten eines Mustervergleichsverfahrens gemäß noch einer weiteren Ausführungsform der Erfindung;
Fig. 36 eine Darstellung, wie Fig. 36a und 36b zusam­ menzusetzen sind;
Fig. 36a und 36b wenn sie so, wie in Fig. 36 dargestellt, zu­ sammengesetzt sind, eine schematische, meist in Blockform wiedergegebene Darstellung eines Spracherkennungssystems zum Durchführen des Verfahrens in Fig. 35;
Fig. 37 ein Flußdiagramm einer Folge von Schritten eines Mustervergleichsverfahrens gemäß noch einer weiteren Ausführungsform der Erfindung;
Fig. 38 eine Darstellung, wie Fig. 38a und 38b zusam­ menzusetzen sind;
Fig. 38a und 38b wenn sie, wie in Fig. 38 dargestellt, zusam­ mengesetzt sind, eine schematische, meist in Blockform wiedergegebene Darstellung eines Spracherkennungssystems zum Durchführen des Verfahrens in Fig. 37;
Fig. 39 ein Flußdiagramm einer Folge von Schritten eines Mustervergleichsverfahrens gemäß noch einer weiteren Ausführungsform der Erfindung;
Fig. 40 eine Darstellung, wie Fig. 40a und 40b zusam­ menzusetzen sind;
Fig. 40a und 40b, wenn sie, wie in Fig. 40 dargestellt, zusam­ mengesetzt sind, eine schematische, meist in Blockform wiedergegebene Darstellung eines Spracherkennungssystems zum Durchführen des in Fig. 39 dargestellten Verfahrens;
Fig. 41a, 41b, 42a und 42b Darstellungen zum Erläutern der Vorteile eines weiteren Aspektes der Erfin­ dung;
Fig. 43a und 43b Darstellungen zum Erläutern der Schwierig­ keiten, welche gemäß einem weiteren Aspekt der Erfindung zu lösen sind;
Fig. 44 ein Flußdiagramm einer Folge von Schritten eines Mustervergleichsverfahrens gemäß noch einer weiteren Ausführungsform der Erfindung;
Fig. 45 eine Darstellung, wie Fig. 45a und 45b zusam­ menzusetzen sind;
Fig. 45a und 45b wenn sie, wie in Fig. 45 dargestellt, zusam­ mengesetzt sind, eine schematische, meist in Blockform wiedergegebene Darstellung eines Spracherkennungssystems zum Durchführen des in Fig. 44 dargestellten Verfahrens;
Fig. 46 ein Flußdiagramm einer Folge von Schritten eines Mustervergleichsverfahrens gemäß noch einer weiteren Ausführungsform der Erfindung;
Fig. 47 eine Darstellung, wie Fig. 47a und 47b zusam­ menzusetzen sind;
Fig. 47a und 47b wenn sie, wie in Fig. 47 dargestellt, zusam­ mengesetzt sind, eine schematische, meist in Blockform wiedergegebene Darstellung eines Spracherkennungssystems zum Durchführen des in Fig. 46 dargestellten Verfahrens;
Fig. 48 ein Flußdiagramm einer Folge von Schritten eines Mustervergleichsverfahrens gemäß noch einer weiteren Ausführungsform der Erfindung;
Fig. 49 eine Darstellung, wie Fig. 49a und 49b zusam­ menzusetzen sind;
Fig. 49a und 49b wenn sie, wie in Fig. 49 dargestellt, zusam­ mengesetzt sind, eine schematische, großteils in Blockform wiedergegebene Darstellung eines Spracherkennungssystems zum Durchführen des in Fig. 48 dargestellten Verfahrens;
Fig. 50 ein Flußdiagramm einer Folge von Schritten eines Mustervergleichsverfahrens gemäß noch einer weiteren Ausführungsform der Erfindung;
Fig. 51 eine Darstellung, wie Fig. 51a und 51b zusam­ menzusetzen sind;
Fig. 51a und 51b wenn sie, wie in Fig. 51 dargestellt, zusam­ mengesetzt sind, eine schematisch, großteils in Blockform wiedergegebene Darstellung eines Spracherkennungssystems zum Durchführen des in Fig. 50 dargestellten Verfahrens;
Fig. 52 ein Spracherkennungssystem gemäß noch einer weiteren Ausführungsform der Erfindung,
Fig. 53a und 53b ein Flußdiagramm zum Erläutern der Arbeits­ weise des in Fig. 52 dargestellten Systems;
Fig. 54a, 54b, 55a, 55b, 56a bis 56c, 57a, 57b, 58a bis 58b Darstellungen anhand welcher die Vorteile noch eines weiteren Aspektes der Erfindung erläutert weden, welche nach den in Fig. 52 und 53 dargestellten Ausführungsformen durch­ geführt worden ist;
Fig. 59a, 59b, 60a bis 60c und 61a bis 61c Darstellungen, an­ hand welcher die Schwierigkeiten erläutert werden, die gemäß noch einem weiteren Aspekt der Erfindung zu lösen sind;
Fig. 62 eine schematische, großteils in Blockform wiedergegebene Darstellung eines Spracherken­ nungssystems gemäß noch einer weiteren Aus­ führungsform der Erfindung;
Fig. 63a und 63b ein Flußdiagramm, anhand welchem die Arbeits­ weise des in Fig. 62 dargestellten Systems er­ läutert wird;
Fig. 64a, 64b, 65a, 65b, 66a, 66b Darstellungen, anhand wel­ cher die Vorteile noch einer weiteren Ausfüh­ rungsform der Erfindung erläutert werden;
Fig. 67 ein Flußdiagramm einer Folge von Schritten eines Spracherkennungsverfahrens gemäß noch einer weiteren Ausführungsform der Erfindung;
Fig. 68 eine schematische, in Blockform wiedergegebe­ ne Darstellung eines Spracherkennungssystems zum Durchführen des in Fig. 67 dargestellten Verfahrens;
Fig. 69 ein Flußdiagramm einer Folge von Schritten eines Spracherkennungsverfahres gemäß noch einer weiteren Ausführungsform der Erfindung;
Fig. 70 eine schematische in Blockform wiedergegebene Darstellung eines Spracherkennungssystems zum Durchführen des in Fig. 69 dargestellten Ver­ fahrens, und
Fig. 71 und 72 Darstellungen, anhand welcher die Arbeitswei­ se der in Fig. 69 und 70 dargestellten Ausfüh­ rungsformen erläutert wird.
Gemäß einem Aspekt der Erfindung ist ein Mustervergleichsver­ fahren geschaffen, um ein erstes Sprachmuster mit einem zwei­ ten Sprachmuster zu vergleichen, welches im Voraus regi­ striert worden ist. Beim ersten Schritt wird geprüft, ob eines der ersten und zweiten Sprachmuster einen instabilen Bestandteil zum Ausbilden einer Sprache hat oder nicht. Wenn ein solcher instabiler Bestandteil zumindest in einer der beiden Sprachmuster vorhanden ist, wird jedes der beiden Sprachmuster in den instabilen und einen stabilen Bestand­ teil aufgeteilt. Es wird dann nur ein Vergleich zwischen den beiden Sprachmustern zwischen den jeweils stabilen Standtei­ len durchgeführt. Oder andererseits, wenn ein solcher insta­ biler Bestandteil in beiden Sprachmustern vorhanden ist, wird jedes der beiden Sprachmuster in einen instabilen und einen stabilen Bestandteil aufgeteilt. Es wird dann ein Ver­ gleich zwischen den beiden Sprachmustern zwischen den je­ weils instabilen Bestandteilen und zwischen den jeweils sta­ bilen Bestandteilen durchgeführt.
In Fig. 1 ist großteils in Blockform ein Mustervergleichssy­ stem gemäß einer Ausführungsform der Erfindung dargestellt, wenn sie zur Sprachverarbeitung angewendet wird. Das darge­ stellte Sprachmuster-Vergleichssystem hat eine Sprachein­ gabeeinheit 1, eine Energiemeßeinheit 2, eine Merkmalsquan­ tität-Umsetzeinheit 3, eine eine stumme Stelle feststellende Einheit 4, eine eine stumme Stelle (am Ende) feststellende Einheit 8, eine Markierungs-Addiereinheit 6 , eine Bibliothek 7, eine Markierungs-Beurteilungseinheit 8, eine Musterent­ fernungseinheit 9 und eine Musteranpassungseinheit 10. In dieser Ausführungsform wird beim Vergleich von zwei Mustern geprüft, ob ein Energieminimum in einem vorbestimmten Be­ reich vom Anfang oder Ende eines Musters an vorhanden ist oder nicht. Wenn ein solches Energieminimum nur in einem der beiden zu vergleichenden Muster vorhanden ist, wird der Teil des Musters, der ein solches Energieminimum von dem Anfang oder dem Ende an hat, bis zu dem Energieminimum entfernt, und dann werden die beiden Muster verglichen.
Zuerst wird eine Sprache in der Spracheingabeeinheit 1 ein­ gegeben; während die eingegebene Sprache in eine Merkmals­ quantität umgesetzt wird, wird die Energie der eingegebenen Sprache gemessen. Die Spracheneingabeeinheit 1 kann vorzugs­ weise aus einem Mikrophon bestehen, und das Messen der Sprachenergie kann durchgeführt werden, indem Bandpaßfilter, welche den hörbaren Bereich überdecken, verwendet werden und Ausgänge dieser Bandpaßfilter festgestellt werden. Es kann irgendeine Merkmalsqualität, welche auf dem Gebiet der Mu­ ster-(üblicherweise Sprach-)Erkennung bekannt ist, verwendet werden, und beispielsweise kann ein Energiespektrum, welches ohne weiteres von einer Bandpaß-Filterbank erhalten werden kann, in vorteilhafter Weise verwendet werden. Basierend auf der Größe der gemessenen Sprachenerge wird festgestellt, wo ein stummes Intervall in der Sprache aufgefunden wird. Bei­ spielsweise wird in Abhängigkeit davon, ob diese lautlose Stelle in 100 ms von dem hinteren Sprechende festgestellt wird oder nicht, eine vorherbestimmte Markierung zu einem Merkmalquantitäts-Umsetzmuster (Merkmalsmuster oder eingege­ benem Muster) hinzugefügt. Andererseits wird ein Bezugsmu­ ster aus einer Bibliothek herausgenommen und es wird ge­ prüft, ob das Bezugsmuster auch dieselbe Markierung wie die­ jenige des Merkmalsmusters hat oder nicht. Wenn die Markie­ rungen dieselben sind, dann wird in üblicher Weise bei einem Musteranpassnungsschritt fortgefahren. Zu beachten ist, daß, obwohl ein Verfahren zum Erzeugen eines Biblotheksmusters hier im einzelnen nicht erläutert wird, eine vorherbestimmte Markierung zu einem Bibliotheksmuster in ähnlicher Weise während dessen Ausbildung zugeteilt wird, in Abhängigkeit davon, ob ein lautloser Abschnitt an dem hinteren Ende vor­ handen ist oder nicht.
Wenn sich dagegen die Markierungen zwischen dem Bibliotheks- und dem eingegebenen Muster unterscheiden, wird dieser Teil des Musters, das einen lautlosen Abschnitt hat, von dem lautlosen Abschnitt bis zu dem hinteren Ende des Musters aus dem Muster mit einem lautlosen Abschnitt entfernt und dann wird eine Musteranpassung zwischen dem Bezugs- und eingegebe­ nen Muster vom Anfang an bis zu dem lautlosen Abschnitt durchgeführt. Anhand von Fig. 2a bis 2c wird im einzelnen der Fall beschrieben, daß das Bezugsmuster eine in Fig. 2a darge­ stellte Zusammensetzung und das eingegebene Muster eine in Fig. 2b dargestellte Zusammensetzung hat, bei welcher der hintere Endteil fehlt. In diesem Fall hat das Bezugsmuster eine Markierung, welche anzeigt, daß es ein lautloses Inter­ vall an seinem Ende hat, während das eingegebene Muster eine andere Markierung hat, die anzeigt, daß es an seinem hinte­ ren Ende kein lautloses Intervall hat. Gemäß einem Aspekt der Erfindung wird das Bezugsmuster der Fig. 2a verarbeitet, um den hinteren Endteil /p/ zu entfernen, um das Bezugsmu­ ster mit der in Fig. 2c dargestellten Zusammensetzung wieder festzulegen. Es wird dann ein Vergleich zwischen dem einge­ gebenen Muster und Fig. 2b und dem wieder festgelegten Be­ zugsmuster der Fig. 2a vorgenommen. Vorstehend ist der Fall beschrieben worden, daß der hintere Endteil von einem der beiden zu vergleichenden Muster verlorengegangen ist; dieser Aspekt der Erfindung ist genauso gut bei dem Fall anwendbar, daß ein Kopfteil von einem der beiden Muster verlorengegan­ gen ist.
In Fig. 3 ist großteils in Blockform ein Mustervergleichssy­ stem gemäß einer weiteren Ausführungsform der Erfindung für den Fall dargestellt, daß ein Mustervergleich durchzuführen ist, wobei ein Kopfteil von einem der beiden zu vergleichen­ den Sprachmuster verlorengegangen ist. Das in Fig. 3 darge­ stellte System ist in vieler Hinsicht in seinem Aufbau dem in Fig. 1 dargestellten System ähnlich, weshalb ähnliche oder gleiche Elemente mit den gleichen Bezugszeichen bezeichnet sind. Das System der Fig. 3 weist eine eine lautlose Stelle (am Kopfteil) beurteilende Einrichtung 11 auf, und in dieser Ausführungsform wird ein vorderer oder Kopfteil eines Sprachmusters entfernt, wenn ein lautloser Abschnitt entwe­ der in dem Bezugs- oder dem eingegebenen Muster innerhalb von 100 ms von dem Anfang des Musters an vorhanden ist, und dann werden die beiden Muster verglichen oder einander ange­ paßt. In diesem Fall wird angenommen, daß das Bezugsmuster normal und vollständig ist; dagegen weist das eingegebene Muster an seinem Kopfteil einen Geräuschbestandteil infolge eines Geräusches, das beim Öffnen und Schließen des Mundes erzeugt worden ist, oder ein sporadisch erzeugtes Geräusch auf.
Anhand von Fig. 4a bis 4c wird dies im einzelnen erläutert, wenn das Wort /ido/ ausgesprochen wird, das im japanischen "Bewegung" bedeutet; in Fig. 4a ist ein Sprachmuster mit einem zusätzlichen Geräusch /n/ an seinem Kopfende dar­ gestellt, so daß in diesem Fall ein lautloses Intervall zwi­ schen dem Geräusch /n/ und dem Wort /ido/ vorhanden ist. Folglich kann durch die die lautlose Stelle feststellende Einheit 4 und die die lautlose Stelle (am Kopfende) beurtei­ lende Einrichtung 11 festgestellt werden, daß dieses lautlo­ se Intervall innerhalb von 100 ms von dem Kopfende des Mu­ sters an vorhanden ist. Bei einer Bestätigung wird eine vor­ herbestimmte Markierung, welche das Vorhandensein eines lautlosen Intervalls an dem Kopfende anzeigt, hinzugefügt. In Fig. 4b ist dagegen ein Bibliotheksmuster dargestellt, welches an seinem Kopfende kein lautloses Intervall hat. Folglich wird dieser Teil des eingegebenen Musters der Fig. 4 von dem lautlosen Intervall zurück bis zu dem Kopfende aus dem eingegebenen Muster durch die Entfernungseinheit 9 ent­ fernt, und dann werden die beiden Muster in der Musteranpas­ sungseinheit 10 verglichen. Obwohl irgendein Musteranpas­ sungsschema verwendet werden kann, wird vorzugsweise ein Verfahren angewendet, welches weniger Berechnungsschritte erfordert, in dem beispielsweise die Musterlänge linear ge­ dehnt oder zusammengezogen wird. In diesem Fall wird dann der Anfang zum Bestimmen der zeitlichen Länge des in Fig. 4a dargestellten Musters an der Stelle unmittelbar nach dem lautlosen Intervall geändert. Außerdem kann die das lautlose Intervall feststellende Einheit 4 entsprechend ausgeführt werden, um das Hintergrundrauschen unter der Voraussetzung zu überwachen, daß keine Sprache einzugeben ist; beim Einge­ ben einer Sprache wird ein lautloses Intervallsignal erzeugt, wenn die eingegebene Sprache im Pegel mit dem Hintergrund­ rauschen vergleichbar ist. An der Einheit 11 wird eine laut­ lose Stelle durch Vergleich mit einem Signal festgestellt, welche das ansteigende oder abfallende Ende eines Sprachin­ tervalls anzeigt.
In den vorstehend beschriebenen Ausführungsformen ist die Aufmerksamkeit auf die Tatsache gerichtet worden, daß das Geräusch, welches beim Öffnen und Schließen des Mundes oder der Lippen erzeugt worden ist, gern am Kopfende eines Aus­ drucks vorhanden ist und in seiner zeitlichen Länge kurz ist und in Form eines Impulses vorliegt, so daß ein lautloses Intervall gern vor dem Aussprechen eines Ausdrucks vorhanden ist, und daß ein lautloses Intervall gern am Ende eines Aus­ druckes vorhanden ist, wenn an sich am Ende eines Wortes ein Konsonant auszusprechen ist. Die vorstehend beschriebenen beiden Ausführungsformen sind vorzugsweise in einem einzigen System vereinigt, welches das Zufügen eines Geräuschbestand­ teils am Beginn einer Sprache oder eines Ausdrucks und das Weglassen eines Konsonanten am Ende eines Ausdrucks ausglei­ chen kann. Obwohl vorstehend Sprachmuster beschrieben worden sind, sollte die Erfindung nicht nur auf Sprachmuster be­ schränkt werden, sondern kann auch bei anderen Mustern ange­ wendet werden. Wie oben beschrieben, wird gemäß diesem Aspekt der Erfindung, selbst wenn ein Geräusch infolge des Öffnens und Schließen des Mundes oder der Lippen, welches beim Aus­ sprechen eines Wortes oder Ausdruckes unvermeidlich ist, oder ein sporadisch erzeugtes Hintergrundrauschen vorhanden ist, ein derartiges Rauschen in angemessener Weise vor einer Musteranpassung entfernt werden und selbst wenn der hintere Endteil eines Sprachmusters fehlt, wird eine Musteranpassung durchgeführt, wobei diese Tatsache in Betracht gezogen wird. Folglich kann entsprechend dieses Aspekts der Erfindung die Genauigkeit einer Musteranpassung erhöht werden.
In Fig. 5 ist schematisch großteils in Blockform ein Sprach­ erkennungssystem gemäß einer weiteren Ausführungsform der Erfindung dargestellt. Das dargestellte Spracherkennungssy­ stem hat ein Mikrophon 21, eine ein Sprachintervall fest­ stellende Einheit 22, ein Hochpaßfilter 23 a, ein Tiefpaßfil­ ter 23 b, eine Merkmale extrahierende Einheit 24, eine Mul­ tipliziereinheit 25, einen Vergleicher 26, eine Hinweis- oder Flag-(/f/)Einheit 27, einen Vergleicher 28, ein drittes Register 29 , ein Bibliotheksregister 30, einen Markierungs­ vergleicher 31, eine Registereinheit 32 mit einem ersten und einem zweiten Register 32 a bzw. 32 b und eine eine Ähnlich­ keit feststellende Einheit 33. Diese Ausführungsform ist entsprechend ausgeführt, um die Aufmerksamkeit auf die Tat­ sache zu lenken, daß ein schwacher Konsonant, wie /f/ ein charakteristisches Merkmal hat, das sich in einem hochfre­ quenten Bereich konzentriert, wenn er einer Frequenzanalyse unterzogen wird. Bei dieser Ausführungsform wird ein Aus­ druck/Wort eingegeben, um ein Sprachsignal zu erzeugen, wel­ ches dann einer Frequenzanalyse unterzogen wird, um das Ver­ hältnis hoch- und niederfrequenten Bestandteilen festzustel­ len. Wenn es mehr hochfrequente Bestandteile gibt, wird die Dauer dieses Zustands festgestellt. Wenn nur eines der bei­ den zu vergleichenden Sprachmuster einen Teil hat, in wel­ chem mehr hochfrequente Bestandteile vorhanden sind, wird dieser Teil entfernt, und für eine Anpassung werden dann die beiden Sprachmuster verglichen.
Anhand von Fig. 5 wird im einzelnen beschrieben, daß Sprache in das Mikrophon 21 eingegeben wird, um ein Sprachsignal zu erzeugen, und dessen Sprachintervall wird mittels der Ein­ heit 22 festgestellt. Das Sprachsignal wird dann mittels der ein Merkmal extrahierenden Einheit 24 in eine Merkmalsquan­ tität umgesetzt, um dadurch ein eingegebenes Muster festzu­ legen, welches dann in dem dritten Register 29 gespeichert wird. Dasselbe Sprachsignal wird mittels der Hoch- und Tief­ paßfilter 23 a und 23 b einer Frequenzanalyse unterzogen, um hoch- und niederfrequente Bestandteile zu erzeugen, deren Größe durch den Vergleicher 26 verglichen wird. In einem Beispiel überdecken die hochfrequenten Bestandteile einen Hochfrequenzbereich von 1 bis 6 kHz und die niederfrequenten Bestandteile einen niederfrequenten Bereich von 200 Hz bis 1 kHz. In dieser Ausführungsform wird ein Flag /f/ hervorge­ hoben, wenn die hochfrequenten Bestandteile um den Faktor 2 oder mehr, was durch die Multipliziereinheit 25 angezeigt wird, größer als die niederfrequenten Bestandteile sind. Außerdem wird in der das Sprachintervall feststellenden Ein­ heit 22 ein Signal, welches den Beginn und das Ende des Sprachintervalls anzeigt, an den Vergleicher 28 geliefert. Wenn das Flag /f/ für den Beginn oder das Ende des Sprachin­ tervalls eingegeben und hervorgehoben wird, wird eine vorher­ bestimmte Markierung dem dritten Register 29 zugeführt, wo­ durch die Dauer des Flags /f/ aufgezeichnet ist.
Dann wird ein Bezugsmuster aus dem Bibliotheksregister 30 herausgenommen und es wird in dem Markierungsvergleicher 31 geprüft, ob dieses Bezugsmuster eine Markierung hat oder nicht, welche dieselbe wie diejenige des eingegebenen Mu­ sters ist, das nunmehr in dem dritten Register 29 gespei­ chert ist. Wenn die Markierungen dieselben sind, dann werden das eingegebene und das Bezugsmuster an das erste bzw. zwei­ te Register 32 a und 32 b übertragen; hierauf folgt dann der Schritt der Anpassung der zwei Muster, um den dazwischen bestehenden Ähnlichkeitsgrad zu bestimmen. Wenn dagegen die zwei Markierungen verschieden sind, wenn z. B. das Bezugsmu­ ster eine Markierung hat, welche das Fehlen des Flags /f/ am Anfang anzeigt, und das eingegebene Muster eine andere Markierung hat, welche das Vorhandensein des Flags /f/ am Anfang anzeigt, wird ein Punkt des eingegebenen Musters nach dem Flag /f/ zu Beginn des Musters wieder als der Beginn eines Sprachmusters definiert, und dieses wieder definierte eingegebene Muster wird dann an das erste Register 32 a über­ tragen, während das Bezugsmuster unverändert an das zweite Register 32 b übertragen wird. Dann werden diese beiden Mu­ ster verglichen, um den Ähnlichkeitsgrad zu bestimmen. Die gleichen Argumente gelten auch für den Fall, daß das Flag /f/ in dem eingegebenen Muster nicht, jedoch in dem Bezugs­ muster vorhanden ist. Folglich wird gemäß der Erfindung, selbst wenn ein Sprachintervall fehlerhaft ausgeführt worden ist, wobei der Laut /f/ am Anfang oder Ende eines Bezugs- oder eingegebenen Musters verlorengegangen ist, dieser Feh­ ler entsprechend korrigiert und folglich kann eine Anpassung zwischen den beiden Mustern genau durchgeführt werden.
In Fig. 6 ist schematisch großteils in Blockform ein Sprach­ erkennungssystem dargestellt, welches in vieler Hinsicht dem System in Fig. 5 ähnlich ist, so daß gleiche Elemente mit den gleichen Bezugszeichen bezeichnet sind. Diese Ausführungs­ form ist für den Fall vorgesehen, daß das Bezugs- und das eingegebene Muster den Laut /f/ an derselben Stelle haben. In Fig. 6 weist das System eine Registereinheit 34 aus einem vierten bzw. fünften Register 34 a und 34 b auf. Ebenso ist in dem dargestellten System eine erste, eine Ähnlichkeit fest­ stellende Einheit 33, eine zweite, eine Ähnlichkeit feststel­ lende Einheit 35 und ein Addierer 36 vorgesehen.
Wenn beispielsweise der Laut /f/ am Anfang vorhanden ist, wird das Vorhandensein des Lauts /f/ am Anfang jedes der beiden Muster durch Markierungsvergleich herausgefunden, und die Länge der jeweiligen Laute /f/ kann bestimmt werden. Folglich wird dieser Teil des eingegebenen Musters von Anfang an über die durch den Laut /f/ bestimmte Länge in dem ersten Register 32 a und der entsprechende Teil des Bezugsmu­ sters in dem zweiten Register 32 b gespeichert. Außerdem wird der restliche Teil des eingegebenen Musters in dem Register 34 a und der entsprechende Restteil des Bezugsmustes in dem Register 34 b gespeichert. Dann wird der Ähnlichkeitsgrad zwischen den beiden Registern 32 a und 32 b und auch zwischen den beiden Registern 34 a und 34 b berechnet. Die Summe dieser berechneten, partiellen Ähnlichkeitsgrade wird in dem Addie­ rer 36 als ein Gesamtähnlichkeitsgrad erhalten. In der dar­ gestellten Ausführungsform sind vier gesonderte Register 32 a, 32 b, 34 a und 34 b vorgesehen; normalerweise reichen je­ doch die Register 32 a und 32 b aus, da die zwei Ähnlichkeits­ grade nacheinander berechnet werden können; d. h. nach der Bestimmung des ersten Ähnlichkeitsgrads wird der Inhalt, welcher in den Registern 34 a und 34 b zu speichern ist, in den Registern 32 a und 32 b gespeichert, um den zweiten Ähn­ lichtkeitsgrad zu berechnen, und dann wird der vorher be­ rechnete erste Ähnlichkeitsgrad hinzuaddiert, um so den Ge­ samtähnlichkeitsgrad zu erhalten. Außerdem werden in der vorstehend beschriebenen Ausführungsform zwei partielle Ähnlichkeitsgrade gesondert berechnet, und dann addiert, um den Gesamtähnlichkeitsgrad zu berechnen. Jedoch ist dieser Rechenvorgang nicht nur auf eine Addition beschränkt; viel­ mehr kann der Gesamtähnlichkeitsgrad bestimmt werden, indem ein Element vorgesehen wird, um den Ähnlichkeitsgrad zwi­ schen den Registern 32 a und 32 b zu berechnen, ein Element vorgesehen wird, um den Ähnlichkeitsgrad zwischen den Regi­ stern 34 a und 34 b zu berechnen und indem dann diese Elemente summiert werden. Wie vorstehend beschrieben, kann gemäß einer der in Fig. 5 und 6 dargestellten Ausführungsformen eine Anpassung zwischen zwei Mustern richtig durchgeführt werden, selbst wenn ein Teil zumindest eines der beiden Mu­ ster fehlt.
Nunmehr wird ein weiterer Aspekt der Erfindung bezüglich der Ausbildung eines Bezugs- oder Bibliotheksmusters beschrie­ ben, das bei einer Mustererkennung verwendbar ist. Das am meisten übliche Mustererkennungsschema ist eines, bei wel­ chem eine Musteranpassung angewendet wird. In diesem Schema sind eine Anzahl Bezugsmuster in einer Bibliothek gespei­ chert, und ein eingegebenes, unbekanntes, zu identifizieren­ des Muster wird mit jedem der Anzahl Bezugsmuster vergli­ chen, um festzustellen, welches der Anzahl Bezugsmuster den höchsten Ähnlichkeitsgrad hat, um dadurch die Identität des eingegebenen Musters zu bestimmen. In diesem Fall hat die Qualität oder das charakteristische Merkmal des registrier­ ten Bezugsmusters einen bedeutenden Einfluß auf die Durch­ führung einer Musteranpassung. Folglich ist es wesentlich, ein Bezugsmuster hoher Qualität zu erzeugen, um eine hohe Erkennungsrate bei der Mustererkennung zu erhalten.
Wenn die Musteranpassung in der Spracherkennung als Beispiel genommen wird, kann die Spracherkennung im allgemeinen in ein begrenztes Sprechersystem und in ein unbegrenztes Spre­ chersystem eingeteilt werden. Im Falle des unbegrenzten Sprechsystems werden Bezugssprachmuster bereits von einem Hersteller gebildet und in ein Spracherkennungssystem einge­ bracht, bevor es auf den Markt gebracht wird. Da in diesem Fall angenommen wird, daß eine beliebige Sprache/Stimme erkannt werden kann, kann das Spracherkennungssystem verwen­ det werden, nachdem geprüft ist, ob die Daten zur Ausbildung von Bezugsmustern normal sind oder nicht. Im Falle des be­ grenzten Sprechersystems muß jedoch ein Benutzer vor einer Benutzung erst Sprachen/Stimmen registrieren und das Spracherkennungssystem kann nach der Durchführung eines Trainings verwendet werden. Aus diesem Grund kann ein zu re­ gistrierendes Sprachmuster nicht auf dessen Normalität ge­ prüft werden, so daß es die Möglichkeit gibt, daß die Quali­ tät von Bezugsmustern schlecht ist. Vorherrschende Ursache im Hinblick auf das Verschlechtern der Qualität von Bezugs­ mustern, wenn diese registriert sind, ist eine falsche Fest­ stellung eines Sprachintervalls. Wenn beispielsweise das Ge­ räusch, das beim Öffnen und Schließen des Mundes, um Sprache auszudrücken, oder ein sporadisches Hintergrundgeräusch er­ zeugt worden ist, unmittelbar vor oder im Anschluß an das Aussprechen eines Ausdrucks erzeugt worden ist, kann das Sprachmuster nicht von einem solchen Geräusch unterschieden werden, so daß ein solches Geräusch in das Sprachmuster ein­ verleibt wird. Außerdem gibt es auch den Fall, daß ein Teil eines Wortes verlorengeht. Aus diesen Gründen kann die Qua­ lität eines Bezugsmusters schlechter werden. Es gibt ein Verfahren zum Erzeugen eines Bezugsmusters, bei welchem das Mittel aus einer Anzahl Sprachmuster gebildet wird, indem dasselbe Wort eine Anzahl Mal ausgesprochen wird. Bei diesem Mittelungsverfahren können statistische Informationsschwan­ kungen bei der Erzeugung eines Wortes in das sich ergebende gemittelte Sprachmuster eingebracht werden. Da jedoch eine Anzahl Aussprechvorgänge erforderlich sind, um ein Bezugs­ muster zu erzeugen, würde, selbst wenn eine unvollständige Feststellung eines Sprachintervalls einmal aufgetreten ist, dies eine Verschlechterung in der Qualität des sich ergeben­ den Bezugsmusters zur Folge haben.
Dieser Aspekt wird im einzelnen anhand von Fig. 20a und 20b beschrieben; in Fig. 20a ist ein ungewöhnliches Sprachmuster dargestellt, bei welchem an Anfang ein Geräuschbestandteil hinzugefügt worden ist, während in Fig. 20b ein normales Sprachmuster für dasselbe Wort dargestellt ist. Ein Konso­ nantenabschnitt ist mit B bezeichnet. Wenn ein Mittelwert zwischen dem normalen Muster der Fig. 20b und dem annormalen Muster der Fig. 20a, das einen Geräuschbestandteil A hat, ge­ nommen wird, wird die Mittelung durch eine Entsprechung zwi­ schen den jeweiligen vorderen Enden und den jeweiligen hin­ teren Enden durchgeführt, wie durch die gestrichelte Linie angezeigt ist. Im Ergebnis wird dann der Geräuschbestandteil A des anormalen Musters der Fig. 20a zu dem vorderen Teil des Konsonantenteils B des normalen Musters der Fig. 20b hinzuge­ fügt, was ein gemitteltes Muster ergeben würde, das in der Qualität schlechter ist.
Insbesondere im Falle des begrenzten Sprechersystems ändert sich die Erkennbarkeit in Abhängigkeit davon, ob die Regi­ strierung von Bezugsmustern richtig durchgeführt worden ist oder nicht. Folglich ist es für die Worte, welche einen schwachen Laut am Anfang oder am Ende haben, da dieser schwache Laut gern verlorengeht, denkbar, ein Muster zu re­ gistrieren, welches dadurch wieder festgelegt wird, daß ein solcher leicht verlorengegangener Teil aus einem normalen Muster wirksam entfernt wird. Die Ausführung hat, selbst wenn ein schwacher Lautteil eines Wortes verlorengegangen ist, und nicht festgestellt wird, ein solches Sprachmuster, bei welchem ein Teil der ursprünglichen Sprachinformation verlorengegangen ist, einen hohen Ähnlichkeitsgrad mit dem registrierten Muster, so daß eine Erkennung richtig durchge­ führt werden kann. Jedoch wird entsprechend diesem Schema, wenn ein schwacher Laut /h/ von dem englichen Wort /his/ vorlorengegangen ist, ein Laut /is/ erzeugt, welcher ein an­ deres Wort darstellt. Dies führt dann zu einem Durcheinan­ der, wodurch es dann zu einer schlechteren Erkennungsrate kommt.
Im Falle des begrenzten Sprechersystems muß der Benutzer zu­ erst seine eigenen Laute (voices) für ausgewählte Worte re­ gistrieren. Beim Registrieren von Lauten als Bezugssprachmu­ ster gibt es ein Verfahren, bei welchem ein Laut nur einmal für ein zu registrierendes Wort ausgesprochen wird und es gibt ein anderes Verfahren, bei welchem eine Vielzahl Laute erzeugt werden, indem dasselbe Wort eine Anzahl Mal ausge­ sprochen wird, und dann die Anzahl Laute gemittelt wird. In Fig. 21 ist hauptsächlich in Blockform ein Spracherkennungs­ system dargestellt, in welchem eine Anzahl Sprachmuster für dasselbe Wort erzeugt werden und dann ein gemitteltes Muster aus der Anzahl Sprachmuster festgelegt wird. Bei der in Fig. 21 dargestellten Ausführung wird das sogenannte binäre Zeit-Spektrum-Muster-(BTSP)-Verfahren angewendet, welches ein Beispiel für die Musteranpassungsverfahren ist. Das dar­ gestellte System weist eine Laute aufnehmende Einheit 21, wie beispielsweise ein Mikrophon 21, eine Filterbank 22, eine Korrektureinheit 23, bei welcher die Methode der klein­ sten Quadrate angewendet ist, eine binäre Umsetzeinheit 54, eine BTSP bildende Einheit 55, einen Addierer 56, um eine Anzahl n Sprachmuster durch lineares Drehen und Zusammenzie­ hen zu addieren, eine Bibliothek 57, eine ein Spitzenwertmu­ ster bildende Einheit 58, eine Einheit 59, bei welcher eine Musterlänge durch lineares Dehnen oder Zusammenziehen ange­ paßt wird, eine die Ähnlichkeit berechnende Einheit 60 und eine Anzeigeeinheit 61 in Form einer Kathodenstrahlröhre auf. Bei dieser Ausführung wird eine in das Mikrophon 21 eingege­ bene Sprache in ein Sprachsignal umgesetzt, welches dann mit Hilfe einer Bandpaß-Filterbank einer Frequenzanalyse unter­ zogen wird, um dadurch ein Zeit-Frequenz- oder ein zeit­ spektrales Verteilungsmuster (TSP) festzulegen. Ein solches zeit-spektrales Muster wird dann binär-bewertet, wobei die Scheitelwerte durch "Einsen" und der Rest durch "Nullen" ge­ kennzeichnet sind, um dadurch ein binäres TSP-(BTSP)-Muster festzulegen. Bei dem Registrierungsmode werden eine Anzahl solcher BTSP-Muster, welche geschaffen worden sind, indem dasselbe Wort eine Anzahl Mal ausgesprochen wird, einander überlagert, um ein Bezugsmuster festzulegen, welches dann als ein Bezugsmuster registriert wird.
In dem Erkennungsmode wird eine zu erkennende, unbekannte Sprache/Stimme eingegeben; ein entsprechendes BTSP-Muster wird in ähnlicher Weise wie dasjenige gebildet, das für den Registrierungsmode beschrieben worden ist, und das auf diese Weise erzeugte, eingegebene BTSP-Muster wird mit jedem der vorher registrierten Bezugsmuster verglichen, um den Ähnlich­ keitsgrad mit jedem der Bezugsmuster festzustellen. In die­ sem Fall kann dann der Ähnlichkeitsgrad beispielsweise da­ durch bestimmt werden, daß die Anzahl von sich überdeckenden Einsen gezählt wird, wenn das eingegebene Muster über ein Bezugsmuster gelegt wird. Normalerweise werden im Falle des unbegrenzten Sprechersystems, welches dazu bestimmt ist, da­ mit die Sprache, die von irgendjemand erzeugt worden ist, erkannt werden kann, eine Anzahl verschiedener Bezugsmuster für ein zu registrierendes Wort gebildet, wodurch die Menge an Rechenvorgängen größer wird. Das dargestellte System hat den Vorteil, daß die Realisierung eines Spracherkennungssy­ stems in der Art des unbegrenzten Sprechersystems erleich­ tert wird, ohne daß die Anzahl an Berechnungen größer wird, wenn ein Bezugsmuster richtig ausgebildet ist. Wenn ein Be­ zugsmuster auf diese Weise erzeugt wird, wird angenommen, daß alle die Muster, aus welchen ein Durchschnittsmuster de­ finiert wird, vollständig sind. Dies ist jedoch in der Pra­ xis nicht immer der Fall; beispielsweise haben ein Laut /v/ am Wortende von "five" und ein Laut /f/ am Wortanfang von "full" eine äußerst niedrige Energie und es ist daher ver­ hältnismäßig schwierig, diese schwachen Laute richtig fest­ zustellen. Folglich ist es schwierig, ein normales Muster für solche Worte zu erhalten, was zu einer Verschlechterung der Qualität eines Bezugsmusters führen könnte.
Folglich ist gemäß der Erfindung ein Verfahren zum Ausbilden eines Bezugsmusters dahingehend verbessert, daß der Durch­ schnitt aus einer Anzahl Sprachmuster gebildet wird, in wel­ chen ein instabiler Bestandteil beim Erzeugen eines Wortes in jedem der Sprachmuster als ein notwendiges Element beim Mitteln der Anzahl Sprachmuster vorgesehen ist. Oder in dem Fall, daß die Anzahl Sprachmuster diese Muster, welche einen instabilen Bestandteil beim Erzeugen eines Wortes haben, und diese Muster enthalten, welche keinen solchen instabilen Be­ standteil haben, wird der instabile Bestandteil eines Mu­ sters, das den instabilen Bestandteil hat, zu einem Muster addiert, das keinen instabilen Bestandteil hat und dann wird ein Mittelwert aus den beiden Mustern festgesetzt. Ferner wird bei einer Anzahl Muster, die einen instabilen Bestand­ teil beim Erzeugen eines Wortes haben, das in der Anzahl Sprachmuster vorhanden ist, jedes der Sprachmuster in den instabilen und einen stabilen Bestandteil aufgeteilt; nach der Mittelung der Muster auf einer Bestandteilbasis werden die beiden Bestandteile zusammengefaßt, um ein Bezugsmuster festzulegen.
In Fig. 10 ist ein großteils in Blockform wiedergegebenes Sy­ stem zur Erzeugung eines Bezugsmusters dargestellt, das in einer Spracherkennungseinrichtung verwendbar ist. Gemäß dem dargestellten System werden eine Anzahl Muster für eine zu registrierende Elementart, wie ein Wort, gebildet, und die Anzahl Muster werden gemittelt oder unabhängig registriert, um ein Bezugsmuster festzulegen. In dieser Ausführungsform wird geprüft, ob ein Energieminimum innerhalb einer vorher­ bestimmten Länge entweder von dem Anfang oder von dem Ende jedes der Anzahl Muster vorhanden ist. Falls dies Muster sind, die kein solches Energieminimum haben, wird der Teil eines Musters, der ein Energieminimum hat, entweder von dem Anfang oder von dem Ende des Musters an bis zu seinem Ener­ gieminimum an einer vorherbestimmten Stelle des Musters ad­ diert, das kein Energieminimum hat, um dadurch ein Bezugsmu­ ster festzulegen.
Das in Fig. 10 dargestellte System weist eine Spracheingabe­ einheit 1, eine Energiemeßeinheit 2, eine Merkmalsquantität- Umsetzeinheit 3, eine eine lautlose Stelle feststellende Einheit 4, eine eine lautlose Stelle (am vorderen Ende) feststellende Einheit 11, eine Markierungs-Addiereinheit 6, eine Muster-Speichereinheit 37, eine Markierungs-Beurtei­ lungseinheit 8, eine ein Muster am Kopfende addierende Ein­ heit 39 und eine Überlagerungs- und Mittelungseinheit 40 auf. Zuerst wird die Sprache in ein Mikrophon 1 eingegeben, um in ein Sprachsignal umgesetzt zu werden, welches dann der Energiemeßeinheit 2 zugeführt wird, wo die Sprachenergie ge­ messen wird. Das Sprachsignal wird dann in eine Merkmalsquan­ tität umgesetzt. Als Merkmalsquantität kann irgendeine be­ kannte Merkmalsquantität, beispielsweise ein Energiespektrum LPC-Koeffizienten und ein -Spektrum verwendet werden. Anhand der gemessenen Energie wird geprüft, ob ein lautloses Inter­ vall vorhanden ist oder nicht und bei ja wird dessen Positi­ on festgestellt. Dann wird geprüft, ob ein lautloses Inter­ vall in einem vorbestimmten Bereich von dem Beginn des Sprachintervalls her ausfindig gemacht wird oder nicht; in Abhängigkeit von dem Ergebnis dieser Prüfung wird eine vor­ herbestimmte Markierung zu einem Muster addiert, welches durch Merkmalsumsetzung gebildet ist. Hier wird als Beispiel angenommen, daß geprüft wird, ob ein lautloses Intervall in­ nerhalb von 100 ms von dem Beginn an vorhanden ist oder nicht. Wenn dies der Fall ist, wird eine Markierung -1 hinzu­ addiert, während bei nein eine Markierung +1 addiert wird. Das Muster, zu dem eine solche Markierung addiert ist, wird dann gespeichert. In ähnlicher Weise wird ein anderer Laut (voice) für dasselbe Wort ausgesprochen und ein ähnliches Muster wird gebildet und dem vorher gespeicherten Muster überlagert, um eine Mittelwertbildung durchzuführen. In die­ sem Augenblick wird vor einer Überlagerung geprüft, ob das folgende Muster dieselbe Markierung wie diejenige des vor­ hergehenden Musters, welches gespeichert ist, hat oder nicht. Wenn die Markierungen dieselben sind, wird eine Mit­ telwertbildung des folgenden und vorhergehenden Musters in üblicher Weise durchgeführt, und das sich ergebende, gemit­ telte Muster wird gespeichert.
Wenn sich dagegen die beiden Markierungen unterscheiden, dann wird dadurch angezeigt, daß eines der beiden Muster ein lautloses Intervall und das andere keines hat. In diesem Fall wird der Teil des Musters, das an seinem vorderen Ende (Fig. 11a) ein lautloses Intervall hat, von dem Anfang an bis zu dem lautlosen Intervall des Musters an dem vorderen Ende des anderen Musters, das kein lautloses Intervall hat (Fig. 11b) hinzuaddiert, um dadurch ein anderes in Fig. 11c dargestelltes Muster zu bilden. Das auf diese Weise gebil­ dete Muster der Fig. 11c wird im vorher gespeicherten Muster der Fig. 11a überlagert, um so eine Mittelung durchzuführen. Auf diese Weise wird, nachdem solche Überlagerungen eine vorherbestimmte Anzahl Mal durchgeführt werden, ein Bezugs­ muster festgelegt. Wie bereits ausgeführt, kann gemäß dieser Ausführungsform eine Mittelung bezüglich der Geräusch- und der Signalabschnitte gesondert durchgeführt werden, so daß dadurch verhindert wird, daß der Signalteil in seiner Quali­ tät durch die Mittelung verschlechtert wird. In der vorbe­ schriebenen Ausführungsform ist ein Geräuschbestandteil am Anfang eines Wortes vorhanden. Selbstverständlich ist jedoch diese Technik auch für den Fall anwendbar, daß ein hinteres Ende eines Sprachsignals verlorengegangen ist. Beispiels­ weise ist es bei einem Wort, das einen Doppelkonsonanten an einem Ende hat, wie beispielsweise /Stopp/, oft der Fall, daß ein solcher Doppelkonsonant und das Folgende durch die ein Sprachintervall feststellende Einheit nicht festgestellt werden und verlorengehen. Wenn eine Anzahl Sprachmuster für ein solches Wort diese Muster, bei welchem das hintere Ende verlorengegangen ist, und diese Muster, bei welchen das hintere Ende nicht verlorengegangen ist, enthalten, ist das sich ergebende, gemittelte Muster in seiner Qualität schlechter, wenn es gemittelt worden ist. Das heißt, wie in Fig. 12a und 12b dargestellt ist, wird, wenn eine Mittelung zwischen dem Muster der Fig. 12a, welches am Ende den Laut /p/ hat und zwischen dem anderen Muster der Fig. 12b, bei welchem der hintere Endlaut /p/ verlorengegangen ist, der hintere Laut /p/ des in Fig. 12a dargestellten Musters mit dem hinteren Endlaut /o/ des in Fig. 12b dargestellten Mu­ sters gemittelt.
In Fig. 13 ist großteils in Blockform ein Bezugsmuster-Bil­ dungssystem zur Durchführung des Verfahrens dargestellt, um das Auftreten einer Verschlechterung infolge des Verlusts des hinteren Endlautes zu verhindern. Das in Fig. 13 darge­ stellte System ist im Aufbau in vieler Hinsicht dem System in Fig. 10 ähnlich, so daß gleiche Elemente mit den gleichen Bezugszeichen bezeichnet sind. Das dargestellte System weist eine eine lautlose Stelle (am hinteren Ende) beurteilende Einrichtung 5 und eine ein hinteres Endmuster addierende Einheit 42 auf. In der Ausführungsform wird geprüft, ob ein lautloses Intervall innerhalb von 100 ms von dem hinteren En­ de des Sprachintervalls aus vorhanden ist oder nicht; in ähnlicher Weise wie bei der vorher beschriebenen Ausführungs­ form wird eine vorherbestimmte Markierung in Abhängigkeit von dem Ergebnis einer solchen Überprüfung addiert. Bei einer Mittelwertbildung von ähnlichen Mustern können, wenn diese beiden zu mittelnden Muster dieselbe Markierung haben, da beide Muster einen in Fig. 12a dargestellten Aufbau haben, diese beiden Muster mit ihren übereinstimmenden Anfängen und Enden gemittelt werden. Wenn dagegen die zwei Muster unter­ schiedliche Markierung haben, dann hat eines der beiden Mu­ ster einen in Fig. 12a dargestellten Aufbau, während das an­ dere einen in Fig. 12b wiedergegebenen Aufbau hat. Da in die­ sem Fall bei dem in Fig. 12b dargestellten Muster der hintere Endlaut /p/ verlorengegangen ist, wird dieser Teil des in Fig. 12a dargestellten Musters von dem lautlosen Intervall an bis zu dem hinteren Ende zu dem Ende des in Fig. 12b darge­ stellten Musters addiert und dann wird eine Mittelung zwi­ schen den Mustern durchgeführt. Auf diese Weise kann verhin­ dert werden, daß ein sich ergebendes Muster durch einen Mit­ telungsprozeß verschlechtert wird.
In der dargestellten Ausführungsform kann die Spracheingabe­ einheit 1 durch ein Mikrophon realisiert sein, und die Ener­ giemessung an der Einheit 2 kann durch Messen von Ausgangs­ signalen an tonfrequenten Bandpaßfiltern durchgeführt wer­ den. Üblicherweise wird eine Sprache in einem Abtastab­ schnitt in der Größenordnung von 10 ms abgetastet, so daß die Zuweisung oder Hinzufügung einer Markierung durch Feststel­ len der Tatsache durchgeführt werden kann, daß ein lautloses Intervall in den ersten 10 Abtastzeitabschnitten aufgetreten ist, oder das Ende einer Sprache innerhalb von 10 Abtast­ zeitabschnitten vom Auftreten eines lautlosen Intervalls an erreicht ist. Es ist der Fall beschrieben worden, bei wel­ chem die Erfindung zur Spracherkennung angewendet worden ist; bekanntlich sollte jedoch die Erfindung nicht auf Spracherkennung beschränkt werden. Die Geräuschverarbeitung am Anfang sowie am Ende eines Musters, wie sie vorstehend beschrieben ist, kann unabhängig oder in Kombination hiermit durchgeführt werden. Außerdem kann die Feststellung des vor­ deren und hinteren Endes eines Musters auch anders als in 100 ms durchgeführt werden.
In Fig. 14 ist ein Bezugsmuster-Bildungsmuster gemäß einer weiteren Ausführungsform der Erfindung dargestellt. Gemäß dieser Ausführungsform wird eine Sprache registriert, die in eine Merkmalparameter-Verteilung umgesetzt ist. Das heißt, eine Sprache wird in das Mikrophon 21 eingegeben, um ein entsprechendes Sprachsignal zu erzeugen, welches dann einer Frequenzanalyse unterzogen wird, wobei hochfrequente Be­ standteile in ihrer Größe/Amplitude mit niederfrequenten Be­ standteilen verglichen werden. Wenn die Amplitude der hoch­ frequenten Bestandteile am Anfang oder Ende eines Sprachin­ tervalls größer als die niederfrequenten Bestandteile ist, wird die Dauer dieses Zustands gemessen. Dann wird wieder ein ursprüngliches Sprachmuster durch Entfernen des Teils mit stärkeren hochfrequenten Bestandteilen festgelegt, und das auf diese Weise wieder festgelegte Sprachmuster wird als ein Bezugssprachmuster registriert.
Das in Fig. 14 dargestellte System hat ein Mikrophon 21, eine ein Sprachintervall feststellende Einheit 22, eine Filter­ bank 23, ein Hochpaßfilter 23 a, ein Tiefpaßfilter 23 b, eine Multipliziereinheit 25, einen Vergleicher 26, ein Register 46, einen Zeitzähler 47, eine Multipliziereinheit 48 und einen Start-Ende-Antrieb 49. Nunmehr wird der Fall der Re­ gistrierung eines Wortes, wie beispielsweise des Wortes "his" betrachtet. Zuerst wird ein Wort wie "his" in das Mikrophon 21 eingegeben, so daß ein Sprachintervall mittels der Einheit 22 festgestellt wird, und die Information, die sich auf das infrage kommende Wort bezieht, wird an die Fil­ terbank 23 geliefert. In dem dargestellten Beispiel ist die Filterbank 23 bezüglich der Informationsflußrichtung hinter der Einheit 22 angeordnet; jedoch können diese Elemente er­ forderlichenfalls in ihrer Lage auch ausgetauscht werden. Das Sprachintervall kann mittels des vorher anhand von Fig. 8 beschriebenen Verfahrens oder durch irgend ein anderes Ver­ fahren festgestellt werden. In der dargestellten Ausfüh­ rungsform wird die Filterbank als eine Methode zum Durchfüh­ ren einer Frequenzanalyse benutzt; jedoch kann auch irgend ein anderes Verfahren, wie beispielsweise ein FFT-Verfahren angewendet werden.
In Fig. 14 hat die Filterbank 23 ein Hochpaß- und ein Tief­ paßfilter 23 a bzw. 23 b, so daß ein hochfrequentes Ausgangs­ signal mit einem niederfrequenten Ausgangssignal verglichen wird. Beispielsweise kann in einem Bereich von 200 bis 6000 Hz, der normalerweise für eine Frequenzanalyse erfor­ derlich ist, der Bereich von 2000 bis 6000 Hz als der hoch­ frequente Bereich und der Rest als der niederfrequente Be­ reich festgelegt werden. Da insbesondere in dieser Ausfüh­ rungsform dieser Teil des Sprachmusters, welcher einen stärkeren hochfrequenten Ausgang hat, festzustellen ist, wird, wenn die hochfrequente Energie einen Faktor 2 oder mehr am Anfang oder Ende des Sprachintervalls größer als die niederfrequente Energie ist, die Dauer eines solchen Zustan­ des gemessen. In diesem Fall ist die Dauer des hochfrequen­ ten Ausgangs, der stärker als der niederfrequente Ausgang ist, von dem Sprachbeginn an leicht zu messen; ein Messen der Dauer an dem Ende einer Sprache ist nicht so leicht. Aus diesem Grund wird, wie in Fig. 15a und 15b dargestellt ist, während sowohl ein Signal der Fig. 15a, das einen größeren hochfrequenten Ausgang anzeigt als auch ein Signal der Fig. 15b überwacht werden, welches ein Sprachintervall an­ zeigt, ein Zähler zum Zeitpunkt T 1 bei dem Ansteigen des hochfrequenten Ausgangssignals der Fig. 15a gestartet und der Zähler wird wieder gestoppt, um zum Zeitpunkt T 1 beim Anstei­ gen des hochfrequenten Ausgangssignals gelöscht zu werden. Diese Arbeitsweise wird wiederholt, und der nach der Beendi­ gung des Sprachsignals erhaltene Wert wird als eine auf das hintere hochfrequente Ende bezogene Dauer T 3 bestimmt. Hier­ durch ist dann ein neues Muster mit einem Drittel dieser Dauer gebildet, und dieses Muster wird registriert. Dies ist in Fig. 16 dargestellt. In einer Annäherung wird der Laut /h/ wirksam ausgeschieden, um wieder ein zu registrierendes Mu­ ster festzulegen. In diesem Fall können jedoch keine Unter­ scheidungen mit einem anderen Wort /is/ gemacht werden. Un­ ter diesen Umständen kann beim Registrieren eines Musters mit einer Information die zwischen /h/ und /i/ überbrückt, Unterscheidungen zwischen /his/ und /is/ bei der Formungs­ stufe gemacht werden. Der /h/-Teil hat geringe Energie und geht folglich in der das Sprachintervall feststellenden Ein­ heit 22 leicht verloren; jedoch hat der Vokalteil /i/ eine große Energie und geht folglich nicht verloren. Aus diesem Grund geht der Überbrückungsteil von /h/ zu /i/ selten ver­ loren. Das heißt, bei dieser Ausführungsform ist die Muster­ länge einer Fom im wesentlichen gleich dem Fall, bei wel­ chem der Teil von /h/ ausgeschieden ist; aber die Informa­ tion von /h/ wird leicht übriggelassen, um dadurch die Er­ kennungsrate zu erhöhen. Daher kann gemäß dieser Ausfüh­ rungsform, selbst wenn ein Teil eines Sprachmustes verlo­ rengegangen ist, eine Art Form oder Schablohne für eine rich­ tige Spracherkennung registriert werden.
Fig. 17 zeigt ein Flußdiagramm einer Folge von Schritten zum Ausbilden eines zu registrierenden Bezugsmusters gemäß noch einer weiteren Ausführungform der Erfindung. Fig. 18 zeigt Großteils in Blockform ein Bezugsmuster-Bildungssystem zur Durchführung des in Fig. 17 dargestellten Verfahrens. In die­ ser Ausführungsform werden eine Anzahl von Merkmalsquantitä­ ten(-mustern), welche dadurch erhalten werden, daß dasselbe zu registrierende Wort eine Anzahl Mal ausgesprochen wird, verarbeitet, um ein zu registrierendes Bezugsmuster festzu­ legen. Wenn in diesem Fall diese Muster am Anfang oder Ende des Musters einen hochfrequenten Bestandteil und diese Mu­ ster keinen solchen hochfrequenten Bestandteil haben, werden die Muster verarbeitet, während die hochfrequenten Bestand­ teile abgetrennt werden, und dann werden die hochfrequenten Bestandteile zu dem verarbeiteten Ergebnis hinzugefügt.
Das in Fig. 18 dargestellte System hat ein Mikrophon 21, eine ein Sprachintervall feststellende Einheit 22, ein Hochpaß­ filter 23 a, ein Tiefpaßfilter 23 b, einen Vergleicher 26, Re­ gister 45 a und 45 b, Mittelungseinheiten 26 a und 26 b, einen Addierer 47 und ein Musterregister 48. Der Aufbau des in Fig. 18 dargestellten Systems wird anhand des in Fig. 17 dar­ gestellten Flußdiagramms beschrieben; zuerst wird eine Spra­ che eingegeben und es wird geprüft, ob die eingegebene Spra­ che an dem Wortanfang oder -ende einen hochfrequenten Be­ standteil hat oder nicht. Wenn dies der Fall ist, wird der hochfrequente Bestandteil abgetrennt, und eine Anzahl Sprachmuster die erzeugt worden sind, indem dasselbe Wort eine Anzahl Mal ausgesprochen wird, werden für die hochfre­ quenten Bestandteile und die restlichen Teile gesondert ge­ mittelt. Schließlich werden beide Teile zusammengefaßt, um ein gewünschtes Muster festzulegen. Auf diese Weise kann ge­ mäß dieser Ausführungsform, selbst wenn dieser Teil eines Sprachmusters mit einem hochfrequenten Bestandteil einmal oder mehrmals während des wiederholten Aussprechens dessel­ ben Wortes verlorengegangen ist, da die beiden Teile ge­ trennt gemittelt werden und dann die gemittelten Teile ver­ bunden oder zusammengefaßt werden, um ein vollständiges Sprachmuster festzulegen, ein derartiger Verlust einer Teil­ information entsprechend ausgeglichen werden. In Fig. 18 wird in das Mikrophon 21 eingegebene Sprache in ein Sprachsignal umgesetzt, welches dann an die Hoch- und Tiefpaßfilter 23 a und 23 b angelegt wird. Durch Vergleichen der Ausgänge dieser Hoch- und Tiefpaßfilter 23 a und 23 b wird bestimmt, ob das Sprachmuster einen hochfrequenten Bestandteil hat oder nicht. Gleichzeitig wird ein Sprachintervall von dem Sprach­ signal her festgelegt, und es wird geprüft, ob der hochfre­ quente Bestandteil am Anfang oder Ende des Sprachintervalls vorhanden ist oder nicht. Wenn ein hochfrequenter Bestand­ teil vorhanden ist, wird ein Schalter S zu dem Register 45 b geschaltet, während wenn kein solcher hochfrequenter Be­ standteil vorhanden ist, der Schalter S zu dem Register 45 a geschaltet wird. Das heißt, der hochfrequente Bestandteil am Anfang oder Ende des Sprachintervalls wird in dem Register 45 b und der Rest in dem Register 45 a gespeichert. Beispiels­ weise werden in dem Fall, daß dasselbe Wort dreimal ausge­ sprochen wird, beim Speichern von drei Sprachmustern in den Registern der Inhalt des jeweiligen Registers gemittelt, und dann werden die gemittelten Ergebnisse zusammengefaßt. Wenn in diesem Fall der Inhalt des Registers 45 b die Information am Anfang des Sprachintervalls ist, wird der Inhalt des Re­ gisters 45 b vor dem gemittelten Ergebnis des Registers 45 a angeordnet. Wenn dagegen die hinteren Enddaten in dem Regi­ ster 45 b gespeichert werden, werden diese nach dem Inhalt des Registers 45 a angeordnet. Folglich kann das Feststellen eines Sprachintervalls mittels eines anhand von Fig. 8 be­ schriebenen Verfahrens oder durch irgendein anderes ge­ wünschtes Verfahren durchgeführt werden. Der Mittelungsvor­ gang kann mittels eines gewünschten Verfahrens in Abhängig­ keit von dem anschließenden Benutzungszweck des Musters durchgeführt werden. Im vorliegenden Fall kann das folgende Verfahren angewendet werden. Bei einer Mittelung von drei Mustern wird die Musterlänge auf das kürzeste Muster einge­ stellt und die Muster werden addiert, indem Daten gleichför­ mig gemacht werden. Ein auf diese Weise gebildetes Muster kann dann ein Bezugsmuster hoher Qualität festlegen, das mit einem Teil vervollständigt ist, welcher gern verlorengeht.
In Fig. 19 ist hauptsächlich in Blockform ein Bezugsmuster- Bildungssystem gemäß noch einer weiteren Ausführungsform der Erfindung dargestellt. Wenn es in dieser Ausführungsform Mu­ ster gibt, die einen hochfrequenten Anteil am Anfang oder Ende des Merkmals- bzw. Eigenschaftsmusters haben und die keinen solchen hochfrequenten Bestandteil haben, wird der Teil des Musters mit einem hochfrequenten Bestandteil zu dem Teil ohne einen solchen hochfrequenten Bestandteil zugefügt. In Fig. 19 weist das System ein Mikrophon 21, eine ein Sprach­ intervall feststellende Einheit 22, ein Hochpaßfilter 23 a, ein Tiefpaßfilter 23 b, einen Vergleicher 26, ein Register 45, ein Flag-Prüfeinheit 49, eine Muster-Verbindungseinheit 50, einen Addierer 47 und ein Musterregister 48 auf. Da der Verfahrensablauf bis auf die Prüfung des Fehlens oder Vor­ handenseins eines hochfrequenten Bestandteils in dem Sprach­ signal derselbe wie bei der Ausführungsform in Fig. 17 und 18 ist, wird für die vorliegende Ausführungsform nurmehr der anschließende Ablauf beschrieben. Zuerst wird ein Flag in Abhängigkeit davon aufgestellt bzw. eingebracht, ob ein hochfrequenter Bestandteil am Anfang oder Ende des Sprachin­ tervalls vorhanden ist oder nicht, und das Muster wird dann zusammen mit dem Flag in dem Register 45 gespeichert. Bei Beendigung der Schaffung all der Laute bzw. Aussprechvor­ gänge für dasselbe Wort, wird geprüft, ob es Sprachmuster mit einem unterschiedlichen Flag gibt. In diesem Fall wer­ den, wenn alle die Sprachmuster ein Flag oder kein Flag ha­ ben, eine Mittelung der Sprachmuster, so wie sie sind, durchgeführt. 80857 00070 552 001000280000000200012000285918074600040 0002003733659 00004 80738Andernfalls wird der hochfrequente Bestandteil des Musters mit einem Flag zu dem Anfang oder Ende des Mu­ sters oder ein Flag hinzuaddiert, und nach Durchführung eines Mittelungsvorgangs wird das gemittelte Muster in dem Musterregister 48 registiert. Das auf diese Weise erhaltene Muster ist dann bezüglich des verlorengegangenen Teils ausge­ glichen und hat folglich eine hohe Qualität. Es kann ge­ mäß dieser Ausführungsform selbst wenn ein Muster teilweise verlorengegangen ist, ein normales Bezugsmuster hoher Quali­ tät gebildet und registriert werden.
Wie vorstehend beschrieben, gibt es beim Ausbilden eines Sprachmusters einen Fall, bei welchem eine unerwünschte Ge­ räuschkomponente eingebracht wird, und es gibt auch einen Fall, bei welchem ein Teil der Sprachinformation verloren­ geht. Beispielsweise im Falle eines Wortes mit einem Konso­ nanten, welcher unabhängig ausgesprochen wird, wie /Stopp/ geht der letzte Laut /p/ gern verloren und kann nicht auf­ genommen werden. In Fig. 28a und 28b ist ein Beispiel darge­ stellt, um ein Anpassen für ein Wort, wie /Stopp/ durchzu­ führen. In Fig. 28a ist ein Bezugsmuster und in Fig. 28b ist ein eingegebenes Muster dargestellt. Das Bezugsmuster in Fig. 28a legt genau ein Sprachmuster für das ganze Wort fest; andererseits ist bei dem eingegebenen, in Fig. 28b darge­ stellten Muster der letzte Laut /p/ verlorengegangen. Wenn folglich diese beiden Muster für eine Anpassung verglichen werden, wird der letzte Laut /p/ des Bezugsmusters in Fig. 28 in Entsprechung mit dem letzten Laut /o/ des eingegebenen, in Fig. 28b dargestellten Musters gebracht. Aus diesem Grund wird der Ähnlichkeitsgrad zwischen diesen Mustern schlech­ ter, was dann zu einer fehlerhaften Erkennung führen könnte. Um mit dieser Schwierigkeit fertig zu werden, können solche Verfahren und Systeme geschaffen werden, die in Fig. 28 bis 32 dargestellt sind, welche in ihrem Aufbau genau mit den Fig. 1 bis 4 übereinstimmen, welche eingangs im einzelnen be­ schrieben worden sind.
Da das System in Fig. 29 genau mit dem System in Fig. 1 über­ einstimmt und das System in Fig. 31 genau mit dem System in Fig. 3 übereinstimmt, abgsehen davon, daß die Zahl "100" zu den Bezugszeichen hinzugefügt ist, brauchen die Systeme hier nicht noch einmal beschrieben zu werden. Mit Hilfe der Ver­ fahren, welche in den in Fig. 29 und 31 dargestellten Syste­ men durchgeführt werden, kann die Genauigkeit einer Muster­ anpassung erhöht werden. Jedoch können in einem solchen Mu­ ster-Vergleichsverfahren nachteilige Einflüsse für einen Laut erzeugt werden, welcher manchmal einen größeren manch­ mal einen niedrigeren Energiepegel hat, wie beispielsweise der Laut /b/. In Fig. 27a und 27b ist ein Beispiel eines Wor­ tes /onbu/ dargestellt, was im japanischen Sparschwein be­ deutet; das Muster in Fig. 27 hat einen Laut /b/, dessen Energie nicht nennenswert abgenommen hat, während das Mu­ ster in Fig. 27b einen Laut /b/ hat, dessen Energie beträcht­ lich abgenommen hat. In einem solchen Fall wird gemäß dem Verfahren, das bei den in Fig. 29 und 31 dargestellten Syste­ men angewendet ist, der Teil /bu/ dieses Musters durch An­ passung ausgeschieden.
Unter diesen Umständen wird gemäß der Erfindung, wenn zwei Muster verglichen werden, wird geprüft, ob ein Minimum an Energie in der Nähe des Anfangs oder des Endes jedes der Muster vorhanden ist oder nicht; wenn ein derartiges Ener­ gieminimum nur in einem der beiden Muster vorhanden ist, wird dieser Teil eines derartigen Musters, das ein Energie­ minimum hat, zwischen dem Minimum und dem Ende entfernt. Wenn das Ergebnis, das dadurch erhalten worden ist, daß eine reelle Zahl, welche gleich 1 oder kleiner ist, zu der Mu­ sterlänge des Musters mit keinem solchen Energieminimum mul­ tipliziert wird, länger als die Musterlänge des anderen Mu­ sters ist, wird es auf dieselbe Weise behandelt, wie das Mu­ ster mit keinem Energieminimum oder aber wenn das Ergebnis das erhalten worden ist, indem eine reelle Zahl, die gleich 1 oder größer ist zu der Musterlänge des Musters mit einem Energieminimum multipliziert wird, kürzer als die Musterlän­ ge des anderen Musters ist, wird dies in derselben Weise be­ handelt wie das Muster ohne Energieminimum.
In Fig. 23 ist ein Flußdiagramm einer Schrittfolge eines Mu­ stervergleichsverfahrens gemäß noch einer weiteren Ausfüh­ rungsform der Erfindung dargestellt, und in Fig. 24 ist ein Mustervergleichsverfahren zur Durchführung des in Fig. 23 dargestellten Verfahrens wiedergegeben. Das dargestellte Mu­ stervergleichssystem weist ein Mikrophon 21 , eine ein Sprachintervall bestimmende Einheit 71, eine Bandpaß-Filter­ bank 72, ein Register 73, ein Sprachenergie-Meßeinheit 74, einen Vergleicher 75, eine Schwellenwert erzeugende Einheit 76, einen Zeitzähler 77, einen Vergleicher 78, einen Zähler 79 für lautlose Intervalle, einen Markierungsvergleicher 80, einen Umschalter 81, eine Bibliothek 82, Rahmenlängeneinhei­ ten 83 und 84, eine Multipliziereinheit 85, eine zu multi­ plizierende Konstante setzende Einheit 86, einen Vergleicher 87, einen Umschalter 88, eine Muster-Entfernungseinheit 89, eine Anpassungseinheit 90 und eine Anzeigeeinheit 91 auf. Wenn eine Geräuschkomponente in eine eingegebene Sprache eingebracht worden ist, wird die Musterlänge im Vergleich zu der Musterlänge eines normalen Musters größer; jedoch wird gemäß der Erfindung die Aufmerksamkeit auf die Tatsache ge­ richtet, daß die Musterlänge in dem in Fig. 27 dargestellten Fall nicht größer wird.
Wie in Fig. 23 und 24 dargestellt, wird die Energie einer in das Mikrophon 21 eingegebenen Sprache durch die Meßeinheit 74 gemessen, wodurch die Lage eines lautlosen Intervalls in der Sprache festgestellt wird. Eine der Sprache zuzuordnende Markierung unterscheidet sich in Abhängigkeit davon, ein solches lautloses Intervall innerhalb von 100 ms von dem an­ fang des Sprachintervalls an ausfindig zu machen. Beim Her­ ausnehmen eines Bibliotheks- oder Bezugsmusters, welches zu­ sammen mit der Hinzufügung einer solchen Markierung regi­ striert worden ist, wird geprüft, ob die Markierung des Be­ zugsmusters dieselbe ist wie diejenige des eingegebenen Mu­ sters oder nicht. Wenn die beiden Markierungen dieselben sind, wird der Schalter 81 zu einem Kontakt a umgeschaltet, so daß ein gewöhnlicher Musteranpassungsprozeß durchgeführt wird. Wenn andererseits sich die zwei Markierungen unter­ scheiden, wird der Schalter 81 zu einem Kontakt b umgeschal­ tet, um dadurch die beiden Muster den jeweiligen Rahmenlän­ gen-Vergleichern 83 und 84 zuzuführen, in welchen die Rah­ menlänge mit einer dem lautlosen Intervall entsprechenden Markierung als Fr 1 und die Rahmenlänge ohne eine solche Mar­ kierung als Fr 2 gesetzt wird. Eine Musterentfernung wird nur dann durchgeführt, wenn der Bedingung, daß Fr 1 kleiner als 0,9 × Fr 2 genügt worden ist, und dann wird eine Musteranpas­ sung durchgeführt. Wenn hiermit ein notwendiger Laut aus einem solchen Muster entfernt worden ist, wie in Fig. 27 dar­ gestellt ist, wird die Musterlänge kürzer, um dadurch der Bedingung zu genügen, das Fr 1 kleiner als 0,9 × Fr 2 ist, wo­ durch dann die Muster-Entfernungseinheit 89 umgangen ist. Wenn dagegen eine Geräuschkomponente hinzugefügt worden ist, wird die Musterlänge durch das Hinzufügen einer solchen Ge­ räuschkomponente verlängert, so daß der Bedingung, daß Fr 1 kleiner als 0,9 × Fr 2 ist, nicht genügt ist, und folglich wird auf die Muster-Entfernungseinheit 89 übergegangen, um vor einer Anpassung eine erforderliche Musterentfernung durchzuführen.
In Fig. 25 und 26 ist eine weitere Ausführungsform der Er­ findung dargestellt, welche grundsätzlich dieselbe wie die vorhergehende anhand von Fig. 23 und 24 beschriebene Ausfüh­ rungsform ist. In Fig. 25 ist ein Flußdiagramm eines Muster­ vergleichsverfahrens dieser Ausführungsform dargestellt, und in Fig. 26 ist großteils in Blockform ein Mustervergleichsver­ fahren zum Durchführen des in Fig. 25 dargestellten Verfah­ rens wiedergegeben. Da die vorliegende Ausführungsform sehr ähnlich der vorherigen anhand von Fig. 23 und 24 beschriebe­ nen Ausführungsform ist, sind mit den gleichen Bezugszeichen die gleichen Elemente bezeichnet. In der in Fig. 25 und 26 dargestellten Ausführungsform wird eine vorbestimmte re­ elle Zahl, die gleich eins oder größer ist (in der darge­ stellten Ausführungsform ist 1,1 in der die zu multiplizie­ rende Konstante setzende Einheit 86 gesetzt) zu der Muster­ länge des Musters mit einem Energieminimum multipliziert; wenn das Ergebnis einer solchen Multiplikation kleiner als die Musterlänge des anderen Musters ist, wird es in dersel­ ben Weise wie das Muster ohne Energieminimum behandelt. Wenn in der dargestellten Ausführungsform das Ergebnis 1,1 zu einem Muster mit einem lautlosen Intervall zu multiplizie­ ren, d. h. ein Muster, bei dem möglicherweise ein Rauschbe­ standteil hinzugefügt ist, kürzer als ein Muster ohne ein lautloses Intervall ist, wird dann bestimmt, daß dieses lautlose Intervall nicht eine Geräuschkomponente ist, so daß keine Musterentfernung durchgeführt wird. Auf diese Weise wird gemäß der Erfindung ein Muster, in welchem Unterschei­ dungen zwischen Geräusch- und Sprachinformation schwierig ist, automatisch unterschieden, um dadurch die Geräuschin­ formation zu entfernen, so daß eine Musteranpassung mit ho­ her Genauigkeit durchgeführt werden kann.
Gemäß noch einem weiteren Aspekt der Erfindung ist ein Mu­ stervergleichsverfahren und ein System geschaffen, in wel­ chem eine Musteranpassung bezüglich eines eingegebenen Mu­ sters mit einem Geräuschbestandteil durchgeführt wird, in­ dem ein solcher Geräuschbestandteil entfernt wird, und es wird dann eine Erkennungsberechnung an einem Zeitpunkt ein­ geleitet, der früher als das Eingeben einer zu erkennenden, eingegebenen Sprache liegt. Das heißt, um ein derartiges Ziel zu erreichen, wird beim Vergleichen von zwei Mustern zuerst geprüft, ob ein Energieminimum in einem vorherbe­ stimmten Bereich von dem vorderen Ende (Anfang) oder von dem rückwärtigen Ende jedes der Muster vorhanden ist oder nicht. Wenn ein derartiges Energieminimum nur in einem der Muster vorhanden ist, wird dieser Teil des Musters, das ein Energie­ minimum hat, zwischen dem Energieminimum und dem vorderen oder hinteren Ende des Musters entfernt und dann werden die beiden Muster verglichen. Zu einem Zeitpunkt nach dem Einge­ ben des Musters für einen vorherbestimmten Zeitabschnitt im Anschluß an das Feststellen des vorderen Endes einer Sprache wird festgelegt, ob ein Energieminimum am vorderen Ende des Musters zu entfernen ist oder nicht; danach wird festgelegt, ob das Energieminimum am hinteren Ende des Musters zu ent­ fernen ist oder nicht.
In Fig. 33 (33a und 33b) ist in Blockform ein Spracherken­ nungssystem gemäß noch einer weiteren Ausführungsform der Erfindung dargestellt. In Fig. 34 (34a und 34b) ist ein Fluß­ diagramm dargestellt, anhand dessen die Arbeitsweise des in Fig. 33 dargstellten Spracherkennungssystems erläutert wird. Das Spracherkennungssystem weist ein Mikrophon 21, eine Bandpaß-Filterbank 72, eine ein Sprachintervall feststellen­ de Einheit 71, ein Register 73 , eine Sprachenergie feststel­ lende Einheit 124, einen Vergleicher 125, einen Schwellen­ wert erzeugende Einheit 126, einen Zähler 127 für lautlose Intervalle, einen Zeitzähler 128, Vegleicher 129 und 130, eine Zeitrückführeinheit 131 (z. B., um sie zuvor 100 ms zu einem entsprechenden Zeitpunkt zurückzuführen), eine eine vorherbestimmte Zeit erzeugende Einheit 132, eine Markie­ rungs-Zufügungseinheit 133, einen Vergleicher 134, eine Bib­ liothek 135, einen Umschalter 136, eine Muster-Entfernungs­ einheit 137, um etwas bis zu einem lautlosen Abschnitt zu entfernen, eine Anpassungseinheit 138, eine Kanditaten-Aus­ wähleinheit 139 und eine Anzeigeeinheit 140 auf. In dieser Ausführungsform wird festgelegt, ob die Nähe des vorderen oder hinteren Endes eines Musters innerhalb von 100 ms liegt. Zuerst wird Sprache in das Mikrophon 21 eingegeben, um ein Sprachsignal zu erzeugen, welches dann in eine Merkmalsgröße umgesetzt wird. In dieser Ausführungsform wird das Frequenz­ spektrum des Sprachsignals, das durch ein Sprachsignal er­ zeugt worden ist, das durch die Bandpaß-Filterbank 72 verar­ beitet worden ist, als eine Merkmalsgröße verwendet. Dann wird das Sprachintervall festgestellt, und das eingegebene unbekannte Muster wird in dem Register 73 gespeichert. Gleichzeitig wird die Zeit, welche seit dem Feststellungs­ zeitpunkt des vorderen Endes (Anfang) des Sprachintervalls verstrichen ist, durch den Zähler 128 gezählt.
Außerdem wird die Energie eines Sprachsignals festgestellt, und wenn diese Energie kleiner als der Schwellenwert ist, wird dies als ein Teil eines lautlosen Intervalls betrach­ tet, so daß dessen Lage und Zahl in dem Zähler 127 gespei­ chert werden. Wenn dann der Zeitzähler 127 100 ms erreicht hat, wird eine Markierung von -1 hinzugefügt, soweit ein lautloses Intervall vorhanden gewesen ist, und es wird eine Markierung von 1 hinzugefügt, soweit kein lautloses Inter­ vall gewesen ist. Gleichzeitig mit dem Hinzufügen einer Mar­ kierung wird ein Bezugsmuster aus der Bibliothek 135 heraus­ genommen, um so eine vorläufige Anpassung bezüglich der in der Bibliothek 135 gespeicherten Bezugsmuster durchzuführen. Jedes der in der Bibliothek 135 gespeicherten Bezugsmuster hat eine Markierung von -1 oder 1 in Abhängigkeit davon, ob ein lautloses Intervall am vorderen oder hinteren Ende einer Sprache vorhanden ist oder nicht. Dann wird zuerst vergli­ chen, ob das Bezugsmuster aus der Bibliothek 135 dieselbe Markierung wie diejenige des eingegebenen Musters hat oder nicht. Wenn die zwei Markierungen dieselben sind, da ein lautloses Intervall in jedem der beiden Muster vorhanden ist, wird eine vorläufige Anpassung durchgeführt. Eine sol­ che vorläufige Anpassung kann beispielsweise durch Verglei­ chen vorherbestimmter Teile der beiden Muster durchgeführt werden. Wenn sich dagegen die beiden Markierungen unterschei­ den wird der Teil des Musters, das ein lautloses Intervall hat, zwischen dem vorderen Ende und dem lautlosen Intervall entfernt, und dann wird die vorläufige Anpassung durchge­ führt, um Kandidaten-Bezugsmuster auszuwählen.
Wenn dagegen der vorherbestimmte Zeitabschnitt von 100 ms oder mehr von dem vorderen Ende einer Sprache an verstri­ chen ist, wird der Wert bestimmt, auf welchem von dem augen­ blicklichen Zeitpunkt auf einen Zeitpunkt von über 100 ms zu­ rückgegangen worden ist, und es wird zu derselben Zeit zu­ sammen mit einem Beendigungssignal der Sprache geprüft, ob ein lautloses Intervall innerhalb der letzten 100 ms vorhan­ den gewesen ist oder nicht; eine Markierung von -1 oder 1 wird dann in Abhängigkeit davon, ob ein lautloses Intervall vorhanden gewesen ist oder nicht, in ähnlicher Weise wie bei dem vorderen Ende des Musters hinzugefügt. Die restliche Ar­ beitsweise, welche für das vordere Ende des Musters durch­ geführt worden ist, wird dann auch für das hintere Ende des Musters durchgeführt, und es wird erforderlichenfalls ein Teil des Musters entfernt; die endgültige Anpassung wird für die Kandidaten-Bezugsmuster durchgeführt, welche vorher aus­ gewählt worden sind.
In dem vorher beschriebenen Ausführungsbeispiel der Erfin­ dung ist ein Mustervergleichsverfahren und -system vorgese­ hen, in welchen ein Schwellenwert, z. B. 100 ms, verwendet wird, um zu prüfen, ob ein Energieminimum in der Nähe des vorderen Endes (Anfangs) eines Sprachmusters vorhanden ist oder nicht. Wenn ein Energieminimum bei 110 ms vorhanden ist, wird in diesem Fall eine Markierung, welche das Fehlen eines Energieminimums anzeigt, zugeteilt. Wenn dagegen ein Ener­ gieminimum bei 90 ms in dem anderen Muster vorhanden ist, wird dieses Minimum vor einer Anpassung entfernt. Folglich gibt es eine Möglichkeit, eine richtige Anpassung durchzu­ führen. Dies wird nun im einzelnen unter Bezugnahme auf Fig. 43a und 43b beschrieben. Für das in Fig. 43a dargestell­ te Muster wird festgelegt, daß kein Energieminimum in der Nähe des hinteren Endes des Musters vorhanden ist. Für das in Fig. 43b dargestellte Muster wird dagegen festgelegt, daß ein Energieminimum in der Nähe des hinteren Endes des Mu­ sters vorhanden ist. Folglich wird der letzte Laut /p/ des Musters in Fig. 43b entfernt, bevor das Muster in Fig. 43b für ein Anpassen mit dem Muster in Fig. 43a verglichen wird. Dies führt dann zu einer unrichtigen Anpassung.
Ein Aspekt der Erfindung ist insbesondere darauf gerichtet, ein derartiges bei der vorstehend beschriebenen Ausfüh­ rungsform auftretendes Problem zu lösen, damit eine Anpas­ sung zwischen zwei Mustern richtig durchgeführt werden kann. Mit anderen Worten gemäß der Erfindung wird beim Vergleich von zwei Mustern zuerst geprüft, ob ein Energieminimum in der Nähe des vorderen oder hinteren Endes jedes der Muster vorhanden ist oder nicht. Wenn ein derartiges Energieminimum nur in einem der Muster vorhanden ist, wird dieser Teil des Musters, das ein Energieminimum hat, zwischen dem Minimum und dem vorderen oder hinteren Ende aus dem Muster entfernt und dann wird ein Vergleich zwischen den zwei Mustern durch­ geführt. Wenn dagegen eine Anzahl Minima vorhanden ist, wird die Länge zwischen dem ersten und dem zweiten Minimum eines ersten Musters mit der Länge zwischen dem vorderen Ende und dem ersten Minimum und der Länge zwischen dem ersten und zweiten Minimum eines zweiten Musters verglichen; nur wenn der Musterlängenunterschied bei dem letzteren größer ist, wird dieser Teil des zweiten Musters zwischen dem vorderen Ende und dem ersten Minimum entfernt, und es wird eine An­ passung zwischen dem ersten und zweiten Muster durchgeführt.
In Fig. 35 ist ein Flußdiagramm eines Mustervergleichsverfah­ rens gemäß noch einer weiteren Ausführungsform der Erfindung dargestellt. In Fig. 36 (36a und 36b) ist großteils in Block­ form ein Spracherkennungssystem zum Durchführen des Verfah­ rens in Fig. 35 dargestellt. Das Spracherkennungssystem weist einen elektroakustischen Wandler 21, wie beispielsweise ein Mikrophon, eine ein Sprachintervall feststellende Einheit 71, eine Bandpaß-Filterbank 72, ein Register 73, eine Sprachenergie-Meßeinheit 242, einen Vergleicher 225, eine Schwellenwert erzeugende Einheit 226, einen Zeitzähler 227, einen Vergleicher 228, einen Zähler 229 für lautlose Inter­ valle, einen Markierungsvergleicher 230, einen Umschalter 231, eine Bibliothek 232, Recheneinheiten 233 bis 235, einen Vergleicher 236, einen Umschalter 237, eine Musterentfer­ nungseinheit 238, eine Anpassungseinheit 239 und eine Anzei­ geeinheit 240 auf.
In Fig. 41a und 41b sind zwei Beispiele eines Sprachmusters dargestellt, wenn ein Wort "mitaka" auf japanisch ausgespro­ chen wird. In diesem Fall wird eine Länge m 2 zwischen dem zweiten und dritten Minimum des Musters der Fig. 41a mit einer Länge n 1 zwischen dem vorderen Ende und dem ersten Mi­ nimum des Musters der Fig. 41b und auch mit der Länge n 2 zwi­ schen dem ersten und zweiten Minimum des Musters der Fig. 41b verglichen. Wenn der Absolutwert der Differenz (n 1 - m 2) kleiner als der Absolutwert der Differenz (n 2 - m 2) ist, dann wird festgelegt, daß das Minimum, welches innerhalb von 100 ms von dem vorderen Ende vorhanden sein sollte, was als Nähe zu dem vorderen Ende betrachtet werden kann, über den Bereich von 100 ms hinaus ausgedehnt, und folglich werden die zwei Muster als normal festgelegt und so, wie sie sind, mit­ einander verglichen. Wenn dagegen der Absolutwert der Dif­ ferenz (n 1 - m 2) größer als der Absolutwert der Differenz (n 2 - m 2) ist, dann wird festgelegt, daß ein Laut, welcher vor der Länge n 1 vorhanden sein sollte, verloren gegangen ist, und daß folglich der vordere Endteil des Musters der Fig. 41a entfernt und erst dann zur Anpassung die beiden Mu­ ster verglichen werden.
Wie unter Bezugnahme auf Fig. 35 und 36 beschrieben wird, wird, wenn ein ausgesprochenes Wort in das Mikrophon 21 ein­ gegeben wird, ein entsprechendes Sprachsignal erzeugt, und dann wird die Energie der Sprache durch die Meßeinheit 224 gemessen, um dadurch ein lautloses Intervall festzustellen und es wird der Sprache eine andere Markierung zugeteilt in Abhängigkeit davon, ob ein solches lautloses Intervall in­ nerhalb von 100 ms von dem vorderen Ende (Beginn) der Sprache an vorhanden ist. Ein Bezugsmuster, welches in der Biblio­ thek 232 registriert worden ist, und in welchem eine ähnli­ che Markierung zugeteilt ist, wird aus der Bibliothek 232 entnommen, und es wird geprüft, ob das Bezugsmuster dieselbe Markierung wie das eingegebene Muster hat. Wenn die beiden Muster dieselbe Markierung haben, wird der Schalter 231 zu einem Kontakt a umgeschaltet, um dadurch einen gewöhnlichen Mustervergleich durchzuführen. Wenn dagegen die zwei Markie­ rungen verschieden sind, wird der Schalter 231 zu einem Kon­ takt b umgeschaltet, um dann, wie oben beschrieben, die Be­ rechnungen durchzuführen.
Wenn beispielsweise, wie in Fig. 41 dargestellt, das Bezugs­ muster (z. B. ein in Fig. 41a dargestelltes Muster) sich von dem eingegebenen Muster (z. B. von dem Muster in Fig. 41b) un­ terscheidet, werden Werte von n 1, n 2 und m 2 in den Rechen­ einheiten 233 bis 235 berechnet, und dann wird festgelegt, ob in Abhängigkeit von der Größenbeziehung zwischen den Ab­ solutwerten von (n 1-m 2) und (n - m 2) zu der Musterentfer­ nungseinheit 238 überzugehen ist oder nicht. Vorstehend ist der Fall für das vordere Sprachende beschrieben worden; je­ doch auch in dem Fall, daß eine Geräuschkomponente zu dem hinteren Ende einer Sprache hinzugefügt worden ist oder ein Laut am hinteren Ende einer Sprache (eines Wortes) verloren­ gegangen ist, kann eine derartige Hinzufügung einer Rausch­ komponente oder der Verlust eines Lautes am hinteren Ende eines Wortes auf die folgende Weise durchgeführt werden. Wenn eine Anzahl von m Minima in dem ersten Muster und eine Anzahl von n Minima in dem zweiten Muster vorhanden sind, während die Länge zwischen dem (m - 1)ten und dem m-ten Minimum des ersten Musters mit der Länge zwischen dem n-ten Minimum und dem hinteren Ende des zweiten Musters verglichen. Nur wenn der Musterlängen-Unterschied bei letzterem kleiner ist, wird der Teil des zweiten Musters zwischen den bei­ den Mustern entfernt. In dem Beispiel in Fig. 42 hat jedes Muster zwei lautlose Intervalle; jedoch unterscheidet sich eine zuzuteilende Markierung bei dem Muster der Fig. 42b, in welchem ein lautloses Intervall innerhalb 100 ms von dem hin­ teren Ende der Sprache aufzufinden ist, von dem Muster der Fig. 42a, in welchem ein lautloses Intervall nicht innerhalb von 100 ms von dem hinteren Ende der Sprache vorhanden ist.
Aus diesem Grund wird unter normalen Voraussetzungen der letzte Laut /p/ des in Fig. 42b dargestellten Musters ent­ fernt. Gemäß der Erfindung wird jedoch eine Länge m 2 des Musters der Fig. 32a mit Längen n 2 und n 3 des Musters der Fig. 42 verglichen, und nur wenn der Absolutwert der Diffe­ renz (n 2 - m 2) größer als der Absolutwert der Differenz (n 3 - m 2) ist, wird zu der Musterentfernungseinheit 238 übergegangen, in welcher der letzte Laut /p/ des in Fig. 42b dargestellten Musters entfernt wird.
In Fig. 37 ist ein Flußdiagramm dargestellt, welches die Schrittfolge einer Ausführungsform für eine Anpassung zwi­ schen einem Muster mit einem lautlosen Intervall, das inner­ halb von 100 ms von dem hinteren Ende einer Sprache aufgefun­ den ist, wie es vorstehend beschrieben ist, und einem Mu­ ster ohne ein solches lautloses Intervall dargestellt. In Fig. 38 ist schematisch ein Spracherkennungssystem zum Durch­ führen des Verfahrens der Fig. 37 dargestellt. Die in Fig. 37 und 38 dargestellte Ausführungsform ist in vieler Hinsicht der in Fig. 35 und 36 dargestellten Ausführungsform ähnlich, so daß nur die Elemente dieser Ausführungsformen, welche sich von den entsprechenden Elementen der vorherigen Ausfüh­ rungsformen unterscheiden, mit Bezugszeichen bezeichnet sind, bei welchen ein Buchstabe "a" hinzugefügt ist. Das heißt, in dieser Ausführungsform werden die Werte von n 2, n 3 und m 2 durch die Recheneinheit 233 a bestimmt, und der Abso­ lutwert der Differenz (n 3 - m 2) wird in der Recheneinheit 235 a bestimmt. Jedoch gibt es bei einer Sprache, da die Ge­ samtlänge sich dehnt und zusammenzieht, einen Fall, bei wel­ chem eine fehlerhafte Bestimmung vorgenommen wird, wenn nur auf den Absolutwert eines Musters vertraut wird. Unter die­ sen Umständen können in den in Fig. 35 bis 38 dargestellten Ausführungsformen statt der Längen m 2, n 1, n 2 und n 3 Werte verwendet werden, welche durch die Sprachlänge normiert sind, d. h. m 2/M, n 1/N, n 2/N und n 3/N. Hierbei gegen die Wer­ te M und N die Gesamtlänge der jeweiligen Worte (Sprache) an.
In Fig. 39 ist ein Flußdiagramm einer Ausführungsform darge­ stellt, welches bei solchen normierten Werten Verwendung findet. In Fig. 40 ist schematisch großteils in Blockform ein Spracherkennungssystem zum Durchführen des Verfahrens in Fig. 39 dargestellt. In der Ausführungsform in Fig. 39 und 40 sind die Elemente dieser Ausführungsform, welche sich von denen der vorherigen in Fig. 35 bis 38 dargestellten Ausfüh­ rungsform unterscheiden, mit Bezugszeichen bezeichnet, bei welchen der Buchstabe "b" hinzugefügt ist. Das heißt, in dieser Ausführungsform werden in der Recheneinheit 233 b Längen n 1, m 2, n 2 und m 3 bestimmt, und die Absolutwerte der normierten Differenzen (n 2/N - m 2/M) werden in der Rechen­ einheit 234 b bestimmt. Außerdem wird der Absolutwert der normierten Differenz (n 1/N - n 2/M) in der Recheneinheit 235 b bestimmt.
Gemäß einem weiteren Aspekt der Erfindung ist ein Musteran­ passungsverfahren und -system geschaffen, bei welchem eine Musteranpassung durchführbar ist, selbst wenn ein Energie­ minimum in seiner Position etwas verschoben wird. Das heißt, gemäß der Erfindung wird beim Vergleichen von zwei Mustern zuerst geprüft, ob es ein Energieminimum in der Nähe des vorderen oder hinteren Endes jedes der Muster gibt oder nicht. Wenn ein derartiges Energieminimum nur in einem der beiden Muster vorhanden ist, wird dieser Teil des Musters welches ein solches Energieminimum hat, zwischen dem Ener­ gieminimum und dem vorderen oder hinteren Ende entfernt oder beseitigt, und dann werden die beiden Muster verglichen. Wenn in diesem Fall die beiden Muster eine unterschiedliche Anzahl von Energieminima haben, wird der Teil des Musters, das eine größere Anzahl von Minima hat, zwischen dem vorde­ ren Ende des Musters und dem ersten Minimum oder zwischen dem letzten Minimum und dem hinteren Ende beseitigt. Oder aber es wird geprüft, ob ein Eingangssignal eine Anzahl Energieminima hat oder nicht; wenn eine Anzahl Energieminima vorhanden ist, wird das Verhältnis zwischen der Musterlänge und der Minimumstelle festgestellt, wobei, wenn das sich er­ gebende Verhältnis nahe dem Verhältnis des Bezugsmusters ist und das Energieminimum nur in der Nähe des Endes eines der Muster besteht, eine Anpassung zwischen den Mustern durchgeführt, wobei angenommen wird, daß beide Muster Minima oder keine Minima haben. Ferner wird zuerst geprüft, ob ein Eingangssignal eine Anzahl Energieminima hat oder nicht; wenn eine Anzahl Energieminima vorhanden ist, wird das Ver­ hältnis zwischen der Musterlänge und der Minimumposition festgestellt, wobei, wenn das sich ergebende Verhältnis nahe dem Verhältnis des Bezugsmusters ist, die Musterlänge zwi­ schen dem Energieminimum und dem Musterende jedes der Muster gleich oder kleiner als ein vorherbestimmter Wert ist, und das Energieminimum nur in der Nähe des Endes eines der Mu­ ster vorhanden ist, eine Anpassung zwischen den Mustern durchgeführt wird unter der Annahme, daß beide Muster Minima oder keine Minima haben. Ferner wird alternativ hierzu zu­ erst geprüft, ob ein Eingangssignal eine Anzahl Energiemini­ ma hat oder nicht, und wenn die Anzahl Energieminima sich zwischen dem eingegebenen und dem Bezugsmuster unterschei­ det, wird die Länge zwischen dem Minimum, das dem Musterende am nächsten ist, und einem lautlosen Intervall des Musters, das eine größere Anzahl von Energieminima hat, von der Mu­ sterlänge des Musters, das eine größere Anzahl von Minima hat, subtrahiert, um einen Wert zu erhalten, welcher dann mit der Musterlänge des anderen Musters verglichen wird, wo­ bei, wenn der auf diese Weise erhaltene Wert näher bei der Musterlänge des anderen Musters liegt, dieser Teil des Mu­ sters, das eine größere Anzahl von Minima hat, zwischen dem Minimum und dem Musterende beseitigt wird; dann erst werden die beiden Muster miteinander verglichen.
In Fig. 44 ist ein Flußdiagramm dargestellt, das eine Schritt­ folge eines Musteranpassungs- oder Vergleichsverfahrens ge­ mäß noch einer weiteren Ausführungsform der Erfindung dar­ stellt. In Fig. 45 ist ein Spracherkennungssystem zum Durch­ führen des Verfahrens in Fig. 44 dargestellt. Das Spracher­ kennungssystem hat ein Mikrophon 21, eine ein Sprachinter­ vall feststellende Einheit 71, eine Bandpaß-Filtereinheit 72, ein Register 73, eine Sprachenergie-Meßeinheit 224, ei­ nen Vergleicher 225, eine Schwellenwert erzeugende Einheit 226, einen Zeitzähler 227, einen Vergleicher 228, einen Zähler 229 für lautlose Intervalle, einen Markierungsver­ gleicher 230, einen Umschalter 231, eine Bibliothek 232, eine Musterentfernungseinheit 238, eine Anpassungseinheit 239 und eine Anzeigeeinheit 240. In dieser Ausführungsform wird beim Vergleichen von zwei Mustern, wenn ein Energie­ minimum in der Nähe des vorderen oder hinteren Endes eines Musters vorhanden ist, dieser Teil des Musters, das ein Ener­ gieminimum hat, zwischen dem Energieminimum und dem vor­ deren oder hinteren Ende des Musters entfernt, und dann wer­ den die beiden Muster zur Anpassung miteinander verglichen. Wenn in diesem Fall die Anzahl Minima zwischen den beiden Mustern unterschiedlich ist, wird der Teil des Musters, das eine größere Anzahl Minima hat, zwischen dem ersten oder letzten Minimum und dem Musterende entfernt, und dann werden die beiden Muster verglichen. Hierbei wird angenommen, daß ein Energieminimum in einer Sprache einem lautlosen Ab­ schnitt in der Sprache (dem Wort) enspricht.
Zuerst wird, wenn die Sprache in das Mikrophon 21 eingegeben wird, ein Sprachsignal erzeugt, und die Energie der Sprache wird durch die Einheit 242 gemessen. Gleichzeitig wird ge­ prüft, ob ein lautloses Intervall vorhanden ist oder nicht und es wird die Anzahl solcher lautloser Intervalle aufge­ zeichnet. Dann wird ein Bezugsmuster aus der Bibliothek 232 herausgenommen, und die Anzahl Sprachintervalle in dem Be­ zugsmuster wird mit der Anzahl Sprachintervalle in dem ein­ gegebenen Muster verglichen. Wenn diese Zahlen übereinstim­ men, wird zu einem gewöhnlichen Anpassungsschritt übergegan­ gen, um die zwei Muster, sowie sie sind zu vergleichen. Es wird dann auf einen Schritt übergegangen, um einen Teil eines Musters nur dann zu entfernen, wenn diese Zahlen nicht übereinstimmen. Das heißt, wie im einzelnen noch beschrieben wird, wird die Energie einer in das Mikrophon 21 eingegebenen Sprache mittels der Einheit 224 gemessen, um dadurch die Stelle eines lautlosen Intervalls festzustellen, und es wird eine andere Marke in Abhängigkeit davon verwendet, ob ein solches lautloses Intervall innerhalb von 100 ms von dem vor­ deren Ende des Musters aufgefunden wird. Ein Bezugsmuster, indem eine solche Markierung zugeteilt ist, wird aus der Bibliothek 232 herausgenommen, und es wird geprüft, zu se­ hen, ob das eingegebene Muster eine Markierung hat oder nicht, welche mit der Markierung des Bezugsmusters identisch ist. Wenn die zwei Markierungen, dieselben sind, dann wird der Umschalter 231 zu einem Kontakt a umgeschaltet, so daß die beiden Muster so wie sie sind, in üblicher Weise vergli­ chen werden. Wenn dagegen die zwei Markierungen unterschied­ lich sind, dann wird der Schalter 231 zu einem Kontakt b um­ geschaltet, so daß dieser Teil des Musters, welcher eine größere Anzahl von Energieminima hat, zwischen dem ersten oder letzten Minimum und dem Musterende durch die Musterent­ fernungseinheit 238 beseitigt, und danach werden die beiden Muster durch die Anpassungseinheit 239 verglichen. Im Ergeb­ nis kann somit ein fehlerhaftes Muster durch Verschieben ei­ nes lautlosen Intervalls entsprechend korrigiert werden, und es kann eine Musteranpassung mit hoher Genauigkeit durchge­ führt werden.
In Fig. 46 ist ein Flußdiagramm eines Mustervergleichsver­ fahrens gemäß noch einer weiteren Ausführungsform der Erfin­ dung dargestellt. In Fig. 47 ist schematisch großteils in Blockform ein Spracherkennungssystem zum Durchführen des Verfahrens in Fig. 46 dargestellt. Diese Ausführungsform ist im Aufbau in vieler Hinsicht der vorstehend anhand von Fig. 44 und 45 beschriebenen Ausführungsform ähnlich, so daß die gleichen Bezugszeichen für die gleichen Elemente verwendet sind. Die Ausführungsform weist einen Vergleicher 241, eine Anzahl lautlose Intervalle erzeugende Einheit 242, einen Um­ schalter 243, eine Recheneinheit 244, einen Vergleicher 245, eine eine zu multiplizierende Konstante setzende Einheit 246 und einen Umschalter 247 auf. In dieser Ausführungsform wird beim Vergleichen von zwei Mustern zuerst geprüft, ob ein Energieminimum in der Nähe des vorderen oder hinteren En­ des eines Musters vorhanden ist oder nicht. Wenn ein der­ artiges Energieminimum nur in einem der Muster vorhanden ist, wird dieser Teil des Musters, das ein solches Energie­ minium hat, zwischen dem Energieminimum und dem vorderen oder hinteren Ende entfernt, und dann erst werden für eine Anpassung die beiden Muster verglichen. In diesen Fällen wird gemäß der Erfindung geprüft, ob ein Eingangssignal eine Anzahl Energieminima hat oder nicht. Wenn eine Anzahl Ener­ gieminima vorhanden ist, wird das Verhältnis zwischen der Musterlänge und der Position des Energieminimums festge­ stellt. Wenn das sich ergebende Verhältnis im Vergleich zu dem Verhältnis des Bezugsmusters näherliegt und ein Energie­ minimum nur in der Nähe eines der Muster existiert, wird eine Musteranpassung unter der Annahme durchgeführt, daß beide Muster Energieminima oder keine Energieminima haben. Hierbei ist angenommen, daß ein Energieminimum einem laut­ losen Abschnitt einer Sprache entspricht.
Wenn Sprache in das Mikrophon 21 eingegeben wird, wird des­ sen Energie durch die Einheit 224 gemessen, und es wird ge­ prüft, ob es ein lautloses Intervall in der Sprache gibt oder nicht. Wenn dies der Fall ist, wird deren Lage bestimmt. Wenn ein solches lautloses Intervall innerhalb von 100 ms von dem vorderen Ende des Sprachmusters aufgefunden wird, wird eine Markierung zugeteilt, welche die Möglichkeit anzeigt, daß eine Rauschkomponente an dem vorderen Ende des Sprach­ musters eingegeben worden ist. Gleichzeitig wird die Anzahl lautloser Intervalle festgestellt. Wenn zwei oder mehr laut­ lose Intervalle in einem der Muster vorliegen, wird geprüft, ob der Unterschied zwischen den Positionsverhältnissen der lautlosen Intervalle innerhalb 10 Prozent liegt oder nicht. Wenn sie innerhalb 10% liegen, dann wird der Schalter 244 aus der in Fig. 47b dargestellten Schaltung umgeschaltet, um die Musterentfernungseinheit 238 zu umgehen und um folglich einen gewöhnlichen Anpassungsvorgang durchzuführen. Wenn da­ gegen die Differenz 10 Prozent oder mehr ist, dann wird der Schalter 247 in die in Fig. 47b dargestellte Position ge­ bracht und es wird ein Muster mit einer größeren Anzahl von lautlosen Intervallen der Einheit 238 zugeführt.
Das heißt, gemäß dieser Ausführungsform wird für zwei Mu­ ster mit lautlosen Intervallen, die bei 110 ms und 90 ms auf­ gefunden worden sind, eine Musteranpassung zwischen den beiden Mustern unter der Annahme durchgeführt, daß kein Geräusch eingebracht ist und keine Information verloren wor­ den ist. Hierbei ist das Verhältnis der Position von laut­ losen Intervallen durch f′/f festgelegt, wobei f eine Muster­ länge (in ms) und f′ eine lautlose Position (in ms) ist. Wenn die Musterlänge und die Anzahl lautloser Intervalle groß ist, kann es zu einer Fehlerzunahme grade durch das Verhältnis kommen. Unter diesen Umständen wird dann geprüft, ob ein Eingangssignal eine Anzahl Energieminima hat oder nicht. Wenn eine Anzahl Energieminima bestehen, wird das Ver­ hältnis zwischen der Musterlänge und der Energieminimum- Position bestimmt, und das sich ergebende Verhältnis wird mit dem entsprechenden Verhältnis des Bezugsmusters vergli­ chen. Wenn die beiden Verhältnisse nahe beieinanderliegen und die Länge zwischen dem Energieminimum und dem Musterende jedes der Muster gleich oder kleiner als ein vorherbestimm­ ter Wert ist und wenn darüber hinaus ein Energieminimum nur in der Nähe des Endes eines der Muster vorhanden ist, dann wird eine Musteranpassung unter der Annahme durchgeführt, daß beide Muster Energieminima oder keine Energieminima ha­ ben.
In Fig. 28 ist ein Flußdiagramm der Ausführungsform zur Durchführung einer Musteranpassung dargestellt, wobei ein Verhältnis zwischen der Musterlänge und der Minimumposition festgelegt wird, wenn eine Anzahl Energieminima vorhanden ist. In Fig. 49 (49a und 49b) ist schematisch großteils in Blockform ein Spracherkennungssystem zur Durchführung des Verfahrens in Fig. 48 dargestellt. In dieser Ausführungsform wird nach einer Überprüfung der Differenz des Verhältnisses der Positionen von lautlosen Intervallen der absolute Ab­ stand oder die entsprechende Zeit eines lautlosen Abschnitts überprüft, und nur wenn diese Differenz größer als 200 ms ist, wird zu der Musterentfernungseinheit 238 übergegangen. Selbstverständlich sind die speziellen Werte, die hier als 10 Prozent und 200 ms angegeben sind, nur Beispiele und es können auch andere Werte verwendet werden, solange sie die Nähe in geeigneter Weise festlegen können.
In Fig. 50 ist ein Flußdiagramm einer Schrittfolge eines Mustervergleichsverfahrens gemäß noch einer weiteren Aus­ führungsform der Erfindung dargestellt. In Fig. 51 (51a oder 51b) ist großteils in Blockform ein Spracherkennungssystem mit einem Aufbau zum Durchführen des Verfahrens in Fig. 50 dargestellt. Da diese Ausführungsform in vieler Hinsicht der vorherigen anhand von Fig. 49 beschriebenen Ausführungs­ form ähnlich ist, sind gleiche Bezugszeichen für die glei­ chen Elemente verwendet. In dieser Ausführungsform wird beim Vergleichen von zwei Mustern zuerst geprüft, ob ein Energie­ minimum in der Nähe des vorderen oder hinteren Endes eines Musters vorhanden ist oder nicht. Wenn ein Energieminimum nur in einem der Muster vorhanden ist, wird dieser Teil des Musters, welcher ein solches Energieminimum hat, zwischen dem Energieminimum und dem vorderen oder hinteren Ende ent­ fernt, und danach werden die beiden Muster zur Anpassung miteinander verglichen. In diesem Fall wird bei dieser Aus­ führungsform geprüft, um zu sehen, ob ein Eingangssignal ein Energieminimum hat oder nicht. Wenn die Anzahl Energieminima zwischen dem eingegebenen Muster und dem Bezugsmuster unter­ schiedlich ist, wird die Länge zwischen dem Energieminimum, welches dem Musterende am nächsten ist, und einem lautlosen Intervall des Musters, das eine größere Anzahl Energiemi­ nima hat, von der Musterlänge des Musters subtrahiert, um einen Wert zu erhalten, welcher dann mit der Musterlänge des anderen Mustes verglichen wird. Wenn der auf diese Weise erhaltene Wert näher bei der Musterlänge des anderen Musters liegt, dann wird dieser Teil des Musters, das eine größere Anzahl Energieminima hat, zwischen dem Energieminimum und dem Musterende entfernt, und dann werden die beiden Muster für ein Anpassen miteinander verglichen. Das heißt, wenn ein lautloses Intervall am vorderen Ende eines eingegebenen Musters vorhanden ist und es eine Markierung hat, welche sich von der Markierung eines Bezugsmusters unterscheidet, dann wird die Länge von dem vorderen Ende bis zu dem stimm­ losen Intervall des eingegebenen Musters von der Gesamt­ musterlänge Fa des eingegebenen Musters subtrahiert, um die Länge fb zu bestimmen. Dann wird geprüft, welche der Längen fa und fb näher bei der Gesamtmusterlänge Fl des Bezugs­ musters liegt. Nur wenn die Länge Fb näher bei der Länge Fl liegt, wird zu der Musterentfernungseinheit 238 übergegan­ gen.
Nunmehr wird im Rahmen der Erfindung die Ausbildung eines Bezugsmusters beschrieben, das insbesondere bei einer Spracherkennung verwendbar ist. Wie vorstehend beschrieben, ist es äußerst wichtig, ein Bezugssprachmuster mit einer sehr hohen Qualität zu erzeugen, um so eine höhere Erken­ nungsrate zu erhalten. Als Verfahren zum Erzeugen eines der­ artigen Bezugsmusters ist vorgeschlagen worden, dasselbe Wort eine Anzahl Mal auszusprechen, um eine Anzahl Sprach­ muster zu erzeugen, welche dann gemittelt werden, um ein einziges Bezugsmuster festzulegen. Bei dieser Technik kann die statistische Information von Sprachschwankungen auch in dem Bezugsmuster erhalten werden; da jedoch die Aussprache eine Anzahl mal wiederholt werden muß, um ein einziges Be­ zugsmuster zu erzeugen, würde, selbst wenn eine der Ausspra­ chen eine schlechte Feststellung eines Sprachintervalls hat, dies dazu führen, daß das sich ergebende Bezugsintervall in seiner Qualität verschlechtert ist. Ein in Fig. 59a darge­ stelltes Muster hat einen Geräuschanteil, der zu Beginn einer Sprache (eines Wortes) eingebracht worden ist, während ein in Fig. 59b dargestelltes Muster ein normales Muster ist. Wenn ein Durchschnittswert zwischen den beiden Mustern genommen wird, wird eine Übereinstimmung zwischen den bei­ den vorderen Enden und zwischen den beiden hinteren Enden hergestellt. Im Ergebnis wird dann der Geräuschbestand­ teil des Musters in Fig. 59a zu dem vorderen Teil des nor­ malen in Fig. 59b dargestellten Musters hinzugefügt. Daher wird das sich ergebende, gemittelte Muster in der Qualität schlechter.
Um hiermit fertigzuwerden, ist, wie vorstehend beschrieben, gemäß der Erfindung ein Verfahren vorgeschlagen, bei welchem das Vorhandensein oder Fehlen eines Energieminimums inner­ halb einer vorherbestimmten Länge von dem vorderen oder hin­ teren Ende eines Musters geprüft wird, und wenn ein solches Energieminimum nur in einem der beiden zu vergleichenden Muster vorhanden ist, dann wird dieser Teil des Musters, das ein Energieminimum hat, zwischen dem Musterende und dem Energieminimum zu dem Muster hinzugefügt, das kein solches Energieminimum hat. Wenn jedoch gemäß einem derartigen Ver­ fahren, wie in Fig. 60 dargestellt ist, ein Durchschnitts­ wert zwischen dem Muster mit einem Geräuschanteil N, der in Fig. 60a dargestellt ist, und dem Muster ohne einen Geräusch­ anteil, wie in Fig. 60b dargestellt ist gebildet wird, wird der Geräuschanteil N am vorderen Ende des Musters der Fig. 60a zu dem Muster der Fig. 60b hinzugefügt, und dann werden die beiden Muster, die nunmehr beide den Geräuschanteil ha­ ben, gemittelt, wodurch ein in Fig. 60c dargestelltes Mu­ ster erzeugt wird. Gemäß diesem Verfahren wird jedoch in dem Fall, daß ein Energieminimum manchmal erscheint und manchmal auch nicht erscheint, wenn ein bestimmtes Wort ausgesprochen wird, wie es beispielsweise in dem Fig. 61a dargestellten Fall für das japanische Wort "Ido" der Fall ist, das im eng­ lischen "Bewegung" bedeutet oder in dem Fall, daß ein Ener­ gieminimum in seiner Lage bezüglich der Zeitachse nahe dem Schwellenwert verschoben wird, der in Fig. 61b dargestellte Fall wird unnötige Information am vorderen oder hinteren En­ de des Musters hinzugefügt, wie in Fig. 61c dargestellt ist, so daß es einen Fall gibt, bei welchem durch das Anwenden einer Mittelung ein eher schlechteres Bezugsmuster erzeugt wird.
Zur Lösung dieser Geschwindigkeit ist ein Verfahren und ein System geschaffen, um ein Bezugsmuster hoher Qualität zu erzeugen, welche insbesondere bei einer Spracherkennung verwendbar sind. Gemäß der Erfindung werden eine Anzahl Mu­ ster für einen ganz bestimmten interessierenden Fall er­ zeugt, wie beispielsweise für eine Sprache oder ein Wort, und die Anzahl Muster werden verarbeitet, um ein Bezugs­ muster festzulegen. Es wird geprüft, ob es ein Muster ist oder nicht, welches ein Energieminimum innerhalb einer vor­ herbestimmten Länge von dem vorderen oder hinteren Ende des Musters hat. Wenn es ein Muster ohne ein solches Energie­ minimum ist, wird dieser Teil des Musters, das ein Energie­ minimum hat, zwischen dem Energieminimum und dem Musterende zu dem Muster ohne ein derartiges Energieminimum hinzugefügt. In diesem Fall wird gemäß der Erfindung eine erste vorherbe­ stimmte Länge von dem vorderen oder hinteren Ende des Musters an, das kein Energieminimum innerhalb einer zweiten vorherbe­ stimmten Länge von dem vorderen oder hinteren Ende hat, be­ züglich der Ähnlichkeit mit dem Teil des Musters verglichen, das ein Energieminimum zwischen dem vorderen oder hinteren Ende und dem Energieminimum hat, und es wird auch mit einem Block verglichen, der eine große Energie nach oder vor dem Energieminimum aufweist, und das vorstehend erwähnte hin­ zufügen eines Musterbestandteils wird nur dann durchgeführt, wenn die zuerst angeführte Ähnlichkeit kleiner ist als die an zweiter Stelle angeführte Ähnlichkeit.
In Fig. 52 ist schematisch großteils in Blockform ein Sprach­ erkennungssystem gemäß noch einer weiteren Ausführungsform der Erfindung dargestellt, wobei dieses System sich beson­ ders für eine Verwendung in Verbindung mit dem Sprachver­ gleichsverfahren eignet. In Fig. 53 (Fig. 53a und 53b) ist ein Flußdiagramm, anhand welchem die Arbeitsweise des in Fig. 52 dargestellten Systems erläutert wird, dargestellt.
Das dargestellte System weist ein Mikrophon 301, eine Vor­ verarbeitungseinheit 302, eine Merkmal-Extrahiereinheit 303 , einen Puffer 304 für das eingegebene Muster, einen Puffer 305 für das Bibliotheksmuster, eine Sprachenergie-Meßein­ heit 306, eine ein Sprachintervall feststellende Einheit 307, eine ein sprachloses Intervall am Kopfende überprü­ fende Einheit 308, eine ein Sprachintervall am hinteren Ende überprüfende Einheit 309, eine Blockähnlichkeits-Anpassungs­ einheit 310, einen Vergleicher 311, eine Muster-Addierein­ heit 312, eine Registrierungs-Anpassnungseinheit 313 und ei­ nen Bibliotheksspeicher 314 auf. Bei dieser Ausführung wird Sprache in das Mikrophon 301 eingegeben, um ein entsprechen­ des Sprachsignal zu erzeugen, welches dann durch die Vor­ verarbeitungseinheit 301 entsprechend verarbeitet wird; da­ nach wird eine Merkmalsgröße der Sprache durch die Einheit 303 extrahiert. Wie vorstehend beschrieben, kann irgendeine gewünschte Merkmalsgröße oder -Quantität verwendet werden, wie ein Energiespektrum, LPC-Koeffizienten, ein Cepstrum oder igendeine andere Merkmalsgröße.
Gleichzeitig wird die Spracheenergie durch die Einheit 306 gemessen, und ein Sprachintervall wird auch durch die Ein­ heit 307 festgestellt. Die Prüfeinheit 308 überprüft, um zu sehen, ob ein lautloses Intervall in einer vorherbestimmten Zeitlänge von dem vorderen Ende des Sprachmusters aus vor­ handen ist oder nicht; in ähnlicher Weise überprüft die Prüfeinheit 309, um zu sehen, ob ein lautloses Intervall in einem vorherbestimmten Zeitintervall von dem hinteren Ende des Sprachmusters aus vorhanden ist oder nicht. Für die erste Aussprache wird das vorstehend beschriebene Verfahren durchgeführt, so daß das sich ergebende Sprachmuster in dem Bibliotheksmuster-Speicher 305 gespeichert wird. Bei der zweiten Aussprache für dasselbe Wort wird das zweite Wort in ähnlicher Weise verarbeitet, und das sich ergebende Muster wird in dem Puffer 304 für eingegebene Muster gespeichert. Dann wird eine Mittelung zwischen dem ersten Puffer in dem Puffer 305 und dem zweiten Muster in dem Puffer 304 durchge­ führt, um ein gemitteltes Muster zu erzeugen, welches dann als Bezugsmuster in dem Bibliotheksspeicher 314 gespeichert wird. Für das dritte und folgende Aussprechen desselben Wortes wird die Mittelbildung zwischen dem Bezugsmuster und dem eingegebenen Muster durchgeführt.
Wenn, wie in Fig. 60a dargestellt, ein Geräuschanteil (z. B. das Geräusch beim Öffnen und Schließen des Mundes oder der Lippen oder ein Hintergrundgeräusch) in das Muster an dessen Kopfende eingebracht worden ist, wird ein Zeichen durch die das vordere Ende eines lautlosen Intervalls überprüfende Einheit für das in Fig. 60a dargestellte Muster gesetzt. Da bei dem nächsten eingegebenen, in Fig. 60a dargestellten Mu­ ster kein Geräuschanteil vorhanden ist, wird der Geräuschan­ teil des Mustes der Fig. 60a zu dem vorderen Ende des Mu­ sters der Fig. 60b hinzugefügt, um das in Fig. 60c darge­ stellte Muster zu erzeugen. Die beiden Muster werden dann gemittelt, um dadurch ein Bezugsmuster hoher Güte festzulegen. Jedoch wird, wie in Fig. 61 dargestellt ist, für den Fall, daß das Muster in Fig. 61a ein lautloses Intervall inner­ halb einer vorherbestimmten Länge von dem vorderen Ende hat und das Muster in Fig. 61b kein solches lautloses Intervall hat, ein fehlerhaftes Bezugsmuster erzeugt, wie in Fig. 61c dargestellt ist. In diesem Fall hat das Muster in Fig. 61a keine Rauschkomponente, obwohl ein lautloses Intervall inner­ halb einer vorherbestimmten Länge hat, ähnlich wie im Fall der Fig. 60a, wobei in diesem Fall der Geräuschanteil N ein­ gebracht worden ist.
Zur Lösung dieses Aspekts der Erfindung wird, wie in Fig. 54 dargestellt, für den Fall, daß ein lautloses Intervall innerhalb einer vorherbestimmten Länge von dem vorderen Ende aus in einem der Muster vorhanden ist und kein derartiges lautloses Intervall in dem anderen Muster vorhanden ist, die Ähnlichkeit M 0 zwischen den vorderen Enden a und b der je­ weiligen Muster und auch die Ähnlichkeit M 1 zwischen dem vor­ deren Teil b des in Fig. 54b dargestellten Musters, das kein lautloses Intervall hat, und dem Block c nach dem lautlosen Intervall des in Fig. 54a dargestellten Musters, das ein lautloses Intervall hat, bestimmt. Da im Falle der Fig. 54 (54a und 54b) die beiden Muster Silben "i" und "do" ohne eine Hinzufügung eines Rauschanteils und ohne Informations­ verlust aufweisen, ist die Ähnlichkeit M 0 größer als die Ähn­ lichkeit M 1. Wenn in einem solchen Fall die Beziehung gilt, M 0 ist größer als M 1, dann wird die Mittelung zwischen den beiden Mustern ohne Hinzufügen eines Musterbestandteils durchgeführt. Wenn dagegen ein Geräuschanteil am vorderen Ende eingebracht worden ist, wie in Fig. 55a dargestellt ist, oder der hintere Teil der Sprachinformation verloren­ gegangen ist, wie in Fig. 55b dargestellt ist, sollte die Ähnlichkeit M 0 zwischen den Teilen a und b kleiner sein als die Ähnlichkeit M 1 zwischen den Teilen b und c. Folglich wird, solange die Bedingung gilt, M 0 ist kleiner als M 1, der Rauschanteil des Musters der Fig. 55a zu dem vorderen Ende des Mustes der Fig. 55b hinzuaddiert.
In dem in Fig. 56a und 56b dargestellten Fall haben beide Muster ein lautloses Intervall innerhalb einer vorherbe­ stimmten Länge von dem vorderen Ende aus. In dem Muster der Fig. 56a ist ein Geräuschanteil an dem vorderen Ende ein­ gebracht worden, und die Ähnlichkeit M 0 sollte kleiner sein als die Ähnlichkeit M 1. Folglich sollte der Rauschanteil des Musters der Fig. 56a vor einer Mittelung an dem vorderen Ende des Musters der Fig. 56b hinzugefügt werden. Folglich werden gemäß der Erfindung für den Fall, daß jedes der bei­ den Muster ein lautloses Intervall an dem vorderen Ende hat, wenn die Anzahl lautloser Intervalle zwischen den beiden Mu­ stern verschieden ist, wenn beispielsweise das Muster der Fig. 56a zwei lautlose Intervalle hat und das Muster der Fig. 56b nur ein lautloses Intervall hat, die zwei Ähnlich­ keiten zwischen ausgewählten Teil der beiden Muster berech­ net, und es wird bestimmt, ob eine Musteraddition vor einer Mittelung durchzuführen ist oder nicht, wie vorstehend be­ reits beschrieben ist. Und zwar ist dies bezüglich des vor­ deren Ende eines Sprachmusters beschrieben; jedoch kann eine entsprechende Verarbeitung auch für das hintere Ende eines Musters durchgefüht werden. Wenn wie im Falle der Durchführung des vorstehend beschriebenen Verfahrens für das vordere Ende eines der Muster ein lautloses Intervall innerhalb einer vorherbestimmten Länge von dem hinteren Ende hat, ist es äußerst schwierig festzulegen, ob ein Mu­ sterbestandteil an dem vorderen oder an dem hinteren Ende hinzuzufügen ist. Folglich wird in einem solchen Fall vor­ zugsweise die Verarbeitung bezüglich des vorderen Endes nicht durchgeführt, selbst wenn den vorstehend beschriebe­ nen Bedingungen genügt ist, da das Verarbeitungsergebnis für das vordere Ende noch nicht bekanntgeworden ist (Fig. 57); die vorstehend beschriebene Verarbeitung für das vordere En­ de wird durchgeführt, wenn beide Muster ein lautloses Inter­ vall innerhalb einer vorbestimmten Länge ausgehend von dem hinteren Ende haben (Fig. 58).
Ein weiterer Aspekt der Erfindung ist sehr ähnlich dem an­ deren Aspekt der Erfindung, der vorstehend gerade beschrie­ ben worden ist. In Fig. 62 ist schematisch großteils in Blockform ein Spracherkennungssystem gemäß noch einer wei­ teren Ausführungsform der Erfindung dargestellt. Die in Fig. 62 dargestellte Ausführungsform ist in vieler Hinsicht der Ausführungsform in Fig. 52 ähnlich, so daß gleiche Ele­ mente mit den gleichen Bezugszeichen bezeichnet sind. In Fig. 63 (63a und 63b) ist ein Flußdiagramm dargestellt, das zur Erläuterung der Arbeitsweise des in Fig. 62 dargestell­ ten Systems verwendet wird. Dieses Spracherkennungssystem weist ein Mikrophon 301, eine Vorverarbeitungseinheit 302, eine Merkmal-Extrahiereinheit 303, einen Puffer 304 für ein eingegebenes Muster, einen Puffer 305 für ein Bibliotheks­ muster, eine Sprachenergie-Meßeinheit 306, eine ein Sprach­ intervall feststellende Einheit 307, eine ein lautloses In­ tervall am vorderen Ende überprüfende Einheit 308, eine ein lautloses Intervall am hinteren Ende überprüfende Einheit 309, eine Rahmenlängen-Berechnungseinheit 320, einen Ver­ gleicher 311, eine Muster-Addiereinheit 312, eine Registrie­ rungs-Anpassungseinheit 313 und einen Bibliotheksspeicher 314 auf.
Die grundsätzliche Arbeitsweise dieser Ausführungsform ist derjenigen sehr ähnlich, welche unter Bezugnahme auf Fig. 52 vorstehend beschrieben worden ist, weshalb auf diese Be­ schreibung Bezug genommen wird. Im Aufbau unterscheidet sich die in Fig. 62 dargestellte Ausführungsform von der in Fig. 52 dargestellten Ausführungsform dadurch, daß zusätzlich eine Rahmenlängen-Berechnungseinheit 320 vorgesehen ist. Wenn bei dieser Ausführungsform, wie in Fig. 64 dargestellt ist, ein lautloses Intervall innerhalb einer vorherbestimm­ ten Länge ausgehend von dem vorderen Ende in einem der bei­ den zu vergleichenden Muster vorhanden ist, wie in Fig. 64a dargestellt ist, und wenn kein solches lautloses Intervall in dem anderen Muster vorhanden ist, wie in Fig. 64b darge­ stellt ist, wird der Kopfteil des Musters der Fig. 64a, das ein lautloses Intervall hat zu dem vorderen Ende des Musters der Fig. 54b, das kein lautloses Intervall hat, nur dann hinzugefügt, wenn der Absolutwert der Differenz zwischen der gesamten Rahmenlänge (x + nf) des Musters der Fig. 64b zusam­ men mit der Hinzufügung des Kopfteils des Musters 64 a und die Rahmenlänge xf des Musters der Fig. 64a kleiner als der Absolutwert der Differenz zwischen der ursprünglichen Rah­ menlänge nf des Musters der Fig. 64 und der Rahmenlänge des Musters der Fig. 64a ist. Diese Bedingung kann auf fol­ gende Weise ausgedrückt werden:
K 1 × Absolutwert von (nf - xf) ist größer als K 2 × Abso­ lutwert von (x + nf - xf). (1)
Hierbei sind K 1 und K 2 Konstante, welche die Differenzgren­ zen festlegen und sind vorzugsweise so gesetzt, daß sie der Bedingung K 1/K 2 = 1 · 1 genügen.
In Fig. 64 (64a, 64b) ist der Fall dargestellt, daß kein Mu­ sterbestandteil hinzugefügt wird, d. h. K 1 × Absolutwert von (xf - nf) ist kleiner als K 2 × Absolutwert von (x + nf - xf).
In Fig. 65 (65a, 65b) ist der Fall dargestellt, daß ein Musterbestandteil hinzugefügt werden sollte, d. h. K 1 × Absolutwert von (xf - nf) ist größer als K 2 × Absolutwert von (x + nf - xf). Auf diese Weise wird ein Teil des Musters zu dem anderen Muster nur dann hinzugefügt, wenn die Län­ gendifferenz zwischen den beiden Mustern mit einer Hinzu­ fügung kleiner ist als ohne eine Hinzufügung. Mit Hilfe dieser Methode kann jederzeit ein Bezugsmuster hoher Quali­ tät erhalten werden.
In dem in Fig. 66 dargestellten Fall haben die beiden Muster ein lautloses Intervall innerhalb einer vorherbestimmten Länge ausgehend von dem vorderen Ende, und die Anzahl der lautlosen Intervalle ist bei den beiden Mustern verschieden. Ganz offensichtlich ist durch die vorstehend beschriebene Beziehung den beiden in Fig. 66a und 66b dargestellten Mu­ stern genügt. Folglich wird gemäß der Erfindung dem Kopfteil des Musters der Fig. 66a der Kopfteil des Musters der Fig. 66b hinzugefügt, und dann wird eine Mittelung zwischen den Mustern hindurchgeführt. Es sollte beachtet werden, daß, ob­ wohl es bezüglich des Kopfendes eines Musters beschrieben wordenist, dies genauso bei dem hinteren Teil eines Musters anwendbar ist. Außerdem gelten die Argumente, welche bezüg­ lich der Fig. 57 und 58 in der vorherigen Ausführungsform beschrieben worden sind, auch für die vorliegende Ausfüh­ rungsform.
Nunmehr wird die Erfindung bezüglich einer vorläufigen Mu­ steranpassung beschrieben. Als weiterer Fortschritt auf dem Gebiet der spracherkennung ist nunmehr ein Spracherkennungs­ system durchführbar, bei dem annähernd 1000 Worte erkannt werden können. Das Grundschema bei dieser Spracherkennung ist beinahe immer eine Musteranpassung. Wenn die Anzahl Worte, welche durch ein Spracherkennungssystem erkannt wer­ den können, zunimmt, nimmt die Anzahl an Bezugssprachmustern zu, welche für eine Anpassung bezüglich eines eingegebenen, unbekannten Sprachmusters zu registrieren sind, was dann eine größere Speicherkapazität erfordert. Außerdem wird die Zeit zum Durchführen einer Musteranpassung länger, da der Ähnlichkeitsgrad zwischen dem eingegebenen unbekannten Muster und jedem der Bezugsmuster berechnet werden muß. Um mit diesem Problem fertigzuwerden, ist vorgeschlagen worden, ein vorläufiges Auswählschema anzuwenden, welches die Be­ zugsmuster auf eine kleinere Anzahl von sogenannten Kandi­ daten-Mustern mit bestimmten Merkmalen beschränkt; es wird dann eine Musteranpassung zwischen dem eingegebenen Muster und jedem der ausgewählten Kandidaten-Muster durchgeführt, deren Anzahl geringer ist. Üblicherweise kann die Anzahl lautloser Intervalle, die in jedem Muster vorhanden sind, oder die Dauer eines solchen lautlosen Intervalls als Merk­ mal für eine vorläufige Auswahl benutzt werden.
Jedoch besteht im Falle eines Wortes, wie "Stopp", das in Fig. 71 dargestellt ist, an sich ein Konsonant am vorderen oder hinteren Ende des Wortes, so daß es oft der Fall ist, daß dieser Teil des Wortes nach dem lautlosen Intervall A 2 am hinteren Ende verloren geht und nicht festgestellt wird. Folglich ändert sich die Durchführung des vorläufigen Aus­ wahlschemas in Abhängigkeit davon, ob die Anzahl lautloser Intervalle oder die Dauer eines lautlosen Intervalles rich­ tig festgestellt wird oder nicht. Diese Schwierigkeit be­ steht nicht nur für ein Wort wie "Stopp", welches einen unabhängig ausgesprochenen Konsonanten hat, sondern auch für ein Wort, wie "fifteen", welches einen schwach ausgespro­ chenen Laut, wie nämlich /f/ "fifteen" an dem vorderen Ende des Wortes hat, wie in Fig. 72 dargestellt ist.
Zur Lösung dieser Schwierigkeit ist es ein weiteres Ziel der Erfindung, ein Verfahren und ein System zu schaffen, um eine vorläufige Auswahl von Bezugsmustern genau durchzuführen, selbst wenn ein Sprach- oder Sprechintervall nicht richtig festgestellt wird. In Fig. 67 ist ein Flußdiagramm einer vorläufigen Auswählmethode dargestellt, das in einem Sprach­ erkennungssystem gemäß noch einer weiteren Ausführungsform der Erfindung anwendbar ist. In Fig. 68 ist in Blockform ein vorläufiges Auswählsystem zur Durchführung des Verfah­ rens in Fig. 67 dargestellt. Das System weist ein Mikro­ phon 401, eine ein Sprechintervall feststellende Einheit 402, eine Filterbank 403, einen Hoch/Tief-Frequenzbereich-Ver­ gleicher 404, einen Vergleicher 405, einen Zähler 406 und eine Anpassungseinheit 407 auf. Bei diesem Aufbau wird eine erste Anzahl Muster auf eine zweite Anzahl beschränkt, wel­ che kleiner als die erste Anzahl Muster ist, um die Anzahl Merkmale, welche die Muster besitzen und/oder die Dauer ei­ nes derartigen Merkmals zu vergleichen. Wenn ein solcher Merkmalteil am vorderen oder hinteren Ende eines Musters vorhanden ist, wird dieser Merkmalsteil aus dem Muster ent­ fernt, und die Anzahl an Merkmalsteilen oder die Dauer eines solchen Merkmalsteils werden festgelegt, um in dem vorläu­ figen Auswahlschema verwendet zu werden. Wie in Fig. 67 dar­ gestellt, wird zuerst geprüft, ob der Laut /f/ an dem vorde­ ren Ende eines eingegebenen Sprachmusters vorhanden ist oder nicht; wenn dies der Fall ist, wird dieser Laut /f/ von dem Kopfende des eingegebenen Musters entfernt. In ähnlicher Weise wird dann geprüft, ob ein anderer Laut /f/ am hinteren Ende des eingegebenen Musters vorhanden ist oder nicht; wenn dies der Fall ist, wird dieser Laut /f/ von dem hinteren Ende des eingegebenen Musters entfernt. Dann wird die Anzahl von /f/-Lauten, die in dem restlichen eingegebenen Muster vorhanden sind, gezählt. Die auf diese Weise gezählte Anzahl von /f/-Lauten wird zusammen mit einem zugeordneten Bezugs­ muster in einer Bibliothek gespeichert. Im Erkennungsmode wird die Anzahl von /f/-Lauten eines eingegebenen Musters, welches, wie oben beschrieben, gezählt worden ist, mit der gespeicherten Anzahl von /f/-Lauten jedes der Bezugsmuster verglichen, um dadurch vorläufig mögliche Kandidaten-Muster aus den in einem Speicher gespeicherten Bezugsmusters aus­ zuwählen.
Dies wird nunmehr im einzelnen anhand von Fig. 68 beschrie­ ben; die Sprache wird in das Mikrophon 401 eingegeben, um entsprechendes Sprachsignal zu erzeugen, welches dann der das Sprechintervall feststellenden Einheit 402 zugeführt wird, in welcher eine Sprachinformation extrahiert wird. Das Sprachsignal wird dann einer Frequenzanalyse in der Fil­ terbank 403 unterzogen. In dieser Ausführungsform folgt auf die Filterbank 403 in der Flußrichtung eines Sprachsignals der Detektor 402. Jedoch kann die Reihenfolge der Anordnung zwischen den beiden Elementen erforderlichenfalls auch umgedreht werden. Außerdem wird in der dargestellten Ausfüh­ rungsform als eine Merkmalsgröße das Ergebnis einer Frequenz­ analyse verwendet, d. h. ein Energiespektrum; jedoch kann auch irgendeine andere gewünschte Größe, wie beispielsweise LPC-Koeffizienten, verwendet werden. Um in der dargestellten Ausführungsfom den Laut /f/ festzustellen, wird geprüft, ob der hochfrequente Bestandteil größer als der niederfrequente Bestandteil ist oder nicht. Bei diesem Verfahren werden nicht nur der Laut /f/, sondern auch andere Laute wie /s/, welche eine ähnliche Charakteristik haben festgestellt, je­ doch ist dies kein bedeutsames Problem, da alle diese Laute als eine Einheit behandelt werden können.
Als Alternative hierzu, den Laut /f/ festzustellen, wird ein Muster eines Lautes, das dem Laut /f/ ähnlich ist, regi­ striert, und es kann eine Anpassung zwischen diesem Muster und einem eingegebenen Muster durchgeführt werden. Der Ver­ gleicher 405 legt fest, ob ein Laut, welcher möglicherweise ein /f/-Laut sein kann, bei der Feststellung eines anstei­ genden Endes einer Sprache (eines Wortes) durch die Fühlein­ heit 402 festgestellt wird, oder ob ein Laut, der möglicher­ weise ein /f/-Laut sein kann, fortwährend am Ende eines Wortes vorhanden ist und es werden die Länge eines derar­ tigen Lautes und die Anzahl derartiger Laute durch den Zäh­ ler 406 gezählt. In diesem Fall startet der Zähler 406 beim Feststellen eines /f/-Lautes und der Zähler 406 stoppt beim Feststellen eines anderen Lautes als der /f/-Laut.
In Fig. 69 ist ein Flußdiagramm eines vorläufigen Auswähl­ verfahrens dargstellt, das insbesondere in Verbindung mit einer Spracherkennung verwendbar ist und gemäß noch einer weiteren Ausführungsform der Erfindung ausgelegt ist. In Fig. 70 ist schematisch in Blockform ein Auswählsystem zur Durchführung des Verfahrens in Fig. 69 dargestellt. Wenn in dieser Ausführungsform ein vorherbestimmter Merkmalsteil in der Nähe des vorderen oder hinteren Endes eines Musters vorhanden ist, wird dieser Merkmalsteil aus dem Muster ent­ fernt, und die Anzahl an anderen Merkmalsteilen oder die Dau­ er eines solchen Merkmalsteils in dem übrigen Teil des Mu­ ster wird festgestellt. Mit Hilfe der auf diese Weise er­ haltenen Information wird dann eine vorläufige Auswahl durch­ geführt, um die Anzahl Bezugsmuster zu begrenzen, welche für eine Musteranpassung zu verwenden sind. Da die in Fig. 70 dargestellte Ausführungsform in vieler Hinsicht der in Fig. 68 dargestellten Ausführungsform ähnlich sind, sind die gleichen Bezugszeichen für die gleichen Elemente verwendet. Im Falle eines solchen Lautes, wie /f/-Lautes, wird dieser oft in der Nähe des vorderen oder hinteren Endes ei­ nes Wortes aufgefunden; wenn ein Konsonant an sich ausge­ sprochen wird, existiert ein lautloses Intervall vor oder nach einem solchen Konsonanten. In der vorliegenden Ausfüh­ rungsform, wie sie in Fig. 70 dargestellt ist, wird statt des Hoch/Tieffrequenz-Bereichs-Vergleichers 404 der in Fig. 68 dargestellten Ausführungsform eine Energie feststellende Einheit 408 vorgesehen, welche dazu verwendet wird, die Stelle eines lautlosen Intervalls zu bestimmen. Folglich wird ein lautloses Intervall auf der Basis der Größe von Sprach­ energie bestimmt. Wenn ein solches lautloses Intervall in­ nerhalb von 0,1 bis 0,2 s von dem vorderen oder hinteren Ende der Sprache (des Wortes) herausgefunden wird, wird festge­ legt, daß das Sprachmuster einen Aufbau hat, wie er in Fig. 71 dargestellt ist. Folglich wird dieser Teil aus dem Sprachmuster entfernt, und es wird geprüft, wie viele laut­ lose Intervalle in dem restlichen Teil des Sprachmusters vorhanden sind, oder wie lang das lautlose Intervall in dem restlichen Teil des Sprachmusters andauert; dann werden sol­ che Daten zusammen mit dem zugeordneten Sprachmuster ge­ speichert. In dem Erkennungsmode wird ein eingegebenes Mu­ ster in ähnlicher Weise verarbeitet, um die Anzahl an laut­ losen Intervallen und/oder die Dauer eines lautlosen Inter­ valles festzustellen; diese Daten werden dann verwendet, um sie mit den gespeicherten Daten von registrierten Bezugs­ mustern zu vergleichen, um dadurch die Bezugsmuster zu be­ schränken, um so mögliche Kandidaten-Muster auszuwählen. Jedes dieser Kandidatenmuster wird dann durch eine Musteran­ passung vollständig mit dem eingegebenen Muster verglichen, um so das eine Kandidaten-Muster mit dem höchsten Ähnlich­ keitsgrad auszuwählen. Auf diese Weise kann die Identität des eingegebenen Musters oder der eingegebenen Sprache er­ kannt werden.
  • Bezugszeichenliste   1 Spracheingabe
      2 Energie-Messung
      3 Merkmalsgrößen-Umsetzung
      4 Feststellen einer lautlosen Stelle
      5 Liegt lautlose Stelle in 100 ms n. hint. Ende?
      6 Markierungsaddition
      7 Bibliothek
      8 Dieselbe Markierung?
      9 Musterentfernung
     10 Musteranpassung
     11 Liegt lautlose Stelle innerhalb 100 ms vom Kopfende
     21 Mikrophon
     22 Filterbank
     23 Sprachintervall-Feststellung
     24 Merkmalsextraktion
     26 Vergleich
     27 /f/-Flag
     28 Vergleich
     29 Register 3
     30 Bibliotheksregister
     31 Markierungsvergleich
     32 a Register 1
     32 b Register 2
     33 Ähnlichkeitsgrad
     34 a Register 4
     34 b Register 5
     35 Ähnlichkeitsgrad
     36 Addierer
     37 Musterspeicherung
     39 Addition von Kopfende-Muster
     40 Überlagerungs-Mitteilungsvorgang
     42 Addition von dem internen Ende-Muster
     45 Register
     45 a Register
     45 b Register
     46 Register
     46 a Mittelung
     46 b Mittelung
     47 Zeitzählen
     48 Musterregister
     49 Flag-Prüfeinheit
     50 Muster-Verbindungseinheit
     54 Binäre Umsetzung
     55 BTSP-Formierung
     56 Addierer von Sprachmustern die n-mal durch lineare Expansion oder Kontraktion erzeugt worden sind
     57 Bibliothek
     58 Scheitelwert-Musterbildung
     59 Musterlängenanpassung durch lineare Expansion oder Kontraktion
     60 Ähnlichkeitsberechnung
     71 Sprachintervall-Festlegung
     72 Bandpaßfilter
     73 Register
     74 Energiemessung
     75 Vergleich
     76 Schwellenwert
     77 Zeitzähler
     78 Vergleich
     79 Zähler für lautlose Intervalle
     80 Markierungsvergleich
     81 Umschalter
     82 Bibliothek
     83 Rahmen-Länge
     84 Rahmen-Länge
     85 Multipliziereinheit
     86 Multiplizierkonstanten-Einstelleinheit
     87 Vergleich
     88 Umschalter
     89 Musterentfernung
     90 Anpassung
     91 Resultatanzeige
    101 Spracheingabe
    102 Energiemessung
    103 Merkmalsgrößen-Umwandlung
    104 Lautlose Positionsfeststellung
    105 Liegt lautlose Position innerhalb von 100 ms vom hinteren Ende?
    106 Markierungsaddition
    107 Bibliothek
    108 Dieselbe Markierung?
    109 Musterentfernung
    110 Musteranpassung
    111 Liegt lautlose Position innerhalb von 100 ms vom Kopfende?
    124 Energie
    125 Vergleich
    126 Schwellenwert
    127 Zähler für lautlose Intervalle
    128 Zeitzähler
    129 Vergleich
    130 Vergleich
    131 Zeit - 100 µs
    132 Zeiterzeugungseinheit
    133 Markierungsaddition
    134 Vergleich
    135 Bibliothek
    137 Musterentfernung an lautloser Position
    138 Anpassung
    139 Kandidaten
    140 Ergebnis
    224 Energiemessung
    225 Vergleich
    226 Schwellenwert
    227 Zeitzähler
    228 Vergleich
    229 Zähler für lautlose Intervalle
    230 Markierungsvergleich
    232 Bibliothek
    233 Recheneinheit
    234 Recheneinheit
    235 Recheneinheit
    236 Vergleich
    237 Umschalter
    238 Muster-Entfernung
    239 Anpassung
    240 Resultatanzeige
    241 Vergleich
    242 Nummer der lautlosen Abschnitte 2
    245 Vergleich
    246 Multiplizierkonstanten-Einstelleinheit
    247 Schalter
    249 Vergleich
    253 Vergleich
    301 Mikrophon
    302 Vorverarbeitung
    303 Merkmals-Extraktion
    304 Puffer für Eingabemuster
    305 Puffer für Bibliotheksmuster
    306 Sprachenergie-Feststellung
    307 Sprachintervall-Feststellung
    308 Lautloses Prüfen am Kopfende
    309 Lautloses Prüfen am Wortende
    310 Blockähnlichkeit
    311  Vergleich
    312 Muster-Addition
    313 Registrierungs-Anpassung
    314 Bibliotheksspeicher
    320 Rahmenlängen-Berechnung
    401 Mikrophon
    402 Sprachintervall-Feststellung
    403 Filterbank
    404 Vergleich von hoch-/niederfrequentem Bereich
    405 Vergleich
    406 Zähler
    407 Anpassung
    408 Energiefeststellung

Claims (61)

1. Verfahren zum Vergleichen von Mustern, dadurch ge­ kennzeichnet, daß
ein Paar erster und zweiter zu vergleichender Muster ge­ prüft werden, um zu sehen, ob eines von den beiden Mustern einen insabilen Teil hat oder nicht,
der instabile Teil aus dem einen der beiden Muster entfernt wird, wenn der instabile Teil gefunden worden ist, und dann das erste und zweite Muster verglichen werden.
2. Verfahren nach Anspruch 1, dadurch gekennzeich­ net, daß das Paar aus dem ersten und dem zweiten Muster geprüft wird, um zu sehen, ob ein Energieminimum in einer vorherbestimmten Länge von einem vorderen oder einem hinte­ ren Ende jedes der beiden Muster vorhanden ist oder nicht, wobei der instabile Teil als ein Teil des einen Musters zwi­ schen dem Energieminimum und dem vorderen oder hinteren Ende definiert ist.
3. Verfahren nach Anspruch 1, dadurch gekennzeich­ net, daß jede der beiden Muster ein Sprachmuster ist, welches einen Sprachenergiepegel als eine Zeitfunktion dar­ stellt und das Energieminimum ein Minimumpegel in der Sprach­ energie ist.
4. Verfahren nach Anspruch 3, dadurch gekennzeich­ net, daß das Enegieminimum einem lautlosen Intervall ent­ spricht.
5. Verfahren nach Anpruch 2, dadurch gekenn­ zeichnet, daß eines der beiden Muster ein Bezugsmu­ ster ist, welches bekannt ist und in einer Bibliothek ge­ speichert ist, und das andere Muster ein eingegebenes Mu­ ster ist, welches unbekannt und zu identifizieren ist.
6. Verfahren zum Vergleichen von Mustern, dadurch ge­ kennzeichnet, daß
ein Paar aus einem ersten und einem zweiten zu verglei­ chenden Muster geprüft wird, um zu sehen, ob jedes der bei­ den Muster einen instabilen Teil hat oder nicht,
jedes der beiden Muster in den instabilen und einen Restteil aufgeteilt wird, und
das erste und zweite Muster so verglichen werden, daß der instabile Teil des ersten Musters mit dem instabilen Teil des zweiten Musters verglichen wird, und daß der restliche Teil des ersten Musters mit dem restlichen Teil des zwei­ ten Mustes verglichen wird.
7. Verfahren nach Anspruch 6, dadurch gekenn­ zeichnet, daß das erste und das zweite Muster ge­ prüft werden, um zu sehen, ob ein Energieminimum innerhalb einer vorherbestimmten Länge von einem vorderen oder hinte­ ren Ende jedes der beiden Muster vorhanden ist oder nicht, wobei der instabile Teil als ein Teil des einen Musters zwi­ schen dem Energieminimum und dem vorderen oder hinteren Ende definiert ist.
8. Verfahren nach Anspruch 7, dadurch gekenn­ zeichnet, daß jedes der beiden Muster ein Sprachmu­ ster ist, welches einen Sprachenergiepegel als eine Zeit­ funktion darstellt, und daß ds Energieminimum ein Minimum­ pegel in der Sprachenergie ist.
9. Verfahren nach Anspruch 8, dadurch gekenn­ zeichnet, daß das Energieminimum einem lautlosen In­ tervall entspricht.
10. Verfahren nach Anspruch 7, dadurch gekenn­ zeichnet, daß eines der beiden Muster ein Bezugsmu­ ster ist, welches bekannt ist und in einer Bibliothek ge­ speichert ist, und daß das andere ein eingebautes Muster ist, welches unbekannt und zu identifizieren ist.
11. Verfahren zum Ausbilden eines Bezugssprachmusters, da­ durch gekennzeichnet, daß
ein erstes Sprachmuster gebildet wird, das eine vorherbe­ stimmte Merkmalsgröße als eine Funktion der Zeit darstellt;
das erste Sprachmuster geprüft wird, um zu sehen, ob das erste Sprachmuster ein Minimum innerhalb einer vorherbestimmten Zeitdauer ausgehend von einem vorderen oder einem hinteren Ende des ersten Sprachmusters hat oder nicht;
das erste Sprachmuster mit einer Markierung gespeichert wird, welche das Vorhandensein oder Fehlen eines Minimums anzeigt, wenn bei dem ersten Sprachmuster herausgefunden worden ist, daß es ein solches Minimum hat;
ein zweites Sprachmuster gebildet wird, das die vorherbe­ stimmte Merkmalsgröße als eine Funktion der Zeit darstellt;
das zweite Sprachmuster geprüft wird, um zu sehen, ob das zweite Sprachmuster ein Minimum innerhalb einer vorherbe­ stimmten Zeitdauer ausgehend von einem vorderen oder hin­ teren Ende des zweiten Sprachmusters hat oder nicht,
dieser Teil eines der beiden Sprachmuster zwischen dem Mi­ nimum und dem vorderen oder hinteren Ende zu dem anderen der beiden Sprachmuster addiert wird, wenn nur eines der beiden Sprachmuster das Minimum hat, und
das erste und das zweite Sprachmuster gemittelt werden, um das Bezugssprachmuster festzulegen.
12. Verfahren nach Anspruch 11, dadurch gekenn­ zeichnet, daß bei dem Mittelungsschritt das zweite Sprachmuster gespeichert wird, wenn es dem ersten Sprachmu­ ster überlagert worden ist.
13. Verfahren nach Anspruch 11, dadurch gekenn­ zeichnet, daß das Sprachmuster einen Sprachenergiepe­ gel darstellt, und daß das Minimum ein Energieminimumteil jeder der beiden Sprachmuster ist, wobei es sich um ein Mi­ nimum in dem Sprachenergiepegel handelt.
14. Verfahren nach Anspruch 13, dadurch gekenn­ zeichnet, daß das Energieminimum einem lautlosen In­ tervall jedes der beiden Sprachmuster entspricht.
15. Verfahren nach Anspruch 11, dadurch gekenn­ zeichnet, daß ein drittes oder ein weiteres Sprach­ muster auf dieselbe Weise erzeugt werden, wie das zweite Sprachmuster gebildet worden ist, und daß das dritte und die weiteren Sprachmuster mit dem ersten und dem zweiten Sprach­ muster gemittelt werden.
16. Verfahren nach Anspruch 15, dadurch gekenn­ zeichnet, daß zur Mittelung das dritte und die weite­ ren Sprachmuster gespeichert werden, indem sie nacheinander mit dem bereits übelagerten, ersten und zweiten Sprachmu­ stern überlagert werden.
17. Verfahren zum Ausbilden eines Bezugssprachmusters, da­ durch gekennzeichnet, daß ein Sprachmuster, das eine vorherbestimmte Merkmalsgröße als Funktion der Zeit darstellt, aus einer Sprache gebildet wird;
ein hochfrequenter Bestandteil des Sprachmusters mit einem niederfrequenten Bestandteil des Sprachmusters verglichen wird, und
ein Endteil aus dem Sprachmuster ausgehend von dem vorderen oder hinteren Ende des Sprachmusters über einen ersten Zeit­ abschnitt entfernt wird, wenn der hochfrequente Bestandteil länger als der niederfrequente Bestandteil über einen vor­ herbestimmten Wert an dem vorderen oder hinteren Ende des Sprachmusters für einen zweiten Abschnitt andauert, um da­ durch das Bezugssprachmuster festzulegen, wobei der erste Zeitabschnitt kleiner eingestellt ist als der zweite Zeit­ abschnitt.
18. Verfahren nach Anspruch 17, dadurch gekenn­ zeichnet, daß die vorherbestimmte Merkmalsgröße ein Sprachenergiepegel ist.
19. Verfahren zum Ausbilden eines Bezugssprachmusters, da­ durch gekennzeichnet, daß
eine erste Sprache in ein erstes Sprachsignal umgesetzt wird;
das erste Sprachsignal einer Frequenzanalyse unterzogen wird, um dadurch ein erstes Sprachmuster zu bilden und um zu prüfen, ob das erste Sprachsignal einen hochfrequenten An­ teil des ersten Sprachsignals zusätzlich zu einem nieder­ frequenten Anteil des ersten Sprachsignals hat oder nicht;
das erste Sprachmuster mit dem hochfrequenten Anteil, wenn überhaupt, in einem ersten Speicher und der niederfrequente Anteil in einem zweiten Speicher gespeichert wird, eine zweite Sprache in ein zweites Sprachsignal umgewandelt wird;
das zweite Sprachsignal einer Frequenzanalyse unterzogen wird, um dadurch ein zweites Sprachmuster zu bilden und zu prüfen, ob das zweite Sprachsignal einen hochfrequenten An­ teil des zweiten Sprachsignals zusätzlich zu einem nieder­ frequenten Anteil des zweiten Sprachsignals hat oder nicht;
das zweite Sprachsignal gespeichert wird, indem es dem er­ sten Sprachmuster mit dem hochfrequenten Bestandteil, wenn überhaupt, in dem ersten Speicher und mit dem niederfrequen­ ten Anteil in dem zweiten Speicher überlagert wird, und der überlagerte hochfrequente Bestandteil und der überlager­ te niederfrequente Bestandteil zusammengefaßt werden, um ein Bezugssprachmuster zu definieren.
20. Verfahren nach Anspruch 19, dadurch gekenn­ zeichnet, daß die vorherbestimmte Merkmalsgröße ein Sprachenergiepegel ist.
21. Verfahren zum Vergleichen von Mustern, dadurch ge­ kennzeichnet, daß
ein Paar erster und zweiter Muster gebildet wird, welche je­ weils eine vorherbestimmte Merkmalsgröße als eine Zeitfunk­ tion darstellen;
jedes der beiden Muster geprüft wird, um zu sehen, ob jedes der beiden Muster ein Minimum innerhalb einer vorherbestimm­ ten Zeitdauer ausgehend von einem vorderen oder hinteren Endteil des Musters hat oder nicht;
dieser Teil eines der beiden Muster, welches ein Minimum hat, zwischen dem Minimum und dem vorderen oder hinteren En­ de aus dem einen Muster mit einem Minimum entfernt wird, wenn das eine Muster ein Minimum und das andere Muster kein Minimum hat und auch ein Wert, der erhalten worden ist, in­ dem eine vorherbestimmte Zahl zu einer Musterlänge des an­ deren Musters, das kein Minimum hat, multipliziert wird, gleich oder kleiner als eine Musterlänge des einen Musters mit einem Minimum ist, und
das erste Muster mit dem zweiten Muster nach einer Entfer­ nung, falls dies notwendig ist, verglichen wird.
22. Verfahren nach Anspruch 21, dadurch gekenn­ zeichnet, daß jedes der beiden Muster ein Sprachmu­ ster ist, welches eine vorherbestimmte Merkmalsgröße als eine Zeitfunktion darstellt.
23. Verfahren nach Anspruch 22, dadurch gekenn­ zeichnet, daß die vorherbestimmte Merkmalsgröße ein Sprachenergiepegel ist.
24. Verfahren nach Anspruch 21, dadurch gekenn­ zeichnet, daß die vorherbestimmte Zahl eine reelle Zahl ist, welche gleich oder kleiner als 1 ist.
25. Verfahren zum Vergleichen von Mustern, dadurch ge­ kennzeichnet, daß
ein Paar aus einem ersten und einem zweiten Muster gebildet wird, die jeweils eine vorherbestimmte Merkmalsgröße als eine Zeitfunktion darstellen;
das jedes der beiden Muster geprüft wird, um zu sehen, ob jedes der beiden Muster ein Minimum innerhalb einer vorher­ bestimmten Zeitlänge ausgehend von einem vorderen oder hin­ teren Ende des Musters hat oder nicht
der Teil des einen der beiden Muster, welches ein Minimum hat, zwischen dem Minimum und dem vorderen oder hinteren En­ de aus dem einen Muster das ein Minimum hat, entfernt wird, falls das eine ein Minimum hat und das andere kein Minimum hat, und auch ein Wert, der erhalten worden ist, indem eine vorherbestimmte Zahl zu einer Musterlänge des einen Musters, das ein Minimum hat, multipliziert wird, gleich oder größer ist als eine Musterlänge des anderen Musters, das kein Mini­ mum hat, und
das erste Muster mit dem zweiten Muster nach einer Entfer­ nung, falls dies notwendig ist, verglichen wird.
26. Verfahren nach Anspruch 25, dadurch gekenn­ zeichnet, daß jedes der beiden Muster ein Sprachmu­ ster ist, welches eine vorherbestimmte Merkmalsgröße als eine Zeitfunktion darstellt.
27. Verfahren nach Anspruch 26, dadurch gekenn­ zeichnet, daß die vorherbestimmte Merkmalsgröße ein Sprachenergiepegel ist.
28. Verfahren nach Anspruch 25, dadurch gekenn­ zeichnet, daß die vorherbestimmte Zahl eine reelle Zahl ist, welche gleich oder kleiner als 1 ist.
29. Verfahren zum Vergleichen von Mustern, dadurch ge­ kennzeichnet, daß
ein erstes Muster gebildet wird, das eine vorherbestimmte Merkmalsgröße als eine Zeitfunktion darstellt;
das erste Muster so wie es ausgebildet ist, geprüft wird, um zu bestimmen, ob ein Minimum innerhalb eines ersten vorherbestimmten Zeitabschnitts ausgehend von einem vor­ deren Ende des ersten Musters bei Durchlauf des ersten vorherbestimmten Zeitabschnitts vorhanden ist oder nicht, und
das erste Muster mit einem zweiten Muster verglichen wird, das auch die vorherbestimmte Merkmalsgröße als eine Zeit­ funktion darstellt, wobei, wenn eines der beiden Muster ein Minimum innerhalb des ersten vorherbestimmten Zeitab­ schnitts hat und das andere Muster kein Minimum hat, der Teil des einen Musters, das ein Minimum hat, zwischen dem vorderen Ende und dem Minimum vor einem Vergleich entfernt wird.
30. Verfahren nach Anspruch 29, dadurch gekenn­ zeichnet, daß das erste Muster geprüft wird, wenn es weiter auszubilden ist, um festzustellen, ob ein Minimum in einem zweiten vorherbestimmten Zeitabschnitt an einem hinteren Ende des ersten Musters bei Durchgang des zweiten vorherbestimmten Zeitabschnitts vorhanden ist oder nicht, wobei, wenn eines der beiden Muster ein Minimum innerhalb des zweiten vorherbestimmten Zeitabschnitts und das andere kein solches Minimum hat, dieser Teil des einen Musters, das ein Minimum hat, zwischen dem Minimum und dem hinteren Ende vor einem Vergleich entfernt wird.
31. Verfahren nach Anspruch 29, dadurch gekenn­ zeichnet, daß jedes der beiden Muster ein Sprachmu­ ster ist, und daß die vorherbestimmte Merkmalsgröße ein Frequenzspektrum ist.
32. Verfahren nach Anspruch 30, dadurch gekenn­ zeichnet, daß bei jedem der Prüfschritte eine Mar­ kierung dem ersten Muster zugeteilt wird, um anzuzeigen, ob das erste Muster das Minimum hat oder nicht.
33. Verfahren nach Anspruch 29, dadurch gekenn­ zeichnet, daß das zweite Muster in einer Bibliothek als ein Bezugsmuster gespeichert wird und aus der Biblio­ thek ausgelesen wird, um mit dem ersten Muster verglichen zu werden.
34. Verfahren zum Vergleich von Mustern, dadurch ge­ kennzeichnet, daß ein Paar aus einem ersten und einem zweiten Muster geprüft wird, welche jeweils eine vorherbestimmte Merkmalsgröße als eine Zeitfunktion dar­ stellen, um zu sehen, ob eines der beiden Muster ein Mini­ mum innerhalb einer vorherbestimmten Zeitdauer ausgehend von dessen vorderen Ende hat oder nicht;
eine erste Zeitlänge zwischen dem ersten und zweiten Minimum des ersten Musters, eine zweite Zeitlänge zwischen einem vorderen Ende und einem ersten Minimum des zweiten Musters und eine dritte Zeitlänge zwischen dem ersten Minimum und einem zweiten Minimum des zweiten Musters berechnet werden;
eine erste Differenz zwischen der zweiten Zeitlänge und der ersten Zeitlänge und eine zweite Differenz zwischen der zweiten Zeitlänge und der dritten Zeitlänge verglichen wer­ den;
der Teil des zweiten Musters, der über die zweite Zeitlänge hinausgeht nur entfernt wird, wenn die erste Differenz klei­ ner als die zweite Differenz ist, und
das erste und das zweite Muster nach einer Entfernung des erwähnten Teils aus dem zweiten Muster, falls es erforder­ lich ist, verglichen werden.
35. Verfahren nach Anspruch 34, dadurch gekenn­ zeichnet, daß jede der beiden Differenzen ein Abso­ lutwert ist.
36. Verfahren nach Anspruch 34, dadurch gekenn­ zeichnet, daß jedes der Sprachmuster ein Sprachmuster ist, das aus einer gesprochenen Sprache erzeugt worden ist, und daß das Minimum einem lautlosen Intervall entspricht.
37. Verfahren nach Anspruch 36, dadurch gekenn­ zeichnet, daß die Anzahl lautloser Intervalle vor dem Zählschritt gezählt werden.
38. Verfahren nach Anspruch 34, dadurch gekenn­ zeichnet, daß der Berechnungsschritt ein Nichtdimen­ sionalisieren der ersten Zeitlänge durch eine Gesamtzeit­ länge des ersten Musters und der zweiten und dritten Zeit­ länge durch eine Gesamtzeitlänge des zweiten Musters ein­ schließt.
39. Verfahren zum Vergleichen von Mustern, dadurch ge­ kennzeichnet, daß
ein Paar aus einem ersten und einem zweiten Muster geprüft wird, die jeweils eine vorherbestimmte Merkmalsgröße als Zeitfunktion darstellen, um zu sehen, ob eines der beiden Muster ein Minimum innerhalb einer vorherbestimmten Zeitlän­ ge ausgehend von dessen hinterem Ende hat oder nicht, wobei das erste Muster eine Anzahl von m Minima und das zweite Mu­ ster eine Anzahl von n Minima hat, wobei die Zahlen m und n eine positive ganze Zahl sind;
eine erste Zeitlänge zwischen dem (m - 1)ten und dem m-ten Minimum des ersten Musters, eine zweite Zeitlänge zwischen dem (n - 1)ten und n-ten Minimum des zweiten Musters und eine drite Zeitlänge zwischen dem n-ten Minimum und einem hinteren Ende des zweiten Musters berechnet werden;
eine erste Differenz zwischen der zweiten Zeitlänge und der ersten Zeitlänge und eine zweite Differenz zwischen der zweiten Zeitlänge und der dritten Zeitlänge verglichen wer­ den;
dieser Teil des zweiten Musters, welcher über die zweite Zeitlänge geht, nur dann entfernt wird, wenn die erste Dif­ ferenz kleiner als die zweite Differenz ist, und
das erste und das zweite Muster nach einer Entfernung des erwähnten Teils aus dem zweiten Muster, falls es erforder­ lich ist, verglichen werden.
40. Verfahren nach Anspruch 39, dadurch gekenn­ zeichnet, daß jede der beiden Differenzen ein Abso­ lutwert ist.
41. Verfahren nach Anspruch 39, dadurch gekenn­ zeichnet, daß jedes der Sprachmuster ein Sprachmuster ist, das aus einer gesprochenen Sprache erzeugt worden ist, und daß das Minimum einem lautlosen Intervall entspricht.
42. Verfahren nach Anspruch 41, dadurch gekenn­ zeichnet, daß die Anzahl lautloser Intervalle vor dem Zählschritt gezählt werden.
43. Verfahren nach Anspruch 39, dadurch gekenn­ zeichnet, daß der Berechnungsschritt ein Nichtdimen­ sionalisieren der ersten Zeitlänge durch eine Gesamtzeitlän­ ge des ersten Musters und der zweiten und dritten Zeitlänge durch eine Gesamtzeitlänge des zweiten Musters einschließt.
44. Verfahren zum Vergleichen von Mustern, dadurch ge­ kennzeichnet, daß
ein Paar aus einem ersten und einem zweiten Muster geprüft wird, die jeweils eine vorherbestimmte Merkmalsgröße als eine Zeitfunktion darstellen, um zu sehen, ob eines der bei­ den Muster ein Minimum innerhalb einer vorherbestimmten Zeitlänge ausgehend von einem vorderen oder hinteren Ende des jeweiligen Musters hat oder nicht,
daß die Anzahl der Minima, die in dem ersten Muster vorhanden sind, mit der Anzahl Minima, die in dem zweiten Muster vor­ handen sind, verglichen werden;
dieser Teil des einen Musters, das ein Minimum mit einer vorherbestimmten Zeitlänge zwischen dem Minimum innerhalb einer vorherbestimmten Zeitlänge und dem vorderen oder hin­ teren Ende des einen Musters hat nur dann entfernt wird, wenn das eine Muster, das ein Minimum in einem vorherbe­ stimmten Zeitabschnitt hat, eine größere Anzahl von Minima als das andere Muster hat, und
das erste und das zweite Muster nach einer Entfernung des erwähnten Teils, falls dies überhaupt notwendig ist, vergli­ chen werden.
45. Verfahren nach Anspruch 44, dadurch gekenn­ zeichnet, daß jedes der beiden Muster ein Sprachmu­ ster ist, das aus einer gesprochenen Sprache erhalten wor­ den ist, und daß das Minimum einem lautlosen Intervall ent­ spricht.
46. Verfahren nach Anspruch 45, dadurch gekenn­ zeichnet, daß eines der beiden Muster ein Bezugsmu­ ster ist, das in einer Bibliothek gespeichert ist, und daß das andere ein eingegebenes Muster ist.
47. Verfahren zum Vergleichen von Mustern, dadurch ge­ kennzeichnet, daß
ein Paar aus einem ersten und einem zweiten Muster geprüft wird, die jeweils eine vorherbestimmte Merkmalsgröße als eine Zeitfunktion darstellen, um zu sehen, ob eines der bei­ den Muster ein Minimum innerhalb einer vorherbestimmten Zeitlänge ausgehend von einem vorderen oder einem hinteren Ende des jeweiligen Musters hat oder nicht;
die Anzahl Minima, die in dem ersten Muster vorhanden ist und die Anzahl Minima, die in dem zweiten Muster vorhanden ist, festgestellt werden;
eine erste Länge zwischen dem Minimum innerhalb einer vor­ herbestimmten Zeitlänge und dem vorderen oder hinteren Ende in einem der beiden Muster festgestellt wird, welches eine größere Anzahl Minima hat;
eine erste Differenz zwischen einer ersten Gesamtlänge eines der beiden Muster, welches eine geringere Anzahl Minima hat, und einer zweiten Gesamtlänge eines der beiden Muster, wel­ ches eine größere Anzahl Minima hat und eine zweite Diffe­ renz zwischen der ersten Gesamtlänge und der ersten Länge berechnet werden;
dieser Teil des einen Musters, das ein Minimum innerhalb einer vorherbestimmten Zeitlänge zwischen dem Minimum und dem vorderen oder hinteren Ende hat, nur dann entfernt werden, wenn die erste Differenz größer als die zweite Dif­ ferenz ist, und
daß das erste und das zweite Muster verglichen werden, nach­ dem der erwähnte Teil, falls es erforderlich ist, aus dem Muster, das eine größere Anzahl Minima hat, entfernt worden ist.
48. Verfahren nach Anspruch 47, dadurch gekenn­ zeichnet, daß jedes der beiden Muster ein Sprachmu­ ster ist, das aus einer gesprochenen Sprache erhalten worden ist, und daß das Minimum einem lautlosen Intervall ent­ spricht.
49. Verfahren nach Anspruch 47, dadurch gekenn­ zeichnet, daß jede der beiden Differenzen ein Abso­ lutwert einer solchen Differenz ist.
50. Verfahren zum Ausbilden eines Bezugsmusters durch Vor­ nahme einer Mittelung einer Anzahl von Mustern, welche hin­ sichtlich derselben Identität erzeugt worden sind, dadurch gekennzeichnet, daß
ein Paar aus einem ersten und einem zweiten Muster geprüft werden, die jeweils eine vorherbestimmte Merkmalsgröße als eine Funktion eines vorherbestimmten Parameters darstellen, um zu sehen, ob zumindest das erste Muster ein erstes Mini­ mum innerhalb einer vorherbestimmten Länge ausgehend von de­ ren vorderen oder hinteren Ende hat oder nicht;
ein erster Ähnlichkeitsgrad zwischen einem ersten Teil des ersten Musters zwischen dem Minimum und dem vorderen oder hinteren Ende, der sich über eine vorherbestimmte Länge des vorherbestimmten Parameters erstreckt, und einem zweiten Teil des zweiten Musters, der sich über eine vorherbestimmte Länge von deren hinteren Ende aus erstreckt, und auch ein zweiter Ähnlichkeitsgrad zwischen dem zweiten Teil und einem dritten Teil des ersten Musters berechnet werden, welche sich nach oder vor dem ersten Minimum über die vorherbe­ stimmte Länge erstrecken;
der erste Teil zu dem zweiten Muster an dessen vorderen oder hinteren Ende nur dann addiert wird, wenn der erste Ähn­ lichkeitsgrad kleiner als der zweite Ähnlichkeitsgrad ist, und
ein Mittelwert aus dem ersten und zweiten Muster genommen wird, nachdem der erste Teil erforderlichenfalls zu dem zweiten Teil addiert wird.
51. Verfahren nach Anspruch 50, dadurch gekenn­ zeichnet, daß jedes der beiden Muster ein Sprachmu­ ster ist, das aus einer gesprochenen Sprache erhalten wor­ den ist, wobei der vorherbestimmte Parameter Zeit ist, und daß das Minimum einem lautlosen Intervall entspricht.
52. Verfahren nach Anspruch 50, dadurch gekenn­ zeichnet, daß der Schritt einer Mittelwertsbildung durchgeführt wird, indem das zweite Muster dem ersten Mu­ ster überlagert wird.
53. Verfahren nach Anspruch 50, dadurch gekenn­ zeichnet, daß der Addierschritt durchgeführt wird, wenn das erste Muster das erste Minimum hat und das zweite Muster das erste Minimum nicht hat, und wenn der erste Ähn­ lichkeitsgrad kleiner als der zweite Ähnlichkeitsgrad ist.
54. Verfahren nach Anspruch 50, dadurch gekenn­ zeichnet, daß der Addierschritt durchgeführt wird, wenn die beiden Muster das erste Minimum haben, und das er­ ste Muster insgesamt eine größere Anzahl Minima hat als das zweite Muster, und wenn der erste Ähnlichkeitsgrad kleiner als der zweite Ähnlichkeitsgrad ist.
55. Verfahren nach Anspruch 50, dadurch gekenn­ zeichnet, daß der erste Teil nicht zu dem vorderen Ende des zweiten Musters addiert wird, wenn das erste Mini­ mum an dem hinteren Ende nur eines der beiden Muster vor­ handen ist.
56. Verfahren zum Ausbilden eines Bezugsmusters, durch Vor­ nahme einer Mittelung aus einer Anzahl Muster, welche für dieselbe Identität erzeugt worden sind, dadurch ge­ kennzeichnet, daß
ein Paar aus einem ersten und einem zweiten Muster geprüft wird, die jeweils eine vorherbestimmte Merkmalsgröße als eine Funktion eines vorherbestimmten Parameters darstellen und welche und zweite Gesamtlängen des vorherbestimmten Para­ meters haben, um zu sehen, ob das erste Muster ein erstes Minimum innerhalb einer vorherbestimmten Länge ausgehend von dessen vorderen oder hinteren Ende hat oder nicht, um dadurch einen Teil mit einer dritten Länge zwischen dem er­ sten Minimum und dessen vorderen oder hinteren Ende zu be­ stimmen
eine erste Differenz zwischen einer Summe aus der dritten Länge und der zweiten Länge sowie der ersten Länge und eine zweite Differenz zwischen der zweiten Länge und der ersten Länge berechnet werden;
dieser Teil zu dem zweiten Muster an dessen vorderen oder hinteren Ende nur dann hinzugefügt wird, wenn die erste Dif­ ferenz kleiner als die zweite Differenz ist, und
ein Mittelwert aus dem ersten und zweiten Muster gebildet wird nachdem, falls es erforderlich ist, dieser Teil zu dem zweiten Muster addiert wird.
57. Verfahren nach Anspruch 56, dadurch gekenn­ zeichnet, daß jedes der beiden Muster ein Sprachmu­ ster ist, das aus einer gesprochenen Sprache erhalten worden ist, wobei der vorherbestimmte Parameter Zeit ist, und daß das Minimum einem lautlosen Intervall entspricht.
58. Verfahren nach Anspruch 56, dadurch gekenn­ zeichnet, daß der Schritt der Mittelwertbildung da­ durch durchgeführt wird, daß das zweite Muster über dem er­ sten Muster angeordnet wird.
59. Verfahren zum Auswählen einer ersten Anzahl von Muster aus einer zweiten Anzahl von Muster, wobei die zweite Anzahl gleich oder größer als die erste Anzahl ist, und wobei mit­ tels der Muster eine vorherbestimmte Größe als eine Funktion eines vorherbestimmten Parameters darstellen und jeweils eine individuelle Anzahl vorherbestimmter Merkmale haben, dadurch gekennzeichnet, daß
die Zahl der vorherbestimmten Merkmale in der zweiten Anzahl von Mustern gezählt wird, indem die weggelassen werden, die an oder in einem vorherbestimmten Bereich ausgehend von des­ sen vorderen oder hinteren Ende vorhanden sind, und
diese Muster und der zweiten Anzahl Muster gesammelt werden, die jeweils eine gezählte Anzahl haben, welche gleich einer vorherbestimmten Zahl ist, um dadurch die erste Anzahl Mu­ ster zu definieren.
60. Verfahren nach Anspruch 59, dadurch gekenn­ zeichnet, daß jedes der Muster ein Sprachmuster ist, das aus einer gesprochenen Sprache erhalten worden ist.
61. Verfahren nach Anspruch 60, dadurch gekenn­ zeichnet, daß jeweils die zweite Anzahl Muster ein Bezugssprachmuster ist, welches bekannt ist und in einer Bibliothek gespeichert ist, und daß die vorherbestimmte Zahl des Sammelschritts eine Zahl ist, welche für ein ein­ gegebenes, unbekanntes Sprachmuster festgelegt worden ist, wobei die erste Anzahl Muster die Daten-Muster festlegt, um das eingegebene, unbekannte Sprachmuster zu identifi­ zieren.
DE19873733659 1986-10-03 1987-10-05 Verfahren zum vergleichen von mustern Granted DE3733659A1 (de)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
JP23690286 1986-10-03
JP23690186 1986-10-03
JP61275656A JP2534241B2 (ja) 1986-11-19 1986-11-19 パタ―ン比較方法
JP61275655A JP2534240B2 (ja) 1986-11-19 1986-11-19 パタ―ン比較方法
JP61278054A JP2534242B2 (ja) 1986-11-21 1986-11-21 パタ―ン比較方法
JP61278053A JP2768938B2 (ja) 1986-11-21 1986-11-21 パターン比較方法
JP61290068A JP2534244B2 (ja) 1986-12-05 1986-12-05 標準パタ―ン作成方法
JP61290067A JP2534243B2 (ja) 1986-12-05 1986-12-05 標準パタ―ン作成方法
JP62238337A JP2901976B2 (ja) 1987-09-21 1987-09-21 パターン照合予備選択方式
JP62238336A JP2882791B2 (ja) 1986-10-03 1987-09-21 パターン比較方式
JP62238510A JP2882792B2 (ja) 1986-10-03 1987-09-22 標準パターン作成方式

Publications (2)

Publication Number Publication Date
DE3733659A1 true DE3733659A1 (de) 1988-04-21
DE3733659C2 DE3733659C2 (de) 1993-03-18

Family

ID=27582276

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19873733659 Granted DE3733659A1 (de) 1986-10-03 1987-10-05 Verfahren zum vergleichen von mustern

Country Status (3)

Country Link
US (1) US5033089A (de)
DE (1) DE3733659A1 (de)
GB (2) GB2196460B (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4031421A1 (de) * 1989-10-05 1991-04-18 Ricoh Kk Musteranpassungssystem fuer eine spracherkennungseinrichtung
DE102010041435A1 (de) * 2010-09-27 2012-03-29 Siemens Medical Instruments Pte. Ltd. Verfahren zum Rekonstruieren eines Sprachsignals und Hörvorrichtung

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07210190A (ja) * 1993-12-30 1995-08-11 Internatl Business Mach Corp <Ibm> 音声認識方法及びシステム
US5657424A (en) * 1995-10-31 1997-08-12 Dictaphone Corporation Isolated word recognition using decision tree classifiers and time-indexed feature vectors
US20030125946A1 (en) * 2002-01-03 2003-07-03 Wen-Hao Hsu Method and apparatus for recognizing animal species from an animal voice
US20030216909A1 (en) * 2002-05-14 2003-11-20 Davis Wallace K. Voice activity detection
DE10232916B4 (de) * 2002-07-19 2008-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals
JP3678421B2 (ja) * 2003-02-19 2005-08-03 松下電器産業株式会社 音声認識装置及び音声認識方法
US8457962B2 (en) * 2005-08-05 2013-06-04 Lawrence P. Jones Remote audio surveillance for detection and analysis of wildlife sounds
US20080256613A1 (en) * 2007-03-13 2008-10-16 Grover Noel J Voice print identification portal
JP5024154B2 (ja) * 2008-03-27 2012-09-12 富士通株式会社 関連付け装置、関連付け方法及びコンピュータプログラム
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
JP5799586B2 (ja) * 2011-05-27 2015-10-28 富士通株式会社 生体認証装置、生体認証方法及び生体認証用コンピュータプログラム
JP5867066B2 (ja) 2011-12-26 2016-02-24 富士ゼロックス株式会社 音声解析装置
JP6031761B2 (ja) 2011-12-28 2016-11-24 富士ゼロックス株式会社 音声解析装置および音声解析システム
US10709388B2 (en) * 2015-05-08 2020-07-14 Staton Techiya, Llc Biometric, physiological or environmental monitoring using a closed chamber

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2347738A1 (de) * 1972-09-21 1974-03-28 Threshold Tech Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben
DE2753277A1 (de) * 1976-11-30 1978-06-01 Western Electric Co Spracherkennungseinrichtung

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3418429A (en) * 1965-10-13 1968-12-24 Ibm Speech analysis system
GB1157732A (en) * 1967-06-30 1969-07-09 Standard Telephones Cables Ltd Improvements in apparatus for Recognising Speech
USRE32172E (en) * 1980-12-19 1986-06-03 At&T Bell Laboratories Endpoint detector
GB2137791B (en) * 1982-11-19 1986-02-26 Secr Defence Noise compensating spectral distance processor
JPS59139099A (ja) * 1983-01-31 1984-08-09 株式会社東芝 音声区間検出装置
JPS6024597A (ja) * 1983-07-21 1985-02-07 日本電気株式会社 音声登録方式
US4720802A (en) * 1983-07-26 1988-01-19 Lear Siegler Noise compensation arrangement
US4821325A (en) * 1984-11-08 1989-04-11 American Telephone And Telegraph Company, At&T Bell Laboratories Endpoint detector
GB2181874B (en) * 1985-09-06 1989-08-16 Ricoh Kk Voice recognition system
US4827519A (en) * 1985-09-19 1989-05-02 Ricoh Company, Ltd. Voice recognition system using voice power patterns
US4802224A (en) * 1985-09-26 1989-01-31 Nippon Telegraph And Telephone Corporation Reference speech pattern generating method
US4751737A (en) * 1985-11-06 1988-06-14 Motorola Inc. Template generation method in a speech recognition system
GB8608288D0 (en) * 1986-04-04 1986-05-08 Pa Consulting Services Noise compensation in speech recognition

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2347738A1 (de) * 1972-09-21 1974-03-28 Threshold Tech Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben
DE2753277A1 (de) * 1976-11-30 1978-06-01 Western Electric Co Spracherkennungseinrichtung

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4031421A1 (de) * 1989-10-05 1991-04-18 Ricoh Kk Musteranpassungssystem fuer eine spracherkennungseinrichtung
DE102010041435A1 (de) * 2010-09-27 2012-03-29 Siemens Medical Instruments Pte. Ltd. Verfahren zum Rekonstruieren eines Sprachsignals und Hörvorrichtung

Also Published As

Publication number Publication date
GB9017697D0 (en) 1990-09-26
US5033089A (en) 1991-07-16
GB2196460A (en) 1988-04-27
DE3733659C2 (de) 1993-03-18
GB2233137B (en) 1991-06-05
GB2233137A (en) 1991-01-02
GB8723297D0 (en) 1987-11-11
GB2196460B (en) 1991-05-15

Similar Documents

Publication Publication Date Title
DE3733659C2 (de)
DE2626793C3 (de) Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals
DE102007015497B4 (de) Spracherkennungsvorrichtung und Spracherkennungsprogramm
EP1371055B1 (de) Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen des audiosignals unter verwendung einer autokorrelationsfunktion
DE3306730C2 (de)
DE69433254T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
EP0076234B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
EP0076233B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
EP1797552A2 (de) Verfahren und vorrichtung zur extraktion einer einem audiosignal zu grunde liegenden melodie
DE3236832A1 (de) Verfahren und geraet zur sprachanalyse
DE2347738A1 (de) Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben
WO2006039995A1 (de) Verfahren und vorrichtung zur harmonischen aufbereitung einer melodielinie
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
EP1388145B1 (de) Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen
EP1244094A1 (de) Verfahren und Vorrichtung zur Bestimmung eines Qualitätsmasses eines Audiosignals
DE2636032C3 (de) Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal
DE4031421C2 (de) Musteranpassungssystem für eine Spracherkennungseinrichtung
WO2006039992A1 (de) Extraktion einer einem audiosignal zu grunde liegenden melodie
DE4010028C2 (de) Spracherkennungsverfahren
DE19840548C2 (de) Verfahren zur instrumentellen Sprachqualitätsbestimmung
DE69824613T2 (de) Ein system und verfahren zur prosodyanpassung
DE602004011292T2 (de) Vorrichtung zur Sprachdetektion
EP2548382A1 (de) Verfahren zum test von hörhilfegeräten
DE2312356A1 (de) Verfahren und vorrichtung zur bestimmung der grundfrequenz von sprachsignalen

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee