DE3733659A1

DE3733659A1 - Verfahren zum vergleichen von mustern

Info

Publication number: DE3733659A1
Application number: DE19873733659
Authority: DE
Inventors: Seigou Yasuda; Junichiroh Fujimoto
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1986-10-03
Filing date: 1987-10-05
Publication date: 1988-04-21
Also published as: GB9017697D0; GB8723297D0; DE3733659C2; GB2196460B; GB2196460A; US5033089A; GB2233137B; GB2233137A

Description

Die Erfindung betrifft ein Verfahren zum Vergleichen von Mu stern und betrifft insbesondere ein Verfahren und ein System zum Vergleichen eines unbekannten Musters mit einer Anzahl bekannter Muster, um die Identität des unbekannten Musters festzustellen und betrifft darüber hinaus ein Muster-Erken nungsverfahren und -system. Darüber hinaus betrifft die Er findung ein Verfahren und ein System zum Erkennen eines Mu sters, wie eines Sprachmusters, welches insbesondere für eine Anwendung bei Sprachen/Stimmen- und Zeichen-Erkennung verwendbar ist.

Bei einem der am meisten üblichen Muster-Vergleichsverfahren wird eine Musteranpassung benutzt. Bei diesem Musteranpas sungsverfahren wird der Ähnlichkeitsgrad zwischen einem ein gegebenen unbekannten Muster und jedem einer Anzahl von re gistrierten, bekannten Bezugsmustern festgestellt; dann wird das eingegebene Muster durch eines der Bezugsmuster identi fiziert, das den höchsten Ähnlichkeitsgrad hat. Wenn dieses Verfahren in der Praxis angewendet wird, ergibt sich eine Schwierigkeit aufgrund des Umgebungsrauschens, das sich mit einem eingegebenen Muster vermischt. Wenn beispielsweise im Fall von Anwendungen zur Spracherkennung ein sporadisch auf tretendes Rauschen im Hintergrund während des Erkennungspro zesses erzeugt wird, oder wenn das Geräusch beim Öffnen und Schließen in eine Sprache während des Aussprechens einge bracht worden ist, wird eine eingegebene Sprache mit Bezugs mustern verglichen, bei welchen Rauschen vorhanden ist, so daß eine richtige Ähnlichkeit nicht festgestellt werden kann. Wenn, wie oben beschrieben, die Sprache sehr empfind lich bezüglich Rauschen ist, ergibt sich durch das Rauschen ein zusätzliches Problem in einer eingegebenen Sprache; wenn andererseits die Empfindlichkeit bezüglich Rauschen zu ge ring ist, ist es richtig, daß die Chance, Rauschen aufzuneh men, geringer wird; es ergibt sich jedoch eine weitere Schwierigkeit beim Abtasten eines Teils einer Sprache/Stim me beispielsweise im Falle eines Wortes "Stopp", bei welchem das Wortende ein Konsonant ist, welcher für sich ausgespro chen wird, es oft der Fall ist, daß der letzte Laut /p/ nicht festzustellen ist.

In Fig. 7a und 7b ist der Fall dargestellt, daß der Wortklang für "Stopp" durch Musteranpassung zu erkennen ist. In Fig. 7a ist ein Bezugsmuster und in Fig. 7b ist ein zu identifizie rendes eingegebenes Muster dargestellt. Das Bezugsmuster der Fig. 7a hat ein genaues Muster, welches das Wort "Stopp" in seiner Gänze darstellt; jedoch fehlt bei dem eingegebenen Muster der Fig. 7a der letzte Laut /p/. Im Ergebnis wird, wenn diese beiden Muster durch Musteranpassung verglichen werden, das Musterende /p/ des Bezugsmusters von Fig. 7a entsprechend ausgebildet, um dem Musterende /o/ des eingegebenen Musters der Fig. 7b zu entsprechen. Aus diesem Grund wird der Ähn lichkeitsgrad zwischen diesen beiden Mustern geringer, was zu einem fehlerhaften Erkennungsergebnis führt. Eine solche fehlerhafte Übereinstimmung kann durch Verwenden des dynami schen Anpassungsschemas mit einem freien Endpunkt verhindert werden; jedoch gibt es auch Fälle, in welchen ein Teil eines Musters an seinem vorderen oder hinteren Ende verlorengeht oder ein Geräusch hinzugefügt wird, was notwendigerweise die Anzahl Berechnungen erhöhen würde, wobei dieses Verfahren an sich schon eine große Anzahl von Berechnungen erfordert.

Wie oben beschrieben, wird bei dem Musteranpassungsverfahren der Ähnlichkeitsgrad festgestellt, indem ein eingegebenes, unbekanntes Muster mit jeweils einer Anzahl Bezugsmuster verglichen wird, welche in irgendeiner Weise vorher ausge bildet worden sind; dann wird die Identität des eingegebenen Musters mit einem Bezugsmuster festgestellt, welches den höchsten Ähnlichkeitsgrad hat. Folglich ist es äußerst wich tig bei dem Musteranpassungsverfahren, wie genau ein Muster extrahiert werden kann, und diese Wichtigkeit ist nicht nur auf die Anwendung bei Spracherkennung beschränkt. Um zu ver hindern, daß Umgebungsrauschen eingebracht wird, wenn eine Sprache/Stimme extrahiert wird oder wenn ein Sprachintervall festzulegen ist, muß daher insbesondere ein Schwellenwertpe gel richtig festgelegt werden, um so ein geringes Geräusch nicht aufzunehmen.

Ein übliches Verfahren, um ein Sprachintervall festzustellen ist in Fig. 8 dargestellt, in welcher der Energiepegel einer Sprache verwendet wird, um die Sprache von dem Hintergrund rauschen zu trennen. Bei diesem Verfahren ist ein Sprachener gie-Schwellenwertpegel A zum Beschneiden von Geräuschen vor dem Eingeben einer Sprache festgelegt worden, und ein Sprech intervall L ist als ein Zeitabschnitt von einem Zeitpunkt t ₁ an, wenn der Sprachenergiepegel den Schwellenwertpegel A überschritten hat, bis zu einem Zeitpunkt t ₂ festgelegt, wenn der Sprachenergiepegel unter den Schwellenwertpegel A abgenommen hat. Dies ist der Grundgedanke beim Ermitteln eines Sprachintervalls; jedoch sind schon verschiedene Ver besserungen gemacht worden, um eine Sprache/Stimme, die von Interesse ist, von Geräuschen zu trennen. Außerdem ist es als eine Merkmalsquantität nicht notwendig, irgendein ganz bestimmtes zu verwenden; vielmehr kann irgendein gewünschtes Merkmal verwendet werden, das besonders typisch ist, wie beispielsweise ein Energiespektrum, ein LPC oder ähnliches Spektrum. Wenn beispielsweise der Fall eines Energiespek trums genommen wird, kann dies durchgeführt werden, indem eine eingegebene Sprache/Stimme an eine Bandpaß-Filterbank angelegt wird, und das Analyseverfahren frei geändert wird, um das charakteristische Merkmal der Bandpaß-Filterbank zu selektieren. Eine Sprechintervall feststellende Einheit und eine die Merkmalsquantität umsetzende Einheit können in ir gendeiner Reihenfolge bezüglich des Flusses eines Sprachsig nals angeordnet sein, das von einer Spracheingabeeinheit geliefert worden ist. Wenn in einem solchen Fall ein ge räuschvoller Konsonant mit geringer Energie, wie beispiels weise der Laut /f/ am Anfang oder Ende eines Ausdruckes vor handen ist, ist dies sehr schwierig aufzunehmen. In Fig. 9a ist ein Bezugsmuster für die /Familie/ und in Fig. 9b ist ein Eingabemuster für denselben Wortklang (word voice) darge stellt. Wie dargestellt, ist es oft der Fall, daß der Laut /f/ am Anfang eines Wortes wegen der geringen Energie leicht verlorengeht. Aus diesem Grund kann keine richtige Anpassung durchgeführt werden, aus welcher sich ein niedrigerer Ähn lichkeitsgrad ergeben würde, der somit zu einer fehlerhaften Erkennung führen würde

Hauptziel der Erfindung ist es daher, die vorstehend be schriebenen Nachteile der herkömmlichen Verfahren zu vermei den und ein Mustervergleichsverfahren zu schaffen, bei wel chem ein Muster genau mit einem anderen Muster verglichen werden kann. Ein weiteres Ziel der Erfindung ist es, ein Mu stervergleichsverfahren zu schaffen, bei welchem ein richti ger Mustervergleich mit Hilfe eines Musters durchgeführt werden kann, bei welchem ein Teil verlorengegangen ist oder bei welchem ein Geräusch eingebracht worden ist. Ein weite res Ziel der Erfindung ist es, ein Mustervergleichsverfahren zu schaffen, das sich insbesondere für eine Verwendung bei einer Mustererkennung eignet. Noch ein weiteres Ziel der Er findung ist es, ein Mustervergleichsverfahren zu schaffen, was insbesondere bei einer Sprachen/Stimmen- oder Zeichener kennung verwendbar ist. Noch ein weiteres Ziel der Erfindung soll es sein, ein Verfahren zu schaffen, durch welches ver hindert wird, daß ein Bezugsmuster, das bei einer Musterer kennung verwendet worden ist, verschlechtert wird. Schließ lich ist es noch ein weiteres Ziel der Erfindung, ein Ver fahren zum Ausbilden eines Bezugsmusters hoher Qualität zu schaffen, welches insbesondere bei der Mustererkennung ver wendet werden kann.

Gemäß der Erfindung sind diese Ziele durch ein Vergleichs verfahren nach Anspruch 1, 6, 11, 17, 18, 20, 24, 28, 33, 38, 43, 46, 49, 55 und 58 erreicht. Vorteilhafte Weiterbil dungen dieser Verfahren sind Gegenstand der Unteransprüche.

Nachfolgend wird die Erfindung anhand von bevorzugten Aus führungsformen unter Bezugnahme auf die Zeich nungen im einzelnen erläutert. Es zeigt

Fig. 1 eine schematische, meistens in Blockform wie dergegebene Darstellung eines Spracherken nungssystems gemäß einer Ausführungsform der Erfindung;

Fig. 2a bis 2c Darstellungen, welche zur Erläuterung der Ar beitsweise des in Fig. 1 dargestellten Systems dienen;

Fig. 3 eine schematische Darstellung eines Spracher kennungssystems, das bezüglich des Systems in Fig. 1 modifiziert ist;

Fig. 4a bis 4c Darstellungen zur Erläuterung der Arbeitswei se des in Fig. 3 wiedergegebenen Systems;

Fig. 5 und 6 in Blockform alternative Spracherkennungssy steme gemäß weiterer Ausführungsformen der Erfindung;

Fig. 7a, 7b, 8, 9a und 9b Darstellungen zum Erläutern der Schwierigkeiten, die durch die Erfindung zu lösen sind, wenn sie zur Spracherkennung ver wendet wird;

Fig. 10 eine schematische, meist in Blockform wieder gegebene Darstellung eines Spracherkennungs systems gemäß noch einer weiteren Ausführungs form der Erfindung;

Fig. 11a bis 11c Darstellungen zur Erläuterung der Arbeits weise des in Fig. 10 dargestellten Systems;

Fig. 12a und 12b Darstellungen zur Erläuterung der Vorteile einer weiteren Ausführungsform der Erfindung;

Fig. 13 eine schematische, meist in Blockform wieder gegebene Darstellung eines Spracherkenungs systems gemäß einer Ausführungsform, mit wel cher das in Fig. 12a und 12b dargestellte Sche ma durchgeführt wird;

Fig. 14 eine schematische, meist in Blockform wieder gegebene Darstellung eines Spracherkennungs systems gemäß noch einer weiteren Ausführungs form der Erfindung;

Fig. 15a, 15b und 16 Darstellungen zur Erläuterung der Ar beitsweise des in Fig. 14 wiedergegebenen Sy stems;

Fig. 17 ein Flußdiagramm eines Bezugsmuster-Bildungs verfahrens gemäß noch einer weiteren Ausfüh rungsform der Erfindung;

Fig. 18 eine schematische, meist in Blockform wieder gegebene Darstellung eines Bezugsmuster-Bil dungssystems zur Durchführung des in Fig. 17 dargestellten Verfahrens;

Fig. 19 eine schematische, meist in Blockform wieder gegebene Darstellung eines alternativen Be zugsmuster-Bildungssystems gemäß der Erfin dung;

Fig. 20a, 20b, 21 und 22 Darstellungen zur Erläuterung der Probleme, welche hinsichtlich eines anderen Aspektes der Erfindung zu lösen sind;

Fig. 23 ein Flußdiagramm einer Folge von Schritten eines Mustervergleichsverfahrens gemäß noch einer weiteren Ausführungsform der Erfindung;

Fig. 24 eine Darstellung, wie Fig. 24a und 24b zu sammenzusetzen sind;

Fig. 24a und 24b, wenn sie so wie in 24 dargestellt, zu sammengesetzt sind, eine schematische, meist in Blockform wiedergegebene Darstellung eines Spracherkennungssystems zur Durchführung des in Fig. 23 wiedergegebenen Verfahrens;

Fig. 25 ein Flußdiagramm einer Folge von Schritten eines Mustervergleichsverfahrens, welches eine Abwandlung des Verfahrens in Fig. 23 ist;

Fig. 26 eine Darstellung, wie Fig. 26a und 26b zusam menzusetzen sind;

Fig. 26a und 26b, wenn sie so wie in Fig. 26 dargestellt, zu sammengsetzt sind, eine schematische, meist in Blockform wiedergegebene Darstellung ein Spracherkennungssystems zum Durchführen des Verfahrens in Fig. 25;

Fig. 27a und 27b Darstellungen von Sprachmustern zum Erläu tern der Vorteile eines Gesichtspunkts der Erfindung;

Fig. 28a und 28b Darstellungen zum Erläutern der Schwierig keiten, welche gemäß einem Aspekt der Erfin dung zu lösen sind;

Fig. 29 eine schematische, meist in Blockform wieder gegebene Darstellung eines Sprachmuster-Ver arbeitungssystems;

Fig. 30a bis 30c Darstellungen zum Erläutern der Arbeitsweise des Systems in Fig. 29;

Fig. 31 eine schematische, meist in Blockform wieder gegebene Darstellung eines weiteren Sprachmu sterverarbeitungssystems;

Fig. 32a bis 32c Darstellungen zum Erläutern der Arbeitsweise des Systems in Fig. 31;

Fig. 33 eine Darstellung, wie Fig. 33a und 33b zusam menzusetzen sind;

Fig. 33a und 33b, wenn sie so wie in Fig. 33 dargestellt, zu sammengesetzt sind, eine schematische, meist in Blockform wiedergegebene Darstellung eines Spracherkennungssystems gemäß noch einer wei teren Ausführung der Erfindung;

Fig. 34 eine Darstellung, wie Fig. 34a und 34b zusam menzusetzen sind;

Fig. 34a und 34b, wenn sie so wie in Fig. 34 dargestellt, zu sammengesetzt sind, ein Flußdiagramm zu Er läutern der Arbeitsweise des Systems in Fig. 33;

Fig. 35 ein Flußdiagramm einer Folge von Schritten eines Mustervergleichsverfahrens gemäß noch einer weiteren Ausführungsform der Erfindung;

Fig. 36 eine Darstellung, wie Fig. 36a und 36b zusam menzusetzen sind;

Fig. 36a und 36b wenn sie so, wie in Fig. 36 dargestellt, zu sammengesetzt sind, eine schematische, meist in Blockform wiedergegebene Darstellung eines Spracherkennungssystems zum Durchführen des Verfahrens in Fig. 35;

Fig. 37 ein Flußdiagramm einer Folge von Schritten eines Mustervergleichsverfahrens gemäß noch einer weiteren Ausführungsform der Erfindung;

Fig. 38 eine Darstellung, wie Fig. 38a und 38b zusam menzusetzen sind;

Fig. 38a und 38b wenn sie, wie in Fig. 38 dargestellt, zusam mengesetzt sind, eine schematische, meist in Blockform wiedergegebene Darstellung eines Spracherkennungssystems zum Durchführen des Verfahrens in Fig. 37;

Fig. 39 ein Flußdiagramm einer Folge von Schritten eines Mustervergleichsverfahrens gemäß noch einer weiteren Ausführungsform der Erfindung;

Fig. 40 eine Darstellung, wie Fig. 40a und 40b zusam menzusetzen sind;

Fig. 40a und 40b, wenn sie, wie in Fig. 40 dargestellt, zusam mengesetzt sind, eine schematische, meist in Blockform wiedergegebene Darstellung eines Spracherkennungssystems zum Durchführen des in Fig. 39 dargestellten Verfahrens;

Fig. 41a, 41b, 42a und 42b Darstellungen zum Erläutern der Vorteile eines weiteren Aspektes der Erfin dung;

Fig. 43a und 43b Darstellungen zum Erläutern der Schwierig keiten, welche gemäß einem weiteren Aspekt der Erfindung zu lösen sind;

Fig. 44 ein Flußdiagramm einer Folge von Schritten eines Mustervergleichsverfahrens gemäß noch einer weiteren Ausführungsform der Erfindung;

Fig. 45 eine Darstellung, wie Fig. 45a und 45b zusam menzusetzen sind;

Fig. 45a und 45b wenn sie, wie in Fig. 45 dargestellt, zusam mengesetzt sind, eine schematische, meist in Blockform wiedergegebene Darstellung eines Spracherkennungssystems zum Durchführen des in Fig. 44 dargestellten Verfahrens;

Fig. 46 ein Flußdiagramm einer Folge von Schritten eines Mustervergleichsverfahrens gemäß noch einer weiteren Ausführungsform der Erfindung;

Fig. 47 eine Darstellung, wie Fig. 47a und 47b zusam menzusetzen sind;

Fig. 47a und 47b wenn sie, wie in Fig. 47 dargestellt, zusam mengesetzt sind, eine schematische, meist in Blockform wiedergegebene Darstellung eines Spracherkennungssystems zum Durchführen des in Fig. 46 dargestellten Verfahrens;

Fig. 48 ein Flußdiagramm einer Folge von Schritten eines Mustervergleichsverfahrens gemäß noch einer weiteren Ausführungsform der Erfindung;

Fig. 49 eine Darstellung, wie Fig. 49a und 49b zusam menzusetzen sind;

Fig. 49a und 49b wenn sie, wie in Fig. 49 dargestellt, zusam mengesetzt sind, eine schematische, großteils in Blockform wiedergegebene Darstellung eines Spracherkennungssystems zum Durchführen des in Fig. 48 dargestellten Verfahrens;

Fig. 50 ein Flußdiagramm einer Folge von Schritten eines Mustervergleichsverfahrens gemäß noch einer weiteren Ausführungsform der Erfindung;

Fig. 51 eine Darstellung, wie Fig. 51a und 51b zusam menzusetzen sind;

Fig. 51a und 51b wenn sie, wie in Fig. 51 dargestellt, zusam mengesetzt sind, eine schematisch, großteils in Blockform wiedergegebene Darstellung eines Spracherkennungssystems zum Durchführen des in Fig. 50 dargestellten Verfahrens;

Fig. 52 ein Spracherkennungssystem gemäß noch einer weiteren Ausführungsform der Erfindung,

Fig. 53a und 53b ein Flußdiagramm zum Erläutern der Arbeits weise des in Fig. 52 dargestellten Systems;

Fig. 54a, 54b, 55a, 55b, 56a bis 56c, 57a, 57b, 58a bis 58b Darstellungen anhand welcher die Vorteile noch eines weiteren Aspektes der Erfindung erläutert weden, welche nach den in Fig. 52 und 53 dargestellten Ausführungsformen durch geführt worden ist;

Fig. 59a, 59b, 60a bis 60c und 61a bis 61c Darstellungen, an hand welcher die Schwierigkeiten erläutert werden, die gemäß noch einem weiteren Aspekt der Erfindung zu lösen sind;

Fig. 62 eine schematische, großteils in Blockform wiedergegebene Darstellung eines Spracherken nungssystems gemäß noch einer weiteren Aus führungsform der Erfindung;

Fig. 63a und 63b ein Flußdiagramm, anhand welchem die Arbeits weise des in Fig. 62 dargestellten Systems er läutert wird;

Fig. 64a, 64b, 65a, 65b, 66a, 66b Darstellungen, anhand wel cher die Vorteile noch einer weiteren Ausfüh rungsform der Erfindung erläutert werden;

Fig. 67 ein Flußdiagramm einer Folge von Schritten eines Spracherkennungsverfahrens gemäß noch einer weiteren Ausführungsform der Erfindung;

Fig. 68 eine schematische, in Blockform wiedergegebe ne Darstellung eines Spracherkennungssystems zum Durchführen des in Fig. 67 dargestellten Verfahrens;

Fig. 69 ein Flußdiagramm einer Folge von Schritten eines Spracherkennungsverfahres gemäß noch einer weiteren Ausführungsform der Erfindung;

Fig. 70 eine schematische in Blockform wiedergegebene Darstellung eines Spracherkennungssystems zum Durchführen des in Fig. 69 dargestellten Ver fahrens, und

Fig. 71 und 72 Darstellungen, anhand welcher die Arbeitswei se der in Fig. 69 und 70 dargestellten Ausfüh rungsformen erläutert wird.

Gemäß einem Aspekt der Erfindung ist ein Mustervergleichsver fahren geschaffen, um ein erstes Sprachmuster mit einem zwei ten Sprachmuster zu vergleichen, welches im Voraus regi striert worden ist. Beim ersten Schritt wird geprüft, ob eines der ersten und zweiten Sprachmuster einen instabilen Bestandteil zum Ausbilden einer Sprache hat oder nicht. Wenn ein solcher instabiler Bestandteil zumindest in einer der beiden Sprachmuster vorhanden ist, wird jedes der beiden Sprachmuster in den instabilen und einen stabilen Bestand teil aufgeteilt. Es wird dann nur ein Vergleich zwischen den beiden Sprachmustern zwischen den jeweils stabilen Standtei len durchgeführt. Oder andererseits, wenn ein solcher insta biler Bestandteil in beiden Sprachmustern vorhanden ist, wird jedes der beiden Sprachmuster in einen instabilen und einen stabilen Bestandteil aufgeteilt. Es wird dann ein Ver gleich zwischen den beiden Sprachmustern zwischen den je weils instabilen Bestandteilen und zwischen den jeweils sta bilen Bestandteilen durchgeführt.

In Fig. 1 ist großteils in Blockform ein Mustervergleichssy stem gemäß einer Ausführungsform der Erfindung dargestellt, wenn sie zur Sprachverarbeitung angewendet wird. Das darge stellte Sprachmuster-Vergleichssystem hat eine Sprachein gabeeinheit 1, eine Energiemeßeinheit 2, eine Merkmalsquan tität-Umsetzeinheit 3, eine eine stumme Stelle feststellende Einheit 4, eine eine stumme Stelle (am Ende) feststellende Einheit 8, eine Markierungs-Addiereinheit 6 , eine Bibliothek 7, eine Markierungs-Beurteilungseinheit 8, eine Musterent fernungseinheit 9 und eine Musteranpassungseinheit 10. In dieser Ausführungsform wird beim Vergleich von zwei Mustern geprüft, ob ein Energieminimum in einem vorbestimmten Be reich vom Anfang oder Ende eines Musters an vorhanden ist oder nicht. Wenn ein solches Energieminimum nur in einem der beiden zu vergleichenden Muster vorhanden ist, wird der Teil des Musters, der ein solches Energieminimum von dem Anfang oder dem Ende an hat, bis zu dem Energieminimum entfernt, und dann werden die beiden Muster verglichen.

Zuerst wird eine Sprache in der Spracheingabeeinheit 1 ein gegeben; während die eingegebene Sprache in eine Merkmals quantität umgesetzt wird, wird die Energie der eingegebenen Sprache gemessen. Die Spracheneingabeeinheit 1 kann vorzugs weise aus einem Mikrophon bestehen, und das Messen der Sprachenergie kann durchgeführt werden, indem Bandpaßfilter, welche den hörbaren Bereich überdecken, verwendet werden und Ausgänge dieser Bandpaßfilter festgestellt werden. Es kann irgendeine Merkmalsqualität, welche auf dem Gebiet der Mu ster-(üblicherweise Sprach-)Erkennung bekannt ist, verwendet werden, und beispielsweise kann ein Energiespektrum, welches ohne weiteres von einer Bandpaß-Filterbank erhalten werden kann, in vorteilhafter Weise verwendet werden. Basierend auf der Größe der gemessenen Sprachenerge wird festgestellt, wo ein stummes Intervall in der Sprache aufgefunden wird. Bei spielsweise wird in Abhängigkeit davon, ob diese lautlose Stelle in 100 ms von dem hinteren Sprechende festgestellt wird oder nicht, eine vorherbestimmte Markierung zu einem Merkmalquantitäts-Umsetzmuster (Merkmalsmuster oder eingege benem Muster) hinzugefügt. Andererseits wird ein Bezugsmu ster aus einer Bibliothek herausgenommen und es wird ge prüft, ob das Bezugsmuster auch dieselbe Markierung wie die jenige des Merkmalsmusters hat oder nicht. Wenn die Markie rungen dieselben sind, dann wird in üblicher Weise bei einem Musteranpassnungsschritt fortgefahren. Zu beachten ist, daß, obwohl ein Verfahren zum Erzeugen eines Biblotheksmusters hier im einzelnen nicht erläutert wird, eine vorherbestimmte Markierung zu einem Bibliotheksmuster in ähnlicher Weise während dessen Ausbildung zugeteilt wird, in Abhängigkeit davon, ob ein lautloser Abschnitt an dem hinteren Ende vor handen ist oder nicht.

Wenn sich dagegen die Markierungen zwischen dem Bibliotheks- und dem eingegebenen Muster unterscheiden, wird dieser Teil des Musters, das einen lautlosen Abschnitt hat, von dem lautlosen Abschnitt bis zu dem hinteren Ende des Musters aus dem Muster mit einem lautlosen Abschnitt entfernt und dann wird eine Musteranpassung zwischen dem Bezugs- und eingegebe nen Muster vom Anfang an bis zu dem lautlosen Abschnitt durchgeführt. Anhand von Fig. 2a bis 2c wird im einzelnen der Fall beschrieben, daß das Bezugsmuster eine in Fig. 2a darge stellte Zusammensetzung und das eingegebene Muster eine in Fig. 2b dargestellte Zusammensetzung hat, bei welcher der hintere Endteil fehlt. In diesem Fall hat das Bezugsmuster eine Markierung, welche anzeigt, daß es ein lautloses Inter vall an seinem Ende hat, während das eingegebene Muster eine andere Markierung hat, die anzeigt, daß es an seinem hinte ren Ende kein lautloses Intervall hat. Gemäß einem Aspekt der Erfindung wird das Bezugsmuster der Fig. 2a verarbeitet, um den hinteren Endteil /p/ zu entfernen, um das Bezugsmu ster mit der in Fig. 2c dargestellten Zusammensetzung wieder festzulegen. Es wird dann ein Vergleich zwischen dem einge gebenen Muster und Fig. 2b und dem wieder festgelegten Be zugsmuster der Fig. 2a vorgenommen. Vorstehend ist der Fall beschrieben worden, daß der hintere Endteil von einem der beiden zu vergleichenden Muster verlorengegangen ist; dieser Aspekt der Erfindung ist genauso gut bei dem Fall anwendbar, daß ein Kopfteil von einem der beiden Muster verlorengegan gen ist.

In Fig. 3 ist großteils in Blockform ein Mustervergleichssy stem gemäß einer weiteren Ausführungsform der Erfindung für den Fall dargestellt, daß ein Mustervergleich durchzuführen ist, wobei ein Kopfteil von einem der beiden zu vergleichen den Sprachmuster verlorengegangen ist. Das in Fig. 3 darge stellte System ist in vieler Hinsicht in seinem Aufbau dem in Fig. 1 dargestellten System ähnlich, weshalb ähnliche oder gleiche Elemente mit den gleichen Bezugszeichen bezeichnet sind. Das System der Fig. 3 weist eine eine lautlose Stelle (am Kopfteil) beurteilende Einrichtung 11 auf, und in dieser Ausführungsform wird ein vorderer oder Kopfteil eines Sprachmusters entfernt, wenn ein lautloser Abschnitt entwe der in dem Bezugs- oder dem eingegebenen Muster innerhalb von 100 ms von dem Anfang des Musters an vorhanden ist, und dann werden die beiden Muster verglichen oder einander ange paßt. In diesem Fall wird angenommen, daß das Bezugsmuster normal und vollständig ist; dagegen weist das eingegebene Muster an seinem Kopfteil einen Geräuschbestandteil infolge eines Geräusches, das beim Öffnen und Schließen des Mundes erzeugt worden ist, oder ein sporadisch erzeugtes Geräusch auf.

Anhand von Fig. 4a bis 4c wird dies im einzelnen erläutert, wenn das Wort /ido/ ausgesprochen wird, das im japanischen "Bewegung" bedeutet; in Fig. 4a ist ein Sprachmuster mit einem zusätzlichen Geräusch /n/ an seinem Kopfende dar gestellt, so daß in diesem Fall ein lautloses Intervall zwi schen dem Geräusch /n/ und dem Wort /ido/ vorhanden ist. Folglich kann durch die die lautlose Stelle feststellende Einheit 4 und die die lautlose Stelle (am Kopfende) beurtei lende Einrichtung 11 festgestellt werden, daß dieses lautlo se Intervall innerhalb von 100 ms von dem Kopfende des Mu sters an vorhanden ist. Bei einer Bestätigung wird eine vor herbestimmte Markierung, welche das Vorhandensein eines lautlosen Intervalls an dem Kopfende anzeigt, hinzugefügt. In Fig. 4b ist dagegen ein Bibliotheksmuster dargestellt, welches an seinem Kopfende kein lautloses Intervall hat. Folglich wird dieser Teil des eingegebenen Musters der Fig. 4 von dem lautlosen Intervall zurück bis zu dem Kopfende aus dem eingegebenen Muster durch die Entfernungseinheit 9 ent fernt, und dann werden die beiden Muster in der Musteranpas sungseinheit 10 verglichen. Obwohl irgendein Musteranpas sungsschema verwendet werden kann, wird vorzugsweise ein Verfahren angewendet, welches weniger Berechnungsschritte erfordert, in dem beispielsweise die Musterlänge linear ge dehnt oder zusammengezogen wird. In diesem Fall wird dann der Anfang zum Bestimmen der zeitlichen Länge des in Fig. 4a dargestellten Musters an der Stelle unmittelbar nach dem lautlosen Intervall geändert. Außerdem kann die das lautlose Intervall feststellende Einheit 4 entsprechend ausgeführt werden, um das Hintergrundrauschen unter der Voraussetzung zu überwachen, daß keine Sprache einzugeben ist; beim Einge ben einer Sprache wird ein lautloses Intervallsignal erzeugt, wenn die eingegebene Sprache im Pegel mit dem Hintergrund rauschen vergleichbar ist. An der Einheit 11 wird eine laut lose Stelle durch Vergleich mit einem Signal festgestellt, welche das ansteigende oder abfallende Ende eines Sprachin tervalls anzeigt.

In den vorstehend beschriebenen Ausführungsformen ist die Aufmerksamkeit auf die Tatsache gerichtet worden, daß das Geräusch, welches beim Öffnen und Schließen des Mundes oder der Lippen erzeugt worden ist, gern am Kopfende eines Aus drucks vorhanden ist und in seiner zeitlichen Länge kurz ist und in Form eines Impulses vorliegt, so daß ein lautloses Intervall gern vor dem Aussprechen eines Ausdrucks vorhanden ist, und daß ein lautloses Intervall gern am Ende eines Aus druckes vorhanden ist, wenn an sich am Ende eines Wortes ein Konsonant auszusprechen ist. Die vorstehend beschriebenen beiden Ausführungsformen sind vorzugsweise in einem einzigen System vereinigt, welches das Zufügen eines Geräuschbestand teils am Beginn einer Sprache oder eines Ausdrucks und das Weglassen eines Konsonanten am Ende eines Ausdrucks ausglei chen kann. Obwohl vorstehend Sprachmuster beschrieben worden sind, sollte die Erfindung nicht nur auf Sprachmuster be schränkt werden, sondern kann auch bei anderen Mustern ange wendet werden. Wie oben beschrieben, wird gemäß diesem Aspekt der Erfindung, selbst wenn ein Geräusch infolge des Öffnens und Schließen des Mundes oder der Lippen, welches beim Aus sprechen eines Wortes oder Ausdruckes unvermeidlich ist, oder ein sporadisch erzeugtes Hintergrundrauschen vorhanden ist, ein derartiges Rauschen in angemessener Weise vor einer Musteranpassung entfernt werden und selbst wenn der hintere Endteil eines Sprachmusters fehlt, wird eine Musteranpassung durchgeführt, wobei diese Tatsache in Betracht gezogen wird. Folglich kann entsprechend dieses Aspekts der Erfindung die Genauigkeit einer Musteranpassung erhöht werden.

In Fig. 5 ist schematisch großteils in Blockform ein Sprach erkennungssystem gemäß einer weiteren Ausführungsform der Erfindung dargestellt. Das dargestellte Spracherkennungssy stem hat ein Mikrophon 21, eine ein Sprachintervall fest stellende Einheit 22, ein Hochpaßfilter 23 a, ein Tiefpaßfil ter 23 b, eine Merkmale extrahierende Einheit 24, eine Mul tipliziereinheit 25, einen Vergleicher 26, eine Hinweis- oder Flag-(/f/)Einheit 27, einen Vergleicher 28, ein drittes Register 29 , ein Bibliotheksregister 30, einen Markierungs vergleicher 31, eine Registereinheit 32 mit einem ersten und einem zweiten Register 32 a bzw. 32 b und eine eine Ähnlich keit feststellende Einheit 33. Diese Ausführungsform ist entsprechend ausgeführt, um die Aufmerksamkeit auf die Tat sache zu lenken, daß ein schwacher Konsonant, wie /f/ ein charakteristisches Merkmal hat, das sich in einem hochfre quenten Bereich konzentriert, wenn er einer Frequenzanalyse unterzogen wird. Bei dieser Ausführungsform wird ein Aus druck/Wort eingegeben, um ein Sprachsignal zu erzeugen, wel ches dann einer Frequenzanalyse unterzogen wird, um das Ver hältnis hoch- und niederfrequenten Bestandteilen festzustel len. Wenn es mehr hochfrequente Bestandteile gibt, wird die Dauer dieses Zustands festgestellt. Wenn nur eines der bei den zu vergleichenden Sprachmuster einen Teil hat, in wel chem mehr hochfrequente Bestandteile vorhanden sind, wird dieser Teil entfernt, und für eine Anpassung werden dann die beiden Sprachmuster verglichen.

Anhand von Fig. 5 wird im einzelnen beschrieben, daß Sprache in das Mikrophon 21 eingegeben wird, um ein Sprachsignal zu erzeugen, und dessen Sprachintervall wird mittels der Ein heit 22 festgestellt. Das Sprachsignal wird dann mittels der ein Merkmal extrahierenden Einheit 24 in eine Merkmalsquan tität umgesetzt, um dadurch ein eingegebenes Muster festzu legen, welches dann in dem dritten Register 29 gespeichert wird. Dasselbe Sprachsignal wird mittels der Hoch- und Tief paßfilter 23 a und 23 b einer Frequenzanalyse unterzogen, um hoch- und niederfrequente Bestandteile zu erzeugen, deren Größe durch den Vergleicher 26 verglichen wird. In einem Beispiel überdecken die hochfrequenten Bestandteile einen Hochfrequenzbereich von 1 bis 6 kHz und die niederfrequenten Bestandteile einen niederfrequenten Bereich von 200 Hz bis 1 kHz. In dieser Ausführungsform wird ein Flag /f/ hervorge hoben, wenn die hochfrequenten Bestandteile um den Faktor 2 oder mehr, was durch die Multipliziereinheit 25 angezeigt wird, größer als die niederfrequenten Bestandteile sind. Außerdem wird in der das Sprachintervall feststellenden Ein heit 22 ein Signal, welches den Beginn und das Ende des Sprachintervalls anzeigt, an den Vergleicher 28 geliefert. Wenn das Flag /f/ für den Beginn oder das Ende des Sprachin tervalls eingegeben und hervorgehoben wird, wird eine vorher bestimmte Markierung dem dritten Register 29 zugeführt, wo durch die Dauer des Flags /f/ aufgezeichnet ist.

Dann wird ein Bezugsmuster aus dem Bibliotheksregister 30 herausgenommen und es wird in dem Markierungsvergleicher 31 geprüft, ob dieses Bezugsmuster eine Markierung hat oder nicht, welche dieselbe wie diejenige des eingegebenen Mu sters ist, das nunmehr in dem dritten Register 29 gespei chert ist. Wenn die Markierungen dieselben sind, dann werden das eingegebene und das Bezugsmuster an das erste bzw. zwei te Register 32 a und 32 b übertragen; hierauf folgt dann der Schritt der Anpassung der zwei Muster, um den dazwischen bestehenden Ähnlichkeitsgrad zu bestimmen. Wenn dagegen die zwei Markierungen verschieden sind, wenn z. B. das Bezugsmu ster eine Markierung hat, welche das Fehlen des Flags /f/ am Anfang anzeigt, und das eingegebene Muster eine andere Markierung hat, welche das Vorhandensein des Flags /f/ am Anfang anzeigt, wird ein Punkt des eingegebenen Musters nach dem Flag /f/ zu Beginn des Musters wieder als der Beginn eines Sprachmusters definiert, und dieses wieder definierte eingegebene Muster wird dann an das erste Register 32 a über tragen, während das Bezugsmuster unverändert an das zweite Register 32 b übertragen wird. Dann werden diese beiden Mu ster verglichen, um den Ähnlichkeitsgrad zu bestimmen. Die gleichen Argumente gelten auch für den Fall, daß das Flag /f/ in dem eingegebenen Muster nicht, jedoch in dem Bezugs muster vorhanden ist. Folglich wird gemäß der Erfindung, selbst wenn ein Sprachintervall fehlerhaft ausgeführt worden ist, wobei der Laut /f/ am Anfang oder Ende eines Bezugs- oder eingegebenen Musters verlorengegangen ist, dieser Feh ler entsprechend korrigiert und folglich kann eine Anpassung zwischen den beiden Mustern genau durchgeführt werden.

In Fig. 6 ist schematisch großteils in Blockform ein Sprach erkennungssystem dargestellt, welches in vieler Hinsicht dem System in Fig. 5 ähnlich ist, so daß gleiche Elemente mit den gleichen Bezugszeichen bezeichnet sind. Diese Ausführungs form ist für den Fall vorgesehen, daß das Bezugs- und das eingegebene Muster den Laut /f/ an derselben Stelle haben. In Fig. 6 weist das System eine Registereinheit 34 aus einem vierten bzw. fünften Register 34 a und 34 b auf. Ebenso ist in dem dargestellten System eine erste, eine Ähnlichkeit fest stellende Einheit 33, eine zweite, eine Ähnlichkeit feststel lende Einheit 35 und ein Addierer 36 vorgesehen.

Wenn beispielsweise der Laut /f/ am Anfang vorhanden ist, wird das Vorhandensein des Lauts /f/ am Anfang jedes der beiden Muster durch Markierungsvergleich herausgefunden, und die Länge der jeweiligen Laute /f/ kann bestimmt werden. Folglich wird dieser Teil des eingegebenen Musters von Anfang an über die durch den Laut /f/ bestimmte Länge in dem ersten Register 32 a und der entsprechende Teil des Bezugsmu sters in dem zweiten Register 32 b gespeichert. Außerdem wird der restliche Teil des eingegebenen Musters in dem Register 34 a und der entsprechende Restteil des Bezugsmustes in dem Register 34 b gespeichert. Dann wird der Ähnlichkeitsgrad zwischen den beiden Registern 32 a und 32 b und auch zwischen den beiden Registern 34 a und 34 b berechnet. Die Summe dieser berechneten, partiellen Ähnlichkeitsgrade wird in dem Addie rer 36 als ein Gesamtähnlichkeitsgrad erhalten. In der dar gestellten Ausführungsform sind vier gesonderte Register 32 a, 32 b, 34 a und 34 b vorgesehen; normalerweise reichen je doch die Register 32 a und 32 b aus, da die zwei Ähnlichkeits grade nacheinander berechnet werden können; d. h. nach der Bestimmung des ersten Ähnlichkeitsgrads wird der Inhalt, welcher in den Registern 34 a und 34 b zu speichern ist, in den Registern 32 a und 32 b gespeichert, um den zweiten Ähn lichtkeitsgrad zu berechnen, und dann wird der vorher be rechnete erste Ähnlichkeitsgrad hinzuaddiert, um so den Ge samtähnlichkeitsgrad zu erhalten. Außerdem werden in der vorstehend beschriebenen Ausführungsform zwei partielle Ähnlichkeitsgrade gesondert berechnet, und dann addiert, um den Gesamtähnlichkeitsgrad zu berechnen. Jedoch ist dieser Rechenvorgang nicht nur auf eine Addition beschränkt; viel mehr kann der Gesamtähnlichkeitsgrad bestimmt werden, indem ein Element vorgesehen wird, um den Ähnlichkeitsgrad zwi schen den Registern 32 a und 32 b zu berechnen, ein Element vorgesehen wird, um den Ähnlichkeitsgrad zwischen den Regi stern 34 a und 34 b zu berechnen und indem dann diese Elemente summiert werden. Wie vorstehend beschrieben, kann gemäß einer der in Fig. 5 und 6 dargestellten Ausführungsformen eine Anpassung zwischen zwei Mustern richtig durchgeführt werden, selbst wenn ein Teil zumindest eines der beiden Mu ster fehlt.

Nunmehr wird ein weiterer Aspekt der Erfindung bezüglich der Ausbildung eines Bezugs- oder Bibliotheksmusters beschrie ben, das bei einer Mustererkennung verwendbar ist. Das am meisten übliche Mustererkennungsschema ist eines, bei wel chem eine Musteranpassung angewendet wird. In diesem Schema sind eine Anzahl Bezugsmuster in einer Bibliothek gespei chert, und ein eingegebenes, unbekanntes, zu identifizieren des Muster wird mit jedem der Anzahl Bezugsmuster vergli chen, um festzustellen, welches der Anzahl Bezugsmuster den höchsten Ähnlichkeitsgrad hat, um dadurch die Identität des eingegebenen Musters zu bestimmen. In diesem Fall hat die Qualität oder das charakteristische Merkmal des registrier ten Bezugsmusters einen bedeutenden Einfluß auf die Durch führung einer Musteranpassung. Folglich ist es wesentlich, ein Bezugsmuster hoher Qualität zu erzeugen, um eine hohe Erkennungsrate bei der Mustererkennung zu erhalten.

Wenn die Musteranpassung in der Spracherkennung als Beispiel genommen wird, kann die Spracherkennung im allgemeinen in ein begrenztes Sprechersystem und in ein unbegrenztes Spre chersystem eingeteilt werden. Im Falle des unbegrenzten Sprechsystems werden Bezugssprachmuster bereits von einem Hersteller gebildet und in ein Spracherkennungssystem einge bracht, bevor es auf den Markt gebracht wird. Da in diesem Fall angenommen wird, daß eine beliebige Sprache/Stimme erkannt werden kann, kann das Spracherkennungssystem verwen det werden, nachdem geprüft ist, ob die Daten zur Ausbildung von Bezugsmustern normal sind oder nicht. Im Falle des be grenzten Sprechersystems muß jedoch ein Benutzer vor einer Benutzung erst Sprachen/Stimmen registrieren und das Spracherkennungssystem kann nach der Durchführung eines Trainings verwendet werden. Aus diesem Grund kann ein zu re gistrierendes Sprachmuster nicht auf dessen Normalität ge prüft werden, so daß es die Möglichkeit gibt, daß die Quali tät von Bezugsmustern schlecht ist. Vorherrschende Ursache im Hinblick auf das Verschlechtern der Qualität von Bezugs mustern, wenn diese registriert sind, ist eine falsche Fest stellung eines Sprachintervalls. Wenn beispielsweise das Ge räusch, das beim Öffnen und Schließen des Mundes, um Sprache auszudrücken, oder ein sporadisches Hintergrundgeräusch er zeugt worden ist, unmittelbar vor oder im Anschluß an das Aussprechen eines Ausdrucks erzeugt worden ist, kann das Sprachmuster nicht von einem solchen Geräusch unterschieden werden, so daß ein solches Geräusch in das Sprachmuster ein verleibt wird. Außerdem gibt es auch den Fall, daß ein Teil eines Wortes verlorengeht. Aus diesen Gründen kann die Qua lität eines Bezugsmusters schlechter werden. Es gibt ein Verfahren zum Erzeugen eines Bezugsmusters, bei welchem das Mittel aus einer Anzahl Sprachmuster gebildet wird, indem dasselbe Wort eine Anzahl Mal ausgesprochen wird. Bei diesem Mittelungsverfahren können statistische Informationsschwan kungen bei der Erzeugung eines Wortes in das sich ergebende gemittelte Sprachmuster eingebracht werden. Da jedoch eine Anzahl Aussprechvorgänge erforderlich sind, um ein Bezugs muster zu erzeugen, würde, selbst wenn eine unvollständige Feststellung eines Sprachintervalls einmal aufgetreten ist, dies eine Verschlechterung in der Qualität des sich ergeben den Bezugsmusters zur Folge haben.

Dieser Aspekt wird im einzelnen anhand von Fig. 20a und 20b beschrieben; in Fig. 20a ist ein ungewöhnliches Sprachmuster dargestellt, bei welchem an Anfang ein Geräuschbestandteil hinzugefügt worden ist, während in Fig. 20b ein normales Sprachmuster für dasselbe Wort dargestellt ist. Ein Konso nantenabschnitt ist mit B bezeichnet. Wenn ein Mittelwert zwischen dem normalen Muster der Fig. 20b und dem annormalen Muster der Fig. 20a, das einen Geräuschbestandteil A hat, ge nommen wird, wird die Mittelung durch eine Entsprechung zwi schen den jeweiligen vorderen Enden und den jeweiligen hin teren Enden durchgeführt, wie durch die gestrichelte Linie angezeigt ist. Im Ergebnis wird dann der Geräuschbestandteil A des anormalen Musters der Fig. 20a zu dem vorderen Teil des Konsonantenteils B des normalen Musters der Fig. 20b hinzuge fügt, was ein gemitteltes Muster ergeben würde, das in der Qualität schlechter ist.

Insbesondere im Falle des begrenzten Sprechersystems ändert sich die Erkennbarkeit in Abhängigkeit davon, ob die Regi strierung von Bezugsmustern richtig durchgeführt worden ist oder nicht. Folglich ist es für die Worte, welche einen schwachen Laut am Anfang oder am Ende haben, da dieser schwache Laut gern verlorengeht, denkbar, ein Muster zu re gistrieren, welches dadurch wieder festgelegt wird, daß ein solcher leicht verlorengegangener Teil aus einem normalen Muster wirksam entfernt wird. Die Ausführung hat, selbst wenn ein schwacher Lautteil eines Wortes verlorengegangen ist, und nicht festgestellt wird, ein solches Sprachmuster, bei welchem ein Teil der ursprünglichen Sprachinformation verlorengegangen ist, einen hohen Ähnlichkeitsgrad mit dem registrierten Muster, so daß eine Erkennung richtig durchge führt werden kann. Jedoch wird entsprechend diesem Schema, wenn ein schwacher Laut /h/ von dem englichen Wort /his/ vorlorengegangen ist, ein Laut /is/ erzeugt, welcher ein an deres Wort darstellt. Dies führt dann zu einem Durcheinan der, wodurch es dann zu einer schlechteren Erkennungsrate kommt.

Im Falle des begrenzten Sprechersystems muß der Benutzer zu erst seine eigenen Laute (voices) für ausgewählte Worte re gistrieren. Beim Registrieren von Lauten als Bezugssprachmu ster gibt es ein Verfahren, bei welchem ein Laut nur einmal für ein zu registrierendes Wort ausgesprochen wird und es gibt ein anderes Verfahren, bei welchem eine Vielzahl Laute erzeugt werden, indem dasselbe Wort eine Anzahl Mal ausge sprochen wird, und dann die Anzahl Laute gemittelt wird. In Fig. 21 ist hauptsächlich in Blockform ein Spracherkennungs system dargestellt, in welchem eine Anzahl Sprachmuster für dasselbe Wort erzeugt werden und dann ein gemitteltes Muster aus der Anzahl Sprachmuster festgelegt wird. Bei der in Fig. 21 dargestellten Ausführung wird das sogenannte binäre Zeit-Spektrum-Muster-(BTSP)-Verfahren angewendet, welches ein Beispiel für die Musteranpassungsverfahren ist. Das dar gestellte System weist eine Laute aufnehmende Einheit 21, wie beispielsweise ein Mikrophon 21, eine Filterbank 22, eine Korrektureinheit 23, bei welcher die Methode der klein sten Quadrate angewendet ist, eine binäre Umsetzeinheit 54, eine BTSP bildende Einheit 55, einen Addierer 56, um eine Anzahl n Sprachmuster durch lineares Drehen und Zusammenzie hen zu addieren, eine Bibliothek 57, eine ein Spitzenwertmu ster bildende Einheit 58, eine Einheit 59, bei welcher eine Musterlänge durch lineares Dehnen oder Zusammenziehen ange paßt wird, eine die Ähnlichkeit berechnende Einheit 60 und eine Anzeigeeinheit 61 in Form einer Kathodenstrahlröhre auf. Bei dieser Ausführung wird eine in das Mikrophon 21 eingege bene Sprache in ein Sprachsignal umgesetzt, welches dann mit Hilfe einer Bandpaß-Filterbank einer Frequenzanalyse unter zogen wird, um dadurch ein Zeit-Frequenz- oder ein zeit spektrales Verteilungsmuster (TSP) festzulegen. Ein solches zeit-spektrales Muster wird dann binär-bewertet, wobei die Scheitelwerte durch "Einsen" und der Rest durch "Nullen" ge kennzeichnet sind, um dadurch ein binäres TSP-(BTSP)-Muster festzulegen. Bei dem Registrierungsmode werden eine Anzahl solcher BTSP-Muster, welche geschaffen worden sind, indem dasselbe Wort eine Anzahl Mal ausgesprochen wird, einander überlagert, um ein Bezugsmuster festzulegen, welches dann als ein Bezugsmuster registriert wird.

In dem Erkennungsmode wird eine zu erkennende, unbekannte Sprache/Stimme eingegeben; ein entsprechendes BTSP-Muster wird in ähnlicher Weise wie dasjenige gebildet, das für den Registrierungsmode beschrieben worden ist, und das auf diese Weise erzeugte, eingegebene BTSP-Muster wird mit jedem der vorher registrierten Bezugsmuster verglichen, um den Ähnlich keitsgrad mit jedem der Bezugsmuster festzustellen. In die sem Fall kann dann der Ähnlichkeitsgrad beispielsweise da durch bestimmt werden, daß die Anzahl von sich überdeckenden Einsen gezählt wird, wenn das eingegebene Muster über ein Bezugsmuster gelegt wird. Normalerweise werden im Falle des unbegrenzten Sprechersystems, welches dazu bestimmt ist, da mit die Sprache, die von irgendjemand erzeugt worden ist, erkannt werden kann, eine Anzahl verschiedener Bezugsmuster für ein zu registrierendes Wort gebildet, wodurch die Menge an Rechenvorgängen größer wird. Das dargestellte System hat den Vorteil, daß die Realisierung eines Spracherkennungssy stems in der Art des unbegrenzten Sprechersystems erleich tert wird, ohne daß die Anzahl an Berechnungen größer wird, wenn ein Bezugsmuster richtig ausgebildet ist. Wenn ein Be zugsmuster auf diese Weise erzeugt wird, wird angenommen, daß alle die Muster, aus welchen ein Durchschnittsmuster de finiert wird, vollständig sind. Dies ist jedoch in der Pra xis nicht immer der Fall; beispielsweise haben ein Laut /v/ am Wortende von "five" und ein Laut /f/ am Wortanfang von "full" eine äußerst niedrige Energie und es ist daher ver hältnismäßig schwierig, diese schwachen Laute richtig fest zustellen. Folglich ist es schwierig, ein normales Muster für solche Worte zu erhalten, was zu einer Verschlechterung der Qualität eines Bezugsmusters führen könnte.

Folglich ist gemäß der Erfindung ein Verfahren zum Ausbilden eines Bezugsmusters dahingehend verbessert, daß der Durch schnitt aus einer Anzahl Sprachmuster gebildet wird, in wel chen ein instabiler Bestandteil beim Erzeugen eines Wortes in jedem der Sprachmuster als ein notwendiges Element beim Mitteln der Anzahl Sprachmuster vorgesehen ist. Oder in dem Fall, daß die Anzahl Sprachmuster diese Muster, welche einen instabilen Bestandteil beim Erzeugen eines Wortes haben, und diese Muster enthalten, welche keinen solchen instabilen Be standteil haben, wird der instabile Bestandteil eines Mu sters, das den instabilen Bestandteil hat, zu einem Muster addiert, das keinen instabilen Bestandteil hat und dann wird ein Mittelwert aus den beiden Mustern festgesetzt. Ferner wird bei einer Anzahl Muster, die einen instabilen Bestand teil beim Erzeugen eines Wortes haben, das in der Anzahl Sprachmuster vorhanden ist, jedes der Sprachmuster in den instabilen und einen stabilen Bestandteil aufgeteilt; nach der Mittelung der Muster auf einer Bestandteilbasis werden die beiden Bestandteile zusammengefaßt, um ein Bezugsmuster festzulegen.

In Fig. 10 ist ein großteils in Blockform wiedergegebenes Sy stem zur Erzeugung eines Bezugsmusters dargestellt, das in einer Spracherkennungseinrichtung verwendbar ist. Gemäß dem dargestellten System werden eine Anzahl Muster für eine zu registrierende Elementart, wie ein Wort, gebildet, und die Anzahl Muster werden gemittelt oder unabhängig registriert, um ein Bezugsmuster festzulegen. In dieser Ausführungsform wird geprüft, ob ein Energieminimum innerhalb einer vorher bestimmten Länge entweder von dem Anfang oder von dem Ende jedes der Anzahl Muster vorhanden ist. Falls dies Muster sind, die kein solches Energieminimum haben, wird der Teil eines Musters, der ein Energieminimum hat, entweder von dem Anfang oder von dem Ende des Musters an bis zu seinem Ener gieminimum an einer vorherbestimmten Stelle des Musters ad diert, das kein Energieminimum hat, um dadurch ein Bezugsmu ster festzulegen.

Das in Fig. 10 dargestellte System weist eine Spracheingabe einheit 1, eine Energiemeßeinheit 2, eine Merkmalsquantität- Umsetzeinheit 3, eine eine lautlose Stelle feststellende Einheit 4, eine eine lautlose Stelle (am vorderen Ende) feststellende Einheit 11, eine Markierungs-Addiereinheit 6, eine Muster-Speichereinheit 37, eine Markierungs-Beurtei lungseinheit 8, eine ein Muster am Kopfende addierende Ein heit 39 und eine Überlagerungs- und Mittelungseinheit 40 auf. Zuerst wird die Sprache in ein Mikrophon 1 eingegeben, um in ein Sprachsignal umgesetzt zu werden, welches dann der Energiemeßeinheit 2 zugeführt wird, wo die Sprachenergie ge messen wird. Das Sprachsignal wird dann in eine Merkmalsquan tität umgesetzt. Als Merkmalsquantität kann irgendeine be kannte Merkmalsquantität, beispielsweise ein Energiespektrum LPC-Koeffizienten und ein -Spektrum verwendet werden. Anhand der gemessenen Energie wird geprüft, ob ein lautloses Inter vall vorhanden ist oder nicht und bei ja wird dessen Positi on festgestellt. Dann wird geprüft, ob ein lautloses Inter vall in einem vorbestimmten Bereich von dem Beginn des Sprachintervalls her ausfindig gemacht wird oder nicht; in Abhängigkeit von dem Ergebnis dieser Prüfung wird eine vor herbestimmte Markierung zu einem Muster addiert, welches durch Merkmalsumsetzung gebildet ist. Hier wird als Beispiel angenommen, daß geprüft wird, ob ein lautloses Intervall in nerhalb von 100 ms von dem Beginn an vorhanden ist oder nicht. Wenn dies der Fall ist, wird eine Markierung -1 hinzu addiert, während bei nein eine Markierung +1 addiert wird. Das Muster, zu dem eine solche Markierung addiert ist, wird dann gespeichert. In ähnlicher Weise wird ein anderer Laut (voice) für dasselbe Wort ausgesprochen und ein ähnliches Muster wird gebildet und dem vorher gespeicherten Muster überlagert, um eine Mittelwertbildung durchzuführen. In die sem Augenblick wird vor einer Überlagerung geprüft, ob das folgende Muster dieselbe Markierung wie diejenige des vor hergehenden Musters, welches gespeichert ist, hat oder nicht. Wenn die Markierungen dieselben sind, wird eine Mit telwertbildung des folgenden und vorhergehenden Musters in üblicher Weise durchgeführt, und das sich ergebende, gemit telte Muster wird gespeichert.

Wenn sich dagegen die beiden Markierungen unterscheiden, dann wird dadurch angezeigt, daß eines der beiden Muster ein lautloses Intervall und das andere keines hat. In diesem Fall wird der Teil des Musters, das an seinem vorderen Ende (Fig. 11a) ein lautloses Intervall hat, von dem Anfang an bis zu dem lautlosen Intervall des Musters an dem vorderen Ende des anderen Musters, das kein lautloses Intervall hat (Fig. 11b) hinzuaddiert, um dadurch ein anderes in Fig. 11c dargestelltes Muster zu bilden. Das auf diese Weise gebil dete Muster der Fig. 11c wird im vorher gespeicherten Muster der Fig. 11a überlagert, um so eine Mittelung durchzuführen. Auf diese Weise wird, nachdem solche Überlagerungen eine vorherbestimmte Anzahl Mal durchgeführt werden, ein Bezugs muster festgelegt. Wie bereits ausgeführt, kann gemäß dieser Ausführungsform eine Mittelung bezüglich der Geräusch- und der Signalabschnitte gesondert durchgeführt werden, so daß dadurch verhindert wird, daß der Signalteil in seiner Quali tät durch die Mittelung verschlechtert wird. In der vorbe schriebenen Ausführungsform ist ein Geräuschbestandteil am Anfang eines Wortes vorhanden. Selbstverständlich ist jedoch diese Technik auch für den Fall anwendbar, daß ein hinteres Ende eines Sprachsignals verlorengegangen ist. Beispiels weise ist es bei einem Wort, das einen Doppelkonsonanten an einem Ende hat, wie beispielsweise /Stopp/, oft der Fall, daß ein solcher Doppelkonsonant und das Folgende durch die ein Sprachintervall feststellende Einheit nicht festgestellt werden und verlorengehen. Wenn eine Anzahl Sprachmuster für ein solches Wort diese Muster, bei welchem das hintere Ende verlorengegangen ist, und diese Muster, bei welchen das hintere Ende nicht verlorengegangen ist, enthalten, ist das sich ergebende, gemittelte Muster in seiner Qualität schlechter, wenn es gemittelt worden ist. Das heißt, wie in Fig. 12a und 12b dargestellt ist, wird, wenn eine Mittelung zwischen dem Muster der Fig. 12a, welches am Ende den Laut /p/ hat und zwischen dem anderen Muster der Fig. 12b, bei welchem der hintere Endlaut /p/ verlorengegangen ist, der hintere Laut /p/ des in Fig. 12a dargestellten Musters mit dem hinteren Endlaut /o/ des in Fig. 12b dargestellten Mu sters gemittelt.

In Fig. 13 ist großteils in Blockform ein Bezugsmuster-Bil dungssystem zur Durchführung des Verfahrens dargestellt, um das Auftreten einer Verschlechterung infolge des Verlusts des hinteren Endlautes zu verhindern. Das in Fig. 13 darge stellte System ist im Aufbau in vieler Hinsicht dem System in Fig. 10 ähnlich, so daß gleiche Elemente mit den gleichen Bezugszeichen bezeichnet sind. Das dargestellte System weist eine eine lautlose Stelle (am hinteren Ende) beurteilende Einrichtung 5 und eine ein hinteres Endmuster addierende Einheit 42 auf. In der Ausführungsform wird geprüft, ob ein lautloses Intervall innerhalb von 100 ms von dem hinteren En de des Sprachintervalls aus vorhanden ist oder nicht; in ähnlicher Weise wie bei der vorher beschriebenen Ausführungs form wird eine vorherbestimmte Markierung in Abhängigkeit von dem Ergebnis einer solchen Überprüfung addiert. Bei einer Mittelwertbildung von ähnlichen Mustern können, wenn diese beiden zu mittelnden Muster dieselbe Markierung haben, da beide Muster einen in Fig. 12a dargestellten Aufbau haben, diese beiden Muster mit ihren übereinstimmenden Anfängen und Enden gemittelt werden. Wenn dagegen die zwei Muster unter schiedliche Markierung haben, dann hat eines der beiden Mu ster einen in Fig. 12a dargestellten Aufbau, während das an dere einen in Fig. 12b wiedergegebenen Aufbau hat. Da in die sem Fall bei dem in Fig. 12b dargestellten Muster der hintere Endlaut /p/ verlorengegangen ist, wird dieser Teil des in Fig. 12a dargestellten Musters von dem lautlosen Intervall an bis zu dem hinteren Ende zu dem Ende des in Fig. 12b darge stellten Musters addiert und dann wird eine Mittelung zwi schen den Mustern durchgeführt. Auf diese Weise kann verhin dert werden, daß ein sich ergebendes Muster durch einen Mit telungsprozeß verschlechtert wird.

In der dargestellten Ausführungsform kann die Spracheingabe einheit 1 durch ein Mikrophon realisiert sein, und die Ener giemessung an der Einheit 2 kann durch Messen von Ausgangs signalen an tonfrequenten Bandpaßfiltern durchgeführt wer den. Üblicherweise wird eine Sprache in einem Abtastab schnitt in der Größenordnung von 10 ms abgetastet, so daß die Zuweisung oder Hinzufügung einer Markierung durch Feststel len der Tatsache durchgeführt werden kann, daß ein lautloses Intervall in den ersten 10 Abtastzeitabschnitten aufgetreten ist, oder das Ende einer Sprache innerhalb von 10 Abtast zeitabschnitten vom Auftreten eines lautlosen Intervalls an erreicht ist. Es ist der Fall beschrieben worden, bei wel chem die Erfindung zur Spracherkennung angewendet worden ist; bekanntlich sollte jedoch die Erfindung nicht auf Spracherkennung beschränkt werden. Die Geräuschverarbeitung am Anfang sowie am Ende eines Musters, wie sie vorstehend beschrieben ist, kann unabhängig oder in Kombination hiermit durchgeführt werden. Außerdem kann die Feststellung des vor deren und hinteren Endes eines Musters auch anders als in 100 ms durchgeführt werden.

In Fig. 14 ist ein Bezugsmuster-Bildungsmuster gemäß einer weiteren Ausführungsform der Erfindung dargestellt. Gemäß dieser Ausführungsform wird eine Sprache registriert, die in eine Merkmalparameter-Verteilung umgesetzt ist. Das heißt, eine Sprache wird in das Mikrophon 21 eingegeben, um ein entsprechendes Sprachsignal zu erzeugen, welches dann einer Frequenzanalyse unterzogen wird, wobei hochfrequente Be standteile in ihrer Größe/Amplitude mit niederfrequenten Be standteilen verglichen werden. Wenn die Amplitude der hoch frequenten Bestandteile am Anfang oder Ende eines Sprachin tervalls größer als die niederfrequenten Bestandteile ist, wird die Dauer dieses Zustands gemessen. Dann wird wieder ein ursprüngliches Sprachmuster durch Entfernen des Teils mit stärkeren hochfrequenten Bestandteilen festgelegt, und das auf diese Weise wieder festgelegte Sprachmuster wird als ein Bezugssprachmuster registriert.

Das in Fig. 14 dargestellte System hat ein Mikrophon 21, eine ein Sprachintervall feststellende Einheit 22, eine Filter bank 23, ein Hochpaßfilter 23 a, ein Tiefpaßfilter 23 b, eine Multipliziereinheit 25, einen Vergleicher 26, ein Register 46, einen Zeitzähler 47, eine Multipliziereinheit 48 und einen Start-Ende-Antrieb 49. Nunmehr wird der Fall der Re gistrierung eines Wortes, wie beispielsweise des Wortes "his" betrachtet. Zuerst wird ein Wort wie "his" in das Mikrophon 21 eingegeben, so daß ein Sprachintervall mittels der Einheit 22 festgestellt wird, und die Information, die sich auf das infrage kommende Wort bezieht, wird an die Fil terbank 23 geliefert. In dem dargestellten Beispiel ist die Filterbank 23 bezüglich der Informationsflußrichtung hinter der Einheit 22 angeordnet; jedoch können diese Elemente er forderlichenfalls in ihrer Lage auch ausgetauscht werden. Das Sprachintervall kann mittels des vorher anhand von Fig. 8 beschriebenen Verfahrens oder durch irgend ein anderes Ver fahren festgestellt werden. In der dargestellten Ausfüh rungsform wird die Filterbank als eine Methode zum Durchfüh ren einer Frequenzanalyse benutzt; jedoch kann auch irgend ein anderes Verfahren, wie beispielsweise ein FFT-Verfahren angewendet werden.

In Fig. 14 hat die Filterbank 23 ein Hochpaß- und ein Tief paßfilter 23 a bzw. 23 b, so daß ein hochfrequentes Ausgangs signal mit einem niederfrequenten Ausgangssignal verglichen wird. Beispielsweise kann in einem Bereich von 200 bis 6000 Hz, der normalerweise für eine Frequenzanalyse erfor derlich ist, der Bereich von 2000 bis 6000 Hz als der hoch frequente Bereich und der Rest als der niederfrequente Be reich festgelegt werden. Da insbesondere in dieser Ausfüh rungsform dieser Teil des Sprachmusters, welcher einen stärkeren hochfrequenten Ausgang hat, festzustellen ist, wird, wenn die hochfrequente Energie einen Faktor 2 oder mehr am Anfang oder Ende des Sprachintervalls größer als die niederfrequente Energie ist, die Dauer eines solchen Zustan des gemessen. In diesem Fall ist die Dauer des hochfrequen ten Ausgangs, der stärker als der niederfrequente Ausgang ist, von dem Sprachbeginn an leicht zu messen; ein Messen der Dauer an dem Ende einer Sprache ist nicht so leicht. Aus diesem Grund wird, wie in Fig. 15a und 15b dargestellt ist, während sowohl ein Signal der Fig. 15a, das einen größeren hochfrequenten Ausgang anzeigt als auch ein Signal der Fig. 15b überwacht werden, welches ein Sprachintervall an zeigt, ein Zähler zum Zeitpunkt T ₁ bei dem Ansteigen des hochfrequenten Ausgangssignals der Fig. 15a gestartet und der Zähler wird wieder gestoppt, um zum Zeitpunkt T ₁ beim Anstei gen des hochfrequenten Ausgangssignals gelöscht zu werden. Diese Arbeitsweise wird wiederholt, und der nach der Beendi gung des Sprachsignals erhaltene Wert wird als eine auf das hintere hochfrequente Ende bezogene Dauer T ₃ bestimmt. Hier durch ist dann ein neues Muster mit einem Drittel dieser Dauer gebildet, und dieses Muster wird registriert. Dies ist in Fig. 16 dargestellt. In einer Annäherung wird der Laut /h/ wirksam ausgeschieden, um wieder ein zu registrierendes Mu ster festzulegen. In diesem Fall können jedoch keine Unter scheidungen mit einem anderen Wort /is/ gemacht werden. Un ter diesen Umständen kann beim Registrieren eines Musters mit einer Information die zwischen /h/ und /i/ überbrückt, Unterscheidungen zwischen /his/ und /is/ bei der Formungs stufe gemacht werden. Der /h/-Teil hat geringe Energie und geht folglich in der das Sprachintervall feststellenden Ein heit 22 leicht verloren; jedoch hat der Vokalteil /i/ eine große Energie und geht folglich nicht verloren. Aus diesem Grund geht der Überbrückungsteil von /h/ zu /i/ selten ver loren. Das heißt, bei dieser Ausführungsform ist die Muster länge einer Fom im wesentlichen gleich dem Fall, bei wel chem der Teil von /h/ ausgeschieden ist; aber die Informa tion von /h/ wird leicht übriggelassen, um dadurch die Er kennungsrate zu erhöhen. Daher kann gemäß dieser Ausfüh rungsform, selbst wenn ein Teil eines Sprachmustes verlo rengegangen ist, eine Art Form oder Schablohne für eine rich tige Spracherkennung registriert werden.

Fig. 17 zeigt ein Flußdiagramm einer Folge von Schritten zum Ausbilden eines zu registrierenden Bezugsmusters gemäß noch einer weiteren Ausführungform der Erfindung. Fig. 18 zeigt Großteils in Blockform ein Bezugsmuster-Bildungssystem zur Durchführung des in Fig. 17 dargestellten Verfahrens. In die ser Ausführungsform werden eine Anzahl von Merkmalsquantitä ten(-mustern), welche dadurch erhalten werden, daß dasselbe zu registrierende Wort eine Anzahl Mal ausgesprochen wird, verarbeitet, um ein zu registrierendes Bezugsmuster festzu legen. Wenn in diesem Fall diese Muster am Anfang oder Ende des Musters einen hochfrequenten Bestandteil und diese Mu ster keinen solchen hochfrequenten Bestandteil haben, werden die Muster verarbeitet, während die hochfrequenten Bestand teile abgetrennt werden, und dann werden die hochfrequenten Bestandteile zu dem verarbeiteten Ergebnis hinzugefügt.

Das in Fig. 18 dargestellte System hat ein Mikrophon 21, eine ein Sprachintervall feststellende Einheit 22, ein Hochpaß filter 23 a, ein Tiefpaßfilter 23 b, einen Vergleicher 26, Re gister 45 a und 45 b, Mittelungseinheiten 26 a und 26 b, einen Addierer 47 und ein Musterregister 48. Der Aufbau des in Fig. 18 dargestellten Systems wird anhand des in Fig. 17 dar gestellten Flußdiagramms beschrieben; zuerst wird eine Spra che eingegeben und es wird geprüft, ob die eingegebene Spra che an dem Wortanfang oder -ende einen hochfrequenten Be standteil hat oder nicht. Wenn dies der Fall ist, wird der hochfrequente Bestandteil abgetrennt, und eine Anzahl Sprachmuster die erzeugt worden sind, indem dasselbe Wort eine Anzahl Mal ausgesprochen wird, werden für die hochfre quenten Bestandteile und die restlichen Teile gesondert ge mittelt. Schließlich werden beide Teile zusammengefaßt, um ein gewünschtes Muster festzulegen. Auf diese Weise kann ge mäß dieser Ausführungsform, selbst wenn dieser Teil eines Sprachmusters mit einem hochfrequenten Bestandteil einmal oder mehrmals während des wiederholten Aussprechens dessel ben Wortes verlorengegangen ist, da die beiden Teile ge trennt gemittelt werden und dann die gemittelten Teile ver bunden oder zusammengefaßt werden, um ein vollständiges Sprachmuster festzulegen, ein derartiger Verlust einer Teil information entsprechend ausgeglichen werden. In Fig. 18 wird in das Mikrophon 21 eingegebene Sprache in ein Sprachsignal umgesetzt, welches dann an die Hoch- und Tiefpaßfilter 23 a und 23 b angelegt wird. Durch Vergleichen der Ausgänge dieser Hoch- und Tiefpaßfilter 23 a und 23 b wird bestimmt, ob das Sprachmuster einen hochfrequenten Bestandteil hat oder nicht. Gleichzeitig wird ein Sprachintervall von dem Sprach signal her festgelegt, und es wird geprüft, ob der hochfre quente Bestandteil am Anfang oder Ende des Sprachintervalls vorhanden ist oder nicht. Wenn ein hochfrequenter Bestand teil vorhanden ist, wird ein Schalter S zu dem Register 45 b geschaltet, während wenn kein solcher hochfrequenter Be standteil vorhanden ist, der Schalter S zu dem Register 45 a geschaltet wird. Das heißt, der hochfrequente Bestandteil am Anfang oder Ende des Sprachintervalls wird in dem Register 45 b und der Rest in dem Register 45 a gespeichert. Beispiels weise werden in dem Fall, daß dasselbe Wort dreimal ausge sprochen wird, beim Speichern von drei Sprachmustern in den Registern der Inhalt des jeweiligen Registers gemittelt, und dann werden die gemittelten Ergebnisse zusammengefaßt. Wenn in diesem Fall der Inhalt des Registers 45 b die Information am Anfang des Sprachintervalls ist, wird der Inhalt des Re gisters 45 b vor dem gemittelten Ergebnis des Registers 45 a angeordnet. Wenn dagegen die hinteren Enddaten in dem Regi ster 45 b gespeichert werden, werden diese nach dem Inhalt des Registers 45 a angeordnet. Folglich kann das Feststellen eines Sprachintervalls mittels eines anhand von Fig. 8 be schriebenen Verfahrens oder durch irgendein anderes ge wünschtes Verfahren durchgeführt werden. Der Mittelungsvor gang kann mittels eines gewünschten Verfahrens in Abhängig keit von dem anschließenden Benutzungszweck des Musters durchgeführt werden. Im vorliegenden Fall kann das folgende Verfahren angewendet werden. Bei einer Mittelung von drei Mustern wird die Musterlänge auf das kürzeste Muster einge stellt und die Muster werden addiert, indem Daten gleichför mig gemacht werden. Ein auf diese Weise gebildetes Muster kann dann ein Bezugsmuster hoher Qualität festlegen, das mit einem Teil vervollständigt ist, welcher gern verlorengeht.

In Fig. 19 ist hauptsächlich in Blockform ein Bezugsmuster- Bildungssystem gemäß noch einer weiteren Ausführungsform der Erfindung dargestellt. Wenn es in dieser Ausführungsform Mu ster gibt, die einen hochfrequenten Anteil am Anfang oder Ende des Merkmals- bzw. Eigenschaftsmusters haben und die keinen solchen hochfrequenten Bestandteil haben, wird der Teil des Musters mit einem hochfrequenten Bestandteil zu dem Teil ohne einen solchen hochfrequenten Bestandteil zugefügt. In Fig. 19 weist das System ein Mikrophon 21, eine ein Sprach intervall feststellende Einheit 22, ein Hochpaßfilter 23 a, ein Tiefpaßfilter 23 b, einen Vergleicher 26, ein Register 45, ein Flag-Prüfeinheit 49, eine Muster-Verbindungseinheit 50, einen Addierer 47 und ein Musterregister 48 auf. Da der Verfahrensablauf bis auf die Prüfung des Fehlens oder Vor handenseins eines hochfrequenten Bestandteils in dem Sprach signal derselbe wie bei der Ausführungsform in Fig. 17 und 18 ist, wird für die vorliegende Ausführungsform nurmehr der anschließende Ablauf beschrieben. Zuerst wird ein Flag in Abhängigkeit davon aufgestellt bzw. eingebracht, ob ein hochfrequenter Bestandteil am Anfang oder Ende des Sprachin tervalls vorhanden ist oder nicht, und das Muster wird dann zusammen mit dem Flag in dem Register 45 gespeichert. Bei Beendigung der Schaffung all der Laute bzw. Aussprechvor gänge für dasselbe Wort, wird geprüft, ob es Sprachmuster mit einem unterschiedlichen Flag gibt. In diesem Fall wer den, wenn alle die Sprachmuster ein Flag oder kein Flag ha ben, eine Mittelung der Sprachmuster, so wie sie sind, durchgeführt. 80857 00070 552 001000280000000200012000285918074600040 0002003733659 00004 80738Andernfalls wird der hochfrequente Bestandteil des Musters mit einem Flag zu dem Anfang oder Ende des Mu sters oder ein Flag hinzuaddiert, und nach Durchführung eines Mittelungsvorgangs wird das gemittelte Muster in dem Musterregister 48 registiert. Das auf diese Weise erhaltene Muster ist dann bezüglich des verlorengegangenen Teils ausge glichen und hat folglich eine hohe Qualität. Es kann ge mäß dieser Ausführungsform selbst wenn ein Muster teilweise verlorengegangen ist, ein normales Bezugsmuster hoher Quali tät gebildet und registriert werden.

Wie vorstehend beschrieben, gibt es beim Ausbilden eines Sprachmusters einen Fall, bei welchem eine unerwünschte Ge räuschkomponente eingebracht wird, und es gibt auch einen Fall, bei welchem ein Teil der Sprachinformation verloren geht. Beispielsweise im Falle eines Wortes mit einem Konso nanten, welcher unabhängig ausgesprochen wird, wie /Stopp/ geht der letzte Laut /p/ gern verloren und kann nicht auf genommen werden. In Fig. 28a und 28b ist ein Beispiel darge stellt, um ein Anpassen für ein Wort, wie /Stopp/ durchzu führen. In Fig. 28a ist ein Bezugsmuster und in Fig. 28b ist ein eingegebenes Muster dargestellt. Das Bezugsmuster in Fig. 28a legt genau ein Sprachmuster für das ganze Wort fest; andererseits ist bei dem eingegebenen, in Fig. 28b darge stellten Muster der letzte Laut /p/ verlorengegangen. Wenn folglich diese beiden Muster für eine Anpassung verglichen werden, wird der letzte Laut /p/ des Bezugsmusters in Fig. 28 in Entsprechung mit dem letzten Laut /o/ des eingegebenen, in Fig. 28b dargestellten Musters gebracht. Aus diesem Grund wird der Ähnlichkeitsgrad zwischen diesen Mustern schlech ter, was dann zu einer fehlerhaften Erkennung führen könnte. Um mit dieser Schwierigkeit fertig zu werden, können solche Verfahren und Systeme geschaffen werden, die in Fig. 28 bis 32 dargestellt sind, welche in ihrem Aufbau genau mit den Fig. 1 bis 4 übereinstimmen, welche eingangs im einzelnen be schrieben worden sind.

Da das System in Fig. 29 genau mit dem System in Fig. 1 über einstimmt und das System in Fig. 31 genau mit dem System in Fig. 3 übereinstimmt, abgsehen davon, daß die Zahl "100" zu den Bezugszeichen hinzugefügt ist, brauchen die Systeme hier nicht noch einmal beschrieben zu werden. Mit Hilfe der Ver fahren, welche in den in Fig. 29 und 31 dargestellten Syste men durchgeführt werden, kann die Genauigkeit einer Muster anpassung erhöht werden. Jedoch können in einem solchen Mu ster-Vergleichsverfahren nachteilige Einflüsse für einen Laut erzeugt werden, welcher manchmal einen größeren manch mal einen niedrigeren Energiepegel hat, wie beispielsweise der Laut /b/. In Fig. 27a und 27b ist ein Beispiel eines Wor tes /onbu/ dargestellt, was im japanischen Sparschwein be deutet; das Muster in Fig. 27 hat einen Laut /b/, dessen Energie nicht nennenswert abgenommen hat, während das Mu ster in Fig. 27b einen Laut /b/ hat, dessen Energie beträcht lich abgenommen hat. In einem solchen Fall wird gemäß dem Verfahren, das bei den in Fig. 29 und 31 dargestellten Syste men angewendet ist, der Teil /bu/ dieses Musters durch An passung ausgeschieden.

Unter diesen Umständen wird gemäß der Erfindung, wenn zwei Muster verglichen werden, wird geprüft, ob ein Minimum an Energie in der Nähe des Anfangs oder des Endes jedes der Muster vorhanden ist oder nicht; wenn ein derartiges Ener gieminimum nur in einem der beiden Muster vorhanden ist, wird dieser Teil eines derartigen Musters, das ein Energie minimum hat, zwischen dem Minimum und dem Ende entfernt. Wenn das Ergebnis, das dadurch erhalten worden ist, daß eine reelle Zahl, welche gleich 1 oder kleiner ist, zu der Mu sterlänge des Musters mit keinem solchen Energieminimum mul tipliziert wird, länger als die Musterlänge des anderen Mu sters ist, wird es auf dieselbe Weise behandelt, wie das Mu ster mit keinem Energieminimum oder aber wenn das Ergebnis das erhalten worden ist, indem eine reelle Zahl, die gleich 1 oder größer ist zu der Musterlänge des Musters mit einem Energieminimum multipliziert wird, kürzer als die Musterlän ge des anderen Musters ist, wird dies in derselben Weise be handelt wie das Muster ohne Energieminimum.

In Fig. 23 ist ein Flußdiagramm einer Schrittfolge eines Mu stervergleichsverfahrens gemäß noch einer weiteren Ausfüh rungsform der Erfindung dargestellt, und in Fig. 24 ist ein Mustervergleichsverfahren zur Durchführung des in Fig. 23 dargestellten Verfahrens wiedergegeben. Das dargestellte Mu stervergleichssystem weist ein Mikrophon 21 , eine ein Sprachintervall bestimmende Einheit 71, eine Bandpaß-Filter bank 72, ein Register 73, ein Sprachenergie-Meßeinheit 74, einen Vergleicher 75, eine Schwellenwert erzeugende Einheit 76, einen Zeitzähler 77, einen Vergleicher 78, einen Zähler 79 für lautlose Intervalle, einen Markierungsvergleicher 80, einen Umschalter 81, eine Bibliothek 82, Rahmenlängeneinhei ten 83 und 84, eine Multipliziereinheit 85, eine zu multi plizierende Konstante setzende Einheit 86, einen Vergleicher 87, einen Umschalter 88, eine Muster-Entfernungseinheit 89, eine Anpassungseinheit 90 und eine Anzeigeeinheit 91 auf. Wenn eine Geräuschkomponente in eine eingegebene Sprache eingebracht worden ist, wird die Musterlänge im Vergleich zu der Musterlänge eines normalen Musters größer; jedoch wird gemäß der Erfindung die Aufmerksamkeit auf die Tatsache ge richtet, daß die Musterlänge in dem in Fig. 27 dargestellten Fall nicht größer wird.

Wie in Fig. 23 und 24 dargestellt, wird die Energie einer in das Mikrophon 21 eingegebenen Sprache durch die Meßeinheit 74 gemessen, wodurch die Lage eines lautlosen Intervalls in der Sprache festgestellt wird. Eine der Sprache zuzuordnende Markierung unterscheidet sich in Abhängigkeit davon, ein solches lautloses Intervall innerhalb von 100 ms von dem an fang des Sprachintervalls an ausfindig zu machen. Beim Her ausnehmen eines Bibliotheks- oder Bezugsmusters, welches zu sammen mit der Hinzufügung einer solchen Markierung regi striert worden ist, wird geprüft, ob die Markierung des Be zugsmusters dieselbe ist wie diejenige des eingegebenen Mu sters oder nicht. Wenn die beiden Markierungen dieselben sind, wird der Schalter 81 zu einem Kontakt a umgeschaltet, so daß ein gewöhnlicher Musteranpassungsprozeß durchgeführt wird. Wenn andererseits sich die zwei Markierungen unter scheiden, wird der Schalter 81 zu einem Kontakt b umgeschal tet, um dadurch die beiden Muster den jeweiligen Rahmenlän gen-Vergleichern 83 und 84 zuzuführen, in welchen die Rah menlänge mit einer dem lautlosen Intervall entsprechenden Markierung als Fr 1 und die Rahmenlänge ohne eine solche Mar kierung als Fr 2 gesetzt wird. Eine Musterentfernung wird nur dann durchgeführt, wenn der Bedingung, daß Fr 1 kleiner als 0,9 × Fr 2 genügt worden ist, und dann wird eine Musteranpas sung durchgeführt. Wenn hiermit ein notwendiger Laut aus einem solchen Muster entfernt worden ist, wie in Fig. 27 dar gestellt ist, wird die Musterlänge kürzer, um dadurch der Bedingung zu genügen, das Fr 1 kleiner als 0,9 × Fr 2 ist, wo durch dann die Muster-Entfernungseinheit 89 umgangen ist. Wenn dagegen eine Geräuschkomponente hinzugefügt worden ist, wird die Musterlänge durch das Hinzufügen einer solchen Ge räuschkomponente verlängert, so daß der Bedingung, daß Fr 1 kleiner als 0,9 × Fr 2 ist, nicht genügt ist, und folglich wird auf die Muster-Entfernungseinheit 89 übergegangen, um vor einer Anpassung eine erforderliche Musterentfernung durchzuführen.

In Fig. 25 und 26 ist eine weitere Ausführungsform der Er findung dargestellt, welche grundsätzlich dieselbe wie die vorhergehende anhand von Fig. 23 und 24 beschriebene Ausfüh rungsform ist. In Fig. 25 ist ein Flußdiagramm eines Muster vergleichsverfahrens dieser Ausführungsform dargestellt, und in Fig. 26 ist großteils in Blockform ein Mustervergleichsver fahren zum Durchführen des in Fig. 25 dargestellten Verfah rens wiedergegeben. Da die vorliegende Ausführungsform sehr ähnlich der vorherigen anhand von Fig. 23 und 24 beschriebe nen Ausführungsform ist, sind mit den gleichen Bezugszeichen die gleichen Elemente bezeichnet. In der in Fig. 25 und 26 dargestellten Ausführungsform wird eine vorbestimmte re elle Zahl, die gleich eins oder größer ist (in der darge stellten Ausführungsform ist 1,1 in der die zu multiplizie rende Konstante setzende Einheit 86 gesetzt) zu der Muster länge des Musters mit einem Energieminimum multipliziert; wenn das Ergebnis einer solchen Multiplikation kleiner als die Musterlänge des anderen Musters ist, wird es in dersel ben Weise wie das Muster ohne Energieminimum behandelt. Wenn in der dargestellten Ausführungsform das Ergebnis 1,1 zu einem Muster mit einem lautlosen Intervall zu multiplizie ren, d. h. ein Muster, bei dem möglicherweise ein Rauschbe standteil hinzugefügt ist, kürzer als ein Muster ohne ein lautloses Intervall ist, wird dann bestimmt, daß dieses lautlose Intervall nicht eine Geräuschkomponente ist, so daß keine Musterentfernung durchgeführt wird. Auf diese Weise wird gemäß der Erfindung ein Muster, in welchem Unterschei dungen zwischen Geräusch- und Sprachinformation schwierig ist, automatisch unterschieden, um dadurch die Geräuschin formation zu entfernen, so daß eine Musteranpassung mit ho her Genauigkeit durchgeführt werden kann.

Gemäß noch einem weiteren Aspekt der Erfindung ist ein Mu stervergleichsverfahren und ein System geschaffen, in wel chem eine Musteranpassung bezüglich eines eingegebenen Mu sters mit einem Geräuschbestandteil durchgeführt wird, in dem ein solcher Geräuschbestandteil entfernt wird, und es wird dann eine Erkennungsberechnung an einem Zeitpunkt ein geleitet, der früher als das Eingeben einer zu erkennenden, eingegebenen Sprache liegt. Das heißt, um ein derartiges Ziel zu erreichen, wird beim Vergleichen von zwei Mustern zuerst geprüft, ob ein Energieminimum in einem vorherbe stimmten Bereich von dem vorderen Ende (Anfang) oder von dem rückwärtigen Ende jedes der Muster vorhanden ist oder nicht. Wenn ein derartiges Energieminimum nur in einem der Muster vorhanden ist, wird dieser Teil des Musters, das ein Energie minimum hat, zwischen dem Energieminimum und dem vorderen oder hinteren Ende des Musters entfernt und dann werden die beiden Muster verglichen. Zu einem Zeitpunkt nach dem Einge ben des Musters für einen vorherbestimmten Zeitabschnitt im Anschluß an das Feststellen des vorderen Endes einer Sprache wird festgelegt, ob ein Energieminimum am vorderen Ende des Musters zu entfernen ist oder nicht; danach wird festgelegt, ob das Energieminimum am hinteren Ende des Musters zu ent fernen ist oder nicht.

In Fig. 33 (33a und 33b) ist in Blockform ein Spracherken nungssystem gemäß noch einer weiteren Ausführungsform der Erfindung dargestellt. In Fig. 34 (34a und 34b) ist ein Fluß diagramm dargestellt, anhand dessen die Arbeitsweise des in Fig. 33 dargstellten Spracherkennungssystems erläutert wird. Das Spracherkennungssystem weist ein Mikrophon 21, eine Bandpaß-Filterbank 72, eine ein Sprachintervall feststellen de Einheit 71, ein Register 73 , eine Sprachenergie feststel lende Einheit 124, einen Vergleicher 125, einen Schwellen wert erzeugende Einheit 126, einen Zähler 127 für lautlose Intervalle, einen Zeitzähler 128, Vegleicher 129 und 130, eine Zeitrückführeinheit 131 (z. B., um sie zuvor 100 ms zu einem entsprechenden Zeitpunkt zurückzuführen), eine eine vorherbestimmte Zeit erzeugende Einheit 132, eine Markie rungs-Zufügungseinheit 133, einen Vergleicher 134, eine Bib liothek 135, einen Umschalter 136, eine Muster-Entfernungs einheit 137, um etwas bis zu einem lautlosen Abschnitt zu entfernen, eine Anpassungseinheit 138, eine Kanditaten-Aus wähleinheit 139 und eine Anzeigeeinheit 140 auf. In dieser Ausführungsform wird festgelegt, ob die Nähe des vorderen oder hinteren Endes eines Musters innerhalb von 100 ms liegt. Zuerst wird Sprache in das Mikrophon 21 eingegeben, um ein Sprachsignal zu erzeugen, welches dann in eine Merkmalsgröße umgesetzt wird. In dieser Ausführungsform wird das Frequenz spektrum des Sprachsignals, das durch ein Sprachsignal er zeugt worden ist, das durch die Bandpaß-Filterbank 72 verar beitet worden ist, als eine Merkmalsgröße verwendet. Dann wird das Sprachintervall festgestellt, und das eingegebene unbekannte Muster wird in dem Register 73 gespeichert. Gleichzeitig wird die Zeit, welche seit dem Feststellungs zeitpunkt des vorderen Endes (Anfang) des Sprachintervalls verstrichen ist, durch den Zähler 128 gezählt.

Außerdem wird die Energie eines Sprachsignals festgestellt, und wenn diese Energie kleiner als der Schwellenwert ist, wird dies als ein Teil eines lautlosen Intervalls betrach tet, so daß dessen Lage und Zahl in dem Zähler 127 gespei chert werden. Wenn dann der Zeitzähler 127 100 ms erreicht hat, wird eine Markierung von -1 hinzugefügt, soweit ein lautloses Intervall vorhanden gewesen ist, und es wird eine Markierung von 1 hinzugefügt, soweit kein lautloses Inter vall gewesen ist. Gleichzeitig mit dem Hinzufügen einer Mar kierung wird ein Bezugsmuster aus der Bibliothek 135 heraus genommen, um so eine vorläufige Anpassung bezüglich der in der Bibliothek 135 gespeicherten Bezugsmuster durchzuführen. Jedes der in der Bibliothek 135 gespeicherten Bezugsmuster hat eine Markierung von -1 oder 1 in Abhängigkeit davon, ob ein lautloses Intervall am vorderen oder hinteren Ende einer Sprache vorhanden ist oder nicht. Dann wird zuerst vergli chen, ob das Bezugsmuster aus der Bibliothek 135 dieselbe Markierung wie diejenige des eingegebenen Musters hat oder nicht. Wenn die zwei Markierungen dieselben sind, da ein lautloses Intervall in jedem der beiden Muster vorhanden ist, wird eine vorläufige Anpassung durchgeführt. Eine sol che vorläufige Anpassung kann beispielsweise durch Verglei chen vorherbestimmter Teile der beiden Muster durchgeführt werden. Wenn sich dagegen die beiden Markierungen unterschei den wird der Teil des Musters, das ein lautloses Intervall hat, zwischen dem vorderen Ende und dem lautlosen Intervall entfernt, und dann wird die vorläufige Anpassung durchge führt, um Kandidaten-Bezugsmuster auszuwählen.

Wenn dagegen der vorherbestimmte Zeitabschnitt von 100 ms oder mehr von dem vorderen Ende einer Sprache an verstri chen ist, wird der Wert bestimmt, auf welchem von dem augen blicklichen Zeitpunkt auf einen Zeitpunkt von über 100 ms zu rückgegangen worden ist, und es wird zu derselben Zeit zu sammen mit einem Beendigungssignal der Sprache geprüft, ob ein lautloses Intervall innerhalb der letzten 100 ms vorhan den gewesen ist oder nicht; eine Markierung von -1 oder 1 wird dann in Abhängigkeit davon, ob ein lautloses Intervall vorhanden gewesen ist oder nicht, in ähnlicher Weise wie bei dem vorderen Ende des Musters hinzugefügt. Die restliche Ar beitsweise, welche für das vordere Ende des Musters durch geführt worden ist, wird dann auch für das hintere Ende des Musters durchgeführt, und es wird erforderlichenfalls ein Teil des Musters entfernt; die endgültige Anpassung wird für die Kandidaten-Bezugsmuster durchgeführt, welche vorher aus gewählt worden sind.

In dem vorher beschriebenen Ausführungsbeispiel der Erfin dung ist ein Mustervergleichsverfahren und -system vorgese hen, in welchen ein Schwellenwert, z. B. 100 ms, verwendet wird, um zu prüfen, ob ein Energieminimum in der Nähe des vorderen Endes (Anfangs) eines Sprachmusters vorhanden ist oder nicht. Wenn ein Energieminimum bei 110 ms vorhanden ist, wird in diesem Fall eine Markierung, welche das Fehlen eines Energieminimums anzeigt, zugeteilt. Wenn dagegen ein Ener gieminimum bei 90 ms in dem anderen Muster vorhanden ist, wird dieses Minimum vor einer Anpassung entfernt. Folglich gibt es eine Möglichkeit, eine richtige Anpassung durchzu führen. Dies wird nun im einzelnen unter Bezugnahme auf Fig. 43a und 43b beschrieben. Für das in Fig. 43a dargestell te Muster wird festgelegt, daß kein Energieminimum in der Nähe des hinteren Endes des Musters vorhanden ist. Für das in Fig. 43b dargestellte Muster wird dagegen festgelegt, daß ein Energieminimum in der Nähe des hinteren Endes des Mu sters vorhanden ist. Folglich wird der letzte Laut /p/ des Musters in Fig. 43b entfernt, bevor das Muster in Fig. 43b für ein Anpassen mit dem Muster in Fig. 43a verglichen wird. Dies führt dann zu einer unrichtigen Anpassung.

Ein Aspekt der Erfindung ist insbesondere darauf gerichtet, ein derartiges bei der vorstehend beschriebenen Ausfüh rungsform auftretendes Problem zu lösen, damit eine Anpas sung zwischen zwei Mustern richtig durchgeführt werden kann. Mit anderen Worten gemäß der Erfindung wird beim Vergleich von zwei Mustern zuerst geprüft, ob ein Energieminimum in der Nähe des vorderen oder hinteren Endes jedes der Muster vorhanden ist oder nicht. Wenn ein derartiges Energieminimum nur in einem der Muster vorhanden ist, wird dieser Teil des Musters, das ein Energieminimum hat, zwischen dem Minimum und dem vorderen oder hinteren Ende aus dem Muster entfernt und dann wird ein Vergleich zwischen den zwei Mustern durch geführt. Wenn dagegen eine Anzahl Minima vorhanden ist, wird die Länge zwischen dem ersten und dem zweiten Minimum eines ersten Musters mit der Länge zwischen dem vorderen Ende und dem ersten Minimum und der Länge zwischen dem ersten und zweiten Minimum eines zweiten Musters verglichen; nur wenn der Musterlängenunterschied bei dem letzteren größer ist, wird dieser Teil des zweiten Musters zwischen dem vorderen Ende und dem ersten Minimum entfernt, und es wird eine An passung zwischen dem ersten und zweiten Muster durchgeführt.

In Fig. 35 ist ein Flußdiagramm eines Mustervergleichsverfah rens gemäß noch einer weiteren Ausführungsform der Erfindung dargestellt. In Fig. 36 (36a und 36b) ist großteils in Block form ein Spracherkennungssystem zum Durchführen des Verfah rens in Fig. 35 dargestellt. Das Spracherkennungssystem weist einen elektroakustischen Wandler 21, wie beispielsweise ein Mikrophon, eine ein Sprachintervall feststellende Einheit 71, eine Bandpaß-Filterbank 72, ein Register 73, eine Sprachenergie-Meßeinheit 242, einen Vergleicher 225, eine Schwellenwert erzeugende Einheit 226, einen Zeitzähler 227, einen Vergleicher 228, einen Zähler 229 für lautlose Inter valle, einen Markierungsvergleicher 230, einen Umschalter 231, eine Bibliothek 232, Recheneinheiten 233 bis 235, einen Vergleicher 236, einen Umschalter 237, eine Musterentfer nungseinheit 238, eine Anpassungseinheit 239 und eine Anzei geeinheit 240 auf.

In Fig. 41a und 41b sind zwei Beispiele eines Sprachmusters dargestellt, wenn ein Wort "mitaka" auf japanisch ausgespro chen wird. In diesem Fall wird eine Länge m 2 zwischen dem zweiten und dritten Minimum des Musters der Fig. 41a mit einer Länge n 1 zwischen dem vorderen Ende und dem ersten Mi nimum des Musters der Fig. 41b und auch mit der Länge n 2 zwi schen dem ersten und zweiten Minimum des Musters der Fig. 41b verglichen. Wenn der Absolutwert der Differenz (n 1 - m 2) kleiner als der Absolutwert der Differenz (n 2 - m 2) ist, dann wird festgelegt, daß das Minimum, welches innerhalb von 100 ms von dem vorderen Ende vorhanden sein sollte, was als Nähe zu dem vorderen Ende betrachtet werden kann, über den Bereich von 100 ms hinaus ausgedehnt, und folglich werden die zwei Muster als normal festgelegt und so, wie sie sind, mit einander verglichen. Wenn dagegen der Absolutwert der Dif ferenz (n 1 - m 2) größer als der Absolutwert der Differenz (n 2 - m 2) ist, dann wird festgelegt, daß ein Laut, welcher vor der Länge n 1 vorhanden sein sollte, verloren gegangen ist, und daß folglich der vordere Endteil des Musters der Fig. 41a entfernt und erst dann zur Anpassung die beiden Mu ster verglichen werden.

Wie unter Bezugnahme auf Fig. 35 und 36 beschrieben wird, wird, wenn ein ausgesprochenes Wort in das Mikrophon 21 ein gegeben wird, ein entsprechendes Sprachsignal erzeugt, und dann wird die Energie der Sprache durch die Meßeinheit 224 gemessen, um dadurch ein lautloses Intervall festzustellen und es wird der Sprache eine andere Markierung zugeteilt in Abhängigkeit davon, ob ein solches lautloses Intervall in nerhalb von 100 ms von dem vorderen Ende (Beginn) der Sprache an vorhanden ist. Ein Bezugsmuster, welches in der Biblio thek 232 registriert worden ist, und in welchem eine ähnli che Markierung zugeteilt ist, wird aus der Bibliothek 232 entnommen, und es wird geprüft, ob das Bezugsmuster dieselbe Markierung wie das eingegebene Muster hat. Wenn die beiden Muster dieselbe Markierung haben, wird der Schalter 231 zu einem Kontakt a umgeschaltet, um dadurch einen gewöhnlichen Mustervergleich durchzuführen. Wenn dagegen die zwei Markie rungen verschieden sind, wird der Schalter 231 zu einem Kon takt b umgeschaltet, um dann, wie oben beschrieben, die Be rechnungen durchzuführen.

Wenn beispielsweise, wie in Fig. 41 dargestellt, das Bezugs muster (z. B. ein in Fig. 41a dargestelltes Muster) sich von dem eingegebenen Muster (z. B. von dem Muster in Fig. 41b) un terscheidet, werden Werte von n 1, n 2 und m 2 in den Rechen einheiten 233 bis 235 berechnet, und dann wird festgelegt, ob in Abhängigkeit von der Größenbeziehung zwischen den Ab solutwerten von (n 1-m 2) und (n - m 2) zu der Musterentfer nungseinheit 238 überzugehen ist oder nicht. Vorstehend ist der Fall für das vordere Sprachende beschrieben worden; je doch auch in dem Fall, daß eine Geräuschkomponente zu dem hinteren Ende einer Sprache hinzugefügt worden ist oder ein Laut am hinteren Ende einer Sprache (eines Wortes) verloren gegangen ist, kann eine derartige Hinzufügung einer Rausch komponente oder der Verlust eines Lautes am hinteren Ende eines Wortes auf die folgende Weise durchgeführt werden. Wenn eine Anzahl von m Minima in dem ersten Muster und eine Anzahl von n Minima in dem zweiten Muster vorhanden sind, während die Länge zwischen dem (m - 1)ten und dem m-ten Minimum des ersten Musters mit der Länge zwischen dem n-ten Minimum und dem hinteren Ende des zweiten Musters verglichen. Nur wenn der Musterlängen-Unterschied bei letzterem kleiner ist, wird der Teil des zweiten Musters zwischen den bei den Mustern entfernt. In dem Beispiel in Fig. 42 hat jedes Muster zwei lautlose Intervalle; jedoch unterscheidet sich eine zuzuteilende Markierung bei dem Muster der Fig. 42b, in welchem ein lautloses Intervall innerhalb 100 ms von dem hin teren Ende der Sprache aufzufinden ist, von dem Muster der Fig. 42a, in welchem ein lautloses Intervall nicht innerhalb von 100 ms von dem hinteren Ende der Sprache vorhanden ist.

Aus diesem Grund wird unter normalen Voraussetzungen der letzte Laut /p/ des in Fig. 42b dargestellten Musters ent fernt. Gemäß der Erfindung wird jedoch eine Länge m 2 des Musters der Fig. 32a mit Längen n 2 und n 3 des Musters der Fig. 42 verglichen, und nur wenn der Absolutwert der Diffe renz (n 2 - m 2) größer als der Absolutwert der Differenz (n 3 - m 2) ist, wird zu der Musterentfernungseinheit 238 übergegangen, in welcher der letzte Laut /p/ des in Fig. 42b dargestellten Musters entfernt wird.

In Fig. 37 ist ein Flußdiagramm dargestellt, welches die Schrittfolge einer Ausführungsform für eine Anpassung zwi schen einem Muster mit einem lautlosen Intervall, das inner halb von 100 ms von dem hinteren Ende einer Sprache aufgefun den ist, wie es vorstehend beschrieben ist, und einem Mu ster ohne ein solches lautloses Intervall dargestellt. In Fig. 38 ist schematisch ein Spracherkennungssystem zum Durch führen des Verfahrens der Fig. 37 dargestellt. Die in Fig. 37 und 38 dargestellte Ausführungsform ist in vieler Hinsicht der in Fig. 35 und 36 dargestellten Ausführungsform ähnlich, so daß nur die Elemente dieser Ausführungsformen, welche sich von den entsprechenden Elementen der vorherigen Ausfüh rungsformen unterscheiden, mit Bezugszeichen bezeichnet sind, bei welchen ein Buchstabe "a" hinzugefügt ist. Das heißt, in dieser Ausführungsform werden die Werte von n 2, n 3 und m 2 durch die Recheneinheit 233 a bestimmt, und der Abso lutwert der Differenz (n 3 - m 2) wird in der Recheneinheit 235 a bestimmt. Jedoch gibt es bei einer Sprache, da die Ge samtlänge sich dehnt und zusammenzieht, einen Fall, bei wel chem eine fehlerhafte Bestimmung vorgenommen wird, wenn nur auf den Absolutwert eines Musters vertraut wird. Unter die sen Umständen können in den in Fig. 35 bis 38 dargestellten Ausführungsformen statt der Längen m 2, n 1, n 2 und n 3 Werte verwendet werden, welche durch die Sprachlänge normiert sind, d. h. m 2/M, n 1/N, n 2/N und n 3/N. Hierbei gegen die Wer te M und N die Gesamtlänge der jeweiligen Worte (Sprache) an.

In Fig. 39 ist ein Flußdiagramm einer Ausführungsform darge stellt, welches bei solchen normierten Werten Verwendung findet. In Fig. 40 ist schematisch großteils in Blockform ein Spracherkennungssystem zum Durchführen des Verfahrens in Fig. 39 dargestellt. In der Ausführungsform in Fig. 39 und 40 sind die Elemente dieser Ausführungsform, welche sich von denen der vorherigen in Fig. 35 bis 38 dargestellten Ausfüh rungsform unterscheiden, mit Bezugszeichen bezeichnet, bei welchen der Buchstabe "b" hinzugefügt ist. Das heißt, in dieser Ausführungsform werden in der Recheneinheit 233 b Längen n 1, m 2, n 2 und m 3 bestimmt, und die Absolutwerte der normierten Differenzen (n 2/N - m 2/M) werden in der Rechen einheit 234 b bestimmt. Außerdem wird der Absolutwert der normierten Differenz (n 1/N - n 2/M) in der Recheneinheit 235 b bestimmt.

Gemäß einem weiteren Aspekt der Erfindung ist ein Musteran passungsverfahren und -system geschaffen, bei welchem eine Musteranpassung durchführbar ist, selbst wenn ein Energie minimum in seiner Position etwas verschoben wird. Das heißt, gemäß der Erfindung wird beim Vergleichen von zwei Mustern zuerst geprüft, ob es ein Energieminimum in der Nähe des vorderen oder hinteren Endes jedes der Muster gibt oder nicht. Wenn ein derartiges Energieminimum nur in einem der beiden Muster vorhanden ist, wird dieser Teil des Musters welches ein solches Energieminimum hat, zwischen dem Ener gieminimum und dem vorderen oder hinteren Ende entfernt oder beseitigt, und dann werden die beiden Muster verglichen. Wenn in diesem Fall die beiden Muster eine unterschiedliche Anzahl von Energieminima haben, wird der Teil des Musters, das eine größere Anzahl von Minima hat, zwischen dem vorde ren Ende des Musters und dem ersten Minimum oder zwischen dem letzten Minimum und dem hinteren Ende beseitigt. Oder aber es wird geprüft, ob ein Eingangssignal eine Anzahl Energieminima hat oder nicht; wenn eine Anzahl Energieminima vorhanden ist, wird das Verhältnis zwischen der Musterlänge und der Minimumstelle festgestellt, wobei, wenn das sich er gebende Verhältnis nahe dem Verhältnis des Bezugsmusters ist und das Energieminimum nur in der Nähe des Endes eines der Muster besteht, eine Anpassung zwischen den Mustern durchgeführt, wobei angenommen wird, daß beide Muster Minima oder keine Minima haben. Ferner wird zuerst geprüft, ob ein Eingangssignal eine Anzahl Energieminima hat oder nicht; wenn eine Anzahl Energieminima vorhanden ist, wird das Ver hältnis zwischen der Musterlänge und der Minimumposition festgestellt, wobei, wenn das sich ergebende Verhältnis nahe dem Verhältnis des Bezugsmusters ist, die Musterlänge zwi schen dem Energieminimum und dem Musterende jedes der Muster gleich oder kleiner als ein vorherbestimmter Wert ist, und das Energieminimum nur in der Nähe des Endes eines der Mu ster vorhanden ist, eine Anpassung zwischen den Mustern durchgeführt wird unter der Annahme, daß beide Muster Minima oder keine Minima haben. Ferner wird alternativ hierzu zu erst geprüft, ob ein Eingangssignal eine Anzahl Energiemini ma hat oder nicht, und wenn die Anzahl Energieminima sich zwischen dem eingegebenen und dem Bezugsmuster unterschei det, wird die Länge zwischen dem Minimum, das dem Musterende am nächsten ist, und einem lautlosen Intervall des Musters, das eine größere Anzahl von Energieminima hat, von der Mu sterlänge des Musters, das eine größere Anzahl von Minima hat, subtrahiert, um einen Wert zu erhalten, welcher dann mit der Musterlänge des anderen Musters verglichen wird, wo bei, wenn der auf diese Weise erhaltene Wert näher bei der Musterlänge des anderen Musters liegt, dieser Teil des Mu sters, das eine größere Anzahl von Minima hat, zwischen dem Minimum und dem Musterende beseitigt wird; dann erst werden die beiden Muster miteinander verglichen.

In Fig. 44 ist ein Flußdiagramm dargestellt, das eine Schritt folge eines Musteranpassungs- oder Vergleichsverfahrens ge mäß noch einer weiteren Ausführungsform der Erfindung dar stellt. In Fig. 45 ist ein Spracherkennungssystem zum Durch führen des Verfahrens in Fig. 44 dargestellt. Das Spracher kennungssystem hat ein Mikrophon 21, eine ein Sprachinter vall feststellende Einheit 71, eine Bandpaß-Filtereinheit 72, ein Register 73, eine Sprachenergie-Meßeinheit 224, ei nen Vergleicher 225, eine Schwellenwert erzeugende Einheit 226, einen Zeitzähler 227, einen Vergleicher 228, einen Zähler 229 für lautlose Intervalle, einen Markierungsver gleicher 230, einen Umschalter 231, eine Bibliothek 232, eine Musterentfernungseinheit 238, eine Anpassungseinheit 239 und eine Anzeigeeinheit 240. In dieser Ausführungsform wird beim Vergleichen von zwei Mustern, wenn ein Energie minimum in der Nähe des vorderen oder hinteren Endes eines Musters vorhanden ist, dieser Teil des Musters, das ein Ener gieminimum hat, zwischen dem Energieminimum und dem vor deren oder hinteren Ende des Musters entfernt, und dann wer den die beiden Muster zur Anpassung miteinander verglichen. Wenn in diesem Fall die Anzahl Minima zwischen den beiden Mustern unterschiedlich ist, wird der Teil des Musters, das eine größere Anzahl Minima hat, zwischen dem ersten oder letzten Minimum und dem Musterende entfernt, und dann werden die beiden Muster verglichen. Hierbei wird angenommen, daß ein Energieminimum in einer Sprache einem lautlosen Ab schnitt in der Sprache (dem Wort) enspricht.

Zuerst wird, wenn die Sprache in das Mikrophon 21 eingegeben wird, ein Sprachsignal erzeugt, und die Energie der Sprache wird durch die Einheit 242 gemessen. Gleichzeitig wird ge prüft, ob ein lautloses Intervall vorhanden ist oder nicht und es wird die Anzahl solcher lautloser Intervalle aufge zeichnet. Dann wird ein Bezugsmuster aus der Bibliothek 232 herausgenommen, und die Anzahl Sprachintervalle in dem Be zugsmuster wird mit der Anzahl Sprachintervalle in dem ein gegebenen Muster verglichen. Wenn diese Zahlen übereinstim men, wird zu einem gewöhnlichen Anpassungsschritt übergegan gen, um die zwei Muster, sowie sie sind zu vergleichen. Es wird dann auf einen Schritt übergegangen, um einen Teil eines Musters nur dann zu entfernen, wenn diese Zahlen nicht übereinstimmen. Das heißt, wie im einzelnen noch beschrieben wird, wird die Energie einer in das Mikrophon 21 eingegebenen Sprache mittels der Einheit 224 gemessen, um dadurch die Stelle eines lautlosen Intervalls festzustellen, und es wird eine andere Marke in Abhängigkeit davon verwendet, ob ein solches lautloses Intervall innerhalb von 100 ms von dem vor deren Ende des Musters aufgefunden wird. Ein Bezugsmuster, indem eine solche Markierung zugeteilt ist, wird aus der Bibliothek 232 herausgenommen, und es wird geprüft, zu se hen, ob das eingegebene Muster eine Markierung hat oder nicht, welche mit der Markierung des Bezugsmusters identisch ist. Wenn die zwei Markierungen, dieselben sind, dann wird der Umschalter 231 zu einem Kontakt a umgeschaltet, so daß die beiden Muster so wie sie sind, in üblicher Weise vergli chen werden. Wenn dagegen die zwei Markierungen unterschied lich sind, dann wird der Schalter 231 zu einem Kontakt b um geschaltet, so daß dieser Teil des Musters, welcher eine größere Anzahl von Energieminima hat, zwischen dem ersten oder letzten Minimum und dem Musterende durch die Musterent fernungseinheit 238 beseitigt, und danach werden die beiden Muster durch die Anpassungseinheit 239 verglichen. Im Ergeb nis kann somit ein fehlerhaftes Muster durch Verschieben ei nes lautlosen Intervalls entsprechend korrigiert werden, und es kann eine Musteranpassung mit hoher Genauigkeit durchge führt werden.

In Fig. 46 ist ein Flußdiagramm eines Mustervergleichsver fahrens gemäß noch einer weiteren Ausführungsform der Erfin dung dargestellt. In Fig. 47 ist schematisch großteils in Blockform ein Spracherkennungssystem zum Durchführen des Verfahrens in Fig. 46 dargestellt. Diese Ausführungsform ist im Aufbau in vieler Hinsicht der vorstehend anhand von Fig. 44 und 45 beschriebenen Ausführungsform ähnlich, so daß die gleichen Bezugszeichen für die gleichen Elemente verwendet sind. Die Ausführungsform weist einen Vergleicher 241, eine Anzahl lautlose Intervalle erzeugende Einheit 242, einen Um schalter 243, eine Recheneinheit 244, einen Vergleicher 245, eine eine zu multiplizierende Konstante setzende Einheit 246 und einen Umschalter 247 auf. In dieser Ausführungsform wird beim Vergleichen von zwei Mustern zuerst geprüft, ob ein Energieminimum in der Nähe des vorderen oder hinteren En des eines Musters vorhanden ist oder nicht. Wenn ein der artiges Energieminimum nur in einem der Muster vorhanden ist, wird dieser Teil des Musters, das ein solches Energie minium hat, zwischen dem Energieminimum und dem vorderen oder hinteren Ende entfernt, und dann erst werden für eine Anpassung die beiden Muster verglichen. In diesen Fällen wird gemäß der Erfindung geprüft, ob ein Eingangssignal eine Anzahl Energieminima hat oder nicht. Wenn eine Anzahl Ener gieminima vorhanden ist, wird das Verhältnis zwischen der Musterlänge und der Position des Energieminimums festge stellt. Wenn das sich ergebende Verhältnis im Vergleich zu dem Verhältnis des Bezugsmusters näherliegt und ein Energie minimum nur in der Nähe eines der Muster existiert, wird eine Musteranpassung unter der Annahme durchgeführt, daß beide Muster Energieminima oder keine Energieminima haben. Hierbei ist angenommen, daß ein Energieminimum einem laut losen Abschnitt einer Sprache entspricht.

Wenn Sprache in das Mikrophon 21 eingegeben wird, wird des sen Energie durch die Einheit 224 gemessen, und es wird ge prüft, ob es ein lautloses Intervall in der Sprache gibt oder nicht. Wenn dies der Fall ist, wird deren Lage bestimmt. Wenn ein solches lautloses Intervall innerhalb von 100 ms von dem vorderen Ende des Sprachmusters aufgefunden wird, wird eine Markierung zugeteilt, welche die Möglichkeit anzeigt, daß eine Rauschkomponente an dem vorderen Ende des Sprach musters eingegeben worden ist. Gleichzeitig wird die Anzahl lautloser Intervalle festgestellt. Wenn zwei oder mehr laut lose Intervalle in einem der Muster vorliegen, wird geprüft, ob der Unterschied zwischen den Positionsverhältnissen der lautlosen Intervalle innerhalb 10 Prozent liegt oder nicht. Wenn sie innerhalb 10% liegen, dann wird der Schalter 244 aus der in Fig. 47b dargestellten Schaltung umgeschaltet, um die Musterentfernungseinheit 238 zu umgehen und um folglich einen gewöhnlichen Anpassungsvorgang durchzuführen. Wenn da gegen die Differenz 10 Prozent oder mehr ist, dann wird der Schalter 247 in die in Fig. 47b dargestellte Position ge bracht und es wird ein Muster mit einer größeren Anzahl von lautlosen Intervallen der Einheit 238 zugeführt.

Das heißt, gemäß dieser Ausführungsform wird für zwei Mu ster mit lautlosen Intervallen, die bei 110 ms und 90 ms auf gefunden worden sind, eine Musteranpassung zwischen den beiden Mustern unter der Annahme durchgeführt, daß kein Geräusch eingebracht ist und keine Information verloren wor den ist. Hierbei ist das Verhältnis der Position von laut losen Intervallen durch f′/f festgelegt, wobei f eine Muster länge (in ms) und f′ eine lautlose Position (in ms) ist. Wenn die Musterlänge und die Anzahl lautloser Intervalle groß ist, kann es zu einer Fehlerzunahme grade durch das Verhältnis kommen. Unter diesen Umständen wird dann geprüft, ob ein Eingangssignal eine Anzahl Energieminima hat oder nicht. Wenn eine Anzahl Energieminima bestehen, wird das Ver hältnis zwischen der Musterlänge und der Energieminimum- Position bestimmt, und das sich ergebende Verhältnis wird mit dem entsprechenden Verhältnis des Bezugsmusters vergli chen. Wenn die beiden Verhältnisse nahe beieinanderliegen und die Länge zwischen dem Energieminimum und dem Musterende jedes der Muster gleich oder kleiner als ein vorherbestimm ter Wert ist und wenn darüber hinaus ein Energieminimum nur in der Nähe des Endes eines der Muster vorhanden ist, dann wird eine Musteranpassung unter der Annahme durchgeführt, daß beide Muster Energieminima oder keine Energieminima ha ben.

In Fig. 28 ist ein Flußdiagramm der Ausführungsform zur Durchführung einer Musteranpassung dargestellt, wobei ein Verhältnis zwischen der Musterlänge und der Minimumposition festgelegt wird, wenn eine Anzahl Energieminima vorhanden ist. In Fig. 49 (49a und 49b) ist schematisch großteils in Blockform ein Spracherkennungssystem zur Durchführung des Verfahrens in Fig. 48 dargestellt. In dieser Ausführungsform wird nach einer Überprüfung der Differenz des Verhältnisses der Positionen von lautlosen Intervallen der absolute Ab stand oder die entsprechende Zeit eines lautlosen Abschnitts überprüft, und nur wenn diese Differenz größer als 200 ms ist, wird zu der Musterentfernungseinheit 238 übergegangen. Selbstverständlich sind die speziellen Werte, die hier als 10 Prozent und 200 ms angegeben sind, nur Beispiele und es können auch andere Werte verwendet werden, solange sie die Nähe in geeigneter Weise festlegen können.

In Fig. 50 ist ein Flußdiagramm einer Schrittfolge eines Mustervergleichsverfahrens gemäß noch einer weiteren Aus führungsform der Erfindung dargestellt. In Fig. 51 (51a oder 51b) ist großteils in Blockform ein Spracherkennungssystem mit einem Aufbau zum Durchführen des Verfahrens in Fig. 50 dargestellt. Da diese Ausführungsform in vieler Hinsicht der vorherigen anhand von Fig. 49 beschriebenen Ausführungs form ähnlich ist, sind gleiche Bezugszeichen für die glei chen Elemente verwendet. In dieser Ausführungsform wird beim Vergleichen von zwei Mustern zuerst geprüft, ob ein Energie minimum in der Nähe des vorderen oder hinteren Endes eines Musters vorhanden ist oder nicht. Wenn ein Energieminimum nur in einem der Muster vorhanden ist, wird dieser Teil des Musters, welcher ein solches Energieminimum hat, zwischen dem Energieminimum und dem vorderen oder hinteren Ende ent fernt, und danach werden die beiden Muster zur Anpassung miteinander verglichen. In diesem Fall wird bei dieser Aus führungsform geprüft, um zu sehen, ob ein Eingangssignal ein Energieminimum hat oder nicht. Wenn die Anzahl Energieminima zwischen dem eingegebenen Muster und dem Bezugsmuster unter schiedlich ist, wird die Länge zwischen dem Energieminimum, welches dem Musterende am nächsten ist, und einem lautlosen Intervall des Musters, das eine größere Anzahl Energiemi nima hat, von der Musterlänge des Musters subtrahiert, um einen Wert zu erhalten, welcher dann mit der Musterlänge des anderen Mustes verglichen wird. Wenn der auf diese Weise erhaltene Wert näher bei der Musterlänge des anderen Musters liegt, dann wird dieser Teil des Musters, das eine größere Anzahl Energieminima hat, zwischen dem Energieminimum und dem Musterende entfernt, und dann werden die beiden Muster für ein Anpassen miteinander verglichen. Das heißt, wenn ein lautloses Intervall am vorderen Ende eines eingegebenen Musters vorhanden ist und es eine Markierung hat, welche sich von der Markierung eines Bezugsmusters unterscheidet, dann wird die Länge von dem vorderen Ende bis zu dem stimm losen Intervall des eingegebenen Musters von der Gesamt musterlänge Fa des eingegebenen Musters subtrahiert, um die Länge fb zu bestimmen. Dann wird geprüft, welche der Längen fa und fb näher bei der Gesamtmusterlänge Fl des Bezugs musters liegt. Nur wenn die Länge Fb näher bei der Länge Fl liegt, wird zu der Musterentfernungseinheit 238 übergegan gen.

Nunmehr wird im Rahmen der Erfindung die Ausbildung eines Bezugsmusters beschrieben, das insbesondere bei einer Spracherkennung verwendbar ist. Wie vorstehend beschrieben, ist es äußerst wichtig, ein Bezugssprachmuster mit einer sehr hohen Qualität zu erzeugen, um so eine höhere Erken nungsrate zu erhalten. Als Verfahren zum Erzeugen eines der artigen Bezugsmusters ist vorgeschlagen worden, dasselbe Wort eine Anzahl Mal auszusprechen, um eine Anzahl Sprach muster zu erzeugen, welche dann gemittelt werden, um ein einziges Bezugsmuster festzulegen. Bei dieser Technik kann die statistische Information von Sprachschwankungen auch in dem Bezugsmuster erhalten werden; da jedoch die Aussprache eine Anzahl mal wiederholt werden muß, um ein einziges Be zugsmuster zu erzeugen, würde, selbst wenn eine der Ausspra chen eine schlechte Feststellung eines Sprachintervalls hat, dies dazu führen, daß das sich ergebende Bezugsintervall in seiner Qualität verschlechtert ist. Ein in Fig. 59a darge stelltes Muster hat einen Geräuschanteil, der zu Beginn einer Sprache (eines Wortes) eingebracht worden ist, während ein in Fig. 59b dargestelltes Muster ein normales Muster ist. Wenn ein Durchschnittswert zwischen den beiden Mustern genommen wird, wird eine Übereinstimmung zwischen den bei den vorderen Enden und zwischen den beiden hinteren Enden hergestellt. Im Ergebnis wird dann der Geräuschbestand teil des Musters in Fig. 59a zu dem vorderen Teil des nor malen in Fig. 59b dargestellten Musters hinzugefügt. Daher wird das sich ergebende, gemittelte Muster in der Qualität schlechter.

Um hiermit fertigzuwerden, ist, wie vorstehend beschrieben, gemäß der Erfindung ein Verfahren vorgeschlagen, bei welchem das Vorhandensein oder Fehlen eines Energieminimums inner halb einer vorherbestimmten Länge von dem vorderen oder hin teren Ende eines Musters geprüft wird, und wenn ein solches Energieminimum nur in einem der beiden zu vergleichenden Muster vorhanden ist, dann wird dieser Teil des Musters, das ein Energieminimum hat, zwischen dem Musterende und dem Energieminimum zu dem Muster hinzugefügt, das kein solches Energieminimum hat. Wenn jedoch gemäß einem derartigen Ver fahren, wie in Fig. 60 dargestellt ist, ein Durchschnitts wert zwischen dem Muster mit einem Geräuschanteil N, der in Fig. 60a dargestellt ist, und dem Muster ohne einen Geräusch anteil, wie in Fig. 60b dargestellt ist gebildet wird, wird der Geräuschanteil N am vorderen Ende des Musters der Fig. 60a zu dem Muster der Fig. 60b hinzugefügt, und dann werden die beiden Muster, die nunmehr beide den Geräuschanteil ha ben, gemittelt, wodurch ein in Fig. 60c dargestelltes Mu ster erzeugt wird. Gemäß diesem Verfahren wird jedoch in dem Fall, daß ein Energieminimum manchmal erscheint und manchmal auch nicht erscheint, wenn ein bestimmtes Wort ausgesprochen wird, wie es beispielsweise in dem Fig. 61a dargestellten Fall für das japanische Wort "Ido" der Fall ist, das im eng lischen "Bewegung" bedeutet oder in dem Fall, daß ein Ener gieminimum in seiner Lage bezüglich der Zeitachse nahe dem Schwellenwert verschoben wird, der in Fig. 61b dargestellte Fall wird unnötige Information am vorderen oder hinteren En de des Musters hinzugefügt, wie in Fig. 61c dargestellt ist, so daß es einen Fall gibt, bei welchem durch das Anwenden einer Mittelung ein eher schlechteres Bezugsmuster erzeugt wird.

Zur Lösung dieser Geschwindigkeit ist ein Verfahren und ein System geschaffen, um ein Bezugsmuster hoher Qualität zu erzeugen, welche insbesondere bei einer Spracherkennung verwendbar sind. Gemäß der Erfindung werden eine Anzahl Mu ster für einen ganz bestimmten interessierenden Fall er zeugt, wie beispielsweise für eine Sprache oder ein Wort, und die Anzahl Muster werden verarbeitet, um ein Bezugs muster festzulegen. Es wird geprüft, ob es ein Muster ist oder nicht, welches ein Energieminimum innerhalb einer vor herbestimmten Länge von dem vorderen oder hinteren Ende des Musters hat. Wenn es ein Muster ohne ein solches Energie minimum ist, wird dieser Teil des Musters, das ein Energie minimum hat, zwischen dem Energieminimum und dem Musterende zu dem Muster ohne ein derartiges Energieminimum hinzugefügt. In diesem Fall wird gemäß der Erfindung eine erste vorherbe stimmte Länge von dem vorderen oder hinteren Ende des Musters an, das kein Energieminimum innerhalb einer zweiten vorherbe stimmten Länge von dem vorderen oder hinteren Ende hat, be züglich der Ähnlichkeit mit dem Teil des Musters verglichen, das ein Energieminimum zwischen dem vorderen oder hinteren Ende und dem Energieminimum hat, und es wird auch mit einem Block verglichen, der eine große Energie nach oder vor dem Energieminimum aufweist, und das vorstehend erwähnte hin zufügen eines Musterbestandteils wird nur dann durchgeführt, wenn die zuerst angeführte Ähnlichkeit kleiner ist als die an zweiter Stelle angeführte Ähnlichkeit.

In Fig. 52 ist schematisch großteils in Blockform ein Sprach erkennungssystem gemäß noch einer weiteren Ausführungsform der Erfindung dargestellt, wobei dieses System sich beson ders für eine Verwendung in Verbindung mit dem Sprachver gleichsverfahren eignet. In Fig. 53 (Fig. 53a und 53b) ist ein Flußdiagramm, anhand welchem die Arbeitsweise des in Fig. 52 dargestellten Systems erläutert wird, dargestellt.

Das dargestellte System weist ein Mikrophon 301, eine Vor verarbeitungseinheit 302, eine Merkmal-Extrahiereinheit 303 , einen Puffer 304 für das eingegebene Muster, einen Puffer 305 für das Bibliotheksmuster, eine Sprachenergie-Meßein heit 306, eine ein Sprachintervall feststellende Einheit 307, eine ein sprachloses Intervall am Kopfende überprü fende Einheit 308, eine ein Sprachintervall am hinteren Ende überprüfende Einheit 309, eine Blockähnlichkeits-Anpassungs einheit 310, einen Vergleicher 311, eine Muster-Addierein heit 312, eine Registrierungs-Anpassnungseinheit 313 und ei nen Bibliotheksspeicher 314 auf. Bei dieser Ausführung wird Sprache in das Mikrophon 301 eingegeben, um ein entsprechen des Sprachsignal zu erzeugen, welches dann durch die Vor verarbeitungseinheit 301 entsprechend verarbeitet wird; da nach wird eine Merkmalsgröße der Sprache durch die Einheit 303 extrahiert. Wie vorstehend beschrieben, kann irgendeine gewünschte Merkmalsgröße oder -Quantität verwendet werden, wie ein Energiespektrum, LPC-Koeffizienten, ein Cepstrum oder igendeine andere Merkmalsgröße.

Gleichzeitig wird die Spracheenergie durch die Einheit 306 gemessen, und ein Sprachintervall wird auch durch die Ein heit 307 festgestellt. Die Prüfeinheit 308 überprüft, um zu sehen, ob ein lautloses Intervall in einer vorherbestimmten Zeitlänge von dem vorderen Ende des Sprachmusters aus vor handen ist oder nicht; in ähnlicher Weise überprüft die Prüfeinheit 309, um zu sehen, ob ein lautloses Intervall in einem vorherbestimmten Zeitintervall von dem hinteren Ende des Sprachmusters aus vorhanden ist oder nicht. Für die erste Aussprache wird das vorstehend beschriebene Verfahren durchgeführt, so daß das sich ergebende Sprachmuster in dem Bibliotheksmuster-Speicher 305 gespeichert wird. Bei der zweiten Aussprache für dasselbe Wort wird das zweite Wort in ähnlicher Weise verarbeitet, und das sich ergebende Muster wird in dem Puffer 304 für eingegebene Muster gespeichert. Dann wird eine Mittelung zwischen dem ersten Puffer in dem Puffer 305 und dem zweiten Muster in dem Puffer 304 durchge führt, um ein gemitteltes Muster zu erzeugen, welches dann als Bezugsmuster in dem Bibliotheksspeicher 314 gespeichert wird. Für das dritte und folgende Aussprechen desselben Wortes wird die Mittelbildung zwischen dem Bezugsmuster und dem eingegebenen Muster durchgeführt.

Wenn, wie in Fig. 60a dargestellt, ein Geräuschanteil (z. B. das Geräusch beim Öffnen und Schließen des Mundes oder der Lippen oder ein Hintergrundgeräusch) in das Muster an dessen Kopfende eingebracht worden ist, wird ein Zeichen durch die das vordere Ende eines lautlosen Intervalls überprüfende Einheit für das in Fig. 60a dargestellte Muster gesetzt. Da bei dem nächsten eingegebenen, in Fig. 60a dargestellten Mu ster kein Geräuschanteil vorhanden ist, wird der Geräuschan teil des Mustes der Fig. 60a zu dem vorderen Ende des Mu sters der Fig. 60b hinzugefügt, um das in Fig. 60c darge stellte Muster zu erzeugen. Die beiden Muster werden dann gemittelt, um dadurch ein Bezugsmuster hoher Güte festzulegen. Jedoch wird, wie in Fig. 61 dargestellt ist, für den Fall, daß das Muster in Fig. 61a ein lautloses Intervall inner halb einer vorherbestimmten Länge von dem vorderen Ende hat und das Muster in Fig. 61b kein solches lautloses Intervall hat, ein fehlerhaftes Bezugsmuster erzeugt, wie in Fig. 61c dargestellt ist. In diesem Fall hat das Muster in Fig. 61a keine Rauschkomponente, obwohl ein lautloses Intervall inner halb einer vorherbestimmten Länge hat, ähnlich wie im Fall der Fig. 60a, wobei in diesem Fall der Geräuschanteil N ein gebracht worden ist.

Zur Lösung dieses Aspekts der Erfindung wird, wie in Fig. 54 dargestellt, für den Fall, daß ein lautloses Intervall innerhalb einer vorherbestimmten Länge von dem vorderen Ende aus in einem der Muster vorhanden ist und kein derartiges lautloses Intervall in dem anderen Muster vorhanden ist, die Ähnlichkeit M 0 zwischen den vorderen Enden a und b der je weiligen Muster und auch die Ähnlichkeit M 1 zwischen dem vor deren Teil b des in Fig. 54b dargestellten Musters, das kein lautloses Intervall hat, und dem Block c nach dem lautlosen Intervall des in Fig. 54a dargestellten Musters, das ein lautloses Intervall hat, bestimmt. Da im Falle der Fig. 54 (54a und 54b) die beiden Muster Silben "i" und "do" ohne eine Hinzufügung eines Rauschanteils und ohne Informations verlust aufweisen, ist die Ähnlichkeit M 0 größer als die Ähn lichkeit M 1. Wenn in einem solchen Fall die Beziehung gilt, M 0 ist größer als M 1, dann wird die Mittelung zwischen den beiden Mustern ohne Hinzufügen eines Musterbestandteils durchgeführt. Wenn dagegen ein Geräuschanteil am vorderen Ende eingebracht worden ist, wie in Fig. 55a dargestellt ist, oder der hintere Teil der Sprachinformation verloren gegangen ist, wie in Fig. 55b dargestellt ist, sollte die Ähnlichkeit M 0 zwischen den Teilen a und b kleiner sein als die Ähnlichkeit M 1 zwischen den Teilen b und c. Folglich wird, solange die Bedingung gilt, M 0 ist kleiner als M 1, der Rauschanteil des Musters der Fig. 55a zu dem vorderen Ende des Mustes der Fig. 55b hinzuaddiert.

In dem in Fig. 56a und 56b dargestellten Fall haben beide Muster ein lautloses Intervall innerhalb einer vorherbe stimmten Länge von dem vorderen Ende aus. In dem Muster der Fig. 56a ist ein Geräuschanteil an dem vorderen Ende ein gebracht worden, und die Ähnlichkeit M 0 sollte kleiner sein als die Ähnlichkeit M 1. Folglich sollte der Rauschanteil des Musters der Fig. 56a vor einer Mittelung an dem vorderen Ende des Musters der Fig. 56b hinzugefügt werden. Folglich werden gemäß der Erfindung für den Fall, daß jedes der bei den Muster ein lautloses Intervall an dem vorderen Ende hat, wenn die Anzahl lautloser Intervalle zwischen den beiden Mu stern verschieden ist, wenn beispielsweise das Muster der Fig. 56a zwei lautlose Intervalle hat und das Muster der Fig. 56b nur ein lautloses Intervall hat, die zwei Ähnlich keiten zwischen ausgewählten Teil der beiden Muster berech net, und es wird bestimmt, ob eine Musteraddition vor einer Mittelung durchzuführen ist oder nicht, wie vorstehend be reits beschrieben ist. Und zwar ist dies bezüglich des vor deren Ende eines Sprachmusters beschrieben; jedoch kann eine entsprechende Verarbeitung auch für das hintere Ende eines Musters durchgefüht werden. Wenn wie im Falle der Durchführung des vorstehend beschriebenen Verfahrens für das vordere Ende eines der Muster ein lautloses Intervall innerhalb einer vorherbestimmten Länge von dem hinteren Ende hat, ist es äußerst schwierig festzulegen, ob ein Mu sterbestandteil an dem vorderen oder an dem hinteren Ende hinzuzufügen ist. Folglich wird in einem solchen Fall vor zugsweise die Verarbeitung bezüglich des vorderen Endes nicht durchgeführt, selbst wenn den vorstehend beschriebe nen Bedingungen genügt ist, da das Verarbeitungsergebnis für das vordere Ende noch nicht bekanntgeworden ist (Fig. 57); die vorstehend beschriebene Verarbeitung für das vordere En de wird durchgeführt, wenn beide Muster ein lautloses Inter vall innerhalb einer vorbestimmten Länge ausgehend von dem hinteren Ende haben (Fig. 58).

Ein weiterer Aspekt der Erfindung ist sehr ähnlich dem an deren Aspekt der Erfindung, der vorstehend gerade beschrie ben worden ist. In Fig. 62 ist schematisch großteils in Blockform ein Spracherkennungssystem gemäß noch einer wei teren Ausführungsform der Erfindung dargestellt. Die in Fig. 62 dargestellte Ausführungsform ist in vieler Hinsicht der Ausführungsform in Fig. 52 ähnlich, so daß gleiche Ele mente mit den gleichen Bezugszeichen bezeichnet sind. In Fig. 63 (63a und 63b) ist ein Flußdiagramm dargestellt, das zur Erläuterung der Arbeitsweise des in Fig. 62 dargestell ten Systems verwendet wird. Dieses Spracherkennungssystem weist ein Mikrophon 301, eine Vorverarbeitungseinheit 302, eine Merkmal-Extrahiereinheit 303, einen Puffer 304 für ein eingegebenes Muster, einen Puffer 305 für ein Bibliotheks muster, eine Sprachenergie-Meßeinheit 306, eine ein Sprach intervall feststellende Einheit 307, eine ein lautloses In tervall am vorderen Ende überprüfende Einheit 308, eine ein lautloses Intervall am hinteren Ende überprüfende Einheit 309, eine Rahmenlängen-Berechnungseinheit 320, einen Ver gleicher 311, eine Muster-Addiereinheit 312, eine Registrie rungs-Anpassungseinheit 313 und einen Bibliotheksspeicher 314 auf.

Die grundsätzliche Arbeitsweise dieser Ausführungsform ist derjenigen sehr ähnlich, welche unter Bezugnahme auf Fig. 52 vorstehend beschrieben worden ist, weshalb auf diese Be schreibung Bezug genommen wird. Im Aufbau unterscheidet sich die in Fig. 62 dargestellte Ausführungsform von der in Fig. 52 dargestellten Ausführungsform dadurch, daß zusätzlich eine Rahmenlängen-Berechnungseinheit 320 vorgesehen ist. Wenn bei dieser Ausführungsform, wie in Fig. 64 dargestellt ist, ein lautloses Intervall innerhalb einer vorherbestimm ten Länge ausgehend von dem vorderen Ende in einem der bei den zu vergleichenden Muster vorhanden ist, wie in Fig. 64a dargestellt ist, und wenn kein solches lautloses Intervall in dem anderen Muster vorhanden ist, wie in Fig. 64b darge stellt ist, wird der Kopfteil des Musters der Fig. 64a, das ein lautloses Intervall hat zu dem vorderen Ende des Musters der Fig. 54b, das kein lautloses Intervall hat, nur dann hinzugefügt, wenn der Absolutwert der Differenz zwischen der gesamten Rahmenlänge (x + nf) des Musters der Fig. 64b zusam men mit der Hinzufügung des Kopfteils des Musters 64 a und die Rahmenlänge xf des Musters der Fig. 64a kleiner als der Absolutwert der Differenz zwischen der ursprünglichen Rah menlänge nf des Musters der Fig. 64 und der Rahmenlänge des Musters der Fig. 64a ist. Diese Bedingung kann auf fol gende Weise ausgedrückt werden:

K ₁ × Absolutwert von (nf - xf) ist größer als K ₂ × Abso lutwert von (x + nf - xf). (1)

Hierbei sind K ₁ und K ₂ Konstante, welche die Differenzgren zen festlegen und sind vorzugsweise so gesetzt, daß sie der Bedingung K ₁/K ₂ = 1 · 1 genügen.

In Fig. 64 (64a, 64b) ist der Fall dargestellt, daß kein Mu sterbestandteil hinzugefügt wird, d. h. K ₁ × Absolutwert von (xf - nf) ist kleiner als K ₂ × Absolutwert von (x + nf - xf).

In Fig. 65 (65a, 65b) ist der Fall dargestellt, daß ein Musterbestandteil hinzugefügt werden sollte, d. h. K ₁ × Absolutwert von (xf - nf) ist größer als K ₂ × Absolutwert von (x + nf - xf). Auf diese Weise wird ein Teil des Musters zu dem anderen Muster nur dann hinzugefügt, wenn die Län gendifferenz zwischen den beiden Mustern mit einer Hinzu fügung kleiner ist als ohne eine Hinzufügung. Mit Hilfe dieser Methode kann jederzeit ein Bezugsmuster hoher Quali tät erhalten werden.

In dem in Fig. 66 dargestellten Fall haben die beiden Muster ein lautloses Intervall innerhalb einer vorherbestimmten Länge ausgehend von dem vorderen Ende, und die Anzahl der lautlosen Intervalle ist bei den beiden Mustern verschieden. Ganz offensichtlich ist durch die vorstehend beschriebene Beziehung den beiden in Fig. 66a und 66b dargestellten Mu stern genügt. Folglich wird gemäß der Erfindung dem Kopfteil des Musters der Fig. 66a der Kopfteil des Musters der Fig. 66b hinzugefügt, und dann wird eine Mittelung zwischen den Mustern hindurchgeführt. Es sollte beachtet werden, daß, ob wohl es bezüglich des Kopfendes eines Musters beschrieben wordenist, dies genauso bei dem hinteren Teil eines Musters anwendbar ist. Außerdem gelten die Argumente, welche bezüg lich der Fig. 57 und 58 in der vorherigen Ausführungsform beschrieben worden sind, auch für die vorliegende Ausfüh rungsform.

Nunmehr wird die Erfindung bezüglich einer vorläufigen Mu steranpassung beschrieben. Als weiterer Fortschritt auf dem Gebiet der spracherkennung ist nunmehr ein Spracherkennungs system durchführbar, bei dem annähernd 1000 Worte erkannt werden können. Das Grundschema bei dieser Spracherkennung ist beinahe immer eine Musteranpassung. Wenn die Anzahl Worte, welche durch ein Spracherkennungssystem erkannt wer den können, zunimmt, nimmt die Anzahl an Bezugssprachmustern zu, welche für eine Anpassung bezüglich eines eingegebenen, unbekannten Sprachmusters zu registrieren sind, was dann eine größere Speicherkapazität erfordert. Außerdem wird die Zeit zum Durchführen einer Musteranpassung länger, da der Ähnlichkeitsgrad zwischen dem eingegebenen unbekannten Muster und jedem der Bezugsmuster berechnet werden muß. Um mit diesem Problem fertigzuwerden, ist vorgeschlagen worden, ein vorläufiges Auswählschema anzuwenden, welches die Be zugsmuster auf eine kleinere Anzahl von sogenannten Kandi daten-Mustern mit bestimmten Merkmalen beschränkt; es wird dann eine Musteranpassung zwischen dem eingegebenen Muster und jedem der ausgewählten Kandidaten-Muster durchgeführt, deren Anzahl geringer ist. Üblicherweise kann die Anzahl lautloser Intervalle, die in jedem Muster vorhanden sind, oder die Dauer eines solchen lautlosen Intervalls als Merk mal für eine vorläufige Auswahl benutzt werden.

Jedoch besteht im Falle eines Wortes, wie "Stopp", das in Fig. 71 dargestellt ist, an sich ein Konsonant am vorderen oder hinteren Ende des Wortes, so daß es oft der Fall ist, daß dieser Teil des Wortes nach dem lautlosen Intervall A ₂ am hinteren Ende verloren geht und nicht festgestellt wird. Folglich ändert sich die Durchführung des vorläufigen Aus wahlschemas in Abhängigkeit davon, ob die Anzahl lautloser Intervalle oder die Dauer eines lautlosen Intervalles rich tig festgestellt wird oder nicht. Diese Schwierigkeit be steht nicht nur für ein Wort wie "Stopp", welches einen unabhängig ausgesprochenen Konsonanten hat, sondern auch für ein Wort, wie "fifteen", welches einen schwach ausgespro chenen Laut, wie nämlich /f/ "fifteen" an dem vorderen Ende des Wortes hat, wie in Fig. 72 dargestellt ist.

Zur Lösung dieser Schwierigkeit ist es ein weiteres Ziel der Erfindung, ein Verfahren und ein System zu schaffen, um eine vorläufige Auswahl von Bezugsmustern genau durchzuführen, selbst wenn ein Sprach- oder Sprechintervall nicht richtig festgestellt wird. In Fig. 67 ist ein Flußdiagramm einer vorläufigen Auswählmethode dargestellt, das in einem Sprach erkennungssystem gemäß noch einer weiteren Ausführungsform der Erfindung anwendbar ist. In Fig. 68 ist in Blockform ein vorläufiges Auswählsystem zur Durchführung des Verfah rens in Fig. 67 dargestellt. Das System weist ein Mikro phon 401, eine ein Sprechintervall feststellende Einheit 402, eine Filterbank 403, einen Hoch/Tief-Frequenzbereich-Ver gleicher 404, einen Vergleicher 405, einen Zähler 406 und eine Anpassungseinheit 407 auf. Bei diesem Aufbau wird eine erste Anzahl Muster auf eine zweite Anzahl beschränkt, wel che kleiner als die erste Anzahl Muster ist, um die Anzahl Merkmale, welche die Muster besitzen und/oder die Dauer ei nes derartigen Merkmals zu vergleichen. Wenn ein solcher Merkmalteil am vorderen oder hinteren Ende eines Musters vorhanden ist, wird dieser Merkmalsteil aus dem Muster ent fernt, und die Anzahl an Merkmalsteilen oder die Dauer eines solchen Merkmalsteils werden festgelegt, um in dem vorläu figen Auswahlschema verwendet zu werden. Wie in Fig. 67 dar gestellt, wird zuerst geprüft, ob der Laut /f/ an dem vorde ren Ende eines eingegebenen Sprachmusters vorhanden ist oder nicht; wenn dies der Fall ist, wird dieser Laut /f/ von dem Kopfende des eingegebenen Musters entfernt. In ähnlicher Weise wird dann geprüft, ob ein anderer Laut /f/ am hinteren Ende des eingegebenen Musters vorhanden ist oder nicht; wenn dies der Fall ist, wird dieser Laut /f/ von dem hinteren Ende des eingegebenen Musters entfernt. Dann wird die Anzahl von /f/-Lauten, die in dem restlichen eingegebenen Muster vorhanden sind, gezählt. Die auf diese Weise gezählte Anzahl von /f/-Lauten wird zusammen mit einem zugeordneten Bezugs muster in einer Bibliothek gespeichert. Im Erkennungsmode wird die Anzahl von /f/-Lauten eines eingegebenen Musters, welches, wie oben beschrieben, gezählt worden ist, mit der gespeicherten Anzahl von /f/-Lauten jedes der Bezugsmuster verglichen, um dadurch vorläufig mögliche Kandidaten-Muster aus den in einem Speicher gespeicherten Bezugsmusters aus zuwählen.

Dies wird nunmehr im einzelnen anhand von Fig. 68 beschrie ben; die Sprache wird in das Mikrophon 401 eingegeben, um entsprechendes Sprachsignal zu erzeugen, welches dann der das Sprechintervall feststellenden Einheit 402 zugeführt wird, in welcher eine Sprachinformation extrahiert wird. Das Sprachsignal wird dann einer Frequenzanalyse in der Fil terbank 403 unterzogen. In dieser Ausführungsform folgt auf die Filterbank 403 in der Flußrichtung eines Sprachsignals der Detektor 402. Jedoch kann die Reihenfolge der Anordnung zwischen den beiden Elementen erforderlichenfalls auch umgedreht werden. Außerdem wird in der dargestellten Ausfüh rungsform als eine Merkmalsgröße das Ergebnis einer Frequenz analyse verwendet, d. h. ein Energiespektrum; jedoch kann auch irgendeine andere gewünschte Größe, wie beispielsweise LPC-Koeffizienten, verwendet werden. Um in der dargestellten Ausführungsfom den Laut /f/ festzustellen, wird geprüft, ob der hochfrequente Bestandteil größer als der niederfrequente Bestandteil ist oder nicht. Bei diesem Verfahren werden nicht nur der Laut /f/, sondern auch andere Laute wie /s/, welche eine ähnliche Charakteristik haben festgestellt, je doch ist dies kein bedeutsames Problem, da alle diese Laute als eine Einheit behandelt werden können.

Als Alternative hierzu, den Laut /f/ festzustellen, wird ein Muster eines Lautes, das dem Laut /f/ ähnlich ist, regi striert, und es kann eine Anpassung zwischen diesem Muster und einem eingegebenen Muster durchgeführt werden. Der Ver gleicher 405 legt fest, ob ein Laut, welcher möglicherweise ein /f/-Laut sein kann, bei der Feststellung eines anstei genden Endes einer Sprache (eines Wortes) durch die Fühlein heit 402 festgestellt wird, oder ob ein Laut, der möglicher weise ein /f/-Laut sein kann, fortwährend am Ende eines Wortes vorhanden ist und es werden die Länge eines derar tigen Lautes und die Anzahl derartiger Laute durch den Zäh ler 406 gezählt. In diesem Fall startet der Zähler 406 beim Feststellen eines /f/-Lautes und der Zähler 406 stoppt beim Feststellen eines anderen Lautes als der /f/-Laut.

In Fig. 69 ist ein Flußdiagramm eines vorläufigen Auswähl verfahrens dargstellt, das insbesondere in Verbindung mit einer Spracherkennung verwendbar ist und gemäß noch einer weiteren Ausführungsform der Erfindung ausgelegt ist. In Fig. 70 ist schematisch in Blockform ein Auswählsystem zur Durchführung des Verfahrens in Fig. 69 dargestellt. Wenn in dieser Ausführungsform ein vorherbestimmter Merkmalsteil in der Nähe des vorderen oder hinteren Endes eines Musters vorhanden ist, wird dieser Merkmalsteil aus dem Muster ent fernt, und die Anzahl an anderen Merkmalsteilen oder die Dau er eines solchen Merkmalsteils in dem übrigen Teil des Mu ster wird festgestellt. Mit Hilfe der auf diese Weise er haltenen Information wird dann eine vorläufige Auswahl durch geführt, um die Anzahl Bezugsmuster zu begrenzen, welche für eine Musteranpassung zu verwenden sind. Da die in Fig. 70 dargestellte Ausführungsform in vieler Hinsicht der in Fig. 68 dargestellten Ausführungsform ähnlich sind, sind die gleichen Bezugszeichen für die gleichen Elemente verwendet. Im Falle eines solchen Lautes, wie /f/-Lautes, wird dieser oft in der Nähe des vorderen oder hinteren Endes ei nes Wortes aufgefunden; wenn ein Konsonant an sich ausge sprochen wird, existiert ein lautloses Intervall vor oder nach einem solchen Konsonanten. In der vorliegenden Ausfüh rungsform, wie sie in Fig. 70 dargestellt ist, wird statt des Hoch/Tieffrequenz-Bereichs-Vergleichers 404 der in Fig. 68 dargestellten Ausführungsform eine Energie feststellende Einheit 408 vorgesehen, welche dazu verwendet wird, die Stelle eines lautlosen Intervalls zu bestimmen. Folglich wird ein lautloses Intervall auf der Basis der Größe von Sprach energie bestimmt. Wenn ein solches lautloses Intervall in nerhalb von 0,1 bis 0,2 s von dem vorderen oder hinteren Ende der Sprache (des Wortes) herausgefunden wird, wird festge legt, daß das Sprachmuster einen Aufbau hat, wie er in Fig. 71 dargestellt ist. Folglich wird dieser Teil aus dem Sprachmuster entfernt, und es wird geprüft, wie viele laut lose Intervalle in dem restlichen Teil des Sprachmusters vorhanden sind, oder wie lang das lautlose Intervall in dem restlichen Teil des Sprachmusters andauert; dann werden sol che Daten zusammen mit dem zugeordneten Sprachmuster ge speichert. In dem Erkennungsmode wird ein eingegebenes Mu ster in ähnlicher Weise verarbeitet, um die Anzahl an laut losen Intervallen und/oder die Dauer eines lautlosen Inter valles festzustellen; diese Daten werden dann verwendet, um sie mit den gespeicherten Daten von registrierten Bezugs mustern zu vergleichen, um dadurch die Bezugsmuster zu be schränken, um so mögliche Kandidaten-Muster auszuwählen. Jedes dieser Kandidatenmuster wird dann durch eine Musteran passung vollständig mit dem eingegebenen Muster verglichen, um so das eine Kandidaten-Muster mit dem höchsten Ähnlich keitsgrad auszuwählen. Auf diese Weise kann die Identität des eingegebenen Musters oder der eingegebenen Sprache er kannt werden.

Bezugszeichenliste   1 Spracheingabe
  2 Energie-Messung
  3 Merkmalsgrößen-Umsetzung
  4 Feststellen einer lautlosen Stelle
  5 Liegt lautlose Stelle in 100 ms n. hint. Ende?
  6 Markierungsaddition
  7 Bibliothek
  8 Dieselbe Markierung?
  9 Musterentfernung
10 Musteranpassung
11 Liegt lautlose Stelle innerhalb 100 ms vom Kopfende
21 Mikrophon
22 Filterbank
23 Sprachintervall-Feststellung
24 Merkmalsextraktion
26 Vergleich
27 /f/-Flag
28 Vergleich
29 Register 3
30 Bibliotheksregister
31 Markierungsvergleich
32 a Register 1
32 b Register 2
33 Ähnlichkeitsgrad
34 a Register 4
34 b Register 5
35 Ähnlichkeitsgrad
36 Addierer
37 Musterspeicherung
39 Addition von Kopfende-Muster
40 Überlagerungs-Mitteilungsvorgang
42 Addition von dem internen Ende-Muster
45 Register
45 a Register
45 b Register
46 Register
46 a Mittelung
46 b Mittelung
47 Zeitzählen
48 Musterregister
49 Flag-Prüfeinheit
50 Muster-Verbindungseinheit
54 Binäre Umsetzung
55 BTSP-Formierung
56 Addierer von Sprachmustern die n-mal durch lineare Expansion oder Kontraktion erzeugt worden sind
57 Bibliothek
58 Scheitelwert-Musterbildung
59 Musterlängenanpassung durch lineare Expansion oder Kontraktion
60 Ähnlichkeitsberechnung
71 Sprachintervall-Festlegung
72 Bandpaßfilter
73 Register
74 Energiemessung
75 Vergleich
76 Schwellenwert
77 Zeitzähler
78 Vergleich
79 Zähler für lautlose Intervalle
80 Markierungsvergleich
81 Umschalter
82 Bibliothek
83 Rahmen-Länge
84 Rahmen-Länge
85 Multipliziereinheit
86 Multiplizierkonstanten-Einstelleinheit
87 Vergleich
88 Umschalter
89 Musterentfernung
90 Anpassung
91 Resultatanzeige
101 Spracheingabe
102 Energiemessung
103 Merkmalsgrößen-Umwandlung
104 Lautlose Positionsfeststellung
105 Liegt lautlose Position innerhalb von 100 ms vom hinteren Ende?
106 Markierungsaddition
107 Bibliothek
108 Dieselbe Markierung?
109 Musterentfernung
110 Musteranpassung
111 Liegt lautlose Position innerhalb von 100 ms vom Kopfende?
124 Energie
125 Vergleich
126 Schwellenwert
127 Zähler für lautlose Intervalle
128 Zeitzähler
129 Vergleich
130 Vergleich
131 Zeit - 100 µs
132 Zeiterzeugungseinheit
133 Markierungsaddition
134 Vergleich
135 Bibliothek
137 Musterentfernung an lautloser Position
138 Anpassung
139 Kandidaten
140 Ergebnis
224 Energiemessung
225 Vergleich
226 Schwellenwert
227 Zeitzähler
228 Vergleich
229 Zähler für lautlose Intervalle
230 Markierungsvergleich
232 Bibliothek
233 Recheneinheit
234 Recheneinheit
235 Recheneinheit
236 Vergleich
237 Umschalter
238 Muster-Entfernung
239 Anpassung
240 Resultatanzeige
241 Vergleich
242 Nummer der lautlosen Abschnitte 2
245 Vergleich
246 Multiplizierkonstanten-Einstelleinheit
247 Schalter
249 Vergleich
253 Vergleich
301 Mikrophon
302 Vorverarbeitung
303 Merkmals-Extraktion
304 Puffer für Eingabemuster
305 Puffer für Bibliotheksmuster
306 Sprachenergie-Feststellung
307 Sprachintervall-Feststellung
308 Lautloses Prüfen am Kopfende
309 Lautloses Prüfen am Wortende
310 Blockähnlichkeit
311 Vergleich
312 Muster-Addition
313 Registrierungs-Anpassung
314 Bibliotheksspeicher
320 Rahmenlängen-Berechnung
401 Mikrophon
402 Sprachintervall-Feststellung
403 Filterbank
404 Vergleich von hoch-/niederfrequentem Bereich
405 Vergleich
406 Zähler
407 Anpassung
408 Energiefeststellung

Claims

1. Verfahren zum Vergleichen von Mustern, dadurch ge kennzeichnet, daß
ein Paar erster und zweiter zu vergleichender Muster ge prüft werden, um zu sehen, ob eines von den beiden Mustern einen insabilen Teil hat oder nicht,
der instabile Teil aus dem einen der beiden Muster entfernt wird, wenn der instabile Teil gefunden worden ist, und dann das erste und zweite Muster verglichen werden.

2. Verfahren nach Anspruch 1, dadurch gekennzeich net, daß das Paar aus dem ersten und dem zweiten Muster geprüft wird, um zu sehen, ob ein Energieminimum in einer vorherbestimmten Länge von einem vorderen oder einem hinte ren Ende jedes der beiden Muster vorhanden ist oder nicht, wobei der instabile Teil als ein Teil des einen Musters zwi schen dem Energieminimum und dem vorderen oder hinteren Ende definiert ist.

3. Verfahren nach Anspruch 1, dadurch gekennzeich net, daß jede der beiden Muster ein Sprachmuster ist, welches einen Sprachenergiepegel als eine Zeitfunktion dar stellt und das Energieminimum ein Minimumpegel in der Sprach energie ist.

4. Verfahren nach Anspruch 3, dadurch gekennzeich net, daß das Enegieminimum einem lautlosen Intervall ent spricht.

5. Verfahren nach Anpruch 2, dadurch gekenn zeichnet, daß eines der beiden Muster ein Bezugsmu ster ist, welches bekannt ist und in einer Bibliothek ge speichert ist, und das andere Muster ein eingegebenes Mu ster ist, welches unbekannt und zu identifizieren ist.

6. Verfahren zum Vergleichen von Mustern, dadurch ge kennzeichnet, daß
ein Paar aus einem ersten und einem zweiten zu verglei chenden Muster geprüft wird, um zu sehen, ob jedes der bei den Muster einen instabilen Teil hat oder nicht,
jedes der beiden Muster in den instabilen und einen Restteil aufgeteilt wird, und
das erste und zweite Muster so verglichen werden, daß der instabile Teil des ersten Musters mit dem instabilen Teil des zweiten Musters verglichen wird, und daß der restliche Teil des ersten Musters mit dem restlichen Teil des zwei ten Mustes verglichen wird.

7. Verfahren nach Anspruch 6, dadurch gekenn zeichnet, daß das erste und das zweite Muster ge prüft werden, um zu sehen, ob ein Energieminimum innerhalb einer vorherbestimmten Länge von einem vorderen oder hinte ren Ende jedes der beiden Muster vorhanden ist oder nicht, wobei der instabile Teil als ein Teil des einen Musters zwi schen dem Energieminimum und dem vorderen oder hinteren Ende definiert ist.

8. Verfahren nach Anspruch 7, dadurch gekenn zeichnet, daß jedes der beiden Muster ein Sprachmu ster ist, welches einen Sprachenergiepegel als eine Zeit funktion darstellt, und daß ds Energieminimum ein Minimum pegel in der Sprachenergie ist.

9. Verfahren nach Anspruch 8, dadurch gekenn zeichnet, daß das Energieminimum einem lautlosen In tervall entspricht.

10. Verfahren nach Anspruch 7, dadurch gekenn zeichnet, daß eines der beiden Muster ein Bezugsmu ster ist, welches bekannt ist und in einer Bibliothek ge speichert ist, und daß das andere ein eingebautes Muster ist, welches unbekannt und zu identifizieren ist.

11. Verfahren zum Ausbilden eines Bezugssprachmusters, da durch gekennzeichnet, daß
ein erstes Sprachmuster gebildet wird, das eine vorherbe stimmte Merkmalsgröße als eine Funktion der Zeit darstellt;
das erste Sprachmuster geprüft wird, um zu sehen, ob das erste Sprachmuster ein Minimum innerhalb einer vorherbestimmten Zeitdauer ausgehend von einem vorderen oder einem hinteren Ende des ersten Sprachmusters hat oder nicht;
das erste Sprachmuster mit einer Markierung gespeichert wird, welche das Vorhandensein oder Fehlen eines Minimums anzeigt, wenn bei dem ersten Sprachmuster herausgefunden worden ist, daß es ein solches Minimum hat;
ein zweites Sprachmuster gebildet wird, das die vorherbe stimmte Merkmalsgröße als eine Funktion der Zeit darstellt;
das zweite Sprachmuster geprüft wird, um zu sehen, ob das zweite Sprachmuster ein Minimum innerhalb einer vorherbe stimmten Zeitdauer ausgehend von einem vorderen oder hin teren Ende des zweiten Sprachmusters hat oder nicht,
dieser Teil eines der beiden Sprachmuster zwischen dem Mi nimum und dem vorderen oder hinteren Ende zu dem anderen der beiden Sprachmuster addiert wird, wenn nur eines der beiden Sprachmuster das Minimum hat, und
das erste und das zweite Sprachmuster gemittelt werden, um das Bezugssprachmuster festzulegen.

12. Verfahren nach Anspruch 11, dadurch gekenn zeichnet, daß bei dem Mittelungsschritt das zweite Sprachmuster gespeichert wird, wenn es dem ersten Sprachmu ster überlagert worden ist.

13. Verfahren nach Anspruch 11, dadurch gekenn zeichnet, daß das Sprachmuster einen Sprachenergiepe gel darstellt, und daß das Minimum ein Energieminimumteil jeder der beiden Sprachmuster ist, wobei es sich um ein Mi nimum in dem Sprachenergiepegel handelt.

14. Verfahren nach Anspruch 13, dadurch gekenn zeichnet, daß das Energieminimum einem lautlosen In tervall jedes der beiden Sprachmuster entspricht.

15. Verfahren nach Anspruch 11, dadurch gekenn zeichnet, daß ein drittes oder ein weiteres Sprach muster auf dieselbe Weise erzeugt werden, wie das zweite Sprachmuster gebildet worden ist, und daß das dritte und die weiteren Sprachmuster mit dem ersten und dem zweiten Sprach muster gemittelt werden.

16. Verfahren nach Anspruch 15, dadurch gekenn zeichnet, daß zur Mittelung das dritte und die weite ren Sprachmuster gespeichert werden, indem sie nacheinander mit dem bereits übelagerten, ersten und zweiten Sprachmu stern überlagert werden.

17. Verfahren zum Ausbilden eines Bezugssprachmusters, da durch gekennzeichnet, daß ein Sprachmuster, das eine vorherbestimmte Merkmalsgröße als Funktion der Zeit darstellt, aus einer Sprache gebildet wird;
ein hochfrequenter Bestandteil des Sprachmusters mit einem niederfrequenten Bestandteil des Sprachmusters verglichen wird, und
ein Endteil aus dem Sprachmuster ausgehend von dem vorderen oder hinteren Ende des Sprachmusters über einen ersten Zeit abschnitt entfernt wird, wenn der hochfrequente Bestandteil länger als der niederfrequente Bestandteil über einen vor herbestimmten Wert an dem vorderen oder hinteren Ende des Sprachmusters für einen zweiten Abschnitt andauert, um da durch das Bezugssprachmuster festzulegen, wobei der erste Zeitabschnitt kleiner eingestellt ist als der zweite Zeit abschnitt.

18. Verfahren nach Anspruch 17, dadurch gekenn zeichnet, daß die vorherbestimmte Merkmalsgröße ein Sprachenergiepegel ist.

19. Verfahren zum Ausbilden eines Bezugssprachmusters, da durch gekennzeichnet, daß
eine erste Sprache in ein erstes Sprachsignal umgesetzt wird;
das erste Sprachsignal einer Frequenzanalyse unterzogen wird, um dadurch ein erstes Sprachmuster zu bilden und um zu prüfen, ob das erste Sprachsignal einen hochfrequenten An teil des ersten Sprachsignals zusätzlich zu einem nieder frequenten Anteil des ersten Sprachsignals hat oder nicht;
das erste Sprachmuster mit dem hochfrequenten Anteil, wenn überhaupt, in einem ersten Speicher und der niederfrequente Anteil in einem zweiten Speicher gespeichert wird, eine zweite Sprache in ein zweites Sprachsignal umgewandelt wird;
das zweite Sprachsignal einer Frequenzanalyse unterzogen wird, um dadurch ein zweites Sprachmuster zu bilden und zu prüfen, ob das zweite Sprachsignal einen hochfrequenten An teil des zweiten Sprachsignals zusätzlich zu einem nieder frequenten Anteil des zweiten Sprachsignals hat oder nicht;
das zweite Sprachsignal gespeichert wird, indem es dem er sten Sprachmuster mit dem hochfrequenten Bestandteil, wenn überhaupt, in dem ersten Speicher und mit dem niederfrequen ten Anteil in dem zweiten Speicher überlagert wird, und der überlagerte hochfrequente Bestandteil und der überlager te niederfrequente Bestandteil zusammengefaßt werden, um ein Bezugssprachmuster zu definieren.

20. Verfahren nach Anspruch 19, dadurch gekenn zeichnet, daß die vorherbestimmte Merkmalsgröße ein Sprachenergiepegel ist.

21. Verfahren zum Vergleichen von Mustern, dadurch ge kennzeichnet, daß
ein Paar erster und zweiter Muster gebildet wird, welche je weils eine vorherbestimmte Merkmalsgröße als eine Zeitfunk tion darstellen;
jedes der beiden Muster geprüft wird, um zu sehen, ob jedes der beiden Muster ein Minimum innerhalb einer vorherbestimm ten Zeitdauer ausgehend von einem vorderen oder hinteren Endteil des Musters hat oder nicht;
dieser Teil eines der beiden Muster, welches ein Minimum hat, zwischen dem Minimum und dem vorderen oder hinteren En de aus dem einen Muster mit einem Minimum entfernt wird, wenn das eine Muster ein Minimum und das andere Muster kein Minimum hat und auch ein Wert, der erhalten worden ist, in dem eine vorherbestimmte Zahl zu einer Musterlänge des an deren Musters, das kein Minimum hat, multipliziert wird, gleich oder kleiner als eine Musterlänge des einen Musters mit einem Minimum ist, und
das erste Muster mit dem zweiten Muster nach einer Entfer nung, falls dies notwendig ist, verglichen wird.

22. Verfahren nach Anspruch 21, dadurch gekenn zeichnet, daß jedes der beiden Muster ein Sprachmu ster ist, welches eine vorherbestimmte Merkmalsgröße als eine Zeitfunktion darstellt.

23. Verfahren nach Anspruch 22, dadurch gekenn zeichnet, daß die vorherbestimmte Merkmalsgröße ein Sprachenergiepegel ist.

24. Verfahren nach Anspruch 21, dadurch gekenn zeichnet, daß die vorherbestimmte Zahl eine reelle Zahl ist, welche gleich oder kleiner als 1 ist.

25. Verfahren zum Vergleichen von Mustern, dadurch ge kennzeichnet, daß
ein Paar aus einem ersten und einem zweiten Muster gebildet wird, die jeweils eine vorherbestimmte Merkmalsgröße als eine Zeitfunktion darstellen;
das jedes der beiden Muster geprüft wird, um zu sehen, ob jedes der beiden Muster ein Minimum innerhalb einer vorher bestimmten Zeitlänge ausgehend von einem vorderen oder hin teren Ende des Musters hat oder nicht
der Teil des einen der beiden Muster, welches ein Minimum hat, zwischen dem Minimum und dem vorderen oder hinteren En de aus dem einen Muster das ein Minimum hat, entfernt wird, falls das eine ein Minimum hat und das andere kein Minimum hat, und auch ein Wert, der erhalten worden ist, indem eine vorherbestimmte Zahl zu einer Musterlänge des einen Musters, das ein Minimum hat, multipliziert wird, gleich oder größer ist als eine Musterlänge des anderen Musters, das kein Mini mum hat, und
das erste Muster mit dem zweiten Muster nach einer Entfer nung, falls dies notwendig ist, verglichen wird.

26. Verfahren nach Anspruch 25, dadurch gekenn zeichnet, daß jedes der beiden Muster ein Sprachmu ster ist, welches eine vorherbestimmte Merkmalsgröße als eine Zeitfunktion darstellt.

27. Verfahren nach Anspruch 26, dadurch gekenn zeichnet, daß die vorherbestimmte Merkmalsgröße ein Sprachenergiepegel ist.

28. Verfahren nach Anspruch 25, dadurch gekenn zeichnet, daß die vorherbestimmte Zahl eine reelle Zahl ist, welche gleich oder kleiner als 1 ist.

29. Verfahren zum Vergleichen von Mustern, dadurch ge kennzeichnet, daß
ein erstes Muster gebildet wird, das eine vorherbestimmte Merkmalsgröße als eine Zeitfunktion darstellt;
das erste Muster so wie es ausgebildet ist, geprüft wird, um zu bestimmen, ob ein Minimum innerhalb eines ersten vorherbestimmten Zeitabschnitts ausgehend von einem vor deren Ende des ersten Musters bei Durchlauf des ersten vorherbestimmten Zeitabschnitts vorhanden ist oder nicht, und
das erste Muster mit einem zweiten Muster verglichen wird, das auch die vorherbestimmte Merkmalsgröße als eine Zeit funktion darstellt, wobei, wenn eines der beiden Muster ein Minimum innerhalb des ersten vorherbestimmten Zeitab schnitts hat und das andere Muster kein Minimum hat, der Teil des einen Musters, das ein Minimum hat, zwischen dem vorderen Ende und dem Minimum vor einem Vergleich entfernt wird.

30. Verfahren nach Anspruch 29, dadurch gekenn zeichnet, daß das erste Muster geprüft wird, wenn es weiter auszubilden ist, um festzustellen, ob ein Minimum in einem zweiten vorherbestimmten Zeitabschnitt an einem hinteren Ende des ersten Musters bei Durchgang des zweiten vorherbestimmten Zeitabschnitts vorhanden ist oder nicht, wobei, wenn eines der beiden Muster ein Minimum innerhalb des zweiten vorherbestimmten Zeitabschnitts und das andere kein solches Minimum hat, dieser Teil des einen Musters, das ein Minimum hat, zwischen dem Minimum und dem hinteren Ende vor einem Vergleich entfernt wird.

31. Verfahren nach Anspruch 29, dadurch gekenn zeichnet, daß jedes der beiden Muster ein Sprachmu ster ist, und daß die vorherbestimmte Merkmalsgröße ein Frequenzspektrum ist.

32. Verfahren nach Anspruch 30, dadurch gekenn zeichnet, daß bei jedem der Prüfschritte eine Mar kierung dem ersten Muster zugeteilt wird, um anzuzeigen, ob das erste Muster das Minimum hat oder nicht.

33. Verfahren nach Anspruch 29, dadurch gekenn zeichnet, daß das zweite Muster in einer Bibliothek als ein Bezugsmuster gespeichert wird und aus der Biblio thek ausgelesen wird, um mit dem ersten Muster verglichen zu werden.

34. Verfahren zum Vergleich von Mustern, dadurch ge kennzeichnet, daß ein Paar aus einem ersten und einem zweiten Muster geprüft wird, welche jeweils eine vorherbestimmte Merkmalsgröße als eine Zeitfunktion dar stellen, um zu sehen, ob eines der beiden Muster ein Mini mum innerhalb einer vorherbestimmten Zeitdauer ausgehend von dessen vorderen Ende hat oder nicht;
eine erste Zeitlänge zwischen dem ersten und zweiten Minimum des ersten Musters, eine zweite Zeitlänge zwischen einem vorderen Ende und einem ersten Minimum des zweiten Musters und eine dritte Zeitlänge zwischen dem ersten Minimum und einem zweiten Minimum des zweiten Musters berechnet werden;
eine erste Differenz zwischen der zweiten Zeitlänge und der ersten Zeitlänge und eine zweite Differenz zwischen der zweiten Zeitlänge und der dritten Zeitlänge verglichen wer den;
der Teil des zweiten Musters, der über die zweite Zeitlänge hinausgeht nur entfernt wird, wenn die erste Differenz klei ner als die zweite Differenz ist, und
das erste und das zweite Muster nach einer Entfernung des erwähnten Teils aus dem zweiten Muster, falls es erforder lich ist, verglichen werden.

35. Verfahren nach Anspruch 34, dadurch gekenn zeichnet, daß jede der beiden Differenzen ein Abso lutwert ist.

36. Verfahren nach Anspruch 34, dadurch gekenn zeichnet, daß jedes der Sprachmuster ein Sprachmuster ist, das aus einer gesprochenen Sprache erzeugt worden ist, und daß das Minimum einem lautlosen Intervall entspricht.

37. Verfahren nach Anspruch 36, dadurch gekenn zeichnet, daß die Anzahl lautloser Intervalle vor dem Zählschritt gezählt werden.

38. Verfahren nach Anspruch 34, dadurch gekenn zeichnet, daß der Berechnungsschritt ein Nichtdimen sionalisieren der ersten Zeitlänge durch eine Gesamtzeit länge des ersten Musters und der zweiten und dritten Zeit länge durch eine Gesamtzeitlänge des zweiten Musters ein schließt.

39. Verfahren zum Vergleichen von Mustern, dadurch ge kennzeichnet, daß
ein Paar aus einem ersten und einem zweiten Muster geprüft wird, die jeweils eine vorherbestimmte Merkmalsgröße als Zeitfunktion darstellen, um zu sehen, ob eines der beiden Muster ein Minimum innerhalb einer vorherbestimmten Zeitlän ge ausgehend von dessen hinterem Ende hat oder nicht, wobei das erste Muster eine Anzahl von m Minima und das zweite Mu ster eine Anzahl von n Minima hat, wobei die Zahlen m und n eine positive ganze Zahl sind;
eine erste Zeitlänge zwischen dem (m - 1)ten und dem m-ten Minimum des ersten Musters, eine zweite Zeitlänge zwischen dem (n - 1)ten und n-ten Minimum des zweiten Musters und eine drite Zeitlänge zwischen dem n-ten Minimum und einem hinteren Ende des zweiten Musters berechnet werden;
eine erste Differenz zwischen der zweiten Zeitlänge und der ersten Zeitlänge und eine zweite Differenz zwischen der zweiten Zeitlänge und der dritten Zeitlänge verglichen wer den;
dieser Teil des zweiten Musters, welcher über die zweite Zeitlänge geht, nur dann entfernt wird, wenn die erste Dif ferenz kleiner als die zweite Differenz ist, und
das erste und das zweite Muster nach einer Entfernung des erwähnten Teils aus dem zweiten Muster, falls es erforder lich ist, verglichen werden.

40. Verfahren nach Anspruch 39, dadurch gekenn zeichnet, daß jede der beiden Differenzen ein Abso lutwert ist.

41. Verfahren nach Anspruch 39, dadurch gekenn zeichnet, daß jedes der Sprachmuster ein Sprachmuster ist, das aus einer gesprochenen Sprache erzeugt worden ist, und daß das Minimum einem lautlosen Intervall entspricht.

42. Verfahren nach Anspruch 41, dadurch gekenn zeichnet, daß die Anzahl lautloser Intervalle vor dem Zählschritt gezählt werden.

43. Verfahren nach Anspruch 39, dadurch gekenn zeichnet, daß der Berechnungsschritt ein Nichtdimen sionalisieren der ersten Zeitlänge durch eine Gesamtzeitlän ge des ersten Musters und der zweiten und dritten Zeitlänge durch eine Gesamtzeitlänge des zweiten Musters einschließt.

44. Verfahren zum Vergleichen von Mustern, dadurch ge kennzeichnet, daß
ein Paar aus einem ersten und einem zweiten Muster geprüft wird, die jeweils eine vorherbestimmte Merkmalsgröße als eine Zeitfunktion darstellen, um zu sehen, ob eines der bei den Muster ein Minimum innerhalb einer vorherbestimmten Zeitlänge ausgehend von einem vorderen oder hinteren Ende des jeweiligen Musters hat oder nicht,
daß die Anzahl der Minima, die in dem ersten Muster vorhanden sind, mit der Anzahl Minima, die in dem zweiten Muster vor handen sind, verglichen werden;
dieser Teil des einen Musters, das ein Minimum mit einer vorherbestimmten Zeitlänge zwischen dem Minimum innerhalb einer vorherbestimmten Zeitlänge und dem vorderen oder hin teren Ende des einen Musters hat nur dann entfernt wird, wenn das eine Muster, das ein Minimum in einem vorherbe stimmten Zeitabschnitt hat, eine größere Anzahl von Minima als das andere Muster hat, und
das erste und das zweite Muster nach einer Entfernung des erwähnten Teils, falls dies überhaupt notwendig ist, vergli chen werden.

45. Verfahren nach Anspruch 44, dadurch gekenn zeichnet, daß jedes der beiden Muster ein Sprachmu ster ist, das aus einer gesprochenen Sprache erhalten wor den ist, und daß das Minimum einem lautlosen Intervall ent spricht.

46. Verfahren nach Anspruch 45, dadurch gekenn zeichnet, daß eines der beiden Muster ein Bezugsmu ster ist, das in einer Bibliothek gespeichert ist, und daß das andere ein eingegebenes Muster ist.

47. Verfahren zum Vergleichen von Mustern, dadurch ge kennzeichnet, daß
ein Paar aus einem ersten und einem zweiten Muster geprüft wird, die jeweils eine vorherbestimmte Merkmalsgröße als eine Zeitfunktion darstellen, um zu sehen, ob eines der bei den Muster ein Minimum innerhalb einer vorherbestimmten Zeitlänge ausgehend von einem vorderen oder einem hinteren Ende des jeweiligen Musters hat oder nicht;
die Anzahl Minima, die in dem ersten Muster vorhanden ist und die Anzahl Minima, die in dem zweiten Muster vorhanden ist, festgestellt werden;
eine erste Länge zwischen dem Minimum innerhalb einer vor herbestimmten Zeitlänge und dem vorderen oder hinteren Ende in einem der beiden Muster festgestellt wird, welches eine größere Anzahl Minima hat;
eine erste Differenz zwischen einer ersten Gesamtlänge eines der beiden Muster, welches eine geringere Anzahl Minima hat, und einer zweiten Gesamtlänge eines der beiden Muster, wel ches eine größere Anzahl Minima hat und eine zweite Diffe renz zwischen der ersten Gesamtlänge und der ersten Länge berechnet werden;
dieser Teil des einen Musters, das ein Minimum innerhalb einer vorherbestimmten Zeitlänge zwischen dem Minimum und dem vorderen oder hinteren Ende hat, nur dann entfernt werden, wenn die erste Differenz größer als die zweite Dif ferenz ist, und
daß das erste und das zweite Muster verglichen werden, nach dem der erwähnte Teil, falls es erforderlich ist, aus dem Muster, das eine größere Anzahl Minima hat, entfernt worden ist.

48. Verfahren nach Anspruch 47, dadurch gekenn zeichnet, daß jedes der beiden Muster ein Sprachmu ster ist, das aus einer gesprochenen Sprache erhalten worden ist, und daß das Minimum einem lautlosen Intervall ent spricht.

49. Verfahren nach Anspruch 47, dadurch gekenn zeichnet, daß jede der beiden Differenzen ein Abso lutwert einer solchen Differenz ist.

50. Verfahren zum Ausbilden eines Bezugsmusters durch Vor nahme einer Mittelung einer Anzahl von Mustern, welche hin sichtlich derselben Identität erzeugt worden sind, dadurch gekennzeichnet, daß
ein Paar aus einem ersten und einem zweiten Muster geprüft werden, die jeweils eine vorherbestimmte Merkmalsgröße als eine Funktion eines vorherbestimmten Parameters darstellen, um zu sehen, ob zumindest das erste Muster ein erstes Mini mum innerhalb einer vorherbestimmten Länge ausgehend von de ren vorderen oder hinteren Ende hat oder nicht;
ein erster Ähnlichkeitsgrad zwischen einem ersten Teil des ersten Musters zwischen dem Minimum und dem vorderen oder hinteren Ende, der sich über eine vorherbestimmte Länge des vorherbestimmten Parameters erstreckt, und einem zweiten Teil des zweiten Musters, der sich über eine vorherbestimmte Länge von deren hinteren Ende aus erstreckt, und auch ein zweiter Ähnlichkeitsgrad zwischen dem zweiten Teil und einem dritten Teil des ersten Musters berechnet werden, welche sich nach oder vor dem ersten Minimum über die vorherbe stimmte Länge erstrecken;
der erste Teil zu dem zweiten Muster an dessen vorderen oder hinteren Ende nur dann addiert wird, wenn der erste Ähn lichkeitsgrad kleiner als der zweite Ähnlichkeitsgrad ist, und
ein Mittelwert aus dem ersten und zweiten Muster genommen wird, nachdem der erste Teil erforderlichenfalls zu dem zweiten Teil addiert wird.

51. Verfahren nach Anspruch 50, dadurch gekenn zeichnet, daß jedes der beiden Muster ein Sprachmu ster ist, das aus einer gesprochenen Sprache erhalten wor den ist, wobei der vorherbestimmte Parameter Zeit ist, und daß das Minimum einem lautlosen Intervall entspricht.

52. Verfahren nach Anspruch 50, dadurch gekenn zeichnet, daß der Schritt einer Mittelwertsbildung durchgeführt wird, indem das zweite Muster dem ersten Mu ster überlagert wird.

53. Verfahren nach Anspruch 50, dadurch gekenn zeichnet, daß der Addierschritt durchgeführt wird, wenn das erste Muster das erste Minimum hat und das zweite Muster das erste Minimum nicht hat, und wenn der erste Ähn lichkeitsgrad kleiner als der zweite Ähnlichkeitsgrad ist.

54. Verfahren nach Anspruch 50, dadurch gekenn zeichnet, daß der Addierschritt durchgeführt wird, wenn die beiden Muster das erste Minimum haben, und das er ste Muster insgesamt eine größere Anzahl Minima hat als das zweite Muster, und wenn der erste Ähnlichkeitsgrad kleiner als der zweite Ähnlichkeitsgrad ist.

55. Verfahren nach Anspruch 50, dadurch gekenn zeichnet, daß der erste Teil nicht zu dem vorderen Ende des zweiten Musters addiert wird, wenn das erste Mini mum an dem hinteren Ende nur eines der beiden Muster vor handen ist.

56. Verfahren zum Ausbilden eines Bezugsmusters, durch Vor nahme einer Mittelung aus einer Anzahl Muster, welche für dieselbe Identität erzeugt worden sind, dadurch ge kennzeichnet, daß
ein Paar aus einem ersten und einem zweiten Muster geprüft wird, die jeweils eine vorherbestimmte Merkmalsgröße als eine Funktion eines vorherbestimmten Parameters darstellen und welche und zweite Gesamtlängen des vorherbestimmten Para meters haben, um zu sehen, ob das erste Muster ein erstes Minimum innerhalb einer vorherbestimmten Länge ausgehend von dessen vorderen oder hinteren Ende hat oder nicht, um dadurch einen Teil mit einer dritten Länge zwischen dem er sten Minimum und dessen vorderen oder hinteren Ende zu be stimmen
eine erste Differenz zwischen einer Summe aus der dritten Länge und der zweiten Länge sowie der ersten Länge und eine zweite Differenz zwischen der zweiten Länge und der ersten Länge berechnet werden;
dieser Teil zu dem zweiten Muster an dessen vorderen oder hinteren Ende nur dann hinzugefügt wird, wenn die erste Dif ferenz kleiner als die zweite Differenz ist, und
ein Mittelwert aus dem ersten und zweiten Muster gebildet wird nachdem, falls es erforderlich ist, dieser Teil zu dem zweiten Muster addiert wird.

57. Verfahren nach Anspruch 56, dadurch gekenn zeichnet, daß jedes der beiden Muster ein Sprachmu ster ist, das aus einer gesprochenen Sprache erhalten worden ist, wobei der vorherbestimmte Parameter Zeit ist, und daß das Minimum einem lautlosen Intervall entspricht.

58. Verfahren nach Anspruch 56, dadurch gekenn zeichnet, daß der Schritt der Mittelwertbildung da durch durchgeführt wird, daß das zweite Muster über dem er sten Muster angeordnet wird.

59. Verfahren zum Auswählen einer ersten Anzahl von Muster aus einer zweiten Anzahl von Muster, wobei die zweite Anzahl gleich oder größer als die erste Anzahl ist, und wobei mit tels der Muster eine vorherbestimmte Größe als eine Funktion eines vorherbestimmten Parameters darstellen und jeweils eine individuelle Anzahl vorherbestimmter Merkmale haben, dadurch gekennzeichnet, daß
die Zahl der vorherbestimmten Merkmale in der zweiten Anzahl von Mustern gezählt wird, indem die weggelassen werden, die an oder in einem vorherbestimmten Bereich ausgehend von des sen vorderen oder hinteren Ende vorhanden sind, und
diese Muster und der zweiten Anzahl Muster gesammelt werden, die jeweils eine gezählte Anzahl haben, welche gleich einer vorherbestimmten Zahl ist, um dadurch die erste Anzahl Mu ster zu definieren.

60. Verfahren nach Anspruch 59, dadurch gekenn zeichnet, daß jedes der Muster ein Sprachmuster ist, das aus einer gesprochenen Sprache erhalten worden ist.

61. Verfahren nach Anspruch 60, dadurch gekenn zeichnet, daß jeweils die zweite Anzahl Muster ein Bezugssprachmuster ist, welches bekannt ist und in einer Bibliothek gespeichert ist, und daß die vorherbestimmte Zahl des Sammelschritts eine Zahl ist, welche für ein ein gegebenes, unbekanntes Sprachmuster festgelegt worden ist, wobei die erste Anzahl Muster die Daten-Muster festlegt, um das eingegebene, unbekannte Sprachmuster zu identifi zieren.