DE2753707A1

DE2753707A1 - Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache

Info

Publication number: DE2753707A1
Application number: DE19772753707
Authority: DE
Inventors: Gene Grunza; Marvin B Herscher
Original assignee: THRESHOLD Tech Inc
Current assignee: THRESHOLD Tech Inc
Priority date: 1976-12-06
Filing date: 1977-12-02
Publication date: 1978-10-19
Also published as: US4107460A; FR2373117A1; GB1591996A

Description

Die Erfindung betrifft eine Einrichtung zur Erkennung des Auftretens eines Kommandowortes aus einer Eingangssprache, die eine fortlaufende Form haben mag.

Sie bezieht sich allgemein auf das Erkennen des Auftretens eines besonderen Wortes oder besonderer Worte in einer fortlaufenden Sprache.

Es gibt bereits frühere Entwicklungen verschiedener Ausrüstungen, die dem Versuch dienen, begrenzte Wortfolgen gesprochener Worte durch Analyse akustischer Vorkommnisse zu erkennen. Diese Einrichtungen werden für "Sprachsteuerungszwecke" als nützlich angesehen, bei denen, nach Erkennung bestimmter Worte, die Einrichtung elektrische Signale erzeugt, die die Arbeitsweise eines Mitlaufsystems steuert. Zum Beispiel kann eine Sprachsteuerung dazu verwendet werden, ein Transportband so zu steuern, daß es sich in einer besonderen Weise bewegt, oder sie kann einen Rechner steuern, um besondere Rechnungen durchzuführen.

809842/0541

-9-

Frühere Versuche zur Entwicklung automatischer Methoden zur Spracherkennung hatten nur begrenzten Erfolg und führten zu der Erkenntnis, daß die Sprachübermittlung in hohem Maße komplexer Natur ist. Normale Sprache hat einen hohen Informationsanteil, wobei beträchtliche Änderungen von Sprecher zu Sprecher vorkommen und sogar einige Änderungen in dem gleichen Wort, wenn es von der gleichen Person gesprochen wird. Daher ist ein "perfektes" Erkennungsschema nicht erreichbar, da die Natur des zu erkennenden Sprachsignals nicht genau definiert werden kann. Aus diesem Grunde stellten bevorzugte frühere Vorschläge empirische Versuche dar, die wenigstens in einem vernünftigen Maße auf dem Vertrauen beruhte, jedenfalls vom statistischen Standpunkt aus, daß ein gesprochenes Wort einem ausgewählten eines begrenzten Maschinenvokabulars entsprach. Die Wünschbarkeit solcher Schemata sind somit nicht durch theoretische Untersuchungen bestimmbar, vielmehr durch ein deutliches Maß von Erkennungsgenauigkeit über ausgewählte Betriebszeiten.

Aus verschiedenen Gründen erwiesen sich die früher bekannten Systeme für praktische Anwendungen als unbrauchbar. Einer der wesentlichen Gründe bestand in der außerordentlichen Komplexibilität der Geräte, die versuchten, eine rigorose Gesamtanalyse der empfangenen Sprachsignale durchzuführen. Zusätzlich zu den hohen

Un zu
Kosten und der einhergehenden /verlässigkeit zeigen solche Systeme eine Tendenz zur Bildung hochkomplizierter und restriktiver Erkennungsmerkmale, die normale Änderungen der Vokabularworte des Systems zurückweisen können. Darüber hinaus leiden einige Geräte daran, daß sie Erkennungskriterien bilden, die zu leicht zu er-

809842/0541

füllen sind und zu der unrichtigen Annahme von ungewöhnlichen Worten führen, die nicht in dem vorausgewählten Vokabular der Einrichtung enthalten sind.

In der GB-PS 1 435 779 ist eine Einrichtung beschrieben, die gesprochene Eingangs-"Ubungs"-Worte und ein nachfolgendes gesprochenes Eingangs-"Kommando"-Wort aufnimmt und eine: Korrelationsfunktion erzeugt, die für die Übereinstimmung des Kommandosignals mit dem Übungswort kennzeichnend ist. Eine Merkmalsgewinnungseinrichtung verarbeitet empfangene Eingangsworte und erzeugt digitale Merkmalsausgangssignale an bestimmten Leitungen einer Zahl von Merkmalsausgangsleitungen, wobei diese bestimmten Leitungen von den charakteristischen Merkmalen des gesprochenen Wortes abhängen. Der Status des Merkmalssignals, das während jedes Ubungswortes auftritt, wird gespeichert als eine normalisierte zeitabhängige Matrix. Nachfolgend wird der Status der Merkmalssignale, die während eines Kommandowortes auftreten, ebenfalls als normalisierte zeitabhängige Matrix gespeichert. Die Matrix des Kommandowortes wird dann Glied für Glied mit jeder Ubungswortmatrix verglichen, und es wird eine Korrelationszahl für jeden Vergleich gebildet. Wurde eine ausreichend hohe Korrelation zwischen der Kommandowortmatrix und einer bestimmten Übungswortmatrix festgestellt, so wird angenommen, daß das Kommandowort dem bestimmten Übungswort entspricht. Diese Art von System arbeitet in hohem Maße zufriedenstellend in Fällen, wo Kommandoworte in "Isolation" gesprochen werden, d.h. wenn merkliche Pausen zwischen den Worten vorhanden sind, wobei die Pausen die Wortgrenzen definieren. Allgemein ist eine Schaltung vorgesehen, die den Beginn von Sprache nach einer Pause feststellt und dann die nächste wesentliche Abwesenheit

809842/0541 -n-

von Sprache abtastet. Diese Ergebnisse werden als Grenze eines Wortes betrachtet, und die Merkmalsereignisse, die zwischen diesen Grenzen auftreten, dienen zur Bildung der oben erwähnten Matrix. Natürlich hat jedes System, bei dem unterscheidbare Pausen erforderlich sind, um Wortgrenzen zu bestimmen, notwendigerweise in hohem Maße begrenzte Fähigkeiten zur Erkennung von Worten aus einer fortlaufenden natürlichen Sprache, da sehr oft nur kleine oder überhaupt keine Pausen in der natürlichen Sprache auftreten. In der US-PS 3 883 850 ist ein System beschrieben, das in der Vergangenheit mit gewissem Erfolg zur Erkennung des Auftretens von Worten in einer fortlaufenden oder gebundenen Sprache angewendet worden ist. Die angewendete Technik ist eine sequentielle Analyse fonetischer Vorkommnisse. Für jedes zu erkennende Wort wird eine sequentielle logische"Kette"gebildet. Jede Kette enthält eine Zahl von logischen Stufen, wobei eine Stufe für jedes fonetische Vorkommnis des zu erkennenden Wortes vorgesehen ist. Die logischen Stufen werden in einer Reihe angeordnet und selektiv in solcher Weise betätigt, daß sie nacheinander aktiviert werden, wenn eine bestimmte Form von fonetischen Vorkommnissen oder Merkmalen auftritt. Als vereinfachtes Beispiel kann das englische Wort "red" ausgedrückt werden durch die Folge"/r/->/£/-*/d/". Folgli/ch würde eine zur Erkennung des Wortes red verwendete logische Kette drei logische in Reihe gekoppelte Stufen aufweisen, wobei die erste Stufe durch Abtastung eines /r/-Lautes betätigt wird, die zweite durch Abtastung eines /£/-Lautes und die dritte Stufe durch die Abtastung eines /d/-Lautes. Natürlich würden die zweiten und dritten Stufen jeweils auch fordern, daß die vorher-

809842/0541

-1k-

gehende Stufe als Vorbedingung betätigt worden ist. Ist die letzte Stufe betätigt, so zeigt das System an, daß das Wort red gesprochen worden ist, da von den Lauten /r/, /£/ und /d/ bekannt ist, daß sie in der aufgelisteten Reihenfolge aufgetreten sind. Wie in der oben angegebenen Anmeldung erläutert, erfordert das System in typischer Weise, daß die Laute innerhalb gewisser Zeitzwänge auftreten, und es erfordert eine "Rückstellung" einer logischen Kette (d.h. Umschalten von Abtastung zum Nachsuchen nach dem Vokabelwort) nach Auftreten gewisser akustischer Merkmale, die eine hohe Wahrscheinlichkeit anzeigen würden, daß das gesuchte Vokabularwort gesprochen worden ist.

Das beschriebene sequentielle logische System hat eine Fähigkeit, Vokabularworte in einer fortlaufenden Sprache zu erkennen, selbst dann, wenn keine merkliche Pause vor oder nach dem Wort gesprochen worden ist. Der Grund hierfür liegt darin, daß das System so ausgelegt ist, daß es das Auftreten einer speziellen Folge von Lauten feststellt und keine Wortgrenzen aufzutreten brauchen, um ein Wort zu trennen oder zu isolieren, so daß eine Analyse erfolgen kann. Abgesehen von diesem Vorteil wurde gefunden, daß die beschriebene Art eines sequentiellen logischen Systems einige Erkennungsmängel aufweist, die verbessert werden könnten. Wie bereits oben in allgemeiner Form ausgeführt, bilden Spracherkennungssysteme über alles gesehen beschränkte Erkennungskriterien, und das ist sehr oft der Fall bei einer sequentiellen logischen Form des Systems. Erfordert das sequentielle logische System eine gewisse beschränkte Folge von Lauten zur Erkennung, so verhindert die Abwesenheit selbst eines einzigen Lautes aus der zuvor genann-

809842/05A1

ten Folge eine Erkennungsanzeige. In vielen Fällen mag eine solche Beschränkung zur Nichterkennung eines angenommenen Wortes führen, da sich aus dem Kontext ergebende Effekte leicht selbst den gleichen Sprecher zur außergewöhnlichen Einfügung oder Weglassung eines Lautes (oder genauer eines fonetischen Merkmals) veranlassen, wenn er das gleiche Wort bei verschiedenen Gelegenheiten ausspricht. Diese Fehlerart verringert die Erkennungsrate des Systems. Die Erkennungsrate kann natürlich erhöht werden, indem die Erkennungskriterien zurückgeschraubt und verschiedene Alternativformen in die Lage versetzt werden, Erkennungsanzeigen zu veranlassen. Für ein solches Zurückschrauben oder Verringern wurde jedoch gefunden, daß damit das Auftreten von "Falschalarmen" erhöht wird, d.h. eine falsche Veranlassung von Erkennungsanzeigen durch Worte (oder fonetische Folgen in benachbarten Worten), die einem angenommenen Wort ähnlich sind.

In der US-PS 3 943 295 ist eine Spracherkennungseinrichtung beschrieben, die in der Lage ist, Worte in einer fortlaufenden Sprache zu erkennen und die eine relativ hohe Erkennungsrate und eine relativ niedrige Falschalarmrate hat. Bei dieser Erfindung sind Mittel zur Erzeugung von Merkmalssignalen vorgesehen, die von den Merkmalen eines gesprochenen Eingangswortes abhängen. Die Merkmalssignale werden verarbeitet, um den Zeitintervall des Auftretens einer vorbestimmten Form von Merkmalen zu bestimmen. Es sind weitere Mittel zum Vergleich der Merkmalssignale, die während der bestimmten Zeitintervalle auftreten,mit einer gespeicherten Gruppe von Merkmalen vorgesehen, von denen angenommen wird, daß sie charakteristisch während des Kommandowortes auftre-

809842/0541

ten, um so das Maß der Korrelation zwischen den beiden zu bestimmen. Mit anderen Worten, eine sequentielle Form einer Analyse wird zunächst durchgeführt, um die Grenzen eines Kommandowortes in einer fortlaufenden Sprache zu bestimmen,und, nachdem eine solche Bestimmung erfolgt ist, die Sprachmerkmale, die zwischen den Grenzen auftreten, werden zu einer gespeicherten Gruppe von Merkmalen in Beziehung gebracht. Die vorliegende Erfindung ist im allgemeinen von der Form, wie sie in der US-PS 3 943 295 beschrieben ist, stellt jedoch eine Verbesserung davon dar. Bei einer beschriebenen Ausführungsform in der genannten Patentschrift erfolgt die sequentielle Verarbeitung der Merkmalssignale unter Verwendung einer sequentiellen logischen Kette aus einer Mehrzahl von sequentiellen logischen Einheiten, die nacheinander abgefragt werden, wenn Signale an logischen Eingangsklemmen der sequentiellen logischen Einheiten auftreten. Die vorliegende Erfindung bezieht sich u.a. auf eine verbesserte Form der sequentiellen Verarbeitungstechnik des beschriebenen Systems.

Der Erfindung liegt die Aufgabe zugrunde, eine Spracherkennungseinrichtung zu schaffen, die in der Lage ist, Worte in einer fortlaufenden Sprache zu erkennen und dabei eine relativ hohe Erkennungsrate und eine relativ niedrige Falschalarmrate entwickelt.

Die Lösung der der Erfindung zugrundeliegenden Aufgabe ergibt sich aus dem Kennzeichen des Anspruchs 1. Bei dieser Lösung sind Mittel vorgesehen, die aufeinanderfolgende Untergruppen von Merkmalssignalen erzeugen, die von der Anwesenheit während aufeinanderfolgender individueller Zeitschlitze oder Zeitfenster von Merkmalen in der Eingangssprache abhängen. Es sind Mittel zur

809842/0541

sequentiellen Verarbeitung der erzeugten Merkmalssignale vorgesehen, um den Zeitintervall des Auftretens eines Kommandowortkandidaten zu bestimmen. Das ist allgemein gesehen die Technik, die bei der zuvor genannten US-PS 3 943 295 angewendet ist. Bei der vorliegenden Erfindung wird jedoch eine neuartige Form der sequentiellen Verarbeitungseinrichtung angewendet. Die sequentielle Verarbeitungseinrichtung enthält Mittel zum Vergleich der erzeugten Untergruppen von Merkmalssignalen mit einer vorbestimmten Gruppe von früher gespeicherten Untergruppen von Merkmalen, um zu bestimmen, wann ein vorbestimmter Vergleichsstandard während eines bestimmten Zeitintervalls erreicht wird. Dieser Zeitintervall ist bestimmend für die Grenzen des Kommandowortkandidaten. Darüber hinaus sind Mittel vorgesehen, die einen weiteren Vergleich zwischen einer Matrix, die aus den während der bestimmten Zeitintervalle aufgetretenen Merkmalsuntergruppensignalen gebildet ist, mit einer zuvor gespeicherten Matrix von Merkmalen bewirken, von denen erwartet wird, daß sie charakteristisch während des Kommandowortes auftreten. Eine Vorkommensanzeige wird erzeugt, wenn dieser weitere Vergleich einem anderen vorbestimmten Standard entspricht. Die Vorkommensanzeige wird in typischer Weise dazu verwendet, um ein Mitlaufsystem zu steuern.

Ein Vorteil der vorliegenden Erfindung besteht in der Flexibilität der sequentiellen Verarbeitung im Vergleich zu einem System, das eine Kette von sequentiellen logischen Einheiten verwendet, die meistens durch Verdrahtung (hard-wired) bestimmt sind. Die Erkennungsrate von Kommandowortkandidaten ist somit verbessert. Darüber hinaus können gespeicherte Merkmalsuntergruppen

809842/0541

durch einen "übungs"-Vorgang gewonnen und in einen löschbaren Speicher eingespeichert werden.

Bei einer bevorzugten Ausführungsform der Erfindung vergleicht die sequentielle Verarbeitungseinrichtung eine erzeugte Untergruppe von Merkmalen mit einer speziellen,früher gespeicherten Untergruppe von Merkmalen nur dann, nachdem zuvor erzeugte Untergruppen von Merkmalssignalen bereits vorbestimmte individuelle Vergleichsstandards erreicht haben, nachdem sie mit anderen zuvor gespeicherten Untergruppen von Merkmalen vergleichen sind. Die gespeicherten Untergruppen von Merkmalen werden in typischer Weise von Merkmalssignalen bestimmt, von denen gefunden wurde, daß sie während "übungs"-Aussprachen des Kommandowortes auftreten. Die gespeicherten Untergruppen von Merkmalen sind in einer sequentiellen Prioritätsfolge angeordnet, die von der Reihenfolge abhängt, in der ihr Auftreten während der Übungsaussprachen des Kommandowortes festgestellt worden ist. Bei einer bevorzugten Ausführungsform der Erfindung weist die Einrichtung zur sequentiellen Verarbeitung der erzeugten Untergruppen von Merkmalssignalen Mittel zur Erzeugung einer Mehrzahl von vorläufigen Zeitintervallen auf, d.h. "vorläufigen Grenzen". Die Mittel zum Vergleichen der Matrizen werden dann angepaßt, um den Matrixvergleich für jeden der vorläufigen Grenzen durchzuführen.

Weitere Einzelheiten und Vorteile der Erfindung ergeben sich aus der nachfolgenden Beschreibung von Ausführungsbeispielen anhand der Zeichnungen.

Fig. 1 ist ein Blockschaltbild einer Einrichtung gemäß einem Ausführungsbeispiel der Erfindung,

809Ö42/U541 ~¹⁷~

Fig. 2a und 2b sind Blockschaltbilder von Schaltungen gemäß dem Stand der Technik, die als Merkmalsgewinnungsteil der Erfindung verwendbar sind,

Fig. 3 zeigt ein Flußdiagrairan, das zur Ausführung der

Schaltung 400 zur Bildung der Merkmalsuntergruppenmasken geeignet ist, die während der übungs- oder Lernphasen gespeichert sind,

Fig. 4 verdeutlicht die Art der Matrix, die sich aus den Speichern des Status von binären Merkmalen durch die Verarbeitungsschaltung der Fig. 1 ergibt,

Fig. 5 verdeutlicht eine zeitnormalisierte Matrix, Fig. 6, die aus den untereinander angeordneten Fig. 6A,

6B und 6C besteht, ist ein Flußdiagramm, das einen Vielzweckrechner zur Durchführung der Funktionen des Vergleichsmoduls 500 der Fig. 1 verdeutlicht,

Fig. 7 zeigt eine Folge von Acht-Bit-Worten der Art, wie sie gemäß der Erfindung erzeugt werden, und dient daher zum Verständnis der Erfindung.

Fig. 1 zeigt ein vereinfachtes Funktionsblockschaltbild einer Einrichtung gemäß der Erfindung. Gesprochene Eingangsworte werden durch eine Merkmalsauszugseinrichtung 10 aufgenommen, die eine Vorverarbeitungsschaltung 50 und eine Merkmalsauszugsschaltung 60 enthält. (Wie bereits zuvor erwähnt, bezeichnen die Ausdrücke "gesprochene Eingangsworte", "gesprochene Worte", "Sprache* oder dergleichen im allgemeinen alle akustischen oder elektrischen Darstellungen von Kommunikationslauten.) Die Schaltung 50 erhält Kommunikationsworte direkt von einer Person oder Worte

809842/0641

repräsentierende elektrische Signale von oder über eine Telefonleitung oder einem Bandaufzeichnungsgerät. Die Vorverarbeitungsschaltung 50 verwendet eine Reihe von Bandpaßfiltern zur Übersetzung der Sprache in eine Mehrzahl von Spektralkomponentensignalen auf den Leitungen 50a. Die Signale auf den Leitungen 50a werden von einer Merkmalsauszugs- oder Gewinnungsschaltung 60 aufgenommen, die Merkmalsausgangssignale auf bestimmte einer Reihe von Merkmalsausgangsleitungen 60a erzeugt, von denen einzelne von den Merkmalen abhängen, die in der aufgenommenen Sprache enthalten sind. Die Signale auf den Merkmalsausgangsleitungen können z.B. die Anwesenheit von gewöhnlich verwendeten Vokal- oder Konsonantenlauten repräsentieren. Wie das noch weiter beschrieben wird, können die Schaltungen 50 und 60 von der Art sein, wie sie durch den Stand der Technik bekannt ist. Die Merkmalsausgangsleitungen 60a sind mit Einrichtungen 200 zur sequentiellen Verarbeitung (gezeigt in der gestrichelten Umrahmung) gekoppelt und dienen außerdem zur Pufferung des Speichers 300, dessen Ausgang mit der Verarbeitungsschaltung gekoppelt ist, deren Funktionen im allgemeinen innerhalb der gestrichelten Umrahmung 70 gezeigt sind. Zur Klarheit des Verständnisses ist die Einrichtung 200 zur sequentiellen Verarbeitung so dargestellt, daß sie einen Block 400 zur Speicherung von Merkmalsuntergruppenmasken, einen Vergleichsmodul 500 und einen Adressengenerator 550 aufweist. Wie das noch nachfolgend näher beschrieben wird, werden die Funktionen der Einrichtung 200 zur sequentiellen Verarbeitung zusammen mit dem Pufferspeicher 300, der Schaltung 70 und dem Block 75 vorzugsweise durch einen digitalen Vielzweckrechner dargestellt, beispielsweise den

809842/0541

Rechner Nova 1200 der Firma Data General Corporation. Die durch diese Blöcke dargestellten Funktionen "können jedoch auch beispielsweise durch Verwendung eines speziellen Rechners, Mikroprozessers oder durch eine fest verdrahtete Schaltung usw. dargestellt werden.

Zum besseren Verständnis der Arbeitsweise der Einrichtung 200 zur sequentiellen Verarbeitung ist es hilfreich, von dem Block 400 anzunehmen, daß er eine Vielzahl von Merkmalsuntergruppenmasken speichert, die dazu dienen, einen "Standard" darzustellen, mit dem ankommende Untergruppen von Merkmalen (auf den Leitungen 60a) fortwährend und aufeinanderfolgend durch den Modul 500 verglichen werden. Während der "Lern"-Phase werden die Merkmal suntergruppenmasken in einer noch zu beschreibenden Weise gebildet. Während der Verarbeitungsphase werden die Merkmalssignale auf den Leitungen 60a mit dem Pufferspeicher 300 gekoppelt, der außerdem Adressen von einem Adressengenerator 150 erhält. Die Adressen können ganz einfach durch Zählen des Grundtaktes des Systems gebildet werden, und die Adressen dienen dazu, den Zeitpunkt des Auftretens jedes ankommenden Untergruppenmerkmals (auf den Leitungen 60a) zu verfolgen, die während eines bestimmten Zeitschlitzes oder Zeitfensters auftreten. Jede ankommende Merkmal sun te r gruppe ist ein Ausgangssignal auf den Leitungen 60a (das während jedes Zeitfensters oder AbtastintervalIs einmal auftritt, z.B. einmal alle 2 Millisekunden, wie im vorliegenden Ausführungsbeispiel )_f und sie wird in dem Pufferspeicher 300 bei einer Adresse gespeichert, die ihr Zeitfenster identifiziert, und sie ist außerdem mit dem Vergleichsmodul 500 verbunden, um mit

809842/0541

dem passenden oder mit passenden gespeicherten Merkmalsuntergruppenmasken verglichen zu werden. Nachdem eine erfolgreiche Folge von "Übereinstimmungen" zwischen ankommenden Merkmalsuntergruppen und gespeicherten Merkmalsuntergruppenmasken festgestellt worden ist, wird angenommen, daß der Vergleichsmodul 500 einen Kommandowort-"Kandidaten"identifiziert hat, und die Grenzen des Kandidaten werden dazu verwendet (was funktionell durch die Leitung 500A in Fig. 1 dargestellt ist) festzustellen, welches Gesamtzeitintervall in dem Pufferspeicher weiter in der Schaltung 70 verarbeitet werden muß. Wie das noch verständlich wird, führt der Vergleich zu relativ groben Grenzextremen, und eine Vielzahl von unterschiedlichen oder "vorläufigen" Grenzen wird während nachfolgender Verarbeitung durch die Schaltung 70 ausprobiert.

Unter Berücksichtigung von Grenzen, die durch die sequentielle Verarbeitungseinrichtung 200 bestimmt sind, gibt der Pufferspeicher 30 die früher gespeicherten Merkmalssignale (die auf Leitungen 60a erschienen sind) in die Verarbeitungsschaltung, deren Funktionen allgemein innerhalb der gestrichelten Umrahmung 70 ablaufen. Die Arbeitsweise der Schaltung 70 wird kurz wie folgt beschrieben: Eine zeitabhängige Matrix wird aus den von dem Pufferspeicher 300 erhaltenen Merkmalssignalen gebildet, und zwar durch den Block 71. Wie bereits bemerkt, geben die Matrixglieder den Status von Merkmalssignalen wieder, die während des Kommandowort-"Kandidatei"aufgetreten sind. Während der Ubungs- oder Lernphase ist eine andere Matrix in der Verarbeitungsschaltung 70 gespeichert worden, wie das durch den Block 72 angegeben ist. Diese andere Matrix weist Glieder auf, die den Status von Merkmalssignalen wiedergeben, deren charakteristisches Auftreten während

809842/0541 -21-

des Kommandowortes erwartet wird. Die beiden Matrizen werden verglichen, diese Funktion wird durch den Block 73 dargestellt. Der Vergleich erfolgt vorzugsweise auf einer Glied-für-Glied-Basis und führt zu einer Bestimmung des Maßes der Übereinstimmung zwischen den beiden Matrizen. Bei der bevorzugten Ausführungsform der Erfindung ist die Matrix für jede Gruppe von vorläufigen Grenzen gebildet (Block 71). Der Matrixvergleich (Block 73) erfolgt für jede sich ergebende Matrix. Der Optimierungswähler 75 beinhaltet das Auswählen des Vergleichs, der zu dem Ergebnis mit höchster Übereinstimmung führt. Liegt das Ergebnis mit der höchsten Übereinstimmung oberhalb eines vorbestimmten Schwellwertes, so wird angenommen, daß das Kommandowort gesprochen worden ist. und das Signal wird auf einer Leitung 75A erzeugt, welches in typischer Weise zur Steuerung eines Mitlaufsystems verwendet wird. Es sei erneut bemerkt, daß die in dem gestrichelten Rahmen 200 gezeigten Blöcke eine Funktion anzeigen und zur Vereinfachung der Erläuterung beibehalten werden, wobei bei der vorliegenden Ausführung ein digitaler Mehrzweckrechner zur Durchführung dieser Funktionen wie auch der Funktionen des Pufferspeichers 300 verwendet wird.Es sei erneut darauf hingewiesen, daß diese Funktionen erforderlichenfalls auch durch einen passend ausgelegten speziellen Rechner, Mikroprozesser und/oder eine festverdrahtete Schaltung einschließlich eines passenden Speichers oder einer logischen Schaltung realisiert werden können.

Fig. 2 verdeutlicht,mehr im einzelnen, den Stand der Technik für eine Gewinnungseinrichtung der Art, wie sie zur Verwendung bei der Merkmalsauszugseinrichtung 10 der Fig. 1 geeignet ist.

809842/0541

Eine vollständige Beschreibung sowohl der Vorverarbeitungsschaltung 50 als auch der Merkmalsauszugsschaltung 60 findet sich in einer Veröffentlichung mit der Überschrift "Acoustic Recognition of A Limited Vocabulary of Continuous Speech" von T.B. Martin, veröffentlicht von der University Microfilms, Ann Arbor, Michigan. Es ist jedoch zu beachten, daß sich die vorliegende Erfindung im wesentlichen auf verarbeitete Merkmalssignale bezieht und irgendwelche passenden Mittel zur Gewinnung der Merkmalssignale verwendet werden können. Folglich ist das Ausmaß der nachfolgenden Einzelheiten auf das Maß begrenzt, das erforderlich ist, um ein Verständnis der Teile der erfindungsgemäßen Einrichtung zu ermöglichen,

Fig. 2A ist ein Blockschaltbild der Vorverarbeitungsschaltung 50. Ein Wandler 51, typischarweise ein Gradientenmikrofon, nimmt gesprochene Eingangsworte auf und erzeugt sich mit der Zeit ändernde elektrische Signale, die für den aufgenommenen Schall repräsentativ sind. Der Ausgang des Wandlers 51 ist über einen Vorverstärker 52 mit neunzehn benachbarten Bandpaßfiltern in einer Filterbank 53 gekoppelt. Jedes Filter in der Bank erzeugt ein Ausgangssignal entsprechend dem Anteil des Eingangssignals, der im Bereich der von dem bestimmten Filter durchgelassenen Frequenzen liegt. Die Filtermittenfrequenzen reichen z.B. von ungefähr 250 bis 7500 Hz, wobei die geringste Filterbandbreite ungefähr 150 Hz beträgt.

Der Ausgang jedes Filters in der Bank 53 ist einzeln mit einem Vollweggleichrichter und einer Tiefpaßfilterkombination gekoppelt, die in einer Gleichrichter/Tiefpaßfilterbank angeordnet sind. Nach Gleichrichtung und Filtrierung stellen die Ausgangs-

809842/0541

signale der Bank 54 im wesentlichen die Energieniveaus des Eingangssignals etwa im Bereich der Mittenfrequenz jedes der Bandpaßfilter in der Bank 53 dar. Oder anders betrachtet, die Signale auf den Leitungen 54a geben zusammen die Hüllkurve der Energie in Abhängigkeit vom FrequenzSpektrum der empfangenen Eingangssignale über den interessierenden Frequenzbereich wieder.

Die neunzehn Informationskanäle auf den Leitungen 54a sind logarithmisch komprimiert, um Spektralkomponenten in Form von Ausgangssignalen auf den Leitungen 50a des Vorprozessers zu bilden. Eine logarithmische Kompression erleichtert eine nachfolgende Verarbeitung in zwei Möglichkeiten. Bei der ersten erfolgt eine dynamische Bereichskompression, die die Konstruktionserfordernisse der Merkmalsauszugseinrichtung 60 vereinfacht. Zum zweiten können aufgrund der Verwendung von Logarithmen Vergleichsverhältnisse der Spektralkomponentensignale ganz einfach durch Subtraktion errechnet werden. Verhältnisse sind erwünschte Verarbeitungsvehikel, indem sie unabhängig von Änderungen der Gesamtamplituden der Signale sind. Diese Eigenschaft ist insbesondere vorteilhaft bei einem System, bei dem eine Eingangssprache variierender Lautstärke erkannt werden soll.

Bei dem Schaltbild gemäß Fig. 2A wird ein einziger logarithmischer Verstärker 56 zeitgestaffelt betrieben, um die Notwendigkeit der Verwendung von neunzehn identischen Verstärkern zur Erzielung der Kompression zu vermeiden. Die Ausgangssignale auf der Leitung 54a werden durch einen Multiplexer 55 abgetastet, und die abgetasteten Signale passieren,eines zu einer Zeit, den zeitgestaffelten Verstärker 56. Ein Demultiplexer 57 "rekonstruiert"

809842/0541

dann die komprimiertai Spektralkomponentensignale auf Leitungen 50a von den verarbeiteten abgetasteten Signalen. Die Taktgeschwindigkeit der Abtastung des Multiplexers und des Demultiplexers liegt oberhalb von 1 kHz und ist ausreichend höher, als es zur Beibehaltung der Signalbandbreite erforderlich ist. Diese Technik der gleichzeitigen Verwendung eines einzigen logarithmischen Verstärkers ist Stand der Technik, s. die zuvor genannte Veröffentlichung von T. Martin und die US-PS 3 588 363.

Es sei in Erinnerung gerufen, daß die Spektralkomponentensignale auf den Leitungen 50a in die Merkmalsauszugsschaltung 60 (Fig. 1) eingegeben werden, die die Anwesenheit von Eigenschaften der Spektralkomponentensignale abtastet, die vorausgewählten Eigenschaften oder "Merkmale" des Eingangswertes entsprechen. Bei dem Stand der Technik ist eine Merkmalsauszugseinrichtung beschrieben, bei der die Abtastung von Eigenschaften oder "Merkmalsauszügen" teilweise dadurch erfolgt, daß Mengen abgeleitet werden, die als "Neigungs"- und "Breitneigungs"-Merkmale bekannt sind (slope/broad slope). Diese Mengen oder Werte liefern eine Anzeige für die Polarität und Größe der Neigung der Eingangsumhüllenden über bestimmte Segmente des Frequenzspektrums. Die Art und Weise, in der diese Mengen oder Größen gewonnen werden, ist in der zuvor angegebenen Veröffentlichung und in dem Patent beschrieben.

Fi.g 2B zeigt ein Blockschaltbild der Merkmalsauszugsschaltung 60 gemäß dem Stand der Technik, die die Spektralkomponentensignale auf den Leitungen 50a aufnimmt. Die Schaltung 60, die auch in der zuvor genannten Veröffentlichung und dem Patent beschrieben ist, weist logische Blöcke 61 und 6 2 auf, die Gruppen von Neigungs-

-25-

809842/0541

27S3707

und Breitneigungsgrößen ableiten, die durch eine "Breitklassenmerkmal "-Erkennungslogik 63 aufgenommen worden sind. Der Block verwendet Gruppen von Operationsverstärkern und eine passende periphere Schaltung zur Erzeugung von Breitklassenmerkmalssignalen 63a, die die Anwesenheit von gewissen breit klassifizierten phonetischen Merkmalen in den Eingangsworten anzeigen. Beispiele von breiten Klassifikationen sind "Vokal/vokalähnlich", "nur Intonation", "Sprenglaut", "intonierter geräuschartiger Konsonant" usw.. Die Signale 63a wie auch die Spektralkomponentensignale, Neigungs- und Breitneigungssignale gelangen in eine Erkennungslogik 64 für "Grundmerkmale". Dieser Block, der Bauteile enthält, die von der gleichen Natur wie die in dem Block 63 sind, erzeugt Merkmalssignale, die die Anwesenheit von speziellen phonetischen Merkmalen (z.B. /I/, /s/, /Θ/, /S/) des gesprochenen Eingangssignals anzeigen. Der Block 64 wird typischerweise auch einen Zwischenblock enthalten, der "gemeinsame Gruppenmerkmale" (z.B. "Anfangsvokal","Endvokal", "Zischlaut","Schließlaut" usw.) ableitet, und solche gemeinsamen Gruppenmerkmale können die höchst spezifischen Merkmale sein, die zur weiteren Verarbeitung durch das System gemäß Fig. 1 abgeleitet werden. Eng definierte phonetische Merkmalssignale ermöglichen eine Erklärung der nachfolgenden Schaltung, so daß von den Merkmalssignalen 60a angenommen sei, daß sie diese Form für Teile der Beschreibung haben. Es sei jedoch darauf hingewiesen, daß die zu beschreibende Erfindung nicht auf irgendeine bestimmte Form von Merkmalssignalerzeugung beschränkt ist.

Fig. 4 verdeutlicht die Arbeitsweise der Verarbeitungs-

809842/0541

schaltung 70, indem die Art von Matrix gezeigt ist, die sich durch Speicherung des Status der binären Merkmale ergibt, die während des Kommandowortkandidaten aufgetreten sind. Bei der vorliegenden Ausführungsform werden einunddreißig binäre Merkmalssignale, nachfolgend mit f. bis f₃₁ bezeichnet, gewonnen, sie erscheinen auf einunddreißig Merkmalsausgangsleitungen 60a, und sie geben fortlaufend die Anwesenheit oder Abwesenheit spezifischer Merkmale an. Beim Beispiel gemäß Fig. 4 sei aus Gründen der Erläuterung angenommen, daß das Eingangswort eine Zeitdauer von 1,6 Sekunden hat. Das bedeutet, daß die sich ergebende Matrix Dimensionen von 31 χ 800 hat. Mit anderen Worten, sie gibt die Anwesenheit oder Abwesenheit jedes von 31 Merkmalen über 800 abgetastete "Zeitfenster" wieder, wobei jedes Zeitfenster 2 Millisekunden lang ist. Wie sich das aus den 1-Angaben der FIGUR (zur Verdeutlichung eingesetzt) ergibt, erscheinen unterschiedliche Merkmale für vari ierende Teile der Wortdauer, wobei ein bestimmtes Merkmal gewöhn lich für eine Zahl von Millisekunden "ein" ist. Die Abwesenheit einer 1 in einer Matrixposition bedeutet eine 0, d.h. die Abwesenheit des Merkmals. Die Zeitnormalisierungsfunktion, dargestellt durch die Schaltung 70, verringert jede Eingangswortmatrix auf eine 31 χ 16-Matrix, wobei die Zeitachse auf 16 normalisierte Zeitfenster herabgesetzt ist. Die Normalisierung kann in verschiedener Weise erfolgen, wobei eine Möglichkeit in der Auswahl der normalisierten Zeitperioden besteht, die eine Majorität von 1en enthalten. Das arithmetische Verfahren zur Durchführung dieser Technik ist einfach, es besteht im wesentlichen aus einer einfa chen Division und Zählung. Zur Illustration sei gemäß dem Beispiel in Fig. 4 angenommen, daß die 800 Zeitschlitze für jedes

809842/0541 -27-

Merkmal in Gruppen von 50 unterteilt sein würden, wie das durch die Klammern B₁ bis B₁,dargestellt ist. Jede Klammer enthält 50 Zeitschlitze, so daß bei diesem Ausführungsbeispiel ein bestimmter normalisierter Zeitschlitz für ein Merkmal eine 1 aufweist, wenn die Klammer wenigstens 26 1en enthält. In der Fig. 4 hat das Merkmal f₁ eine Majorität von 1en in der Zeit, die durch die Klammer B₁, umschlossen ist. der 16. und letzte normalisierte Zeitschlitz für f.. enthält daher eine 1. Eine gesamte normalisierte 31 χ 16-Matrix wird in dieser Weise gebildet, indem die Zählung von einsen unter jeder der 16 Klammern für jedes der 31 Merkmale geprüft wird. Bei dem angegebenen Beispiel ist die Gesamtzeit ein genaues Vielfaches von 16, wenn jedoch das nicht der Fall ist, so wird irgendein Rest unter den Klammern in einer besonderen Weise verteilt. Wenn z.B. ursprünglich 803 Schlitze (1606 Millisekunden) vorhanden waren, so würde jede der ersten drei Klammern 51 Zeitschlitze enthalten haben und nicht 50, wobei der Rest der Klammern 50 Zeitschlitze enthält. Fig. 5 zeigt eine typische normalisierte Matrix für einen Kommandowortkandidaten, wobei wieder die 1en dargestellt und die Oen durch die Abwesenheit einer 1 an einer Matrixposition dargestellt sind.

Eine genaue Beschreibung der Arbeitsweise einer passenden Verarbeitungsschaltung 70 in Form eines geeignet programmierten Mehrzweckrechners ist in der zuvor angegebenen GB-PS 1 435 779 enthalten. Es ist beschrieben, daß eine zeitnormalisierte Matrix für den Kommandowortkandidaten gebildet wird. Vor Beginn der Operation ist eine andere zeitnormalisierte Matrix dieser Art in den Rechner eingespeichert worden, dargestellt durch den Block 72.

809842/0541

Diese zuvor eingespeicherte Matrix hat Glieder, die den Status von Merkmalssignalen repräsentieren, von denen erwartet wird, daß sie charakteristisch während des Kommandowortes auftraten und die z.B. während einer "Lern"-Phase gebildet werden können, wie das in der genannten Schrift ausgeführt ist. Die beiden Matrizen werden dann verglichen, um das Maß der Übereinstimmung dazwischen zu bestimmen, wie das bereits früher und wiederum auch im einzelnen in der angegebenen Anmeldung beschrieben worden ist. Es sei jedoch darauf hingewiesen, daß die vorliegende Erfindung bei jeder beliebigen Verarbeitunqsschaltung 70 anwendbar ist, die in der Lage ist, die Merkmalssignale, die während des besonderen Zeitintervalls aufgetreten sind, mit einer gespeicherten Gruppe von erwarteten Merkmalen zu vergleichen, so daß die Erfindung nicht auf irgendeine bestimmte Verarbeitungsschaltung 70 beschränkt ist.

Vor einer Beschreibung der Einzelheiten der Arbeitsweise der sequentiellen Verarbeitungseinrichtung 200 werden einige Arbeitsprinzipien beschrieben, um das Verständnis zu erleichtern. Während jedes neuen Zeitschlitzes wird, wie bereits zuvor beschrieben, eine Untergruppe von Merkmalssignalen erzeugt, z.B. eine Untergruppe von einunddreißig binären Merkmalen, die die Sprachcharakteristiken derEingangssprache während des fraglichen bestimmten Zeitschlitzes identifizieren. (Eine Untergruppe würde z.B. die einunddreißig Merkmale darstellen, die in einer Spalte der Matrix gemäß Fig. 4 enthalten sind, wenn man sich auch hier daran erinnern sollte, daß die Matrix der Fig. 4 zu der Verarbeitungsschaltung 70 gehört, in der die Grenzen eines gesamten Wortkandidaten definiert sind, während bei dem gegenwärtigen Teil der Beschreibung der Verarbeitungseinrichtung 200 jede Merkmalsunter-

809842/0541 -29-

gruppe allein steht und individuell betrachtet wird.) Es wurde gefunden, daß die individuellen Merkmalsuntergruppen in vorteilhafter Weise sequentiell verarbeitet werden können, und zwar durch ihren Vergleich mit zuvor gespeicherten Merkmalsuntergruppen, von denen bekannt ist, daß sie in charakteristischer Weise in einem festzustellenden Kommandowort auftreten. Die Verarbeitung durch die Schaltung 200 gemäß Fig. 1 erfolgt in sequentieller Form, z.B. durch Vergleich augenblicklich aufgenommener Merkmalsuntergruppen mit zuvor gespeicherten Merkmalsuntergruppen (genannt "Masken") unter Berücksichtigung des Maßes, mit dem früher die Übereinstimmung festgestellt worden ist. Bei der vorliegenden Ausführungsform hat das Kommandowort (die vorliegende Erfindung bezieht sich auf die Erkennung eines einzigen Kommandowortes zum Zwecke der leichteren Verständlichmachung) M zugeordnete, zuvor gespeicherte Merkmalsuntergruppenmasken, wobei M die Zahl acht für diese Ausführungsform bedeutet. Diese zuvor gespeicherten Merkmalsuntergruppenmasken repräsentieren die Merkmalsuntergruppen, von denen erwartet wird, daß sie in charakteristischer Weise während verschiedener Stufen des Kommandowortes auftreten. Es sei einmal angenommen, daß die gespeicherten Merkmalsuntergruppenmasken für

das Kommandowort mit MASKE 1, MASKE 2 MASKE 8 bezeichnet sind.

Die MASKE 1 repräsentiert eine Merkmalsuntergruppe, von der erwartet wird, daß sie charakteristisch in der Nähe des Anfangs des Kommandowortes auftritt, während die MASKE 8 eine Merkmalsuntergruppe repräsentiert, von der erwartet wird, daß sie charakteristisch in der Nähe des Endes des Kommandowortes auftritt, während die MASKEN 2 bis 7 die Merkmalsuntergruppen repräsentieren, von

809842/0541

2763707

denen erwartet wird, daß sie aufeinanderfolgend während es mittleren Teils des Kommandowortes auftreten. Eine ankommende Sprache wird als Kommandowort "Kandidat" identifiziert, wenn eine Folge von Merkmalsuntergruppen ausreichend übereinstimmt (d.h. korreliert) mit den gespeicherten Merkmalsuntergruppenmasken. Der Vergleich erfolgt in sequentieller Form, d.h. daß die Suche nach einer Übereinstimmung mit MASKE 2 nicht beginnt, ehe nicht MASKE 1 ausreichend in Übereinstimmung gebracht worden ist, die Suche nach der MASKE 3 nicht beginnt, ehe die MASKE 2 ausreichend in Übereinstimmung gebracht worden ist, usw.. Wie das nachfolgend noch weiter beschrieben wird, werden Taktzwänge in die Ubereinstimmungskriterien eingeführt. Es wurde außerdem gefunden, daß es vorteilhaft ist, fortwährend die Anpassung der früheren Merkmalsmasken zu überwachen, selbst bei den letzteren Stufen einer Anpassungsoder Vergleichsfolge, derart, daß verschiedene Sequenzen bei verschiedenen Zuständen der Vervollständigung zu irgendeiner gegebenen Zeit vorhanden sein können. Es sei z.B. angenommen, daß die Erfordernisse für eine Anpassung der MASKE 1, IiASKE 2 und MASKE 3 ausreichend erfüllt sind und die sequentielle Verarbeitungseinrichtung 200 fortwährend eine überwachung hinsichtlich der Existenz einer Merkmalsuntergruppe durchführt, die der MASKE 4 genügt (innerhalb der noch zu beschreibenden Zeitzwänge). Merkmalsuntergruppen, die an diesem Punkt ankommen, mögen die Kriterien für die MASKE 1 erfüllen, und die bloße Tatsache, daß eine Sequenz bereits in der Verarbeitung ist (z.B. bis zur MASKE 4) schließt nicht die Möglichkeit aus, daß eine zweite oder selbst eine dritte Folge zur gleichen Zeit "aktiv" sein kann. Das ist besonders des-

809842/0541

halb der Fall, da, dies sei in Erinnerung gerufen, die Erfordernisse für die sequentielle Verarbeitungseinrichtung 200 absichtlich relativ "einfach" gemacht sind, da es nur erwünscht ist, daß dieses Untersystem-Kommandowort->"Kandidaten" identifiziert, wobei die eingeengteren Annahmekriterien durch den nachfolgenden Verarbeitungsblock 70 überlagert sind. Es sei darauf hingewiesen, daß viele der Folgen"herausfallen" (da sie nicht den Zeitzwängen genügen) , bevor sie die MASKE 8 durchlaufen, jedoch ist Vorsorge getroffen, eine Mehrzahl von Folgen gleichzeitig zu verfolgen, um ein Verpassen einer potentiell erfolgreichen Folge zu vermeiden.

Bei der vorliegenden Ausführungsform wird ein digitales Achtbitwort für die Merkmalsuntergruppe formuliert, die jedem verarbeiteten Zeitschlitz zugeordnet ist. Jedes der Achtbitworte wird bei einer Adresse gespeichert, die einen bestimmten Zeitschlitz repräsentiert, wobei die Adresse! aufeinanderfolgend von einem Adressengenerator erzeugt werden. Jedes Achtbitwort wird zu einer gespeicherten Aufzeichnung, mit denen, wenn überhaupt, die Merkmalsmasken mit den fraglichen bestimmten Merkmalsuntergruppen übereinstimmen. Stimmt z.B. eine bestimmte Merkmalsuntergruppe nicht mit einer der Merkmalsmasken überein, so ist das für diese bestimmte Merkmalsuntergruppe (bei einer Adresse, die dem Zeitschlitz der bestimmten Merkmalsuntergruppe zugeordnet ist) eine "00000000". Würde z.B. weiter eine Merkmalsuntergruppe nur mit der Merkmals-MASKE 2 übereinstimmen (d.h. ausreichend korrelieren), so würde ihr Achtbitwort "01000000" sein, oder wenn sie sowohl mit der MASKE 1 als auch der MASKE 7 übereinstimmt, so würde ihr Achtbitwort "10000010" sein. (Die Achtbitworte sind in typischer

809842/0541

Weise in dem Rechnerspeicher gespeichert - und von diesem Teil des Speichers kann angenommen werden, in Fig. 1, daß er ein Teil des Vergleichsmoduls 500 ist. Jeder Adresse oder jedem Zeitschlitz ist ein Achtbitwort zugeordnet, so daß jede Adresse mit zwei zugeordneten Punkten endet, das bedeutet, eine bestimmte 31-Bit-Merkmalsuntergruppe, die in dem Pufferspeicher 300 gespeichert ist, und ein Achtbitwort zeigen an, welche der bestimmten Merkmalsuntergruppenmasken erfolgreich mit der Merkmalsuntergruppe in Übereinstimmung gebracht werden konnten.)

Aufgrund der sequentiellen Form der Verarbeitung wird jede Merkmalsuntergruppenmaske nur auf Übereinstimmung mit der augenblicklichen Merkmalsuntergruppe geprüft, wenn die vorherige Merkmalsmaske zu einer Übereinstimmung geführt hat. (Wie bereits erwähnt und wie das noch nachfolgend näher erläutert werden wird, gilt das nicht für die erste Merkmalsmaske, die die Folge beginnt, da hierfür keine vorherige Merkmalsmaske vorhanden ist und alle ankommenden Merkmalsuntergruppen gegenüber der Merkmals-MASKE 1 geprüft werden.) Es werden Zeitzwänge eingeführt um sicherzustellen, daß eine beobachtete Folge von Merkmalsuntergruppen innerhalb von Zeitgrenzen auftritt, die den erwarteten Zeitabständen in normaler Sprache angenähert sind. Diese Kriterien sind wider absichtlich flexibel gemacht, da ein relativ rigoroser Erkennungsvorgang der Identifizierung eines Kommandowortkandidaten folgt. Bei der vorliegenden Ausführungsform ist jeder Merkmalsuntergruppenmaske N (ausgenommen MASKE 1) ein Taktgeber zugeordnet. Wird eine Übereinstimmung mit einer gespeicherten Merkmalsuntergruppenmaske N festgestellt, so wird der der nächsten Merkmals-

8098A2/0541

maske (N + 1) zugeordnete Taktgeber auf einen anfänglichen Wert TMAX eingestellt, der typischerweise 200 Millisekunden beträgt. Der Wert TMAX stellt die maximale Zeit dar, während der die nächste Merkmalsuntergruppenmaske mit einer nachfolgend ankommenden Merkmalsuntergruppe übereinstimmt, und ist das nicht der Fall, so wird die Folge weggelassen. Wurde eine bestimmte Merkmalsuntergruppenmaske erfolgreich in Übereinstimmung gebracht, so muß eine vorbestimmte minimale Zeitspanne verstreichen, bevor nach einer Anpassung an die nächst höhere Merkmalsuntergruppenmaske beginnen kann (da die gespeicherten Merkmalsuntergruppenmasken Sprachanteile repräsentieren, die einen Zeitabstand haben). Dies erfolgt durch Einführung eines weiteren Zeitzwanges, der bewirkt, daß eine vorbestimmte minimale Zeitspanne T von der Zeit verstreichen muß, auf die ein bestimmter Taktgeber TMAX eingestellt ist, bevor seine zugeordnete Merkmalsuntergruppenmaske in bezug auf ankommende Merkmalsuntergruppen überwacht wird. Der Einfachheit halber sei definiert

TMIN = TMAX - -t .

Der Taktgeber wird anfänglich auf TMAX eingestellt und wird stufenweise mit jedem Schlitz um eins zurückgestellt (d.h. jedesmal dann, wenn eine neue Merkmalsuntergruppe verarbeitet wird). Die angegebenen Taktzwänge erfordern also, daß, bevor eine bestimmte Merkmalsmaske (N + 1) überwacht wird, der zugeordnete Taktgeber kleiner als TMIN, jedoch größer als null sein muß.

Der Arbeitsablauf der sequentiellen Verarbeitungseinrichtung, die sich innerhalb des gestrichelten Rahmens 200 befindet, kann entweder durch eine passende feste Verdrahtungsschaltung,

809842/0541

einen Spezialrechner, eine Mikrologik oder einen digitalen Vielzweckrechner durchgeführt werden. Die Fig. 3 und 6 zeigen Flußdiagramme für eine Ausführungsform, bei der ein digitaler Vielzweckspeicher verwendet ist, es können jedoch in gleicher Weise auch die angegebenen Alternativtechniken zur Durchführung dieser Funktionen angewendet werden.

Wie bereits zuvor in bezug auf die innerhalb des gestrichelten Rahmens 70 gezeigte Verarbeitungseinrichtung beschrieben und im einzelnen in der GB-PS 1 435 779 beschrieben, wird eine "Ubungs"- oder Lernphase vor dem Betrieb der Einrichtung angewendet. Während dieser Phase spricht der Sprecher, dessen Kommandowort später erkannt werden soll (oder Kommandoworte im Fall eines Mehrwortvokabulars), das Kommandowort mehrmals auf, um die Einrichtung zu "trainieren", indem dies eine Mermalsmatrix speichert, die repräsentativ für Merkmale ist, die in charakteristischer Weise auftreten, wenn das Eingangswort gesprochen wird. Wie in der zuvor angegebenen Anmeldung beschrieben, ist das mehrmalige Ubungsaussprechen des gleichen Kommandowortes nützlich, um die Beständigkeit des Vorhandenseins individueller Sprachmerkmale in der Matrix zu bestimmen. Wird z.B. ein zehnmaliges Einübungssprechen angewendet, so kann das System so ausgelegt sein, daß es eine "1" (die das Vorhandensein eines Merkmals anzeigt) an einer Stelle in der letzlich gespeicherten Matrix nur dann speichert, wenn das Merkmal an dieser Stelle in der Matrix eine bestimmte minimale Anzahl von Malen aufgetreten ist, beispielsweise wenigstens fünfmal bei einer Gesamtzahl von zehn. Bei der vorliegenden Erfindung wird zusätzlich zum Speichern einer zeitnormalisierten Kommandowortmatrix unter Berücksichtigung der in dem gestrichelten Rahmen 70 gezeigten Funktionen (wie bei der zuvor genannten Anmeldung)

809842/0541

die Lernphase auch dazu verwendet, um Merkmalsuntergruppenmasken zu bilden, die in der sequentiellen Verarbeitungseinrichtung 200 angewendet werden. Die Bildung und Speicherung dieser Merkmalsuntergruppenmasken erfolgt in dem Block 400 der Fig. 1. Es wurde gefunden, daß es vorteilhaft ist, in den gespeicherten Merkmalsuntergruppenmasken nur solche Merkmale zu berücksichtigen, von denen gefunden wurde, daß sie während der Lernphase beständig auftreten. Mit anderen Worten,wurde für ein Merkmal gefunden, daß es im allgemeinen nicht während einer bestimmten Zeitspanne (noch zu beschreiben) des Kommandowortes auftritt, wie es in der Lernphase ausgesprochen worden ist, so wird dieses Merkmal nicht zu einem Teil der gespeicherten Merkmalsgruppenmaske, die der bestimmten Zeitspanne zugeordnet ist (bei der vorliegenden Ausführungsform soll ein Kommandowort acht Zeitspannen oder Perioden haben und acht entsprechende Merkmalsuntergruppenmasken), und es wird später überhaupt nicht berücksichtigt, wenn eine spätere Prüfung gegenüber der Merkmalsuntergruppenmaske erfolgt. Diese Technik läßt sich von der Technik der zuvor beschriebenen Technik gemäß Schaltung 70 unterscheiden, wo die Abwesenheit eines Merkmals während eines bestimmten Zeitschlitzes des Lernens zu einer Null in der diesem Merkmal zugeordneten Reihe in der fraglichen Zeitspalte führt (z.B. Fig. 4 oder Fig. 5). Im Falle der Merkmalsuntergruppenmasken würde das Merkmal insgesamt aus der Maske weggelassen werden (und nicht eine Null in einer bestimmten Position haben), so daß die gespeicherten Merkmalsmasken in typischer Weise wesentlich weniger als einunddreißig Merkmale haben, die in jeder Spalte der Matrizen der Fig. 4 oder Fig. 5 erscheinen. Ein weite-

809842/0541

rer Unterschied zwischen den Merkmalsgruppenmasken und z.B. den Matrizenspalten der Fig. 4 oder Fig. 5 besteht darin, daß die Merkmalsuntergruppenmasken unabhängig betrachtet werden, wie das noch klar werden wird.

Fig. 3 zeigt ein Flußdiagramm für die Schaltung 400 zur Bildung von Merkmalsuntergruppenmasken, die während der Lernphase gespeichert werden. Zunächst erfolgt eine Bestimmung, ob sich die Einrichtung in der Lernphase befindet, und zwar durch den Entscheidungsrhombus 410. Wenn nicht, so wird der Vorgang beendet. Ist die Lernphase in Betrieb, so wird eine zeitnormalisierte Matrix für das Lernwort der in Fig. 5 dargestellten Art durch die Schaltung 70 gebildet (s. auch den Block 72 und Leitung 7OA in Fig. 1). Die benachbarten Spaltenpaare jeder zeitnormalisierten Matrix für die Lernwortmatrix werden kombiniert, und so werden acht Spalten C1 bis C8 aus den ursprünglichen sechzehn Spalten gebildet, wie das durch den Block 4 20 angedeutet ist. Die Regel zur Kombination der beiden Spalten ist die, daß dann, wenn eine "1" in einer der beiden Spalten kombiniert wird, die sich ergebende Spalte Cj eine 1 bleibt - d.h. eine Anzeige der Anwesenheit eines Merkmals. Ein Index j wird gleich eins gemacht {Block 430). Die Elemente in der Spalte Cj (C1 für j = 1) werden geprüft um festzustellen, welches eine "1" enthält, und die mit MASKEj bezeichnete Lernmerkmalsuntergruppenmaske wird für die Spalte Cj der "komprimierten" zeitnormalisierten Lernwortmatrix gebildet. Befindet sich z.B. in der Spalte C1 eine "1" in der Reihe für die Merkmale f.., f₁₀/ f?2' ^25 ^un<^ ^31' ^{so na}*" *^^e Merkmalsuntergruppenmaske MASKE 1 fünf Glieder an diesen Merkmalspositionen. Somit dient während der nachfolgenden Operationsphase der Einrich-

809842/0541 -37-

tung die Merkmalsmaske MASKE 1 zur Feststellung, ob eine eingegebene Merkmalsuntergruppe, die demgegenüber geprüft worden ist, an diesen fünf Positionen eine "1"aufweist, und wenn das der Fall ist, so wird eine Übereinstimmung angezeigt. Der Index j wird als nächstes geprüft um festzustellen, ob er seinen Maximalwert von acht (Block 450) erreicht hat, und ist das nicht der Fall, so wird der Index erhöht (Block 460) , und der Vorgang wird für jede der acht Spalten so lange wiederholt, bis alle Merkmalsmasken gebildet und gespeichert sind. Natürlich können verschiedene Alternativverfahren zur Bildung der gespeicherten Merkmalsuntergruppenmasken verwendet werden. Z.B. kann man durch Studium des phonetischen Aufbaus des Kommandowortes solche Merkmale auswählen, von denen erwartet wird, daß sie z.B. bei einem Speicher während verschiedener Teile des Wortes ständig auftreten. Ein Vorteil eines lebensnahen Lernens besteht jedoch darin, daß solche Merkmale, die bei einem bestimmten Speicher fortwährend auftreten, diejenigen sind, die die resultierenden gespeicherten Merkmalsuntergruppenmasken enthalten.

In Fig. 6 ist ein Flußdiagramm dargestellt, das für den Betrieb eines Mehrzweckrechners geeignet ist, um die Funktionen des Vergleichsmoduls 500 durchzuführen. Während jedes Zeitschlitzes (2 Millisekunden bei der vorliegenden Ausführungsform) erscheint eine neue Merkmalsuntergruppe am Ausgang der Merkmalsauszugsschal tung (Block 60 der Fig. 1), und die Verarbeitung wird durch den Block 211 angezeigt. Eine neue Adresse, die den augenblicklichen Zeitschlitz angibt, wird von Adressengenerator 550 (Fig. 1) erzeugt. Ein Index N wird zunächst auf eins eingestellt, wie das

809842/0541

27537Π7

durch den Block 212 angegeben ist. N ist der Index für die gespeicherten Merkmalsuntergruppenmasken, die zuvor beschrieben worden sind (gespeichert in Block 400 der Fig. 1). Der Index N wird außerdem zur Kennzeichnung des Taktgebers verwendet, der jeder gespeicherten Merkmalsmaske MASKE 1 bis MASKE 8 zugeordnet ist. Der Index N wird daraufhin geprüft, ob er gleich 1 (Rhombus 213) ist, und ist das der Fall, so erfolgt eine Eingabe in Block 217. Wie das noch deutlicher werden wird, ist dies eine einfache Art um sicherzustellen, daß MASKE 1 immer gegenüber der ankommenden Merkmalsuntergruppe geprüft wird. (Im Unterschied zu anderen Merkmalsuntergruppenmasken, die nur dann eine Prüfung erfordern, wenn gewisse vorbestimmte Bedingungen erfüllt sind, wird MASKE gegenüber jeder ankommenden Merkmalsuntergruppe geprüft um festzustellen, ob es der Beginn eines Kommandowortkandidaten sein könnte.) Wenn N nicht gleich eins ist, so wird der dem Gatter N zugeordnete Taktgeber geprüft um zu sehen, ob er in Betrieb ist (Rhombus 214); z.B. um zu sehen, ob TM(N) größer als null ist. Ist das der Fall, so ist der Gatter N-Taktgeber daraufhin geprüft, ob er sich auf einem Wert befindet, der kleiner als der vorbestimmte Wert TMIN(N) ist, diese Funktion ist durch den Entscheidungsrhombus 215 dargestellt. Wie bereits erwähnt, wird dieses Erfordernis eingeführt um festzustellen, ob eine bestimmte minimale Zeit vergangen ist, seit die frühere Merkmalsmaske der Prüfanförderung genügte. Wird die Bedingung des Rhombus 215 erreicht, so wird die augenblicklich verarbeitete Merkmalsuntergnappe mit der Merkmalsuntergruppenmaske H verglichen, Block 217. Der Vergleich oder die Korrelation erfolgen durch Prüfung solcher

809842/0541

bestimmten Merkmale der augenblicklichen Merkmalsuntergruppe, die den Maskenmerkmalen entsprechen, die damit verglichen werden. In diesem Zusammenhang sei z.B. die oben beschriebene Art in Erinnerung gerufen, in der die gespeicherten Merkmalsmasken gebildet werden, und nimmt man an, daß eine bestimmte Merkmalsmaske aus den Merkmalen f₂, f_?, f_ig# f₂i ^und ^30 ^^estent» ^{so wi}^d die augenblickliche Merkmalsuntergruppe geprüft um festzustellen, ob sie an diesen Merkmalspositionen eine logische "1" hat. (Mit anderen Worten, der Vergleich bestimmt, ob diese Merkmale während des bestimmten Zeitschlitzes in der Eingangssprache vorhanden war. Das Ergebnis dieses Vergleichs ist mit φ(N) bezeichnet, das als Zahl zwischen null und eins betrachtet werden kann, die das MaB der Korrelation wiedergibt. Wies z.B. bei dem gerade angegebenen Beispiel die augenblickliche Merkmalsuntergruppe keine "1" an irgendeiner der fünf angegebenen Merkmalspositionen auf, so würde #(N) gleich null sein. Wies es eine "1" auf, so würde an allen fünf angegebenen Merkmalspositionen ^(N) eins sein, wies es eine "1" an drei der fünf angegebenen Merkmalspositionen auf, so würde #(N) 0,6 sein, usw., jeweils auf Prozentbasis. #(N) wird gegenüber einem vorbestimmten Schwellwert (Rhombus 218) geprüft, der typischerweise 0,75 oder irgendeinen anderen Wert haben kann. Wird der vorbestimmte Schwellwert überschritten, so wird Bit N gleich 1 gemacht (Block 220) . Ist das nicht der Fall oder wurden die Taktanforderungen, die von den Rhomben 214 oder 215 geprüft wurden, nicht erreicht, so wird N gleich null gemacht, und ein mit PREV N bezeichneter Operator wird ebenfalls gleich null gemacht, Block 219. Es sei in Erinnerung gerufen, daß Bit N ein Bit des Achtbit-

809842/0541

Wortes ist, das zuvor beschrieben worden ist. Es sollte klar sein, daß, wenn Bit N gleich 1 ist, diese bedeutet, daß während des bestimmten Zeitschlitzes, dem das Achtbitwort zugeordnet ist, eine Merkmalsuntergruppe angekommen ist, die sowohl die Bedingungen zur Prüfung gegenüber der Merkmalsuntergruppenmaske N (Rhombus 215) erfüllten als auch dann den vorbestimmten Schwellwert überstiegen, wenn sie mit der Merkmalsuntergruppenmaske N verglichen wurden, Rhombus 218. Der Operator PREV N dient also als einfacher Indikator dafür, ob Bit N während der vorher verarbeiteten Merkmal suntergruppe 1 war.

Nachdem Bit N auf 1 gebracht worden ist (Block 220),wird PREV N geprüft (Entscheidungsrhombus 221) um festzustellen, ob es gleich 1 ist; d.h. um festzustellen, ob Bit N 1 war, als die vorherige Merkmalsuntergruppe verarbeitet wurde. Ist das nicht der Fall, so wird PREV N nicht gleich 1 gemacht, Block 222. (Beachte, wenn PREV N bereits gleich 1 war, es auch 1 bleibt.) Ist es das erste Mal, daß Bit N gleich 1 gemacht wird, so wird der Taktgeber, der der nächst höheren Merkmalsuntergruppenmaske (N + 1) zugeordnet ist, auf seinen maximalen Wert TMAX (N + 1) gebracht, Block 223. (Bei der vorhergehenden allgemeinen Beschreibung wurde angenommen, daß die ausgewählte Taktminima und -maxima TMIN und TMAX für alle Takte gleich waren. Bei der Ausführungsform nach Fig. 6 sind diese Werte als Funktion von N ausgedrückt, was zeigt, daß gewünschtenfalls unterschiedliche Taktgrenzen für die verschiedenen Merkmalsuntergruppenmasken angewandt werden können.)

Der der Merkmalsuntergruppenmaske N zugeordnete Taktgeber TM (N) wird verringert, Block 224. Ist der Taktgeber für N bereits

809842/0541

null, bestimmt durch Bestimmungsrhombus 225, so wird der Taktgeber nicht herabgesetzt. Der Index N wird dann daraufhin geprüft, ob er acht ist (der Maximalwert für diese Ausführungsform), und diese Funktion ist durch den Rhombus 226 wiedergegeben. Ist N noch nicht acht, so wird er heraufgesetzt (Block 26 5) , der Rhombus 213 wird für den nächsten Durchgang wieder eingegeben (für die bestimmte, gerade verarbeitete Merkmalsuntergruppe). Ist N gleich acht, so wird der Taktgeber TM(9) daraufhin geprüft, ob er größer als null ist (d.h. ob Merkmalsuntergruppenmaske 8 mit einer früheren Merkmalsuntergruppe übereinstimmte). Ist das nicht der Fall, so wird der Block 211 wieder für die Verarbeitung der nächsten Untergruppe eingegeben. Der Teil der Fig. 6 unterhalb des Rhombus 227, der sich mit der Situation befaßt, in der der Merkmalsuntergruppenmaske 8 genügt wurde, wird nachfolgend näher beschrieben.

Es ist hilfreich, einige Aspekte der bis zu diesem Punkt beschriebenen Betriebsweise in Erinnerung zu rufen. Für jede verarbeitete ankommende Merkmalsuntergruppe wird der Index N von eins bis acht vergrößert, während das Achtbitwort für den Zeitschlitz der Merkmalsuntergruppe gebildet wird. Der Taktgeber, der jedem Wert von N zugeordnet ist, wird daraufhin geprüft (Rhomben 214 und 215) um festzustellen, ob die gerade verarbeitete Merkmalsuntergruppe mit der bestimmten Merkmalsuntergruppenmaske N verglichen werden sollte. Der Taktgeber ist grundsätzlich kennzeichnend für zwei Dinge, und zwar (1) ob früherei Bedingungen der sequentiellen Verarbeitung durch erfolgreiche Übereinstimmung mit früheren Merkmalsmasken genügt wurde und (2) ob Taktgrenzen ge-

809842/0541

nügt wurde (da die letzte Merkmalsuntergruppenmaske korreliert wurde). Liegen diese Bedingungen vor, so wird die gegenwärtige Untergruppe mit der Merkmalsuntergruppenmaske N (Block 217) korreliert,und übersteigt das Ergebnis einen vorbestimmten Schwellwert (Rhombus 218), so wird Bit N gleich eins (Block 220), und der der nächsten Merkmalsgruppenmaske zugeordnete Taktgeber wird vorgestellt (Block 223) . Übersteigt das Ergebnis der Korrelation nicht den vorbestimmten Schwellwert, so wird Bit N gleich null gemacht (Block 219), und der der nächsten Merkmalsuntergruppenmaske zugeordnete Taktgeber wird nicht eingestellt oder vorbereitet. In jedem Fall wird der N zugeordnete Taktgeber (Block 224) verringert, so daß nach jedem Durchlauf durch alle acht möglichen Werte von N alle aktiven Taktgeber um eins verringert sind. Aus dem Vorherigen läßt sich ersehen, daß der Taktgeber, der durch Übereinstimmung einer Merkmalsuntergruppenmaske TM(9) eingestellt worden ist, so lange nicht aktiv wird, bis alle acht Merkmalsuntergruppenmasken aufeinanderfolgend innerhalb der genannten Taktgrenzen in Übereinstimmung gebracht worden sind. Hat somit TM(9) einen Wert oberhalb null (Block 227 positiv), so bedeutet das, daß die MASKE 8 ebenfalls während eines kürzlichen Zeitschlitzes in Übereinstimmung gebracht worden ist.

Zur weiteren Beschreibung wird jetzt auf Fig. 6 Bezug genommen, dort insbesondere auf den Teil des Flußdiagramms, der sich mit der Situation befaßt, wo der Merkmalsuntergruppenmaske 8 genügt worden ist. d.h. wo die Anwesenheit eines Wortkandidaten angezeigt ist. Ist die Antwort auf die Frage des Entscheidungs-

8 rhombus 227 ein "Ja", so bedeutet das, daß MASKE/während einer zu-

809842/0541

vor verarbeiteten Merkmalsuntergruppe erfolgreich in Übereinstimmung gebracht worden ist, so daß die Anwesenheit eines Wortkandidaten angezeigt wird. Für den größten Teil befaßt sich der Rest des Flußdiagramms mit der Erkennung von möglichen ("vorläufigen") Startpunkten und Beendigungspunkten für den Wortkandidaten. Der Block 228 wird eingegeben, und der Taktgeber TM(9) wird verringert. Der Taktgeber TM(9) wird dann geprüft (Rhombus 229) um zu bestimmen, ob er null ist, und ist das nicht der Fall, so wird der Block 211 wieder eingegeben, und die nächste Merkmalsuntergruppe wird verarbeitet. Dies ermöglicht im Ergebnis die Fortsetzung des Vorganges für eine feste Zeit (nach Genügen der MASKE 8), bis der Taktgeber TM(9) abgelaufen ist. Die gespeicherten Achtbitworte, die eLre vollständige "Historie" darüber liefern, wann die verschiedenen Merkmalsuntergruppen erfolgreich in Übereinstimmung gebracht worden sind, werden nun verwendet. Nachdem der Taktgeber TM(9) null ist, werden die gespeicherten Achtbitworte in umgekehrter Reihenfolge bis zur letzten Adresse (Zeitschlitz) wieder durchgegeben, als Bit 8 gleich eins war, und dieser Ort wird ENDE genannt (Block 230) . Auf diese Weise wird die letzte chronologische Zeit, zu der die Merkmalsuntergruppenmaske 8 erfolgreich in Übereinstimmung gebracht wurde, als das erste provisorische Ende des Wortkandidaten identifiziert. Ein Index J wird auf den Wert 7 gebracht (Block 232) . Die Achtbitworte werden nun in umgekehrter Zeitreihenfolge geprüft, um den ersten möglichen Wortstart zu lokalisieren, d.h. den Ort, an dem Bit 1 zum ersten Mal auf eins gebracht wurde. Der einfache Vorgang des Wiederdurchlaufens der Achtbitworte bis zu dem Augenblick, wo

809842/0541

Bit 1 gleich eins ist, ist unpassend, da man sich erinnert, daß Bit 1 wieder einen Wert von eins zu irgendeiner Zeit während der Verarbeitung auf einer dynamischen Basis angenommen haben mag. Der Index J wird vielmehr zur Rückführung durch den Speicher und zur Auffindung verwendet, wenn Bit 7 gleich eins ist, und er wird dann zum Auffinden verwendet, ob Bit 6 gleich eins ist usw., bis zuletzt aufgefunden worden ist, wann Bit 1 gleich eins ist. Auf diese Weise ist sichergestellt, daß die vorläufige Startstelle der Start einer vollen Folge ist. Ist somit in Fig. 6 J auf 7 eingestellt worden, so werden die Achtbitworte in umgekehrter Zeitfolge geprüft, bis J eins ist (Block 233). Der Index J wird dann daraufhin geprüft, ob er eins ist (Block 234). Ist das nicht der Fall, so wird J verringert (Block 235) , und der Vorgang setzt sich fort, bis J gleich eins ist. An diesem Punkt läuft die Rückführung in den Speicher fort bis zu dem ersten Mittel, wo Bit 1 als null festgestellt worden ist (Block 236), und diese Stelle wird als START bezeichnet.

Es wird nun auf Fig. 7 Bezug genommen, die eine Folge von Achtbitworten illustriert, wie sie in Zeitfolge auftreten mögen, wenn ein Kommandowort Kandidat identifiziert worden ist. Nur Bit und Bit 8 sind für die meisten der Achtbitworte aus Gründen der Illustration gezeigt. Da bei jedem Zeitschlitz ein Achtbitwort gespeichert wurde, kann man die Zeitachse so betrachten, daß sie in Fig. 7 von links nach rechts läuft. Die Klammer 701 umschließt die erste Gruppe von vorläufigen Grenzen, die gefunden sein mögen durch den Ablauf, wie er zuvor in Verbindung mit Fig. 6 beschrieben worden ist. Die Stelle "ENDE" wird dadurch gefunden, daß die

809842/0541

Achtbitworte in den Speicher zurückgeführt werden, bis Bit 8 gleich 1 festgestellt worden ist (Block 230 in Fig. 6). In Fig. 7 ist diese Stelle als "erstes vorläufiges ENDE" bezeichnet. Darauf wird durch die Abläufe gemäß den Blöcken 232-236 die START-Stelle gefunden, die in Fig. 7 als "erster vorläufiger START" bezeichnet ist. Die Merkmalsintergruppen, die in der Zeit aufgetreten sind, die durch die Klammer 701 umschlossen ist, werden dann der Verarbeitung unterworfen, die funktionsmäßig durch die Schaltung 70 angegeben sind (Block 237). Ein Korrelationsergebnis, das das Ausgangssignal der gestrichelten Umrandung 70 darstellt, wird dann gespeichert, wie das durch den Optimierungswählblock 75 der Fig. 1 angegeben ist. Es wurde gefunden, daß das Ende eines Wortes durch die Übergänge von einer 1 zu einer 0 in dem letzten Bit charakterisiert ist, d.h. Bit 8 bei der vorliegenden Ausführungsform. Aufgrund der unexakten Natur von Sprachlauten und der flexiblen Verarbeitung mit Merkmalsmasken kann Bit 8 eine Mehrzahl von übergängen von einer 1 zu einer 0 in der Nähe des Endes des Kommando-Wortes aufweisen. Es ist vorteilhaft, diese verschiedenen vorläufigen Enden als mögliche Kommandowortgrenzen zu versuchen, um so die Wahrscheinlichkeit einer optimierten Korrelation durch die Verarbeitungsschaltung 70 zu verbessern. Ein Beispiel eines solchen Übergangs ist als "zweites vorläufiges ENDE" in Fig. 7 bezeichnet. Die Klammer 702 umschließt eine weitere Gruppe von vorläufigen Grenzen, die den Zeitintervall der Merkmalsuntergruppen definieren, die den Eingang zu der Verarbeitungsschaltung 70 für einen weiteren Vergleich oder eine weitere Korrelation mit der gespeicherten Kommandowortmatrix definieren. Mehrere solcher über-

809842/0541

gänge können auch am Beginn des Wortes auftreten, wie das in Fig. 7 mit "zweiter vorläufiger START" angegeben ist. Die Klammern 703 und 704 zeigen, daß der zweite vorläufige START als eine Grenze in Verbindung mit beiden vorläufigen ENDE-Grenzen verwendet werden kann, so daß beim Beispiel gemäß Fig. 7 vier vorläufige Grenzen beim Vergleich eines Kommandowortkandidaten gegenüber einer früher gespeicherten Kommandowortmatrix der Schaltung 70 verwendet sind. Es ist zu ersehen, daß die Gesamtzahl der vorläufigen Grenzgruppen gleich ist dem Produkt der vorläufigen START-Gruppen mal den vorläufigen ENDEN.

Es sei nun wieder auf Fig. 6 Bezug genommen. Nachdem das Korrelationsergebnis für die ursprüngliche Grenzgruppe gespeichert worden ist (Block 237) und eine Eingabe in Block 238 erfolgt ist und, beginnend mit dem vorher gebildeten ENDE, wird eine Auffüllung bewirkt, bis Bit 8 wieder O-Ziffer ist. Dies würde bei dem Beispiel gemäß Fig. 7 dem Zeitschlitz entsprechen, dessen Bit 8 durch einen Pfeil 711 gekennzeichnet ist. Dann erfolgt eine Eingabe in Block 239, und das Auffüllen wird so lange fortgesetzt, bis Bitachtziffer wieder Biteinsziffer ist, z.B. zu der Zeit, die in Fig. 7 durch einen Pfeil 712 angegeben ist. Dieser Ort wird nun mit einem "ENDE" bezeichnet, wie es durch den Block 241 dargestellt ist. Bevor jedoch der bestimmte Zeitschlitz als das nächste vorläufige "ENDE" bezeichnet ist, bestimmt der Bestimmungsrhombus 240, ob die Menge des Auffüllens einen vorbestimmten maximalen Auffüllwert überschritten hat. Dies erfolgt so, daß die Auffüllungen der Blöcke 238 und 239 nicht unbegrenzt sind, wie das der Fall sein mag, wenn der 1-Ziffer- auf O-ZifferÜbergang von Bit-8-Ziffer erfolgte.

809842/0541 "⁴⁷~

Nachdem ein neuer Ort "ENDE" gebildet worden ist, wird Block 237 wieder eingegeben, und die Verarbeitung durch die Schaltung 70 erfolgt für die Merkmale, die durch die gegenwärtigen Grenzen START bis ENDE definiert sind. Bei dem Beispiel gemäß Fig. 7 würde dies den Merkmalen entsprechen, die während der Zeitschlitze auftreten, bei denen die Achtbitworte innerhalb der Klammer 702 liegen. Die Schleife 245 bleibt in dieser Weise aufrechterhalten, wobei der ursprüngliche START gegenüber allen vorläufigen ENDEN ausprobiert wird, und jedesmal wird ein Korrelationsergebnis gespeichert (Block 75 der Fig. 1). Wird der vorgegebene maximale Auffüllwert überschritten, so erfolgt ein Eintritt in Block 250. Dieser Block vollführt die gleiche Verarbeitung wie durch die Schleife 245, jedoch in bezug zu der START-Grenze (O-Ziffer- auf 1-Zifferübergang werden dabei herausgesucht), d.h. jeder START wird in bezug zu allen ENDEN ausprobiert. Nachdem dies erfolgt ist, wird das höchste Korrelationsergebnis daraufhin geprüft, ob es einen vorbestimmten Standard überschreitet. Ist das der Fall, so wird ein Wortanzeigesignal herausgeschickt (Leitung 75A der Fig. 1), das in typischer Weise zur Steuerung eines Mitlaufsystems verwendet wird, übersteigt das höchste Korrelationsergebnis nicht den vorbestimmten Standard, so wird kein Wortanzeigesignal ausgegeben. In jedem Fall wird die Verarbeitung von ankommenden Merkmalsuntergruppen durch die Schaltung 200 fortgesetzt.

Die Erfindung wurde unter Bezugnahme auf eine bestimmte Ausführungsform beschrieben, jedoch läßt sich von einem Fachmann die Erfindung in der verschiedensten Weise unter Berücksichtigung des Grundgedankens abwandeln. Z.B. wurde die Erfindung aus Grün-

809842/0541

den des einfachen Verständnisses bei der Erkennung eines einzigen Kommandowortes aus einer fortlaufenden Sprache heraus beschrieben. Es ist jedoch zu erkennen, daß viele Kommandoworte erkannt werden können, indem passende Merkmalsuntergruppen und Matrizen für die verschiedenen Kommandoworte eines gewünschten Vokabulars gespeichert und die beschriebenen Operationen in jedem Fall durchgeführt werden. Darüber hinaus sei darauf hingewiesen, daß die bestimmte Anwendung der Einrichtung (z.B. die Natur des zu steuernden Mitlaufsystems) die notwendige Ansprechzeit für das Stimmkommando diktiert, und Merkmalsuntergruppendaten können zu einem passenden Maß gepuffert werden. Somit kann eine zusätzliche Verarbeitungszeit zur Verfügung gestellt werden, wenn die verwendete Schaltung oder der Rechner nicht schnell genug ist, um die Erfindung eines scheinbar augenblicklichen Erkennungssignals sicherzustellen. Darüber hinaus kann die Zahl der vorläufigen STARTS und ENDEN in verschiedener Weise begrenzt werden, z.B. durch Verwendung von Zählern, um die Zahl von vorläufigen Grenzen zu verfolgen, die für jeden Wortkandidaten versucht worden sind, wobei die Zähler nach einem vorgeschriebenen Pegel ein Abschalten bewirken. Eine weitere mögliche Variation des beschriebenen Systems verwendet ein "laufendes Mittel" von Merkmalen, die über eine Mehrzahl von Zeitschlitzen zum Vergleich gegenüber den gespeicherten Merkmalsuntergruppenmasken empfangen worden sind. Z.B. kann jede mit den gespeicherten Masken verglichene Merkmalsuntergruppe das Mittel von z.B. Merkmalen sein, die während der früheren r-Schlitze auftraten, so daß jede für Vergleichszwecke verwendete Merkmalsuntergruppe sowohl neue Daten als auch einige früher aufgetretene Daten enthält. Die Zahl r von zu mittelnden Zeitschlitzen kann von

809842/0541 ₄₉_

den Beobachtungen während der Lernphase abhängig gemacht werden. Bei einer dieser Abwandlungen kann eine Mittelung von ankommenden Merkmalen als Expedient zur Speicherung von Daten verwendet werden, die während der Durchführung der Verarbeitung auftraten. In einem solchen Fall würde das für Vergleichszwecke zu verwendende mittlere Intervall sich als Funktion von der Verarbeitungszeit
ändern. Bei einer weiteren Abwandlung der beschriebenen Ausführungsform können Merkmale, von denen gefunden wurde, daß sie nicht beständig auftreten, ebenfalls zur Bildung der Merkmalsuntergruppenmasken verwendet werden. Schließlich können auch bestimmte Merkmale, von denen beobachtet wurde, daß sie scheinbar nie während eines bestimmten Teils des Kommandowortes auftreten, auch
zum Wegfallenlassen einer Folge verwendet werden.

809842/0541

Claims

Patentansprüche :

1J Einrichtung zur Erkennung des Auftretens eines Kommandowortes aus einer Eingangssprache, die eine fortlaufende Form haben mag, gekennzeichnet durch Mittel zur Erzeugung aufeinanderfolgender Untergruppen von Merkmalssignalen, die von den Merkmalen abhängen, die in der Eingangssprache während aufeinanderfolgender individueller Zeitschlitze vorhanden sind, durch eine Verarbeitungseinrichtung zur sequentiellen Verarbeitung der erzeugten Untergruppen von Merkmalssignalen zum Zwecke der Bestimmung des Zeitintervalls des Auftretens eines Wortkandidaten, wobei die sequentielle Verarbeitungseinrichtung aufweist Mittel zum Vergleich der erzeugten Untergruppen von Merkmalssignalen mit vorherjgespeicherten Untergruppen von Merkmalen und zur Bestimmung eines Zeitintervalls, währenddessen die Vergleiche einen vorbestimmten Standard erreichen, und um eine aus den MerkmalsuntergruppenSignalen gebildete Matrix, die während des bestimmten Zeitintervalls aufgetreten sind, mit einer vorherjgespeicherten Matrix von Merkmalen zu vergleichen, von denen erwartet wird, daß

809842/0541

ORIGINAL INSPECTED

-2-

sie charakteristisch in dem Kommandowort auftreten,und um Vorkommenskennzeichen zu erzeugen, wenn der Vergleich einem anderen vorbestimmten Standard entspricht.
2. Einrichtung nach Anspruch 1 , dadurch gekennzeichnet, daß die Einrichtung zur sequentiellen Verarbeitung eine erzeugte Untergruppe von Merkmalen mit einer bestimmten vorherjgespeicherten Untergruppe von Merkmalen nur vergleicht, nachdem vorher erzeugte Untergruppen von Merkmalssignalen bereits vorbestimmte individuelle Vergleichsstandards erreicht haben, nachdem sie mit anderen vorher/gespeicherten Untergruppen von Merkmalen verglichen sind.
3. Einrichtung nach Anspruch 1 oder 2, dadurch gekenn zeichnet, daß die gespeicherten Untergruppen von Merkmalen aus Merkmalsuntergruppensignalen bestimmt werden, von denen festgestellt wurde, daß sie bei Ubungsäußerungen des Kommandowortes auftreten.
4. Einrichtung nach Anspruch 3, dadurch gekennzeichnet, daß die gespeicherten Untergruppen von Merkmalen in einer sequentiellen Prioritätsreihenfolge angeordnet sind in Abhängigkeit von der Reihenfolge, die bei Ubungswiedergaben des Kommandowortes festgestellt worden ist.
5. Einrichtung nach Anspruch 1, 2,3 oder 4, dadurch gekennzeichnet, daß die Einrichtung zur sequentiellen

809842/0541

Verarbeitung der erzeugten Untergruppen von MerkmalsSignalen Mittel zur Erzeugung einer Mehrzahl von vorläufigen Zeitintervallen aufweist und daß die Einrichtung zum Vergleich der Matrizen Mittel zur Durchführung eines Matrixvergleichs der vorher gespeicherten Matrix mit jeder einer Mehrzahl von Matrizen aufweist, die aus Merkmalsuntergruppensignalen gebildet worden sind, die während jeder der vorläufigen Zeitintervalle aufgetreten sind.
6. Einrichtung zur Erkennung des Auftretens eines Kommandowortes ae einer Eingangssprache, die eine fortlaufende Form haben mag, gekennzeichnet durch

Mittel zur Speicherung von Merkmalsuntergruppen, die Merkmale darstellen, von denen erwartet wird, daß sie charakteristisch während aufeinanderfolgender Perioden des Kommandowortes auftreten.

Mittel zur Speicherung von Matrixmerkmalen, von denen erwartet wird, daß sie charakteristisch während d·· oid des Kommandowortes auftreten,

Mittel zur Erzeugung aufeinanderfolgender Gruppen von Merkmalssignalen, die von den Merkmalen abhängen, die in der Eingangssprache während aufeinanderfolgender individueller Zeitschlitze vorhanden sind,

Mittel zur sequentiellen Verarbeitung von Mermalssignalen zur Bestimmung des Zeitintervalls des Auftretens eines Wortkandidaten, wobei die sequentielle Verarbeitungsein-

809842/0541

richtung aufweist Mittel zum Vergleich der erzeugten Untergruppen von Merkmalssignalen mit vorher gespeicherten Untergruppen von Merkmalen und zur Bestimmung eines Zeitintervalls, währenddessen die^^tandard^einem vorbestimmteRYyergleichejentsprechen, und

durch Mittel zum Vergleich einer Matrix, die aus den Merkmalsuntergruppensignalen gebildet worden ist, die während des vorbestimmten Zeitintervalls aufgetreten sind, mit der zuvor gespeicherten Matrix von Merkmalen und zur Erzeugung eines Vorkommenskennzeichens, wenn der Vergleich einem anderen vorbestimmten Standard entspricht.
7. Einrichtung nach Anspruch 6,dadurch gekennzeichnet, daß die sequentielle Verarbeitungseinrichtung eine erzeugte Untergruppe von Merkmalen mit einer bestimmten vorher gespeicherten Untergruppe von Merkmalen nur vergleicht, nachdem vorher erzeugte Untergruppen von Merkmalssignalen bereits vorbestimmte, individuelle Vergleichsstandards erreicht haben, wenn sie mit anderen, zuvor gespeicherten Untergruppen von Merkmalen verglichen worden sind.
8. Einrichtung nach Anspruch 6 oder 7, dadurch gekennzeichnet, daß die genannten gespeicherten Unter gruppen von Merkmalen aus den Merkmalsuntergruppensignalen bestimmt worden sind, von denen gefunden wurde, daß sie während Ubungsäußerungen des Kommandowortes auftreten.

809842/0541
9. Einrichtung nach Anspruch 6, 7 oder 8, dadurch gekennzeichnet, daß die Mittel zur sequentiellen Verarbeitung der erzeugten Untergruppen von Merkmalssignalen Mittel zur Erzeugung einer Vielzahl von vorläufigen Zeitintervallen aufweisen und daß die Mittel zum Vergleich der Matrizen Mittel zur Durchführung eines Matrixvergleichs der genannten zuvor gespei-

aufweisen, cherten Matrix mit jeder einer Vielzahl von Matrizen/ die aus den Merkmalsuntergruppensignalen gebildet worden sind, die während jeder der vorläufigen Zeitintervalle aufgetreten sind.
10. Einrichtung zur Erkennung des Auftretens eines Kommandowortes aus einer Eingangssprache, die fortlaufende Form haben mag, und zur Erzeugung eines Vorkommenssignals, das zur Steuerung eines Mitlaufsystems geeignet ist, gekennzeichnet durch

Mittel zur Erzeugung aufeinanderfolgender Untergruppen von Merkmalssignalen, die von den Merkmalen abhängen, die in der Eingangssprache während aufeinanderfolgender, individueller Zeitschlitze vorhanden sind,

Mittel zur sequentiellen Verarbeitung der erzeugten Untergruppen von Merkmalssignalen zum Zwecke der Bestimmung des Zeitintervalls des Auftretens eines Wortkandidaten, wobei die sequentielle Verarbeitungseinrichtung aufweist Mittel zum Vergleich der erzeugten Untergruppen von Merkmalssignalen mit zuvor gespeicherten Untergruppen von Merkmalen und zur Bestimmung eines Intervalls, währenddessen die Vergleiche einem vorbestimmten Standard entsprechen, und durch

8098A2/05A1 ~⁶~

Mittel zum Vergleich einer Matrix, die aus den Merkmalsuntergruppensignalen gebildet worden ist, die während des vorbestimmten Zeitintervalls aufgetreten sind, mit einer zuvor gespeicherten Matrix von Merkmalen, von denen erwartet wird, daß sie in charakteristischer Weise während des Kommandowortes auftreten ,und zur Erzeugung des Vorkommenssignals, wenn der Vergleich einem anderen vorbestimmten Standard entspricht.
11. Einrichtung nach Anspruch 10, dadurch gekennzeichnet, daß die Einrichtung zur sequentiellen Verarbeitung eine erzeugte Untergruppe von Merkmalen mit einer bestimmten, zuvor gespeicherten Untergruppe von Merkmalen nur vergleicht, nachdem zuvor erzeugte Untergruppen von Merkmalssignalen bereits vorbestimmte individuelle Vergleichsstandards erreicht haben, wenn sie mit anderen zuvor gespeicherten Untergruppen von Merkmalen verglichen wurden.
12. Einrichtung nach Anspruch 10 oder 11, dadurch gekennzeichnet, daß die gespeicherten Untergruppen von Merkmalen aus Merkmalsuntergruppensignalen bestimmt sind, von denen gefunden wurde, daß sie während Übungswiedergaben des Kommandowortes auftreten.
13. Einrichtung nach Anspruch 12, dadurch gekennzeichnet, daß die gespeicherten Untergruppen von Merkmalen in einer sequentiellen Prioritätsfolge angeordnet sind, und zwar

809842/0541

in Abhängigkeit von der Reihenfolge, die für ihr Auftreten während Ubungswiedergaben des Kommandowortes gefunden wurde.
14. Einrichtung nach Anspruch 10, 11, 12 oder 13, dadurch gekenn ze ichnet, daß die Mittel zur sequentiellen Verarbeitung der erzeugten Untergruppen von Merkmalssignalen aufweisen Mittel zur Erzeugung einer Mehrzahl von vorläufigen Zeitintervallen und daß die Mittel zum Vergleich der Matrizen aufweisen Mittel zur Durchführung eines Matrixvergleichs zwischen der zuvor gespeicherten Matrix und jeder der Mehrzahl von Matrizen, die aus den Merkmalsuntergruppensignalen gebildet worden sind, die während jedes der vorläufigen Zeitintervalle aufgetreten sind.

809842/0541