DE2753707A1 - Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache - Google Patents
Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangsspracheInfo
- Publication number
- DE2753707A1 DE2753707A1 DE19772753707 DE2753707A DE2753707A1 DE 2753707 A1 DE2753707 A1 DE 2753707A1 DE 19772753707 DE19772753707 DE 19772753707 DE 2753707 A DE2753707 A DE 2753707A DE 2753707 A1 DE2753707 A1 DE 2753707A1
- Authority
- DE
- Germany
- Prior art keywords
- feature
- features
- signals
- subsets
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 238000012545 processing Methods 0.000 claims abstract description 62
- 239000011159 matrix material Substances 0.000 claims abstract description 59
- 238000000034 method Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 19
- 239000010432 diamond Substances 0.000 description 14
- 101100269850 Caenorhabditis elegans mask-1 gene Proteins 0.000 description 12
- 229910003460 diamond Inorganic materials 0.000 description 12
- 238000000605 extraction Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 6
- 230000007704 transition Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000036962 time dependent Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012882 sequential analysis Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Complex Calculations (AREA)
- Machine Translation (AREA)
- Time-Division Multiplex Systems (AREA)
Description
Die Erfindung betrifft eine Einrichtung zur Erkennung des Auftretens eines Kommandowortes aus einer Eingangssprache, die
eine fortlaufende Form haben mag.
Sie bezieht sich allgemein auf das Erkennen des Auftretens eines besonderen Wortes oder besonderer Worte in einer fortlaufenden
Sprache.
Es gibt bereits frühere Entwicklungen verschiedener Ausrüstungen, die dem Versuch dienen, begrenzte Wortfolgen gesprochener
Worte durch Analyse akustischer Vorkommnisse zu erkennen. Diese Einrichtungen werden für "Sprachsteuerungszwecke" als nützlich
angesehen, bei denen, nach Erkennung bestimmter Worte, die Einrichtung elektrische Signale erzeugt, die die Arbeitsweise
eines Mitlaufsystems steuert. Zum Beispiel kann eine Sprachsteuerung
dazu verwendet werden, ein Transportband so zu steuern, daß es sich in einer besonderen Weise bewegt, oder sie kann einen
Rechner steuern, um besondere Rechnungen durchzuführen.
809842/0541
-9-
Frühere Versuche zur Entwicklung automatischer Methoden zur Spracherkennung hatten nur begrenzten Erfolg und führten zu
der Erkenntnis, daß die Sprachübermittlung in hohem Maße komplexer Natur ist. Normale Sprache hat einen hohen Informationsanteil, wobei
beträchtliche Änderungen von Sprecher zu Sprecher vorkommen und sogar einige Änderungen in dem gleichen Wort, wenn es von der
gleichen Person gesprochen wird. Daher ist ein "perfektes" Erkennungsschema nicht erreichbar, da die Natur des zu erkennenden
Sprachsignals nicht genau definiert werden kann. Aus diesem Grunde stellten bevorzugte frühere Vorschläge empirische Versuche dar,
die wenigstens in einem vernünftigen Maße auf dem Vertrauen beruhte, jedenfalls vom statistischen Standpunkt aus, daß ein gesprochenes
Wort einem ausgewählten eines begrenzten Maschinenvokabulars entsprach. Die Wünschbarkeit solcher Schemata sind somit
nicht durch theoretische Untersuchungen bestimmbar, vielmehr durch ein deutliches Maß von Erkennungsgenauigkeit über ausgewählte
Betriebszeiten.
Aus verschiedenen Gründen erwiesen sich die früher bekannten Systeme für praktische Anwendungen als unbrauchbar. Einer der
wesentlichen Gründe bestand in der außerordentlichen Komplexibilität
der Geräte, die versuchten, eine rigorose Gesamtanalyse der empfangenen Sprachsignale durchzuführen. Zusätzlich zu den hohen
Un zu
Kosten und der einhergehenden /verlässigkeit zeigen solche Systeme eine Tendenz zur Bildung hochkomplizierter und restriktiver Erkennungsmerkmale, die normale Änderungen der Vokabularworte des Systems zurückweisen können. Darüber hinaus leiden einige Geräte daran, daß sie Erkennungskriterien bilden, die zu leicht zu er-
Kosten und der einhergehenden /verlässigkeit zeigen solche Systeme eine Tendenz zur Bildung hochkomplizierter und restriktiver Erkennungsmerkmale, die normale Änderungen der Vokabularworte des Systems zurückweisen können. Darüber hinaus leiden einige Geräte daran, daß sie Erkennungskriterien bilden, die zu leicht zu er-
809842/0541
füllen sind und zu der unrichtigen Annahme von ungewöhnlichen Worten
führen, die nicht in dem vorausgewählten Vokabular der Einrichtung enthalten sind.
In der GB-PS 1 435 779 ist eine Einrichtung beschrieben, die gesprochene Eingangs-"Ubungs"-Worte und ein nachfolgendes gesprochenes
Eingangs-"Kommando"-Wort aufnimmt und eine: Korrelationsfunktion erzeugt, die für die Übereinstimmung des Kommandosignals
mit dem Übungswort kennzeichnend ist. Eine Merkmalsgewinnungseinrichtung verarbeitet empfangene Eingangsworte und erzeugt digitale
Merkmalsausgangssignale an bestimmten Leitungen einer Zahl von Merkmalsausgangsleitungen, wobei diese bestimmten Leitungen von
den charakteristischen Merkmalen des gesprochenen Wortes abhängen. Der Status des Merkmalssignals, das während jedes Ubungswortes
auftritt, wird gespeichert als eine normalisierte zeitabhängige Matrix. Nachfolgend wird der Status der Merkmalssignale, die während
eines Kommandowortes auftreten, ebenfalls als normalisierte zeitabhängige Matrix gespeichert. Die Matrix des Kommandowortes
wird dann Glied für Glied mit jeder Ubungswortmatrix verglichen, und es wird eine Korrelationszahl für jeden Vergleich gebildet.
Wurde eine ausreichend hohe Korrelation zwischen der Kommandowortmatrix und einer bestimmten Übungswortmatrix festgestellt, so
wird angenommen, daß das Kommandowort dem bestimmten Übungswort entspricht. Diese Art von System arbeitet in hohem Maße zufriedenstellend
in Fällen, wo Kommandoworte in "Isolation" gesprochen werden, d.h. wenn merkliche Pausen zwischen den Worten vorhanden
sind, wobei die Pausen die Wortgrenzen definieren. Allgemein ist eine Schaltung vorgesehen, die den Beginn von Sprache nach einer
Pause feststellt und dann die nächste wesentliche Abwesenheit
809842/0541 -n-
von Sprache abtastet. Diese Ergebnisse werden als Grenze eines Wortes betrachtet, und die Merkmalsereignisse, die zwischen diesen
Grenzen auftreten, dienen zur Bildung der oben erwähnten Matrix. Natürlich hat jedes System, bei dem unterscheidbare Pausen
erforderlich sind, um Wortgrenzen zu bestimmen, notwendigerweise in hohem Maße begrenzte Fähigkeiten zur Erkennung von Worten aus
einer fortlaufenden natürlichen Sprache, da sehr oft nur kleine oder überhaupt keine Pausen in der natürlichen Sprache auftreten.
In der US-PS 3 883 850 ist ein System beschrieben, das in der Vergangenheit mit gewissem Erfolg zur Erkennung des Auftretens
von Worten in einer fortlaufenden oder gebundenen Sprache angewendet worden ist. Die angewendete Technik ist eine sequentielle
Analyse fonetischer Vorkommnisse. Für jedes zu erkennende Wort wird eine sequentielle logische"Kette"gebildet. Jede Kette
enthält eine Zahl von logischen Stufen, wobei eine Stufe für jedes fonetische Vorkommnis des zu erkennenden Wortes vorgesehen ist.
Die logischen Stufen werden in einer Reihe angeordnet und selektiv in solcher Weise betätigt, daß sie nacheinander aktiviert
werden, wenn eine bestimmte Form von fonetischen Vorkommnissen oder Merkmalen auftritt. Als vereinfachtes Beispiel kann das englische
Wort "red" ausgedrückt werden durch die Folge"/r/->/£/-*/d/".
Folgli/ch würde eine zur Erkennung des Wortes red verwendete logische
Kette drei logische in Reihe gekoppelte Stufen aufweisen, wobei die erste Stufe durch Abtastung eines /r/-Lautes betätigt
wird, die zweite durch Abtastung eines /£/-Lautes und die dritte Stufe durch die Abtastung eines /d/-Lautes. Natürlich würden die
zweiten und dritten Stufen jeweils auch fordern, daß die vorher-
809842/0541
-1k-
gehende Stufe als Vorbedingung betätigt worden ist. Ist die letzte
Stufe betätigt, so zeigt das System an, daß das Wort red gesprochen worden ist, da von den Lauten /r/, /£/ und /d/ bekannt ist,
daß sie in der aufgelisteten Reihenfolge aufgetreten sind. Wie in der oben angegebenen Anmeldung erläutert, erfordert das System in
typischer Weise, daß die Laute innerhalb gewisser Zeitzwänge auftreten, und es erfordert eine "Rückstellung" einer logischen Kette
(d.h. Umschalten von Abtastung zum Nachsuchen nach dem Vokabelwort) nach Auftreten gewisser akustischer Merkmale, die eine hohe
Wahrscheinlichkeit anzeigen würden, daß das gesuchte Vokabularwort gesprochen worden ist.
Das beschriebene sequentielle logische System hat eine Fähigkeit, Vokabularworte in einer fortlaufenden Sprache zu erkennen,
selbst dann, wenn keine merkliche Pause vor oder nach dem Wort gesprochen worden ist. Der Grund hierfür liegt darin, daß das System
so ausgelegt ist, daß es das Auftreten einer speziellen Folge von Lauten feststellt und keine Wortgrenzen aufzutreten brauchen,
um ein Wort zu trennen oder zu isolieren, so daß eine Analyse erfolgen kann. Abgesehen von diesem Vorteil wurde gefunden, daß die
beschriebene Art eines sequentiellen logischen Systems einige Erkennungsmängel aufweist, die verbessert werden könnten. Wie bereits
oben in allgemeiner Form ausgeführt, bilden Spracherkennungssysteme
über alles gesehen beschränkte Erkennungskriterien, und das ist sehr oft der Fall bei einer sequentiellen logischen Form
des Systems. Erfordert das sequentielle logische System eine gewisse beschränkte Folge von Lauten zur Erkennung, so verhindert
die Abwesenheit selbst eines einzigen Lautes aus der zuvor genann-
809842/05A1
ten Folge eine Erkennungsanzeige. In vielen Fällen mag eine solche
Beschränkung zur Nichterkennung eines angenommenen Wortes führen, da sich aus dem Kontext ergebende Effekte leicht selbst
den gleichen Sprecher zur außergewöhnlichen Einfügung oder Weglassung eines Lautes (oder genauer eines fonetischen Merkmals)
veranlassen, wenn er das gleiche Wort bei verschiedenen Gelegenheiten ausspricht. Diese Fehlerart verringert die Erkennungsrate
des Systems. Die Erkennungsrate kann natürlich erhöht werden, indem die Erkennungskriterien zurückgeschraubt und verschiedene
Alternativformen in die Lage versetzt werden, Erkennungsanzeigen zu veranlassen. Für ein solches Zurückschrauben oder Verringern
wurde jedoch gefunden, daß damit das Auftreten von "Falschalarmen" erhöht wird, d.h. eine falsche Veranlassung von Erkennungsanzeigen
durch Worte (oder fonetische Folgen in benachbarten Worten), die einem angenommenen Wort ähnlich sind.
In der US-PS 3 943 295 ist eine Spracherkennungseinrichtung beschrieben, die in der Lage ist, Worte in einer fortlaufenden
Sprache zu erkennen und die eine relativ hohe Erkennungsrate und eine relativ niedrige Falschalarmrate hat. Bei dieser Erfindung
sind Mittel zur Erzeugung von Merkmalssignalen vorgesehen, die von den Merkmalen eines gesprochenen Eingangswortes abhängen.
Die Merkmalssignale werden verarbeitet, um den Zeitintervall des Auftretens einer vorbestimmten Form von Merkmalen zu bestimmen.
Es sind weitere Mittel zum Vergleich der Merkmalssignale, die während der bestimmten Zeitintervalle auftreten,mit einer gespeicherten
Gruppe von Merkmalen vorgesehen, von denen angenommen wird, daß sie charakteristisch während des Kommandowortes auftre-
809842/0541
ten, um so das Maß der Korrelation zwischen den beiden zu bestimmen.
Mit anderen Worten, eine sequentielle Form einer Analyse wird zunächst durchgeführt, um die Grenzen eines Kommandowortes
in einer fortlaufenden Sprache zu bestimmen,und, nachdem eine
solche Bestimmung erfolgt ist, die Sprachmerkmale, die zwischen den Grenzen auftreten, werden zu einer gespeicherten Gruppe von
Merkmalen in Beziehung gebracht. Die vorliegende Erfindung ist im allgemeinen von der Form, wie sie in der US-PS 3 943 295 beschrieben
ist, stellt jedoch eine Verbesserung davon dar. Bei einer beschriebenen Ausführungsform in der genannten Patentschrift erfolgt
die sequentielle Verarbeitung der Merkmalssignale unter Verwendung einer sequentiellen logischen Kette aus einer Mehrzahl
von sequentiellen logischen Einheiten, die nacheinander abgefragt werden, wenn Signale an logischen Eingangsklemmen der sequentiellen
logischen Einheiten auftreten. Die vorliegende Erfindung bezieht sich u.a. auf eine verbesserte Form der sequentiellen Verarbeitungstechnik
des beschriebenen Systems.
Der Erfindung liegt die Aufgabe zugrunde, eine Spracherkennungseinrichtung
zu schaffen, die in der Lage ist, Worte in einer fortlaufenden Sprache zu erkennen und dabei eine relativ
hohe Erkennungsrate und eine relativ niedrige Falschalarmrate entwickelt.
Die Lösung der der Erfindung zugrundeliegenden Aufgabe ergibt sich aus dem Kennzeichen des Anspruchs 1. Bei dieser Lösung
sind Mittel vorgesehen, die aufeinanderfolgende Untergruppen von Merkmalssignalen erzeugen, die von der Anwesenheit während aufeinanderfolgender
individueller Zeitschlitze oder Zeitfenster von Merkmalen in der Eingangssprache abhängen. Es sind Mittel zur
809842/0541
sequentiellen Verarbeitung der erzeugten Merkmalssignale vorgesehen,
um den Zeitintervall des Auftretens eines Kommandowortkandidaten zu bestimmen. Das ist allgemein gesehen die Technik,
die bei der zuvor genannten US-PS 3 943 295 angewendet ist. Bei der vorliegenden Erfindung wird jedoch eine neuartige Form der
sequentiellen Verarbeitungseinrichtung angewendet. Die sequentielle Verarbeitungseinrichtung enthält Mittel zum Vergleich der
erzeugten Untergruppen von Merkmalssignalen mit einer vorbestimmten Gruppe von früher gespeicherten Untergruppen von Merkmalen,
um zu bestimmen, wann ein vorbestimmter Vergleichsstandard während eines bestimmten Zeitintervalls erreicht wird. Dieser Zeitintervall
ist bestimmend für die Grenzen des Kommandowortkandidaten.
Darüber hinaus sind Mittel vorgesehen, die einen weiteren Vergleich zwischen einer Matrix, die aus den während der bestimmten Zeitintervalle
aufgetretenen Merkmalsuntergruppensignalen gebildet ist, mit einer zuvor gespeicherten Matrix von Merkmalen bewirken,
von denen erwartet wird, daß sie charakteristisch während des Kommandowortes auftreten. Eine Vorkommensanzeige wird erzeugt,
wenn dieser weitere Vergleich einem anderen vorbestimmten Standard entspricht. Die Vorkommensanzeige wird in typischer Weise
dazu verwendet, um ein Mitlaufsystem zu steuern.
Ein Vorteil der vorliegenden Erfindung besteht in der Flexibilität der sequentiellen Verarbeitung im Vergleich zu einem
System, das eine Kette von sequentiellen logischen Einheiten verwendet, die meistens durch Verdrahtung (hard-wired) bestimmt sind.
Die Erkennungsrate von Kommandowortkandidaten ist somit verbessert. Darüber hinaus können gespeicherte Merkmalsuntergruppen
809842/0541
durch einen "übungs"-Vorgang gewonnen und in einen löschbaren
Speicher eingespeichert werden.
Bei einer bevorzugten Ausführungsform der Erfindung vergleicht
die sequentielle Verarbeitungseinrichtung eine erzeugte Untergruppe von Merkmalen mit einer speziellen,früher gespeicherten
Untergruppe von Merkmalen nur dann, nachdem zuvor erzeugte Untergruppen von Merkmalssignalen bereits vorbestimmte individuelle
Vergleichsstandards erreicht haben, nachdem sie mit anderen zuvor gespeicherten Untergruppen von Merkmalen vergleichen sind.
Die gespeicherten Untergruppen von Merkmalen werden in typischer Weise von Merkmalssignalen bestimmt, von denen gefunden wurde, daß
sie während "übungs"-Aussprachen des Kommandowortes auftreten. Die
gespeicherten Untergruppen von Merkmalen sind in einer sequentiellen Prioritätsfolge angeordnet, die von der Reihenfolge abhängt,
in der ihr Auftreten während der Übungsaussprachen des Kommandowortes festgestellt worden ist. Bei einer bevorzugten
Ausführungsform der Erfindung weist die Einrichtung zur sequentiellen
Verarbeitung der erzeugten Untergruppen von Merkmalssignalen Mittel zur Erzeugung einer Mehrzahl von vorläufigen Zeitintervallen
auf, d.h. "vorläufigen Grenzen". Die Mittel zum Vergleichen der Matrizen werden dann angepaßt, um den Matrixvergleich
für jeden der vorläufigen Grenzen durchzuführen.
Weitere Einzelheiten und Vorteile der Erfindung ergeben sich aus der nachfolgenden Beschreibung von Ausführungsbeispielen
anhand der Zeichnungen.
Fig. 1 ist ein Blockschaltbild einer Einrichtung gemäß einem Ausführungsbeispiel der Erfindung,
809Ö42/U541 ~17~
Fig. 2a und 2b sind Blockschaltbilder von Schaltungen gemäß dem Stand der Technik, die als Merkmalsgewinnungsteil
der Erfindung verwendbar sind,
Schaltung 400 zur Bildung der Merkmalsuntergruppenmasken
geeignet ist, die während der übungs- oder Lernphasen gespeichert sind,
Fig. 4 verdeutlicht die Art der Matrix, die sich aus den Speichern des Status von binären Merkmalen durch
die Verarbeitungsschaltung der Fig. 1 ergibt,
Fig. 5 verdeutlicht eine zeitnormalisierte Matrix, Fig. 6, die aus den untereinander angeordneten Fig. 6A,
6B und 6C besteht, ist ein Flußdiagramm, das einen Vielzweckrechner zur Durchführung der Funktionen
des Vergleichsmoduls 500 der Fig. 1 verdeutlicht,
Fig. 7 zeigt eine Folge von Acht-Bit-Worten der Art, wie sie gemäß der Erfindung erzeugt werden, und dient
daher zum Verständnis der Erfindung.
Fig. 1 zeigt ein vereinfachtes Funktionsblockschaltbild einer Einrichtung gemäß der Erfindung. Gesprochene Eingangsworte
werden durch eine Merkmalsauszugseinrichtung 10 aufgenommen, die eine Vorverarbeitungsschaltung 50 und eine Merkmalsauszugsschaltung
60 enthält. (Wie bereits zuvor erwähnt, bezeichnen die Ausdrücke "gesprochene Eingangsworte", "gesprochene Worte", "Sprache*
oder dergleichen im allgemeinen alle akustischen oder elektrischen Darstellungen von Kommunikationslauten.) Die Schaltung 50
erhält Kommunikationsworte direkt von einer Person oder Worte
809842/0641
repräsentierende elektrische Signale von oder über eine Telefonleitung
oder einem Bandaufzeichnungsgerät. Die Vorverarbeitungsschaltung
50 verwendet eine Reihe von Bandpaßfiltern zur Übersetzung
der Sprache in eine Mehrzahl von Spektralkomponentensignalen auf den Leitungen 50a. Die Signale auf den Leitungen 50a werden
von einer Merkmalsauszugs- oder Gewinnungsschaltung 60 aufgenommen, die Merkmalsausgangssignale auf bestimmte einer Reihe von
Merkmalsausgangsleitungen 60a erzeugt, von denen einzelne von den Merkmalen abhängen, die in der aufgenommenen Sprache enthalten
sind. Die Signale auf den Merkmalsausgangsleitungen können z.B. die Anwesenheit von gewöhnlich verwendeten Vokal- oder Konsonantenlauten
repräsentieren. Wie das noch weiter beschrieben wird, können die Schaltungen 50 und 60 von der Art sein, wie sie durch
den Stand der Technik bekannt ist. Die Merkmalsausgangsleitungen 60a sind mit Einrichtungen 200 zur sequentiellen Verarbeitung
(gezeigt in der gestrichelten Umrahmung) gekoppelt und dienen außerdem zur Pufferung des Speichers 300, dessen Ausgang mit der
Verarbeitungsschaltung gekoppelt ist, deren Funktionen im allgemeinen innerhalb der gestrichelten Umrahmung 70 gezeigt sind. Zur
Klarheit des Verständnisses ist die Einrichtung 200 zur sequentiellen Verarbeitung so dargestellt, daß sie einen Block 400 zur
Speicherung von Merkmalsuntergruppenmasken, einen Vergleichsmodul 500 und einen Adressengenerator 550 aufweist. Wie das noch nachfolgend
näher beschrieben wird, werden die Funktionen der Einrichtung 200 zur sequentiellen Verarbeitung zusammen mit dem Pufferspeicher
300, der Schaltung 70 und dem Block 75 vorzugsweise durch einen digitalen Vielzweckrechner dargestellt, beispielsweise den
809842/0541
Rechner Nova 1200 der Firma Data General Corporation. Die durch
diese Blöcke dargestellten Funktionen "können jedoch auch beispielsweise
durch Verwendung eines speziellen Rechners, Mikroprozessers oder durch eine fest verdrahtete Schaltung usw. dargestellt
werden.
Zum besseren Verständnis der Arbeitsweise der Einrichtung
200 zur sequentiellen Verarbeitung ist es hilfreich, von dem Block 400 anzunehmen, daß er eine Vielzahl von Merkmalsuntergruppenmasken
speichert, die dazu dienen, einen "Standard" darzustellen,
mit dem ankommende Untergruppen von Merkmalen (auf den Leitungen 60a) fortwährend und aufeinanderfolgend durch den Modul
500 verglichen werden. Während der "Lern"-Phase werden die Merkmal suntergruppenmasken in einer noch zu beschreibenden Weise gebildet.
Während der Verarbeitungsphase werden die Merkmalssignale
auf den Leitungen 60a mit dem Pufferspeicher 300 gekoppelt, der außerdem Adressen von einem Adressengenerator 150 erhält. Die
Adressen können ganz einfach durch Zählen des Grundtaktes des Systems gebildet werden, und die Adressen dienen dazu, den Zeitpunkt
des Auftretens jedes ankommenden Untergruppenmerkmals (auf den Leitungen 60a) zu verfolgen, die während eines bestimmten
Zeitschlitzes oder Zeitfensters auftreten. Jede ankommende Merkmal
sun te r gruppe ist ein Ausgangssignal auf den Leitungen 60a (das während jedes Zeitfensters oder AbtastintervalIs einmal auftritt,
z.B. einmal alle 2 Millisekunden, wie im vorliegenden Ausführungsbeispiel )f und sie wird in dem Pufferspeicher 300 bei
einer Adresse gespeichert, die ihr Zeitfenster identifiziert, und sie ist außerdem mit dem Vergleichsmodul 500 verbunden, um mit
809842/0541
dem passenden oder mit passenden gespeicherten Merkmalsuntergruppenmasken
verglichen zu werden. Nachdem eine erfolgreiche Folge von "Übereinstimmungen" zwischen ankommenden Merkmalsuntergruppen
und gespeicherten Merkmalsuntergruppenmasken festgestellt worden ist, wird angenommen, daß der Vergleichsmodul 500 einen
Kommandowort-"Kandidaten"identifiziert hat, und die Grenzen des
Kandidaten werden dazu verwendet (was funktionell durch die Leitung 500A in Fig. 1 dargestellt ist) festzustellen, welches Gesamtzeitintervall
in dem Pufferspeicher weiter in der Schaltung 70 verarbeitet werden muß. Wie das noch verständlich wird, führt
der Vergleich zu relativ groben Grenzextremen, und eine Vielzahl von unterschiedlichen oder "vorläufigen" Grenzen wird während
nachfolgender Verarbeitung durch die Schaltung 70 ausprobiert.
Unter Berücksichtigung von Grenzen, die durch die sequentielle Verarbeitungseinrichtung 200 bestimmt sind, gibt der Pufferspeicher
30 die früher gespeicherten Merkmalssignale (die auf Leitungen 60a erschienen sind) in die Verarbeitungsschaltung, deren
Funktionen allgemein innerhalb der gestrichelten Umrahmung 70 ablaufen. Die Arbeitsweise der Schaltung 70 wird kurz wie folgt beschrieben:
Eine zeitabhängige Matrix wird aus den von dem Pufferspeicher 300 erhaltenen Merkmalssignalen gebildet, und zwar durch
den Block 71. Wie bereits bemerkt, geben die Matrixglieder den Status von Merkmalssignalen wieder, die während des Kommandowort-"Kandidatei"aufgetreten
sind. Während der Ubungs- oder Lernphase ist eine andere Matrix in der Verarbeitungsschaltung 70 gespeichert
worden, wie das durch den Block 72 angegeben ist. Diese andere Matrix weist Glieder auf, die den Status von Merkmalssignalen
wiedergeben, deren charakteristisches Auftreten während
809842/0541 -21-
des Kommandowortes erwartet wird. Die beiden Matrizen werden verglichen,
diese Funktion wird durch den Block 73 dargestellt. Der Vergleich erfolgt vorzugsweise auf einer Glied-für-Glied-Basis und
führt zu einer Bestimmung des Maßes der Übereinstimmung zwischen den beiden Matrizen. Bei der bevorzugten Ausführungsform der Erfindung
ist die Matrix für jede Gruppe von vorläufigen Grenzen gebildet (Block 71). Der Matrixvergleich (Block 73) erfolgt für jede
sich ergebende Matrix. Der Optimierungswähler 75 beinhaltet das Auswählen des Vergleichs, der zu dem Ergebnis mit höchster Übereinstimmung
führt. Liegt das Ergebnis mit der höchsten Übereinstimmung oberhalb eines vorbestimmten Schwellwertes, so wird angenommen,
daß das Kommandowort gesprochen worden ist. und das Signal wird auf einer Leitung 75A erzeugt, welches in typischer Weise zur
Steuerung eines Mitlaufsystems verwendet wird. Es sei erneut bemerkt,
daß die in dem gestrichelten Rahmen 200 gezeigten Blöcke eine Funktion anzeigen und zur Vereinfachung der Erläuterung beibehalten
werden, wobei bei der vorliegenden Ausführung ein digitaler Mehrzweckrechner zur Durchführung dieser Funktionen wie auch
der Funktionen des Pufferspeichers 300 verwendet wird.Es sei erneut
darauf hingewiesen, daß diese Funktionen erforderlichenfalls auch durch einen passend ausgelegten speziellen Rechner, Mikroprozesser und/oder eine festverdrahtete Schaltung einschließlich
eines passenden Speichers oder einer logischen Schaltung realisiert werden können.
Fig. 2 verdeutlicht,mehr im einzelnen, den Stand der Technik
für eine Gewinnungseinrichtung der Art, wie sie zur Verwendung bei der Merkmalsauszugseinrichtung 10 der Fig. 1 geeignet ist.
809842/0541
Eine vollständige Beschreibung sowohl der Vorverarbeitungsschaltung
50 als auch der Merkmalsauszugsschaltung 60 findet sich in einer Veröffentlichung mit der Überschrift "Acoustic Recognition
of A Limited Vocabulary of Continuous Speech" von T.B. Martin, veröffentlicht von der University Microfilms, Ann Arbor, Michigan.
Es ist jedoch zu beachten, daß sich die vorliegende Erfindung im wesentlichen auf verarbeitete Merkmalssignale bezieht und irgendwelche
passenden Mittel zur Gewinnung der Merkmalssignale verwendet werden können. Folglich ist das Ausmaß der nachfolgenden Einzelheiten
auf das Maß begrenzt, das erforderlich ist, um ein Verständnis der Teile der erfindungsgemäßen Einrichtung zu ermöglichen,
Fig. 2A ist ein Blockschaltbild der Vorverarbeitungsschaltung 50. Ein Wandler 51, typischarweise ein Gradientenmikrofon,
nimmt gesprochene Eingangsworte auf und erzeugt sich mit der Zeit ändernde elektrische Signale, die für den aufgenommenen Schall
repräsentativ sind. Der Ausgang des Wandlers 51 ist über einen Vorverstärker 52 mit neunzehn benachbarten Bandpaßfiltern in einer
Filterbank 53 gekoppelt. Jedes Filter in der Bank erzeugt ein Ausgangssignal entsprechend dem Anteil des Eingangssignals, der im
Bereich der von dem bestimmten Filter durchgelassenen Frequenzen liegt. Die Filtermittenfrequenzen reichen z.B. von ungefähr
250 bis 7500 Hz, wobei die geringste Filterbandbreite ungefähr 150 Hz beträgt.
Der Ausgang jedes Filters in der Bank 53 ist einzeln mit
einem Vollweggleichrichter und einer Tiefpaßfilterkombination gekoppelt,
die in einer Gleichrichter/Tiefpaßfilterbank angeordnet
sind. Nach Gleichrichtung und Filtrierung stellen die Ausgangs-
809842/0541
signale der Bank 54 im wesentlichen die Energieniveaus des Eingangssignals
etwa im Bereich der Mittenfrequenz jedes der Bandpaßfilter in der Bank 53 dar. Oder anders betrachtet, die Signale auf
den Leitungen 54a geben zusammen die Hüllkurve der Energie in Abhängigkeit vom FrequenzSpektrum der empfangenen Eingangssignale
über den interessierenden Frequenzbereich wieder.
Die neunzehn Informationskanäle auf den Leitungen 54a sind logarithmisch komprimiert, um Spektralkomponenten in Form von
Ausgangssignalen auf den Leitungen 50a des Vorprozessers zu bilden. Eine logarithmische Kompression erleichtert eine nachfolgende Verarbeitung
in zwei Möglichkeiten. Bei der ersten erfolgt eine dynamische Bereichskompression, die die Konstruktionserfordernisse der
Merkmalsauszugseinrichtung 60 vereinfacht. Zum zweiten können aufgrund der Verwendung von Logarithmen Vergleichsverhältnisse der
Spektralkomponentensignale ganz einfach durch Subtraktion errechnet werden. Verhältnisse sind erwünschte Verarbeitungsvehikel,
indem sie unabhängig von Änderungen der Gesamtamplituden der Signale sind. Diese Eigenschaft ist insbesondere vorteilhaft bei
einem System, bei dem eine Eingangssprache variierender Lautstärke erkannt werden soll.
Bei dem Schaltbild gemäß Fig. 2A wird ein einziger logarithmischer
Verstärker 56 zeitgestaffelt betrieben, um die Notwendigkeit der Verwendung von neunzehn identischen Verstärkern zur
Erzielung der Kompression zu vermeiden. Die Ausgangssignale auf der Leitung 54a werden durch einen Multiplexer 55 abgetastet, und
die abgetasteten Signale passieren,eines zu einer Zeit, den zeitgestaffelten
Verstärker 56. Ein Demultiplexer 57 "rekonstruiert"
809842/0541
dann die komprimiertai Spektralkomponentensignale auf Leitungen 50a
von den verarbeiteten abgetasteten Signalen. Die Taktgeschwindigkeit der Abtastung des Multiplexers und des Demultiplexers liegt
oberhalb von 1 kHz und ist ausreichend höher, als es zur Beibehaltung der Signalbandbreite erforderlich ist. Diese Technik der gleichzeitigen
Verwendung eines einzigen logarithmischen Verstärkers ist Stand der Technik, s. die zuvor genannte Veröffentlichung
von T. Martin und die US-PS 3 588 363.
Es sei in Erinnerung gerufen, daß die Spektralkomponentensignale auf den Leitungen 50a in die Merkmalsauszugsschaltung 60
(Fig. 1) eingegeben werden, die die Anwesenheit von Eigenschaften
der Spektralkomponentensignale abtastet, die vorausgewählten Eigenschaften oder "Merkmale" des Eingangswertes entsprechen. Bei
dem Stand der Technik ist eine Merkmalsauszugseinrichtung beschrieben, bei der die Abtastung von Eigenschaften oder "Merkmalsauszügen" teilweise dadurch erfolgt, daß Mengen abgeleitet werden,
die als "Neigungs"- und "Breitneigungs"-Merkmale bekannt sind (slope/broad slope). Diese Mengen oder Werte liefern eine Anzeige
für die Polarität und Größe der Neigung der Eingangsumhüllenden über bestimmte Segmente des Frequenzspektrums. Die Art und Weise,
in der diese Mengen oder Größen gewonnen werden, ist in der zuvor angegebenen Veröffentlichung und in dem Patent beschrieben.
Fi.g 2B zeigt ein Blockschaltbild der Merkmalsauszugsschaltung
60 gemäß dem Stand der Technik, die die Spektralkomponentensignale auf den Leitungen 50a aufnimmt. Die Schaltung 60, die auch
in der zuvor genannten Veröffentlichung und dem Patent beschrieben
ist, weist logische Blöcke 61 und 6 2 auf, die Gruppen von Neigungs-
-25-
809842/0541
27S3707
und Breitneigungsgrößen ableiten, die durch eine "Breitklassenmerkmal
"-Erkennungslogik 63 aufgenommen worden sind. Der Block verwendet Gruppen von Operationsverstärkern und eine passende
periphere Schaltung zur Erzeugung von Breitklassenmerkmalssignalen
63a, die die Anwesenheit von gewissen breit klassifizierten phonetischen Merkmalen in den Eingangsworten anzeigen. Beispiele
von breiten Klassifikationen sind "Vokal/vokalähnlich", "nur Intonation", "Sprenglaut", "intonierter geräuschartiger
Konsonant" usw.. Die Signale 63a wie auch die Spektralkomponentensignale,
Neigungs- und Breitneigungssignale gelangen in eine Erkennungslogik 64 für "Grundmerkmale". Dieser Block, der Bauteile
enthält, die von der gleichen Natur wie die in dem Block 63 sind, erzeugt Merkmalssignale, die die Anwesenheit von speziellen phonetischen
Merkmalen (z.B. /I/, /s/, /Θ/, /S/) des gesprochenen Eingangssignals
anzeigen. Der Block 64 wird typischerweise auch einen Zwischenblock enthalten, der "gemeinsame Gruppenmerkmale"
(z.B. "Anfangsvokal","Endvokal", "Zischlaut","Schließlaut" usw.) ableitet, und solche gemeinsamen Gruppenmerkmale können die höchst
spezifischen Merkmale sein, die zur weiteren Verarbeitung durch das System gemäß Fig. 1 abgeleitet werden. Eng definierte phonetische Merkmalssignale ermöglichen eine Erklärung der nachfolgenden Schaltung, so daß von den Merkmalssignalen 60a angenommen sei,
daß sie diese Form für Teile der Beschreibung haben. Es sei jedoch darauf hingewiesen, daß die zu beschreibende Erfindung nicht
auf irgendeine bestimmte Form von Merkmalssignalerzeugung beschränkt ist.
809842/0541
schaltung 70, indem die Art von Matrix gezeigt ist, die sich durch
Speicherung des Status der binären Merkmale ergibt, die während des Kommandowortkandidaten aufgetreten sind. Bei der vorliegenden
Ausführungsform werden einunddreißig binäre Merkmalssignale, nachfolgend mit f. bis f31 bezeichnet, gewonnen, sie erscheinen
auf einunddreißig Merkmalsausgangsleitungen 60a, und sie geben fortlaufend die Anwesenheit oder Abwesenheit spezifischer Merkmale
an. Beim Beispiel gemäß Fig. 4 sei aus Gründen der Erläuterung angenommen, daß das Eingangswort eine Zeitdauer von 1,6 Sekunden
hat. Das bedeutet, daß die sich ergebende Matrix Dimensionen von 31 χ 800 hat. Mit anderen Worten, sie gibt die Anwesenheit oder
Abwesenheit jedes von 31 Merkmalen über 800 abgetastete "Zeitfenster" wieder, wobei jedes Zeitfenster 2 Millisekunden lang ist.
Wie sich das aus den 1-Angaben der FIGUR (zur Verdeutlichung eingesetzt)
ergibt, erscheinen unterschiedliche Merkmale für vari ierende Teile der Wortdauer, wobei ein bestimmtes Merkmal gewöhn
lich für eine Zahl von Millisekunden "ein" ist. Die Abwesenheit einer 1 in einer Matrixposition bedeutet eine 0, d.h. die Abwesenheit des Merkmals. Die Zeitnormalisierungsfunktion, dargestellt
durch die Schaltung 70, verringert jede Eingangswortmatrix auf eine 31 χ 16-Matrix, wobei die Zeitachse auf 16 normalisierte Zeitfenster herabgesetzt ist. Die Normalisierung kann in verschiedener Weise erfolgen, wobei eine Möglichkeit in der Auswahl der
normalisierten Zeitperioden besteht, die eine Majorität von 1en enthalten. Das arithmetische Verfahren zur Durchführung dieser
Technik ist einfach, es besteht im wesentlichen aus einer einfa chen Division und Zählung. Zur Illustration sei gemäß dem Beispiel
in Fig. 4 angenommen, daß die 800 Zeitschlitze für jedes
809842/0541 -27-
Merkmal in Gruppen von 50 unterteilt sein würden, wie das durch die Klammern B1 bis B1,dargestellt ist. Jede Klammer enthält 50
Zeitschlitze, so daß bei diesem Ausführungsbeispiel ein bestimmter normalisierter Zeitschlitz für ein Merkmal eine 1 aufweist, wenn
die Klammer wenigstens 26 1en enthält. In der Fig. 4 hat das Merkmal
f1 eine Majorität von 1en in der Zeit, die durch die Klammer
B1, umschlossen ist. der 16. und letzte normalisierte Zeitschlitz
für f.. enthält daher eine 1. Eine gesamte normalisierte 31 χ 16-Matrix
wird in dieser Weise gebildet, indem die Zählung von einsen unter jeder der 16 Klammern für jedes der 31 Merkmale geprüft wird.
Bei dem angegebenen Beispiel ist die Gesamtzeit ein genaues Vielfaches von 16, wenn jedoch das nicht der Fall ist, so wird irgendein
Rest unter den Klammern in einer besonderen Weise verteilt. Wenn z.B. ursprünglich 803 Schlitze (1606 Millisekunden) vorhanden
waren, so würde jede der ersten drei Klammern 51 Zeitschlitze enthalten haben und nicht 50, wobei der Rest der Klammern 50 Zeitschlitze
enthält. Fig. 5 zeigt eine typische normalisierte Matrix für einen Kommandowortkandidaten, wobei wieder die 1en dargestellt
und die Oen durch die Abwesenheit einer 1 an einer Matrixposition dargestellt sind.
Eine genaue Beschreibung der Arbeitsweise einer passenden Verarbeitungsschaltung 70 in Form eines geeignet programmierten
Mehrzweckrechners ist in der zuvor angegebenen GB-PS 1 435 779 enthalten. Es ist beschrieben, daß eine zeitnormalisierte Matrix
für den Kommandowortkandidaten gebildet wird. Vor Beginn der Operation ist eine andere zeitnormalisierte Matrix dieser Art in
den Rechner eingespeichert worden, dargestellt durch den Block 72.
809842/0541
Diese zuvor eingespeicherte Matrix hat Glieder, die den Status von Merkmalssignalen repräsentieren, von denen erwartet wird, daß
sie charakteristisch während des Kommandowortes auftraten und die z.B. während einer "Lern"-Phase gebildet werden können, wie
das in der genannten Schrift ausgeführt ist. Die beiden Matrizen werden dann verglichen, um das Maß der Übereinstimmung dazwischen
zu bestimmen, wie das bereits früher und wiederum auch im einzelnen in der angegebenen Anmeldung beschrieben worden ist. Es sei
jedoch darauf hingewiesen, daß die vorliegende Erfindung bei jeder beliebigen Verarbeitunqsschaltung 70 anwendbar ist, die in der
Lage ist, die Merkmalssignale, die während des besonderen Zeitintervalls aufgetreten sind, mit einer gespeicherten Gruppe von
erwarteten Merkmalen zu vergleichen, so daß die Erfindung nicht auf irgendeine bestimmte Verarbeitungsschaltung 70 beschränkt ist.
Vor einer Beschreibung der Einzelheiten der Arbeitsweise der sequentiellen Verarbeitungseinrichtung 200 werden einige Arbeitsprinzipien
beschrieben, um das Verständnis zu erleichtern. Während jedes neuen Zeitschlitzes wird, wie bereits zuvor beschrieben,
eine Untergruppe von Merkmalssignalen erzeugt, z.B. eine Untergruppe von einunddreißig binären Merkmalen, die die
Sprachcharakteristiken derEingangssprache während des fraglichen bestimmten Zeitschlitzes identifizieren. (Eine Untergruppe würde
z.B. die einunddreißig Merkmale darstellen, die in einer Spalte der Matrix gemäß Fig. 4 enthalten sind, wenn man sich auch hier
daran erinnern sollte, daß die Matrix der Fig. 4 zu der Verarbeitungsschaltung 70 gehört, in der die Grenzen eines gesamten Wortkandidaten
definiert sind, während bei dem gegenwärtigen Teil der Beschreibung der Verarbeitungseinrichtung 200 jede Merkmalsunter-
809842/0541 -29-
gruppe allein steht und individuell betrachtet wird.) Es wurde gefunden, daß die individuellen Merkmalsuntergruppen in vorteilhafter
Weise sequentiell verarbeitet werden können, und zwar durch ihren Vergleich mit zuvor gespeicherten Merkmalsuntergruppen, von
denen bekannt ist, daß sie in charakteristischer Weise in einem festzustellenden Kommandowort auftreten. Die Verarbeitung durch
die Schaltung 200 gemäß Fig. 1 erfolgt in sequentieller Form, z.B. durch Vergleich augenblicklich aufgenommener Merkmalsuntergruppen
mit zuvor gespeicherten Merkmalsuntergruppen (genannt "Masken") unter Berücksichtigung des Maßes, mit dem früher die Übereinstimmung
festgestellt worden ist. Bei der vorliegenden Ausführungsform hat das Kommandowort (die vorliegende Erfindung bezieht sich
auf die Erkennung eines einzigen Kommandowortes zum Zwecke der leichteren Verständlichmachung) M zugeordnete, zuvor gespeicherte
Merkmalsuntergruppenmasken, wobei M die Zahl acht für diese Ausführungsform bedeutet. Diese zuvor gespeicherten Merkmalsuntergruppenmasken
repräsentieren die Merkmalsuntergruppen, von denen erwartet wird, daß sie in charakteristischer Weise während verschiedener
Stufen des Kommandowortes auftreten. Es sei einmal angenommen, daß die gespeicherten Merkmalsuntergruppenmasken für
das Kommandowort mit MASKE 1, MASKE 2 MASKE 8 bezeichnet sind.
Die MASKE 1 repräsentiert eine Merkmalsuntergruppe, von der erwartet
wird, daß sie charakteristisch in der Nähe des Anfangs des Kommandowortes auftritt, während die MASKE 8 eine Merkmalsuntergruppe
repräsentiert, von der erwartet wird, daß sie charakteristisch in der Nähe des Endes des Kommandowortes auftritt, während
die MASKEN 2 bis 7 die Merkmalsuntergruppen repräsentieren, von
809842/0541
2763707
denen erwartet wird, daß sie aufeinanderfolgend während es mittleren
Teils des Kommandowortes auftreten. Eine ankommende Sprache wird als Kommandowort "Kandidat" identifiziert, wenn eine Folge
von Merkmalsuntergruppen ausreichend übereinstimmt (d.h. korreliert)
mit den gespeicherten Merkmalsuntergruppenmasken. Der Vergleich erfolgt in sequentieller Form, d.h. daß die Suche nach
einer Übereinstimmung mit MASKE 2 nicht beginnt, ehe nicht MASKE 1 ausreichend in Übereinstimmung gebracht worden ist, die Suche nach
der MASKE 3 nicht beginnt, ehe die MASKE 2 ausreichend in Übereinstimmung gebracht worden ist, usw.. Wie das nachfolgend noch
weiter beschrieben wird, werden Taktzwänge in die Ubereinstimmungskriterien eingeführt. Es wurde außerdem gefunden, daß es vorteilhaft
ist, fortwährend die Anpassung der früheren Merkmalsmasken zu überwachen, selbst bei den letzteren Stufen einer Anpassungsoder Vergleichsfolge, derart, daß verschiedene Sequenzen bei verschiedenen
Zuständen der Vervollständigung zu irgendeiner gegebenen Zeit vorhanden sein können. Es sei z.B. angenommen, daß die
Erfordernisse für eine Anpassung der MASKE 1, IiASKE 2 und MASKE 3
ausreichend erfüllt sind und die sequentielle Verarbeitungseinrichtung 200 fortwährend eine überwachung hinsichtlich der Existenz
einer Merkmalsuntergruppe durchführt, die der MASKE 4 genügt (innerhalb der noch zu beschreibenden Zeitzwänge). Merkmalsuntergruppen,
die an diesem Punkt ankommen, mögen die Kriterien für die MASKE 1 erfüllen, und die bloße Tatsache, daß eine Sequenz bereits
in der Verarbeitung ist (z.B. bis zur MASKE 4) schließt nicht die Möglichkeit aus, daß eine zweite oder selbst eine dritte
Folge zur gleichen Zeit "aktiv" sein kann. Das ist besonders des-
809842/0541
halb der Fall, da, dies sei in Erinnerung gerufen, die Erfordernisse
für die sequentielle Verarbeitungseinrichtung 200 absichtlich relativ "einfach" gemacht sind, da es nur erwünscht ist, daß
dieses Untersystem-Kommandowort->"Kandidaten" identifiziert, wobei
die eingeengteren Annahmekriterien durch den nachfolgenden Verarbeitungsblock 70 überlagert sind. Es sei darauf hingewiesen, daß
viele der Folgen"herausfallen" (da sie nicht den Zeitzwängen genügen) , bevor sie die MASKE 8 durchlaufen, jedoch ist Vorsorge
getroffen, eine Mehrzahl von Folgen gleichzeitig zu verfolgen, um ein Verpassen einer potentiell erfolgreichen Folge zu vermeiden.
Bei der vorliegenden Ausführungsform wird ein digitales Achtbitwort für die Merkmalsuntergruppe formuliert, die jedem verarbeiteten
Zeitschlitz zugeordnet ist. Jedes der Achtbitworte wird bei einer Adresse gespeichert, die einen bestimmten Zeitschlitz
repräsentiert, wobei die Adresse! aufeinanderfolgend von einem Adressengenerator erzeugt werden. Jedes Achtbitwort wird zu einer
gespeicherten Aufzeichnung, mit denen, wenn überhaupt, die Merkmalsmasken
mit den fraglichen bestimmten Merkmalsuntergruppen übereinstimmen. Stimmt z.B. eine bestimmte Merkmalsuntergruppe
nicht mit einer der Merkmalsmasken überein, so ist das für diese bestimmte Merkmalsuntergruppe (bei einer Adresse, die dem Zeitschlitz
der bestimmten Merkmalsuntergruppe zugeordnet ist) eine "00000000". Würde z.B. weiter eine Merkmalsuntergruppe nur mit
der Merkmals-MASKE 2 übereinstimmen (d.h. ausreichend korrelieren),
so würde ihr Achtbitwort "01000000" sein, oder wenn sie sowohl mit der MASKE 1 als auch der MASKE 7 übereinstimmt, so würde ihr Achtbitwort
"10000010" sein. (Die Achtbitworte sind in typischer
809842/0541
Weise in dem Rechnerspeicher gespeichert - und von diesem Teil des
Speichers kann angenommen werden, in Fig. 1, daß er ein Teil des Vergleichsmoduls 500 ist. Jeder Adresse oder jedem Zeitschlitz
ist ein Achtbitwort zugeordnet, so daß jede Adresse mit zwei zugeordneten Punkten endet, das bedeutet, eine bestimmte 31-Bit-Merkmalsuntergruppe,
die in dem Pufferspeicher 300 gespeichert ist, und ein Achtbitwort zeigen an, welche der bestimmten Merkmalsuntergruppenmasken
erfolgreich mit der Merkmalsuntergruppe in Übereinstimmung gebracht werden konnten.)
Aufgrund der sequentiellen Form der Verarbeitung wird jede Merkmalsuntergruppenmaske nur auf Übereinstimmung mit der augenblicklichen
Merkmalsuntergruppe geprüft, wenn die vorherige Merkmalsmaske zu einer Übereinstimmung geführt hat. (Wie bereits erwähnt
und wie das noch nachfolgend näher erläutert werden wird, gilt das nicht für die erste Merkmalsmaske, die die Folge beginnt,
da hierfür keine vorherige Merkmalsmaske vorhanden ist und alle ankommenden Merkmalsuntergruppen gegenüber der Merkmals-MASKE
1 geprüft werden.) Es werden Zeitzwänge eingeführt um sicherzustellen, daß eine beobachtete Folge von Merkmalsuntergruppen
innerhalb von Zeitgrenzen auftritt, die den erwarteten Zeitabständen in normaler Sprache angenähert sind. Diese Kriterien sind
wider absichtlich flexibel gemacht, da ein relativ rigoroser Erkennungsvorgang
der Identifizierung eines Kommandowortkandidaten folgt. Bei der vorliegenden Ausführungsform ist jeder Merkmalsuntergruppenmaske
N (ausgenommen MASKE 1) ein Taktgeber zugeordnet. Wird eine Übereinstimmung mit einer gespeicherten Merkmalsuntergruppenmaske
N festgestellt, so wird der der nächsten Merkmals-
8098A2/0541
maske (N + 1) zugeordnete Taktgeber auf einen anfänglichen Wert TMAX eingestellt, der typischerweise 200 Millisekunden beträgt.
Der Wert TMAX stellt die maximale Zeit dar, während der die nächste Merkmalsuntergruppenmaske mit einer nachfolgend ankommenden
Merkmalsuntergruppe übereinstimmt, und ist das nicht der Fall,
so wird die Folge weggelassen. Wurde eine bestimmte Merkmalsuntergruppenmaske erfolgreich in Übereinstimmung gebracht, so muß
eine vorbestimmte minimale Zeitspanne verstreichen, bevor nach einer Anpassung an die nächst höhere Merkmalsuntergruppenmaske
beginnen kann (da die gespeicherten Merkmalsuntergruppenmasken Sprachanteile repräsentieren, die einen Zeitabstand haben). Dies
erfolgt durch Einführung eines weiteren Zeitzwanges, der bewirkt, daß eine vorbestimmte minimale Zeitspanne T von der Zeit verstreichen
muß, auf die ein bestimmter Taktgeber TMAX eingestellt ist, bevor seine zugeordnete Merkmalsuntergruppenmaske in bezug auf ankommende
Merkmalsuntergruppen überwacht wird. Der Einfachheit
halber sei definiert
TMIN = TMAX - -t .
Der Taktgeber wird anfänglich auf TMAX eingestellt und wird stufenweise mit jedem Schlitz um eins zurückgestellt (d.h. jedesmal
dann, wenn eine neue Merkmalsuntergruppe verarbeitet wird). Die angegebenen Taktzwänge erfordern also, daß, bevor eine bestimmte
Merkmalsmaske (N + 1) überwacht wird, der zugeordnete Taktgeber kleiner als TMIN, jedoch größer als null sein muß.
Der Arbeitsablauf der sequentiellen Verarbeitungseinrichtung, die sich innerhalb des gestrichelten Rahmens 200 befindet,
kann entweder durch eine passende feste Verdrahtungsschaltung,
809842/0541
einen Spezialrechner, eine Mikrologik oder einen digitalen Vielzweckrechner
durchgeführt werden. Die Fig. 3 und 6 zeigen Flußdiagramme
für eine Ausführungsform, bei der ein digitaler Vielzweckspeicher
verwendet ist, es können jedoch in gleicher Weise auch die angegebenen Alternativtechniken zur Durchführung dieser
Funktionen angewendet werden.
Wie bereits zuvor in bezug auf die innerhalb des gestrichelten Rahmens 70 gezeigte Verarbeitungseinrichtung beschrieben
und im einzelnen in der GB-PS 1 435 779 beschrieben, wird eine "Ubungs"- oder Lernphase vor dem Betrieb der Einrichtung angewendet.
Während dieser Phase spricht der Sprecher, dessen Kommandowort später erkannt werden soll (oder Kommandoworte im Fall eines
Mehrwortvokabulars), das Kommandowort mehrmals auf, um die Einrichtung zu "trainieren", indem dies eine Mermalsmatrix speichert,
die repräsentativ für Merkmale ist, die in charakteristischer Weise auftreten, wenn das Eingangswort gesprochen wird. Wie in der
zuvor angegebenen Anmeldung beschrieben, ist das mehrmalige Ubungsaussprechen des gleichen Kommandowortes nützlich, um die Beständigkeit
des Vorhandenseins individueller Sprachmerkmale in der Matrix zu bestimmen. Wird z.B. ein zehnmaliges Einübungssprechen
angewendet, so kann das System so ausgelegt sein, daß es eine "1" (die das Vorhandensein eines Merkmals anzeigt) an einer Stelle
in der letzlich gespeicherten Matrix nur dann speichert, wenn das Merkmal an dieser Stelle in der Matrix eine bestimmte minimale
Anzahl von Malen aufgetreten ist, beispielsweise wenigstens fünfmal bei einer Gesamtzahl von zehn. Bei der vorliegenden Erfindung
wird zusätzlich zum Speichern einer zeitnormalisierten Kommandowortmatrix
unter Berücksichtigung der in dem gestrichelten Rahmen 70 gezeigten Funktionen (wie bei der zuvor genannten Anmeldung)
809842/0541
die Lernphase auch dazu verwendet, um Merkmalsuntergruppenmasken zu bilden, die in der sequentiellen Verarbeitungseinrichtung 200
angewendet werden. Die Bildung und Speicherung dieser Merkmalsuntergruppenmasken
erfolgt in dem Block 400 der Fig. 1. Es wurde gefunden, daß es vorteilhaft ist, in den gespeicherten Merkmalsuntergruppenmasken
nur solche Merkmale zu berücksichtigen, von denen gefunden wurde, daß sie während der Lernphase beständig auftreten.
Mit anderen Worten,wurde für ein Merkmal gefunden, daß es im allgemeinen nicht während einer bestimmten Zeitspanne (noch zu
beschreiben) des Kommandowortes auftritt, wie es in der Lernphase ausgesprochen worden ist, so wird dieses Merkmal nicht zu einem
Teil der gespeicherten Merkmalsgruppenmaske, die der bestimmten Zeitspanne zugeordnet ist (bei der vorliegenden Ausführungsform
soll ein Kommandowort acht Zeitspannen oder Perioden haben und acht entsprechende Merkmalsuntergruppenmasken), und es wird später
überhaupt nicht berücksichtigt, wenn eine spätere Prüfung gegenüber der Merkmalsuntergruppenmaske erfolgt. Diese Technik läßt
sich von der Technik der zuvor beschriebenen Technik gemäß Schaltung 70 unterscheiden, wo die Abwesenheit eines Merkmals während
eines bestimmten Zeitschlitzes des Lernens zu einer Null in der diesem Merkmal zugeordneten Reihe in der fraglichen Zeitspalte
führt (z.B. Fig. 4 oder Fig. 5). Im Falle der Merkmalsuntergruppenmasken würde das Merkmal insgesamt aus der Maske weggelassen
werden (und nicht eine Null in einer bestimmten Position haben), so daß die gespeicherten Merkmalsmasken in typischer Weise wesentlich
weniger als einunddreißig Merkmale haben, die in jeder Spalte der Matrizen der Fig. 4 oder Fig. 5 erscheinen. Ein weite-
809842/0541
rer Unterschied zwischen den Merkmalsgruppenmasken und z.B. den Matrizenspalten der Fig. 4 oder Fig. 5 besteht darin, daß die
Merkmalsuntergruppenmasken unabhängig betrachtet werden, wie das noch klar werden wird.
Fig. 3 zeigt ein Flußdiagramm für die Schaltung 400 zur Bildung von Merkmalsuntergruppenmasken, die während der Lernphase
gespeichert werden. Zunächst erfolgt eine Bestimmung, ob sich die Einrichtung in der Lernphase befindet, und zwar durch den Entscheidungsrhombus
410. Wenn nicht, so wird der Vorgang beendet. Ist die Lernphase in Betrieb, so wird eine zeitnormalisierte Matrix
für das Lernwort der in Fig. 5 dargestellten Art durch die Schaltung 70 gebildet (s. auch den Block 72 und Leitung 7OA in
Fig. 1). Die benachbarten Spaltenpaare jeder zeitnormalisierten Matrix für die Lernwortmatrix werden kombiniert, und so werden
acht Spalten C1 bis C8 aus den ursprünglichen sechzehn Spalten gebildet,
wie das durch den Block 4 20 angedeutet ist. Die Regel zur Kombination der beiden Spalten ist die, daß dann, wenn eine
"1" in einer der beiden Spalten kombiniert wird, die sich ergebende Spalte Cj eine 1 bleibt - d.h. eine Anzeige der Anwesenheit
eines Merkmals. Ein Index j wird gleich eins gemacht {Block 430). Die Elemente in der Spalte Cj (C1 für j = 1) werden geprüft um
festzustellen, welches eine "1" enthält, und die mit MASKEj bezeichnete Lernmerkmalsuntergruppenmaske wird für die Spalte Cj
der "komprimierten" zeitnormalisierten Lernwortmatrix gebildet. Befindet sich z.B. in der Spalte C1 eine "1" in der Reihe für die
Merkmale f.., f10/ f?2' ^25 un<^ ^31' so na*" *^e Merkmalsuntergruppenmaske
MASKE 1 fünf Glieder an diesen Merkmalspositionen. Somit dient während der nachfolgenden Operationsphase der Einrich-
809842/0541 -37-
tung die Merkmalsmaske MASKE 1 zur Feststellung, ob eine eingegebene
Merkmalsuntergruppe, die demgegenüber geprüft worden ist, an diesen fünf Positionen eine "1"aufweist, und wenn das der Fall
ist, so wird eine Übereinstimmung angezeigt. Der Index j wird als nächstes geprüft um festzustellen, ob er seinen Maximalwert von
acht (Block 450) erreicht hat, und ist das nicht der Fall, so wird der Index erhöht (Block 460) , und der Vorgang wird für jede der
acht Spalten so lange wiederholt, bis alle Merkmalsmasken gebildet und gespeichert sind. Natürlich können verschiedene Alternativverfahren
zur Bildung der gespeicherten Merkmalsuntergruppenmasken verwendet werden. Z.B. kann man durch Studium des phonetischen
Aufbaus des Kommandowortes solche Merkmale auswählen, von denen erwartet wird, daß sie z.B. bei einem Speicher während verschiedener
Teile des Wortes ständig auftreten. Ein Vorteil eines lebensnahen Lernens besteht jedoch darin, daß solche Merkmale,
die bei einem bestimmten Speicher fortwährend auftreten, diejenigen sind, die die resultierenden gespeicherten Merkmalsuntergruppenmasken
enthalten.
In Fig. 6 ist ein Flußdiagramm dargestellt, das für den Betrieb eines Mehrzweckrechners geeignet ist, um die Funktionen des
Vergleichsmoduls 500 durchzuführen. Während jedes Zeitschlitzes (2 Millisekunden bei der vorliegenden Ausführungsform) erscheint
eine neue Merkmalsuntergruppe am Ausgang der Merkmalsauszugsschal
tung (Block 60 der Fig. 1), und die Verarbeitung wird durch den Block 211 angezeigt. Eine neue Adresse, die den augenblicklichen
Zeitschlitz angibt, wird von Adressengenerator 550 (Fig. 1) erzeugt. Ein Index N wird zunächst auf eins eingestellt, wie das
809842/0541
27537Π7
durch den Block 212 angegeben ist. N ist der Index für die gespeicherten
Merkmalsuntergruppenmasken, die zuvor beschrieben worden sind (gespeichert in Block 400 der Fig. 1). Der Index N wird
außerdem zur Kennzeichnung des Taktgebers verwendet, der jeder gespeicherten Merkmalsmaske MASKE 1 bis MASKE 8 zugeordnet ist.
Der Index N wird daraufhin geprüft, ob er gleich 1 (Rhombus 213) ist, und ist das der Fall, so erfolgt eine Eingabe in Block 217.
Wie das noch deutlicher werden wird, ist dies eine einfache Art um sicherzustellen, daß MASKE 1 immer gegenüber der ankommenden
Merkmalsuntergruppe geprüft wird. (Im Unterschied zu anderen Merkmalsuntergruppenmasken, die nur dann eine Prüfung erfordern,
wenn gewisse vorbestimmte Bedingungen erfüllt sind, wird MASKE gegenüber jeder ankommenden Merkmalsuntergruppe geprüft um festzustellen,
ob es der Beginn eines Kommandowortkandidaten sein könnte.) Wenn N nicht gleich eins ist, so wird der dem Gatter N
zugeordnete Taktgeber geprüft um zu sehen, ob er in Betrieb ist (Rhombus 214); z.B. um zu sehen, ob TM(N) größer als null ist.
Ist das der Fall, so ist der Gatter N-Taktgeber daraufhin geprüft, ob er sich auf einem Wert befindet, der kleiner als der
vorbestimmte Wert TMIN(N) ist, diese Funktion ist durch den Entscheidungsrhombus
215 dargestellt. Wie bereits erwähnt, wird dieses Erfordernis eingeführt um festzustellen, ob eine bestimmte
minimale Zeit vergangen ist, seit die frühere Merkmalsmaske der Prüfanförderung genügte. Wird die Bedingung des Rhombus 215 erreicht,
so wird die augenblicklich verarbeitete Merkmalsuntergnappe
mit der Merkmalsuntergruppenmaske H verglichen, Block 217.
Der Vergleich oder die Korrelation erfolgen durch Prüfung solcher
809842/0541
bestimmten Merkmale der augenblicklichen Merkmalsuntergruppe, die den Maskenmerkmalen entsprechen, die damit verglichen werden. In
diesem Zusammenhang sei z.B. die oben beschriebene Art in Erinnerung gerufen, in der die gespeicherten Merkmalsmasken gebildet
werden, und nimmt man an, daß eine bestimmte Merkmalsmaske aus den
Merkmalen f2, f?, fig# f2i und ^30 ^estent» so wi^d die augenblickliche
Merkmalsuntergruppe geprüft um festzustellen, ob sie an diesen Merkmalspositionen eine logische "1" hat. (Mit anderen Worten,
der Vergleich bestimmt, ob diese Merkmale während des bestimmten Zeitschlitzes in der Eingangssprache vorhanden war. Das
Ergebnis dieses Vergleichs ist mit φ(N) bezeichnet, das als Zahl
zwischen null und eins betrachtet werden kann, die das MaB der Korrelation wiedergibt. Wies z.B. bei dem gerade angegebenen Beispiel
die augenblickliche Merkmalsuntergruppe keine "1" an irgendeiner der fünf angegebenen Merkmalspositionen auf, so würde #(N)
gleich null sein. Wies es eine "1" auf, so würde an allen fünf angegebenen Merkmalspositionen ^(N) eins sein, wies es eine "1" an
drei der fünf angegebenen Merkmalspositionen auf, so würde #(N) 0,6 sein, usw., jeweils auf Prozentbasis. #(N) wird gegenüber
einem vorbestimmten Schwellwert (Rhombus 218) geprüft, der typischerweise 0,75 oder irgendeinen anderen Wert haben kann. Wird der
vorbestimmte Schwellwert überschritten, so wird Bit N gleich 1 gemacht (Block 220) . Ist das nicht der Fall oder wurden die Taktanforderungen,
die von den Rhomben 214 oder 215 geprüft wurden, nicht erreicht, so wird N gleich null gemacht, und ein mit PREV N
bezeichneter Operator wird ebenfalls gleich null gemacht, Block 219. Es sei in Erinnerung gerufen, daß Bit N ein Bit des Achtbit-
809842/0541
Wortes ist, das zuvor beschrieben worden ist. Es sollte klar
sein, daß, wenn Bit N gleich 1 ist, diese bedeutet, daß während des bestimmten Zeitschlitzes, dem das Achtbitwort zugeordnet ist,
eine Merkmalsuntergruppe angekommen ist, die sowohl die Bedingungen zur Prüfung gegenüber der Merkmalsuntergruppenmaske N (Rhombus
215) erfüllten als auch dann den vorbestimmten Schwellwert überstiegen, wenn sie mit der Merkmalsuntergruppenmaske N verglichen
wurden, Rhombus 218. Der Operator PREV N dient also als einfacher Indikator dafür, ob Bit N während der vorher verarbeiteten Merkmal
suntergruppe 1 war.
Nachdem Bit N auf 1 gebracht worden ist (Block 220),wird
PREV N geprüft (Entscheidungsrhombus 221) um festzustellen, ob es gleich 1 ist; d.h. um festzustellen, ob Bit N 1 war, als die
vorherige Merkmalsuntergruppe verarbeitet wurde. Ist das nicht der Fall, so wird PREV N nicht gleich 1 gemacht, Block 222. (Beachte,
wenn PREV N bereits gleich 1 war, es auch 1 bleibt.) Ist es das erste Mal, daß Bit N gleich 1 gemacht wird, so wird der Taktgeber,
der der nächst höheren Merkmalsuntergruppenmaske (N + 1) zugeordnet
ist, auf seinen maximalen Wert TMAX (N + 1) gebracht, Block 223. (Bei der vorhergehenden allgemeinen Beschreibung wurde angenommen,
daß die ausgewählte Taktminima und -maxima TMIN und TMAX für alle Takte gleich waren. Bei der Ausführungsform nach Fig. 6
sind diese Werte als Funktion von N ausgedrückt, was zeigt, daß gewünschtenfalls unterschiedliche Taktgrenzen für die verschiedenen
Merkmalsuntergruppenmasken angewandt werden können.)
Der der Merkmalsuntergruppenmaske N zugeordnete Taktgeber TM (N) wird verringert, Block 224. Ist der Taktgeber für N bereits
809842/0541
null, bestimmt durch Bestimmungsrhombus 225, so wird der Taktgeber
nicht herabgesetzt. Der Index N wird dann daraufhin geprüft, ob er acht ist (der Maximalwert für diese Ausführungsform), und
diese Funktion ist durch den Rhombus 226 wiedergegeben. Ist N noch nicht acht, so wird er heraufgesetzt (Block 26 5) , der Rhombus
213 wird für den nächsten Durchgang wieder eingegeben (für die bestimmte, gerade verarbeitete Merkmalsuntergruppe). Ist N
gleich acht, so wird der Taktgeber TM(9) daraufhin geprüft, ob er größer als null ist (d.h. ob Merkmalsuntergruppenmaske 8 mit einer
früheren Merkmalsuntergruppe übereinstimmte). Ist das nicht der Fall, so wird der Block 211 wieder für die Verarbeitung der nächsten
Untergruppe eingegeben. Der Teil der Fig. 6 unterhalb des Rhombus 227, der sich mit der Situation befaßt, in der der Merkmalsuntergruppenmaske
8 genügt wurde, wird nachfolgend näher beschrieben.
Es ist hilfreich, einige Aspekte der bis zu diesem Punkt beschriebenen
Betriebsweise in Erinnerung zu rufen. Für jede verarbeitete ankommende Merkmalsuntergruppe wird der Index N von eins
bis acht vergrößert, während das Achtbitwort für den Zeitschlitz der Merkmalsuntergruppe gebildet wird. Der Taktgeber, der jedem
Wert von N zugeordnet ist, wird daraufhin geprüft (Rhomben 214 und 215) um festzustellen, ob die gerade verarbeitete Merkmalsuntergruppe mit der bestimmten Merkmalsuntergruppenmaske N verglichen
werden sollte. Der Taktgeber ist grundsätzlich kennzeichnend für zwei Dinge, und zwar (1) ob früherei Bedingungen der sequentiellen
Verarbeitung durch erfolgreiche Übereinstimmung mit früheren Merkmalsmasken genügt wurde und (2) ob Taktgrenzen ge-
809842/0541
nügt wurde (da die letzte Merkmalsuntergruppenmaske korreliert
wurde). Liegen diese Bedingungen vor, so wird die gegenwärtige Untergruppe mit der Merkmalsuntergruppenmaske N (Block 217) korreliert,und
übersteigt das Ergebnis einen vorbestimmten Schwellwert (Rhombus 218), so wird Bit N gleich eins (Block 220), und der der
nächsten Merkmalsgruppenmaske zugeordnete Taktgeber wird vorgestellt (Block 223) . Übersteigt das Ergebnis der Korrelation nicht
den vorbestimmten Schwellwert, so wird Bit N gleich null gemacht (Block 219), und der der nächsten Merkmalsuntergruppenmaske zugeordnete
Taktgeber wird nicht eingestellt oder vorbereitet. In jedem Fall wird der N zugeordnete Taktgeber (Block 224) verringert,
so daß nach jedem Durchlauf durch alle acht möglichen Werte von N alle aktiven Taktgeber um eins verringert sind. Aus dem Vorherigen
läßt sich ersehen, daß der Taktgeber, der durch Übereinstimmung einer Merkmalsuntergruppenmaske TM(9) eingestellt worden
ist, so lange nicht aktiv wird, bis alle acht Merkmalsuntergruppenmasken aufeinanderfolgend innerhalb der genannten Taktgrenzen in
Übereinstimmung gebracht worden sind. Hat somit TM(9) einen Wert
oberhalb null (Block 227 positiv), so bedeutet das, daß die MASKE 8 ebenfalls während eines kürzlichen Zeitschlitzes in Übereinstimmung
gebracht worden ist.
Zur weiteren Beschreibung wird jetzt auf Fig. 6 Bezug genommen, dort insbesondere auf den Teil des Flußdiagramms, der sich
mit der Situation befaßt, wo der Merkmalsuntergruppenmaske 8 genügt worden ist. d.h. wo die Anwesenheit eines Wortkandidaten angezeigt
ist. Ist die Antwort auf die Frage des Entscheidungs-
8 rhombus 227 ein "Ja", so bedeutet das, daß MASKE/während einer zu-
809842/0541
vor verarbeiteten Merkmalsuntergruppe erfolgreich in Übereinstimmung
gebracht worden ist, so daß die Anwesenheit eines Wortkandidaten angezeigt wird. Für den größten Teil befaßt sich der
Rest des Flußdiagramms mit der Erkennung von möglichen ("vorläufigen") Startpunkten und Beendigungspunkten für den Wortkandidaten.
Der Block 228 wird eingegeben, und der Taktgeber TM(9) wird verringert. Der Taktgeber TM(9) wird dann geprüft (Rhombus 229)
um zu bestimmen, ob er null ist, und ist das nicht der Fall, so wird der Block 211 wieder eingegeben, und die nächste Merkmalsuntergruppe wird verarbeitet. Dies ermöglicht im Ergebnis die
Fortsetzung des Vorganges für eine feste Zeit (nach Genügen der MASKE 8), bis der Taktgeber TM(9) abgelaufen ist. Die gespeicherten
Achtbitworte, die eLre vollständige "Historie" darüber liefern, wann die verschiedenen Merkmalsuntergruppen erfolgreich in Übereinstimmung
gebracht worden sind, werden nun verwendet. Nachdem der Taktgeber TM(9) null ist, werden die gespeicherten Achtbitworte
in umgekehrter Reihenfolge bis zur letzten Adresse (Zeitschlitz) wieder durchgegeben, als Bit 8 gleich eins war, und
dieser Ort wird ENDE genannt (Block 230) . Auf diese Weise wird die letzte chronologische Zeit, zu der die Merkmalsuntergruppenmaske
8 erfolgreich in Übereinstimmung gebracht wurde, als das erste provisorische Ende des Wortkandidaten identifiziert. Ein Index
J wird auf den Wert 7 gebracht (Block 232) . Die Achtbitworte werden nun in umgekehrter Zeitreihenfolge geprüft, um den ersten
möglichen Wortstart zu lokalisieren, d.h. den Ort, an dem Bit 1 zum ersten Mal auf eins gebracht wurde. Der einfache Vorgang des
Wiederdurchlaufens der Achtbitworte bis zu dem Augenblick, wo
809842/0541
Bit 1 gleich eins ist, ist unpassend, da man sich erinnert, daß Bit 1 wieder einen Wert von eins zu irgendeiner Zeit während der
Verarbeitung auf einer dynamischen Basis angenommen haben mag. Der Index J wird vielmehr zur Rückführung durch den Speicher und
zur Auffindung verwendet, wenn Bit 7 gleich eins ist, und er wird dann zum Auffinden verwendet, ob Bit 6 gleich eins ist usw., bis
zuletzt aufgefunden worden ist, wann Bit 1 gleich eins ist. Auf diese Weise ist sichergestellt, daß die vorläufige Startstelle der
Start einer vollen Folge ist. Ist somit in Fig. 6 J auf 7 eingestellt worden, so werden die Achtbitworte in umgekehrter Zeitfolge
geprüft, bis J eins ist (Block 233). Der Index J wird dann daraufhin geprüft, ob er eins ist (Block 234). Ist das nicht der Fall,
so wird J verringert (Block 235) , und der Vorgang setzt sich fort, bis J gleich eins ist. An diesem Punkt läuft die Rückführung in
den Speicher fort bis zu dem ersten Mittel, wo Bit 1 als null festgestellt worden ist (Block 236), und diese Stelle wird als
START bezeichnet.
Es wird nun auf Fig. 7 Bezug genommen, die eine Folge von Achtbitworten illustriert, wie sie in Zeitfolge auftreten mögen,
wenn ein Kommandowort Kandidat identifiziert worden ist. Nur Bit und Bit 8 sind für die meisten der Achtbitworte aus Gründen der
Illustration gezeigt. Da bei jedem Zeitschlitz ein Achtbitwort gespeichert wurde, kann man die Zeitachse so betrachten, daß sie
in Fig. 7 von links nach rechts läuft. Die Klammer 701 umschließt die erste Gruppe von vorläufigen Grenzen, die gefunden sein mögen
durch den Ablauf, wie er zuvor in Verbindung mit Fig. 6 beschrieben
worden ist. Die Stelle "ENDE" wird dadurch gefunden, daß die
809842/0541
Achtbitworte in den Speicher zurückgeführt werden, bis Bit 8 gleich 1 festgestellt worden ist (Block 230 in Fig. 6). In Fig. 7
ist diese Stelle als "erstes vorläufiges ENDE" bezeichnet. Darauf wird durch die Abläufe gemäß den Blöcken 232-236 die START-Stelle
gefunden, die in Fig. 7 als "erster vorläufiger START" bezeichnet ist. Die Merkmalsintergruppen, die in der Zeit aufgetreten sind,
die durch die Klammer 701 umschlossen ist, werden dann der Verarbeitung unterworfen, die funktionsmäßig durch die Schaltung 70 angegeben
sind (Block 237). Ein Korrelationsergebnis, das das Ausgangssignal der gestrichelten Umrandung 70 darstellt, wird dann gespeichert,
wie das durch den Optimierungswählblock 75 der Fig. 1 angegeben ist. Es wurde gefunden, daß das Ende eines Wortes durch die
Übergänge von einer 1 zu einer 0 in dem letzten Bit charakterisiert ist, d.h. Bit 8 bei der vorliegenden Ausführungsform. Aufgrund
der unexakten Natur von Sprachlauten und der flexiblen Verarbeitung mit Merkmalsmasken kann Bit 8 eine Mehrzahl von übergängen
von einer 1 zu einer 0 in der Nähe des Endes des Kommando-Wortes
aufweisen. Es ist vorteilhaft, diese verschiedenen vorläufigen Enden als mögliche Kommandowortgrenzen zu versuchen, um so
die Wahrscheinlichkeit einer optimierten Korrelation durch die Verarbeitungsschaltung 70 zu verbessern. Ein Beispiel eines solchen
Übergangs ist als "zweites vorläufiges ENDE" in Fig. 7 bezeichnet. Die Klammer 702 umschließt eine weitere Gruppe von vorläufigen
Grenzen, die den Zeitintervall der Merkmalsuntergruppen definieren, die den Eingang zu der Verarbeitungsschaltung 70 für
einen weiteren Vergleich oder eine weitere Korrelation mit der gespeicherten Kommandowortmatrix definieren. Mehrere solcher über-
809842/0541
gänge können auch am Beginn des Wortes auftreten, wie das in
Fig. 7 mit "zweiter vorläufiger START" angegeben ist. Die Klammern 703 und 704 zeigen, daß der zweite vorläufige START als eine
Grenze in Verbindung mit beiden vorläufigen ENDE-Grenzen verwendet werden kann, so daß beim Beispiel gemäß Fig. 7 vier vorläufige
Grenzen beim Vergleich eines Kommandowortkandidaten gegenüber einer früher gespeicherten Kommandowortmatrix der Schaltung 70 verwendet
sind. Es ist zu ersehen, daß die Gesamtzahl der vorläufigen Grenzgruppen gleich ist dem Produkt der vorläufigen START-Gruppen
mal den vorläufigen ENDEN.
Es sei nun wieder auf Fig. 6 Bezug genommen. Nachdem das Korrelationsergebnis für die ursprüngliche Grenzgruppe gespeichert
worden ist (Block 237) und eine Eingabe in Block 238 erfolgt ist und, beginnend mit dem vorher gebildeten ENDE, wird eine Auffüllung
bewirkt, bis Bit 8 wieder O-Ziffer ist. Dies würde bei dem Beispiel gemäß Fig. 7 dem Zeitschlitz entsprechen, dessen Bit 8
durch einen Pfeil 711 gekennzeichnet ist. Dann erfolgt eine Eingabe in Block 239, und das Auffüllen wird so lange fortgesetzt,
bis Bitachtziffer wieder Biteinsziffer ist, z.B. zu der Zeit, die
in Fig. 7 durch einen Pfeil 712 angegeben ist. Dieser Ort wird nun mit einem "ENDE" bezeichnet, wie es durch den Block 241 dargestellt
ist. Bevor jedoch der bestimmte Zeitschlitz als das nächste vorläufige "ENDE" bezeichnet ist, bestimmt der Bestimmungsrhombus
240, ob die Menge des Auffüllens einen vorbestimmten maximalen Auffüllwert überschritten hat. Dies erfolgt so, daß die Auffüllungen
der Blöcke 238 und 239 nicht unbegrenzt sind, wie das der Fall sein mag, wenn der 1-Ziffer- auf O-ZifferÜbergang von Bit-8-Ziffer
erfolgte.
809842/0541 "47~
Nachdem ein neuer Ort "ENDE" gebildet worden ist, wird
Block 237 wieder eingegeben, und die Verarbeitung durch die Schaltung 70 erfolgt für die Merkmale, die durch die gegenwärtigen Grenzen
START bis ENDE definiert sind. Bei dem Beispiel gemäß Fig. 7 würde dies den Merkmalen entsprechen, die während der Zeitschlitze
auftreten, bei denen die Achtbitworte innerhalb der Klammer 702 liegen. Die Schleife 245 bleibt in dieser Weise aufrechterhalten,
wobei der ursprüngliche START gegenüber allen vorläufigen ENDEN ausprobiert wird, und jedesmal wird ein Korrelationsergebnis gespeichert
(Block 75 der Fig. 1). Wird der vorgegebene maximale Auffüllwert überschritten, so erfolgt ein Eintritt in Block 250.
Dieser Block vollführt die gleiche Verarbeitung wie durch die Schleife 245, jedoch in bezug zu der START-Grenze (O-Ziffer- auf
1-Zifferübergang werden dabei herausgesucht), d.h. jeder START wird in bezug zu allen ENDEN ausprobiert. Nachdem dies erfolgt
ist, wird das höchste Korrelationsergebnis daraufhin geprüft, ob es einen vorbestimmten Standard überschreitet. Ist das der Fall,
so wird ein Wortanzeigesignal herausgeschickt (Leitung 75A der Fig. 1), das in typischer Weise zur Steuerung eines Mitlaufsystems
verwendet wird, übersteigt das höchste Korrelationsergebnis
nicht den vorbestimmten Standard, so wird kein Wortanzeigesignal ausgegeben. In jedem Fall wird die Verarbeitung von ankommenden
Merkmalsuntergruppen durch die Schaltung 200 fortgesetzt.
Die Erfindung wurde unter Bezugnahme auf eine bestimmte Ausführungsform beschrieben, jedoch läßt sich von einem Fachmann
die Erfindung in der verschiedensten Weise unter Berücksichtigung des Grundgedankens abwandeln. Z.B. wurde die Erfindung aus Grün-
809842/0541
den des einfachen Verständnisses bei der Erkennung eines einzigen Kommandowortes aus einer fortlaufenden Sprache heraus beschrieben.
Es ist jedoch zu erkennen, daß viele Kommandoworte erkannt werden können, indem passende Merkmalsuntergruppen und Matrizen für die
verschiedenen Kommandoworte eines gewünschten Vokabulars gespeichert und die beschriebenen Operationen in jedem Fall durchgeführt
werden. Darüber hinaus sei darauf hingewiesen, daß die bestimmte Anwendung der Einrichtung (z.B. die Natur des zu steuernden
Mitlaufsystems) die notwendige Ansprechzeit für das Stimmkommando diktiert, und Merkmalsuntergruppendaten können zu einem
passenden Maß gepuffert werden. Somit kann eine zusätzliche Verarbeitungszeit zur Verfügung gestellt werden, wenn die verwendete
Schaltung oder der Rechner nicht schnell genug ist, um die Erfindung eines scheinbar augenblicklichen Erkennungssignals sicherzustellen.
Darüber hinaus kann die Zahl der vorläufigen STARTS und ENDEN in verschiedener Weise begrenzt werden, z.B. durch Verwendung
von Zählern, um die Zahl von vorläufigen Grenzen zu verfolgen, die für jeden Wortkandidaten versucht worden sind, wobei die
Zähler nach einem vorgeschriebenen Pegel ein Abschalten bewirken. Eine weitere mögliche Variation des beschriebenen Systems verwendet
ein "laufendes Mittel" von Merkmalen, die über eine Mehrzahl von Zeitschlitzen zum Vergleich gegenüber den gespeicherten Merkmalsuntergruppenmasken
empfangen worden sind. Z.B. kann jede mit den gespeicherten Masken verglichene Merkmalsuntergruppe das Mittel
von z.B. Merkmalen sein, die während der früheren r-Schlitze auftraten, so daß jede für Vergleichszwecke verwendete Merkmalsuntergruppe
sowohl neue Daten als auch einige früher aufgetretene Daten enthält. Die Zahl r von zu mittelnden Zeitschlitzen kann von
809842/0541 49_
den Beobachtungen während der Lernphase abhängig gemacht werden. Bei einer dieser Abwandlungen kann eine Mittelung von ankommenden
Merkmalen als Expedient zur Speicherung von Daten verwendet werden, die während der Durchführung der Verarbeitung auftraten. In
einem solchen Fall würde das für Vergleichszwecke zu verwendende mittlere Intervall sich als Funktion von der Verarbeitungszeit
ändern. Bei einer weiteren Abwandlung der beschriebenen Ausführungsform können Merkmale, von denen gefunden wurde, daß sie nicht beständig auftreten, ebenfalls zur Bildung der Merkmalsuntergruppenmasken verwendet werden. Schließlich können auch bestimmte Merkmale, von denen beobachtet wurde, daß sie scheinbar nie während eines bestimmten Teils des Kommandowortes auftreten, auch
zum Wegfallenlassen einer Folge verwendet werden.
ändern. Bei einer weiteren Abwandlung der beschriebenen Ausführungsform können Merkmale, von denen gefunden wurde, daß sie nicht beständig auftreten, ebenfalls zur Bildung der Merkmalsuntergruppenmasken verwendet werden. Schließlich können auch bestimmte Merkmale, von denen beobachtet wurde, daß sie scheinbar nie während eines bestimmten Teils des Kommandowortes auftreten, auch
zum Wegfallenlassen einer Folge verwendet werden.
809842/0541
Claims (14)
- Patentansprüche :1J Einrichtung zur Erkennung des Auftretens eines Kommandowortes aus einer Eingangssprache, die eine fortlaufende Form haben mag, gekennzeichnet durch Mittel zur Erzeugung aufeinanderfolgender Untergruppen von Merkmalssignalen, die von den Merkmalen abhängen, die in der Eingangssprache während aufeinanderfolgender individueller Zeitschlitze vorhanden sind, durch eine Verarbeitungseinrichtung zur sequentiellen Verarbeitung der erzeugten Untergruppen von Merkmalssignalen zum Zwecke der Bestimmung des Zeitintervalls des Auftretens eines Wortkandidaten, wobei die sequentielle Verarbeitungseinrichtung aufweist Mittel zum Vergleich der erzeugten Untergruppen von Merkmalssignalen mit vorherjgespeicherten Untergruppen von Merkmalen und zur Bestimmung eines Zeitintervalls, währenddessen die Vergleiche einen vorbestimmten Standard erreichen, und um eine aus den MerkmalsuntergruppenSignalen gebildete Matrix, die während des bestimmten Zeitintervalls aufgetreten sind, mit einer vorherjgespeicherten Matrix von Merkmalen zu vergleichen, von denen erwartet wird, daß809842/0541ORIGINAL INSPECTED-2-sie charakteristisch in dem Kommandowort auftreten,und um Vorkommenskennzeichen zu erzeugen, wenn der Vergleich einem anderen vorbestimmten Standard entspricht.
- 2. Einrichtung nach Anspruch 1 , dadurch gekennzeichnet, daß die Einrichtung zur sequentiellen Verarbeitung eine erzeugte Untergruppe von Merkmalen mit einer bestimmten vorherjgespeicherten Untergruppe von Merkmalen nur vergleicht, nachdem vorher erzeugte Untergruppen von Merkmalssignalen bereits vorbestimmte individuelle Vergleichsstandards erreicht haben, nachdem sie mit anderen vorher/gespeicherten Untergruppen von Merkmalen verglichen sind.
- 3. Einrichtung nach Anspruch 1 oder 2, dadurch gekenn zeichnet, daß die gespeicherten Untergruppen von Merkmalen aus Merkmalsuntergruppensignalen bestimmt werden, von denen festgestellt wurde, daß sie bei Ubungsäußerungen des Kommandowortes auftreten.
- 4. Einrichtung nach Anspruch 3, dadurch gekennzeichnet, daß die gespeicherten Untergruppen von Merkmalen in einer sequentiellen Prioritätsreihenfolge angeordnet sind in Abhängigkeit von der Reihenfolge, die bei Ubungswiedergaben des Kommandowortes festgestellt worden ist.
- 5. Einrichtung nach Anspruch 1, 2,3 oder 4, dadurch gekennzeichnet, daß die Einrichtung zur sequentiellen809842/0541Verarbeitung der erzeugten Untergruppen von MerkmalsSignalen Mittel zur Erzeugung einer Mehrzahl von vorläufigen Zeitintervallen aufweist und daß die Einrichtung zum Vergleich der Matrizen Mittel zur Durchführung eines Matrixvergleichs der vorher gespeicherten Matrix mit jeder einer Mehrzahl von Matrizen aufweist, die aus Merkmalsuntergruppensignalen gebildet worden sind, die während jeder der vorläufigen Zeitintervalle aufgetreten sind.
- 6. Einrichtung zur Erkennung des Auftretens eines Kommandowortes ae einer Eingangssprache, die eine fortlaufende Form haben mag, gekennzeichnet durchMittel zur Speicherung von Merkmalsuntergruppen, die Merkmale darstellen, von denen erwartet wird, daß sie charakteristisch während aufeinanderfolgender Perioden des Kommandowortes auftreten.Mittel zur Speicherung von Matrixmerkmalen, von denen erwartet wird, daß sie charakteristisch während d·· oid des Kommandowortes auftreten,Mittel zur Erzeugung aufeinanderfolgender Gruppen von Merkmalssignalen, die von den Merkmalen abhängen, die in der Eingangssprache während aufeinanderfolgender individueller Zeitschlitze vorhanden sind,Mittel zur sequentiellen Verarbeitung von Mermalssignalen zur Bestimmung des Zeitintervalls des Auftretens eines Wortkandidaten, wobei die sequentielle Verarbeitungsein-809842/0541richtung aufweist Mittel zum Vergleich der erzeugten Untergruppen von Merkmalssignalen mit vorher gespeicherten Untergruppen von Merkmalen und zur Bestimmung eines Zeitintervalls, währenddessen die^^tandard^einem vorbestimmteRYyergleichejentsprechen, unddurch Mittel zum Vergleich einer Matrix, die aus den Merkmalsuntergruppensignalen gebildet worden ist, die während des vorbestimmten Zeitintervalls aufgetreten sind, mit der zuvor gespeicherten Matrix von Merkmalen und zur Erzeugung eines Vorkommenskennzeichens, wenn der Vergleich einem anderen vorbestimmten Standard entspricht.
- 7. Einrichtung nach Anspruch 6,dadurch gekennzeichnet, daß die sequentielle Verarbeitungseinrichtung eine erzeugte Untergruppe von Merkmalen mit einer bestimmten vorher gespeicherten Untergruppe von Merkmalen nur vergleicht, nachdem vorher erzeugte Untergruppen von Merkmalssignalen bereits vorbestimmte, individuelle Vergleichsstandards erreicht haben, wenn sie mit anderen, zuvor gespeicherten Untergruppen von Merkmalen verglichen worden sind.
- 8. Einrichtung nach Anspruch 6 oder 7, dadurch gekennzeichnet, daß die genannten gespeicherten Unter gruppen von Merkmalen aus den Merkmalsuntergruppensignalen bestimmt worden sind, von denen gefunden wurde, daß sie während Ubungsäußerungen des Kommandowortes auftreten.809842/0541
- 9. Einrichtung nach Anspruch 6, 7 oder 8, dadurch gekennzeichnet, daß die Mittel zur sequentiellen Verarbeitung der erzeugten Untergruppen von Merkmalssignalen Mittel zur Erzeugung einer Vielzahl von vorläufigen Zeitintervallen aufweisen und daß die Mittel zum Vergleich der Matrizen Mittel zur Durchführung eines Matrixvergleichs der genannten zuvor gespei-aufweisen, cherten Matrix mit jeder einer Vielzahl von Matrizen/ die aus den Merkmalsuntergruppensignalen gebildet worden sind, die während jeder der vorläufigen Zeitintervalle aufgetreten sind.
- 10. Einrichtung zur Erkennung des Auftretens eines Kommandowortes aus einer Eingangssprache, die fortlaufende Form haben mag, und zur Erzeugung eines Vorkommenssignals, das zur Steuerung eines Mitlaufsystems geeignet ist, gekennzeichnet durchMittel zur Erzeugung aufeinanderfolgender Untergruppen von Merkmalssignalen, die von den Merkmalen abhängen, die in der Eingangssprache während aufeinanderfolgender, individueller Zeitschlitze vorhanden sind,Mittel zur sequentiellen Verarbeitung der erzeugten Untergruppen von Merkmalssignalen zum Zwecke der Bestimmung des Zeitintervalls des Auftretens eines Wortkandidaten, wobei die sequentielle Verarbeitungseinrichtung aufweist Mittel zum Vergleich der erzeugten Untergruppen von Merkmalssignalen mit zuvor gespeicherten Untergruppen von Merkmalen und zur Bestimmung eines Intervalls, währenddessen die Vergleiche einem vorbestimmten Standard entsprechen, und durch8098A2/05A1 ~6~Mittel zum Vergleich einer Matrix, die aus den Merkmalsuntergruppensignalen gebildet worden ist, die während des vorbestimmten Zeitintervalls aufgetreten sind, mit einer zuvor gespeicherten Matrix von Merkmalen, von denen erwartet wird, daß sie in charakteristischer Weise während des Kommandowortes auftreten ,und zur Erzeugung des Vorkommenssignals, wenn der Vergleich einem anderen vorbestimmten Standard entspricht.
- 11. Einrichtung nach Anspruch 10, dadurch gekennzeichnet, daß die Einrichtung zur sequentiellen Verarbeitung eine erzeugte Untergruppe von Merkmalen mit einer bestimmten, zuvor gespeicherten Untergruppe von Merkmalen nur vergleicht, nachdem zuvor erzeugte Untergruppen von Merkmalssignalen bereits vorbestimmte individuelle Vergleichsstandards erreicht haben, wenn sie mit anderen zuvor gespeicherten Untergruppen von Merkmalen verglichen wurden.
- 12. Einrichtung nach Anspruch 10 oder 11, dadurch gekennzeichnet, daß die gespeicherten Untergruppen von Merkmalen aus Merkmalsuntergruppensignalen bestimmt sind, von denen gefunden wurde, daß sie während Übungswiedergaben des Kommandowortes auftreten.
- 13. Einrichtung nach Anspruch 12, dadurch gekennzeichnet, daß die gespeicherten Untergruppen von Merkmalen in einer sequentiellen Prioritätsfolge angeordnet sind, und zwar809842/0541in Abhängigkeit von der Reihenfolge, die für ihr Auftreten während Ubungswiedergaben des Kommandowortes gefunden wurde.
- 14. Einrichtung nach Anspruch 10, 11, 12 oder 13, dadurch gekenn ze ichnet, daß die Mittel zur sequentiellen Verarbeitung der erzeugten Untergruppen von Merkmalssignalen aufweisen Mittel zur Erzeugung einer Mehrzahl von vorläufigen Zeitintervallen und daß die Mittel zum Vergleich der Matrizen aufweisen Mittel zur Durchführung eines Matrixvergleichs zwischen der zuvor gespeicherten Matrix und jeder der Mehrzahl von Matrizen, die aus den Merkmalsuntergruppensignalen gebildet worden sind, die während jedes der vorläufigen Zeitintervalle aufgetreten sind.809842/0541
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US05/747,827 US4107460A (en) | 1976-12-06 | 1976-12-06 | Apparatus for recognizing words from among continuous speech |
Publications (1)
Publication Number | Publication Date |
---|---|
DE2753707A1 true DE2753707A1 (de) | 1978-10-19 |
Family
ID=25006814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19772753707 Ceased DE2753707A1 (de) | 1976-12-06 | 1977-12-02 | Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache |
Country Status (4)
Country | Link |
---|---|
US (1) | US4107460A (de) |
DE (1) | DE2753707A1 (de) |
FR (1) | FR2373117A1 (de) |
GB (1) | GB1591996A (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3317325A1 (de) * | 1982-05-11 | 1983-11-17 | Casio Computer Co., Ltd., Tokyo | Durch stimm-eingabe gesteuerter computer |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4277644A (en) * | 1979-07-16 | 1981-07-07 | Bell Telephone Laboratories, Incorporated | Syntactic continuous speech recognizer |
JPS5688503A (en) * | 1979-12-21 | 1981-07-18 | Matsushita Electric Ind Co Ltd | Heater |
JPS5688501A (en) * | 1979-12-21 | 1981-07-18 | Matsushita Electric Ind Co Ltd | Heater |
JPS6051721B2 (ja) * | 1979-12-21 | 1985-11-15 | 松下電器産業株式会社 | 加熱装置 |
JPS5688506A (en) * | 1979-12-21 | 1981-07-18 | Matsushita Electric Ind Co Ltd | Heater |
US4319085A (en) * | 1980-04-08 | 1982-03-09 | Threshold Technology Inc. | Speech recognition apparatus and method |
US4336421A (en) * | 1980-04-08 | 1982-06-22 | Threshold Technology, Inc. | Apparatus and method for recognizing spoken words |
US4349700A (en) * | 1980-04-08 | 1982-09-14 | Bell Telephone Laboratories, Incorporated | Continuous speech recognition system |
JPS572099A (en) * | 1980-06-05 | 1982-01-07 | Tokyo Shibaura Electric Co | Voice recognizing device |
JPS5710199A (en) * | 1980-06-21 | 1982-01-19 | Tokyo Shibaura Electric Co | Voice information extractor |
US4388495A (en) * | 1981-05-01 | 1983-06-14 | Interstate Electronics Corporation | Speech recognition microcomputer |
CH645501GA3 (de) * | 1981-07-24 | 1984-10-15 | ||
US4489435A (en) * | 1981-10-05 | 1984-12-18 | Exxon Corporation | Method and apparatus for continuous word string recognition |
US4489434A (en) * | 1981-10-05 | 1984-12-18 | Exxon Corporation | Speech recognition method and apparatus |
US4468804A (en) * | 1982-02-26 | 1984-08-28 | Signatron, Inc. | Speech enhancement techniques |
JPS59121100A (ja) * | 1982-12-28 | 1984-07-12 | 株式会社東芝 | 連続音声認識装置 |
US4712242A (en) * | 1983-04-13 | 1987-12-08 | Texas Instruments Incorporated | Speaker-independent word recognizer |
US4780906A (en) * | 1984-02-17 | 1988-10-25 | Texas Instruments Incorporated | Speaker-independent word recognition method and system based upon zero-crossing rate and energy measurement of analog speech signal |
US4914704A (en) * | 1984-10-30 | 1990-04-03 | International Business Machines Corporation | Text editor for speech input |
US4980918A (en) * | 1985-05-09 | 1990-12-25 | International Business Machines Corporation | Speech recognition system with efficient storage and rapid assembly of phonological graphs |
US5136653A (en) * | 1988-01-11 | 1992-08-04 | Ezel, Inc. | Acoustic recognition system using accumulate power series |
US5471527A (en) | 1993-12-02 | 1995-11-28 | Dsc Communications Corporation | Voice enhancement system and method |
US6999923B1 (en) * | 2000-06-23 | 2006-02-14 | International Business Machines Corporation | System and method for control of lights, signals, alarms using sound detection |
US20090132237A1 (en) * | 2007-11-19 | 2009-05-21 | L N T S - Linguistech Solution Ltd | Orthogonal classification of words in multichannel speech recognizers |
US11097974B2 (en) | 2014-07-31 | 2021-08-24 | Corning Incorporated | Thermally strengthened consumer electronic glass and related systems and methods |
CN108698922B (zh) | 2016-01-12 | 2020-02-28 | 康宁股份有限公司 | 薄的热强化和化学强化的玻璃基制品 |
US11795102B2 (en) * | 2016-01-26 | 2023-10-24 | Corning Incorporated | Non-contact coated glass and related coating system and method |
US12064938B2 (en) | 2019-04-23 | 2024-08-20 | Corning Incorporated | Glass laminates having determined stress profiles and methods of making the same |
WO2021025981A1 (en) | 2019-08-06 | 2021-02-11 | Corning Incorporated | Glass laminate with buried stress spikes to arrest cracks and methods of making the same |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB1261385A (en) * | 1968-07-24 | 1972-01-26 | Matsushita Electric Ind Co Ltd | Speech analyzing apparatus |
DE2240557A1 (de) * | 1971-08-18 | 1973-02-22 | Jean Albert Dreyfus | Spracherkennungsvorrichtung zum steuern von maschinen |
US3883850A (en) * | 1972-06-19 | 1975-05-13 | Threshold Tech | Programmable word recognition apparatus |
US3943295A (en) * | 1974-07-17 | 1976-03-09 | Threshold Technology, Inc. | Apparatus and method for recognizing words from among continuous speech |
-
1976
- 1976-12-06 US US05/747,827 patent/US4107460A/en not_active Expired - Lifetime
-
1977
- 1977-11-21 GB GB48322/77A patent/GB1591996A/en not_active Expired
- 1977-12-02 DE DE19772753707 patent/DE2753707A1/de not_active Ceased
- 1977-12-05 FR FR7736495A patent/FR2373117A1/fr active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3317325A1 (de) * | 1982-05-11 | 1983-11-17 | Casio Computer Co., Ltd., Tokyo | Durch stimm-eingabe gesteuerter computer |
US4677569A (en) * | 1982-05-11 | 1987-06-30 | Casio Computer Co., Ltd. | Computer controlled by voice input |
US4766529A (en) * | 1982-05-11 | 1988-08-23 | Casio Computer Co., Ltd. | Operator guidance by computer voice synthesizer |
Also Published As
Publication number | Publication date |
---|---|
GB1591996A (en) | 1981-07-01 |
US4107460A (en) | 1978-08-15 |
FR2373117A1 (fr) | 1978-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2753707A1 (de) | Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache | |
DE2613258C2 (de) | Schaltungsanordnung zum Erkennen von einem oder mehreren Schlüsselworten in kontinuierlicher Sprache | |
EP0299572B1 (de) | Verfahren zur Erkennung von zusammenhängend gesprochenen Wörtern | |
DE2347738A1 (de) | Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben | |
DE69615832T2 (de) | Sprachsynthese mit wellenformen | |
DE69414752T2 (de) | Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes | |
DE3884880T2 (de) | Billige Spracherkennungseinrichtung und Verfahren. | |
DE2825110A1 (de) | Verfahren zur erkennung kontinuierlicher sprachsignale | |
DE3852678T2 (de) | Mustererkennung. | |
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE3236885A1 (de) | Verfahren und geraet zur sprachanalyse | |
DE2825186A1 (de) | Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale | |
DE2825082A1 (de) | Verfahren zur spracherkennung | |
DE2524804A1 (de) | Verfahren und vorrichtung zur automatischen spracherkennung | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE3878895T2 (de) | Verfahren und einrichtung zur spracherkennung. | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE3750365T2 (de) | Sprecheridentifizierung. | |
DE3733391C2 (de) | ||
EP0981129A2 (de) | Verfahren und Anordnung zum Durchführen einer Datenbankabfrage | |
DE2021126C3 (de) | Spracherkennungs anordnung | |
EP0595889B1 (de) | Verfahren und anordnung zum erkennen von einzelwörtern gesprochener sprache | |
DE2719175A1 (de) | Schallanalysiereinrichtung | |
DE1937464B2 (de) | Sprachanalysiergeraet |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OAP | Request for examination filed | ||
OD | Request for examination | ||
8131 | Rejection |