DE2608569A1

DE2608569A1 - Einrichtung zum feststellen von wortgrenzen fuer spracherkennungseinrichtungen

Info

Publication number: DE2608569A1
Application number: DE19762608569
Authority: DE
Inventors: Robert B Cox; Marvin B Herscher; Thomas B Martin
Original assignee: THRESHOLD Tech Inc
Current assignee: THRESHOLD Tech Inc
Priority date: 1975-03-10
Filing date: 1976-03-02
Publication date: 1976-09-30
Also published as: FR2304135A1; NL7602531A; US4032710A; GB1536965A

Description

Die Erfindung liegt auf dem Gebiet der Spracherkennung und betrifft insbesondere eine Einrichtung zum Feststellen von Wortgrenzen eines isolierten Wortes für Spracherkennungseinrichtungen, die getrennt gesprochene Worte anzeigende akustische Eingangssignale empfängt und Erkennungsfunktionen bezüglich dieser Worte durchführt und die Einrichtungen zur Erzeugung von Kennmerkmale, im Eingangssignal anzeigenden Merkmalssignalen aufweist und eine Einrichtung zum Vergleich der in festgelegten Zeitgrenzen auftretenden Merkmalssignale mit gespeicherten Wörtern eines Vokabulars oder einer Wortliste entsprechenden Merkmalen.

Es sind verschiedene Einrichtungen in der Vergangenheit entwickelt worden, mit dem Ziel, begrenzte Vokabularien gesprochener Worte durch Analyse akustischer Vorgänge zu erkennen. Man hatte sich vorgestellt, daß solche Einrichtungen

Dr.K./H.

609840/0957

hinsichtlich Sprachbefehl-Anwendungen geeignet wären, wobei die Einrichtung beim Erkennen bestimmter Worte elektrische Signale erzeugt, die den Betrieb eines dazugehörigen Systems steuern. Zum Beispiel könnte ein Sprachbefehl dazu verwendet werden, ein Förderband zu steuern, um dieses in einer bestimmten Art und Weise zu bewegen oder kann einen Computer zur Durchführung spezieller Rechnungen steuern.

In der Vergangenheit durchgeführte Versuche, automatische Verfahren für Spracherkennung zu entwickeln, haben begrenzten Erfolg gehabt und haben zur Erkennung der äußerst komplexen Natur der Sprachverbindung oder Sprachübermittlung geführt. Normale Sprache weist einen hohen Informationsgehalt auf, der sich beträchtlich von einem Sprechenden zum anderen Sprechenden ändert, wobei sich solche Änderungen sogar dann zeigen, wenn das gleiche Wort von der gleichen Person ausgesprochen wird. Daher kann ein perfektes Erkennungsschema nicht erhalten werden, da die Natur der Sprachsignale, die erkannt werden sollen, nicht genau bestimmt werden kann. Daher stellten die bevorzugten Systeme empirische Näherungen dar, die vom statistischen Standpunkt aus wenigstens eine vernünftige Zuverlässigkeitsstufe oder Aussagewahrscheinlichkeit ergaben, insofern, als ein bestimmtes gesprochenes Wort einem ausgewählten Wort eines begrenzten Maschinenvokabulars entsprach. Die Sollgestalt solcher Schemen oder Systeme ist daher nicht durch theoretische Prüfung bestimmbar, sondern durch eine einfache Messung der Erkennungsgenauigkeit

60984n/09S7

-3-

über einen ausgedehnten Operationszeitraum.

In der britischen Patentanmeldung Nr. 42,533/73 ist eine Einrichtung dargestellt/ die gesprochene Eingangs-"Lern"-Worte und ein nachfolgend gesprochenes Eingangs-"Befehls"-Wort empfängt und eine Korrelationsfunktion erzeugt, die die Ähnlichkeit des Befehlswortes mit jedem Lernwort anzeigt. Eine Merkmais-Extraktionseinrichtung verarbeitet aufgenommene Eingangsworte und erzeugt digitale Merkmals-Ausgangssignale auf bestimmten Leitungen mehrerer Merkmals-Ausgangsleitungen, wobei die bestimmten Leitungen von den Kennmerkmalen der gesprochenen Worte abhängen. Die Zustände der Merkmalssignale, die während jedes Lernwortes auftreten, werden als normalisierte zeitabhängige Matrix gespeichert. Folglich werden die Zustände der Merkmalssignale, die während eines Befehlswortes auftreten, auch als eine normalisierte zeitabhängige Matrix gespeichert. Die Befehlswortmatrix wird Glied für Glied mit jeder Lernwortmatrix verglichen, und es wird eine Korrelationsfigur für jeden Vorgang erzeugt. Wenn eine ausreichend hohe Korrelation gefunden worden ist zwischen der Befehlswortmatrix und einer bestimmten Lernwortmatrix wird das Befehlswort als mit dem bestimmten Lernwort übereinstimmend betrachtet. Diese Art von System hat dort bedeutende Anwendung gefunden, wo Befehlsworte isoliert ausgesprochen werden; d.h. dort, wo unterscheidbare bzw. erkennbare Pausen zwischen den

609840 /0967

-4-

Worten bestehen, wobei die Pausen die Wortgrenzen bestimmen. (Bei Bezug auf die hierin verwendeten isoliert gesprochenen Worte wird verstanden, daß diese einen kurzen Satz oder einen kurzen Ausdruck einschließen, der ohne wesentliche Pause gesprochen wird.) Ganz allgemein ist zu sagen, daß Einrichtungen dieser Art Schaltkreise aufweisen, die den Einsatz sprachähnlicher Töne abtasten und dann das nächste wirkliche, wesentliche Fehlen sprachähnlicher Töne abtasten. Diese Ereignisse werden als die Grenzen eines Wortes angesehen, und die Sprachmerkmalereignisse, die zwischen diesen Grenzen auftreten, werden verwendet, um die oben genannte Matrix zu bilden. Da die Matrix Element für Element mit einer zeitabhängigen Lernwortmatrix korreliert wird, ist es klar, daß die Genauigkeit der Wortgrenzenbestimmung kritisch ist, wenn genaue Spracherkennung erreicht werden soll. Auch in den Fällen, in denen die Befehlswortmatrix ein Merkmalsmuster aufweist, das gut mit einem Merkmalsmuster einer bestimmten Lernwortmatrix übereinstimmt, braucht z.B. der Korrelationsprozeß den wahren Übereinstimmungsgrad nicht zu offenbaren, wenn die Befehlswortmatrix Fremdmerkmale in ihren Anfangsoder Endspalten enthält aufgrund nicht korrekter Wortgrenzenbestimmung. Auch kann eine nicht korrekte Zeitnormalisierung der Befehlswortmatrix eine andere nachteilige Folge einer nicht korrekten Grenzbestimmung sein.

Das in dem oben genannten Patent beschriebene System ist mit Erfolg in verschiedenen kommerziellen Anwendungsbe-

609840/095?

reichen verwendet worden, jedoch ergaben Probleme bei der Wortgrenzenbestimmung einen Grenzfaktor hinsichtlich der Erkennungsgenauigkeit. Man fand heraus, daß unter kontinuierlichen Bedingungen und unter den Bedingungen bei langer Arbeit die Bedienungspersonen Schwierigkeiten haben, Befehlsworte in richtiger Trennung auszusprechen, so daß die Pausen zwischen benachbarten Worten schrumpfen und die Wortgrenzbestimmung vom Einsatz her schwierig machen. Die Probleme werden noch vermehrt durch das Vorhandensein sich überlagernder akustischer Signale und durch Hintergrundsrauschen in der Umgebung des Benutzers. Wenn die Worterkennungseinrichtung ein qualitativ hochwertiges Mikrofon für weite Bereiche als Eingabeeinheit verwendet, wird das Mikrofon selbstverständlich Fremdgeräusche und andere H±±ergrundsgeräusche aus der unmittelbaren Nachbarschaft des Benutzers mit aufnehmen. Eine Lösung dieses Problems könnte darin bestehen, die sich überlagernden Töne und Geräusche zu reduzieren, indem man die Bedienungsperson oder den Benutzer in eine akustisch abgeschirmte Umgebung versetzt. Jedoch bestehen die Nachteile, die sich aus einer akustischen Abschirmung ergeben, allgemein darin, daß die Beweglichkeit des einzelnen Benutzers reduziert wird, wodurch seine Fähigkeit, andere Funktionen auszuführen, stark eingeschränkt wird. Da praktisch verwendbare Spracherkennungseinrichtungen im wesentlichen aufgrund der Möglichkeit, die Benutzer vielfältige Aufgaben durchführen zu lassen, gerechtfertigt sind, (wobei die Arbeiten oder Funktionen beispielsweise im Er-

609840/09S7

setzen notwendiger Drucktasten-oder Schreibeingänge durch Sprachbefehleingänge bestehen können), wobei die Beschränkung der Beweglichkeit der Personen dazu führen kann, den Zweck der Einrichtung in Frage zu stellen.

Eine bessere, entwicklungsfähigere Methode, sich überlagernde Töne zu reduzieren, besteht darin, Geräusche am Mikrofon selbst zu eliminieren durch Verwendung eines geräuschlöschenden Mikrofons für Nahbesprechung als Eingabeeinheit der Einrichtung . Daher werden in praktischen Anwendungsfällen geräuschdämpfende Mikrofone für Nahbesprechung üblicherweise von einem Leichtbaukopfbügel getragen, und es werden einigermaßen gute Ergebnisse erhalten. Jedoch fand man aus bisher unklaren Gründen, daß die Verwendung eines geräuschdämpfenden Mikrofons für Nahbesprechung das Problem der Wortgrenzbestimmung verschlimmert.

Die Aufgabe der vorliegenden Erfindung besteht deshalb darin, die im Stand der Technik vorhandenen Probleme zu lösen.

Der Erfinder hat herausgefunden, daß die Verwendung eines geräuschdämpfenden Mikrofons für Nahbesprechung in einer Spracherkennungseinrichtung die Gefahr birgt, Fremdsignale, hervorgerufen durch Atemgeräusche, einzuführen. Man fand heraus, daß die schädlichen Effekte des Atemgeräusches auf die Wortgrenzbestimmung insbesondere dann vorherrschen, wenn ein einzelner Operator müde ist oder wenn er beträchtliche körperliche Aktivität gleichzeitig

609840/0957

-7-

beim Sprechen zeigt. Es existiert die starke Tendenz, am Ende eines isolierten Wortes auszuatmen und zu Beginn einzuatmen. Das Einatmen verursacht einen geringen beachtenswerten direkten Luftstrom auf ein Mikrofon für Nahbesprechung, während das Ausatmen Signalpegel erzeugen kann, die mit den Sprechpegeln vergleichbar sind.

Bekannte Wortgrenzdetektoren weisen im allgemeinen eine grobe Anzeigeeinrichtung für das Vorhandensein von Sprache auf, beispielsweise einen Schwellwerttaster, und sind üblicherweise mit einer eigenen Hysterese versehen; d.h., daß der grobe Sprachtaster nicht eher abschaltet, bis er feststellt, daß für wenigstens eine vorbestimmte Zeit, beispielsweise loo Millisekunden, kein sprachähnlicher Ton vorhanden war. Diese Technik ist notwendig, weil viele Worte natürlicherweise Pausen von erheblicher Länge aufweisen. Bei Nichtvorhandensein der Hysterese würde der Wortgrenzendetektor den ersten Teil des Wortes als ein ganzes Wort interpretieren. Jedoch gibt das Vorhandensein der Hysterese Anlaß zu einer Forderung, nämlich der, daß aufeinanderfolgende Eingangsworte durch wenigstens eine vorbestimmte Zeitspanne getrennt sind, damit sie nicht als ein Einzelwort interpretiert werden. Um dem Vorhandensein einer Hysterese in einem Wortgrenzendetektor Rechnung zu tragen, können Spracherkennungseinrichtungen aus dem Stand der Technik"wieder anlaufen" (d.h. umkehren) um einen bestimmten Betrag (der der Hysteresenachlaufzeit entspricht), um das wahre Ende

Β0984Π/0967

des Wortes zu finden; dies erfolgt üblicherweise durch Speichern aller aufgenommener Merkmale und durch Auslassen derjenigen, die während der festgelegten ümkehrzeit ("backup"-Periode) auftreten. Man könnte meinen, daß die nachteilige Wirkung des Atemrauschens am Ende eines Wortes kompensiert werden könnte, indem man die Umkehrung bzw. den Rücklauf ("backup") um einen weiteren bestimmten Betrag von der probeweisen Wortanfangsgrenze vergrößert. Diese Lösung ist jedoch nicht geeignet, da die Dauer des Atemgeräusches variiert, und selbstverständlich würde, falls kein Atemgeräusch vorhanden wäre, der zusätzliche Rücklauf eine üngenauigkeit einführen. Erfindungsgemäß ist daher eine Einrichtung vorgesehen, die zwischen Sprach- und Atemgeräusch unterscheidet, unabhängig von der Dauer und der Größe des Atemgeräusches. Es ist dann ein wirkungsvoller Rücklauf ("backup") variabler Dauer vorgesehen, abhängig von der Dauer des Atemgeräusches.

Die vorliegende Erfindung bezieht sich auf eine Einrichtung, die akustische Eingangssignale aufnimmt, die isoliert gesprochene Worte enthält, und die hinsichtlich der Worte Erkennungsfunktionen durchführt. Die Einrichtung weist Mittel zum Erzeugen von Merkmalssignalen auf, die Kennmerkmale im aufgenommenen Eingangssignal anzeigen, und ferner Mittel zum Vergleichen der Merkmalssignale, die während der bestimmten Zeitgrenzen auftreten, mit gespeicherten den Worten in einem Vokabular entsprechenden Merkmalen. Die Erfindung betrifft ein verbessertes System zum Anzeigen und Erkennen von Wortgrenzen, das eine auf das Eingangssignal

609840/09S?

ansprechende Einrichtung aufweist, die ein erstes Merkmalsignal erzeugt, das das im wesentlichen kontinuierliche Vorhandensein sprachähnlicher Töne anzeigt, die einem ersten Auswahlkriterium genügen. Es sind Mittel zum Speichern der Merkmalssignale vorgesehen, die während des Vorhandenseins dieses ersten Merkmalssignales auftreten. Es sind weitere auf das Eingangssignal ansprechende Einrichtungen vorgesehen, die ein zweites Merkmalssignal erzeugen, das das Vorhandensein sprachähnlicher Töne anzeigt, die einem zweiten Auswahlkriterium genügen, wobei dieses zweite Auswahlkriterium einschränkender ist als das erste Auswahlkriterium. Außerdem sind Mittel zum Feststellen des im wesentlichen letzten Auftretens des zweiten Merkmalssignales zwischen den gespeicherten MerkmalsSignalen vorgesehen. Die Endgrenze eines eingegebenen gesprochenen Wortes wird als Funktion dieses letzten Auftretens bestimmt.

Gemäß der Erfindung ist eine Einrichtung vorgesehen, die getrennt bzw. isoliert gesprochene Worte anzeigende akustische Eingangssignale empfängt und Erkennungsfunktionen bezüglich dieser Worte durchführt, und die Einrichtungen zur Erzeugung von Kennmerkmale im Eingangssignal anzeigenden Merkmalssignalenaufweist und eine Einrichtung zum Vergleich der Merkmalssignale, die während bestimmter Zeitgrenzen auftreten, mit gespeicherten Merkmalen, die Worten in einem Vokabular entsprechen; wobei die Verbesserung des Systems zum Feststellen der Wortgrenzen gekennzeichnet ist durch

609840/0957

-lo-

eine auf die Eingangssignale ansprechende Einrichtung zum Erzeugen eines ersten das Vorhandensein sprachartiger ein erstes Auswahlkriterium erfüllender Töne anzeigendes Merkmalssignales, durch eine Einrichtung zum Speichern der Merkmalssignale, die während des Vorhandenseins des ersten Merkmalssignales auftreten, durch eine auf das Eingangssignal ansprechende Einrichtung zum Erzeugen eines zweiten das Vorhandensein sprachartiger ein zweites Auswahlkriterium erfüllender Töne anzeigenden Merkmalssignales und durch eine Einrichtung zum Feststellen des im wesentlichen letzten Auftretens des zweiten Merkmalssignales unter den gespeicherten Merkmalssignalen, derart, daß die Endgrenze eines eingegebenen gesprochenen Wortes als eine Funktion des genannten letzten Auftretens bzw. des letzten Ereignisses bestimmt wird.

Bei einer bevorzugten Ausführungsform der vorliegenden Erfindung ist das zweite Merkmalssignal aktiv, wenn entweder ein gesprochenes oder stimmhaftes Phonem oder ein nicht gesprochener bzw. nicht stimmhafter rauschähnlicher Konsonant im Eingangssignal vorhanden ist.

Weitere Merkmale und Vorteile der vorliegenden Erfindung sind den weiteren Ansprüchen zu entnehmen.

Die Erfindung soll nun anhand der beigefügten Zeichnung, in der Ausführungsbeispiele dargestellt sind, näher erläutert werden.

609840/095 7

Es zeigen :

Fig. 1 ein Blockdiagramm einer erfindungsgemäßen Einrichtung/

Fig. 2A und 2B Blockdiagramme bekannter Schaltkreise, die als Merkmalsextraktionseinrichtungen in der Einrichtung gemäß der vorliegenden Erfindung verwendbar sind,

Fig. 3 die Darstellung der Art einer Matrix,

die sich durch das Speichern der Binärmerkmale durch den Schaltkreis nach Fig. ergibt,

Fig. 4 die Darstellung einer zeitnormalisierten Matrix,

Fig. 5 ein Blockdiagramm der Merkmalsextraktionseinrichtung nach Fig. 1 für die Wortgrenze,

Fig. 6 ein Blockdiagramm der Wortisoliereinrichtung nach Fig. 1 und

Fig. 7 eine Reihe grafischer Darstellungen, durch die das Verständnis der vorliegenden Erfindung erleichtert wird.

Es soll nun Bezug genommen werden auf Fig. 1, die ein vereinfachtes Funktionsblockdiagramm einer Einrichtung gemäß der vorliegenden Erfindung zeigt. Eingegebene gesprochene Worte werden von einer Merkmalsextraktionseinrichtung Io aufgenommen, die einen Vorverarbeitungsschaltkrexs 5o und einen

60984 0/09 5 7

-12-

Merkmalsextraktionsschaltkreis 60 aufweist. (Die hier vorkommenden Ausdrücke "eingegebenen gesprochenen Worte", "gesprochenen Worte", "Sprache" oder ähnliche Ausdrücke sollen allgemein jede akustische oder elektrische Darstellung mitgeteilter oder übermittelter Töne beinhalten. Der Schaltkreis 5o ist speziell dafür vorgesehen, Wortmitteilungen direkt von einer Person aufzunehmen oder wortdarstellende elektrische Signale über eine Telefonleitung oder ein Bandgerät. ) Der Vorverarbeitungsschaltkreis 5o verwendet eine Reihe von Bandpaßfiltern, um die Sprache in eine Vielzahl von spektralen Teilsignalen auf Leitungen 5oa zu übertragen. Die Signale auf den Leitungen 5oa werden dem Merkmalsextraktionsschaltkreis 60 zugeführt, der Merkmalsausgangssignale erzeugt auf bestimmten Leitungen einer Zahl von Merkmalsausgangsleitungen 60a, wobei die besonderen Leitungen von den Merkmalen abhängen, die in der empfangenen Sprache enthalten sind. Die Signale auf den Merkmalsausgangsleitungen können z.B. das Vorhandensein gewöhnlich vorhandener Vo^kal- oder Konsonantlaute darstellen.

Bei dem vorliegenden Ausführungsbeispiel sind die Merkmalsausgangsleitungen 60a mit dem Wortgrenzen-Bestimmungsschaltkreis loo verbunden, dessen Ausgangssignale einem Verarbeitungsschaltkreis zugeführt werden, dessen Funktionen und Arbeitsweisen allgemein durch die gestrichelt umrahmte Einheit 7o angedeutet sind. Der Schaltkreis loo, der Gegenstand der vorliegenden Erfindung ist, weist einen "Wortgrenzen-

609840/0957

Merkmalsextraktor" -Block Ho und einen "Wortisolator"-Block 15ο auf. Dieser Schaltkreis soll in Einzelheiten weiter unten beschrieben werden, für den Augenblick genügt es, zu sagen, daß die Ausgangssignale des Schaltkreises loo "isolierte" Gruppen von Merkmalssignalen sind, die einzelne gesprochene Befehlsworte im Eingang darstellen.

Der Verarbeitungsschaltkreis 7o nimmt eine Gruppe von Merkmalssignalen auf und bildet eine zeitabhängige Matrix, wobei diese Funktion durch den Block 71 dargestellt ist. Die Matrixelemente stellen den Zustand eines jeden Merkmalssignales während der Befehlswortdauer dar; d.h., daß die Matrix das Vorhandensein oder Nichtöfyrhandensein eines jeden Merkmales im Verlauf jeder Zeitspalte des Befehlswortes darstellt. Bevor die Operation fortgesetzt wird, ist eine andere Matrix im Verarbeitungsschaltkreis 7o gespeichert worden, dargestellt durch den Block 72. Diese "Lernwort"-Matrix enthält Elemente, die den Zustand der Merkmalssignale darstellen, von denen angenommen wird, daß sie im Verlaufe des Befehlswortes als charakteristische Merkmale erscheinen. Die zwei Matrizen werden dann verglichen, wobei diese Funktion durch den Block 73 dargestellt wird. Der Vergleich wird vorzugsweise auf der Grundlage eines Vergleichs jedes Elementes mit jedem anderen Element durchgeführt und ergibt die Bestimmung des Korrelationsgrades zwischen den beiden Matrizen. Wenn der Korrelationsgrad ausreichend hoch ist, zeigt der Verarbeitungsschaltkreis an, daß das Befehlswort erkannt

609840/0957

-14-

worden ist. Für Vielfachwortvokabularien wird eine Matrix für jedes Lernwort, das das Vokabular umfaßt, gespeichert.

Die Fig. 2 zeigt in weiteren Einzelheiten eine bekannte Merkmalsextraktionseinrichtung, die geeignet ist, als Merkmalsextraktionseinrichtung Io der Fig. 1 zu dienen. Eine vollständige Beschreibung sowohl des Verarbeitungsschaltkreises 5o und der Merkmalsextraktionsschaltung 60 kann in der Veröffentlichung mit dem Titel "Acoustic Recognition of A Limited Vocabulary of Continuous Speech" von T.B.Martin, veröffentlicht durch University Microfilms, Ann Arbor, Michigan, U.S.A., nachgelesen werden. Es soll jedoch betont werden, daß sich die vorliegende Erfindung mit bereits verarbeiteten Merkmalssignalen befaßt, und daß jede geeignete Einrichtung zum Erhalten der Merkmalssignale verwendet werden kann. Demgemäß werden die hier vorkommenden Einrichtungen in Einzelheiten auch nur soweit beschrieben, als notwendig ist, um das Verständnis der Einrichtungsteile zu erleichtern.

Fig. 2A ist ein Blockdiagramm der Vorverarbeitungsschaltung 5o. Ein Umformer 51, gewöhnlich ein Gradientenmikrofon, nimmt eingehende gesprochene Worte auf und erzeugt elektrische zeitabhängige Signale, die die aufgenommenen Laute oder Töne darstellen. Das Ausgangssignal des Umformers 51 wird über einen Vorverstärker 52 neunzehn benachbarten Bandpaßfiltern in einer Reihe von Filtern zugeführt. Jedes Filter in der Reihe erzeugt ein Ausgangs-

609840/0957

signal, das zu dem Teil des Eingangssignales in Beziehung steht, das im Bereich der von dem speziellen Filter durchgelassenen Frequenzen liegt, üblicherweise haben die Filter Mittelfrequenzen von etwa 25o bis 75oo Hz, wobei die kleinste Filterbandbreite bei 15o Hz liegt.

Das Ausgangssignal eines jeden Filters in der Filterreihe 53 wird einzeln einem Doppelweggleichrichter und einer Tiefpaßfilterreihe 54 zugeführt. Nach Gleichrichtung und Filterung stellen die Ausgangssignale der Filterreihe im wesentlichen die Energiepegel der Eingangssignale bei etwa den Mittelfrequenzen eines jeden der Bandpaßfilter in der Filterreihe 53 &r. Anders betrachtet, stellen die Signale auf den Leitungen 54a zusammengenommen die Einhüllende des Energie/Frequenzspektrums der aufgenommenen Eingangssignale dar, genommen über dem interessierenden Frequenzbereich. Die neunzehn Informationskanäle auf den Leitungen 54a

(komprimiert)

sind logarithmisch gestaucht, um die spektralen Teilausgangssignale auf den Leitungen 5oa der Vorverarbeitungseinrichtung

(Kompression)

zu erzeugen. Logarithmische Stauchung erleichtert das nachfolgende Verfahren auf zweierlei Art. Zunächst liefert sie eine dynamische Bereichsstauchung bzw. Bereichsverkleinerung, die die Anforderungen an die technische Ausführung des Merkmalsextraktionsschaltkreises 6o vereinfacht. Zweitens können durch Verwendung des Logarithmus Vergleichsverhältnisse der spektralen Teilsignale leicht durch Subtraktion errechnet werden. Verhältnisse sind wünschenswerte Verfahrensausdrucksmittel, da sie unabhängig sind von Änderungen der gesamten

609840/0957

-16-

Signalamplituden. Diese Eigenschaft ist besondert vorteilhaft in einem System, in dem eingegebene Sprache veränderlicher Lautstärke erkannt werden soll.

Im Diagramm der Fig. 2A ist der einzelne logarithmische Verstärker 56 ein Zeitmultiplexverstärker zur Vermeidung der Notwendigkeit/ neunzehn identische Verstärker zu verwenden, um die Stauchung zu erreichen. Die Ausgangssignale auf der Leitung 54a werden durch eine Multiplexeinrichtung 55 wirksam abgetastet und die abgetasteten Signale passieren eins zur Zeit den Zeitmultiplexverstärker 56. Eine Demultiplexer-Einrichtung 57 "rekonstruiert" dann komprimierte spektrale Teilsignale auf den Leitungen 5oa aus den verarbeiteten abgetasteten Signalen. Die Abtastfolgefrequenz der Multiplex- und Demultiplex-Einrichtung liegt über 1 kHz und ist sicherheitshalber höher als notwendig, um Signalbandweiten zu erhalten. Diese Technik des "time-sharing" für einen einzelnen logarithmischen Verstärker ist im Stand der Technik bekannt und beispielsweise in der US-PS 3 588 363 mit dem Titel "Word Recognition System for Voice Controller", wie auch in der oben bereits erwähnten Veröffentlichung von T.B.Martin, offenbart. Die spektralen Teil- oder Komponentensignale auf den Leitungen 5oa sind mit E₁, E₀, E_...E,„ bezeichnet, und

ι λ 6 iy

man kann sich diese vorstellen als stellten sie die Logarithmen der Energie in den charakteristischen Frequenzbändern der Filter 53 dar.

-17-

609840/0957

Es sei daran erinnert, daß die spektralen Komponentensignale auf den Leitungen 5oa dem Merkmalsextraktionsschaltkreis 60 (Fig. 1) zugeführt werden, der die Anwesenheit von Eigenschaften der spektralen Komponentensignale abtastet, die vorher ausgewählten Eigenschaften oder "Merkmalen" von eingegebenen Worten entsprechen. Im aus Illustrationszwecken beschriebenen bekannten Merkmalsextraktionsschaltkreis wird die Abtastung der Eigenschaften oder die "Merkmalsextraktion"

teilweise durch Bestimmung oder Ableitung von Energiesummen erreicht

und -mengen- bekannt als "slope" und "broad slope"-Kenndaten (Kenndaten des Verlaufs oder Abfalls und Gesamtverlaufs und Gesamtablaufs der entsprechenden Kurve). Diese Mengen oder Werte liefern, wenn über bestimmte Abschnitte des Frequenzspektrums genommen, eine Anzeige für die Polarität und Größe der Steigung oder Abfalls bzw. des Verlaufs der Eingangshüllkurve. Die Art und Weise, auf die diese Mengen oder Werte erhalten werden, ist in der oben erwähnten Veröffentlichung und in dem oben erwähnten Patent beschrieben.

Die Fig. 2B zeigt ein vereinfachtes Blockdiagramm des bekannten Merkmalsextraktionsschaltkreises 16, der die spektralen Teilsignale über die Leitung 5oa empfängt. Der Schaltkreis 60, der ebenfalls in der genannten Veröffentlichung und in dem genannten Patent beschrieben ist, umfaßt logische Blöcke 61 und 62, die Sätze oder Scharen von slope- und broad slope-Werten ableiten, die von einem logischen Erkennungsblock 63 für "ein weites Klassenmerkmal" aufgenommen

609840/0957

-18-

werden. Der Block 63 verwendet Gruppen von Operationsverstärkern und einen geeigneten peripheren Schaltkreis, um Merkmalssignale 63a für eine weite Klasse zu erzeugen, die das Vorhandensein gewisser breit oder weit klassifizierter phonetischer Kennwerte in den eigegebenen Worten anzeigen. Beispiele der breiten oder weiten Klassifikationen sind "Vokal/vokalähnlich", "nur stimmhaft", "Stoß", "stimmhafter rauschähnlicher Konsonant" usw. Die Signale 63a wie auch die spektralen Teilsignale, slope- und broad slope-Signale werden von einem logischen "Grundmerkmal"-Erkennungsblock 64 aufgenommen. Dieser Block, der Komponenten enthält, die ihrer Natur nach dem Block 63 ähnlich sind, erzeugt die Merkmalssignale, die das Vorhandensein spezifischer akustischer Merkmale in den eingegebenen gesprochenen Worten anzeigen. Es sei hervorgehoben, daß jedoch die zu beschreibende Erfindung nicht auf irgendeine besondere Form der Merkmalssignalerzeugung beschränkt ist.

Die Fig. 3 illustriert die Arbeitsweise des Verarbeitungsschaltkreises 7o, in dem die Matrixart dargestellt ist, die sich beim Speichern der Zustände der binären Merkmale ergeben, die im Verlaufe des Befehlswortes erscheinen. Bei der vorliegenden Ausfuhrungsform werden 31 binäre Merkmalssignale, die hier mit f. bis f_ bezeichnet sind, von einer 31-Merkmalsausgangsleitung 6oa abgeleitet und zeigen kontinuierlich das Vorhandensein oder Nichtvorhandensein spezifischer Merkmale an. In dem Beispiel gemäß Fig. 3 ist angenommen aus Illustrations-

6 09840/09 5? _₁₉_

zwecken, daß das eingegebene Wort eine zeitliche Länge von 800 Millisekunden hat. Dies bedeutet, daß die resultierende Matrix Ausmaße von 31 χ 8oo hat. Anders ausgedrückt, sie zeichnet das Vorhandensein oder Nichtvorhandensein jedes von 31 Merkmalen über 800 abgetastete "Zeitspalten" auf, wobei jede Zeitspalte 1 Millisekunde lang ist. Wie man den symbolisch dargestellten "I¹¹¹S (aus darstellerischen Gründen frei eingesetzt) der Figur entnimmt, treten unterschiedliche Merkmale für sich ändernde Abschnitte der Wortlänge auf, wobei ein einzelnes Merkmal gewöhnlich kontinuierlich für mehrere Millisekunden auftritt. Das Nichtvorhandensein einer "1" an einer Matrixstelle bedeutet eine "O"; d.h. das Nichtvorhandensein des Merkmals.

Die Zeitnormalisierungsfunktion, durchgeführt durch den Schaltkreis 7o, reduziert jede eingegangene Wortmatrix auf eine 31 χ 16 - Matrix, wobei die Zeitachse auf 16 normalisierte Zeitspalten reduziert wird. Die Normalisierung kann auf einer Reihe von Wegen durchgeführt werden, wobei eine Technik die Auswahl der normalisierten Zeitperioden verwendet, die eine Mehrheit an "1" enthält. Das arithmetische Verfahren zur Durchführung dieser Technik ist sehr einfach und verwendet grundsätzlich einfache Division und Zählung. Um dies zu veranschaulichen, in dem Beispiel nach Fig. 3 würden die 800 Zeitspalten für jedes Merkmal in Gruppen zu 5o geteilt werden, wie durch die mit B bis B _g bezeichneten Klammern gezeigt. Jede Klammer enthält 5o Zeit-

609840/0957

-20-

-2ο-

spalten, so daß in diesem Beispiel eine einzelne normalisierte Zeitspalte für ein Merkmal eine "1" zugeordnet erhält, wenn die Klammern wenigstens 26 dieser "1" enthält. In der Fig. 3 weist das Merkmal f eine Mehrheit von "1" in der von der Klammer Bg eingeschlossenen Zeit auf. Daher wird die sechzehnte und zuletzt normalisierte Zeitspalte für f eine "1" enthalten. Eine ganze normalisierte 31 χ Matrix wird auf diese Weise durch Prüfen des Zählerstandes einer unter jeder der 16 Klammern für jedes der 31 Merkmale gebildet. In dem gegebenen Beispiel ist die Gesamtzeit ein genaues Vielfaches von 16, wenn dies jedoch nicht der Fall ist, wird der Rest zwischen den Klammern auf eine spezielle Art und Weise aufgeteilt. Beispielsweise wenn ursprünglich 8o3 Zeitspalten (Millisekunden) vorhanden waren, würde jede der ersten drei Klammern 51 Millisekunden beinhalten anstatt 5o und der Rest der Klammern würde 5o Millisekunden beinhalten. Die Fig. 4 stellt eine typische normalisierte Matrix für ein Befehlswort dar, wobei die "l"en wiederum gezeigt sind und die "0"en durch Weglassen einer "1" an der betreffenden Matrixstelle dargestellt sind.

Eine detaillierte Beschreibung der Arbeitsweise eines geeigneten Verarbeitungsschaltkreises 7o, in Form eines genau programmierten Allzweck-Computers, wird in der oben genannten parallelen Patentanmeldung gegeben. Wie bereits angedeutet, wird eine zeitnormalisierte Matrix für das Befehlswort gebildet. Bevor die Operation fortgesetzt wird,

609840/0957

-21-

wird eine andere zeitnormalisierte Matrix der gleichen Art im Computer gespeichert, dargestellt durch den Block 72. Diese zuvor gespeicherte Matrix enthält Elemente, die den Zustand der Merkmalssignale darstellen, von denen angenommen wird, daß sie im Verlauf des Befehlswortes auf charakteristische Art und Weise erscheinen, und die z.B. während einer "Lern"-Phase oder "-Periode" gebildet werden können, wie in der oben genannten parallelen Patentanmeldung dargelegt ist. Die zwei Matrizen werden dann miteinander verglichen, um den Korrelationsgrad zwischen den beiden zu bestimmen, wie oben und im Detail in der oben erwähnten parallelen Patentanmeldung diskutiert ist. Es soll jedoch hervorgehoben werden _r daß die vorliegende Erfindung bei jedem Verarbeitungsschaltkreis 7o anwendbar ist, der die Merkmalssignale, die während des spezifizierten Intervalles auftreten, mit einem gespeicherten Satz Erwartungsmerkmale vergleichen kann, so daß die Erfindung nicht auf irgendeinen besonderen Verarbeitungsschaltkreis 7o beschränkt ist.

Es soll die Aufmerksamkeit auf den Wortgrenzen-Bestimmungsschaltkreis nach Fig. 1 gelenkt werden, der einen "Wortgrenzen-Merkmalsextraktor"-Block Ho und einen "Wortisolator" -Block 15o aufweist. Der Schaltkreis im Block Ho extrahiert einzelne Merkmale, die für die Bestimmung der Grenzen notwendig sind und ist aus darstellerischen Gründen so gezeigt, als sei er getrennt vom Hauptmerkmalsextraktor 6o, Es versteht sich jedoch, daß der Block Ho typisch Teil eines einzelnen Merkmalsextraktionsmoduls sein kann, und

609840/0957

-22-

daß die so extrahierten Merkmale in anderen Phasen des Erkennungsverfahrens zusätzlich zur GrenζenbeStimmung Verwendung finden können.

Es soll nun Bezug genommen werden auf Fig. 5/ in der ein Blockdiagramm des Wortgrenzen-Merkmalsextraktors Ho dargestellt ist. Wie zuvor bereits angedeutet, sind die spektralen Teilsignale 5oa, d.h. E , Ep,...E _ verfügbar als Eingangssignale zum Merkmalsextraktor 6o (Fig. 1), und diese Signale werden außerdem dem Wortgrenzen-Merkmalsextraktor Ho zur Verfügung gestellt, wie in der Fig. 5 gezeigt und schematisch in der Fig. 1 durch die Leitungen 6ob dargestellt ist. Zwecks klarerer Darstellung sind diese Signalverbindungsleitungen zum Schaltkreis nach Fig. 5 nicht gezeigt, es versteht sich, daß jedes dieser Signale als Eingangssignale zur Verfügung stehen, entweder direkt vom Vorverarbeitungsschaltkreis 5o oder über den Merkmalsextraktionsschaltkreis auf den Leitungen 6ob. Die Fig. 5 zeigt im Stand der Technik bekannte Operationsverstärker, die zur Merkmalsextraktion verwendet werden und die Anregungs- oder Ansteuerungseingangssignale wie auch Sperr- oder Unterdrückungseingangssignale aufnehmen und ein analoges Ausgangssignal erzeugen, das dem Anteil proportional ist, um den die Summe der Signalamplituden an den Ansteuerungseingängen die Summe der Signalamplituden an den Sperr- oder Unterdrückungseingängen übersteigt.

In der Fig. 5 wird eine Schaltung 12o verwendet, um ein

Merkmal, das mit f bezeichnet ist, zu extrahieren, das auf

609840/095?

-23-

einer Leitung 12oa erscheint und als ein "grober" Sprachdetektor bei der vorliegenden Ausführungsform dient. Vier Operationsverstärker, bezeichnet mit 121, 122, 123 und 124, nehmen jeweils spezifizierte Signale der spektralen Teilsignale 5oa als Anregungs- oder Ansteuerungs-Eingangssignale auf. Der Verstärker 121 bildet die Summe von E bis E., der Verstärker 122 die Summe von E bis E , der Verstärker 123 die Summe von E bis E . und der Verstärker 124 die Summe von E₁₅ bis E _g. Die Ausgangssignale dieser vier Verstärker werden den Anäteuerungs- oder Anregungs-Eingangssignalanschlüssen eines anderen Operationsverstärkers 125 zugeführt. Das Ausgangssignal des Verstärkers 125 wird daher als ein Maß für das Vorhandensein eines bestimmten Energieanteils in Gruppen der spektralen Teilsignale angesehen, die das betrachtete Sprach- oder Lautspektrum überdecken. Wenn die einen Teil des spektralen Bereichs darstellende Energiesumme einen vorbestimmten Stellwert übersteigt, erzeugt der Operationsverstärker 125 ein Ausgangssignal. Ein Integrator 126 nimmt das Ausgangssignal des Verstärkers 125 auf und ist mit geeigneten Zeitkonstanten ausgestattet, derart, daß sein Ausgangssignal fast sofort ansteigt beim Abtasten eines Ausgangssignales vom Operationsverstärker 125, jedoch nicht eher verschwindet, bis nicht für eine bestimmte Zeitdauer, z.B. für loo msec., keine Ausgangssignale vom Verstärker 125 auftreten. Diese "Hysterese"-Maßnahme ist notwendig, um ein Verschwinden des groben Sprach- oder Lautmerkmales f während einer natür-

6 09840/0957

-24-

lichen Pause in einem gesprochenen Wort zu vermeiden. Bei NichtVorhandensein der Hysterese würde der grobe Sprachdetektor den ersten Teil eines Wortes, das eine Pause enthält, als ein Gesamtwort ansehen.

Die Schaltkreise I3o und I4o werden verwendet, um Merkmale, die mit f_ und f_, bezeichnet sind, zu extrahieren,

ti l—

die, wie der Anmelder herausgefunden hat, das Ende der gesprochenen Worte charakterisieren. Diese zwei Merkmale weisen einen solchen Charakter auf, daß sie nicht beim Atemrauschen auftreten, und es ist unwahrscheinlich, daß sie im Hintergrundrauschen auftreten. Der Schaltkreis 13o weist einen Operationsverstärker 131 auf, der die Erregungs- oder Ansteuerungseingangssignale E_, E,, E_, E₀ und E„ aufnimmt,

b b / ο y

und einen Operationsverstärker 132, der die Signale E₁

ίο,

E , E„, E -und E. als Ansteuerungseingangssignale aufnimmt. Das Ausgangssignal des Verstärkers Bl wird einem Integrierschaltkreis 133 zugeführt, dessen Ausgangssignal wiederum einem anderen Integrationsschaltkreis 135 zugeführt wird. Das Ausgangssignal des Verstärkers 131 wird außerdem direkt einem negativen Eingangssignalanschluß eines Integrationsschaltkreises 135 zugeführt, so daß dieser Integrator mit dem Differenzsignal zwischen dem Ausgangssignal des Integrators 133 und dem Ausgangssignal des Verstärkers 131 arbeitet. Die Integrationsschaltkreise 134 und 136 sind auf die gleiche Art und Weise miteinander verbunden, um das Ausgangssignal

609840/0957

des Verstärkers 132 aufzunehmen. Die Ausgangssignale der Integrationsschaltkreise 135 und 136 stellen Eingangssignale für das NOR-Gatter 137 dar, dessen Ausgangssignal, das auf der Leitung I3oa erscheint, das extrahierte Merkmal, f , darstellt, das u.a. das Vorhandensein eines stimmhaften phonetischen Merkmals in der eingegebenen Sprache oder dem eingegebenen Laut anzeigt. Das Merkmal f_ wird als Funktion der Schwellwertenergie in der Summe E₁. bis E- oder in der Summe E bis E₁₄ angesehen (es sei daran erinnert, daß mit logarithmischen Werten gearbeitet wird, so daß in der Tat ein Produkt der Energien über den interessierenden Frequenzen bestimmt wird.) Die Integratoren und 134 sind mit Zeitkonstanten versehen, die etwa fünfzehnmal so groß sind wie die Zeitkonstanten der Integratoren 135 und 136. Somit geben die Eingangssignale zum NOR-Gatter 137 die Differenz zwischen einer relativ langen Zeitintegration und einer relativ kurzen Zeitintegration wieder. Daher bewirkt ein relativ schneller Energieabfall in jedem der spektralen Teilenergiebänder ein logisches "!"-Eingangssignal zum NOR-Gatter 137, der wiederum bewirkt, daß f_ auf O geht.

Der Schaltkreis I4o weist einen Operationsverstärker auf, der Signale E_g bis E_g als Sperr-Eingangssignale aufnimmt und die Signale E₁₅ bis E.g als Ansteuerungs- oder Anregungseingangssignale. Außerdem nimmt der Operationsverstärker 142 die Signale E bis E₄ als Sperr-Eingangs-

609840/0957

-26-

signale und die Signal E₅ bis E- als Ansteuerungseingangssignale auf. Die Ausgangssignale der Verstärker 141 und werden entsprechend Integrationsschaltkreisen 143 und zugeführt, von denen jeder mit einer Zeitkonstanten der Größenordnung von Io msec, versehen ist, wobei diese Integratoren dazu dienen, einen Verlust des Ausgabemerkmals während kurzer Pausenintervalle zu verhindern. Die Ausgangssignale der Integrationsschaltkreise 143 und 144 werden entsprechend den Ansteuerungseingängen der Operationsverstärker 145 und 146 zugeführt. Diese Verstärker haben außerdem Sperreingänge, die ein als "V/VL"-Signal bezeichnetes Signal aufnehmen, wobei "V/VL" als "Vokal/vokalähnlich" aufzufassen ist. Das V/VL-Merkmal, das im Stand der Technik bekannt ist, wird ausgehend von verschiedenen Energiebandverhältnissen abgeleitet, die die erwarteten Formantpositionen verschiedener Vokale anzeigen, wie in der oben erwähnten Veröffentlichung von T.B.Martin beschrieben ist. Die Ausgangssignale der Verstärker 145 und 146 werden einem OR-Gatter 147 zugeführt, dessen Ausgangssignal auf der Leitung 14oa das extrahierte Merkmal f darstellt, dasUas Vorhandensein eines stimmlosen rauschähnlichen Konsonanten in der eingegebenen Sprache oder dem eingegebenen Laut anzeigt. Wie man dem Schaltkreis 14o entnehmen kann, zeigt das Merkmal f im Grunde eine größere SummeVon Energiewerten in den höherfrequenten Kanalbändern relativ zu den niederfrequenten Kanalbändern an. Da gewisse Vokale oder vokalähnliche Laute

609840/0957 ~²¹~

diese Eigenschaft auch haben, wird das V/VL-Merkmal dazu verwendet, falsche Anzeigen des stimmlosen rauschähnlichen Konsonantenmerkmales zu unterdrücken.

Es soll nun Bezug genommen werden auf die Fig. 6, in der ein Blockdiagramm des Wortisolators I5o dargestellt ist. Gewöhnlich speichert der Wortisolator die Merkmalssignale, die auf den Merkmalsausgangsleitungen 6oa im Verlauf eines gesprochenen Wortes erscheinen, und führt dann die gespeicherten Merkmale dem Schaltkreis 7o (Fig. 1) zu, wobei die herausgelesenen Worte des Wortisolators vollständige Worte sind, deren Grenzen bestimmt worden sind. Bei der vorliegenden Ausführungsform werden die Zeiten des Erscheinens gewisser Merkmalsvorgänge oder -ereignisse in der eingegebenen Sprache oder dem eingegebenen Laut aufgeschrieben und nachfolgend dazu verwendet, die aus dem Wortisolator 15o herausgelesenen Informationsgrenzen zu bestimmen.

Die Merkmalsausgabeleitung 12oa ist zu einem Differenzierschaltkreis 151 geführt, der das Einsetzen oder das Abbrechen des Merkmales f anzeigt. Das Einsetzen der Sprache oder des Lautes bewirkt ein Ausgangssignal auf der Leitung 151X, während das Sprach- oder Lautende (grob bestimmt) ein Ausgangssignal auf der Leitung 15IY bewirkt. Das Signal auf der Leitung 151X stellt einen Adressengenerator 152 zurück, der ein Digitalzähler sein kann, und steuert ein Gatter 153, das wiederum Taktsignale durchläßt, die den Adressengenerator schrittweise fortschalten, indem der Grundtakt von dem Wort-

ß 0 9 8 4 0 / 0 9 5 7

-28-

erkennungssystem verwendet wird (siehe z.B. die zur Fig. 2 gehörende Beschreibung). Der Adressengenerator führt die Adressen einem Speicher mit direktem Zugriff (RAM) 154 über eine Leitung 152X zu, wobei die Adressen mit der Grundtaktfrequenz des Worterkennungssystems, die beispielsweise 1 kHz betragen kann, schrittweise fortgeschaltet bzw. weitergegeben werden. Das Signal auf der Leitung 151X leitet außerdem das Laden des Speichers 154 ein. Somit wird der Zustand eines jeden der 31 Merkmalssignale f_Q bis f unter einer ersten Adresse (die 31 Speicherbits enthalten würde) gespeichert, wird der Zustand der 31 Merkmalssignale f_Q bis f₃ , die 1 msec, später erscheinen, unter der zweiten Adresse gespeichert usw. Die Adressen auf der Leitung 152X stehen einem Adressenspeicherschaltkreis 155 ständig zur Verfügung, der durch das Vorhandensein eines Signales auf entweder der Merkmalsleitung 13oa oder 14oa durch Betätigung eines OR-Gatters 156 gesteuert oder freigegeben wird. Jedesmal wenn der Adressenspeicherschaltkreis 155 angesteuert oder freigegeben wird, löscht er seine zuvor gespeicherte Adresse und bringt die letzte Adresse in die Ausgangsstellung. Auf diese Art und Weise hält der Adressenspeicherschaltkreis eine laufende Aufzeichnung der letzten Seiten aufrecht, zu denen ein Signal entweder auf der Leitung I3oa (Merkmal f_) oder der Leitung 14oa (Merkmal f ) erschienen ist.

Die Operation wird in der beschriebenen Art und Weise fortgesetzt, bis das Ende eines Signales auf der Leitung 12oa (Merkmal f ) bewirkt, daß der Differenziator 151 ein

609840/0957

-29-

Signal auf der Leitung 151Y erzeugt. Das Signal auf der Leitung 151Y setzt den Adressengenerator zurück und steuert ein Gatter 157, das wiederum relativ hochfrequente Taktsignale durchläßt, die den Adressengenerator 152 mit einer relativ hohen Taktfrequenz schrittweise fortschalten, z.B. bei einer Frequenz von 1 mHz. Das Signal auf der Leitung 151Y dient außerdem dazu, einen Koinzidenzdetektor 158 über eine kurze Verzögerung, D, anzusteuern bzw. freizugeben. Der Koinzidenzdetektor nimmt an seinen zwei Eingängen die im Adressenspeicherschaltkreis 155 gespeicherte Adresse und die laufende Adresse vom Adressengenerator 152 auf der Leitung 152X auf. Außerdem leitet das Signal auf der Leitung 15IY das Herauslesen der im Speicher 154 mit direktem Zugriff gespeicherten Information ein, wobei das Lesen durch Adressen auf der Leitung 152 gesteuert wird, die, wie angedeutet, nun mit der hohen Taktfrequenz schrittweise weitergeschaltet werden. Das Herauslesen wird solange fortgesetzt, bis der Adressengenerator 152 einen Zählerstand erreicht, der mit dem Zählerstand übereinstimmt, der im Adressenspeicherschaltkreis gespeichert worden ist, worauf der Koinzidenzdetektor ein Signal auf der Leitung 158X abgibt, der das Auslesen aus dem Speicher 154 mit direktem Zugriff beendet und sowohl den Speicher 154 als auch den Adressenspeicher 155 löscht. Somit sieht man, daß die Merkmalssignale eines aufgenommenen gesprochenen Wortes aus dem Speicher 154 mit direktem Zugriff in der aufgenommenen Reihenfolge herausge-

609840/0957 __3o_

-3ο-

lesen werden, und daß die letzte Gruppe der 31 Merkmalssignale, die herausgelesen werden sollen, infolge des letzten Erscheinens der f_o oder f„ im Verlaufe des eingegebenen gesprochenen Wortes bestimmt wird. Auf diese' Weise dient der Schaltkreis loo dazu, die hintere Grenze eines bestimmten gesprochenen Wortes zu "überlagern", wobei der Betrag der "überlagerung" veränderlich ist und abhängt von dem letztmaligen Auftreten gewisser identifizierbarer Merkmale in dem eingegebenen gesprochenen Wort. Sobald die Merkmalssignale auf den Leitungen 15oA aufgenommen sind durch den Schaltkreis 7o, kann die Matrixbildungsroutine (-programm) (Block 71) leicht in den Zustand versetzt werden, isolierte Worte aufzunehmen, die wenigstens eine minimale Dauer aufweisen (um zu vermeiden, daß äußerst kurze Laute als gesprochene Laute interpretiert werden.) Alternativ dazu könnte der letzte Zählerstand oder die letzte Zahl, die in dem Adressenspeicherschaltkreis gespeichert ist, leicht abgefragt werden, um zu bestimmen, ob ein aufgenommenes gesprochenes Wort die geforderte Minimaldauer hatte.

Die Kurven der Fig. 7 erleichtern das Verstehen der Arbeitsweise der Erfindung. Die Kurve 7A stellt die Lautenergie eines gesprochenen Wortes dar, das etwa bei einer Zeit t einsetzt und etwa bei einer Zeit t endet, wobei angenommen ist, daß der Sprecher hinterher ein Atemgeräusch nach Vervollständigung des Wortes abgibt und das Atemgeräusch

609840/0957

bis zu einer Zeit t₃ andauert. Die Kurve 7B zeigt die Ausgangssignalform, die von einer groben Sprachgrenzenbestimmungseinrichtung erhalten wird, die über den weiten spektralen Energiebereich mit Hysterese arbeitet, wie das Merkmal f . Man erkennt, daß das Merkmal sehr bald nach dem Einsetzen des gesprochenen Wortes erscheint; d.h. zu einer Zeit, die im wesentlichen als t angesehen werden kann. Das Merkmal bleibt für die Dauer der Lautenergie (t_) bestehen und setzt sich fort bis zur Zeit t. aufgrund der inherenten Hysterese, die dem Merkmal f zugeordnet ist. Die inherente oder zugehörige Verzögerungszeit ist mit h bezeichnet. In der grafischen Darstellung 7C ist eine Art von Wortgrenzenbestimmung dargestellt, die dadurch erhalten werden könnte, daß man die feste Zeit h von dem Ende des Merkmals f der groben Sprachbestimmung überlagert. Dies ergäbe eine Wortgrenzenbestimmung von etwa t. bis t₃; d.h. eine Grenzermittlung, die in nicht korrekter Weise das Atemgeräusch als Teil des gesprochenen Wortes enthält.

Die grafische Darstellung 7D zeigt die logische Funktion fr, oder f_, die als typisch erwartet werden könnte als das Ausgangssignal des OR-Gatters 156 (Fig. 6) für das betrachtete gesprochene Wort. Abhängig von den charakteristischen Merkmalen des Wortes könnte das spezifische Merkmal f„ oder f_ zu Zeiten im Verlauf des Wortes erscheinen oder kontinuierlich im Verlaufe des Wortes, jedoch ist die bedeutende Sache die, daß f„ oder f_n scheinbar immer am

609840/09 5 7 _₃₂_

gesprochenen Wortende vorhanden ist, jedoch nicht im Atemgeräusch. Dementsprechend erkennt man, daß die in der grafischen Darstellung 7D gezeigte Funktion für den letzten Zeitraum in etwa gleichzeitig mit t₂ "abschaltet". Die durch den Schaltkreis gemäß Fig. 6 somit bestimmte Wortgrenze ist in der grafischen Darstellung 7E gezeigt; nämlich, eine Grenze, die bei t₁ beginnt und bis zum letzten Auf-

fortdauert treten von f^ oder f^, vor dem Ende von f/, d.h. bis zu der

Zeit t₂.

Die Erfindung ist in bezug auf eine besondere Ausführungsform beschrieben worden, jedoch werden Änderungen im Rahmen der Erfindung dem Fachmann geläufig sein. Zum Beispiel während die beschriebene Ausführungsform eine veränderliche Wortgrenzenüberlagerung am Ende eines Wortes betont, versteht es sich, daß die gleiche Art von Technik für den Wortanfang verwendet werden kann. Dies kann beispielsweise dadurch erreicht werden, daß man einen zweiten Adressenspeicher und Koinzidenzdetektor im Schaltkreis nach Fig. vorsieht, wobei diese zusätzlichen Schaltkreise dazu verwendet werden, die erste Adresse anzuzeigen oder abzutasten, bei der Wortgrenzenmerkmale als vorhanden gefunden werden (wie auch die Bestimmung des letzten Auftretens, wie beschrieben) . Außerdem sei erwähnt, daß eine feste überlagerung (back-up) verwendet werden kann, falls gewünscht, in Verbindung mit und zusätzlich zu der hier beschriebenen variablen Überlagerung oder Zurückstufung (back-up). Ferner sei beachtet, daß das wirksame Zurückstufen oder überlagern er-

609840/0957

-33-

reicht werden kann/ indem man Merkmale in einem Schieberegister oder irgendeinem geeigneten Speicher speichert als eine Alternative zu dem hier beschriebenen Speicher mit direktem Zugriff. Es sei außerdem vermerkt, daß der Speicher mit direktem Zugriff 154 ohne weiteres Teil des Schaltkreises 7o sein kann oder daß, ganz allgemein, die Funktionen gemäß Fig. 6 erhalten werden können, zumindest teilweise, indem man software-Anwendungen verwendet. Schließlich sei vermerkt, daß die Merkmalssignale f_ und/ oder f , die zur Bestimmung der Gesamtwortgrenze verwendet werden (d.h. das Ausgangssignal des OR-Gatters 156) ergänzt werden können mit zusätzlichen Merkmalen, bei denen festgestellt wurde, daß sie Sprache eines bestimmten Vokabulars charakterisieren und daß sie im allgemeinen frei sind von Störlauten wie Atemrauschen. So zeigt beispielsweise die Fig. 5 einen Schaltkreis 19o, der ein mit f_D bezeichnetes Merkmal erzeugt, das als " inverse Steigesungslücke" (inverse slope gap) bezeichnet wird. Dieser Schaltkreis weist den gleichen allgemeinen Aufbau auf wie der Schaltkreis 13o, mit der Ausnahme, daß die Anregungs- oder Ansteuerungseingangssignale der zwei Operationsverstärker die Broad Negative Slopes ("BNS") BNS- bis BNS und die Broad Positive Slopes ("BPS") BPS^ bis BPS_n sind. Die BNS- und BPS-Werte bzw. Beträge werden von den spektralen TeilSignalen durch den broad slope logic-Schaltkreis 61 (Fig. 2B) abgeleitet, wie ausführlich in der US-PS 3 821 472 beschrieben ist. Das sich

609840/0957 _₃₄_

ergebende Merkmal f ist ein Kennmerkmal der Wortendungen, die mit langsam abfallenden Energien enden; z.B. das Wort "amen". Die Verwendung von f als ein zusätzliches Eingangssignal zum OR-Gatter 156 nach Fig. 6 würde dementsprechend eine vorzeitige Grenzenbestimmung dieses Typs Vokabularwort verhindern.

609840/0957

Claims

Patentansprüche

1. Einrichtung zum Feststellen von Wortgrenzen für Spracherkennungseinrichtungen, die getrennt gesprochene Worte anzeigende akustische Eingangssignale empfängt und Erkennungsfunktionen bezüglich dieser Worte durchführt und die Einrichtungen zur Erzeugung von Kennmerkmale im Eingangssignal anzeigenden Merkmalssignalen aufweist und eine Einrichtung zum Vergleich der in festgelegten Zeitgrenzen auftretenden Merkmalssignale mit gespeicherten Wörtern eines Vokabulars entsprechenden Merkmalen, gekennzeichnet durch

a) eine auf die Eingangssignale ansprechende Einrichtung zum Erzeugen eines ersten das Vorhandensein sprachartiger ein erstes Auswahlkriterium erfüllender Laute anzeigenden Merkmalssignales,

b) durch eine Einrichtung zum Speichern der Merkmalssignale, die während des Vorhandenseins oder des Erscheinens des ersten Merkmalssignales auftreten,

c) durch eine auf das Eingangssignal ansprechende Einrichtung zum Erzeugen eines zweiten das Vorhandensein sprachartiger ein zweites Auswahlkriterium erfüllender Laute anzeigenden Merkmalssignales und

d) eine Einrichtung zum Feststellen des im wesent-

■609840/0957 __c

lichen letzten Auftretens oder Erscheinens des zweiten Merkmalssignales unter den gespeicherten Merkmalssignalen, derart, daß die hintere Grenze eines eingegebenen gesprochenen Wortes als eine Funktion des genannten letzten Auftretens bzw. des letzten Ereignisses bestimmt wird.

2. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß das zweite Auswahlkriterium enger ist als das erste Auswahlkriterium.

3. Einrichtung nach Anspruch 2, dadurch gekennzeichnet, daß das erste Merkmalssignal hinsichtlich seiner Abschaltcharakteristik mit einer vorbestimmten Verzögerung versehen ist.

4. Einrichtung nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die Einrichtung zum Erzeugen des zweiten Merkmalssignales eine Einrichtung aufweist, die auf die Eingangssignale anspricht und ein Anzeigesignal für das Vorhandensein eines stimmhaften phonetischen Kennmerkmales in den Eingangssignalen erzeugt.

5. Einrichtung nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß die Einrichtung zur Erzeugung des zweiten Merkmalssignales eine Einrichtung aufweist, die auf die Eingangssignale anspricht und ein Anzeigesignal

609840/0957

-37-

für das Vorhandensein eines stimmlosen rauschähnlichen Konsonantenkennmerkmales in den Eingangssignalen erzeugt.

6. Einrichtung nach Anspruch 4 und 5, dadurch gekennzeichnet, daß die Einrichtung zum Erzeugen des zweiten Merkmalssignales ferner eine Einrichtung umfaßt, die auf die Eingangssignale anspricht und ein Anzeigesignal für das Vorhandensein einer langsam abfallenden Sprachenergiecharakteristik im Eingangssignal erzeugt.

7. Einrichtung zum Feststellen von Wortgrenzen für Spracherkennungseinrichtungen, die getrennt gesprochene Worte anzeigende akustische Eingangssignale empfängt und Erkennungsfunktionen bezüglich dieser Worte durchführt und die Einrichtungen zur Erzeugung von Kennmerkmale im Eingangssignal anzeigenden MerkmalsSignalen aufweist und eine Einrichtung zum Vergleich der in festgelegten Zeitgrenzen auftretenden Merkmalssignale mit gespeicherten Wörtern eines Vokabulars entsprechenden Merkmalen, gekennzeichnet durch

a) eine auf die Eingangssignale ansprechende Einrichtung zum Erzeugen eines ersten das Vorhandensein sprachartiger ein vorbestimmtes Energieschwellwertkriterium erfüllender Laute anzeigenden Merkmalssignales,

b) eine Einrichtung zum Speichern der Merkmalssignale, die während des Vorhandenseins des ersten Merkmalssignales auftreten,

609840/0957 -38-

c) eine auf die Eingangssignale ansprechende Einrichtung zur Erzeugung eines dritten das Vorhandensein einer stimmhaften phonetischen Charakteristik in den Eingangssignalen anzeigenden Merkmalssignales,

d) eine auf die Eingangssignale ansprechende Einrichtung zum Erzeugen eines vierten das Vorhandensein eines stimmlosen rauschähnlichen Konsonanten in den Eingangssignalen anzeigenden Merkmalssignales,

e) eine Einrichtung zum Erzeugen eines zweiten Merkmalssignales als Funktion des dritten und vierten Merkmalssignales und

f) eine Einrichtung zum Feststellen des im wesentlichen letzten Auftretens des zweiten Merkmalssignales unter den gespeicherten MerkmalsSignalen derart, daß die hintere Grenze eines eingegebenen gesprochenen Wortes als Funktion des genannten letzten Auftretens bzw. des letzten Ereignisses bestimmt wird.

8. Einrichtung nach Anspruch 7, dadurch gekennzeichnet, daß das erste Merkmalssignal in seiner Abschaltcharakteristik eine vorbestimmte Verzögerung aufweist.

-39-609840/0957

9. Einrichtung zum Abschätzen oder Bestimmen der Dauer eines isoliert gesprochenen Wortes, gekennzeichnet durch eine Einrichtung zum Anzeigen oder Feststellen der dem Wort zugeordneten Lautenergie und zum Auslösen oder Starten eines Zählkreises zum Zählen von Taktimpulsen solange die Lautenergie anhält, durch eine Einrichtung zum Anzeigen oder Feststellen des Vorhandenseins ausgewählter Merkmale, die von menschlicher Stimme erzeugte Laute anzeigen, abgetrennt von Lauten aufgrund der Atmung, und zum Auslösen oder Starten eines Abtastschaltkreises, bei Vorhandensein eines oder mehrerer der ausgewählten Merkmale, um die Zählung in dem Zählkreis kontinuierlich zu steuern oder zu überwachen, und durch eine Einrichtung, die nach dem Ende der Lautenergie wirksam wird, um den Abtastkreis abzufragen, den Zählwert festzustellen, der zuletzt überwacht oder gespeichert wurde, und die Dauer abzuschätzen oder zu bestimmen auf der Basis des letzterwähnten Zählers oder Zählerstandes.

10. Verfahren unter Verwendung einer Einrichtung, die getrennt gesprochene Worte anzeigende akustische Eingangssignale aufnimmt und Erkennungsfunktionen bezüglich dieser Worte durchführt und die Kennmerkmale in den empfangenen EingangsSignalen anzeigende Signale erzeugt und die Signale, die während bestimmter Zeitgrenzen auftreten, mit gespeicherten Worten eines Vokabulars entsprechenden Merkmalen

-4o-6 0 9840/0957

-4ο-

vergleicht, dadurch gekennzeichnet, daß

a) ein erstes das Vorhandensein sprachartiger ein erstes Auswahlkriterium erfüllender Töne anzeigendes Merkmalssignal erzeugt wird,

b) die während des Vorhandenseins des ersten Merkmalssignales auftretenden Merkmalssignale gespeichert werden,

c) ein zweites das Vorhandensein sprachartiger ein zweites engeres Auswahlkriterium erfüllender Laute anzeigendes Merkmalssignal erzeugt wird und

d) daß das im wesentlichen letzte Auftreten oder Erscheinen des zweiten Merkmalssignales unter den gespeicherten MerkmalsSignalen bestimmt wird, wobei die hintere Grenze eines eingegebenen gesprochenen Wortes eine Funktion dieses letzten Auftretens bzw. dieses letzten Ereignisses ist.

609840/0957

H4

Leerseite