DE2021126C3

DE2021126C3 - Spracherkennungs anordnung

Info

Publication number: DE2021126C3
Application number: DE2021126A
Authority: DE
Inventors: Stephen Lloyd Cambridge Mass. Moshier (V.St.A.)
Original assignee: Dialog Systems Inc Boston Mass (vsta)
Current assignee: Dialog Systems Inc Boston Mass (vsta)
Priority date: 1969-05-26
Filing date: 1970-04-29
Publication date: 1980-08-21
Also published as: GB1309700A; DE2021126A1; US3610831A; JPS5144604B1; FR2048732A5; CA921169A; DE2021126B2

Description

Die Erfindung betrifft eine Spracherkennungsanordnung für die Prüfung von Sprachsignalen darstellenden elektrischen Analogsignalcn auf ihre Entsprechung zu einem von mehreren vorgewählten Stimmklängen mit mindestens einer mit den Analogsignalen gespeisten Verzögerungseinrichtung zum Ableiten einer festen Anzahl von unterschiedlich verzögerten Signalen aus jedem elektrischen Eingangssignal.

Eine Spracherkennungsanordnung dieser Art ist in der US-PS 34 00 216 beschrieben. Bei dieser bekannten Sprachcrkcnnungsanordn .ng wird ein zu beurteilendes Sprachsignal zunächst durch ein Filier geleilet und sodann in einem Frcqucnzdiskrimimiior mit Hilfe weiterer Filter in hohe und niedrige Frequenzen unterteilt. Die so erhaltenen Teilsignale werden iiann mit an Anzapfungen je einer Verzögerungsleitung erhaltenen Signalen in Beziehung gesetzt, womit nach Art eines Decodieren eine Digilalinformation erhalten wird, die Eingangssignale für ein Enischcidungsnctzwerk bildet. Eine Bewertung der verschiedenen von den Verzögerungsleitungen abgenommenen Signale hinsichtlich ihrer Entsprechung zu vorgewählten Sprachsignalen oder Stimmklängen erfolgt nicht, die vorgesehene Frcqucnzlrennung dient vielmehr aliein tier Unterscheidung zwischen Vokalen einerseits und bestimmten Konsonanten andererseits.

Bei einer anderen bekannten und in der US-PS 32 02 7b! beschriebenen Anordnung zur Identifizierung von elektrischen Wellenformen werden die zugeluhrlen Eingangssignale mit Ikvugssignalen verglichen, die jinem entsprechenden Speicher entnommen werden. Dabei wird ein mehrmaliger Vergleich vorgenommen, und bei einem Teil dieser Vergleiche wird das Bczugssigni-.l progressiv hi sein „Μ" Phase gegenüber dem zu erkennenden Signal verschoben. Eine Gewichlimg von einzelnen Signalanteilen innerhalb des Eingangssignals erfolgt dagegen nicht, und ebenso wird dieses

bo Signal nicht in eine Mehrzahl von unterschiedlichen verzögerten .Signalen aufgeteilt. Mit Hilfe der bekannten Spraeherkennungsanordnungen ist c'ue genaue Zuordnung eines Eingangssignal zu einem bestimmten Stimmklang und damit eine einwandlreie und eindeutige

b5 Hr 'iinnng eines bestimmten Sprechers nicht möglich, und es ist daher Aufgabe der Erfindung, eine Sprachcrkinnungsanordnung der eingangs erwähnten Art so auszubilden, daß sich unter unmittelbarer

Verarbeitung der eingangsseitigen Sprachsignale deren Zuordnung zu einem von mehreren vorgewählten Stimmklängen in eindeutiger und genauer Weise erhalten läßt.

Die gestellte Aufgabe wird gemäß der Erfindung dadurch gelöst, daß an die Verzögerungseinrichtung für jeden der vorgewählten Stimmklänge eine der Anzahl der verzögerten Signale entsprechende Anzahl vor Bewertungsschaltungen zum Gewichten der verzögerten Signale entsprechend einei den vorgewählten Stimmklängen zugeordneten Charakteristik und eine Mischeinrichtung zum linearen Kombinieren der verzögerten und gewichteten Signale für jeden Stimmklang zu je einem Mischsignal und daran eine Vergleichsein-* richtung angeschlossen sind, die für diejenigen Mischsignale ein Ausgangssignal erzeugt, deren mittlere Amplitude einer vorbestimmten Relation genügt.

Vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung sind in Unteransprüchen im einzelnen gekennzeichnet.

Die erfindungsgemäß ausgebildete Spracherkennungsanordnung enthält eine spezielle Konfiguration von Bewertungsschallungen, die eine nach einem vorgegebenen Schema ablaufende Bewertung der verschiedenen verzögerten Signale vornimmt, worauf dann diese bewerteten Signale zu Kombinationssignakn vereinigt werden, die abschließend in einer Vergleichseinrichtung hinsichtlich der Übereinstimmung ihrer mittleren Amplitude mit vorgegebenen Relationen untersucht werden. Dabei laufen alle Vorgänge innerhalb der crfindungsgemäß ausgebildeten Spraeherkennungsanordnung im Realzeitbetrieb ab. und die Anordnung gestattel c:\her eine sofortige Analyse der eintreffenden Sprachsignale noch während des Sprechens selbst. Außerdem ermöglicht die erfindungsgemäß ausgebildete Spracherkenmingsanordnung nicht nur die Erfassung der Sprachsignale hinsichtlich ihres Innalts, sondern auch ihre Zuordnung /ti einer vorgespeicherten Spiacheharakieristik und damit die Erkennung eines bestimmten Sprechers. In diesem Zusammenhang ist von Bedeutung, daß das cingangsscitigc .Sprachsignal vor seiner Einspeisung in die Verzögerungseinrichtung in keiner Weise verzerrt oder sonst beispielsweise durch Filier verändert wird und daß die verschieden verzögerten Signale von der Verzögerungseinrichtung mit konstanten Bewertungsfiiktorjn gcwichtct werden, die ihrerseits v;-r dem Empfang des unbekannten Sprachsignals festgelegt worden sind. Dabei sind die /uvor ausgewählten Stimmkliingc für die Gewiehuing der Signale in l^:orm einer begrenzten Anzahl von Gcwichtungskonstanlcn vorgegeben, für die es keines besonderen Speichers bedarf.

In der Zeichnung ist die E'Tindung anhand eines bevorzugten Auslimningsbeispiels veranschaulicht: es zeigt

I'ig. 1 ein Blockschallbild für eine Spracherkennung.anordnung für die Prüfung von Sprachsignale darstellenden elektrischen Analogsignalcn auf ihre Entsprechung zu einem von ■"'■. hiorcn vorgewählten ω Stimmklängen und

Fig. 2 eine Tabelle für Sehwächiingskoeffi/.ienten, wi'j sie im Rahmen der Spracherkennimgsanordnung von I-ig. I für die Gcwichtung von aus den Eingangssignalen gewonnenen verzögerten Signalen zur Ecken- b5 iiung bestimmter Slimmklänge vorgesehen sein können.

Die in Pig. I dargestellte Anordnung dient zur Unterscheidung oder Erkennung verschiedener Stimmklänge, die in einem elektrischen Analogsignal, das an einem Eingangsanschluß 11 eingespeist wird, enthalten oder durch dieses dargestellt sein können. Ein derartiges Analogsigna! kann zum Beispiel direkt von einem Mikrophon gewonnen werden, in das eine Person spricht, oder von einer Aufzeichnung, die vor der Analyse angefertigt wurde. Das gegebene Stimmsignal wird in einem Verstärker 13 mit automatischer Verstärkungsregelung eingespeist, um ein Stimmsignal zu erhalten, das eine im wesentlichen konstante oder vorbestimmte Amplitude hat. Um das Ausgangssignal vom Verstärker 13 auf einem möglichst konstanten Pegel zu halten, ist die Ansprechzeit des Regelkreises für die automatische Verstärkungsregelung vorzugsweise nur etwas langsamer als die niederfrequenteste Stimmkomponente von Bedeutung.

Das Stimmsignal mit konstanter Amplitude, das vom Verstärker 13 abgegeben wird, wird in F i g. 1 einer Verzögerungsleitung 15 mit Anzapfungen 20 bis 29 zugeführt. Es sei jedoch darauf hingewiesen, daß stattdessen auch eine beliebige Verzögerungseinrichtung, die eine Anzahl verschieden verzögerter Signale aus einem gegebenen Eingangssignal erzeugt, verwendet werden kann. Daher kann die Verzögerungsleitung 15 tatsächlich aus einer Anzahl von Verzögerungselementen bestehen, die in Reihe oder parallel geschaltet sind und entweder kontinuierliche Verzögerungsmedien, wie koaxiale oder akustische Verzögerungsleitungen oder Verzögerungsleitungen mit diskreten Bauteilen wie Spulen und Kondensatoren umfassen. Zur Erläuterung soll die Anordnung von Fig. I als eine Phonemerkennungseinrichtung betrachtet werden, das heißt als eine Vorrichtung, die eine Anzahl von Klangen erkennt, die charakteristisch für die menschliche Sprache sind, wenn sie von verschiedenen Personen gesprochen werden. Zu diesem Zweck kann die Verzögerungsleitung 15 zweckmäßigerweise so aufgebaut sein, daß sie eine Gesamtverzögerung von 0.9 msec bewirkt, wobei das Vcrzögcrungsinkrement zwischen aufeinander folgenden Anzapfungen 0.1 msec beträgt. An den Anzapfungen 20 bis 29 der Verzögerungsleitung 15 treten Verzögerungen auf, die von 0,0 auf maximal 0,9 msec zunehmen.

Für jedes zu erkennende Phonem erzeugt die Anordnung .on F i g. 1 ein Mischsignal durch Mischen vorbestimmter Anteile der verschieden verzögerten Signale, die an den Anzapfungen 20 bis 29 erhalten werden. Die dargestellte Anordnung ist dabei so aufgebaut, daß sie vierzehn verschiedene Phoneme erkennen kann, und die entsprechenden Mischsignale werden zu entsprechenden Leitungen A bis N abgenommen. Um Platz in der Zeichnung zu sparen, sind die mittleren Verzögerungslciuingsanzapfungen und die mittleren Mischsignalleitungen zusammen mit deren zugehörigen Baugruppen weggelassen worden. Es ist jedoch ersichtlich, daß diese weggelassenen Bauteile bei im wesentlichen ähnlichem Aufbau mit dem tatsächlich abgebildeten diese zu einer 10 χ I4-Matrix vervollständigen.

Für die Leitung A des ersten Mischsignals beispielsweise wird ein entsprechender vorbestimmter Anteil jedes der verschieden verzögerten Signale durch entsprechend einstellbare Verstärker 31A bis 394 erhalten und in die Leitung A über jeweils einen Mischoder Trenn widerstand RXA bis /?9/t eingespeist. Die einstellbaren Verstärker 31A bis 394 sind so eingestellt, daß sie eine Verstärkung aufweisen, die zwischen +2 und —2 bet.agen kann, so daß die Größe oder das

Gewicht jedes Signalanteils auf einen beliebigen Sollpegel eingestellt und in Vorzeichen oder Phase umgekehrt werden kann. Daher kann der Beitrag von jeder Verzögcrungsleitungsanzapfung im wesentlichen willkürlich benimmt werden. Mischsignale für jedes der verschiedenen zu erkennenden Phoneme werden im wesentlichen m ähnlicher Weise erzeugt, wobei die zugehörigen einstellbaren Verstärker und Mischwiderstände entsprechend mit Bezugszeichen versehen sind, um die zugehörige Anzapfung und die zugehörige Leitung des Mischsignals anzugeben.

Jede Mischsignalleitung A bis N ist jeweils über einen Misch- oder Pufferverstärker 40/1 bis 40Λ/ mit der Verstärkung Eins an jeweils einen Detektor oder Demodulator 4iA bis 4i/V angeschlossen, jeder Demodulator erzeugt ein Spannungssignal, das im wesentlichen proportional zur mittleren Amplitude des in diesen Demodulator eingespeisten Mischsignals ist. Die Signale von den Demodulatoren werden ihrerseits in einen Vergleicher 43 eingespeist. Der Vergleicher 43 bestimmt, welcher der verschiedenen eingespeisten Spannungspegel der niedrigste ist, und erzeugt an einer entsprechenden von Leitungen 45/4 bis 45Λ/είη Signal, das anzeigt, daß das entsprechende Mischsignal die niedrigste mittlere Amplitude der verschiedenen Mischsignale hat. Das vom Vergleicher 43 an einer der Leitungen 45A bis 45N abgegebene Signal kann zweckmäßigerweise die Form eines binären Logiksignals haben, das zum Ansteuern einer digitalen Logikoder Rechnerschaltung geeignet ist. E:ine derartige Schaltung oder Einrichtung zur Logikunalysc kann zusammen mit der dargestellten Anordnung verwendet werden, um weitere Information bezüglich des ursprünglichen Stimmeingangssignals zu liefern. Es ist auch ersichtlich daß digitale Schaltungen, zum Beispiel ein Rechner mit geeigneten peripheren Einrichtungen an »Schnittstellen« zwischen seinen einzelnen Teilen verwendet werden kann, um die eben beschriebenen Vorgänge des Verzögerns, Mischens und Demodulicrens vorzunehmen, wobei an sich bekannte Simulationstechniken angewendet werden, anstatt die vorher beschriebenen Analogelemente vorzusehen.

Da typische Stimmsignale Intervalle von vernachlässigbarer Signalamplitude enthalten, während denen es nicht zweckmäßig wäre, zwischen den verschiedenen möglichen Phonemen zu unterscheiden, wird das Signal aus dem Verstärker 13 auch als Steuersignal in den Vergleicher 43 eingespeist, um die Erzeugung eines Ausgangssignals überhaupt zu verhindern, wenn der Pegel des Stimmeingangssignals unter einen vorbestimmten Pegel fällt.

Bei der praktischen Ausführung wird die Verstärkung jedes der einzelnen Verstärker 31,4 bis 39Λ/ entsprechend einer Charakteristik für den jeweiligen Stimmklang oder das jeweilige Phonems eingestellt, wobei die Einstellung in jedem Fall so vorgenommen wird, daß eine entsprechende Komponente im Stimmklang unterdrückt oder gelöscht wird. Wie bekannt, kann eine derartige Komponente ursprünglich durch Verzögerungsreflexion im Stimmapparat des Sprechers hervorgerufen werden, wenn er das betreffende Phonem spricht In der Praxis können die Verstärker zweckmäßig empirisch eingestellt werden, indem eine Bandschleife verwendet wird, die jedes Phonem aufgezeichnet enthält, um die Anordnung anzusteuern, während die Verstärkungen der jeweiligen Sätze von Verstärkern so eingestellt werden, daß die mittlere Amplitude des jeweiligen Mischsignals auf ein Minimum gebracht wird, wobei jeder Salz von Verstärkern entspreehem einem gegebenen Phonem seinerseits auf diese Weis* eingestellt wird. F i g. 2 zeigt eine Tabelle, die die it diesem Zusammenhang für eine Verzögerungsleitung bestimmten Koeffizienten angibt, nämlich eine Vcr zögerungsleitung wie abgebildet, die zehn Anzapfunger hat, die Verzögerungen schaffen, die stufenweise von (U auf 0.9 msec ansteigt. In dieser Tabelle ist das Phonem das jedem Satz von Mischnetzwerk-Koeffizientcr entspricht, in üblicher Weise zusammen mit einen englischen Wort aufgeführt, das das Phonem enthalt Die gewünschten Verstärkungen können auch numc risch durch ein Programm gemäß der Methode dei kleinsten Quadrate berechnet werden.

Obwohi verständiicherweise Unterschiede von Per son zu Person in der Aussprache dieser verschiedener Phoneme bestehen, ist erkannt worden, daß die Anzah der Anzapfungen, das heißt die Auflösung dei Vorrichtung, so gewählt werden kann, daß sie eine relativ gleichbleibende Erkennung von Phonemen trot/ der Unterschiede der einzelnen Sprecher ergeben. Da; dürfte darauf zurückzuführen sein, daß relativ wenij Unterschiede in der Größe des Kehlkopfes und de; Stimmtrakts bei Erwachsenen auftreten. Entsprechenc sind die Verzögerungen, die die Charakteristik eine; gegebenen Phonems bestimmen, relativ konstant vor Person zu Person. Mit einer Verzögerungsleitung wie abgebildet, die also zehn Anzapfungen aufwies, wurdet Phoneme mit einer Genauigkeit von etwa 90% be Verwendung als Eingangssignale der Stimmen dersel ben Gruppe von sechs Personen, deren Stimmen zui Ziehung der Vorrichtung verwendet worden waren erkannt, das heißt derjenigen Personen, deren Stimmer zur Einstellung der Misch- oder Gewichtskoeffizientcr gemäß der Tabelle in F i g. 2 benutzt worden waren.

Da die dargestellte Anordnung eine Amplitudenmittelung oder -demodulation nur dann vornimmt nachdem die unterschiedlichen Signalkomponenter addiert oder gemischt worden sind, ist ersichtlich, daß die Anordnung im sogenannten Echtzeit- oder Realzeit-Betrieb arbeitet. Das heißt, die Anordnung kann den Phonemgehalt der Stimme eines Sprechers analysieren während dieser spricht. Eine derartige Anordnung ist daher äußert vorteilhaft für eine Anlage zur automatisehen Spracherkennung und -analyse.

Obwohl festgestellt worden ist, daß die Analyse eines Stimmsignals am einfachsten durchgeführt werden kann, indem die verschiedenen Komponenten unterdrückt oder beseitigt werden, die in den verschiedenen

so Phonemen vorhanden sind, und anschließend das kleinsie Ampiiiuuensignai gesucht wird, kann die Analyse auch dadurch erreicht werden, daß die verschiedenen charakteristischen Komponenten wieder erzwungen oder angeregt werden und anschließend die maximale mittlere Amplitude gesucht wird.

Obwohl die Phonemerkennung für einen Personenkreis vorgenommen werden kann, indem ein Verzögerungsleitungsfilter verwendet wird, das eine relativ grobe Auflösung hat, zum Beispiel ein Filter mit zehn Anzapfungen, die eine Gesamtverzögerung von 1 msec wie abgebildet umfassen, kann ein Verzögerungsleitungsfilter mit höherer Auflösung, das heißt, mit mehr Anzapfungen, verwendet werden, um zu bestimmen, ob eine bestimmte Person einen vorbestimmten Klang spricht. Daher kann durch Einstellung der Anzapfungskoeffizienten in einem Verzögerungsleitungsfilter mit relativ hoher Auflösung entsprechend einer gegebenen Person, die einen vorbestimmten Klang oder ein

vorgegebenes Phonem spricht, die dargestellte Anordnung anschließend zur Identifizierung dieser Person benutzt werden. Es ist offensichtlich, daß die Zuverlässigkeit einer derartigen Identifizierung beträchtlich erhöht werden kann, wenn als identifizierende Kriterien eine Anzahl von Phonemen benutzt wird, die die Person nacheinander sprechen muß. Ein gutes Beispiel für eine derartige Anwendung ist die Kreditkartenprüfung, bei der eine Person, die eine Kreditkarte vorzeigt, gebeten werden kann, die Kreditkarten-Nummer zu sprechen. Durch Verwendung der dargestellten Anordnung kann der prüfende Händler dann bestimmen, ob die betreffende Person, die die Nummer aufsagt, zum Gebrauch der Karte autorisiert ist. In Abhängigkeit von der speziellen Anwendung und der erforderlichen Genauigkeit kann die Auflösung der Anordnung, das heißt die Anzahl der verwendeten Anzapfungen, geeignet gewählt werden. Die Erhöhung der Auflösung des Filters führt zu einem zunehmenden Prozentsatz von Zurückweisungen, das heißt zur zunehmenden Anzeige von fehlender Korrespondenz infolge der Nennwertschwankungen in der Stimme eines gegebenen Sprechers. Daher muß ein Kompromiß zwischen Zuverlässigkeit und falscher Zurückweisung erzielt werden, was vom speziellen Verwendungszweck der Anordnung abhängt. Im Extremfall würde die Anordnung nur auf die exakte Aufzeichnung des Klangs ansprechen, für die das Filtermischnetzwerk geeicht worden ist.

Hierzu 2 Blatt Zeichnungen

Claims

Patentansprüche:

1. Spracherkennungsanordnung für die Prüfung von Sprachsignale darstellenden elektrischen Analogsignalen auf ihre Ensprechung zu einem von mehreren vorgewählten Stimmklängen mit mindestens einer mit den Analogsignal gespeisten Verzögerungseinrichtung zum Ableiten einer festen Anzahl von unterschiedlich verzögerten Signalen aus jedem elektrischen Eingangssignal, dadurch gekennzeichnet, daß an die Verzögerungseinrichtung (15) für jeden der vorgewählten Stirnmklänge eine der Anzahl der verzögernden Signale entsprechende Anzahl von Bewertungsschaltungen (31/4 bis.39/VJ zum Gewichten der verzögerten Signale entsprechend einer den vorgewählten Stimmklängen zugeordneten CharaKteristik (F i g. 2) und einer Mischeinrichtung (R \A bis R9N 4OA bis 40N) zum linearen Kombinieren der verzögerten und gewichteten Signale für jeden Stimmklang zu je einem Mischsignal und daran eine Vergleichseinrichtung (4M bis 41/V, 43) angeschlossen sind, die für diejenigen Mischsignale ein Ausgangssignal erzeugt, deren mittlere Amplitude einer vorbestimmten Relation genügt.

2. Anordnung nach Anspruch 1, gekennzeichnet durch einen Verstärker (13) mit automatischer Verstärkungsregelung, der die elektrischen Analogsignale vor ihrer Einspeisung in die Verzögerungseinrichtung (15) auf eine im wesentlichen vorbestimmte mittlere Amplitude bringt.

3. Anordnung nach Anspruch 2, dadurch gekennzeichnet, daß die Verzögerungseinrichtung (15) ;ius jedem der elektrischen Analogsignale größcnordnungsniäßig zehn unterschiedlich verzögerte Signale erzeugt.

4. Anordnung nach Anspruch 3, dadurch gekennzeichnet, daß die durch die Vcrzögerungseinridv.iing (15) erzeugten Verzögerungen insgesamt e'wa 1 ms ausmachen.

5. Anordnung nach Anspruch 4, dadurch gekennzeichnet, daß die Verglcieh.seinrichtung Detektoren oder Dcnu'latorcn (4M bis 41 N) für die Einspeisung der Mischsignalc enthält.

6. Anordnung nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß die Mischeinrichtung Baustufen (3M bis 39/Uzur wahl weisen Umkehr der Phase des Beitrags jedes der verzögerten Signale zum Mischsignal aufwci.it.

7. Anordnung nach einem der Ansprüche 1 bis b, dadurch gekennzeichnet, daß zur Feststellung, welcher eine Anzahl von vorgewählten Stimmklüngen durch ein gegebenes elektrisches Analogsignal von im wesentlichen vorbcslimmler mittlerer Amplitude am besten dargestellt wird, die Veigleichseinrichwng(4M bis 41 /V, 43) so aulgebaut ist. daß sie dasjenige der Mischsignale zur Anzeige bringt, dessen mittlere Amplitude in einer vorbestimmten Beziehung zu der mittleren Amplitude der anderen Mischplatte steht.

8. Anordnung nach Anspruch 7, dadurch gekennzeichnet, daß die Vcrgleichseinrichtung (4M bis 41N, 43) ein Ausgangssignal erzeugt, das anzeigt, welches der Mischsignale die kleinste mittlere Amplitude aufweist.

9. Anordnung nach einem der Ansprüche I bis 8, dadurch gekennzeichnet, daß die Verzögerungseinrichtung eine Verzögerungsleitung (15) mit einer

Mehrzahl von Anzapfungen (20 bis 29) ist, an die jeweils eine der Bewertungsschaltungen (3M bis 39N) für die Abnahme und Gewichtung der unterschiedlich verzögerten Signale angeschlossen ist, und daß in der Vergleichseinrichtung für jede der Bewertungsschaltungen ein eigener Detektor oder Demodulator (4M bis 41 N) für die Erzeugung einer jeweils von der mittleren Amplitude des betreffenden Mischsignais abhängigen Signalspannung vorgesehen ist und ein Vergleicher (43) ausgehend von diesen Signalspannungen ein Signal erzeugt, das anzeigt, welches der Mischsignale die kleinste Amplitude aufweist.

10. Anordnung nach Anspruch 9, gekennzeichnet durch eine Einrichtung, die· den Vergleicher (43) abschaltet, wenn die Amplitude eines gegebenen elektrischen Analogrignals unter einen vorbestimmten Pegel abfällt.