DE2363590A1

DE2363590A1 - Spracherkennungssystem mit merkmalsfolgekodierung

Info

Publication number: DE2363590A1
Application number: DE19732363590
Authority: DE
Inventors: George M White
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1973-01-05
Filing date: 1973-12-20
Publication date: 1974-07-11
Also published as: AU6422074A; JPS49103509A; NL7400088A; BE809401A; FR2213553A1; ES422035A1; IT1007572B; GB1433770A

Description

Palentanwälte

-Iw. A. Grünecker 20. Dezemoer 1973

Dr.-lno. W. b^^ruir *

8 München S2,Max!i.i:liaastr.4a 2363590

XEROX CORP.
Xerox Square, Rochester, New York 14605, USA.

Spracherkennnngssystem mit Merkmalsfolgekodienmg

Die vorliegende Erfindung bezieht sich auf ein Spracherkennungssystem, insbesondere ein System mit maschineller Erkennung von Einzeläußerungen.

Automatische Spracherkennung bedeutet Erkennung von phonemartigen Einheiten durch eine Maschine. Die verschiedensten Formen zur Kodierung des akustischen Signals wurden bereits versucht. Das unter dem Namen AUDREY bekannte umfaßt eine
grobe Messung von ersten und zweiten Formantfrequenzen über der Zeit und ein Vergleich der gemessenen zeitlichen Muster

409828/0763

mit einem Satz gespeicherter Vergleichsmuster,, Das gespeicherte Muster, das die beste Übereinstimmung zeigt, wird dann als Kennzeichen des neuen Musters ausgewählt. Das Sprachsignal wird z«B, in zwei Frequenzbändern ausgefiltert. Begrenzende Verstärker in jedem der Kanäle schneiden die Spitzen der Signale ab, Di© Messungen der Nulldurchgänge ergeben ungefähr die Frequenzen, der ersten und zweiten Formanten als Funktionen der Zeit, Der erste Formantfrequenzbereich wird in sechs Frequenzstufen quantisiert_o Der zweite Formant— bereich wird in fünf Frequenzstufen quantisiert. Hierdurch wird eine Frequenzebene mit 30 Matrixelementen erzeugt» Für eine gegebene Einzeläußerung wird die Zeit, die die Sprach— frequenzkurve auf jedem Quadrat der Ebene"belegt, bestimmt.

In der Maschine ist ein Referenzsseit-Belegungsmuster für jede gesprochene Einzeläußerung gespeichert. Der Speichermechanismus besteht aus einer Gruppe von wichtenden Widerständen, die jedem Matrix-Einzelquadrat zugeordnet sind. Über diese Widerstände wird ©ine entsprechende Anzahl von getrennten Kondensatoren während der Zeit, in der das Quadrat belegt ist, aufgeladen. Eine Kreuzkorrelation der gespeicherten und der einlaufenden Muster wird in der Weise durchgeführt, daß die jedem Quadrat entsprechend der mittleren Belegungszeit durch die betreffenden gesprochenen Einzellaute zugehörigen spezifischen Leitfähigkeiten abgewogen werden. Die spezifische Leitfähigkeit eines gegebenen Ladeweges wird proportional der

- 3 409828/0763

Belegungszeit des betreffenden Quadrats durch eine gegebene Lautäußerung gewichtet.. Der Kondensator, an dem am Ende der Äußerung die größte Ladung liegt, zeigt das Muster an, das den höchsten Übereinstimmungsgrad liefert, und bestimmt damit, was für ein Einzellaut gesprochen wurde. Die Maschine weist jedoch keine Vorrichtungen auf, mit denen ihre gespeicherten Muster an die Stimme eines gegebenen Sprechers angepaßt werden könnte.

Ein System auf linguistischer Grundlage, das eine große prozessgekoppelte Rechenanlage verwendet, führt eine Merkmalsanalyse von Segmenten in der Sprachkurvenform durch. Die Kurvenform wird zunächst in kleine Abschnitte bestimmter Zeit— intervalldauer aufgeteilt. Kleine Segmente, die akustisch ähnlich sind, werden zur Bildung größerer Segmente zusammengruppiert -, die entweder ununterbrochene oder vorübergehende Teile darstellen. Merkmale, wie z.B". Stimmhaftigkeit, Stimmlosigkeit, Tonhöhe, Intensität, Formantfrequenz und -amplitude, werden zur Klassifizierung jedes Segmentes in vier Phonemgruppen verwendet. Sodann wird ein bestimmter Algorithmus zur Zuordnung eines Phonemkennzeichens zu jedem Segment einer Phomengruppe angewendet, Obgleich dieses System die vorhandenen Vorteile einer phonetischen Merkmalsklassifizierung und von Sprachelementwahrscheinlichkeiten wahrnimmt, steht es dennoch vor den gleichen Problemen des linguistischen Zwangs und des Bedeutungsinhalts, mit denen Erkennungsgeräte

409828/0763

2363530

konfrontiert sind. Eine weitere Schwierigkeit bei diesem System liegt darin, daß es davon abhängig ist, daß in der Weite der Merkmale, hinsichtlich der jedes Segment einer Phonemgruppe gekennzeichnet ist, Häufigkeitsansammlungen vorhanden sind.

Der vorliegenden Erfindung liegt die Aufgäbe zugrunde, ein Spracherkennungssystem anzugeben, das die Einschränkungen der bekannten Erkennungssysteme nicht aufweist, und das insbesondere in der Lage, ist, eine phonemhafte Übersetzung bei der automatischen Spracherkennung durchzuführen. Diese Aufgabe wird durch die in Anspruch 1 angegebene Erfindung gelöst. Ausgestaltungen der Erfindung und vorteilhafte Weiterbildungen sind in den Unteransprüchen gekennzeichnet.

Die Erfindung löst nicht nur die gestellte Aufgabe, sondern ermöglicht es auch, mit Hilfe eines Kartierungsvorganges ein gesprochenes Wort'in eine Merkmalsfolge in Form von Lettern zu kodieren. Darüberhinaus ist es mit dem erfindungsgemäßen System möglich, bei dieser Kodierung eine Datenkompression vorzunehmen. Weitere Vorzüge der Erfindung werden aus der nachfolgenden Beschreibung offenbar.

Fig. 1-zeigt eine Blockdarstellung eines Wortverarbeitungssystems nach der vorliegenden Erfindung.

— 5 —

409828/0763

Fig. 2 ist ein Flußdiagramm des SpracherkennungsVorganges nach der vorliegenden Erfindung.

Fig. 3 zeigt ein Diagramm des Kurvenverlaufs einer Stimme, wie er in einem dreidimensionalen Raum bestimmt ist, und der eine Folge von Referenzpunkten enthält.

Fig. h zeigt eine graphische Darstellung· von Vergleichsenergieniveaus von verschiedenen Sprachintensitäten.

Fig. 5 zeigt graphische» Darstellungen des Kurvenverlaufs des Energieinhaltes von Äußerungen über der Zeit.

Nachfolgend sei ein bevorzugtes Ausführungsbeispiel beschrieben. Fig. 1 zeigt eine ¥ortverarbeitungsanlage nach der vorliegenden Erfindung. Die Sprachäußerungen, die identifiziert werden sollen, werden von einem Mikrofon 2 aufgenommen, von dem ein Audio-Eingangssignal zu einem Vorverstärker 4 gelangt, der da3 Audiosignal verstärkt, bevor es der weiteren Aufbereitung zugeführt wird. Das verstärkte Audiosignal wird dann einer Aufbereitungsanlage 6 zugeführt, wo es in Bezug auf η Frequenzbänder behandelt wird«, Die behandelten Signale werden einem Rechner 10 zur Speicherung und Verarbeitung zugeführt. Die gespeicherten und/oder '. Verarbeiteten Signale können dann selektiv an der Leitung 20 zu einem Peripheriegerät ausgegeben werden, wie z.B. einer Katodenstrahlanzeigenröhre,

409828/0763

Die Aufbereitungsanlage 6 besteht aus einer sechskanaligen Bandpaß-Filterbank 12„ einem Zeitintegrator Ik₁ einem Multiplexer 16 und einem Analog/Digitalwandler 18, Das·Filter f±ltert aus den einlaufenden Audiosignalen sechs Kanäle oder· Frequenzbänder heraus. Hierfür kann die 24-kanalige Oktavdrittel-Filterbank der Firma Hewlett-Packard verwendet werden« Die Bandbreiten werden vorzugsweise nach einer geometrischen Reihe bemessen, und zwar zunel ■> ι end mit der Frequenz mit Bandbreiten von 150 bis 10.000 Hz. Die Kanäle des Filters 12 bestimmen damit die Abstände für die Lage spezieller Töne im Audiosignal.

Der Gesamtenergiegehalt in jedem der sechs Kanäle nach jedem 10-Millisekunden-Intervall wird dem Integrator 14 zugeleitet, der Schwankungen in der Kurvenform beseitigt, die sonst in jedem der Kanäle erscheinen würden,» Der Integrator Ik kann ganz einfach aus der Parallelschaltung eines Kondensators und eines Verstärkers jeweils für einen der Kanäle bestehen. Der Ausgang des Integrators lh kann auch unmittelbar mit dem Rechner 10 verbunden werden, . -■-.■-

Der Rechner 10 ist ein Universal-Digitalrechner^- der digitale Eingaben benötigt« Aus diesem Grunde werden die Ausgangs-Kurvenformen des Multiplexers 16 über einen Analog/Digitalwandler 18 dem Rechner 10 zugeführt«, Eine .Rechenanlage, die die vorliegenden Anforderungen erfüllt, kann z.B. der Rechner

— 7 —

40982 8/0763

Sigma 3 der Firma Xerox sein. Der Rechner Sigma 3 ist vollständig in dem Handbuch 9O-15-92C der Firma Xerox vom Februar 1971 beschrieben. Der Rechner Sigma 3 umfaßt mindestens eine Zentraleinheit und einen zugehörigen Kernspeicher für die Abspeicherung von Informationen, die dem Rechner mit Hilfe einer Ein/Ausgabeeinheit zugeführt werden. Peripheriegeräte und Spezialbaugruppen sind mit der Ein/ Ausgabeeinheit verbunden, um solche Informationen zuzuführen. Die Zentraleinheit kann auch eine unabhängige Ein/Ausgabeeinheit besitzen, die es dem Rechner Sigma 3 erlauben würde, parallel in der Zentraleinheit eine gleichzeitige Verarbeitung von Digitalinformationen durchzuführen.

Fig. 2 zeigt ein Flußdiagramm der Erkennungsfolge, die von dem System nach Fig. 1 ausgeführt wird. Das Audiosignal wird, wie oben beschrieben, vorbehandelt, um für jeden der angegebenen Kanäle aufbereitete Daten anzubieten. Wie Fig. 2 zeigt, werden die Information oder Daten für die Eingabe in den Rechner 10 digitalisiert. Die digitalen Wellenformen, die auf diese Weise dem Rechner 10 angeboten werden, stellen die Energie in jedem der sechs Kanäle dar. Die Energienieveaus als Funktion der Zeit in jeder Wellenform werden, wie oben, beschrieben, als Summe der Energien in den 10-Millisekunden-Zeitintervallen dargestellt. Die Amplituden dieser Meßwerte können in ihre I»0g- Werte umgewandelt und damit ^uLog~>-kartiert" werden. Von sechs Wellenformen wird ein 6-dimensio-

409828/0763

onaler Raum erzeugt. Jede Koordinate im Raum ist einem Wert zwischen 0 und 255 zugeordnet, der von acht binären Zahlen (Bits) bestimmt ist. Auf diese Weise werden k8 Bits notwendig, um die Koordinaten eines Punktes in diesem Saum anzugeben. Die sechs Wellenformen, die zu der Äußerung gehören, werden im Raum dadurch gekennzeichnet, daß - durch die Bestimmung entsprechender Koordinatenwerte für Jeden Punkt nach den entsprechenden Energieniveaus der sechs Wellenformen an einer gemeinsamen Ordinate der Wellenform - eine Serie von Punkten im Raum gekennzeichnet wird* Durch Entwicklung einer Serie von Puiiien in jedem Raum während der Dauer der Wellenformen wird eine Kurvenverlaufslinie im Raum entwickelt, die eindeutig zu der Äußerung gehört. In Fig. 3 wird eine Stimmenverlaufskurve in einem dreidimensionalen Raum dargestellt.

Referenzpunkte sind an vorgegebenen Stellen innerhalb des Raumes angeordnet* Im bevorzugten Ausführungsbeispiel sind 32 Referenzpunkte in besonders geeigneter Weise im Raum verteilt. Nur fünf Bits werden benötigt, um einen der 32 Referenzpunkte zu bestimmen. In Fig. 3 sind nur die Referenzpunkte p1 bis p8 für Demonstrationszwecke dargestellt. Im Falle einer Verbalmitteilung, die 100 Punkte im Räum erzeugt und damit den Stimmkurvenverlauf festlegt, wird jeder dieser Punkte entsprechend des ihm am nächsten gelegenen Referenzpunktes gekennzeichnet. Im bevorzugten Ausführungsbeispiel

4098 2 8/0763

werden Merkmalskennzeichen verwendet, um einen Referenzpunkt zu identifizieren, sod.aß auf diese Weise eine "Markmalsfolge" für jede Äußerung bestimmt wird. Da die Koordinaten der Referenzpunkte bekannt sind, kann eine Verbalmitteilung, die in einer Merkmalsfolge von Referenzkennzeichen kodiert wurde, in eine Serie von Positionen im 6—dimensionalen Raum dekodiert werden,

Merkmalskennzeichen werden einem ungekennzeichneten Punkt im Raum durch die Messung der Entfernungen zwischen"dem ungekennzeichneten Punkt und allen Referenzpunkten zugeordnet. Diese Messungen zur Bestimmung des nächsten Referenzpunktes können in einfacher ¥eise durch die Verwendung von Distanztabellen durchgeführt werden, die· die Entfernungen zwischen Referenzpunkten enthalten. Wenn z.B. ein Punkt in der Nähe des Referenzpunktes ¹¹A" liegt, dann ist er auch von jenen Referenzpunkten entfernt, die vom Punkt ¹¹A" entfernt sind. Diese Technik erlaubt es, einige Referenzpunkte zu beseitigen, ohne explizit ihre Entfernungen zu messen. Der nachfolgende Vorgang der Zeitsegmentierung und der Klassifizierung bringt dann die Kodierung der aufbereiteten Information in eine Merkmalsfolge. Die Merkmalsfolge-Kodierung ist' äußerst vorteilhaft bezüglich ihrer Kartierung der vorbehandelten Information oder Daten, da hierdurch die Anzahl der Bits, die zur. Spezifizierung der Information benötigt werden, verringert werden kann. Die Merkmalsreihe entspringt hierdurch aus

-1O-

409828/0763

der zeitlichen Entwicklung von Datenpunkten von Bereich zu Bereich. Die Punkte gleichen Abstandes zwischen benachbarten Referenzpunkten sind Hyperflächen, die den Raum in Kennzeichenabschnitte öder -regionen teilen» Die gekennzeichneten Regionen sind die "Markmale" in der Merkmalsfolge. Die Kompression der vorbehandelten Information ergibt sich aus der Tatsache, daß die Anzahl der Bits, die benötigt werden, um die Koordinaten eines Punktes im Raum zu speichern, nahezu immer größer ist als die Anzahl der Bits, die zur Speicherung des Kennzeichens des nächstgelegenen Referenzpunktes benötigt werden*

Iin Rechner 10 ist ein Lexikon von Merkmalsfolgen von Wörtern gespeichert, die von dem Forterkennungssystem erkannt werden sollen. Die in der oben beschriebenen ¥eise entwickelten Merkmalsfolgen, die von der Aufnahme der gesprochenen Äußerungen durch das Mikrofon 2 resultieren, werden mit den gespeicherten Merkmalsfolgen verglichen. Der Rechner 10 ist in der Lage, einen Vergleich der erzeugten Merkmalsfolge mit diesen bekannten Lexikon-Merkmalsfolgen zu vergleichen, um eine endgültige Auswahl unter den in Frage kommenden Wörtern im Speicher zu treffen. Es wurde z.B. gefunden, daß die Stimmkurvenverläufe der englischen Wörter "sick", "six" und "sex" genügend unterschiedlich sind, um eine eindeutige Merkmalsfolge zu erzeugen, sodaß unter diesen die erzeugte Merkmalsfolge für das gesprochene englische Wort "six" erfolg-

- 11 -

409828/0 763

reich verglichen werden kann. Die Übereinstimmung der erzeugten Merkmalsfolge mit der dem Rechner bekannten Merkmalsfolge für das englische Wort "six" kann an einem an der Leitung 20 angeschlossenen Peripheriegerät angezeigt werden.

Das Worterkennungssystem der vorliegenden Erfindung ist so eingerichtet, daß es gegenüber Lautstärkeänderungen bei gesprochenen Äußerungen am Mikrophon 2 ui- -mpfindlich ist« In Fig. h werden entsprechende graphische Darstellungen einer Äußerung geringer Lautstärke (Fig. ka.) und einer Äußerung großer Lautstärke (Fig. kb) jeweils vom gleichen Wort gezeigt. Die beiden Fig. ha. und 4b zeigen jeweils die Energie— inhaltsstufen des Audiqsignals über der Zeit. -Die aufbereitete Information oder Daten aus den sechs Kanälen sind unverschlüsselte Energiewerte und dürfen nicht verwendet werden. Vielmehr wird das Verhältnis von Zeitgemittelten Energieabtastwerten aus den sechs entsprechenden Kanälen über den Verlauf der Gesamtenergie in der Wellenform während der Ab— tastperiode festgehalten. Ein Beispiel für die Amplitudennormierung wird in der Funktion IDIST angegeben, die später in dieser Beschreibung ausgeführt wird.

Ein weiteres Merkmal der Erfindung ist in Fig. 5 dargestellt, Fig. 5a zeigt die Energieverteilung des englischen Wortes "eight", während Fig. 5b die Energieverteilung des englischen Wortes "exchange" zeigt. Das Ende der Äußerungserken-

- 12 -

£09828/0763

nung hat Probleme bei der Entwicklung eines praktikablen Worterkennungssysteras aufgeworfen. Dieses Problem liegt in der' Tatsache begründet, daß Endkonsonanten manchmal nicht gesprochen werden, Wenn sie jedoch gesprochen werden, dann häufig mit großer Verschiedenheit und wechselnden Amplituden. Durch die Außerachtlassung von Endkonsonanten einer Länge von ungefähr 200 Millisekunden wird das Ende einer Äußerungserkennung viel schneller erkannt. Daher werden die Merkmale einer Merkmalsfolge für das englische Wort "eight", die zum Endkonsonanten "t" gehören, nicht für einen Vergleich der Merkmalsfolge für das Wort mit jenen Wörtern herangezogen, die im Rechner 10 gespeichert sind. Jedoch werden solche Konsonanten, wie das im Englischen weich gesprochene "ge" des Wortes "exchange", die eine größere Zeitdauer oder einen differenzierteren Energieverlauf aufweisen, nicht außer Acht gelassen und daher wird die vollständige Merkmalsfolge für das Wort mit denen im Lexikon der Merkmalsfolgen im Rechnerspeicher verglichen. Die spezifische Folge einer Merkmals— folgekodierung kann durch Programmierung des Rechners 10 verwirklicht werden, indem ein Satz von Befehlen angewendet wird, der die Audioinformation entsprechend der oben gegebenen Lehre verarbeitet. Ein Beispiel hierfür ist in Sätzen der Quellensprache FORTRAN IV angegeben. Die Distanzmessung zwischen dem Punkt, wo das 10 Millisekundenintervall auf der Stimmverlaufskurve ist, und den Referenzpunkten wird durch die Funktion IDIST durchgeführt, und drückt sich in der Programmsprache wie folgt aus:

- T3 -

409828/0763

' FUNCTIOW TDISTiHDIM;JPTI,IPT2)

DIMENSION IPTl(7),ΙΡΤ2(7),IWEIT(7) '

DATA IWEIT/0,4,4,5,5,3,3/, IWT/4 8/ /ITWSHOULD BE SET AT TWICE THE SUM OF THE IWEIT VALUES.

ISUMl=O

ISUM2=0 ·

DO 3 1=2,NDIM '

ISUMl=ISUMl+IPTl(l) - ·. , . .. · 3 ISUM2=ISUM2+IPT2(l) IDD=(ISUM2-ISUM1)/(NDIM-I) .

ISUM= (IWT/12) *IABS (IDD) DO 10 K=2,NDIM

ID = IPT2(K)=IPTl(K) -IDD

ISUM = ISUM + IABS(ID)*IWEIT(K) 10 CONTINUE

IDIST = ISUM/lWT
^; RETURN ·

END - '

Die Äußerung, dl© durch die Stimmverlaufskurve dargestellt vird_f wird gekennzeichnet und in eine Merkmalsfolgedarstellung transformiert mit Hilfe der Prograimnfolge, die als Punktion 6ETUT vie folgt gekennzeichnet ist t

■ SUBROUTINE GETUT

COMMON /INADC/ LOG(256),NOIS(7) COMMON /INREC/ IUTTER(120),IBEG,IEND,MAXOFF COMMON /IKPRE/ MATRIX(29,29), IA(7,120),KCENT(7,29),NCLUST

DATA ITH /32/,ITH2/64/, ISW. /0/, MTH /4/ COMPUTE LOGS (FIRST TIME ONLY)

IF(ISW-NB.O) GO TO 5 . ·

CALL ADCON -. .

- ISW=I ...

• DO 4 I=I, 256

LOG(I)=7iLOG2(X)*32

CONTINUE

40982870763

MEASURE NOISE

CONTINUE ■ ' - ' DO 12 1=1,7 • 12 NOIS(I)=O DO 20 1=1,8 CALL ADCIN (IA (1,1)) IP(IA(I,1).LT.-1000) GO TO 5432 DO 29 J=I,7 NOIS (J)=NOIS (J)+IA (σ, 1) CONTINUE DO 30 1=1,7 NOIS(I)=NOIS(I)/8 CONTINUE

INNER LOOP

IBEG=MTH • 48 K=-l

IASUK=O DO 4SI I=I,MTH CALL TPMONI(IA(I,I) _t I) IASUM=IASUM+IA(1,I)

CONTINUE

I=MTH MAXOPP=O 1

EQUIVALENT OF PHONIN GOES HERE CALL TPHONI(IA(1,1),I)

- IASUM=IaSUM=IA(1,1)-IA(1,1-4)

CONTROL SECTION IP(LGT. 120) GO TO KG0=K+2 GOTO (55,60,65,58} _SKGO

K IS STATE COUNTER

STATE	*	K	IF	THEN	NEW STATE	BEGIN
BEGIN	-1	SILENCE	RESET I	BEGIN
		NOISE ₌	IP(I.GT.7)	VERIFY
NORM	0	SILENCE	IEND=I	END	STOP
		NOISE	—	NORM
END	+1	SILENCE	IP(I-IEND.GE	.25)
	NOISE	—	NORM

409828/0763

STOP
VERIFY BEGIN +2

IF(IEND.LT.30) RESET 1 BEGIN >ITH2... · - ■ . NORM. IF (I.GT.16) - . BEGIN

BEGIN STATE . ' -

55 IF (IASÜM/MTI5.GT.ITH) GO TO 56 DO 53 J=I,MTH

53 IA(I,J)=IA(I,J+l) ·"

GO TO 49 . *

56 ΙΓ(Ι.ΙιΕ/7Η·ΜΤΗ) GO TO 50 K=2

. GO TO 50

VERIFY BEGIN ·

58 IF(IASUM/MTH.LT.ITH2) GO TO 59 K=O . ·

GO TO 50 -

59 IF(I-KTH.GT.16) K=-l

IF (IA SUM/ϊ-ΤΓΗ. LT . ITH) K=I · :

GO TO 50 . .

NORl-LAL STATE

60 IF (IASUM/MTH.GT.ITH) GO TO 50

IF (MAXOFF.LT.IASUM/MTH) MAXOFF=IASUM/MTH

IEND=I-I

K=I

GO TO 50

END STATE

'65 IF (IASUM/MTH.LE.ITII) GO TO 66 K=O

GO'TO 50
66 IF(I-IEND-25) 50,70,70

STOP

70 IF(IEND.LE.30) GO TO 48

RETURN

75 IEND=120 ν

RETURN END

Der Vergleich zwischen den erzeugten Merkmalsfolgen und den Merkmalsfolgen im Rechnerspeicher wird durch die Funktion NREG wie folgt durchgeführt:

- 16 -

409828/0763

■ ' 23635

FUNCTION NREC(IDUMMy)

COMMON /INPRE/ MATRIX(29,29),IA(7,120),KCENT(7,29),NCLUST COMMON /INREC/IUTTER(120),IBEG,IEND,MAXOPP

COMMON/LRKREC/ITEMPL (72,54), ΝΛΜΕ (13,54), LENGTH (54) , NTEMP, IUTT

CALL NORMAL(IUTTER,IBEG,IEND,IUTT) ·

MNSCOR = 10000 _t ' '·

IF (NTEMP.EQ.O) NREC=O '

IF (Iv(TEMP. EQ. O) RETURN

DO 15 I=I_xNTEMP ' ■./·.*

ITOT =0

DO 5 J=I,72 ■

ITOT = ITOT+MATRIX(ITEMPL(J,I),IUTT(J))

ISCOR =ITOT ...

IF (ISCOR.GE.FiNSCOR) GO TO 15

MNSCOR = ISCOR

INDEX =1

CONTINUE ·,

NREC = INDEX

IF (MNSCOR.GT.1000) NREC=O

RETURN

Es ist augenscheinlich, daß viele Änderungen der vorliegenden Erfindung in Anwendung der gegebenen Lehre möglich sind« Es soll daher hervorgehoben werden, daß innerhalb der Ansprüche die Erfindung auch auf andere Weise ausgeführt werden kann, als sie hier speziell beschrieben wurde.

- 17 409828/07 6 3

Claims

Patentansprüche

Worterkennungssystem zum automatischen Identifizieren gesprochener Äußerungen, gekennzeichnet durch ein Mikrophon (2) zur Umwandlung der gesprochenen Äußerungen in Audiosignale, eine Filteranordnung (12) für die Audiosignale, die diese in η Bänder aufteilt, eine Einrichtung zum Bestimmen eines Stimmkurvenverlaufs, dio eine Serie von Punkten in Bezug auf Zeitabschnitte in der Zeitdauer eines jeden Audiosignals aufbaut, wobei diese Punkte durch Korodinaten definiert sind, von denen jede die Energiestufen bezüglich eines entsprechenden Energiebandes darstellt, sodaß die Punkte in einem n—dimensionalen Raum liegen, weiterhin durch eine Einrichtung zur Kennzeichnung jedes "Kurvenpunktes mit den Kennungen von Referenzpunkten, die zuvor im Raum zugeordnet wurden, wodurch eine Kennungsfolgedarstellung einer jeden Äußerung erzeugt wird, weiterhin durch eine Vorrichtung zum Speichern und Erzeugen von zuvor zugeordneten Kennungsfolgen für ein Lexikon gespeicherter Äußerungen, und schließlich durch eine Einrichtung zum Vergleichen der erzeugten Kennungsreihen mit den gespeicherten Kennungsreihen zur Identifizierung der gesprochenen Äußerungen·
2. System nach Anspruch 1, dadurch gekennzeichnet, daß die Kennzeichnungsvorrichtung die Kennung des nächsten Referenzpunktes jedem der Kurvenpunkte zuordnet.

- 18 -

409828/0 7 63
3. System nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß außerdem eine Zeitintegriereinrichtung (14)' für die Audiosignale vorgesehen ist«
4. System nach wenigstens einem der Ansprüche 1 bis 3» dadurch gekennzeichnet, daß weiterhin eine Normiereinrichtung zur Normierung der Energieniveaus der betreffenden Filterbänder vorgesehen ist.
5. System nach wenigstens einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß eine Einrichtung zum Feststellen des Endes (Endendetektor) ^eder Äußerung vorgesehen ist.
6. System nach Anspruch 5? dadurch gekennzeichnet, daß der Endendetektor eine Einrichtung zur Außerachtlassung vom Endkonsonanten enthält»
7· System nach wenigstens einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß die Kennungen Merkmale (»Lettern) sind, und daß die Kennungsfolgen daher Merkmals- (Lettern-) folgen sind.
8« Verfahren zur automatischen Erkennung gesprochener Äußerungen, gekennzeichnet durch folgende Schritte:

Umwandlung der gesprochenen Äußerungen in Audiosignale,

Filterung der Audiosignale in η Frequenzbänder

- 19 -

4 09828/0763

2363530

Umreißung eines Stimmkurvenverlaufs, der eine Serie von Punkten in Bezug auf Zeitabschnitte während der Dauer jedes Audiosignals bildet, wobei jeder Punkt durch entsprechende Koordinaten festgelegt ist, die die Energiestufen eines zugehörigen Energiebandes darstellen, um den Kurvenverlauf in einem ri-dimensionalen Raum festzulegen,

Kennzeichnung jedes Kurvenpunkts durch die Kennungen von zuvor im Raum zugeordneten Referenzpunkten, hieraus Erzeugung einer Kennungsfolgedarstellung für jede Äußerung, Speicherung von zuvor zugeordneten Kennungsfolgen für ein Lexikon von gespeicherten Äußerungen, und schließlich

"Vergleichen der erzeugten KennungsfOlgen- mit den gespeicherten Kennungsfolgen zur Identifizierung der gesprochenen Äußerungen.
9· Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß bei der Kennzeichnung die Punkte des Kurvenverlaufs mit der Kennung des nächsten Referenzpunktes versehen werden,
10. Verfahren nach Anspruch 8 oder 9, dadurch gekennzeichnet,daß außerdem eine Normierung der Energieniveaus der betreffenden ausgefilterten Frequenzbänder vorgenommen wird.

- 20 -

409828/0763

2363530
11. Verfahren nach wenigstens einen» der Ansprüche 8 bis 10, dadurch gekennzeichnet, daß außerdem das Ende jeder
Äußerung festgestellt wird.
12. Verfahren nach wenigstens einem der Ansprüche 8 bis 11, dadurch gekennzeichnet, daß bei der Endenfeststellung Endkonsonanten bestimmter Länge außer Acht gelassen werden.

13- Verfahren nach wenigstens einem der Ansprüche 8 bis 12, "dadurch gekennzeichnet, daß Audiosign^Ie zeitintegriert werden,

4098 2 8/0763