DE2363590A1 - Spracherkennungssystem mit merkmalsfolgekodierung - Google Patents

Spracherkennungssystem mit merkmalsfolgekodierung

Info

Publication number
DE2363590A1
DE2363590A1 DE19732363590 DE2363590A DE2363590A1 DE 2363590 A1 DE2363590 A1 DE 2363590A1 DE 19732363590 DE19732363590 DE 19732363590 DE 2363590 A DE2363590 A DE 2363590A DE 2363590 A1 DE2363590 A1 DE 2363590A1
Authority
DE
Germany
Prior art keywords
points
curve
point
identification
sequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE19732363590
Other languages
English (en)
Inventor
George M White
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of DE2363590A1 publication Critical patent/DE2363590A1/de
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Machine Translation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

Palentanwälte
-Iw. A. Grünecker 20. Dezemoer 1973
Dr.-lno. W. b^^ruir *
8 München S2,Max!i.i:liaastr.4a 2363590
XEROX CORP.
Xerox Square, Rochester, New York 14605, USA.
Spracherkennnngssystem mit Merkmalsfolgekodienmg
Die vorliegende Erfindung bezieht sich auf ein Spracherkennungssystem, insbesondere ein System mit maschineller Erkennung von Einzeläußerungen.
Automatische Spracherkennung bedeutet Erkennung von phonemartigen Einheiten durch eine Maschine. Die verschiedensten Formen zur Kodierung des akustischen Signals wurden bereits versucht. Das unter dem Namen AUDREY bekannte umfaßt eine
grobe Messung von ersten und zweiten Formantfrequenzen über der Zeit und ein Vergleich der gemessenen zeitlichen Muster
409828/0763
mit einem Satz gespeicherter Vergleichsmuster,, Das gespeicherte Muster, das die beste Übereinstimmung zeigt, wird dann als Kennzeichen des neuen Musters ausgewählt. Das Sprachsignal wird z«B, in zwei Frequenzbändern ausgefiltert. Begrenzende Verstärker in jedem der Kanäle schneiden die Spitzen der Signale ab, Di© Messungen der Nulldurchgänge ergeben ungefähr die Frequenzen, der ersten und zweiten Formanten als Funktionen der Zeit, Der erste Formantfrequenzbereich wird in sechs Frequenzstufen quantisierto Der zweite Formant— bereich wird in fünf Frequenzstufen quantisiert. Hierdurch wird eine Frequenzebene mit 30 Matrixelementen erzeugt» Für eine gegebene Einzeläußerung wird die Zeit, die die Sprach— frequenzkurve auf jedem Quadrat der Ebene"belegt, bestimmt.
In der Maschine ist ein Referenzsseit-Belegungsmuster für jede gesprochene Einzeläußerung gespeichert. Der Speichermechanismus besteht aus einer Gruppe von wichtenden Widerständen, die jedem Matrix-Einzelquadrat zugeordnet sind. Über diese Widerstände wird ©ine entsprechende Anzahl von getrennten Kondensatoren während der Zeit, in der das Quadrat belegt ist, aufgeladen. Eine Kreuzkorrelation der gespeicherten und der einlaufenden Muster wird in der Weise durchgeführt, daß die jedem Quadrat entsprechend der mittleren Belegungszeit durch die betreffenden gesprochenen Einzellaute zugehörigen spezifischen Leitfähigkeiten abgewogen werden. Die spezifische Leitfähigkeit eines gegebenen Ladeweges wird proportional der
- 3 409828/0763
Belegungszeit des betreffenden Quadrats durch eine gegebene Lautäußerung gewichtet.. Der Kondensator, an dem am Ende der Äußerung die größte Ladung liegt, zeigt das Muster an, das den höchsten Übereinstimmungsgrad liefert, und bestimmt damit, was für ein Einzellaut gesprochen wurde. Die Maschine weist jedoch keine Vorrichtungen auf, mit denen ihre gespeicherten Muster an die Stimme eines gegebenen Sprechers angepaßt werden könnte.
Ein System auf linguistischer Grundlage, das eine große prozessgekoppelte Rechenanlage verwendet, führt eine Merkmalsanalyse von Segmenten in der Sprachkurvenform durch. Die Kurvenform wird zunächst in kleine Abschnitte bestimmter Zeit— intervalldauer aufgeteilt. Kleine Segmente, die akustisch ähnlich sind, werden zur Bildung größerer Segmente zusammengruppiert -, die entweder ununterbrochene oder vorübergehende Teile darstellen. Merkmale, wie z.B". Stimmhaftigkeit, Stimmlosigkeit, Tonhöhe, Intensität, Formantfrequenz und -amplitude, werden zur Klassifizierung jedes Segmentes in vier Phonemgruppen verwendet. Sodann wird ein bestimmter Algorithmus zur Zuordnung eines Phonemkennzeichens zu jedem Segment einer Phomengruppe angewendet, Obgleich dieses System die vorhandenen Vorteile einer phonetischen Merkmalsklassifizierung und von Sprachelementwahrscheinlichkeiten wahrnimmt, steht es dennoch vor den gleichen Problemen des linguistischen Zwangs und des Bedeutungsinhalts, mit denen Erkennungsgeräte
409828/0763
2363530
konfrontiert sind. Eine weitere Schwierigkeit bei diesem System liegt darin, daß es davon abhängig ist, daß in der Weite der Merkmale, hinsichtlich der jedes Segment einer Phonemgruppe gekennzeichnet ist, Häufigkeitsansammlungen vorhanden sind.
Der vorliegenden Erfindung liegt die Aufgäbe zugrunde, ein Spracherkennungssystem anzugeben, das die Einschränkungen der bekannten Erkennungssysteme nicht aufweist, und das insbesondere in der Lage, ist, eine phonemhafte Übersetzung bei der automatischen Spracherkennung durchzuführen. Diese Aufgabe wird durch die in Anspruch 1 angegebene Erfindung gelöst. Ausgestaltungen der Erfindung und vorteilhafte Weiterbildungen sind in den Unteransprüchen gekennzeichnet.
Die Erfindung löst nicht nur die gestellte Aufgabe, sondern ermöglicht es auch, mit Hilfe eines Kartierungsvorganges ein gesprochenes Wort'in eine Merkmalsfolge in Form von Lettern zu kodieren. Darüberhinaus ist es mit dem erfindungsgemäßen System möglich, bei dieser Kodierung eine Datenkompression vorzunehmen. Weitere Vorzüge der Erfindung werden aus der nachfolgenden Beschreibung offenbar.
Fig. 1-zeigt eine Blockdarstellung eines Wortverarbeitungssystems nach der vorliegenden Erfindung.
— 5 —
409828/0763
Fig. 2 ist ein Flußdiagramm des SpracherkennungsVorganges nach der vorliegenden Erfindung.
Fig. 3 zeigt ein Diagramm des Kurvenverlaufs einer Stimme, wie er in einem dreidimensionalen Raum bestimmt ist, und der eine Folge von Referenzpunkten enthält.
Fig. h zeigt eine graphische Darstellung· von Vergleichsenergieniveaus von verschiedenen Sprachintensitäten.
Fig. 5 zeigt graphische» Darstellungen des Kurvenverlaufs des Energieinhaltes von Äußerungen über der Zeit.
Nachfolgend sei ein bevorzugtes Ausführungsbeispiel beschrieben. Fig. 1 zeigt eine ¥ortverarbeitungsanlage nach der vorliegenden Erfindung. Die Sprachäußerungen, die identifiziert werden sollen, werden von einem Mikrofon 2 aufgenommen, von dem ein Audio-Eingangssignal zu einem Vorverstärker 4 gelangt, der da3 Audiosignal verstärkt, bevor es der weiteren Aufbereitung zugeführt wird. Das verstärkte Audiosignal wird dann einer Aufbereitungsanlage 6 zugeführt, wo es in Bezug auf η Frequenzbänder behandelt wird«, Die behandelten Signale werden einem Rechner 10 zur Speicherung und Verarbeitung zugeführt. Die gespeicherten und/oder '. Verarbeiteten Signale können dann selektiv an der Leitung 20 zu einem Peripheriegerät ausgegeben werden, wie z.B. einer Katodenstrahlanzeigenröhre,
409828/0763
Die Aufbereitungsanlage 6 besteht aus einer sechskanaligen Bandpaß-Filterbank 12„ einem Zeitintegrator Ik1 einem Multiplexer 16 und einem Analog/Digitalwandler 18, Das·Filter f±ltert aus den einlaufenden Audiosignalen sechs Kanäle oder· Frequenzbänder heraus. Hierfür kann die 24-kanalige Oktavdrittel-Filterbank der Firma Hewlett-Packard verwendet werden« Die Bandbreiten werden vorzugsweise nach einer geometrischen Reihe bemessen, und zwar zunel ■> ι end mit der Frequenz mit Bandbreiten von 150 bis 10.000 Hz. Die Kanäle des Filters 12 bestimmen damit die Abstände für die Lage spezieller Töne im Audiosignal.
Der Gesamtenergiegehalt in jedem der sechs Kanäle nach jedem 10-Millisekunden-Intervall wird dem Integrator 14 zugeleitet, der Schwankungen in der Kurvenform beseitigt, die sonst in jedem der Kanäle erscheinen würden,» Der Integrator Ik kann ganz einfach aus der Parallelschaltung eines Kondensators und eines Verstärkers jeweils für einen der Kanäle bestehen. Der Ausgang des Integrators lh kann auch unmittelbar mit dem Rechner 10 verbunden werden, . -■-.■-
Der Rechner 10 ist ein Universal-Digitalrechner^- der digitale Eingaben benötigt« Aus diesem Grunde werden die Ausgangs-Kurvenformen des Multiplexers 16 über einen Analog/Digitalwandler 18 dem Rechner 10 zugeführt«, Eine .Rechenanlage, die die vorliegenden Anforderungen erfüllt, kann z.B. der Rechner
— 7 —
40982 8/0763
Sigma 3 der Firma Xerox sein. Der Rechner Sigma 3 ist vollständig in dem Handbuch 9O-15-92C der Firma Xerox vom Februar 1971 beschrieben. Der Rechner Sigma 3 umfaßt mindestens eine Zentraleinheit und einen zugehörigen Kernspeicher für die Abspeicherung von Informationen, die dem Rechner mit Hilfe einer Ein/Ausgabeeinheit zugeführt werden. Peripheriegeräte und Spezialbaugruppen sind mit der Ein/ Ausgabeeinheit verbunden, um solche Informationen zuzuführen. Die Zentraleinheit kann auch eine unabhängige Ein/Ausgabeeinheit besitzen, die es dem Rechner Sigma 3 erlauben würde, parallel in der Zentraleinheit eine gleichzeitige Verarbeitung von Digitalinformationen durchzuführen.
Fig. 2 zeigt ein Flußdiagramm der Erkennungsfolge, die von dem System nach Fig. 1 ausgeführt wird. Das Audiosignal wird, wie oben beschrieben, vorbehandelt, um für jeden der angegebenen Kanäle aufbereitete Daten anzubieten. Wie Fig. 2 zeigt, werden die Information oder Daten für die Eingabe in den Rechner 10 digitalisiert. Die digitalen Wellenformen, die auf diese Weise dem Rechner 10 angeboten werden, stellen die Energie in jedem der sechs Kanäle dar. Die Energienieveaus als Funktion der Zeit in jeder Wellenform werden, wie oben, beschrieben, als Summe der Energien in den 10-Millisekunden-Zeitintervallen dargestellt. Die Amplituden dieser Meßwerte können in ihre I»0g- Werte umgewandelt und damit uLog~>-kartiert" werden. Von sechs Wellenformen wird ein 6-dimensio-
409828/0763
onaler Raum erzeugt. Jede Koordinate im Raum ist einem Wert zwischen 0 und 255 zugeordnet, der von acht binären Zahlen (Bits) bestimmt ist. Auf diese Weise werden k8 Bits notwendig, um die Koordinaten eines Punktes in diesem Saum anzugeben. Die sechs Wellenformen, die zu der Äußerung gehören, werden im Raum dadurch gekennzeichnet, daß - durch die Bestimmung entsprechender Koordinatenwerte für Jeden Punkt nach den entsprechenden Energieniveaus der sechs Wellenformen an einer gemeinsamen Ordinate der Wellenform - eine Serie von Punkten im Raum gekennzeichnet wird* Durch Entwicklung einer Serie von Puiiien in jedem Raum während der Dauer der Wellenformen wird eine Kurvenverlaufslinie im Raum entwickelt, die eindeutig zu der Äußerung gehört. In Fig. 3 wird eine Stimmenverlaufskurve in einem dreidimensionalen Raum dargestellt.
Referenzpunkte sind an vorgegebenen Stellen innerhalb des Raumes angeordnet* Im bevorzugten Ausführungsbeispiel sind 32 Referenzpunkte in besonders geeigneter Weise im Raum verteilt. Nur fünf Bits werden benötigt, um einen der 32 Referenzpunkte zu bestimmen. In Fig. 3 sind nur die Referenzpunkte p1 bis p8 für Demonstrationszwecke dargestellt. Im Falle einer Verbalmitteilung, die 100 Punkte im Räum erzeugt und damit den Stimmkurvenverlauf festlegt, wird jeder dieser Punkte entsprechend des ihm am nächsten gelegenen Referenzpunktes gekennzeichnet. Im bevorzugten Ausführungsbeispiel
4098 2 8/0763
werden Merkmalskennzeichen verwendet, um einen Referenzpunkt zu identifizieren, sod.aß auf diese Weise eine "Markmalsfolge" für jede Äußerung bestimmt wird. Da die Koordinaten der Referenzpunkte bekannt sind, kann eine Verbalmitteilung, die in einer Merkmalsfolge von Referenzkennzeichen kodiert wurde, in eine Serie von Positionen im 6—dimensionalen Raum dekodiert werden,
Merkmalskennzeichen werden einem ungekennzeichneten Punkt im Raum durch die Messung der Entfernungen zwischen"dem ungekennzeichneten Punkt und allen Referenzpunkten zugeordnet. Diese Messungen zur Bestimmung des nächsten Referenzpunktes können in einfacher ¥eise durch die Verwendung von Distanztabellen durchgeführt werden, die· die Entfernungen zwischen Referenzpunkten enthalten. Wenn z.B. ein Punkt in der Nähe des Referenzpunktes 11A" liegt, dann ist er auch von jenen Referenzpunkten entfernt, die vom Punkt 11A" entfernt sind. Diese Technik erlaubt es, einige Referenzpunkte zu beseitigen, ohne explizit ihre Entfernungen zu messen. Der nachfolgende Vorgang der Zeitsegmentierung und der Klassifizierung bringt dann die Kodierung der aufbereiteten Information in eine Merkmalsfolge. Die Merkmalsfolge-Kodierung ist' äußerst vorteilhaft bezüglich ihrer Kartierung der vorbehandelten Information oder Daten, da hierdurch die Anzahl der Bits, die zur. Spezifizierung der Information benötigt werden, verringert werden kann. Die Merkmalsreihe entspringt hierdurch aus
-1O-
409828/0763
der zeitlichen Entwicklung von Datenpunkten von Bereich zu Bereich. Die Punkte gleichen Abstandes zwischen benachbarten Referenzpunkten sind Hyperflächen, die den Raum in Kennzeichenabschnitte öder -regionen teilen» Die gekennzeichneten Regionen sind die "Markmale" in der Merkmalsfolge. Die Kompression der vorbehandelten Information ergibt sich aus der Tatsache, daß die Anzahl der Bits, die benötigt werden, um die Koordinaten eines Punktes im Raum zu speichern, nahezu immer größer ist als die Anzahl der Bits, die zur Speicherung des Kennzeichens des nächstgelegenen Referenzpunktes benötigt werden*
Iin Rechner 10 ist ein Lexikon von Merkmalsfolgen von Wörtern gespeichert, die von dem Forterkennungssystem erkannt werden sollen. Die in der oben beschriebenen ¥eise entwickelten Merkmalsfolgen, die von der Aufnahme der gesprochenen Äußerungen durch das Mikrofon 2 resultieren, werden mit den gespeicherten Merkmalsfolgen verglichen. Der Rechner 10 ist in der Lage, einen Vergleich der erzeugten Merkmalsfolge mit diesen bekannten Lexikon-Merkmalsfolgen zu vergleichen, um eine endgültige Auswahl unter den in Frage kommenden Wörtern im Speicher zu treffen. Es wurde z.B. gefunden, daß die Stimmkurvenverläufe der englischen Wörter "sick", "six" und "sex" genügend unterschiedlich sind, um eine eindeutige Merkmalsfolge zu erzeugen, sodaß unter diesen die erzeugte Merkmalsfolge für das gesprochene englische Wort "six" erfolg-
- 11 -
409828/0 763
reich verglichen werden kann. Die Übereinstimmung der erzeugten Merkmalsfolge mit der dem Rechner bekannten Merkmalsfolge für das englische Wort "six" kann an einem an der Leitung 20 angeschlossenen Peripheriegerät angezeigt werden.
Das Worterkennungssystem der vorliegenden Erfindung ist so eingerichtet, daß es gegenüber Lautstärkeänderungen bei gesprochenen Äußerungen am Mikrophon 2 ui- -mpfindlich ist« In Fig. h werden entsprechende graphische Darstellungen einer Äußerung geringer Lautstärke (Fig. ka.) und einer Äußerung großer Lautstärke (Fig. kb) jeweils vom gleichen Wort gezeigt. Die beiden Fig. ha. und 4b zeigen jeweils die Energie— inhaltsstufen des Audiqsignals über der Zeit. -Die aufbereitete Information oder Daten aus den sechs Kanälen sind unverschlüsselte Energiewerte und dürfen nicht verwendet werden. Vielmehr wird das Verhältnis von Zeitgemittelten Energieabtastwerten aus den sechs entsprechenden Kanälen über den Verlauf der Gesamtenergie in der Wellenform während der Ab— tastperiode festgehalten. Ein Beispiel für die Amplitudennormierung wird in der Funktion IDIST angegeben, die später in dieser Beschreibung ausgeführt wird.
Ein weiteres Merkmal der Erfindung ist in Fig. 5 dargestellt, Fig. 5a zeigt die Energieverteilung des englischen Wortes "eight", während Fig. 5b die Energieverteilung des englischen Wortes "exchange" zeigt. Das Ende der Äußerungserken-
- 12 -
£09828/0763
nung hat Probleme bei der Entwicklung eines praktikablen Worterkennungssysteras aufgeworfen. Dieses Problem liegt in der' Tatsache begründet, daß Endkonsonanten manchmal nicht gesprochen werden, Wenn sie jedoch gesprochen werden, dann häufig mit großer Verschiedenheit und wechselnden Amplituden. Durch die Außerachtlassung von Endkonsonanten einer Länge von ungefähr 200 Millisekunden wird das Ende einer Äußerungserkennung viel schneller erkannt. Daher werden die Merkmale einer Merkmalsfolge für das englische Wort "eight", die zum Endkonsonanten "t" gehören, nicht für einen Vergleich der Merkmalsfolge für das Wort mit jenen Wörtern herangezogen, die im Rechner 10 gespeichert sind. Jedoch werden solche Konsonanten, wie das im Englischen weich gesprochene "ge" des Wortes "exchange", die eine größere Zeitdauer oder einen differenzierteren Energieverlauf aufweisen, nicht außer Acht gelassen und daher wird die vollständige Merkmalsfolge für das Wort mit denen im Lexikon der Merkmalsfolgen im Rechnerspeicher verglichen. Die spezifische Folge einer Merkmals— folgekodierung kann durch Programmierung des Rechners 10 verwirklicht werden, indem ein Satz von Befehlen angewendet wird, der die Audioinformation entsprechend der oben gegebenen Lehre verarbeitet. Ein Beispiel hierfür ist in Sätzen der Quellensprache FORTRAN IV angegeben. Die Distanzmessung zwischen dem Punkt, wo das 10 Millisekundenintervall auf der Stimmverlaufskurve ist, und den Referenzpunkten wird durch die Funktion IDIST durchgeführt, und drückt sich in der Programmsprache wie folgt aus:
- T3 -
409828/0763
' FUNCTIOW TDISTiHDIM;JPTI,IPT2)
DIMENSION IPTl(7),ΙΡΤ2(7),IWEIT(7) '
DATA IWEIT/0,4,4,5,5,3,3/, IWT/4 8/ /ITWSHOULD BE SET AT TWICE THE SUM OF THE IWEIT VALUES.
ISUMl=O
ISUM2=0 ·
DO 3 1=2,NDIM '
ISUMl=ISUMl+IPTl(l) - ·. , . .. · 3 ISUM2=ISUM2+IPT2(l) IDD=(ISUM2-ISUM1)/(NDIM-I) .
ISUM= (IWT/12) *IABS (IDD) DO 10 K=2,NDIM
ID = IPT2(K)=IPTl(K) -IDD
ISUM = ISUM + IABS(ID)*IWEIT(K) 10 CONTINUE
IDIST = ISUM/lWT
; RETURN ·
END - '
Die Äußerung, dl© durch die Stimmverlaufskurve dargestellt virdf wird gekennzeichnet und in eine Merkmalsfolgedarstellung transformiert mit Hilfe der Prograimnfolge, die als Punktion 6ETUT vie folgt gekennzeichnet ist t
SUBROUTINE GETUT
COMMON /INADC/ LOG(256),NOIS(7) COMMON /INREC/ IUTTER(120),IBEG,IEND,MAXOFF COMMON /IKPRE/ MATRIX(29,29), IA(7,120),KCENT(7,29),NCLUST
DATA ITH /32/,ITH2/64/, ISW. /0/, MTH /4/ COMPUTE LOGS (FIRST TIME ONLY)
IF(ISW-NB.O) GO TO 5 . ·
CALL ADCON -. .
- ISW=I ...
• DO 4 I=I, 256
LOG(I)=7iLOG2(X)*32
CONTINUE
40982870763
MEASURE NOISE
CONTINUE ■ ' - ' DO 12 1=1,7 • 12 NOIS(I)=O DO 20 1=1,8 CALL ADCIN (IA (1,1)) IP(IA(I,1).LT.-1000) GO TO 5432 DO 29 J=I,7 NOIS (J)=NOIS (J)+IA (σ, 1) CONTINUE DO 30 1=1,7 NOIS(I)=NOIS(I)/8 CONTINUE
INNER LOOP
IBEG=MTH • 48 K=-l
IASUK=O DO 4SI I=I,MTH CALL TPMONI(IA(I,I) t I) IASUM=IASUM+IA(1,I)
CONTINUE
I=MTH MAXOPP=O 1
EQUIVALENT OF PHONIN GOES HERE CALL TPHONI(IA(1,1),I)
- IASUM=IaSUM=IA(1,1)-IA(1,1-4)
CONTROL SECTION IP(LGT. 120) GO TO KG0=K+2 GOTO (55,60,65,58} SKGO
K IS STATE COUNTER
STATE * K IF THEN NEW STATE BEGIN
BEGIN -1 SILENCE RESET I BEGIN
NOISE = IP(I.GT.7) VERIFY
NORM 0 SILENCE IEND=I END STOP
NOISE NORM
END +1 SILENCE IP(I-IEND.GE .25)
NOISE NORM
409828/0763
STOP
VERIFY BEGIN +2
IF(IEND.LT.30) RESET 1 BEGIN >ITH2... · - ■ . NORM. IF (I.GT.16) - . BEGIN
BEGIN STATE . ' -
55 IF (IASÜM/MTI5.GT.ITH) GO TO 56 DO 53 J=I,MTH
53 IA(I,J)=IA(I,J+l) ·"
GO TO 49 . *
56 ΙΓ(Ι.ΙιΕ/7Η·ΜΤΗ) GO TO 50 K=2
. GO TO 50
VERIFY BEGIN ·
58 IF(IASUM/MTH.LT.ITH2) GO TO 59 K=O . ·
GO TO 50 -
59 IF(I-KTH.GT.16) K=-l
IF (IA SUM/ϊ-ΤΓΗ. LT . ITH) K=I · :
GO TO 50 . .
NORl-LAL STATE
60 IF (IASUM/MTH.GT.ITH) GO TO 50
IF (MAXOFF.LT.IASUM/MTH) MAXOFF=IASUM/MTH
IEND=I-I
K=I
GO TO 50
END STATE
'65 IF (IASUM/MTH.LE.ITII) GO TO 66 K=O
GO'TO 50
66 IF(I-IEND-25) 50,70,70
STOP
70 IF(IEND.LE.30) GO TO 48
RETURN
75 IEND=120 ν
RETURN END
Der Vergleich zwischen den erzeugten Merkmalsfolgen und den Merkmalsfolgen im Rechnerspeicher wird durch die Funktion NREG wie folgt durchgeführt:
- 16 -
409828/0763
■ ' 23635
FUNCTION NREC(IDUMMy)
COMMON /INPRE/ MATRIX(29,29),IA(7,120),KCENT(7,29),NCLUST COMMON /INREC/IUTTER(120),IBEG,IEND,MAXOPP
COMMON/LRKREC/ITEMPL (72,54), ΝΛΜΕ (13,54), LENGTH (54) , NTEMP, IUTT
CALL NORMAL(IUTTER,IBEG,IEND,IUTT) ·
MNSCOR = 10000 t ' '·
IF (NTEMP.EQ.O) NREC=O '
IF (Iv(TEMP. EQ. O) RETURN
DO 15 I=IxNTEMP ' ■./·.*
ITOT =0
DO 5 J=I,72 ■
ITOT = ITOT+MATRIX(ITEMPL(J,I),IUTT(J))
ISCOR =ITOT ...
IF (ISCOR.GE.FiNSCOR) GO TO 15
MNSCOR = ISCOR
INDEX =1
CONTINUE ·,
NREC = INDEX
IF (MNSCOR.GT.1000) NREC=O
RETURN
Es ist augenscheinlich, daß viele Änderungen der vorliegenden Erfindung in Anwendung der gegebenen Lehre möglich sind« Es soll daher hervorgehoben werden, daß innerhalb der Ansprüche die Erfindung auch auf andere Weise ausgeführt werden kann, als sie hier speziell beschrieben wurde.
- 17 409828/07 6 3

Claims (12)

  1. Patentansprüche
    Worterkennungssystem zum automatischen Identifizieren gesprochener Äußerungen, gekennzeichnet durch ein Mikrophon (2) zur Umwandlung der gesprochenen Äußerungen in Audiosignale, eine Filteranordnung (12) für die Audiosignale, die diese in η Bänder aufteilt, eine Einrichtung zum Bestimmen eines Stimmkurvenverlaufs, dio eine Serie von Punkten in Bezug auf Zeitabschnitte in der Zeitdauer eines jeden Audiosignals aufbaut, wobei diese Punkte durch Korodinaten definiert sind, von denen jede die Energiestufen bezüglich eines entsprechenden Energiebandes darstellt, sodaß die Punkte in einem n—dimensionalen Raum liegen, weiterhin durch eine Einrichtung zur Kennzeichnung jedes "Kurvenpunktes mit den Kennungen von Referenzpunkten, die zuvor im Raum zugeordnet wurden, wodurch eine Kennungsfolgedarstellung einer jeden Äußerung erzeugt wird, weiterhin durch eine Vorrichtung zum Speichern und Erzeugen von zuvor zugeordneten Kennungsfolgen für ein Lexikon gespeicherter Äußerungen, und schließlich durch eine Einrichtung zum Vergleichen der erzeugten Kennungsreihen mit den gespeicherten Kennungsreihen zur Identifizierung der gesprochenen Äußerungen·
  2. 2. System nach Anspruch 1, dadurch gekennzeichnet, daß die Kennzeichnungsvorrichtung die Kennung des nächsten Referenzpunktes jedem der Kurvenpunkte zuordnet.
    - 18 -
    409828/0 7 63
  3. 3. System nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß außerdem eine Zeitintegriereinrichtung (14)' für die Audiosignale vorgesehen ist«
  4. 4. System nach wenigstens einem der Ansprüche 1 bis 3» dadurch gekennzeichnet, daß weiterhin eine Normiereinrichtung zur Normierung der Energieniveaus der betreffenden Filterbänder vorgesehen ist.
  5. 5. System nach wenigstens einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß eine Einrichtung zum Feststellen des Endes (Endendetektor) ^eder Äußerung vorgesehen ist.
  6. 6. System nach Anspruch 5? dadurch gekennzeichnet, daß der Endendetektor eine Einrichtung zur Außerachtlassung vom Endkonsonanten enthält»
  7. 7· System nach wenigstens einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß die Kennungen Merkmale (»Lettern) sind, und daß die Kennungsfolgen daher Merkmals- (Lettern-) folgen sind.
  8. 8« Verfahren zur automatischen Erkennung gesprochener Äußerungen, gekennzeichnet durch folgende Schritte:
    Umwandlung der gesprochenen Äußerungen in Audiosignale,
    Filterung der Audiosignale in η Frequenzbänder
    - 19 -
    4 09828/0763
    2363530
    Umreißung eines Stimmkurvenverlaufs, der eine Serie von Punkten in Bezug auf Zeitabschnitte während der Dauer jedes Audiosignals bildet, wobei jeder Punkt durch entsprechende Koordinaten festgelegt ist, die die Energiestufen eines zugehörigen Energiebandes darstellen, um den Kurvenverlauf in einem ri-dimensionalen Raum festzulegen,
    Kennzeichnung jedes Kurvenpunkts durch die Kennungen von zuvor im Raum zugeordneten Referenzpunkten, hieraus Erzeugung einer Kennungsfolgedarstellung für jede Äußerung, Speicherung von zuvor zugeordneten Kennungsfolgen für ein Lexikon von gespeicherten Äußerungen, und schließlich
    "Vergleichen der erzeugten KennungsfOlgen- mit den gespeicherten Kennungsfolgen zur Identifizierung der gesprochenen Äußerungen.
  9. 9· Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß bei der Kennzeichnung die Punkte des Kurvenverlaufs mit der Kennung des nächsten Referenzpunktes versehen werden,
  10. 10. Verfahren nach Anspruch 8 oder 9, dadurch gekennzeichnet,daß außerdem eine Normierung der Energieniveaus der betreffenden ausgefilterten Frequenzbänder vorgenommen wird.
    - 20 -
    409828/0763
    2363530
  11. 11. Verfahren nach wenigstens einen» der Ansprüche 8 bis 10, dadurch gekennzeichnet, daß außerdem das Ende jeder
    Äußerung festgestellt wird.
  12. 12. Verfahren nach wenigstens einem der Ansprüche 8 bis 11, dadurch gekennzeichnet, daß bei der Endenfeststellung Endkonsonanten bestimmter Länge außer Acht gelassen werden.
    13- Verfahren nach wenigstens einem der Ansprüche 8 bis 12, "dadurch gekennzeichnet, daß Audiosign^Ie zeitintegriert werden,
    4098 2 8/0763
DE19732363590 1973-01-05 1973-12-20 Spracherkennungssystem mit merkmalsfolgekodierung Pending DE2363590A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US32150073A 1973-01-05 1973-01-05

Publications (1)

Publication Number Publication Date
DE2363590A1 true DE2363590A1 (de) 1974-07-11

Family

ID=23250859

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19732363590 Pending DE2363590A1 (de) 1973-01-05 1973-12-20 Spracherkennungssystem mit merkmalsfolgekodierung

Country Status (9)

Country Link
JP (1) JPS49103509A (de)
AU (1) AU6422074A (de)
BE (1) BE809401A (de)
DE (1) DE2363590A1 (de)
ES (1) ES422035A1 (de)
FR (1) FR2213553A1 (de)
GB (1) GB1433770A (de)
IT (1) IT1007572B (de)
NL (1) NL7400088A (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2659096A1 (de) * 1975-12-29 1977-07-07 Dialog Syst Verfahren und vorrichtung zur spracherkennung

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2720666A1 (de) * 1977-05-07 1978-11-09 Philips Patentverwaltung Verfahren und anordnung zur geraeuschanalyse
CH635695A5 (de) * 1978-08-31 1983-04-15 Landis & Gyr Ag Detektor zur feststellung der anwesenheit mindestens eines elektrischen signals mit einer vorbestimmten charakteristik.
JPS5688199A (en) * 1979-12-21 1981-07-17 Hitachi Ltd Pattern pretreatment method in voice identifier
JPS5697337A (en) 1979-12-31 1981-08-06 Minolta Camera Co Ltd Voice control camera

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2659096A1 (de) * 1975-12-29 1977-07-07 Dialog Syst Verfahren und vorrichtung zur spracherkennung

Also Published As

Publication number Publication date
AU6422074A (en) 1975-07-10
JPS49103509A (de) 1974-10-01
NL7400088A (de) 1974-07-09
BE809401A (fr) 1974-05-02
FR2213553A1 (de) 1974-08-02
ES422035A1 (es) 1976-12-16
IT1007572B (it) 1976-10-30
GB1433770A (en) 1976-04-28

Similar Documents

Publication Publication Date Title
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE4397106B4 (de) Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung
DE10042944C2 (de) Graphem-Phonem-Konvertierung
DE3884880T2 (de) Billige Spracherkennungseinrichtung und Verfahren.
DE69010941T2 (de) Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache.
DE3878001T2 (de) Spracherkennungseinrichtung unter anwendung von phonemermittlung.
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
DE3852678T2 (de) Mustererkennung.
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
DE2347738A1 (de) Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben
WO1998011537A2 (de) Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem
DE3416238A1 (de) Extremschmalband-uebertragungssystem
EP1214703B1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
EP0285221A2 (de) Verfahren zum Erkennen kontinuierlich gesprochener Wörter
EP1264301B1 (de) Verfahren zur erkennung von sprachäusserungen nicht-muttersprachlicher sprecher in einem sprachverarbeitungssystem
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
DE4031638A1 (de) Spracherkennungseinrichtung
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
EP1182646A2 (de) Verfahren zur Zuordnung von Phonemen
DE3853702T2 (de) Spracherkennung.
EP1282897A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE2363590A1 (de) Spracherkennungssystem mit merkmalsfolgekodierung
EP1224661B1 (de) Verfahren und anordnung zur verifikation eines sprechers anhand eines rechners