DE2363590A1 - Spracherkennungssystem mit merkmalsfolgekodierung - Google Patents
Spracherkennungssystem mit merkmalsfolgekodierungInfo
- Publication number
- DE2363590A1 DE2363590A1 DE19732363590 DE2363590A DE2363590A1 DE 2363590 A1 DE2363590 A1 DE 2363590A1 DE 19732363590 DE19732363590 DE 19732363590 DE 2363590 A DE2363590 A DE 2363590A DE 2363590 A1 DE2363590 A1 DE 2363590A1
- Authority
- DE
- Germany
- Prior art keywords
- points
- curve
- point
- identification
- sequences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 11
- 230000005236 sound signal Effects 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims 1
- 238000001914 filtration Methods 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 4
- 238000012545 processing Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 238000005259 measurement Methods 0.000 description 4
- 101100179914 Arabidopsis thaliana IPT2 gene Proteins 0.000 description 3
- 239000003990 capacitor Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 230000035508 accumulation Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Machine Translation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
Palentanwälte
-Iw. A. Grünecker 20. Dezemoer 1973
Dr.-lno. W. b^^ruir *
8 München S2,Max!i.i:liaastr.4a 2363590
XEROX CORP.
Xerox Square, Rochester, New York 14605, USA.
Xerox Square, Rochester, New York 14605, USA.
Spracherkennnngssystem mit Merkmalsfolgekodienmg
Die vorliegende Erfindung bezieht sich auf ein Spracherkennungssystem,
insbesondere ein System mit maschineller Erkennung von Einzeläußerungen.
Automatische Spracherkennung bedeutet Erkennung von phonemartigen
Einheiten durch eine Maschine. Die verschiedensten Formen zur Kodierung des akustischen Signals wurden bereits
versucht. Das unter dem Namen AUDREY bekannte umfaßt eine
grobe Messung von ersten und zweiten Formantfrequenzen über der Zeit und ein Vergleich der gemessenen zeitlichen Muster
grobe Messung von ersten und zweiten Formantfrequenzen über der Zeit und ein Vergleich der gemessenen zeitlichen Muster
409828/0763
mit einem Satz gespeicherter Vergleichsmuster,, Das gespeicherte
Muster, das die beste Übereinstimmung zeigt, wird dann als Kennzeichen des neuen Musters ausgewählt. Das
Sprachsignal wird z«B, in zwei Frequenzbändern ausgefiltert. Begrenzende Verstärker in jedem der Kanäle schneiden die
Spitzen der Signale ab, Di© Messungen der Nulldurchgänge ergeben ungefähr die Frequenzen, der ersten und zweiten Formanten
als Funktionen der Zeit, Der erste Formantfrequenzbereich wird in sechs Frequenzstufen quantisierto Der zweite Formant—
bereich wird in fünf Frequenzstufen quantisiert. Hierdurch wird eine Frequenzebene mit 30 Matrixelementen erzeugt» Für
eine gegebene Einzeläußerung wird die Zeit, die die Sprach— frequenzkurve auf jedem Quadrat der Ebene"belegt, bestimmt.
In der Maschine ist ein Referenzsseit-Belegungsmuster für jede
gesprochene Einzeläußerung gespeichert. Der Speichermechanismus
besteht aus einer Gruppe von wichtenden Widerständen, die jedem Matrix-Einzelquadrat zugeordnet sind. Über diese
Widerstände wird ©ine entsprechende Anzahl von getrennten
Kondensatoren während der Zeit, in der das Quadrat belegt ist, aufgeladen. Eine Kreuzkorrelation der gespeicherten und der
einlaufenden Muster wird in der Weise durchgeführt, daß die jedem Quadrat entsprechend der mittleren Belegungszeit durch
die betreffenden gesprochenen Einzellaute zugehörigen spezifischen Leitfähigkeiten abgewogen werden. Die spezifische
Leitfähigkeit eines gegebenen Ladeweges wird proportional der
- 3 409828/0763
Belegungszeit des betreffenden Quadrats durch eine gegebene
Lautäußerung gewichtet.. Der Kondensator, an dem am Ende der
Äußerung die größte Ladung liegt, zeigt das Muster an, das den höchsten Übereinstimmungsgrad liefert, und bestimmt damit,
was für ein Einzellaut gesprochen wurde. Die Maschine weist jedoch keine Vorrichtungen auf, mit denen ihre gespeicherten
Muster an die Stimme eines gegebenen Sprechers angepaßt werden könnte.
Ein System auf linguistischer Grundlage, das eine große prozessgekoppelte
Rechenanlage verwendet, führt eine Merkmalsanalyse von Segmenten in der Sprachkurvenform durch. Die Kurvenform
wird zunächst in kleine Abschnitte bestimmter Zeit— intervalldauer aufgeteilt. Kleine Segmente, die akustisch
ähnlich sind, werden zur Bildung größerer Segmente zusammengruppiert -, die entweder ununterbrochene oder vorübergehende
Teile darstellen. Merkmale, wie z.B". Stimmhaftigkeit, Stimmlosigkeit,
Tonhöhe, Intensität, Formantfrequenz und -amplitude, werden zur Klassifizierung jedes Segmentes in vier
Phonemgruppen verwendet. Sodann wird ein bestimmter Algorithmus zur Zuordnung eines Phonemkennzeichens zu jedem Segment
einer Phomengruppe angewendet, Obgleich dieses System die vorhandenen Vorteile einer phonetischen Merkmalsklassifizierung
und von Sprachelementwahrscheinlichkeiten wahrnimmt, steht es dennoch vor den gleichen Problemen des linguistischen
Zwangs und des Bedeutungsinhalts, mit denen Erkennungsgeräte
409828/0763
2363530
konfrontiert sind. Eine weitere Schwierigkeit bei diesem System liegt darin, daß es davon abhängig ist, daß in der
Weite der Merkmale, hinsichtlich der jedes Segment einer Phonemgruppe gekennzeichnet ist, Häufigkeitsansammlungen
vorhanden sind.
Der vorliegenden Erfindung liegt die Aufgäbe zugrunde, ein
Spracherkennungssystem anzugeben, das die Einschränkungen der bekannten Erkennungssysteme nicht aufweist, und das insbesondere
in der Lage, ist, eine phonemhafte Übersetzung bei der automatischen Spracherkennung durchzuführen. Diese Aufgabe
wird durch die in Anspruch 1 angegebene Erfindung gelöst. Ausgestaltungen der Erfindung und vorteilhafte Weiterbildungen
sind in den Unteransprüchen gekennzeichnet.
Die Erfindung löst nicht nur die gestellte Aufgabe, sondern ermöglicht es auch, mit Hilfe eines Kartierungsvorganges ein
gesprochenes Wort'in eine Merkmalsfolge in Form von Lettern
zu kodieren. Darüberhinaus ist es mit dem erfindungsgemäßen
System möglich, bei dieser Kodierung eine Datenkompression vorzunehmen. Weitere Vorzüge der Erfindung werden aus der
nachfolgenden Beschreibung offenbar.
Fig. 1-zeigt eine Blockdarstellung eines Wortverarbeitungssystems
nach der vorliegenden Erfindung.
— 5 —
409828/0763
Fig. 2 ist ein Flußdiagramm des SpracherkennungsVorganges
nach der vorliegenden Erfindung.
Fig. 3 zeigt ein Diagramm des Kurvenverlaufs einer Stimme, wie er in einem dreidimensionalen Raum bestimmt ist, und der
eine Folge von Referenzpunkten enthält.
Fig. h zeigt eine graphische Darstellung· von Vergleichsenergieniveaus
von verschiedenen Sprachintensitäten.
Fig. 5 zeigt graphische» Darstellungen des Kurvenverlaufs
des Energieinhaltes von Äußerungen über der Zeit.
Nachfolgend sei ein bevorzugtes Ausführungsbeispiel beschrieben. Fig. 1 zeigt eine ¥ortverarbeitungsanlage nach der vorliegenden
Erfindung. Die Sprachäußerungen, die identifiziert werden sollen, werden von einem Mikrofon 2 aufgenommen, von
dem ein Audio-Eingangssignal zu einem Vorverstärker 4 gelangt, der da3 Audiosignal verstärkt, bevor es der weiteren
Aufbereitung zugeführt wird. Das verstärkte Audiosignal wird dann einer Aufbereitungsanlage 6 zugeführt, wo es in Bezug
auf η Frequenzbänder behandelt wird«, Die behandelten Signale
werden einem Rechner 10 zur Speicherung und Verarbeitung zugeführt.
Die gespeicherten und/oder '. Verarbeiteten Signale
können dann selektiv an der Leitung 20 zu einem Peripheriegerät ausgegeben werden, wie z.B. einer Katodenstrahlanzeigenröhre,
409828/0763
Die Aufbereitungsanlage 6 besteht aus einer sechskanaligen Bandpaß-Filterbank 12„ einem Zeitintegrator Ik1 einem Multiplexer
16 und einem Analog/Digitalwandler 18, Das·Filter
f±ltert aus den einlaufenden Audiosignalen sechs Kanäle oder· Frequenzbänder heraus. Hierfür kann die 24-kanalige Oktavdrittel-Filterbank der Firma Hewlett-Packard verwendet werden«
Die Bandbreiten werden vorzugsweise nach einer geometrischen Reihe bemessen, und zwar zunel ■>
ι end mit der Frequenz mit Bandbreiten von 150 bis 10.000 Hz. Die Kanäle des Filters
12 bestimmen damit die Abstände für die Lage spezieller Töne im Audiosignal.
Der Gesamtenergiegehalt in jedem der sechs Kanäle nach jedem 10-Millisekunden-Intervall wird dem Integrator 14 zugeleitet,
der Schwankungen in der Kurvenform beseitigt, die sonst in jedem der Kanäle erscheinen würden,» Der Integrator Ik kann
ganz einfach aus der Parallelschaltung eines Kondensators und eines Verstärkers jeweils für einen der Kanäle bestehen.
Der Ausgang des Integrators lh kann auch unmittelbar mit dem Rechner 10 verbunden werden, . -■-.■-
Der Rechner 10 ist ein Universal-Digitalrechner^- der digitale
Eingaben benötigt« Aus diesem Grunde werden die Ausgangs-Kurvenformen
des Multiplexers 16 über einen Analog/Digitalwandler 18 dem Rechner 10 zugeführt«, Eine .Rechenanlage, die
die vorliegenden Anforderungen erfüllt, kann z.B. der Rechner
— 7 —
40982 8/0763
Sigma 3 der Firma Xerox sein. Der Rechner Sigma 3 ist vollständig
in dem Handbuch 9O-15-92C der Firma Xerox vom Februar
1971 beschrieben. Der Rechner Sigma 3 umfaßt mindestens eine Zentraleinheit und einen zugehörigen Kernspeicher
für die Abspeicherung von Informationen, die dem Rechner
mit Hilfe einer Ein/Ausgabeeinheit zugeführt werden. Peripheriegeräte und Spezialbaugruppen sind mit der Ein/
Ausgabeeinheit verbunden, um solche Informationen zuzuführen.
Die Zentraleinheit kann auch eine unabhängige Ein/Ausgabeeinheit besitzen, die es dem Rechner Sigma 3 erlauben würde,
parallel in der Zentraleinheit eine gleichzeitige Verarbeitung von Digitalinformationen durchzuführen.
Fig. 2 zeigt ein Flußdiagramm der Erkennungsfolge, die von
dem System nach Fig. 1 ausgeführt wird. Das Audiosignal wird, wie oben beschrieben, vorbehandelt, um für jeden der angegebenen
Kanäle aufbereitete Daten anzubieten. Wie Fig. 2 zeigt, werden die Information oder Daten für die Eingabe in den Rechner
10 digitalisiert. Die digitalen Wellenformen, die auf diese
Weise dem Rechner 10 angeboten werden, stellen die Energie in jedem der sechs Kanäle dar. Die Energienieveaus als Funktion
der Zeit in jeder Wellenform werden, wie oben, beschrieben, als Summe der Energien in den 10-Millisekunden-Zeitintervallen
dargestellt. Die Amplituden dieser Meßwerte können in ihre I»0g- Werte umgewandelt und damit uLog~>-kartiert" werden.
Von sechs Wellenformen wird ein 6-dimensio-
409828/0763
onaler Raum erzeugt. Jede Koordinate im Raum ist einem Wert
zwischen 0 und 255 zugeordnet, der von acht binären Zahlen (Bits) bestimmt ist. Auf diese Weise werden k8 Bits notwendig,
um die Koordinaten eines Punktes in diesem Saum anzugeben.
Die sechs Wellenformen, die zu der Äußerung gehören, werden im Raum dadurch gekennzeichnet, daß - durch die Bestimmung
entsprechender Koordinatenwerte für Jeden Punkt nach den entsprechenden Energieniveaus der sechs Wellenformen
an einer gemeinsamen Ordinate der Wellenform - eine Serie von Punkten im Raum gekennzeichnet wird* Durch Entwicklung
einer Serie von Puiiien in jedem Raum während der
Dauer der Wellenformen wird eine Kurvenverlaufslinie im
Raum entwickelt, die eindeutig zu der Äußerung gehört. In Fig. 3 wird eine Stimmenverlaufskurve in einem dreidimensionalen
Raum dargestellt.
Referenzpunkte sind an vorgegebenen Stellen innerhalb des
Raumes angeordnet* Im bevorzugten Ausführungsbeispiel sind 32 Referenzpunkte in besonders geeigneter Weise im Raum verteilt.
Nur fünf Bits werden benötigt, um einen der 32 Referenzpunkte zu bestimmen. In Fig. 3 sind nur die Referenzpunkte
p1 bis p8 für Demonstrationszwecke dargestellt. Im Falle einer Verbalmitteilung, die 100 Punkte im Räum erzeugt
und damit den Stimmkurvenverlauf festlegt, wird jeder dieser Punkte entsprechend des ihm am nächsten gelegenen Referenzpunktes
gekennzeichnet. Im bevorzugten Ausführungsbeispiel
4098 2 8/0763
werden Merkmalskennzeichen verwendet, um einen Referenzpunkt zu identifizieren, sod.aß auf diese Weise eine "Markmalsfolge"
für jede Äußerung bestimmt wird. Da die Koordinaten der Referenzpunkte bekannt sind, kann eine Verbalmitteilung,
die in einer Merkmalsfolge von Referenzkennzeichen kodiert
wurde, in eine Serie von Positionen im 6—dimensionalen Raum
dekodiert werden,
Merkmalskennzeichen werden einem ungekennzeichneten Punkt im Raum durch die Messung der Entfernungen zwischen"dem ungekennzeichneten
Punkt und allen Referenzpunkten zugeordnet. Diese Messungen zur Bestimmung des nächsten Referenzpunktes
können in einfacher ¥eise durch die Verwendung von Distanztabellen
durchgeführt werden, die· die Entfernungen zwischen Referenzpunkten enthalten. Wenn z.B. ein Punkt in der Nähe
des Referenzpunktes 11A" liegt, dann ist er auch von jenen
Referenzpunkten entfernt, die vom Punkt 11A" entfernt sind.
Diese Technik erlaubt es, einige Referenzpunkte zu beseitigen, ohne explizit ihre Entfernungen zu messen. Der nachfolgende
Vorgang der Zeitsegmentierung und der Klassifizierung bringt dann die Kodierung der aufbereiteten Information
in eine Merkmalsfolge. Die Merkmalsfolge-Kodierung ist' äußerst vorteilhaft bezüglich ihrer Kartierung der vorbehandelten Information
oder Daten, da hierdurch die Anzahl der Bits, die zur. Spezifizierung der Information benötigt werden, verringert
werden kann. Die Merkmalsreihe entspringt hierdurch aus
-1O-
409828/0763
der zeitlichen Entwicklung von Datenpunkten von Bereich zu Bereich. Die Punkte gleichen Abstandes zwischen benachbarten
Referenzpunkten sind Hyperflächen, die den Raum in Kennzeichenabschnitte
öder -regionen teilen» Die gekennzeichneten Regionen sind die "Markmale" in der Merkmalsfolge. Die Kompression
der vorbehandelten Information ergibt sich aus der Tatsache, daß die Anzahl der Bits, die benötigt werden, um
die Koordinaten eines Punktes im Raum zu speichern, nahezu
immer größer ist als die Anzahl der Bits, die zur Speicherung des Kennzeichens des nächstgelegenen Referenzpunktes
benötigt werden*
Iin Rechner 10 ist ein Lexikon von Merkmalsfolgen von Wörtern
gespeichert, die von dem Forterkennungssystem erkannt werden
sollen. Die in der oben beschriebenen ¥eise entwickelten Merkmalsfolgen, die von der Aufnahme der gesprochenen Äußerungen
durch das Mikrofon 2 resultieren, werden mit den gespeicherten Merkmalsfolgen verglichen. Der Rechner 10 ist in
der Lage, einen Vergleich der erzeugten Merkmalsfolge mit diesen bekannten Lexikon-Merkmalsfolgen zu vergleichen, um
eine endgültige Auswahl unter den in Frage kommenden Wörtern im Speicher zu treffen. Es wurde z.B. gefunden, daß die
Stimmkurvenverläufe der englischen Wörter "sick", "six" und
"sex" genügend unterschiedlich sind, um eine eindeutige Merkmalsfolge
zu erzeugen, sodaß unter diesen die erzeugte Merkmalsfolge für das gesprochene englische Wort "six" erfolg-
- 11 -
409828/0 763
reich verglichen werden kann. Die Übereinstimmung der erzeugten
Merkmalsfolge mit der dem Rechner bekannten Merkmalsfolge
für das englische Wort "six" kann an einem an der Leitung 20 angeschlossenen Peripheriegerät angezeigt werden.
Das Worterkennungssystem der vorliegenden Erfindung ist so eingerichtet, daß es gegenüber Lautstärkeänderungen bei gesprochenen
Äußerungen am Mikrophon 2 ui- -mpfindlich ist« In
Fig. h werden entsprechende graphische Darstellungen einer
Äußerung geringer Lautstärke (Fig. ka.) und einer Äußerung
großer Lautstärke (Fig. kb) jeweils vom gleichen Wort gezeigt.
Die beiden Fig. ha. und 4b zeigen jeweils die Energie—
inhaltsstufen des Audiqsignals über der Zeit. -Die aufbereitete
Information oder Daten aus den sechs Kanälen sind unverschlüsselte Energiewerte und dürfen nicht verwendet werden.
Vielmehr wird das Verhältnis von Zeitgemittelten Energieabtastwerten
aus den sechs entsprechenden Kanälen über den Verlauf der Gesamtenergie in der Wellenform während der Ab—
tastperiode festgehalten. Ein Beispiel für die Amplitudennormierung
wird in der Funktion IDIST angegeben, die später in dieser Beschreibung ausgeführt wird.
Ein weiteres Merkmal der Erfindung ist in Fig. 5 dargestellt, Fig. 5a zeigt die Energieverteilung des englischen Wortes
"eight", während Fig. 5b die Energieverteilung des englischen Wortes "exchange" zeigt. Das Ende der Äußerungserken-
- 12 -
£09828/0763
nung hat Probleme bei der Entwicklung eines praktikablen Worterkennungssysteras aufgeworfen. Dieses Problem liegt in
der' Tatsache begründet, daß Endkonsonanten manchmal nicht gesprochen werden, Wenn sie jedoch gesprochen werden, dann
häufig mit großer Verschiedenheit und wechselnden Amplituden. Durch die Außerachtlassung von Endkonsonanten einer Länge
von ungefähr 200 Millisekunden wird das Ende einer Äußerungserkennung
viel schneller erkannt. Daher werden die Merkmale einer Merkmalsfolge für das englische Wort "eight", die zum
Endkonsonanten "t" gehören, nicht für einen Vergleich der Merkmalsfolge für das Wort mit jenen Wörtern herangezogen,
die im Rechner 10 gespeichert sind. Jedoch werden solche Konsonanten, wie das im Englischen weich gesprochene "ge" des
Wortes "exchange", die eine größere Zeitdauer oder einen differenzierteren Energieverlauf aufweisen, nicht außer Acht
gelassen und daher wird die vollständige Merkmalsfolge für das Wort mit denen im Lexikon der Merkmalsfolgen im Rechnerspeicher
verglichen. Die spezifische Folge einer Merkmals— folgekodierung kann durch Programmierung des Rechners 10 verwirklicht
werden, indem ein Satz von Befehlen angewendet wird, der die Audioinformation entsprechend der oben gegebenen Lehre
verarbeitet. Ein Beispiel hierfür ist in Sätzen der Quellensprache FORTRAN IV angegeben. Die Distanzmessung zwischen dem
Punkt, wo das 10 Millisekundenintervall auf der Stimmverlaufskurve
ist, und den Referenzpunkten wird durch die Funktion
IDIST durchgeführt, und drückt sich in der Programmsprache
wie folgt aus:
- T3 -
409828/0763
' FUNCTIOW TDISTiHDIM;JPTI,IPT2)
DIMENSION IPTl(7),ΙΡΤ2(7),IWEIT(7) '
DATA IWEIT/0,4,4,5,5,3,3/, IWT/4 8/
/ITWSHOULD BE SET AT TWICE THE SUM OF THE IWEIT VALUES.
ISUMl=O
ISUM2=0 ·
DO 3 1=2,NDIM '
ISUMl=ISUMl+IPTl(l) - ·. , . .. ·
3 ISUM2=ISUM2+IPT2(l) IDD=(ISUM2-ISUM1)/(NDIM-I) .
ISUM= (IWT/12) *IABS (IDD)
DO 10 K=2,NDIM
ID = IPT2(K)=IPTl(K) -IDD
ISUM = ISUM + IABS(ID)*IWEIT(K)
10 CONTINUE
IDIST = ISUM/lWT
; RETURN ·
; RETURN ·
END - '
Die Äußerung, dl© durch die Stimmverlaufskurve dargestellt
virdf wird gekennzeichnet und in eine Merkmalsfolgedarstellung transformiert mit Hilfe der Prograimnfolge, die als
Punktion 6ETUT vie folgt gekennzeichnet ist t
■ SUBROUTINE GETUT
COMMON /INADC/ LOG(256),NOIS(7)
COMMON /INREC/ IUTTER(120),IBEG,IEND,MAXOFF
COMMON /IKPRE/ MATRIX(29,29), IA(7,120),KCENT(7,29),NCLUST
DATA ITH /32/,ITH2/64/, ISW. /0/, MTH /4/
COMPUTE LOGS (FIRST TIME ONLY)
IF(ISW-NB.O) GO TO 5 . ·
CALL ADCON -. .
- ISW=I ...
• DO 4 I=I, 256
LOG(I)=7iLOG2(X)*32
CONTINUE
40982870763
MEASURE NOISE
CONTINUE ■ ' - ' DO 12 1=1,7
• 12 NOIS(I)=O DO 20 1=1,8
CALL ADCIN (IA (1,1)) IP(IA(I,1).LT.-1000) GO TO 5432
DO 29 J=I,7 NOIS (J)=NOIS (J)+IA (σ, 1)
CONTINUE DO 30 1=1,7 NOIS(I)=NOIS(I)/8
CONTINUE
INNER LOOP
IBEG=MTH • 48 K=-l
IASUK=O DO 4SI I=I,MTH
CALL TPMONI(IA(I,I) t I)
IASUM=IASUM+IA(1,I)
CONTINUE
I=MTH MAXOPP=O 1
EQUIVALENT OF PHONIN GOES HERE CALL TPHONI(IA(1,1),I)
- IASUM=IaSUM=IA(1,1)-IA(1,1-4)
CONTROL SECTION IP(LGT. 120) GO TO KG0=K+2
GOTO (55,60,65,58} SKGO
K IS STATE COUNTER
STATE | * | K | IF | THEN | NEW STATE | BEGIN |
BEGIN | -1 | SILENCE | RESET I | BEGIN | ||
NOISE = | IP(I.GT.7) | VERIFY | ||||
NORM | 0 | SILENCE | IEND=I | END | STOP | |
NOISE | — | NORM | ||||
END | +1 | SILENCE | IP(I-IEND.GE | .25) | ||
NOISE | — | NORM | ||||
409828/0763
STOP
VERIFY BEGIN +2
VERIFY BEGIN +2
IF(IEND.LT.30) RESET 1 BEGIN
>ITH2... · - ■ . NORM. IF (I.GT.16) - . BEGIN
BEGIN STATE . ' -
55 IF (IASÜM/MTI5.GT.ITH) GO TO 56
DO 53 J=I,MTH
53 IA(I,J)=IA(I,J+l) ·"
GO TO 49 . *
56 ΙΓ(Ι.ΙιΕ/7Η·ΜΤΗ) GO TO 50
K=2
. GO TO 50
VERIFY BEGIN ·
58 IF(IASUM/MTH.LT.ITH2) GO TO 59
K=O . ·
GO TO 50 -
59 IF(I-KTH.GT.16) K=-l
IF (IA SUM/ϊ-ΤΓΗ. LT . ITH) K=I · :
GO TO 50 . .
NORl-LAL STATE
60 IF (IASUM/MTH.GT.ITH) GO TO 50
IF (MAXOFF.LT.IASUM/MTH) MAXOFF=IASUM/MTH
IEND=I-I
K=I
GO TO 50
END STATE
'65 IF (IASUM/MTH.LE.ITII) GO TO 66
K=O
GO'TO 50
66 IF(I-IEND-25) 50,70,70
66 IF(I-IEND-25) 50,70,70
STOP
70 IF(IEND.LE.30) GO TO 48
RETURN
75 IEND=120 ν
RETURN END
Der Vergleich zwischen den erzeugten Merkmalsfolgen und den Merkmalsfolgen im Rechnerspeicher wird durch die Funktion
NREG wie folgt durchgeführt:
- 16 -
409828/0763
■ ' 23635
FUNCTION NREC(IDUMMy)
COMMON /INPRE/ MATRIX(29,29),IA(7,120),KCENT(7,29),NCLUST
COMMON /INREC/IUTTER(120),IBEG,IEND,MAXOPP
COMMON/LRKREC/ITEMPL (72,54), ΝΛΜΕ (13,54), LENGTH (54) , NTEMP, IUTT
CALL NORMAL(IUTTER,IBEG,IEND,IUTT) ·
MNSCOR = 10000 t ' '·
IF (NTEMP.EQ.O) NREC=O '
IF (Iv(TEMP. EQ. O) RETURN
DO 15 I=IxNTEMP ' ■./·.*
ITOT =0
DO 5 J=I,72 ■
ITOT = ITOT+MATRIX(ITEMPL(J,I),IUTT(J))
ISCOR =ITOT ...
IF (ISCOR.GE.FiNSCOR) GO TO 15
MNSCOR = ISCOR
INDEX =1
CONTINUE ·,
NREC = INDEX
IF (MNSCOR.GT.1000) NREC=O
RETURN
Es ist augenscheinlich, daß viele Änderungen der vorliegenden
Erfindung in Anwendung der gegebenen Lehre möglich sind«
Es soll daher hervorgehoben werden, daß innerhalb der Ansprüche die Erfindung auch auf andere Weise ausgeführt werden
kann, als sie hier speziell beschrieben wurde.
- 17 409828/07 6 3
Claims (12)
- PatentansprücheWorterkennungssystem zum automatischen Identifizieren gesprochener Äußerungen, gekennzeichnet durch ein Mikrophon (2) zur Umwandlung der gesprochenen Äußerungen in Audiosignale, eine Filteranordnung (12) für die Audiosignale, die diese in η Bänder aufteilt, eine Einrichtung zum Bestimmen eines Stimmkurvenverlaufs, dio eine Serie von Punkten in Bezug auf Zeitabschnitte in der Zeitdauer eines jeden Audiosignals aufbaut, wobei diese Punkte durch Korodinaten definiert sind, von denen jede die Energiestufen bezüglich eines entsprechenden Energiebandes darstellt, sodaß die Punkte in einem n—dimensionalen Raum liegen, weiterhin durch eine Einrichtung zur Kennzeichnung jedes "Kurvenpunktes mit den Kennungen von Referenzpunkten, die zuvor im Raum zugeordnet wurden, wodurch eine Kennungsfolgedarstellung einer jeden Äußerung erzeugt wird, weiterhin durch eine Vorrichtung zum Speichern und Erzeugen von zuvor zugeordneten Kennungsfolgen für ein Lexikon gespeicherter Äußerungen, und schließlich durch eine Einrichtung zum Vergleichen der erzeugten Kennungsreihen mit den gespeicherten Kennungsreihen zur Identifizierung der gesprochenen Äußerungen·
- 2. System nach Anspruch 1, dadurch gekennzeichnet, daß die Kennzeichnungsvorrichtung die Kennung des nächsten Referenzpunktes jedem der Kurvenpunkte zuordnet.- 18 -409828/0 7 63
- 3. System nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß außerdem eine Zeitintegriereinrichtung (14)' für die Audiosignale vorgesehen ist«
- 4. System nach wenigstens einem der Ansprüche 1 bis 3» dadurch gekennzeichnet, daß weiterhin eine Normiereinrichtung zur Normierung der Energieniveaus der betreffenden Filterbänder vorgesehen ist.
- 5. System nach wenigstens einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß eine Einrichtung zum Feststellen des Endes (Endendetektor) ^eder Äußerung vorgesehen ist.
- 6. System nach Anspruch 5? dadurch gekennzeichnet, daß der Endendetektor eine Einrichtung zur Außerachtlassung vom Endkonsonanten enthält»
- 7· System nach wenigstens einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß die Kennungen Merkmale (»Lettern) sind, und daß die Kennungsfolgen daher Merkmals- (Lettern-) folgen sind.
- 8« Verfahren zur automatischen Erkennung gesprochener Äußerungen, gekennzeichnet durch folgende Schritte:Umwandlung der gesprochenen Äußerungen in Audiosignale,Filterung der Audiosignale in η Frequenzbänder- 19 -4 09828/07632363530Umreißung eines Stimmkurvenverlaufs, der eine Serie von Punkten in Bezug auf Zeitabschnitte während der Dauer jedes Audiosignals bildet, wobei jeder Punkt durch entsprechende Koordinaten festgelegt ist, die die Energiestufen eines zugehörigen Energiebandes darstellen, um den Kurvenverlauf in einem ri-dimensionalen Raum festzulegen,Kennzeichnung jedes Kurvenpunkts durch die Kennungen von zuvor im Raum zugeordneten Referenzpunkten, hieraus Erzeugung einer Kennungsfolgedarstellung für jede Äußerung, Speicherung von zuvor zugeordneten Kennungsfolgen für ein Lexikon von gespeicherten Äußerungen, und schließlich"Vergleichen der erzeugten KennungsfOlgen- mit den gespeicherten Kennungsfolgen zur Identifizierung der gesprochenen Äußerungen.
- 9· Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß bei der Kennzeichnung die Punkte des Kurvenverlaufs mit der Kennung des nächsten Referenzpunktes versehen werden,
- 10. Verfahren nach Anspruch 8 oder 9, dadurch gekennzeichnet,daß außerdem eine Normierung der Energieniveaus der betreffenden ausgefilterten Frequenzbänder vorgenommen wird.- 20 -409828/07632363530
- 11. Verfahren nach wenigstens einen» der Ansprüche 8 bis 10, dadurch gekennzeichnet, daß außerdem das Ende jeder
Äußerung festgestellt wird. - 12. Verfahren nach wenigstens einem der Ansprüche 8 bis 11, dadurch gekennzeichnet, daß bei der Endenfeststellung Endkonsonanten bestimmter Länge außer Acht gelassen werden.13- Verfahren nach wenigstens einem der Ansprüche 8 bis 12, "dadurch gekennzeichnet, daß Audiosign^Ie zeitintegriert werden,4098 2 8/0763
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US32150073A | 1973-01-05 | 1973-01-05 |
Publications (1)
Publication Number | Publication Date |
---|---|
DE2363590A1 true DE2363590A1 (de) | 1974-07-11 |
Family
ID=23250859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19732363590 Pending DE2363590A1 (de) | 1973-01-05 | 1973-12-20 | Spracherkennungssystem mit merkmalsfolgekodierung |
Country Status (9)
Country | Link |
---|---|
JP (1) | JPS49103509A (de) |
AU (1) | AU6422074A (de) |
BE (1) | BE809401A (de) |
DE (1) | DE2363590A1 (de) |
ES (1) | ES422035A1 (de) |
FR (1) | FR2213553A1 (de) |
GB (1) | GB1433770A (de) |
IT (1) | IT1007572B (de) |
NL (1) | NL7400088A (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2659096A1 (de) * | 1975-12-29 | 1977-07-07 | Dialog Syst | Verfahren und vorrichtung zur spracherkennung |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2720666A1 (de) * | 1977-05-07 | 1978-11-09 | Philips Patentverwaltung | Verfahren und anordnung zur geraeuschanalyse |
CH635695A5 (de) * | 1978-08-31 | 1983-04-15 | Landis & Gyr Ag | Detektor zur feststellung der anwesenheit mindestens eines elektrischen signals mit einer vorbestimmten charakteristik. |
JPS5688199A (en) * | 1979-12-21 | 1981-07-17 | Hitachi Ltd | Pattern pretreatment method in voice identifier |
JPS5697337A (en) | 1979-12-31 | 1981-08-06 | Minolta Camera Co Ltd | Voice control camera |
-
1973
- 1973-12-19 GB GB5882573A patent/GB1433770A/en not_active Expired
- 1973-12-20 DE DE19732363590 patent/DE2363590A1/de active Pending
- 1973-12-28 JP JP439874A patent/JPS49103509A/ja active Pending
-
1974
- 1974-01-03 NL NL7400088A patent/NL7400088A/xx unknown
- 1974-01-03 IT IT1903974A patent/IT1007572B/it active
- 1974-01-04 AU AU64220/74A patent/AU6422074A/en not_active Expired
- 1974-01-04 FR FR7400291A patent/FR2213553A1/fr not_active Withdrawn
- 1974-01-04 ES ES422035A patent/ES422035A1/es not_active Expired
- 1974-01-04 BE BE139523A patent/BE809401A/xx unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2659096A1 (de) * | 1975-12-29 | 1977-07-07 | Dialog Syst | Verfahren und vorrichtung zur spracherkennung |
Also Published As
Publication number | Publication date |
---|---|
AU6422074A (en) | 1975-07-10 |
JPS49103509A (de) | 1974-10-01 |
NL7400088A (de) | 1974-07-09 |
BE809401A (fr) | 1974-05-02 |
FR2213553A1 (de) | 1974-08-02 |
ES422035A1 (es) | 1976-12-16 |
IT1007572B (it) | 1976-10-30 |
GB1433770A (en) | 1976-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE4397106B4 (de) | Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung | |
DE10042944C2 (de) | Graphem-Phonem-Konvertierung | |
DE3884880T2 (de) | Billige Spracherkennungseinrichtung und Verfahren. | |
DE69010941T2 (de) | Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache. | |
DE3878001T2 (de) | Spracherkennungseinrichtung unter anwendung von phonemermittlung. | |
DE19847419A1 (de) | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung | |
DE3852678T2 (de) | Mustererkennung. | |
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE2347738A1 (de) | Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben | |
WO1998011537A2 (de) | Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem | |
DE3416238A1 (de) | Extremschmalband-uebertragungssystem | |
EP1214703B1 (de) | Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese | |
EP0285221A2 (de) | Verfahren zum Erkennen kontinuierlich gesprochener Wörter | |
EP1264301B1 (de) | Verfahren zur erkennung von sprachäusserungen nicht-muttersprachlicher sprecher in einem sprachverarbeitungssystem | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese | |
DE4031638A1 (de) | Spracherkennungseinrichtung | |
EP0285222B1 (de) | Verfahren zum Erkennen zusammenhängend gesprochener Wörter | |
EP1182646A2 (de) | Verfahren zur Zuordnung von Phonemen | |
DE3853702T2 (de) | Spracherkennung. | |
EP1282897A1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems | |
DE2363590A1 (de) | Spracherkennungssystem mit merkmalsfolgekodierung | |
EP1224661B1 (de) | Verfahren und anordnung zur verifikation eines sprechers anhand eines rechners |